A serie 20 de placas de vídeo GeForce da Nvidia introduz a nova microarquitetura Turing aos produtos para gamers, uma tecnologia que herda elementos introduzidos nos modelos baseados em Volta. Os novos chips gráficos são um conjunto de múltiplas tecnologias com diversas abordagens diferentes para tentar alcançar mais performance. As novas placas trazem uma litografia menor, em 12 nanômetros fabricados pela TSMC, porém há mudanças estruturais bem mais profundas para buscar novos patamares de performance e principalmente viabilizar novas tecnologias.


GPU TU102, a usada na RTX 2080 Ti

As principais novidades são divididas essencialmente em três frentes: 1) restruturações profundas dos núcleos CUDA com um novo Multiprocessador Streaming (SMs); 2) a introdução dos núcleos tensores (tensor cores) e 3) aceleração de alguns processos através da especialização do hardware com os núcleos RT (RT cores). 


A estrutura do Multiprocessador Streaming

Maior reformulação do CUDA

As Turing tem sido definida como a maior evolução nos chips gráficos Nvidia desde a introdução do CUDA, com a GeForce 8800 GTX lançada em 2006. Ela entrega uma performance em shadding até 50% superior ao disponível na microarquitetura antecessora, a Pascal, presente nas placas da série 10. Existem duas mudanças essenciais na estrutura para tornar isso possível: a primeira é que agora tem maior independência entre processamento de dados integrais (INT32) e de pontos flutuantes (FP32), tornando possível realizar esses tipos de operações de forma simultânea, extraindo assim mais desempenho de cada Multriprocessador Streaming. A segunda foi a unificação da memoria compartilhada, cache de textura e memory load caching. Isso ampliou em mais de 2x a largura de banda disponível no cache L1 para os fluxos de trabalho mais comuns.

Os núcleos Tensores

Além de um novo SM, surge uma nova estrutura no chip gráfico baseado em Turing. Os núcleos tensores (tensor cores) são uma porção especializada em realizar cálculos de matrizes, algo que acelera em muito a capacidade da GPU em realizar processos relacionados ao Deep Learning e Inteligência Artificial (AI). Isso torna possível para o chip entregar desempenho muito superior em ações relacionadas a redes neurais e inferências.

Com mais agilidade através desses núcleos, as placas da série 20 tornam viável usar novos filtros e tecnologias que explorem essa capacidade. Um dos usos já existentes é o Deep Learning Supersampling (DLSS), algo como superamostragem através do Deep Learning, em uma "parcial tradução livre". Ela explora a capacidade dos núcleos tensores em gerar uma imagem com maior resolução baseado em um quadro menor, e depois reduzir novamente a imagem para a resolução final desejada. Esse processo serve para reduzir problemas como bordas serrilhadas, e traz ganhos relevantes de desempenho comparado a técnicas de antisserrilhado tradicionais.

Essa técnica é um exemplo de como essa nova porção do chip pode ser utilizada, e há muitas demonstrações da Nvidia de outros métodos que podem ser aplicados através do deep learning, desde imagens com espaços borrados sendo preenchidos, vídeos de câmera lenta interpolando quadros ou ampliação de imagens com alta definição no resultado final.

Os núcleos RT

Sem dúvidas essa tecnologia é o grande apelo de marketing das placas RTX. O traçado de luz é uma técnica de renderização de imagens tridimensionais amplamente usada em animações cinematográficas, mas que trazem uma carga de trabalho gigantesca ao hardware, inviabilizando a produção de quadros em uma frequência alta o bastante para tornar o gameplay viável. Os núcleos RT são um componente especializado em alguns passos da fila de processamento do ray tracing, buscando reduzir em muito o tempo necessário para realizar todos os procedimentos para o cálculo dos raios de luz da cena. 


Ray tracing explicado pela Disney (mas infelizmente não o Pateta), em inglês

Os RT cores aumentam em muito a capacidade de realizar os procedimentos para gerar esses raios de luz nas placas GeForce. Como comparação, a GTX 1080 Ti, modelo topo de linha da geração anterior, é capaz de entregar até 1.1 bilhão de traçamentos de raios de luz a cada segundo, ou 1.1 giga ray/seg, enquanto a RTX 2080 Ti, com núcleos RT capazes de otimizar algumas etapas, entrega mais de 10 giga ray/seg.

Apesar do salto em performance, esse patamar de desempenho não é suficiente para implementar algo no nível de filmes em animação, que podem chegar a contagens insanas como 2000 traçamentos de luz para cada pixel e que leva horas para renderizar um quadro, apenas. Mas esse nível de performance é suficiente para direcionar o uso em cenários específicos onde a rasterização, principal técnica em uso atualmente, não se sai bem. Essas situações incluem objetos que refletem muita luz, como objetos cromados, que são transparentes, como água e vidro, ou mesmo na criação de sombras mais realistas.

NVLink e VitualLink

Outra modificação relevante das placas Turing tem a ver com a conectividade. As placas substituem o tradicional conector SLI por um novo padrão, o NVLink. Essa nova conexão tem um importante ganho de desempenho aumentando em muito a largura de banda de comunicação entre as placas, aumentando as especificações compatíveis para um teórico 8K@60FPS Surround, algo muito acima da capacidade inclusive de qualquer placa do mercado hoje (mesmo em combinação com outra) de entregar um gameplay viável.

Outra novidade na conectividade é uma porta USB Tipo-C na parte traseira, capaz de entregar 27W de energia. A função dessa conexão é viabilizar o uso do padrão VirtualLink, um consórcio entre múltiplas empresas que criam hardware e software para realidade virtual. O objetivo dessa conexão é facilitar o uso de óculos de realidade virtual ou aumentada, reduzindo o número de cabos necessários para ligar esse periférico.

Memórias GDDR6

Outra novidade das placas baseadas em Turing é o uso de memórias GDDR6. Essas memórias entregam um aumento no desempenho aumentando as taxas de transferência de 10Gbps (da GDDR5X usada em algumas placas Pascal) para 14Gbps com o novo padrão, tudo com uma eficiência energética 20% superior. A nova microarquitetura da Nvidia também trouxe melhorias na compressão dos dados nas memórias, usando algoritmos para definir diferentes padrões de compressão de acordo com o dado sendo transferido. Com mais largura de banda disponível e com uma maior compressão dos dados, as placas Turing conseguem um incremento de 50% na largura de banda efetiva disponível. 

Falando em memórias, a Nvidia também ampliou o L2 cache, subindo de 3MB como era na Titan Xp para 6MB, algo que traz um aumento na largura de banda disponível nesse cache.

Ok, e desempenho?

Essa é uma visão geral da microarquitetura Turing, porém só através de testes vamos descobrir o que esses recursos serão capazes de entregar, na prática. Ainda hoje temos um unboxing com o primeiro modelo GeForce RTX que chegou por aqui, e começaremos os testes para a produção da análise. Fique de olho no site e no nosso canal do YouTube para novidades!