
Nvidia GeForce GTX 590
Arquitetura GF110
Com a Fermi, os engenheiros da NVIDIA empregaram todo o seu conhecimento adquirido ao longo das duas últimas gerações, bem como todos os aplicativos, e desenvolveram uma abordagem totalmente nova de design para criar a primeira GPU computacional do mundo.
Conforme mencionado no início desta review, o GF110 é uma versão baseada e aprimorada do GF100. Podemos dizer que os engenheiros da NVIDIA tiraram “leite de pedra” da arquitetura Fermi. Graças a toda uma nova reengenharia pelo que passou o chip, com a utilização de transistores com menos perda de energia e dispostos em um novo arranjo físico, uma VGA equipada com chip GF110 consegue um maior desempenho com menor consumo que uma placa com o GF100.
Desta forma, a NVIDIA finalmente se viu “impedida” de construir uma placa 3D composta de duas GPUs de alto desempenho, uma vez que os fatores consumo de energia e dissipação de calor estavam agora sob controle.

Abaixo alguns pontos-chaves da arquitetura Fermi:
• Otimização na Performance de Precisão Dupla: Enquanto a performance de ponto flutuante de precisão única foi da ordem de dez vezes o desempenho dos processadores, algumas aplicações de computação por GPU necessitam de mais desempenho de precisão dupla;
• Suporte à ECC: O chamado ECC (Error-Correcting Code memory em tradução livre, código de correção de erro de memória) se encarrega de fazer os devidos testes e correções de erros de forma automática, muitas vezes de forma transparente e imperceptível ao sistema operacional. Assim, abre-se espaço para a utilização, de forma segura, de uma grande quantidade de GPUs em Data Centers, garantindo uma maior confiabilidade em sistemas críticos, tais como aplicações médicas, financeiras e militares;
• Hierarquia de Memória Cache Real: Alguns algoritmos paralelos eram incapazes de usar a memória compartilhada da GPU, de forma que os usuários solicitaram uma arquitetura real para ajudá-los nos desenvolvimentos das tarefas e programas;
• Mais Memória Compartilhada: Muitos programadores do ambiente CUDA solicitaram mais de 16 KB de memória compartilhada para os Streaming Multiprocessors como forma de acelerar as aplicações;
• Alternância de Contexto Mais Rápida: Muitos usuários desejavam uma alternância de contexto mais veloz entre aplicações e interoperações de computação e gráficos;
• Operações Atômicas mais Velozes: Os programadores necessitavam de operações atômicas de leitura-modificação-escrita mais velozes para se adequarem aos algoritmos paralelos.
Como resultado dos preceitos acima, a equipe de desenvolvimento da Fermi projetou um chip com imenso “poder de fogo”, trazendo ainda muitas inovações tecnológicas e que oferece um alto grau de programação e eficiência computacional.
Na verdade, o que a NVIDIA fez foi aperfeiçoar o GF100, de tal forma que fosse possível disponibilizar um chip com todo o poder da arquitetura Fermi, ou seja, com todos os 512 CUDA Cores ativos. Com a mesma estrutura de computação conjugada MIMD (Múltiplas Instruções, Múltiplos Dados) com os mesmos três bilhões de transistores em uma área aproximada de 530mm², portanto idêntica ao GF100, o GF110 teve ainda o benefício de herdar um amadurecimento no processo de fabricação – algo semelhante ao novo stepping pelo que passa um processador, mantendo as mesmas características básicas, como o clock, mas com um menor TDP (consumo de energia).
Como pode ser visto acima, na estrutura de processamento “host interface” (responsável por gerenciar os comandos do processador) há um grande bloco chamado pela NVIDIA de “Gigathread Engine”, composto de 4 GPCs (Graphics Processing Clusters), 6 controladores de memória, partições ROPs e cache L2 com 768KB. Vale ressaltar que cada GPC, que são na realidade grandes unidades de processamento e se comportam como mini GPUs independentes, possui quatro unidades de Streaming Multiprocessor (SMs), que por sua vez são compostas por 32 CUDA Cores. Desta forma, a GF110 é composta por 512 Shaders Processors (4 GPCs x 4 SMs x 32 CUDA Cores). Por se tratar de uma VGA dual-GPU, a GeForce GTX 590 conta assim com um total de 1.024 (2x512) CUDA Cores.
Em relação à quantidade de unidades de rasterização, a GF110 possui os mesmos 48 ROPs da GF100. Isso ocorre porque essas unidades estão arranjadas de um bloco funcional em separado dos Stream Processors. Assim, a GTX 590 tem 96 ROPs (2x48). Em se tratando das unidades de texturização das memórias, o chip GF110 tem 64 TMUs contra 60 do GF100. Esse aumento deu-se, novamente, em virtude da ampliação na quantidade de unidades de Stream Processors de 15 para 16, uma vez que cada SM conta com 4 TMUs, ou seja: 16 SMs x 4 TMUs = 64 TMUs contra 15 SMs x 4 TMUs = 60 TMUs. Mais uma vez, por estarmos falando de uma placa equipada com dois chips GF110, sua quantidade global de unidades de texturização é de 128 TMUs (2x64).
Em contrapartida aos Combinadores de Registros, Unidades de Shaders e Shaders Cores presentes nas gerações passadas, os novos CUDA Cores são o que existem de “última palavra” em termos de tecnologia. Tratam-se de unidades autônomas capazes de processar múltiplas instruções e múltiplos dados (arquitetura MIMD), em oposição ao SIMD (instrução única, múltiplos dados). Assim, os 512 CUDA Cores consistem de unidades de despachos, coletores de operações, duas unidades de processamento (inteiros e pontos flutuantes) e registradores de filas de resultados.
Além disso, há ainda as unidades Warp Scheduler e Master Dispatch que se alimentam de arquivos de registros (Register Files) imensos (32.768 entradas de 32-bit – o arquivo de registro pode aceitar formatos diferentes ou seja, 8-bit, 16-bit etc). O cluster SM possui ainda quatro TMUs, cache de textura e o mais importante de tudo: Polymorph Engine.
As unidades de Polymorph Engine foram introduzidas na Fermi para lidar com uma enorme carga de trabalho advinda das novas tecnologias, como é o caso da API gráfica DirectX 11. Talvez a principal delas seja a badalada técnica de aprimoramento da qualidade das imagens, conhecida como Tessellation (Tess), onde aumenta-se de forma quase que exponencial a quantidade de triângulos em uma cena, exigindo assim o máximo da GPU.
Eis aqui um dos principais pontos geradores de discussão pela a web, já que AMD e NVIDIA possuem abordagens diferentes sobre o uso do Tessellation. Enquanto a AMD afirma que o uso em demasiado do recurso degrada sobremaneira a performance das VGAs sem trazer melhoras visuais perceptíveis, a NVIDIA diz o contrário, defendendo que, quanto maior a utilização do Tess, maior será a qualidade das imagens.
Ao que parece, não se trata de quem está com a razão, mas sim, quem está puxando a “sardinha para a sua brasa”. Pelo visto, cada empresa está defendendo o seu ponto de vista de acordo com os seus interesses, ou melhor, com os seus pontos fortes. É fato que as GeForces da geração Fermi se saem muito melhor que as Radeons da geração Evergreen (série 5000) em se tratando de Tessellation. O segredo está em suas arquiteturas. Enquanto as Radeons 5000 contam com apenas uma única unidade de processamento dedicada ao Tess, a NVIDIA equipou as novas GeForces com um conjunto de várias unidades, como é o caso da GeForce GTX 590, que conta com um total de 32 Polymorph Engines (16 por GPU).
Embora a AMD tenha ampliado e aprimorado a unidade de processamento do Tessellation nas Northern Islands (Radeons 6000), prometendo ganhos de até 200% sobre as 5000, ainda assim, o fato destas contarem com apenas duas unidades (a Radeon 6990 possui quatro) é fator decisivo em favor das GeForces.
Apesar de utilizar a mesma configuração Streaming Multiprocessor do GF100, o GF110 recebeu dois aprimoramentos-chave na arquitetura como forma de trazer mais performance. Para começar, o novo chip suporta agora toda a velocidade do filtro de textura FP16, o que acelera o processamento de certas aplicações/imagens com muitas texturas. Outra melhoria foi a adição do suporte a novos formatos de polígonos que aprimoram a eficiência do Z-cull. De acordo com a NVIDIA, essas “simples” novidades aprimoraram o desempenho da placa em até 15% em certas condições de alguns jogos.
Assim como o GF100, o GF110 suporta o filtro de antialiasing modo 32x CSAA (8+24x), com 33 níveis de transparência, com expressivo ganho de desempenho sobre a GT200 (GeForce GTX 295). O melhor de tudo é que, segundo a NVIDIA, a degradação da performance será muito pouca em relação ao modo tradicional em 8X, variando entre 8-15%. Para quem critica e acha que a utilização de filtro de AA acima de 8x não traz ganho visível, segue abaixo uma prova, seguindo o pensamento de que uma imagem vale mais que mil palavras.
De acordo com Henry Moreton, engenheiro da NVIDIA, o cache L1 da Fermi pode ultrapassar a impressionante marca de 1,5TB/s de largura de banda. Valor muito semelhante ao que chega a L2.
Ainda dentro do assunto memória, a arquitetura da Fermi é composta de seis partições de 64 bits, resultando assim em um total de 384 bits de interface de memória! Ao todo, a Fermi é capaz de suportar até 6GB de VRAM, embora a GTX 590 conte com “apenas” 3GB (1,5GB por GPU).
acompanhar comentários | reportar erro | envie sua notícia
índice do conteúdo
SEÇÕES
ANÁLISESCOPYRIGHT © 2013 ADRENALINE.COM.BR. TODOS OS DIREITOS RESERVADOS. ADRENALINE É UMA MARCA REGISTRADA DA ADRENALINE LTDA.