前言:在经过漫长的4年开发期之后,众望所归的Fermi“费米”架构GPU终于诞生,这款GPU身上凝聚了众多“第一”,打破了很多芯片设计的世界记录。而更为深远的意义在于,代号GF100的Fermi架构GPU产品,在保持图形性能的前提下,将通用计算的重要性提升到前所未有的高度。我们根据最近收集的资料,与所有关注显卡、关注游戏、关注通用计算的网友一起探寻Fermi架构的设计方向和性能特性。同时,我们共同期待两家厂商酝酿已久的GPU对决。现在离Fermi最后的发布,仅有1天时间,让我们共同期待。
Fermi“费米”架构第一印象
●一块40nm工艺,30亿个晶体管的大芯片
由于庞大的运算资源、控制资源和缓存资源的加入,Fermi在设计之初,就没有考虑过小芯片战略,因为这是不可能做到的。所以即将登场的,是一块集成度高达30亿个晶体管的单管芯封装芯片,这是半导体工业的奇迹。
●基于图形,但超越图形的GPU设计方案
Fermi的众多特性,已经明明白白告诉用户,这不是仅为游戏或者图形运算设计的GPU,而是面向图形和通用计算综合考虑的成果。全局ECC设计、可读写缓存、更大的shared memory、甚至出现了分支预测概念……这次Fermi抛弃长期使用的“流处理器”称谓方式,更明确体现了NVIDIA的意图。
●一块4核心的GPU,因为它包含4个GPC
GF100拥有这样的三层分级架构:4个GPC、16个SM、512个CUDA核心。每个GPC包括4个SM,每个SM包括32个CUDA核心。你可以认为GF100是一颗4核心(GPC)处理器,因为这个GPC几乎是全能的。
●更大更全的缓存
GF100核心,除同样拥有12KB的L1纹理缓存之外,其拥有真正意义的可读写L1缓存和L2缓存。GF100核心的设计思路直接导致GPU中首次出现了64KB的RAM支持可配置的shared memory和L1缓存。
●Tessellation细分曲面单元引入,带来几何性能大幅提升
在这之前,3D显卡的几何性能的提升过程是非常缓慢的,从GeForce FX 5800到GeForce GTX 285,显卡的像素渲染能力提升了超过150倍,但是几何性能仅仅提升了不到3倍。DirectX 11要求的硬件Tessellation单元改变了这样的状况,Fermi更是将细分曲面单元做到了你不可思议的规模。
●TMU和ROP等后端单元的增强
代号RV770的HD4870是AMD非常成功的一款产品,它用最小的晶体管消耗,打击了对手NVIDIA的痛处——GPU后端设计。所以我们看到在开启高倍AA等效果时,后端强大的GPU性能衰减能够得到有效控制。这次Fermi架构重点增强了GPU后端设计,而且力度不小。
●底层计算单元不断改进
毫无疑问,G80到GT200以来,NVIDIA的MIMD架构流处理器设计一直是图形芯片中效率最高的,虽然它很耗费晶体管,但是以最后实际性能衡量,还是很划算的。这次Fermi延续了这种设计,但是在计算单元和周边资源方面做了扩充,更高精度和更小性能衰减是永远的目标。
●GPU设计更贴近应用,也更偏向CPU
Fermi放弃了GPU固有的简洁明快的设计理念,转而向更深层次发展,但是更强的线程控制能力和周边资源的充沛度,已经让Fermi打开了“潘多拉魔盒”……NVIDIA如果能应付得了这些问题,将在GPU领域取得一系列突破,如果应付不了各种扑面而来的问题,这种设计所付出的代价有可能拖垮NVIDIA整个公司。
濮元恺所写过的技术分析类文章索引(持续更新) | |||
显卡只能玩游戏? 10年GPU通用计算回顾 |
|||
别浪费你的电脑 分布式计算在中国 |
Computex独家泄密 解析AMD下代GPU |