热点推荐
ZOL首页 > 显卡 > 评测 > 1000元以上 >

GTX480/GTX470身份亮相 蓄势待发

Fermi秘史 揭秘难产核心前生今世的故事

CBSi中国·ZOL 作者:中关村在线 林光楠 责任编辑:林光楠 【原创】 2010年03月01日 06:36 评论

GTX480/GTX470身份亮相 蓄势待发

        NVIDIA下一代图形核心以Fermi作为代号,而实际产品型号一直被广大网友猜测为GeForce GTX 300系列,最顶级产品将会叫做GeForce GTX 380。会有这样的猜测,主要是根据NVIDIA以往产品的命名规则而得。不过遗憾的是,这次NVIDIA并没有按套路出牌,基于Fermi图形核心的GeForce顶级系列产品命名为GeForce GTX 480和GeForce GTX 470。

        关于GeForce GTX 400系列产品性能众说纷纭,有说能与Radeon HD 5970抗衡,有说比Radeon HD 5870强30%,不过无论怎样笔者分析,既然已经比对手晚出半年之久,强是理所当然的,但强多少是用户和NVIDIA都非常关心的。

        我们知道,在核心架构及规格确定的前提下,频率是最直接影响性能的参数,但同时频率的高低同时影响产品功耗及温度,最终影响产品返修率。为了达到稳胜前提下,又能保证功耗、温度及返修率的平衡性,NVIDIA目前还没有最终确定GeForce GTX 480和GeForce GTX 470频率,甚至有消息称GeForce GTX 470的频率将在即将开展的CeBIT 2010上才公布,足见NVIDIA的谨慎性。

        ● 核心架构浅析 Fermi并非GT200高规格版

        我们知道直接影响性能的参数当属硬件规格和产品频率,但是高规格和高频率的实现必须由晶体管来足见完成,GT200第一批产品是一个采用65nm制程的14亿晶体管庞然大物,由于成本、性能等各方面的考虑,在2009年1月推出了55nm制程的GT200核心,但核心面积依然庞大。反观对手AMD,在核心制程上一直走在前沿,例如Radeon HD 5000系列直接使用40nm制程,即使最高规格的RV870拥有21.5亿核心面积也仅为330mm2


Fermi秘史 揭秘难产核心前生今世的故事
Fermi GF100设计架构

        众所周知,Fermi为了达到更高的性能将使用30亿晶体管,如果NVIDIA一如既往的保守采用成熟的低制程,将会重蹈GT200覆辙,所以Fermi方面NVIDIA从设计之初就决定使用40nm工艺。虽然出发点是好的,但无奈GPU代工生产方台积电良率过低,彻底延误了NVIDIA下一代产品的推进进度。

        不过无论怎样还是让我们了解一下Fermi GF100的核心硬件规格:

①标配512个CUDA Cores(也就是我们常说的流处理器);
②拥有16个Polymorph Engines(下文会对其进行简介);
③拥有4个Raster Engines(下文会对其进行简介);
④拥有64个纹理单元;
⑤拥有48个ROP单元(光栅处理器);
⑥拥有384位GDDR5内存控制器。

        ●由繁化简 GF100结构组成细说

        我们可以这样认为NVIDIA的第一代CUDA机构是从G80开始延伸至GT200,而Fermi将是第二代CUDA架构产品。G80核心的诞生奠定了NVIDIA未来核心架构的主方向,并一直延续至GT200,当然在发展的过程中NVIDIA还是会对核心整体进行优化调整,但总体来说就是累积晶体管增加硬件规格,功能方面并无变化。反观Fermi,核心硬件规格数量相比GT200确实也有大幅增长,但是在产品整体架构上Fermi做了很大改动,可以说是颠覆性改动,它不仅仅是借鉴的以前的成熟架构体系,还调整并在架构上新增功能模块,令Fermi不再简简单单的是图形核心,而是一个复合型功能核心。

Fermi秘史 揭秘难产核心前生今世的故事
NVIDIA Fermi GF100 SM架构

        在NVIDIA产品进入DirectX 10的统一架构后,我们看到核心中引入了TPC(Thread Processing Cluster)、SM(Streaming Mulitporcessor)和SP(Streaming Processor)等新概念。例如,G80拥有8个TPC,每个TPC拥有2个SM,每个SM拥有8个SP,这种由繁化简的结构一直延续在NVIDIA的图形产品中。那么Fermi GF100呢?下面笔者用表格进行一个汇总:

理 论 性 能 测 试
  G80 G92 GT200 GF100
每颗GPU含TPC数量 8 TPCs 8 TPCs 10 TPCs 4 GPCs
每个TPC含SM数量 2 SMs 2 SMs 3 SMs 4 SMs
每个SM含SP数量 8 SPs 8 SPs 8 SPs 32 SPs

        通过上面的GF100 SM架构图以及各代顶级芯片的组成我们可以看出,SM矩阵数量在减少(上表中的GPC和TPC),而每个GPC中SM数量和每组SM中SP数量在增加。在这中架构设计理念上GF100虽然是延续了G80的组成设计,但是每个组成模块的数量优化上有了大幅改变。

Fermi秘史 揭秘难产核心前生今世的故事
图片源于Anandtech

        当然仅是在数量优化上做改变还不能称为第二代CUDA架构,我们在GF100核心架构图和SM架构图上可以看到,相比G80/92和GT200核心架构多了Polymorph Engines和Raster Engines功能模块组。那么它们又是做什么的呢?

Fermi秘史 揭秘难产核心前生今世的故事
全新的Polymorph Engines和Raster Engines

         我们可以这样简单的理解,在数据处理流程中的一些功能模块现组成了现在的Polymorph Engines和Raster Engines。其中Polymorph Engines包括Vertex Fetch、Tessllator、Viewport Transform、Attribute Setup和Stream Output,Raster Engines包括Edge Setup、Raterize和Z-Cull。

Fermi秘史 揭秘难产核心前生今世的故事
GF100对比RV870 Tessellation性能

        值得一提的是DirectX 11中Tessellation功能是必不可缺的,而Tessellator并不是使用SP来完成,而是采用独立功能模块完成,在这一点上与AMD的做法一致。但不同的是,AMD的Tessellator采用串行计算模式,也就是说核心中只有一个Tessellator功能模块,数据计算从分配到接收Tessellator会成为瓶颈。反观NVIDIA的GF100核心,每组SM拥有一个Polymorph Engines,这也就意味着一个GF100核心拥有16个Tessellator功能模块,在Tessellation多数据并行计算方面GF100遥遥领先RV870。

Fermi秘史 揭秘难产核心前生今世的故事
Polymorph Engines和Raster Engines在GF100中的设计

        前文提过每组SM都会标配一个Polymorph Engines,同时每组GPC将独立拥有一个Raster Engines,这样的设计都是增加各种数据计算的并行效果,相比RV870的非Shader计算串行设计要优越很多。

        ● 真正缓存概念引入GPU

         为了增加计算单元的效能,缓存的概念引入到功能处理器中,例如CPU现在已经拥有L1、L2和L3三个等级缓存,而在GPU中缓存概念还是十分模糊。

Fermi秘史 揭秘难产核心前生今世的故事
GF100引入L2缓存

        为了增加GPU的计算能力和计算效率,NVIDIA工程师大胆的将缓存概念引入到GF100中,自然引入缓存势必需要大量晶体管完成,在这点上与CPU道理相同。为了在满足数据计算吞吐率的前提下,NVIDIA工程师为GF100设计了一套实用并灵活的L1和L2。

Fermi秘史 揭秘难产核心前生今世的故事
GT200与GF100缓存设计对比

        我们通过上面表格可以看到,在GT200核心中有L1纹理缓存、16KB共享内存和256KB的L2缓存。笔者需要说明的是GT200没有专用L1缓存,只有L1纹理缓存和只读L2缓存,也就是说GT200没有真正意义上的缓存概念。

        反观GF100核心,除同样拥有12KB的L1纹理缓存之外,其拥有真正意义的L1缓存和L2可读写缓存。就每组SM而言,每组SM拥有4个纹理单元共享12KB的L1纹理缓存,32个流处理器使用16KB L1缓存搭配48KB共享缓存或48KB L1缓存搭配16KB共享缓存两种组合,最后还有768KB超大L2缓存。

上一页 1 2 3 4 下一页
频道热词:华硕主板  Intel  AMD  
视觉焦点
显卡评测热点
排行 文章标题