N卡第二、三次GPU统一架构设计革新

显卡帝教你读懂GPU架构图轻松做达人

CBSi中国·ZOL 作者：中关村在线唐磊 责任编辑：林光楠【原创】 2011年07月12日 05:00 评论

N卡第二、三次GPU统一架构设计革新

GPU架构的革新其实和CPU架构的革新很相似，比如说Tick-Tock（工艺年-构架年）模式。Tick-Tock（工艺年-构架年）是英特尔所提出的芯片技术发展战略模式，Tick-Tock：奇数年更新制作工艺，偶数年更新微架构。其实在GPU的研发过程中也同样是借鉴到了这种Tick-Tock模式。

Tick工艺年里，G92和RV670在核心架构上并无太大改动，而主要体现在工艺制程的革新。

显卡帝手把手教你读懂GPU架构图
G92和RV670：核心架构没有任何变化

●N卡第二次GPU统一架构设计革新

而真正的核心架构革新当属GT200架构核心的推出，即NVIDIA第2代统一架构核心。

GT200构架图

    GT200在结构上与G80具有一定的传承性。他们的前端构造是基本相同的，整体来讲两者之间大部分的区别来自于规模上的差异。GTX200核心微架构给我们主要带来如下改进：
    一、 每个SM可执行线程上限提升：G80/G92核心每个SM（即不可拆分的8核心流处理器）单元最多可执行768条线程，而GTX200核心的每个SM可执行高达1024条线程，同时GTX200还拥有更多的SM单元，故而芯片性能实力是之前的2.5倍。
    二、 每个SM单元的指令寄存器翻倍：GTX200与G80核心在SM单元结构上基本相同的，但功能有所提升，在执行线程数增多的同时，NVIDIA还将每个SM单元中间的Local Memory容量翻倍（从16K到32K）。Local Memory用于存储SM即将执行的上千条指令，容量增大意味着可以存储更多的指令、超长的指令、或是各种复杂的混合式指令，这对于提高SM的执行效能大有好处。
    三、增加了atomic单元以及SIMT特性：atomic单元的添加使得GT200具备了原子操作的能力，atomic单元和原子操作的引入也为未来NVIDIA构架最终实现并行化设计起到了关键的先导作用；SIMT特性的引入则可以使得程序员在进行指令搭建的过程中无需考虑GPU究竟是SIMD还是MIMD，从而将性能优化的方向专注于shader的拆分，合并，灵活搭配以及Thread管理方面。

GT200与G80的异同

●N卡第三次GPU统一架构设计革新

NVIDIA的GF100架构核心可谓是一款“千呼万唤始出来”的GPU，可能是因为40nm制程良品率不足或者是NVIDIA希望力求打造一颗在DX11和GPU通用计算方面都相当完美的核心，所以这款GPU真的让玩家等的太就了。

GF100架构设计

整体上看GF100核心架构，大致由四块组成，而这四大块就是GPC（Graphics Processing Cluster，图形处理器簇），每个GPC单元都包含独立的几何引擎以及光栅化流水线，GPC模块之间透过新加入的L2 cache进行通讯、kernel和Thread的协调以及数据共享。这无疑使得GF100的三角形吞吐量有了将近300%的提升，也实现了并行的分块化的渲染动作，更使得DirectX 11所要求的TS单元直接融入到了整个光栅化流水线内部。

Polymorph Engines和Raster Engines在GF100中的设计

同时，我们在GF100核心架构图和SM架构图上可以看到，相比G80/92和GT200核心架构多了Polymorph Engines和Raster Engines功能模块。那么这两个模块有什么作用了？

多形体引擎（PolyMorph Engine）

多形体引擎则要负责顶点拾取（Vertex Fetch）、细分曲面（Tessellation）、视口转换（Viewport Transform）、属性设定（Attribute Setup）、流输出（Stream Output）等五个方面的处理工作，DX11中最大的变化之一细分曲面单元（Tessellator）就在这里。Fermi GF100产品中有16个多形体引擎，每个SM一个，或者说每个GPC拥有四个。

光栅引擎（Raster Engine）

光栅引擎严格来说光栅引擎并非全新硬件，只是此前所有光栅化处理硬件单元的组合，以流水线的方式执行边缘/三角形设定(Edge/Triangle Setup)、光栅化(Rasterization)、Z轴压缩(Z-Culling)等操作，每个时钟循环周期处理8个像素。GF100有四个光栅引擎，每组GPC分配一个，整个核心每周期可处理32个像素。

总而言之：GF100核心架构是自GPU进入DX10之后的最重大的一次架构革新，其在图形架构和并行计算架构方面都有着革命性的突破。我们在GF100身上看得到了高效、高针对性、贴近需求的GPU架构设计理念。