热点推荐
ZOL首页 > 显卡 > 评测 > 1000元以上 >

N卡第二、三次GPU统一架构设计革新

显卡帝教你读懂GPU架构图 轻松做达人

CBSi中国·ZOL 作者:中关村在线 唐磊 责任编辑:林光楠 【原创】 2011年07月12日 05:00 评论

N卡第二、三次GPU统一架构设计革新

   GPU架构的革新其实和CPU架构的革新很相似,比如说Tick-Tock(工艺年-构架年)模式。Tick-Tock(工艺年-构架年)是英特尔所提出的芯片技术发展战略模式,Tick-Tock:奇数年更新制作工艺,偶数年更新微架构。其实在GPU的研发过程中也同样是借鉴到了这种Tick-Tock模式。

    Tick工艺年里,G92和RV670在核心架构上并无太大改动,而主要体现在工艺制程的革新。


显卡帝手把手教你读懂GPU架构图
G92和RV670:核心架构没有任何变化

    ●N卡第二次GPU统一架构设计革新

    而真正的核心架构革新当属GT200架构核心的推出,即NVIDIA第2代统一架构核心。

显卡帝手把手教你读懂GPU架构图
GT200构架图

    GT200在结构上与G80具有一定的传承性。他们的前端构造是基本相同的,整体来讲两者之间大部分的区别来自于规模上的差异。GTX200核心微架构给我们主要带来如下改进:
    一、 每个SM可执行线程上限提升:G80/G92核心每个SM(即不可拆分的8核心流处理器)单元最多可执行768条线程,而GTX200核心的每个SM可执行高达1024条线程,同时GTX200还拥有更多的SM单元,故而芯片性能实力是之前的2.5倍。
    二、 每个SM单元的指令寄存器翻倍:GTX200与G80核心在SM单元结构上基本相同的,但功能有所提升,在执行线程数增多的同时,NVIDIA还将每个SM单元中间的Local Memory容量翻倍(从16K到32K)。Local Memory用于存储SM即将执行的上千条指令,容量增大意味着可以存储更多的指令、超长的指令、或是各种复杂的混合式指令,这对于提高SM的执行效能大有好处。
    三、增加了atomic单元以及SIMT特性:atomic单元的添加使得GT200具备了原子操作的能力,atomic单元和原子操作的引入也为未来NVIDIA构架最终实现并行化设计起到了关键的先导作用;SIMT特性的引入则可以使得程序员在进行指令搭建的过程中无需考虑GPU究竟是SIMD还是MIMD,从而将性能优化的方向专注于shader的拆分,合并,灵活搭配以及Thread管理方面。

显卡帝手把手教你读懂GPU架构图
GT200与G80的异同

    ●N卡第三次GPU统一架构设计革新

    NVIDIA的GF100架构核心可谓是一款“千呼万唤始出来”的GPU,可能是因为40nm制程良品率不足或者是NVIDIA希望力求打造一颗在DX11和GPU通用计算方面都相当完美的核心,所以这款GPU真的让玩家等的太就了。

显卡帝手把手教你读懂GPU架构图
GF100架构设计

    整体上看GF100核心架构,大致由四块组成,而这四大块就是GPC(Graphics Processing Cluster,图形处理器簇),每个GPC单元都包含独立的几何引擎以及光栅化流水线,GPC模块之间透过新加入的L2 cache进行通讯、kernel和Thread的协调以及数据共享。这无疑使得GF100的三角形吞吐量有了将近300%的提升,也实现了并行的分块化的渲染动作,更使得DirectX 11所要求的TS单元直接融入到了整个光栅化流水线内部。

显卡帝手把手教你读懂GPU架构图
Polymorph Engines和Raster Engines在GF100中的设计

       同时,我们在GF100核心架构图和SM架构图上可以看到,相比G80/92和GT200核心架构多了Polymorph Engines和Raster Engines功能模块。那么这两个模块有什么作用了?

显卡帝手把手教你读懂GPU架构图
多形体引擎(PolyMorph Engine) 

        多形体引擎则要负责顶点拾取(Vertex Fetch)、细分曲面(Tessellation)、视口转换(Viewport Transform)、属性设定(Attribute Setup)、流输出(Stream Output)等五个方面的处理工作,DX11中最大的变化之一细分曲面单元(Tessellator)就在这里。Fermi GF100产品中有16个多形体引擎,每个SM一个,或者说每个GPC拥有四个。

显卡帝手把手教你读懂GPU架构图
光栅引擎(Raster Engine)

     光栅引擎严格来说光栅引擎并非全新硬件,只是此前所有光栅化处理硬件单元的组合,以流水线的方式执行边缘/三角形设定(Edge/Triangle Setup)、光栅化(Rasterization)、Z轴压缩(Z-Culling)等操作,每个时钟循环周期处理8个像素。GF100有四个光栅引擎,每组GPC分配一个,整个核心每周期可处理32个像素。

     总而言之:GF100核心架构是自GPU进入DX10之后的最重大的一次架构革新,其在图形架构和并行计算架构方面都有着革命性的突破。我们在GF100身上看得到了高效、高针对性、贴近需求的GPU架构设计理念。

上一页 1 2 3 4 5 6 7 下一页
频道热词:华硕主板  Intel  AMD  
视觉焦点
显卡评测热点
排行 文章标题
TOP10周热门显卡排行榜
  • 热门
  • 新品