Fermi架构GF100核心 新增强劲神器引擎
当然仅是在数量优化上做改变还不能称为第二代CUDA架构,我们在GF100核心架构图和SM架构图上可以看到,相比G80/92和GT200核心架构多了Polymorph Engines和Raster Engines功能模块组。那么它们又是做什么的呢?
全新的Polymorph Engines和Raster Engines
我们可以这样简单的理解,在数据处理流程中的一些功能模块现组成了现在的Polymorph Engines和Raster Engines。其中Polymorph Engines包括Vertex Fetch、Tessllator、Viewport Transform、Attribute Setup和Stream Output,Raster Engines包括Edge Setup、Raterize和Z-Cull。
值得一提的是DirectX 11中Tessellation功能是必不可缺的,而Tessellator并不是使用SP来完成,而是采用独立功能模块完成,在这一点上与AMD的做法一致。但不同的是,AMD的Tessellator采用串行计算模式,也就是说核心中只有一个Tessellator功能模块,数据计算从分配到接收Tessellator会成为瓶颈。反观NVIDIA的GF100核心,每组SM拥有一个Polymorph Engines,这也就意味着一个GF100核心拥有16个Tessellator功能模块,在Tessellation多数据并行计算方面GF100遥遥领先RV870。
Polymorph Engines和Raster Engines在GF100中的设计
前文提过每组SM都会标配一个Polymorph Engines,同时每组GPC将独立拥有一个Raster Engines,这样的设计都是增加各种数据计算的并行效果,相比RV870的非Shader计算串行设计要优越很多。
Fermi具备的光栅并行化是一个重要创新。NVIDIA称Fermi GF100是一个全新架构,不但是通用计算方面,游戏方面它也发生了翻天覆地的变化,几乎每一个原有模块都进行了重组:有的砍掉了,有的转移了,有的增强了,还有新增的光栅引擎(Raster Engine)和多形体引擎(PolyMorph Engine)。
光栅引擎严格来说光栅引擎并非全新硬件,只是此前所有光栅化处理硬件单元的组合,以流水线的方式执行边缘/三角形设定(Edge/Triangle Setup)、光栅化(Rasterization)、Z轴压缩(Z-Culling)等操作,每个时钟循环周期处理8个像素。GF100有四个光栅引擎,每组GPC分配一个,整个核心每周期可处理32个像素。
多形体引擎则要负责顶点拾取(Vertex Fetch)、细分曲面(Tessellation)、视口转换(Viewport Transform)、属性设定(Attribute Setup)、流输出(Stream Output)等五个方面的处理工作,DX11中最大的变化之一细分曲面单元(Tessellator)就在这里。Fermi GF100产品中有16个多形体引擎,每个SM一个,或者说每个GPC拥有四个。
凭借多形体PolyMorph引擎,Fermi实现了全球首款可扩展几何学流水线,该流水线在单颗GPU中包含了最多16个Tessellation引擎。这些引擎在DirectX 11最重要的全新图形特性GPU加速Tessellation中能够发挥出革命性的性能。通过将更加细腻的几何图形融入到场景当中,Tessellation让开发人员能够打造出视觉清晰度极高、更加复杂的环境。锯齿边缘平滑了,从而使游戏中所渲染出来的人物能够拥有影院般细腻的画质。
在以前的架构中,固定功能单元只是单一的一条流水线。而在GF100,无论是固定功能单元和可编程操作单元都并行设计,这大大提高图形性能,也解决了GPU长期以来未有重大突破的性能短板。
多形体PolyMorph引擎的出现,是几何流水线近几年间不断演化的重大突破。特别是细分曲面操作,需要的三角形和光栅能力都异常可怕,传统GPU无法应对。多边形引擎的出现大幅度提高了三角形、细分曲面和流输出能力。通过给每个SM搭载属于自己的细分曲面Tessellation硬件单元,并为每个GPC搭载属于自己的光栅化引擎,GF100最终为我们提供了高达8倍于GT200几何性能。
注:(本章节作者由林光楠和濮元恺合作完成)
- 第1页:NVIDIA首款DX11显卡 GTX480诞生
- 第2页:最强DX11单卡诞生 米人装机要费米
- 第3页:公版GTX480金属质感 全新散热设计
- 第4页:暴力拆解GTX480 展示最真实的它
- 第5页:独立核心散热器 镇压32亿晶体管
- 第6页:6+2相供电 协助GTX480全速运转
- 第7页:亲民型高端作品 GTX470全面解析览
- 第8页:4+1相经济实惠供电组合 助力GTX470
- 第9页:揭开GTX470神秘面纱 探秘物理设计
- 第10页:麻雀小五脏全 GTX470同样5热管
- 第11页:看N卡和A卡高端 了解10.5和9.5故事
- 第12页:GTX480/GTX470身份亮相 蓄势待发
- 第13页:Fermi架构GF100核心 新增强劲神器引擎
- 第14页:可读写缓存引入GPU 计算能力倍增
- 第15页:Fermi架构针对GPU通用计算优化
- 第16页:升级DX11体验HDAO高画质特效
- 第17页:强大性能实现更高反锯齿/阴影效
- 第18页:浮点能力翻4倍 GF100不再仅是显卡
- 第19页:性能测试的硬件、软件平台状况
- 第20页:理论性能测试-3Dmark 06
- 第21页:理论性能测试-3Dmark Vantage
- 第22页:DX9.0c游戏-使命召唤之现代战争2
- 第23页:DX9.0c游戏-求生之路
- 第24页:DX10游戏-英雄连之前线
- 第25页:DX10游戏-孤岛危机
- 第26页:DX10.1游戏-孤岛惊魂2
- 第27页:DX10.1游戏-汤姆克兰西之鹰击长空
- 第28页:DX11游戏-异形大战铁血战士
- 第29页:DX11游戏-战地之叛逆连队2
- 第30页:DX11游戏-科林麦克雷之尘埃2
- 第31页:DX11测试-Heaven Benchmark 1.0
- 第32页:DX11测试-Heaven Benchmark 2.0
- 第33页:DX11游戏-地铁2033
- 第34页:DX11游戏-潜行者之普里皮亚召唤
- 第35页:PhysX游戏-蝙蝠侠之阿卡姆疯人院
- 第36页:PhysX游戏-黑暗虚空
- 第37页:应用测试-系统功耗检测
- 第38页:Tesslation测试-Stone Giant
- 第39页:Tesslation测试-Heaven Benchmark 1.0
- 第40页:视频解析-Tessellation和PhysX
- 第41页:GPU通用计算-Folding@Home
- 第42页:应用测试-产品温度检测
- 第43页:专项PK—GTX480 SLI对决GTX480
- 第44页:专项PK—GTX470 SLI对决GTX470
- 第45页:专项PK—GTX480 SLI对决HD5970
- 第46页:专项PK—GTX480对决GTX470
- 第47页:专项PK—GTX480对决GTX285
- 第48页:专项PK—GTX480对决HD5870
- 第49页:专项PK—GTX470对决HD5850
- 第50页:ZOL独家活动 百片GTX480等你领取