Fermi架构核心 新增强劲神器引擎
当然仅是在数量优化上做改变还不能称为第二代CUDA架构,我们在GF100核心架构图和SM架构图上可以看到,相比G80/92和GT200核心架构多了Polymorph Engines和Raster Engines功能模块组。那么它们又是做什么的呢?
全新的Polymorph Engines和Raster Engines
我们可以这样简单的理解,在数据处理流程中的一些功能模块现组成了现在的Polymorph Engines和Raster Engines。其中Polymorph Engines包括Vertex Fetch、Tessllator、Viewport Transform、Attribute Setup和Stream Output,Raster Engines包括Edge Setup、Raterize和Z-Cull。
值得一提的是DirectX 11中Tessellation功能是必不可缺的,而Tessellator并不是使用SP来完成,而是采用独立功能模块完成,在这一点上与AMD的做法一致。但不同的是,AMD的Tessellator采用串行计算模式,也就是说核心中只有一个Tessellator功能模块,数据计算从分配到接收Tessellator会成为瓶颈。反观NVIDIA的GF100核心,每组SM拥有一个Polymorph Engines,这也就意味着一个GF100核心拥有16个Tessellator功能模块,在Tessellation多数据并行计算方面GF100遥遥领先RV870。
Polymorph Engines和Raster Engines在GF100中的设计
前文提过每组SM都会标配一个Polymorph Engines,同时每组GPC将独立拥有一个Raster Engines,这样的设计都是增加各种数据计算的并行效果,相比RV870的非Shader计算串行设计要优越很多。
Fermi具备的光栅并行化是一个重要创新。NVIDIA称Fermi GF100是一个全新架构,不但是通用计算方面,游戏方面它也发生了翻天覆地的变化,几乎每一个原有模块都进行了重组:有的砍掉了,有的转移了,有的增强了,还有新增的光栅引擎(Raster Engine)和多形体引擎(PolyMorph Engine)。
光栅引擎严格来说光栅引擎并非全新硬件,只是此前所有光栅化处理硬件单元的组合,以流水线的方式执行边缘/三角形设定(Edge/Triangle Setup)、光栅化(Rasterization)、Z轴压缩(Z-Culling)等操作,每个时钟循环周期处理8个像素。GF100有四个光栅引擎,每组GPC分配一个,整个核心每周期可处理32个像素。
多形体引擎则要负责顶点拾取(Vertex Fetch)、细分曲面(Tessellation)、视口转换(Viewport Transform)、属性设定(Attribute Setup)、流输出(Stream Output)等五个方面的处理工作,DX11中最大的变化之一细分曲面单元(Tessellator)就在这里。Fermi GF100产品中有16个多形体引擎,每个SM一个,或者说每个GPC拥有四个。
凭借多形体PolyMorph引擎,Fermi实现了全球首款可扩展几何学流水线,该流水线在单颗GPU中包含了最多16个Tessellation引擎。这些引擎在DirectX 11最重要的全新图形特性GPU加速Tessellation中能够发挥出革命性的性能。通过将更加细腻的几何图形融入到场景当中,Tessellation让开发人员能够打造出视觉清晰度极高、更加复杂的环境。锯齿边缘平滑了,从而使游戏中所渲染出来的人物能够拥有影院般细腻的画质。
在以前的架构中,固定功能单元只是单一的一条流水线。而在GF100,无论是固定功能单元和可编程操作单元都并行设计,这大大提高图形性能,也解决了GPU长期以来未有重大突破的性能短板。
多形体PolyMorph引擎的出现,是几何流水线近几年间不断演化的重大突破。特别是细分曲面操作,需要的三角形和光栅能力都异常可怕,传统GPU无法应对。多边形引擎的出现大幅度提高了三角形、细分曲面和流输出能力。通过给每个SM搭载属于自己的细分曲面Tessellation硬件单元,并为每个GPC搭载属于自己的光栅化引擎,GF100最终为我们提供了高达8倍于GT200几何性能。
- 第1页:NV发布第二代DX11旗舰 GTX580登场
- 第2页:30亿晶体管 打造GF100和GF110核心
- 第3页:温故而知新 复习GF100预习GF110
- 第4页:由繁化简 GF110/GF100结构组成细说
- 第5页:Fermi架构核心 新增强劲神器引擎
- 第6页:可读写缓存引入GPU 计算能力倍增
- 第7页:Fermi架构针对GPU通用计算优化
- 第8页:传承尊贵/豪华 GTX580全景赏析
- 第9页:完全拆解GTX580 PCB零距离接触
- 第10页:NV旗舰不用热管 引入均热板技术
- 第11页:大家来找茬 GTX580/GTX480外观对比
- 第12页:大家来找茬 GTX580/GTX480之PCB对比
- 第13页:GTX580测试平台及测试项目简介
- 第14页:理论性能测试-3Dmark 06
- 第15页:理论性能测试-3Dmark Vantage
- 第16页:DX9.0c游戏-星际争霸2
- 第17页:DX9.0c游戏-街头霸王4
- 第18页:DX10游戏-英雄连之前线
- 第19页:DX10游戏-孤岛危机
- 第20页:DX11游戏-异形大战铁血战士
- 第21页:DX11游戏-战地之叛逆连队2
- 第22页:DX11游戏-科林麦克雷之尘埃2
- 第23页:DX11游戏-失落星球2
- 第24页:DX11游戏-地铁2033
- 第25页:DX11游戏-潜行者之普利皮亚召唤
- 第26页:DX11游戏-汤姆克兰西之鹰击长空2
- 第27页:Tessellation测试-天堂2.1
- 第28页:PhysX游戏-蝙蝠侠之阿卡姆疯人院
- 第29页:应用性测试-Media Coder NT
- 第30页:应用性测试-超频及SLI性能测试
- 第31页:应用性测试-反锯齿性能衰减
- 第32页:应用性测试-Tessellation性能衰减
- 第33页:应用性测试-产品实际功耗考验
- 第34页:应用性测试-产品温度/噪音考验
- 第35页:百花齐放 GTX580发布厂商集体跟进
- 第36页:旗舰也有性价比产品 GTX580可以买