● Fermi架构的困惑
RV870发布之后一周后,NVIDIA仓促宣布了下一代DX11产品——Fermi的规格。Fermi具备512个标量流处理器,384bit GDDR5内存界面,晶体管数量达到创纪录的32亿个。但是直到2010年3月末,Fermi才得以在媒体上和广大用户见面,Fermi相比原定的期限足足晚了半年才出现。
如今我们对Fermi的性能已经了如指掌,在Fermi发布之前,很多用户对它的期望值很高,希望它能在大部分应用中大幅度领先于HD5870,毕竟两者的晶体管数量相差将近50%,发热和耗电也有巨大差异。但是在Fermi发布后,我们看到除了DirectX 11游戏中的Tessellation曲面细分特性方面Fermi有惊人表现,在其他领域Fermi只能用平常来形容。
Fermi架构示意图
其实Fermi架构的困惑主要集中在3个问题上,首先是图形处理与通用计算的冲突没有得到化解,导致面向并行计算领域的Fermi在很多图形处理中吃亏。图形业界普遍认为从DirectX10统一渲染架构开始,Shader运算能力强劲的GPU在图形运算方面也会表现优秀,但是这种愿望没有实现。
因为目前大部分的游戏是从PS3或者XBOX主机上迁移而来的,为了降低开发难度和节约成本,大多数游戏厂商会用一套源代码通吃整个PC和家用级平台。这些游戏虽然打着DirectX10甚至是DirectX 11的封装,但还是含有太多的DirectX9编程烙印,并不复杂的Shader效果背后,实际上是程序指令中的1D指令数量并不多,指令相关和分支嵌套等数量更为有限。这导致MIMD结构的流处理器无法发挥最佳效率,而传统的SIMD架构反而能够更好适应曾今的编程环境。
其次是Fermi架构的TMU资源发生了变化,这导致Fermi架构GTX470/480的纹理填充率低下,甚至还不如曾今的王者GTX285高,更别提和HD5870相提并论了。有两种观点来解释NVIDIA此次的设计,第一种认为NVIDIA已经没有足够的晶体管来做TMU部分了,所以Fermi是64个TA + 256个TF的1:4非对称设计,这种设计在G80上曾今出现过,当时比例为1:2,但是在G92又被改为1:1,因为非对称的TA/TF资源在运行大部分图形运算时,会对GPU全局速度产生不容忽视的影响。
另一种观点认为DirectX10引入了一种叫直接像素纹理的技术,如果未来的图形编程能遵循这项技术,则输出的像素直接构成材质,没有纹理和混合等概念了,这样GPU中的TMU和ROP等单元都将消失,Shader承担绝大部分图形运算,Fermi很可能是在下这个赌注,因为Fermi的Shader运算性能很强劲。
导致Fermi难产和功耗较大的另一个因素是芯片的栅氧层漏电情况加剧。RV870的内部互联极为密集,采用CMP可以更好的保障层间以及层面上的应力稳定性和可加工性。虽然NVIDIA的线密度和布局决定无需借助CMP进行处理,但也因为这些,NVIDIA不得不面对比ATI更加严重的接触性热电跃迁。
RV870系列多为重复单元,互联级别和走线长度都很大,这样层上的应力负担就会很大。这时候使用CMP可以减小层上以及层间的应力负担。NVIDIA没这问题,但是NVIDIA的布线触点很多,触电部分是最容易受热电子迁移导致的物质迁移影响的部分,所以必须想办法减少这部分所带来的影响。
简单来说栅氧层越薄,晶体管也会有更高的性能。按规律MOS管的栅氧层每一代都要变得略薄,90nm阶段,栅氧层厚度发展到了小于2nm。2nm以上的栅氧层可以看作理想的绝缘层,但是2nm以下就会出现明显的穿通泄漏现象,这个泄漏也是按指数形式增加的。栅氧层漏电的情况AMD和NVIDIA都在忍受,但是RV870的21亿个晶体管规模明显小于Fermi架构GF100的32亿个晶体管,所以宏观上漏电导致的发热也就更低。
- 第1页:AMD统一渲染GPU架构 历程回顾与评测
- 第2页:R520和R580对NVIDIA的影响
- 第3页:R600与G80的不均衡对抗
- 第4页:RV670开始改进 绝境求生
- 第5页:GT200体现NVIDIA变化方向
- 第6页:RV770的策略与成功
- 第7页:AMD的赌注与HD4850的改变
- 第8页:RV870的设计思路和诞生背景
- 第9页:RV870芯片概况与策略
- 第10页:Fermi架构的困惑
- 第11页:R600芯片设计之初遇到的问题
- 第12页:RV770和RV870架构追求不断改进
- 第13页:Fermi未来的性能亮点与优势
- 第14页:回顾统一渲染架构,探寻SIMD极限
- 第15页:基本信息分析——Radeon HD2900 XT
- 第16页:基本信息分析——Radeon HD3870
- 第17页:基本信息分析——Radeon HD4890
- 第18页:基本信息分析——Radeon HD5870
- 第19页:性能测试的硬件、软件平台状况
- 第20页:DX9理论性能测试:3DMark 06
- 第21页:DX10理论性能测试:3Dmark Vantage
- 第22页:GPGPU着色器性能-单精度Shader
- 第23页:GPGPU着色器性能-双精度Shader
- 第24页:3Dmark Vantage 贴图填充率测试
- 第25页:3Dmark Vantage 视差闭塞映射
- 第26页:3Dmark Vantage GPU粒子模拟
- 第27页:3Dmark 06 Shader Particles 3.0
- 第28页:Furmark Open GL 性能测试
- 第29页:Lightsmark 光照渲染测试
- 第30页:DirectX 10 SDK Cube Map GS
- 第31页:DirectX 10 SDK N Body Gravity
- 第32页:测试总结与回顾