● Fermi未来的性能亮点与优势
Fermi架构不能说不优秀,因为它的设计方向已经发生了巨大转变,同时它将GPU定义为大规模并行处理器,说明Fermi架构在面对复杂指令时能够表现出非常强劲的处理能力,而我们在针对Fermi架构目前的测试中,确实发现了一些问题值得探讨。这些问题的特点非常明显:如果解决好,它们将成为Fermi架构发挥优势的重要筹码;如果解决不好,Fermi架构在日后的表现将会快速增长。
就目前Fermi架构GTX470/GTX480产品所表现出的各种特性来看,我认为有以下几把双刃剑悬在NVIDIA头上迟迟不能解决:
1、大容量可读写缓存架构对GPU性能和功耗的影响
Fermi有768KB的统一的L2缓存,可以支持所有的存取和纹理操作。L2缓存和所有的SM都想通。L2提供有效和高速的数据支持。有些算法不能在运行前就确定下来,像一些物理问题,光线跟踪,稀疏矩阵乘法,尤其需要缓存的支持。过滤器和转换器需要所有的SM都去读取相同数据的时候,缓存一样会有很大的帮助。
Intel利用晶体管睡眠技术分区管理SRAM缓存功耗
缓存的可读写性带来了很多问题,它包括缓存一致性协议,缓存的命中率等问题,这些问题每年要消耗Intel和AMD等CPU制造公司很多研发力量,而费米的诞生,只能把NVIDIA也牵连进来。同时缓存所面临的另外一个问题就是功耗难以控制,SRAM电路不像其他逻辑电路设计,一旦通电就会全速运行功耗也达到最大值。目前Intel和AMD所使用的都是分块管理缓存,针对这一部分电路并没有非常好的功率控制方式。
Cache引入后,驱动就变得更加重要或者说是极端重要。首先,开发一种任何游戏几乎都能受益的全局优化算法对NVIDIA来说太难了,同时如果针对某个游戏优化,那就不可避免的会出现其他游戏不合口味的问题。Cache的引入是良好的开端,但我更希望这个开端由Intel来做。毕竟NVIDIA从未涉及过大容量全局缓存的开发工作,所以做这项工作还是不够稳妥的。
2、纹理单元配置的冒险性
基于全新DirectX 11技术的GTX 480在拥有前面两个介绍的引擎之后,对于诸如Tessellation曲面细分等技术的支持自然优异。但是对于传统GPU显示核心而言,最为基本的TA和TF资源也不能或缺。GF100核心每个SM单元内包含四个纹理单元,GTX 480共拥有4组GPC即16个SM单元,简单计算可知在GTX 480内共有64个Texture Units纹理单元,与GT200架构中的80个纹理单元相比似乎有所减少。
更为重要的是GF100的TA纹理寻址单元数量为64个,而TF纹理过滤单元则达到了256个,在G80架构中TA与TF之比为1:2,而后期改进的G92核心中NVIDIA出于无奈,将TA与TF之比恢复为1:1,若GF100的TA、TF数量的确为64/256,那么这个比例将达到前所未有的1:4。和传统的1:1配置相比,GF100的纹理定址能力明显减弱。拾取单元需要定址之后才能动作的,定址单元不够的情况下,在大多数3D应用中光有拾取是完全靠不住的。
但是NVIDIA坚持认为TA与TF单元的比率,是根据大量的模拟结果,由构架团队决定的,影响最终架构的有模拟结果,以及对未来发展趋势的预测,当然也外带情报,最终Fermi架构GF100芯片的纹理单元配置是取合适比例的结果。
- 第1页:AMD统一渲染GPU架构 历程回顾与评测
- 第2页:R520和R580对NVIDIA的影响
- 第3页:R600与G80的不均衡对抗
- 第4页:RV670开始改进 绝境求生
- 第5页:GT200体现NVIDIA变化方向
- 第6页:RV770的策略与成功
- 第7页:AMD的赌注与HD4850的改变
- 第8页:RV870的设计思路和诞生背景
- 第9页:RV870芯片概况与策略
- 第10页:Fermi架构的困惑
- 第11页:R600芯片设计之初遇到的问题
- 第12页:RV770和RV870架构追求不断改进
- 第13页:Fermi未来的性能亮点与优势
- 第14页:回顾统一渲染架构,探寻SIMD极限
- 第15页:基本信息分析——Radeon HD2900 XT
- 第16页:基本信息分析——Radeon HD3870
- 第17页:基本信息分析——Radeon HD4890
- 第18页:基本信息分析——Radeon HD5870
- 第19页:性能测试的硬件、软件平台状况
- 第20页:DX9理论性能测试:3DMark 06
- 第21页:DX10理论性能测试:3Dmark Vantage
- 第22页:GPGPU着色器性能-单精度Shader
- 第23页:GPGPU着色器性能-双精度Shader
- 第24页:3Dmark Vantage 贴图填充率测试
- 第25页:3Dmark Vantage 视差闭塞映射
- 第26页:3Dmark Vantage GPU粒子模拟
- 第27页:3Dmark 06 Shader Particles 3.0
- 第28页:Furmark Open GL 性能测试
- 第29页:Lightsmark 光照渲染测试
- 第30页:DirectX 10 SDK Cube Map GS
- 第31页:DirectX 10 SDK N Body Gravity
- 第32页:测试总结与回顾