● 回顾统一渲染架构历程,探寻SIMD结构极限
AMD从R600核心开始,一直延续着上述理念设计GPU产品,R600身上有很多传统GPU的影子,其Stream Processing Units很像上代的Shader Units,它依然是传统的SIMD架构。这些SIMD架构的5D ALU使用VLIW技术,可以用一条指令完成多个对数值的计算。
由于内部的5个1D ALU共享同一个指令发射端口,因此宏观上R600应该算是SIMD(单指令多数据流)的5D矢量架构。但是R600内部的这5个ALU与传统GPU的ALU有所不同,它们是各自独立能够处理任意组合的1D/2D/3D/4D/5D指令,完美支持Co-issue(矢量指令和标量指令并行执行),因此微观上可以将其称为5D Superscalar超标量架构。
AMD的流处理器结构变化
SIMD虽然很大程度上缓解了标量指令执行效率低下的问题,但依然无法最大限度的发挥ALU运算能力,尤其是一旦遇上循环嵌套分支等情况,SIMD在矢量处理方面高效能的优势将会被损失殆尽。同时VLIW的效率依赖于指令系统和编译器的效率。SIMD加VLIW在通用计算上弱势的原因就在于打包发送和拆包过程。
NVIDIA从G80开始架构作了变化,把原来的4D着色单元彻底打散,流处理器不再针对矢量设计,而是统统改成了标量运算单元。每一个ALU都有自己的专属指令发射器,初代产品拥有128个这样的1D运算器,称之为流处理器。这些流处理器可以按照动态流控制智能的执行各种4D/3D/2D/1D指令,无论什么类型的指令执行效率都能接近于100%。
AMD所使用的SIMD结构流处理器,具有非常明显的优势就是执行全4D指令时简洁高效,对晶体管的需求量更小。而NVIDIA为了达到MIMD流处理器设计,消耗了太多晶体管资源,同时促使NVIDIA大量花费晶体管的还有庞大的线程仲裁机制、端口、缓存和寄存器等等周边资源。NVIDIA为了TLP(线程并行度)付出了太多的代价,而这一切代价,都是为了GPU能更好地运行在各种复杂环境下。
但是业界普通的共识是SIMD结构的流处理器设计能够有效降低晶体管使用量,特别是在已经设计好的架构中扩展流处理器数量的难度,比起MIMD结构要容易很多。对比R600和G80架构可知,4个1D标量ALU和1个4D矢量ALU 的理论运算能力是相当的,但是前者需要4个指令发射端和4个控制单元,而后者只需要1个,如此一来MIMD架构所占用的晶体管数将远大于SIMD架构。
当然RV870目前的状态虽然不错,但是下一代的R900架构已经很难延续这种简单的性能提升模式了,说到底还是回到了文章开始的问题。R600拥有令人难以置信的512bit显存位宽,以此引出的问题是芯片面积很大因为你不得不进行复杂的绕线(route)。据可靠消息,R600的内部互联线长达到19000公里,RV770到了27000公里,如果RV770不换掉ringbus环形内存总线,线长可能要超过40000公里,现在R800在AMD的全力改进下稳定在了36000公里。理论上基于IC设计层面,R800还可以继续扩展规模,但是实际操作中几乎已经不可能了。IC设计中,不是晶体管多内部互联线长就会过度,要看芯片具体结构,大量重复的单元才会导致线长急剧放大。
内部互联线长对芯片互联层数提出了极高要求,AMD一味增加GPU重复单元(流处理器)的做法,导致AMD手头已经没有继续上攻互联层的技术储备了,目前是9/14,既逻辑互联层为9,物理互联层为14。互联层越高,垂直互联越多,水平方向上的布局越松散,电磁和应力环境越好。但是互联层越高,垂直互联越复杂,空间电磁和应力环境越差,而且走线设计或者说布局也会成问题。互联层越高,核心面积就可以越小,但是两者并非线性关系,而且相应的设计难度也就越高。
另外一个困扰AMD的问题是要保证严格同步,如果未来的R900为了扩充流处理器数量真提升到3200SP而且维持现有工艺和布线状态以及电压不变的前提下,芯片内的信号延迟将从飞秒级提升到接近纳秒级。以现在的互联状态和布局,没有任何一家厂商能够控制这样的延迟水平。
据相关消息透露,AMD也会在今年晚些时候推出新一代的Radeon HD6000系列显卡(初步代号为R900),继续巩固过去半年来之不易的领先优势。目前关于R900的资料还非常少,最引人注目的变化是AMD的架构设计基础可能会从SIMD(单指令多数据)转向MIMD(多指令多数据),而这也是R900面临的最大风险之一。NVIDIA早就采用了MIMD结构了,并且在MIMD结构的流处理器中积累了深厚的经验。如今SIMD架构遇到瓶颈,AMD能否顺利过渡到MIMD,这也是未来一两年内显卡制高点争夺战的关键所在。
- 第1页:AMD统一渲染GPU架构 历程回顾与评测
- 第2页:R520和R580对NVIDIA的影响
- 第3页:R600与G80的不均衡对抗
- 第4页:RV670开始改进 绝境求生
- 第5页:GT200体现NVIDIA变化方向
- 第6页:RV770的策略与成功
- 第7页:AMD的赌注与HD4850的改变
- 第8页:RV870的设计思路和诞生背景
- 第9页:RV870芯片概况与策略
- 第10页:Fermi架构的困惑
- 第11页:R600芯片设计之初遇到的问题
- 第12页:RV770和RV870架构追求不断改进
- 第13页:Fermi未来的性能亮点与优势
- 第14页:回顾统一渲染架构,探寻SIMD极限
- 第15页:基本信息分析——Radeon HD2900 XT
- 第16页:基本信息分析——Radeon HD3870
- 第17页:基本信息分析——Radeon HD4890
- 第18页:基本信息分析——Radeon HD5870
- 第19页:性能测试的硬件、软件平台状况
- 第20页:DX9理论性能测试:3DMark 06
- 第21页:DX10理论性能测试:3Dmark Vantage
- 第22页:GPGPU着色器性能-单精度Shader
- 第23页:GPGPU着色器性能-双精度Shader
- 第24页:3Dmark Vantage 贴图填充率测试
- 第25页:3Dmark Vantage 视差闭塞映射
- 第26页:3Dmark Vantage GPU粒子模拟
- 第27页:3Dmark 06 Shader Particles 3.0
- 第28页:Furmark Open GL 性能测试
- 第29页:Lightsmark 光照渲染测试
- 第30页:DirectX 10 SDK Cube Map GS
- 第31页:DirectX 10 SDK N Body Gravity
- 第32页:测试总结与回顾