ZOL首页 > 显卡 > 评测 > 1000元以上 >

R600芯片设计之初遇到的问题

迪兰恒进 HD5970 2G

明星编辑

AMD统一渲染GPU架构历程回顾与评测

CBSi中国·ZOL 作者：中关村在线濮元恺 责任编辑：龚力成【原创】 2010年04月30日 05:16 评论

在本页阅读全文（共32页）

● R600芯片设计之初遇到的问题

现在回忆R600芯片，你能发现那是AMD所经历的一次难得的失败。因为从技术角度讲，R600架构延续了上一代R520/R580顶点着色器和像素着色器分置的SIMD结构（准确地说顶点着色器在Geforce 6000系列中已经上升为MIMD结构），这样的延续带来的直接后果就是技术研发的投入变小，相因的AMD在后期遇到的问题也会少很多，而且这些问题都是可控的。同时SIMD的另一个优势就是扩张容易，并且模拟这种扩张带来的性能变化比较简单，这一点是NVIDIA所不具备的。NVIDIA设计出一套非常优秀的G80架构，却在未来的发展道路上遇到很多障碍。

我比较喜欢分析AMD的失败，因为这些失败造就了后来的成功，那就让我们一起了解R600到底有哪些具体的失误，它们有细节方面的，也有策略方面的。

首先是R600时代，存储器速度限制像一堵看不见的墙壁一样挡在了AMD的面前，R600架构遇到了“Memory Wall(存储墙)”。这也是任何高速运算设备设计时所必须要面临的问题。

AMD统一渲染GPU架构历程回顾与评测
红色线表示具备访问存储器能力的模块

Radeon HD 2900XT核心工作频率为750MHz，运算单元单个时钟周期的长度在1.5ns以下。而我们可怜的外部存储器（显存）还在以400MHz左右的速度工作，加上内存本身的定址延迟和传输过程中的路径延迟，延迟就会大得可怕。如果换算成GPU内部的时钟，就是数百个周期的数据等待延迟，这种延迟会让整个流水线都陷入停顿，对于高速运行的GPU来说是灾难性的。

最重要的一点是R600还不够疯狂，换而言之就是320个流处理器单元的规模还不够多。我们知道R600的US是分“1大4小”，即一个全功能SP单元和4个仅能执行乘加运算而无法执行连乘运算的部分功能SP。如果指令段能够有相当多的天然4D指令，那么R600/RV770都可以以几乎全功率的性能进行运算。

但是很遗憾，如果你要实现复杂的Shader效果，不可能完全禁锢与全4D指令中，复杂多变的指令才是关键。全4D可以说是DX9B甚至更早的时代才有的光景。从这个角度来说，AMD之所以将R600的US设计成这样，简单地说就是不够进步的表现。

但是不够进步，可以通过堆量来实现掩藏发生内存存取动作的目的，而R600在需要疯狂的时候却又显得保守，只有320个流处理器或者仅有64个SIMD簇的规模让他在底层吞吐上并没有占据太大优势。

测试数据表明在AMD最为擅长的5D浮点指令吞吐中，R600仅超越G80约为80%，虽然这个超越非常明显，但是理论中几乎没有5D单发射指令可供R600去执行。几个所谓的并行吞吐测试R600虽然赢了，但是幅度太小，串行执行则全盘皆输。

而在明显放大的RV770架构中，RV770在5D浮点指令吞吐中领先对手GTX260达到124%，也就是说RV770将流处理器数量扩充到800个之后，已经达到了对手无法触及的5D理论吞吐量。同时情况出现了一些变化，NVIDIA长时间把守的串行指令执行测试中，RV770已经有少量超越GT200架构的表现，这是一个可喜的改变。

R600到R800 5D浮点指令吞吐测试对比