R580核心介绍之管线架构篇（下）

游戏至尊最强单卡X1900XTX全面测试

CNET中国·ZOL 作者：中关村在线 yoyo 【原创】 2006年01月24日 22:00 评论

R580像素处理器细节（点击放大）

　　按照ATI的白皮书介绍，在R580（Radeon X1900）的Pixel Shader Engine（像素着色器引擎）中包含了一个中枢分发单元（central dispatch unit，CDU），这个CDU能够为一个Pixel Shader Processor Array（像素着色处理器矩阵）分发高达512个线程。这些像素渲染处理器被按照4个一组的方式绑在一起，每个这样的组被称做Quad Pixel Shader Cores（四方像素着色器内核），各个内核都是彼此相对独立的处理单元，能够处理一个2x2的像素块。这种QUAD的设计其实是自R300就引入的，在nVIDIA的GeForce6/7上也都是类似的单元组成配置方式。

　　从表面上看的话，Radeon X1900系的Pixel Shader非常类似于早先面世R420系列，有所不同的是，主要是增加了一个分支单元，并且计算精度从原来的FP24提升到了Shader Model 3.0要求的FP32。

　　在每个周期里，X1000系各个Pixel Shader处理器能够跑5条指令：

　　1条vec3 ADD指令（Vector ALU1）
　　1条scalar ADD指令（Scalar ALU1）
　　1条vec3 ADD/MUL/MADD指令（Vector ALU2）
　　1条scalar ADD/MUL/MADD指令（Scalar ALU2）
　　1条流控制指令

　　此外，由于采用的是R300以来就使用的独立纹理单元，因此在遇到纹理操作的时候，X1900系的Pixel Shader一共最高能执行5条Pixel Shader指令和1条纹理操作指令。

　　在R580芯片内部，每一个像素渲染处理器都可以利用它们内部集成的各种不同ALUs，在一个时钟周期内处理上述1到5条任意的渲染指令，专门的分歧处理单元还有拥有了削弱流控制指令中多线程处理能力。每一个纹理单元和纹理地址单元能在一个时钟周期内处理相当于4个纹理拾取操作。在R580的这些单元中，都会具有全新的超线程的任务分派处理器来分配任务，处理器内的超线程处理器会智能寻找时机去安排指令给那些空闲的ALUs，让显卡经常处于满负荷的工作状态。当任务分派处器发现那些存储在纹理缓存中不会马上被使用到的数据，超线程的任务分派处理器不仅会使用大量的并发现成去隐藏纹理拾取单元的潜伏期，而且还会把线程的长度保持在规定范围内方便转移操作。X1900所具备的这项技术利用了芯片处理单元的空闲计算能力，大大的提升了处理单元的计算速度。

游戏至尊最强单卡X1900XTX全面测试
R580动态分配任务细节

　　一旦CDU察觉到某个QUAD处于闲置状态的时候，就会马上递交一个新的线程供其执行，这样的情况多数发生QUAD在等待数据或者完成了任务的时候。根据ATI的介绍，这样的设计可以让R580的Pixel Shader内核维持超过90%的利用率。为了维持高效的线程切换，ATI给R580设计了一个大规模的、能同时读写（多端口）的、高带宽的通用寄存器堆，所有的连接总线都是FP32位宽，确保Pixel Shader在任何时候都能高效地完成FP32精度计算。ATI的Ultra-Threading设计还能够提高Pixel Shader 3.0动态分支性能。动态分支被认为是Pixel Shader 3.0的重要新特性，可以让Pixel Shader根据计算出来的数值来跑不同的分支或者循环。如果正确使用的话，动态分支能显著地提高性能。例如在使用shadow map的时候，如果要对阴影作边缘柔和取样，使用动态分支可以在遇到不需要作取样的像素例如的时候就跳过去，以节省大量的pixel shader计算资源。