ZOL首页 > 显卡 > 评测 > 1000元以上 >

MIMD结构流处理器指令细节

ATI Radeon HD 4850

明星编辑

超越图形界限 AMD并行计算技术全面解析

CBSi中国·ZOL 作者：中关村在线濮元恺 责任编辑：王胤韬【原创】 2010年08月25日 06:20 评论

在本页阅读全文（共53页）

● MIMD结构流处理器指令细节

　　和ATI延续传统架构的思路形成非常明显的差异，NVIDIA在G80时代使用了全新的设计思想，它认为优化ALU阵列的结构才能换取更大的性能提升，而一味追求数量的增长无法永远延续较高的图形处理加速比。以下我们着重讨论G80和R600的统一着色单元而不考虑纹理单元，ROP等因素。

G80 GPU中安排了16组共128个统一标量着色器，被叫做stream processors，后面我们将其简称为SP。每个SP都包含有一个全功能的1D ALU。该ALU可以在一周期内完成乘加操作（MADD）。也许有人已经注意到了，在前面传统GPU中VS和PS的ALU都是4D的，但在这里，每个SP中的ALU都是1D标量ALU。

超越图形界限 AMD并行计算技术全面解析
NVIDIA G80架构流处理器

这就是很多资料中提及的MIMD（多指令多数据）架构，G80走的是彻底的标量化路线，将ALU拆分为了最基本的1D 标量ALU，并实现了128个1D标量SP，于是，传统GPU中一个周期完成的4D矢量操作，在这种标量SP中需4个周期才能完成，或者说，1个4D操作需要4个SP并行处理完成。这种实现的最大好处是灵活，不论是1D,2D,3D,4D指令，G80得便宜其全部将其拆成1D指令来处理。指令其实与矢量运算拆分一样。

Fermi架构CUDA核心细节

　　例如一个4D矢量指令 ADD R0.xyzw , R0,R1 R0与R1矢量相加,结果赋R0

　　G80的编译器会将其拆分为4个1D标量运算指令并将其分派给4个SP：

　　ADD R0.x , R0,R1
　　ADD R0.y , R0,R1
　　ADD R0.z , R0,R1
　　ADD R0.w, R0,R1

　　综上：G80的架构可以用128X1D来描述。这种流处理器设计方式抛弃了单独追求浮点吞吐的目标，转而优化流处理器内部结构来换取更高的执行效率。但是它也有明显的问题就是需要使用更多发射端和周边寄存器资源来支撑这种被“打散”的流处理器运行，芯片集成度和面积相对于ATI都有较大提升，必须严格控制发热和功耗。