传统SIMD结构流处理器指令细节_ATI Radeon HD 4850

超越图形界限 AMD并行计算技术全面解析

CBSi中国·ZOL 作者：中关村在线濮元恺 责任编辑：王胤韬【原创】 2010年08月25日 06:20 评论

● 传统SIMD结构流处理器指令细节

　　传统的GPU基于SIMD的架构。SIMD即Single Instruction Multiple Data，单指令多数据。这种架构天生是为了应对顶点与像素四元组数据而设计的。

传统的VS和PS中的ALU（算术逻辑单元，通常每个VS或PS中都会有一个ALU，但这不是一定的，例如G70和R5XX有两个）都能够在一个周期内（即同时）完成对矢量4个通道的运算。比如执行一条4D指令，PS或VS中的ALU对指令对应定点和像素的4个属性数据都进行了相应的计算。这便是SIMD的由来。

超越图形界限 AMD并行计算技术全面解析
R520架构顶点与像素着色器单元

这种ALU我们暂且称它为4D ALU。需要注意的是，4D SIMD架构虽然很适合处理4D指令，但遇到1D指令的时候效率便会降为原来的1/4。此时ALU 3/4的资源都被闲置。为了提高PS VS执行1D 2D 3D指令时的资源利用率，DirectX9时代的GPU通常采用1D+3D或2D+2D ALU。这便是Co-issue技术。这种ALU对4D指令的计算时仍然效能与传统的ALU相同，但当遇到1D 2D 3D指令时效率则会高不少，例如如下指令：

　　ADD R0.xyz , R0,R1

　　//此指令是将R0,R1矢量的x,y,z值相加结果赋值给R0

　　ADD R3.x , R2,R3

　　//此指令是将R2 R3矢量的w值相加结果赋值给R3

对于传统的4D ALU，显然需要两个周期才能完成，第一个周期ALU利用率75% ，第二个周期利用率25%。而对于1D+3D的ALU，这两条指令可以融合为一条4D指令，因而只需要一个周期便可以完成，ALU利用率100%。但当然，即使采用co-issue，ALU利用率也不可能总达到100%，这涉及到指令并行的相关性等问题，而且，更直观的，上述两条指令显然不能被2D+2D ALU一周期完成，而且同样，两条2D指令也不能被1D+3D ALU一周期完成。传统GPU在对非4D指令的处理显然不是很灵活。

R600之前SIMD流处理器常采用co-issue模式

　　传统的GPU中顶点和像素处理分别由VS和PS来完成，每个VS PS单元中通常有一个4D ALU，可以在一个周期完成4D矢量操作，但这种ALU对1D 2D 3D操作效率低下，为了弥补，DX9显卡中ALU常被设置为1D+3D 2D+2D等形式如上图。

为了进一步提高并行度，可以增加流水线的条数。多条流水线可以在单一控制部件的集中控制下运行，也可以独立运行。在单指令多数据流（SIMD）的结构中，单一控制部件向每条流水线分派指令，同样的指令被所有处理部件同时执行。SIMD架构可以用较少的晶体管堆积出庞大规模的流处理器，同时SIMD架构可以用最少的晶体管换取最大的浮点吞吐量值。但是在指令执行效率方面，SIMD架构非常依赖于将离散指令重新打包组合的算法和效率，正所谓有得必有失。

MIMD标量架构需要占用额外的晶体管数，在流处理器数量和理论运算能力方面比较吃亏，但却能保证超高的执行效率；SIMD超标量架构可以用较少的晶体管数获得很多的流处理器数量和理论运算能力，但执行效率方面要依具体情况而定。