整数运算能力与未来融合架构_ATI Radeon HD 4850

超越图形界限 AMD并行计算技术全面解析

CBSi中国·ZOL 作者：中关村在线濮元恺 责任编辑：王胤韬【原创】 2010年08月25日 06:20 评论

● 整数运算能力与未来融合架构

在图形运算中，整数单元可以用来处理整数纹理过滤。纹理过滤包括两部分，一是抗失真，二是抗溢出。CPU一开始不会浮点运算，过去的CPU寄存器资源全部都是给整数单元。但是在整数运算方面，目前INT单元在通用计算中的效用不是非常明显，首先科学运算中涉及整数的场合本身就远没有浮点多，其次在这个基础上，CPU的整数一直都是很传统的保留项目。

整数单元的构成并不是GPU的性能瓶颈，但是在GPU的运算性能中，整数能力也是非常重要的环节，如果设计者忽视了这一点，将在通用计算中给GPU带来严重性能短板。比如说在穷举算法为主的密码学中几乎没有浮点密码，整数运算能力直接影响到GPU的运算效率。

OpenCL和DirectCompute两大API的推出让GPU并行计算的前途豁然开朗，此时ATI和NVIDIA在接口标准方面又重新站在了同一起跑线上。那么很显然AMD在目前GPU通用计算不能单独和NVIDIA抗衡的情况下，所选择的战略是借助于全新的API使得CPU强化整数GPU接管浮点。

超越图形界限 AMD并行计算技术全面解析
Bulldozer核心架构

AMD同时拥有CPU和GPU，而且NVIDIA和Intel都没有同时驾驭这两种差异度极高的产品线的能力，因此其未来发展规划非常值得大家思考。其下一代的高端CPU核心Bulldozer（推土机）最大的亮点就是每一颗核心拥有双倍的整数运算单元，每个单元4条并行流水线，整数和浮点为非对称设计。Bulldozer还将加入128-bit的SSE5指令集支持，达到更高的执行效率，估计还将会增加CPU寄存器数量，为单指令多数据流技术（SIMD）运算提供更多的空间。

这种设计使得浮点计算的重任开始向GPU倾斜，未来的CPU将专注整数运算能力，而如果用户需要大量的并行浮点计算，可以选择使用外置的加速卡（GPU通用计算产品）来实现。

AMD异构运算平台

在一个推土模块里面有两个独立的整数核心，每一个都拥有自己的指令、数据缓存，也就是scheduling/reordering逻辑单元。而且这两个整数单元的中的任何一个的吞吐能力都要强于Phenom II上现有的整数处理单元。Intel的Core构架无论整数或者浮点，都采用了统一的scheduler(调度)派发指令。而AMD的构架使用独立的整数和浮点scheduler。

AMD认为CPU和GPU谁也不可能取代谁，双方是互补的关系，只有CPU和GPU协同运算，各自去处理最擅长的任务，才能发挥出计算机最强的效能。从CPU漫长的发展历程来看，它会延续一路不断整合其他功能单元的道路来整合GPU，但仅限中低端产品，而且这种整合不是吞并，而是提高CPU的浮点运算性能；GPU会取代CPU进行浮点运算，但它仍然需要CPU来运行操作系统并控制整个计算机。

实际上自从2006年收购ATI以后，AMD便开始将更多精力放在一些特殊功能的电路元件上，尤其是图形处理技术。这是以前ATI的主业，ATI从R520架构开始提供的视频编码和解码技术非常出色。AMD很快在该部门中使用了所谓的“异构计算”（heterogeneous computing）技术。联系到AMD在8月16日推出全面支持OpenCL 1.1 的 ATI Stream软件开发包 (SDK) 2.2版，借助正在执行的Fusion的战略，AMD明年将首次在单芯片中实现异构计算技术。