GPU并行编程为何加速发展_ATI Radeon HD 4850

超越图形界限 AMD并行计算技术全面解析

CBSi中国·ZOL 作者：中关村在线濮元恺 责任编辑：王胤韬【原创】 2010年08月25日 06:20 评论

● GPU并行编程为何加速发展

回到我们刚开始讨论的地球科学、医学研究与金融建模那些计算问题，可能有很多读者会问到“为什么要花这么大力气将传统CPU上运行的程序移植到GPU环境中运行？”答案其实很简单——追求更高的性价比和性耗比。

超越图形界限 AMD并行计算技术全面解析
GPU能够明显加速算术密集型并行计算任务

虽然GPU并不适用于所有问题的求解，但是我们发现那些对运算力量耗费巨大的科学命题都具备天然的“算术密集型”特色。这类程序在运行时拥有极高的运算密度、并发线程数量和频繁地存储器访问，无论是在音频处理、视觉仿真还是到分子动力学模拟和金融风险评估领域都有大量涉及。这种问题如果能够顺利迁移到GPU为主的运算环境中，将为我们带来更高效的解决方案。

浮点能力首次超越1TFLOPS的ASCI Red超级计算机

在1996年，美国Sandia国家实验室研发了超级计算机“ASCI Red”，浮点运算性能首次突破1TFlops，但它需要非常多的节点和耗电。它是一套基于mesh网状结构（38 X 32 X 2）的MIMD大规模并行机（MIMD massively parallel machine），起初包含7264个计算节点、1212GB分布式内存和12.5TB磁盘存储容量。

该机器的原型使用的是英特尔的Pentium Pro处理器，每个处理器的时钟频率达到200MHz，后来才升级到Pentium II OverDrive处理器。升级后的系统拥有9632个处理器，每个处理器的主频为333MHz。ASCI Red超级计算机由104个机柜组成，占地面积达到了230平方米。

廉价的1TFLOPS解决方案——Radeon HD4000系列产品

时间一晃而过到2008年，ATI发布了统一渲染架构下的第二代PC领域GPU产品——Radeon HD4000系列产品，其中定位在中高端市场的Radeon HD4850显卡在当时使用了800个频率达到625MHz的流处理器，仅用110W的耗电带来了1TFlops的运算能力。这时人类获取1TFlops的经济支出仅为199美元。

一款HD5870相当于177台深蓝超级计算机节点

仅仅一年之后，ATI再次发力优化统一渲染架构，发布了Radeon HD5000系列产品，其中高端产品HD5870已经集成了2.7 TFlops运算能力。这颗GPU的问世标志着ATI已经成熟掌握了40nm制程工作、DirectX 11应用程序接口和吞吐带宽极高的DDR5显存。同时这颗GPU的运算能力相当于177台深蓝超级计算机节点。

传统意义上的GPU不善于运行分支代码，但是ATI和NVIDIA经过长期改进其内部架构已经使得GPU可以较为高效地运行分支、循环等复杂代码。同时因为GPU属于并行机范畴，相同的运算可以应用到每个数据元素的时候，它们可以达到最好的性能。在CPU编程环境中，写出每个输入数据元素有不同数量的输入的程序很容易，但在GPU这种并行机上还是有不少麻烦。

通用的数据结构正是GPU编程的最大困难之一。CPU程序员经常使用的数据结构如列表和树在GPU身上并不容易实现。GPU目前还不允许任意存储器访问，而且GPU运算单元的设计为主要操作是在表现位置和颜色的四维向量上。

不过这些并不能阻挡GPU编程的加速发展，因为GPU不是真的为通用计算而设计的，需要一些努力才能让GPU高速地服务通用计算程序。这些努力前些年是程序员而单独实现的，而随着ATI和NVIDIA开始看到高性能计算市场的硬件需求，我们看到无论是Fermi架构添加全能二级缓存和统一定址还是RV870架构不断优化LDS并放大并发线程数，这些都是GPU自身硬件体系为了适应未来的运算环境而做出的变革。