● 整数运算能力与未来融合架构
在图形运算中,整数单元可以用来处理整数纹理过滤。纹理过滤包括两部分,一是抗失真,二是抗溢出。CPU一开始不会浮点运算,过去的CPU寄存器资源全部都是给整数单元。但是在整数运算方面,目前INT单元在通用计算中的效用不是非常明显,首先科学运算中涉及整数的场合本身就远没有浮点多,其次在这个基础上,CPU的整数一直都是很传统的保留项目。
整数单元的构成并不是GPU的性能瓶颈,但是在GPU的运算性能中,整数能力也是非常重要的环节,如果设计者忽视了这一点,将在通用计算中给GPU带来严重性能短板。比如说在穷举算法为主的密码学中几乎没有浮点密码,整数运算能力直接影响到GPU的运算效率。
OpenCL和DirectCompute两大API的推出让GPU并行计算的前途豁然开朗,此时ATI和NVIDIA在接口标准方面又重新站在了同一起跑线上。那么很显然AMD在目前GPU通用计算不能单独和NVIDIA抗衡的情况下,所选择的战略是借助于全新的API使得CPU强化整数GPU接管浮点。
Bulldozer核心架构
AMD同时拥有CPU和GPU,而且NVIDIA和Intel都没有同时驾驭这两种差异度极高的产品线的能力,因此其未来发展规划非常值得大家思考。其下一代的高端CPU核心Bulldozer(推土机)最大的亮点就是每一颗核心拥有双倍的整数运算单元,每个单元4条并行流水线,整数和浮点为非对称设计。Bulldozer还将加入128-bit的SSE5指令集支持,达到更高的执行效率,估计还将会增加CPU寄存器数量,为单指令多数据流技术(SIMD)运算提供更多的空间。
这种设计使得浮点计算的重任开始向GPU倾斜,未来的CPU将专注整数运算能力,而如果用户需要大量的并行浮点计算,可以选择使用外置的加速卡(GPU通用计算产品)来实现。
在一个推土模块里面有两个独立的整数核心,每一个都拥有自己的指令、数据缓存,也就是scheduling/reordering逻辑单元。而且这两个整数单元的中的任何一个的吞吐能力都要强于Phenom II上现有的整数处理单元。Intel的Core构架无论整数或者浮点,都采用了统一的scheduler(调度)派发指令。而AMD的构架使用独立的整数和浮点scheduler。
AMD认为CPU和GPU谁也不可能取代谁,双方是互补的关系,只有CPU和GPU协同运算,各自去处理最擅长的任务,才能发挥出计算机最强的效能。从CPU漫长的发展历程来看,它会延续一路不断整合其他功能单元的道路来整合GPU,但仅限中低端产品,而且这种整合不是吞并,而是提高CPU的浮点运算性能;GPU会取代CPU进行浮点运算,但它仍然需要CPU来运行操作系统并控制整个计算机。
实际上自从2006年收购ATI以后,AMD便开始将更多精力放在一些特殊功能的电路元件上,尤其是图形处理技术。这是以前ATI的主业,ATI从R520架构开始提供的视频编码和解码技术非常出色。AMD很快在该部门中使用了所谓的“异构计算”(heterogeneous computing)技术。联系到AMD在8月16日推出全面支持OpenCL 1.1 的 ATI Stream软件开发包 (SDK) 2.2版,借助正在执行的Fusion的战略,AMD明年将首次在单芯片中实现异构计算技术。
- 第1页:全文导读与内容简介
- 第2页:前言:通过GPU见证行业变革
- 第3页:第一章:GPU工作原理与并行计算
- 第4页:21世纪视觉需求与GPU变化
- 第5页:从山峰渲染了解GPU图形流水线
- 第6页:CPU与GPU的设计方向决定运算能力
- 第7页:GPU并行编程为何加速发展
- 第8页:GPU并行计算已成未来趋势
- 第9页:初识高性能并行计算
- 第10页:高性能并行计算发展历程
- 第11页:高性能并行计算单元分类
- 第12页:初识基于GPU系统的云计算
- 第13页:第二章:GPU结构与ATI产品发展
- 第14页:统一着色器架构释放GPU运算能力
- 第15页:传统GPU发展与着色器管线
- 第16页:传统SIMD结构流处理器指令细节
- 第17页:MIMD结构流处理器指令细节
- 第18页:R600时代对SIMD架构补充与优化
- 第19页:两种结构流处理器优劣对比
- 第20页:R300以来的芯片架构及其影响
- 第21页:ATI第一代统一渲染架构Xenos
- 第22页:统一渲染GPU R600临危受命
- 第23页:AMD对GPU架构的不断改进和优化
- 第24页:未来ATI图形芯片架构预测
- 第25页:第三章:GPU通用计算发展与细节
- 第26页:多核并行计算困惑与发展
- 第27页:基于AMD CPU+GPU异构计算平台
- 第28页:着色器模型变化历程与总结
- 第29页:Shader计算能力快速发展
- 第30页:揭秘GPU高性能计算关键
- 第31页:CPU与GPU的区别和发展方向
- 第32页:如何将GPU功能单元映射为通用单元
- 第33页:分支对GPU结构体系的挑战
- 第34页:GPU与CPU将如何演绎融合与吞并
- 第35页:第四章:GPU内部计算实现细节
- 第36页:GPU主要计算单元分布和职能
- 第37页:GPU内部通用计算代码运算过程
- 第38页:认识GPU浮点计算精度
- 第39页:整数运算能力与未来融合架构
- 第40页:GPU存储体系特点与变化
- 第41页:ATI GPU吞吐特性对比与分析
- 第42页:ATI GPU OPEN CL综合性能分析
- 第43页:先进混合架构之Larrabee展望
- 第44页:概念型融合架构之Fusion APU展望
- 第45页:GPU进化架构之Fermi分析
- 第46页:第五章:ATI GPU通用计算实例
- 第47页:ATI Stream技术发展与现状
- 第48页:OPEN CL接口技术与异构运算
- 第49页:Havok引擎与CPU+GPU异构运算
- 第50页:BOINC平台充沛的ATI GPU加速项目
- 第51页:最具影响力的Folding@home项目
- 第52页:GPU架构对于其他实例的适应性
- 第53页:全文总结与未来架构展望