● ATI GPU吞吐特性对比与分析
我们知道ATI现有的R800架构是由R600架构演变而来的,而R600又可以看作是支持DirectX10的Xenos处理器,同时Xenos最大的特色是采用了统一着色器单元架构,这是当时最为先进的GPU架构,所以现在的R800架构还是充满了浓重的传统渲染流处理器色彩,这种沿用至今的SIMD单元同一时间内执行一个线程,各SIMD单元都有自己的寄存器供SIMD内的执行单元共享。
AMD从R600时代开始,其SIMD核心内的5D ALU采用VLIW技术,可以用一条指令完成对多个对数据的计算。图形Shader指令经过驱动的JIT(即时)编译器编译优化后,变成GPU能识别的机器码并被捆绑成长度数百位元的VLIW指令串包。VLIW指令包到达指令序列器后,会被动态重新安排,序列器会把不相依的指令捆绑成能够尽可能让SIMD单元并行执行的指令串,交给SIMD单元执行。
VLIW的效率依赖于指令系统和编译器的效率。如果指令并行度较高,则这种流处理器组织结构会受益。如果并行度较差,编译器必须尽可能地寻找指令中的并行性并将其并接为合适的长指令,这样5D ALU中的计算单元就会尽可能地被利用起来不至于浪费。虽然NVIDIA的1D ALU不会遇到这种问题,但是1D ALU最大的问题就是调度器和发射端包括寄存器的晶体管消耗量太严重,理论浮点吞吐量无法获得提升。
开放性通用计算接口OPEN CL
关于A卡和N卡在开放性的通用计算接口OPEN CL计算方面的性能差异,很多媒体进行过测试,但大家实际上一直在找一个合适的平台,在找一套合适的测试基准程序。目前,首款国人开发的支持GPU的OpenCL通用计算测试程序OpenCL General Purpose Computing Benchmark (简称GPC Benchmark OCL)已经公开并且升级到1.1版本。中关村在线显卡频道决定使用这款软件,对AMD和NVIDIA的架构特性做一些对比,以测试它们在哪些环境中能发挥出更好的理论性能。
我们使用GPC Benchmark 1.1对当前ATI和NVIDIA顶级GPU做理论浮点运算能力测试,测试选择了最具代表性的浮点吞吐项目,分别是单精度加法、单精度乘法、单精度乘加、密码学SHA-1哈希加密。我们选择了10.3正式版驱动(AMD Radeon HD 5870)和256正式版驱动(NVIDIA GeForce GTX 480)测试平台如下:
测 试 平 台 硬 件 | |
中央处理器 | Intel Core i7-870 |
散热器 | Thermalright Ultra-120 eXtreme |
内存模组 | G.SKILL F3-12800CL9T-6GBNQ 2GB*2 |
(SPD:1600 9-9-9-24-2T) | |
主板 | ASUS P6T Deluxe |
(Intel P55 + ICH10R Chipset) | |
显示卡 | |
测 试 产 品 | |
GeForce GTX 480 | |
(GF100 / 1536MB / 核心:700MHz / Shader:1401MHz / 显存:3696MHz) | |
Radeon HD 5870 | |
(RV870 / 1024MB / 核心:850MHz / Shader:850MHz / 显存:4800MHz) | |
GeForce GTX 285 | |
(GT200 / 1024MB / 核心:648MHz / Shader:1476MHz / 显存:2848MHz) | |
Radeon HD 4870 | |
(RV770 / 1024MB / 核心:780MHz / Shader:780MHz / 显存:3700MHz) | |
硬盘 | Western Digital Caviar Blue |
(640GB / 7200RPM / 16M | |
电源供应器 | AcBel R8 ATX-700CA-AB8FB |
(ATX12V 2.0 / 700W) | |
显示器 | DELL UltraSharp 3008WFP |
(30英寸LCD / 2560*1600分辨率) |
除了底层性能的检测软件之外,我们还使用了SiSoftware Sandra 2010版软件来检测显卡所搭载的GPU理论浮点吞吐量。这个测试可以检测GPU的Shader单元运算能力,虽然它是面向通用计算程序设计的,但是在一些较为高端的对Shader负载较重的游戏中,Shader单元运算能力强的显卡可以有更强劲的发挥和更小的性能衰减。
SiSoftware Sandra 2010 GPGPU Processing项目浮点吞吐
需要注意的是这里检测的仅是理论浮点值,实际运算环境中将会包含大量跳转嵌套分支等指令,只有运算器组织得当的GPU,才能有效避免理论值的大幅度衰减。测试对N卡和A卡则给予了可选择的接口支持,所以测试结果无论是对于NVIDIA还是AMD都比较公正。我们使用的版本号是16.36.2010,测试方法是进入程序后,选择界面中的Benchmark工具,然后选择GPGPU Processing项目。
- 第1页:全文导读与内容简介
- 第2页:前言:通过GPU见证行业变革
- 第3页:第一章:GPU工作原理与并行计算
- 第4页:21世纪视觉需求与GPU变化
- 第5页:从山峰渲染了解GPU图形流水线
- 第6页:CPU与GPU的设计方向决定运算能力
- 第7页:GPU并行编程为何加速发展
- 第8页:GPU并行计算已成未来趋势
- 第9页:初识高性能并行计算
- 第10页:高性能并行计算发展历程
- 第11页:高性能并行计算单元分类
- 第12页:初识基于GPU系统的云计算
- 第13页:第二章:GPU结构与ATI产品发展
- 第14页:统一着色器架构释放GPU运算能力
- 第15页:传统GPU发展与着色器管线
- 第16页:传统SIMD结构流处理器指令细节
- 第17页:MIMD结构流处理器指令细节
- 第18页:R600时代对SIMD架构补充与优化
- 第19页:两种结构流处理器优劣对比
- 第20页:R300以来的芯片架构及其影响
- 第21页:ATI第一代统一渲染架构Xenos
- 第22页:统一渲染GPU R600临危受命
- 第23页:AMD对GPU架构的不断改进和优化
- 第24页:未来ATI图形芯片架构预测
- 第25页:第三章:GPU通用计算发展与细节
- 第26页:多核并行计算困惑与发展
- 第27页:基于AMD CPU+GPU异构计算平台
- 第28页:着色器模型变化历程与总结
- 第29页:Shader计算能力快速发展
- 第30页:揭秘GPU高性能计算关键
- 第31页:CPU与GPU的区别和发展方向
- 第32页:如何将GPU功能单元映射为通用单元
- 第33页:分支对GPU结构体系的挑战
- 第34页:GPU与CPU将如何演绎融合与吞并
- 第35页:第四章:GPU内部计算实现细节
- 第36页:GPU主要计算单元分布和职能
- 第37页:GPU内部通用计算代码运算过程
- 第38页:认识GPU浮点计算精度
- 第39页:整数运算能力与未来融合架构
- 第40页:GPU存储体系特点与变化
- 第41页:ATI GPU吞吐特性对比与分析
- 第42页:ATI GPU OPEN CL综合性能分析
- 第43页:先进混合架构之Larrabee展望
- 第44页:概念型融合架构之Fusion APU展望
- 第45页:GPU进化架构之Fermi分析
- 第46页:第五章:ATI GPU通用计算实例
- 第47页:ATI Stream技术发展与现状
- 第48页:OPEN CL接口技术与异构运算
- 第49页:Havok引擎与CPU+GPU异构运算
- 第50页:BOINC平台充沛的ATI GPU加速项目
- 第51页:最具影响力的Folding@home项目
- 第52页:GPU架构对于其他实例的适应性
- 第53页:全文总结与未来架构展望