● R300以来的芯片架构及其影响
作为第一代DirectX 9产品,R300及其各种派生产品让对手NVIDIA吃尽苦头。时至两三年之后,基于R300体系架构的Radeon9800 PRO、Radeon9800SE等产品依然在市场上长盛不衰。加之当时AMD推出第一款X86-64架构处理器——Athlon 64,整个市场都在为“双A”巨头的飞速发展而惊喜。
R300的成功一方面基于产品的设计简洁明快,另一方面则是ATI市场把控决策能力的集中体现。Radeon 9700(R300)图形芯片采用了0.15微米制程,完全遵循DirectX 9,也就是说R300管道从头到尾完全浮点化,大大增加了内核晶体管的数目。完全浮点化的管线加上内核集成的8条渲染管道,使得R300芯片内核集成的晶体管数目超过了1亿1千万个,这超越了当时任何一款GPU的集成度,这毫无疑问是当时架构最为复杂的一款GPU。
2002年底微软发布的DirectX 9.0中,PS单元的渲染精度已达到浮点精度,传统的硬件T&L单元也被取消。全新的Vertex Shader(顶点着色引擎)编程将比以前复杂得多,新的Vertex Shader标准增加了流程控制,更多的常量,每个程序的着色指令增加到了1024条。DirectX 9.0从技术规格上看似乎没有DX7和DX8那种让人眼前一亮的革命性技术,它只是将Shader Model版本从1.0升级到2.0而已。其实不然,此次Shader Model指令集的改进让图形渲染画质提高到了新的水平。
R300架构着色器单元
首先,Pixel Shader 2.0具备完全可编程架构,能对纹理效果即时演算、动态纹理贴图,还不占用显存,理论上对材质贴图的分辨率的精度提高无限多;另外PS1.4只能支持28个硬件指令,同时操作6个材质,而PS2.0却可以支持160个硬件指令,同时操作16个材质数量,新的高精度浮点数据规格可以使用多重纹理贴图,可操作的指令数可以任意长,电影级别的显示效果轻而易举的实现。
其次,Vertex Shader 2.0通过增加顶点指令的灵活性,显著的提高了老版本的顶点性能,新的控制指令,可以用通用的程序代替以前专用的单独着色程序,效率提高许多倍;增加循环操作指令,减少工作时间,提高处理效率;扩展着色指令个数,从128个提升到256个。
另外,增加对浮点数据的处理功能,以前只能对整数进行处理,这样提高渲染精度,使最终处理的色彩格式达到电影级别。突破了以前限制PC图形图象质量在数学上的精度障碍,它的每条渲染流水线都升级为128位浮点颜色,让游戏程序设计师们更容易更轻松的创造出更漂亮的效果,让程序员编程更容易。
R300的简洁高效是竞争对手难以比拟的,虽然当时的它不支持IEEE提出的精度标准,但是它成功地影响了微软。同时R300还深刻影响到了ATI后来的GPU架构发展。我们现在回顾R300架构的设计可以这样认为,ATI首先在DirectX7.0和8.0时代预测到了未来的应用环境和GPU发展规律,其次通过增强研发团队实力设计出一款符合未来应用的架构,它用合理的芯片规模换取了巨大的性能提升;最不可忽视的一点是ATI通过超越以往的公关能力影响了微软对于DirectX标准的制定,达到了硬件与编程环境的高度统一。
- 第1页:全文导读与内容简介
- 第2页:前言:通过GPU见证行业变革
- 第3页:第一章:GPU工作原理与并行计算
- 第4页:21世纪视觉需求与GPU变化
- 第5页:从山峰渲染了解GPU图形流水线
- 第6页:CPU与GPU的设计方向决定运算能力
- 第7页:GPU并行编程为何加速发展
- 第8页:GPU并行计算已成未来趋势
- 第9页:初识高性能并行计算
- 第10页:高性能并行计算发展历程
- 第11页:高性能并行计算单元分类
- 第12页:初识基于GPU系统的云计算
- 第13页:第二章:GPU结构与ATI产品发展
- 第14页:统一着色器架构释放GPU运算能力
- 第15页:传统GPU发展与着色器管线
- 第16页:传统SIMD结构流处理器指令细节
- 第17页:MIMD结构流处理器指令细节
- 第18页:R600时代对SIMD架构补充与优化
- 第19页:两种结构流处理器优劣对比
- 第20页:R300以来的芯片架构及其影响
- 第21页:ATI第一代统一渲染架构Xenos
- 第22页:统一渲染GPU R600临危受命
- 第23页:AMD对GPU架构的不断改进和优化
- 第24页:未来ATI图形芯片架构预测
- 第25页:第三章:GPU通用计算发展与细节
- 第26页:多核并行计算困惑与发展
- 第27页:基于AMD CPU+GPU异构计算平台
- 第28页:着色器模型变化历程与总结
- 第29页:Shader计算能力快速发展
- 第30页:揭秘GPU高性能计算关键
- 第31页:CPU与GPU的区别和发展方向
- 第32页:如何将GPU功能单元映射为通用单元
- 第33页:分支对GPU结构体系的挑战
- 第34页:GPU与CPU将如何演绎融合与吞并
- 第35页:第四章:GPU内部计算实现细节
- 第36页:GPU主要计算单元分布和职能
- 第37页:GPU内部通用计算代码运算过程
- 第38页:认识GPU浮点计算精度
- 第39页:整数运算能力与未来融合架构
- 第40页:GPU存储体系特点与变化
- 第41页:ATI GPU吞吐特性对比与分析
- 第42页:ATI GPU OPEN CL综合性能分析
- 第43页:先进混合架构之Larrabee展望
- 第44页:概念型融合架构之Fusion APU展望
- 第45页:GPU进化架构之Fermi分析
- 第46页:第五章:ATI GPU通用计算实例
- 第47页:ATI Stream技术发展与现状
- 第48页:OPEN CL接口技术与异构运算
- 第49页:Havok引擎与CPU+GPU异构运算
- 第50页:BOINC平台充沛的ATI GPU加速项目
- 第51页:最具影响力的Folding@home项目
- 第52页:GPU架构对于其他实例的适应性
- 第53页:全文总结与未来架构展望