● 未来ATI图形芯片架构预测
我们根据各方面的情报综合考虑,下一代即将到来的“Southern Island”(“南岛”)还是延续R600架构,但是把曲面细分单元(Tessellator)放在VLIW Core中,这是一次非常难得的改进。但同时这也是南岛的极限。因为要把固定功能单元要挂到VLIW Core中,就要有独立的总线连接、独立的资源、寄存器、端口,也就是说独立的线程仲裁分配能力。
在VLIW Core中实现独立仲裁分配能力,是AMD一直希望在GPU中做到的,如果能做到这一点,那AMD或许能够借此实现更深级别的乱序执行,这基本上就和NVIDIA站在同一起跑线。同时如果把曲面细分单元(Tessellator)放在VLIW Core中,曲面细分能力将伴随芯片规模而变化,高中低端显卡将拥有各自不同的曲面细分能力。这和NVIDIA将曲面细分单元(Tessellator)放在SM中是一个道理。
AMD下代“南岛”架构两种设计方向推测
如果南岛无法一次性将曲面细分单元(Tessellator)放在VLIW Core中,可以选择另外一种途径,那就是对GPU内部单元进行分频。正如NVIDIA将CUDA Cores的频率以两倍于固定单元频率运行一样,AMD可以选择将几何性能较弱的Setup Engine和Tessellator等单元按一定幅度提升频率。
或者将GPU的前端超线程发送器(Ultra Threaded Dispatch Processor)整体频率提升,这样曲面细分单元自然也会受益,同时GPU的几何处理能力会得到线性增强。
但是也有一种说法认为AMD没有能力在HD6000芯片的VLIW Core级别中添加更多的essellator单元,因为线程仲裁能力背后的设计还很复杂,比如足够的挂起空间。仲裁器本身没多少晶体管,这种资源基本上都是LDS,寄存器也是。所以R800使用了抢占式多线程,但是速度和效率还是得不到保障。
另一种猜想已经被我们否定,那就是在现有的前端超线程发送器(Ultra Threaded Dispatch Processor)中添加一个曲面细分单元(Tessellator)。因为这需要两套独立的crossbar,以及在VLIW Core外设置独立的出口,最后还要设置抢占式多线程分配单元。
所以我们可能看到HD6000系列在流处理器规模与HD5000系列相同的情况下,在Direct X 10和Direct X 9性能方面落后于HD5000,但是由于几何能力的提升,在Direct X 11方面,会有较为出色的表现。这一点和Fermi架构的设计思路是非常接近的。
在南岛架构完成之后,我们将见到相对于目前R600-R800转变较大的北岛架构(Northern Island),根据现有的情报推断,北岛有可能是曾经的C1(代号Xenos架构)放大版。ATI可能会将RV8的US全部取出,把C1的3D+1D的流处理器和高速eDRAM放入核心。按照R600到R800以来的流处理器利用率,ATI认为4D+1D结构利用率很低,完全可以使用更灵活的搭配来减少晶体管消耗,这可以看做是一次向R300架构简洁明快设计思路的回归。
同时北岛架构的eDRAM不是做cache,是做全局存储,也就是我们看到的显存。2005年设计完成的C1(代号Xenos架构)所采用的eDRAM已经有250GB/s以上的带宽了。如果北岛架构使用现在的eDRAM,带宽翻倍甚至接近800GB/s都是可以做到的。当然使用高速eDRAM之后显存容量将会降低,也许我们看到北岛架构只有100MB左右的显存。不过用户不必担心纹理材质的存放问题,在Xenos时代借助eDRAM极高的带宽,整个XBOX360的GPU全局存储只有10MB。快速刷新显存实际上等效于显存容量的放大,加之高效的材质压缩算法,物理显存只要能够容纳最大材质就能满足GPU需求。
- 第1页:全文导读与内容简介
- 第2页:前言:通过GPU见证行业变革
- 第3页:第一章:GPU工作原理与并行计算
- 第4页:21世纪视觉需求与GPU变化
- 第5页:从山峰渲染了解GPU图形流水线
- 第6页:CPU与GPU的设计方向决定运算能力
- 第7页:GPU并行编程为何加速发展
- 第8页:GPU并行计算已成未来趋势
- 第9页:初识高性能并行计算
- 第10页:高性能并行计算发展历程
- 第11页:高性能并行计算单元分类
- 第12页:初识基于GPU系统的云计算
- 第13页:第二章:GPU结构与ATI产品发展
- 第14页:统一着色器架构释放GPU运算能力
- 第15页:传统GPU发展与着色器管线
- 第16页:传统SIMD结构流处理器指令细节
- 第17页:MIMD结构流处理器指令细节
- 第18页:R600时代对SIMD架构补充与优化
- 第19页:两种结构流处理器优劣对比
- 第20页:R300以来的芯片架构及其影响
- 第21页:ATI第一代统一渲染架构Xenos
- 第22页:统一渲染GPU R600临危受命
- 第23页:AMD对GPU架构的不断改进和优化
- 第24页:未来ATI图形芯片架构预测
- 第25页:第三章:GPU通用计算发展与细节
- 第26页:多核并行计算困惑与发展
- 第27页:基于AMD CPU+GPU异构计算平台
- 第28页:着色器模型变化历程与总结
- 第29页:Shader计算能力快速发展
- 第30页:揭秘GPU高性能计算关键
- 第31页:CPU与GPU的区别和发展方向
- 第32页:如何将GPU功能单元映射为通用单元
- 第33页:分支对GPU结构体系的挑战
- 第34页:GPU与CPU将如何演绎融合与吞并
- 第35页:第四章:GPU内部计算实现细节
- 第36页:GPU主要计算单元分布和职能
- 第37页:GPU内部通用计算代码运算过程
- 第38页:认识GPU浮点计算精度
- 第39页:整数运算能力与未来融合架构
- 第40页:GPU存储体系特点与变化
- 第41页:ATI GPU吞吐特性对比与分析
- 第42页:ATI GPU OPEN CL综合性能分析
- 第43页:先进混合架构之Larrabee展望
- 第44页:概念型融合架构之Fusion APU展望
- 第45页:GPU进化架构之Fermi分析
- 第46页:第五章:ATI GPU通用计算实例
- 第47页:ATI Stream技术发展与现状
- 第48页:OPEN CL接口技术与异构运算
- 第49页:Havok引擎与CPU+GPU异构运算
- 第50页:BOINC平台充沛的ATI GPU加速项目
- 第51页:最具影响力的Folding@home项目
- 第52页:GPU架构对于其他实例的适应性
- 第53页:全文总结与未来架构展望