● GPU存储体系特点与变化
GPU存储体系是GPU的显著优势,当然从某一方面讲也是GPU的明显劣势。其优势是可以借助显卡PCB上焊接的GDDR3或者GDDR5显存,加上GPU内部充足的显存控制器资源获得CPU无法比拟的带宽,劣势是GPU没有足够大的Cache,并且存储体系构成与管理方式相对于CPU来说还是过于简单。
相对于串行CPU的主存储器、Cache和寄存器,图形处理器具有他们自己的存储体系结构。然而,这个存储器体系结构是针对图形加速操作设计的,适合于流式编程模型,而不是通用串行的计算。而且图形API进一步将这个存储器限制成为只能使用图形专用的图元、如顶点、纹理和显存。
CPU与GPU存储体系简析
上图演示了简单的CPU和GPU存储体系结构。GPU的存储器系统建立了现代计算机存储体系的一个分支。GPU和CPU类似,它也有自己的Cache和寄存器来加速计算中的数据访问。然而GPU自己的主存储器也有它自己的存储器空间——这意味着在程序运行之前,程序员必须明确地把数据复制写入GPU存储器。这个传输传统上是很多应用程序的一个瓶颈,但是新的PCI-Express总线标准可能使存储器在CPU和GPU之间共享数据在不远的未来变得更为可行。
具体到显存带宽方面,当前桌面级顶级产品3通道DDR3-1333的峰值是32GB/s,实测中由于诸多因素带宽在20GB/s上下浮动。HD 5870 1024MB使用了8bit预取位带宽超高的GDDR5显存,内存总线数据传输率为150GB/s的总线带宽。而主流GPU普遍拥有40-60 GB/s显存带宽。存储器的超高带宽让巨大的浮点运算能力得以稳定吞吐,也为数据密集型任务的高效运行提供了保障。
在Cache方面,为了适应更复杂的数据,在GPU内部加入Cache是一种有效的方式:最近使用的数据的副本可以由存储器传递到Cache中并根据替换协议不断更改。但是Cache由于对晶体管消耗较大,缓存协议难以实现,延迟难以控制,一直是GPU设计的重要障碍之一。
又如NVIDIA在G80架构中加入的Shared Memory和AMD在RV770架构加入的LDS(Local Data Share)。这个共享寄存器位于每个流处理器单元内部的所有运算单元中,它在通用计算时负责共享数据和临时挂起线程。容量足够大的共享缓存可以在运算时提高线程的挂起能力,还有很多东西比如乱序,分支等等都会受益于Cache的加入。
- 第1页:全文导读与内容简介
- 第2页:前言:通过GPU见证行业变革
- 第3页:第一章:GPU工作原理与并行计算
- 第4页:21世纪视觉需求与GPU变化
- 第5页:从山峰渲染了解GPU图形流水线
- 第6页:CPU与GPU的设计方向决定运算能力
- 第7页:GPU并行编程为何加速发展
- 第8页:GPU并行计算已成未来趋势
- 第9页:初识高性能并行计算
- 第10页:高性能并行计算发展历程
- 第11页:高性能并行计算单元分类
- 第12页:初识基于GPU系统的云计算
- 第13页:第二章:GPU结构与ATI产品发展
- 第14页:统一着色器架构释放GPU运算能力
- 第15页:传统GPU发展与着色器管线
- 第16页:传统SIMD结构流处理器指令细节
- 第17页:MIMD结构流处理器指令细节
- 第18页:R600时代对SIMD架构补充与优化
- 第19页:两种结构流处理器优劣对比
- 第20页:R300以来的芯片架构及其影响
- 第21页:ATI第一代统一渲染架构Xenos
- 第22页:统一渲染GPU R600临危受命
- 第23页:AMD对GPU架构的不断改进和优化
- 第24页:未来ATI图形芯片架构预测
- 第25页:第三章:GPU通用计算发展与细节
- 第26页:多核并行计算困惑与发展
- 第27页:基于AMD CPU+GPU异构计算平台
- 第28页:着色器模型变化历程与总结
- 第29页:Shader计算能力快速发展
- 第30页:揭秘GPU高性能计算关键
- 第31页:CPU与GPU的区别和发展方向
- 第32页:如何将GPU功能单元映射为通用单元
- 第33页:分支对GPU结构体系的挑战
- 第34页:GPU与CPU将如何演绎融合与吞并
- 第35页:第四章:GPU内部计算实现细节
- 第36页:GPU主要计算单元分布和职能
- 第37页:GPU内部通用计算代码运算过程
- 第38页:认识GPU浮点计算精度
- 第39页:整数运算能力与未来融合架构
- 第40页:GPU存储体系特点与变化
- 第41页:ATI GPU吞吐特性对比与分析
- 第42页:ATI GPU OPEN CL综合性能分析
- 第43页:先进混合架构之Larrabee展望
- 第44页:概念型融合架构之Fusion APU展望
- 第45页:GPU进化架构之Fermi分析
- 第46页:第五章:ATI GPU通用计算实例
- 第47页:ATI Stream技术发展与现状
- 第48页:OPEN CL接口技术与异构运算
- 第49页:Havok引擎与CPU+GPU异构运算
- 第50页:BOINC平台充沛的ATI GPU加速项目
- 第51页:最具影响力的Folding@home项目
- 第52页:GPU架构对于其他实例的适应性
- 第53页:全文总结与未来架构展望