双向内存读取环路与写入交叉闩

来自ATI的Shader Model3——RADEON X1000系列技术分析

http://review.gzeasy.com/ 【转载】 2005年10月08日 13:56 评论

双向内存读取环路与写入交叉闩

内存带宽指标反映了在单位时间内的数据传输量，随着GPU性能的提升，对内存带宽的需求也与日俱增。此外，当我们在高分辨率（例如1920X1080）下渲染和打开抗锯齿、各向异性过滤等提高画面品质的功能后，内存带宽的需求也会急剧上升。GPU能处理数据的速度越快，就必须提供更快的数据传输速率以保证GPU的性能尽可能处于峰值状态。

在GeForce 3，NVIDIA首次在GPU中引入了Crossbar内存控制技术（Lighting Speed内存架构的一部分）。在引入了DDR内存后，128位DDR内存总线其实等效于256位总线，在GeForce 3上有四个32bit DDR内存控制器，每个控制器每次能最高传输64位数据。如果遇到GPU需求的数据块小于内存控制胃口的时候（例如32位数据块），传统方式的内存控制器技术就只能达到50%的利用率，而在Crossbar加持下，内存总线的效率将会显著提升，确保内存带宽尽可能地处于饱盈的状态，在遇到只需要小数据块传输指令的时候不至于浪费带宽。

ATI在R300（RADEN 9700）上采用了256位内存总线，由4个64位DDR内存控制器掌管传输。在这以后的256位内存总线GPU，也都基本上采用了4X64的控制器配置，从内存传输的利用率来说，是不如32位好的。

图上方是RADEON X1800的内存控制器搭配方式（8X32bit GDDR3）
图下方是RADEON X850的内存控制器搭配方式（4X64bit GDDR3）

而在RADEON X1000系上，ATI重新起用了32位内存控制器，在RADEON X1800上，有8个32bit内存控制器，内存带宽使用效率恢复到接近GeForce 3时代的水准。

RADEON X1800支持DDR2、GDDR3、GDDR4内存，而第一波产品发布中最高端的RADEON X1800XT采用的是三星的K4J52324QC-BJ12 GDDR3内存颗粒，设定的内存时钟频率为750MHz（等效1500MT/s）。

为了充分利用高速内存的优势，ATI给RADEON X1000系设计了一个新式的环网总线架构。

这个环网设计前提思路是：随着GPU越来越复杂，内部需要连接到内存控制器的处理单元越来越多，如果继续维持完全采用Crossbar的设计，这些连接路由控制将会变得非常复杂，并且信号布线会越来越长和复杂。

更长的布线会导致延迟增加，而复杂的路由会由于线路之间的串音而降低信号品质，此外由于布线延长增加的阻抗，GPU的发热和耗电也会有所增加，这些因素都会导致难以提升GPU的时钟频率。

上图就是ATI RADEON X1800的环网拓扑图，红色的就是两条双向个256位的环路，负责把内存中的资料交付给贴图单元、顶点着色器等单元（这些对象ATI称作是内存客户端），而资料的写入操作则依然会被路由到Crossbar上来实现。

传统架构的内存读取次序	环路架构的内存读取次序
内存客户端向内存控制器发出读取请求	内存客户端向内存控制器发出读取请求
内存控制器收集请求并安排优先次序发送到内存上	内存控制器收集请求并安排优先次序发送到内存上
内存把请求的数据发送到内存控制器上	内存把请求的数据发送到环路上
内存控制器向内存客户端递交请求的数据	内存客户端从环路上获取请求的数据