双向内存读取环路与写入交叉闩
内存带宽指标反映了在单位时间内的数据传输量,随着GPU性能的提升,对内存带宽的需求也与日俱增。此外,当我们在高分辨率(例如1920X1080)下渲染和打开抗锯齿、各向异性过滤等提高画面品质的功能后,内存带宽的需求也会急剧上升。GPU能处理数据的速度越快,就必须提供更快的数据传输速率以保证GPU的性能尽可能处于峰值状态。
在GeForce 3,NVIDIA首次在GPU中引入了Crossbar内存控制技术(Lighting Speed内存架构的一部分)。在引入了DDR内存后,128位DDR内存总线其实等效于256位总线,在GeForce 3上有四个32bit DDR内存控制器,每个控制器每次能最高传输64位数据。如果遇到GPU需求的数据块小于内存控制胃口的时候(例如32位数据块),传统方式的内存控制器技术就只能达到50%的利用率,而在Crossbar加持下,内存总线的效率将会显著提升,确保内存带宽尽可能地处于饱盈的状态,在遇到只需要小数据块传输指令的时候不至于浪费带宽。
ATI在R300(RADEN 9700)上采用了256位内存总线,由4个64位DDR内存控制器掌管传输。在这以后的256位内存总线GPU,也都基本上采用了4X64的控制器配置,从内存传输的利用率来说,是不如32位好的。

图上方是RADEON X1800的内存控制器搭配方式(8X32bit GDDR3)
图下方是RADEON X850的内存控制器搭配方式(4X64bit GDDR3)
而在RADEON X1000系上,ATI重新起用了32位内存控制器,在RADEON X1800上,有8个32bit内存控制器,内存带宽使用效率恢复到接近GeForce 3时代的水准。
RADEON X1800支持DDR2、GDDR3、GDDR4内存,而第一波产品发布中最高端的RADEON X1800XT采用的是三星的K4J52324QC-BJ12 GDDR3内存颗粒,设定的内存时钟频率为750MHz(等效1500MT/s)。
为了充分利用高速内存的优势,ATI给RADEON X1000系设计了一个新式的环网总线架构。
这个环网设计前提思路是:随着GPU越来越复杂,内部需要连接到内存控制器的处理单元越来越多,如果继续维持完全采用Crossbar的设计,这些连接路由控制将会变得非常复杂,并且信号布线会越来越长和复杂。
更长的布线会导致延迟增加,而复杂的路由会由于线路之间的串音而降低信号品质,此外由于布线延长增加的阻抗,GPU的发热和耗电也会有所增加,这些因素都会导致难以提升GPU的时钟频率。
上图就是ATI RADEON X1800的环网拓扑图,红色的就是两条双向个256位的环路,负责把内存中的资料交付给贴图单元、顶点着色器等单元(这些对象ATI称作是内存客户端),而资料的写入操作则依然会被路由到Crossbar上来实现。
| 传统架构的内存读取次序 | 环路架构的内存读取次序 |
| 内存客户端向内存控制器发出读取请求 | 内存客户端向内存控制器发出读取请求 |
| 内存控制器收集请求并安排优先次序 发送到内存上 |
内存控制器收集请求并安排优先次序 发送到内存上 |
| 内存把请求的数据发送到内存控制器上 | 内存把请求的数据发送到环路上 |
| 内存控制器向内存客户端递交请求的数据 | 内存客户端从环路上获取请求的数据 |
根据ATI的介绍,采用了这样的环路读取、Crossbar写入的设计后,内存总线的频率可以比以前的产品提高一倍,使得X1000系可以充分利用先进的内存技术。
此外ATI还提到,X1000系的内存仲裁器能够由驱动程序控制,可以透过驱动程序的CATALYST A.I(智能参数设定),为特定的应用程序设定仲裁优先次序,让内存控制器优先处理最迫切、对性能影响最大的数据请求。


就为那一抹红 iGame GTX 1660 Ultra图赏
A卡真旗舰 蓝宝石RX 5700 XT 超白金图赏
华硕P8Z77-V DELUXE新功能解析
全汉蓝暴经典版550电源评测