纸上谈兵：NVIDIA G84 vs AMD RV630

中端领军极限对撞 G84和RV630谁更强悍

CNET中国·ZOL 作者：中关村在线王胤韬 责任编辑：王胤韬【原创】 2007年08月10日 06:21 评论

纸上谈兵：NVIDIA G84 vs AMD RV630

　　● NVIDIA G84 效率为王

　　NVIDIA Geforce 8600 GTS使用的GPU为G84-400，是G84系列中的最高档型号，由台积电（TSMC）使用80nm工艺制造，内含约2.89亿个晶体管。G80革命性的可以维持最多4096个线程的GigaThread逻辑部分被完全保留，并且其内部还集成了G80不具备的新版Video ProCESsor和H.264 BSP引擎，强化了高清视频解码能力。

　　Geforce 8系列旗舰GPU G80-300拥有128个通用标量着色器（SP：Stream Processor）、GigaThread逻辑、24个光栅处理器（Raster Opteration）以及384bit位宽的内存控制器。Geforce G84-400 GPU基本上是G80硬件指标的25%。

中端领军极限对撞 G84和RV630谁更强悍
NVIDIA G84-400 GPU

　　G80 GPU的128个通用标量着色器分成16组，每组着色器联合着一组均衡配置的纹理过滤、纹理地址单元和对应的L1/L2 Cache一起工作。这样一个着色器组是模块化设计的，并且脱离于后端的ROP和内存控制器。G84即是一款32通用着色器的GPU，实际上它就是16SPs*2的配置。G84内的32个通用标量着色器频率和ROP标准频率的675MHz异步运行，比例大致在2.16:1，它的内存控制器仅为128bit位宽，远较G80的384bit/320bit低。G84的ROP数目为8。

　　G8X系列GPU使用大量晶体管来实现线程极的超级并行能力，其中包括线程仲裁机构、大容量的片内缓存等，在通用标两着色器数目方面并不突出，因此NVIDIA在这里引入了大幅提升GPU芯片内着色器部分工作频率的方式来增强GPU整体的峰值计算能力，正因为此，我们之前的多篇文章中提及Geforce 8系列显卡的GPU频率时均要明确指出核心/着色器频率。

　　● AMD RV630 以数量取胜

　　Radeon HD 2600 XT基于RV630 GPU，它是旗舰级GPU R600的3D规格简化+视频解码增强+制造工艺改进版本，在3D加速能力上RV630约为R600的3/8。除着色器数量和对应的渲染后端规模大规模削减外，R600其他3D相关逻辑在RV630上完全保留，并且还加入了全新的UVD高清视频硬件解码逻辑。RV630 GPU也是全球第一款65nm工艺制造的GPU，内含3.9亿晶体管，亦由台积电制造。

AMD RV630 GPU

　　RV630内置120个通用标量着色器，内部以24*5D的准向量模式组织，其着色器和核心其他部分频率同步。在Radeon HD 2600 XT上，它的标准频率为800MHz，明显要高于80nm的NVIDIA G84 700MHz的水平。RV630的ROP数目为4。

　　RV630精简自R600，除着色器数量和对应的渲染后端规模大规模削减外，其他3D相关逻辑完全保留，并且还加入了全新的UVD高清视频硬件解码逻辑。这款芯片采用了CBGA封装，裸露的核心尺寸适中，没有附加保护装置。RV630直接配置在PCI-Express上，标准模式是16lanes宽度的单个连接。和NVIDIA G84类似，RV630也是一款内置128bit位宽内存控制器的GPU，AMD也没有在这个档次的产品中引入256bit，虽然R600惊世骇俗的达到了512bit内存位宽。

　　● GPU设计思路和规格的差别

　　G84和RV630都是全面支持DirectX 10并使用统一渲染架构设计的新一代GPU，但在以上大前提下，两者细节实现区别明显。

　　RV630虽然也将流处理单元分组，但并没有给每个这样的小组配置纹理单元及缓存，而是在整个流处理器阵外设计了纹理单元+缓存模块。而对整体性能影响更大的是，RV630的标量流处理器运行模式以及它们和线程管理机构、编译器的互动和G84都是完全不同的。

G84 GPU和RV630 GPU核心架构对比示意

　　相对于G84的纯粹1D*32模式标量着色器设计，RV630流处理单元被每5个分成一组，事实上形成一种4D+1D模式的5D向量着色器，不过这种着色器和传统向量着色器不同的是，它能够理论上实现每周器发射最多5个标量指令，形成逻辑上的1D*5着色执行模式，当然它也可以进行2D+2D+1D这样的多标量+向量指令的混合发射。不过和G84每个流处理器都是完整的拥有自己执行资源的ALU不同的是，RV630的每5个流处理单元才能行使完整的ALU功能，向外部申请执行资源。

　　G84的指令调度仲裁机构非常先进，GigaThread硬件逻辑一视同仁的把任何指令拆成1D标量指令，在强大的硬件线程调度能力和高容量缓存资源的支撑下去管理128个1D标量着色器执行这些指令。考虑到片内缓存的高实现成本，G84在GigaThread上耗费了大量晶体管，标量着色器绝对数目处于劣势，使用着色器频率异步来提高计算能力。AMD的解决方式是依靠硬件软件之间的中间件、编译器来完成向量、标量指令的组合。也就是说编译器负责在编译具体3D应用程序中的着色器代码时，将不同段数的向量指令、标量指令进行组合，统一封装成5D总段数的片段再输入给线程分支处理逻辑，实现指令的并行化处理。

AMD / NVIDIA 中档 GPU 规格对比
产品型号	AMD Radeon HD 2600 XT GDDR4	NVIDIA Geforce 8600 GTS
核心代号	RV630	G84-400
制造工艺	65nm	80nm
核心晶体管数目	3.90亿	2.89亿
DirectX 版本支持	DirectX 10
着色器数量	120	32
着色器组织形式	24(1D5)	32*1D
光栅处理器数量	4	8
抗锯齿模式支持	8xMSAA 24xCFAA	8xMSAA 16xCSAA
核心频率	800MHz	675MHz
着色器频率MHz	800MHz	1460MHz
着色器峰值计算能力	192 GFLOPS	93.4 GFLOPS
内存频率	2200MHz	2000MHz
内存控制器位宽	128bit
内存带宽	35.5GB/s	32.3GB/s
内存类型	GDDR4	GDDR3
内存容量	256MB	256MB
视频加速相关	Avivo HD	PureVideo HD
HDCP key	内置	标配
输出接口配置	Dual-Link DVI*2 HDMI	Dual-Link DVI*2
产品价格定位	1299元	1399元

　　可以看到，在官方规格的Geforce 8600 GTS和Radeon HD 2600 XT比较时，后者的纸面优势明显，其使用的RV630 GPU比NVIDIA G84 GPU多出1亿晶体管，理论峰值计算能力是G84-400的2倍；典型内存配置下的内存带宽也都超过了Geforce 8600 GTS。

　　但在GPU的方面分析，G84能够在所有应用中保持稳定的均一性能，更高的着色器资源利用率。RV630的理论绝对着色器性能更高，对传统应用中的4D向量数据偏重环境表现会更好，但对编译器（体现在驱动上）的依赖程度高，并且因为ROP数目的限制，抗锯齿等相关操作会发生严重的瓶颈。而本文将要强调的超频，还得再下面的产品中具体体现。