● NVIDIA G84 效率为王
NVIDIA Geforce 8600 GTS使用的GPU为G84-400,是G84系列中的最高档型号,由台积电(TSMC)使用80nm工艺制造,内含约2.89亿个晶体管。G80革命性的可以维持最多4096个线程的GigaThread逻辑部分被完全保留,并且其内部还集成了G80不具备的新版Video ProCESsor和H.264 BSP引擎,强化了高清视频解码能力。
Geforce 8系列旗舰GPU G80-300拥有128个通用标量着色器(SP:Stream Processor)、GigaThread逻辑、24个光栅处理器(Raster Opteration)以及384bit位宽的内存控制器。Geforce G84-400 GPU基本上是G80硬件指标的25%。
NVIDIA G84-400 GPU
G80 GPU的128个通用标量着色器分成16组,每组着色器联合着一组均衡配置的纹理过滤、纹理地址单元和对应的L1/L2 Cache一起工作。这样一个着色器组是模块化设计的,并且脱离于后端的ROP和内存控制器。G84即是一款32通用着色器的GPU,实际上它就是16SPs*2的配置。G84内的32个通用标量着色器频率和ROP标准频率的675MHz异步运行,比例大致在2.16:1,它的内存控制器仅为128bit位宽,远较G80的384bit/320bit低。G84的ROP数目为8。
G8X系列GPU使用大量晶体管来实现线程极的超级并行能力,其中包括线程仲裁机构、大容量的片内缓存等,在通用标两着色器数目方面并不突出,因此NVIDIA在这里引入了大幅提升GPU芯片内着色器部分工作频率的方式来增强GPU整体的峰值计算能力,正因为此,我们之前的多篇文章中提及Geforce 8系列显卡的GPU频率时均要明确指出核心/着色器频率。
● AMD RV630 以数量取胜
Radeon HD 2600 XT基于RV630 GPU,它是旗舰级GPU R600的3D规格简化+视频解码增强+制造工艺改进版本,在3D加速能力上RV630约为R600的3/8。除着色器数量和对应的渲染后端规模大规模削减外,R600其他3D相关逻辑在RV630上完全保留,并且还加入了全新的UVD高清视频硬件解码逻辑。RV630 GPU也是全球第一款65nm工艺制造的GPU,内含3.9亿晶体管,亦由台积电制造。
RV630内置120个通用标量着色器,内部以24*5D的准向量模式组织,其着色器和核心其他部分频率同步。在Radeon HD 2600 XT上,它的标准频率为800MHz,明显要高于80nm的NVIDIA G84 700MHz的水平。RV630的ROP数目为4。
RV630精简自R600,除着色器数量和对应的渲染后端规模大规模削减外,其他3D相关逻辑完全保留,并且还加入了全新的UVD高清视频硬件解码逻辑。这款芯片采用了CBGA封装,裸露的核心尺寸适中,没有附加保护装置。RV630直接配置在PCI-Express上,标准模式是16lanes宽度的单个连接。和NVIDIA G84类似,RV630也是一款内置128bit位宽内存控制器的GPU,AMD也没有在这个档次的产品中引入256bit,虽然R600惊世骇俗的达到了512bit内存位宽。
● GPU设计思路和规格的差别
G84和RV630都是全面支持DirectX 10并使用统一渲染架构设计的新一代GPU,但在以上大前提下,两者细节实现区别明显。
RV630虽然也将流处理单元分组,但并没有给每个这样的小组配置纹理单元及缓存,而是在整个流处理器阵外设计了纹理单元+缓存模块。而对整体性能影响更大的是,RV630的标量流处理器运行模式以及它们和线程管理机构、编译器的互动和G84都是完全不同的。
相对于G84的纯粹1D*32模式标量着色器设计,RV630流处理单元被每5个分成一组,事实上形成一种4D+1D模式的5D向量着色器,不过这种着色器和传统向量着色器不同的是,它能够理论上实现每周器发射最多5个标量指令,形成逻辑上的1D*5着色执行模式,当然它也可以进行2D+2D+1D这样的多标量+向量指令的混合发射。不过和G84每个流处理器都是完整的拥有自己执行资源的ALU不同的是,RV630的每5个流处理单元才能行使完整的ALU功能,向外部申请执行资源。
G84的指令调度仲裁机构非常先进,GigaThread硬件逻辑一视同仁的把任何指令拆成1D标量指令,在强大的硬件线程调度能力和高容量缓存资源的支撑下去管理128个1D标量着色器执行这些指令。考虑到片内缓存的高实现成本,G84在GigaThread上耗费了大量晶体管,标量着色器绝对数目处于劣势,使用着色器频率异步来提高计算能力。AMD的解决方式是依靠硬件软件之间的中间件、编译器来完成向量、标量指令的组合。也就是说编译器负责在编译具体3D应用程序中的着色器代码时,将不同段数的向量指令、标量指令进行组合,统一封装成5D总段数的片段再输入给线程分支处理逻辑,实现指令的并行化处理。
AMD / NVIDIA 中 档 GPU 规 格 对 比 | ||
产品型号 | AMD Radeon HD 2600 XT GDDR4 | NVIDIA Geforce 8600 GTS |
核心代号 | RV630 | G84-400 |
制造工艺 | 65nm | 80nm |
核心晶体管数目 | 3.90亿 | 2.89亿 |
DirectX 版本支持 | DirectX 10 | |
着色器数量 | 120 | 32 |
着色器组织形式 | 24*(1D*5) | 32*1D |
光栅处理器数量 | 4 | 8 |
抗锯齿模式支持 | 8xMSAA 24xCFAA |
8xMSAA 16xCSAA |
核心频率 | 800MHz | 675MHz |
着色器频率MHz | 800MHz | 1460MHz |
着色器峰值计算能力 | 192 GFLOPS |
93.4 GFLOPS |
内存频率 | 2200MHz | 2000MHz |
内存控制器位宽 | 128bit | |
内存带宽 | 35.5GB/s | 32.3GB/s |
内存类型 | GDDR4 | GDDR3 |
内存容量 | 256MB | 256MB |
视频加速相关 | Avivo HD | PureVideo HD |
HDCP key | 内置 | 标配 |
输出接口配置 | Dual-Link DVI*2 HDMI |
Dual-Link DVI*2 |
产品价格定位 | 1299元 | 1399元 |
可以看到,在官方规格的Geforce 8600 GTS和Radeon HD 2600 XT比较时,后者的纸面优势明显,其使用的RV630 GPU比NVIDIA G84 GPU多出1亿晶体管,理论峰值计算能力是G84-400的2倍;典型内存配置下的内存带宽也都超过了Geforce 8600 GTS。
但在GPU的方面分析,G84能够在所有应用中保持稳定的均一性能,更高的着色器资源利用率。RV630的理论绝对着色器性能更高,对传统应用中的4D向量数据偏重环境表现会更好,但对编译器(体现在驱动上)的依赖程度高,并且因为ROP数目的限制,抗锯齿等相关操作会发生严重的瓶颈。而本文将要强调的超频,还得再下面的产品中具体体现。