历史简溯和Radeon HD 2900 XT规格摘要
● R300到R600!型号翻番背后
回顾历史是面对全新产品时自然涌现的情绪,R600比较4年半之前的划时代显示芯片R300具有许多相当有趣的数字巧合。以Radeon HD2900 XT和Radeon 9700相比,核心代号翻番、本地内存容量翻番、内存位宽翻番;但同时核心晶体管数目飙升6倍!同比向量着色器数提升10倍!着色器理论计算能力提升超过20倍!3D图形技术无疑是PC硬件领域进步最快的部分。
Radeon 9700
ATI和NVIDIA对抗的大多数时期都扮演着追逐者的角色,唯有Radeon 9700这一代例外的获得领先,务实且先进的核心技术构架和在3D API换代期准确的设计方向把握是R300成功的两大因素,而这次R600也适逢3D API的再一次换代,机会就摆在眼前,Radeon HD 2900 XT能重塑辉煌么?
Radeon系列GPU计算能力历史
Radeon系列GPU 内存配置历史
Radeon品牌在2000年到现在已经发展了6代产品,产品风格一直是趋向于在生存期内3D加速性能最大化,性价比最优,罕有太过追逐前卫技术的先例,Radeon HD 2900 XT也承袭这样的设计思路,AMD-ATI研发团队的设计目标就是把R600打造成能和DirectX 10完美配合的GPU。
Radeon HD 2900 XT
● Radeon HD 2900 XT是统一渲染架构产品
Radeon HD 2900 XT相对于Radeon X1900系列以及更早Radeon产品的最大变革是它使用了统一架构的着色器设计,这种变革的意义可以和显示芯片实现3D加速功能、实现硬件光影变换、显示芯片中引入可编程的处理单元——着色器这样的事件比肩,通用着色器架构也是DirectX 10对图形硬件最核心最基本的要求。
统一架构的着色器设计
在传统的GPU管线模型里,数据流的开始是各种不同从CPU至GPU的属性、指针、命令和纹理。然后主要的处理阶段遵循相当线性方式,包括顶点着色、像素着色、栅格化, 一直到完成处理的像素输入到缓冲区。在统一的管线/着色器架构里,GPU把顺序流方式改成了循环执行。信号被输入到统一着色器核心处理后输出至寄存器,然后再被重复输入至着色器核心进行下一步处理。
再一步深入图形程序,通常来说都是像素着色应用多于顶点着色应用,这是早先着色器分离架构中像素着色器多于顶点着色器的原因,也是ATI Radeon X1900系列强化像素着色器数量打造出DirectX 9末代性能传奇3:1架构的现实背景。不过这只是总体上的统计情况,而在具体3D应用程序中,某个时段还是有所不同。因此,统一着色器架构的GPU的动态着色器处理能力将比传统的着色器分离架构更有效率,并且理论上消除着色器比例配比产生的瓶颈
统一渲染架构是这一代GPU的最大进步
以这样一幅图来说明问题。在着色器总数一致的分离架构和统一架构的对比中,分离架构为顶点着色+像素着色的配置,而统一架构是所有着色器动态配置执行着色任务。两种着色器架构分别执行极端3D顶点处理和极端像素填充的两种应用中差异立显。分离架构在两种极端应用中分别遭遇了顶点着色和像素着色的瓶颈,而统一架构则能够最大限度的发挥所有着色器的能力,以相同着色器数量规模实现更高的性能。
笔者还是以一个涵盖Radeon上代产品、Geforce同代产品和Radeon HD 2900 XT对比的表格来直观的说明问题。
AMD / NVIDIA 高 端 3D 加 速 卡 规 格 对 比 | |||||
显卡型号 | Radeon X1950 XTX | Radeon HD2900 XT | Geforce 8800 GTS | Geforce 8800 GTX | Geforce 8800 Ultra |
核心代号 | R580+ | R600 | G80 - 100 | G80 - 300 | G80 - 450 |
制造工艺 | 90nm | 80nm | 90nm | 90nm | 90nm |
核心晶体管数目 | 3.84亿 | 7亿 | 6.81亿 | 6.81亿 | 6.81亿 |
DirectX 版本支持 | DirectX 9 | DirectX 10 | DirectX 10 | DirectX 10 | DirectX 10 |
着色器数量 | 8VS+48PS | 320SP | 96SP | 128SP | 128SP |
着色器组织形式 | 8*(4D+1D) 48*4D |
64*(1D*5) | 96*1D | 128*1D | 128*1D |
着色器计算能力 | 301.6 GFLOPS |
473.6 GFLOPS |
230.4 GFLOPS |
345.6 GFLOPS |
384 GFLOPS |
光栅处理器数量 | 24 | 16 | 20 | 24 | 24 |
抗锯齿模式支持 | 6xMSAA | 8xMSAA 24xCFAA |
8xMSAA 16xCSAA |
8xMSAA 16xCSAA |
8xMSAA 16xCSAA |
核心频率 | 650MHz | 740MHz | 513MHz | 575MHz | 615MHz |
着色器频率 | 650MHz | 740MHz | 1200MHz | 1350MHz | 1500MHz |
内存频率 | 2000MHz | 1650MHz | 1584MHz | 1800MHz | 2160MHz |
内存位宽 | 256bit | 512bit | 320bit | 384bit | 384bit |
内存带宽 | 64GB/s | 106GB/s | 63.4GB/s | 86.4GB/s | 103.7GB/s |
内存类型 | GDDR4 | GDDR3 | GDDR3 | GDDR3 | GDDR3 |
内存容量 | 512MB | 512MB | 320MB 640MB |
768MB | 768MB |
视频加速相关 | Avivo | Avivo | PureVideo HD | PureVideo HD | PureVideo HD |
产品价格定位 | 399美元 | 399美元 | 299美元 399美元 |
499美元 | 829美元 |
Radeon HD2900 XT的能量惊人,着色器理论计算能力高达473.6GFLOPs,甚至高于NVIDIA的829美元旗舰Geforce 8800 Ultra,内存带宽更是达到了106GB/s,同样是当今显卡No.1。
这些数字部分决定了产品的3D加速能力,但GPU内部设计的详细信息还需近一进行阐述和讨论,我们接下来会深入到R600的着色器、纹理单元、内存控制器的各个方面技术实现细节,并尝试用基本构架分析R600的真实性能。
- 第1页:挑战者终于就位 完美10号Radeon HD 2900 XT
- 第2页:历史简溯和Radeon HD 2900 XT规格摘要
- 第3页:Radeon HD 2900 XT的通用着色器深度解析
- 第4页:Radeon HD 2900 XT的3D娱乐质量提升手段
- 第5页:Radeon HD 2900 XT的更多硬件优势
- 第6页:DirectX 10的幻虚化境
- 第7页:Radeon HD 2900 XT的高清视频解码和信号输出
- 第8页:Radeon HD 2900 XT实物大赏
- 第9页:Radeon HD 2900 XT硬件构成剖析
- 第10页:Radeon HD 2900 XT散热器分析
- 第11页:Radeon HD 2900 XT提前捆绑3部未发布游戏
- 第12页:驱动、操作系统选择及测试方向
- 第13页:性能测试部分的硬件、软件系统说明
- 第14页:系统功耗测试和产品重量测试
- 第15页:首个DirectX 10游戏测试:COJ DX10 Benchmark
- 第16页:D3D合成测试软件测试:3DMark05、3DMark 06
- 第17页:D3D即时战略游戏:COH和SupermeCom
- 第18页:D3D第一人称视角射击游戏:Far Cry、F.E.A.R
- 第19页:D3D第一人称视角射击游戏:Rainbow Six Vegas和S.T.A.L.K.E.R.
- 第20页:OpenGL游戏Quake 4及D3D PRG游戏The Elder Scrolls IV Oblivion
- 第21页:高质量游戏测试:抗锯齿和各向异性过滤开启
- 第22页:新抗锯齿模式对比:8xMSAA和16xAA
- 第23页:Radeon HD 2900 XT超频挑战Geforce 8800 Ultra
- 第24页:Radeon HD 2900 XT高清回放测试
- 第25页:399美元的2900XT成为Radeon HD 2000家族先锋
- 第26页:未来愿景:R600的通用计算应用构想
- 第27页:Radeon HD 2000系列预览:比同类产品更强大、更实用
- 第28页:首批上市Radeon HD 2900 XT图赏:两AIB、三通路