14年半的期待,它终于来了
前言: 这是一场漫长的等待。无论玩家还是业界,所有人都在等待这一天的到来。这一天的到来有着各种非凡的意义——DirectX 11发展与普及的加速、市场获得新鲜血液的刺激以及格局的变化、玩家获得更好的游戏性能体验,每一个人都能在这一天得到足够的欢悦和满足。尽管等待是漫长的,但这一天终究还是到来了。
公元2012年1月9日,这一天终于来了,HD7970终于来了。
● 4年半的期待,它终于来了 自从R600以来,AMD的图形构架就没有发生过本质的变化。VLIW形式的ALU团簇,整体化的运算结构以及较低的单元复用率一直陪伴了我们4年半。我们不断的呼唤着出现变革来打破这种沉闷,但变革一直没有降临到我们身边。直到HD7970的发布,一切我们呼唤的变革仿佛是要给我们一个巨大惊喜一般争先恐后的一股脑全部到来了。 在HD7970的Tahiti构架中,AMD做出了多种巨大的革新和改进,不仅抛却了VLIW带来的种种困扰,几乎完全解决了单元复用率低落的问题,同时也为我们奉上了一款非常精彩的DirectX 11图形构架。HD7970究竟精彩在哪里,其实际性能表现又是怎样的呢?在今天的测试中,我们将会为您一一展现这些问题的答案。
● HD7970特性总览
HD7970基于全新的GCN图形构架,拥有超过43亿的晶体管规模。与上代的Cayman构架相比,其运算资源总量提升到了2048个ALU,Texture Fetch Load/Store Unit则提升至恐怖的512个,Texture Filter Unit由Cayman的96个增加到了128个,但同时构成后端的ROP与Cayman维持相同,均为32个。HD7970拥有全新设计的MC结构,6个64bit双通道显存控制器组合形成了全新的384bit显存控制单元,HD7970也因此采用了容量达3072MB的显存体系。
HD 7970 显 卡 对 位 产 品 规 格 比 较 表 | |||||
显卡型号 | Radeon HD 7970 | Radeon HD 6970 | Radeon HD 6950 | GeForce GTX 580 | GeForce GTX 570 |
市场定价 | 4299 元 | 2999 | 2499 | 3999 元 | 2999 元 |
GPU代号 | Tahiti | Cayman | Cayman | GF110 | GF110 |
GPU工艺 | 28 nm | 40 nm | 40 nm | 40 nm | 40 nm |
GPU晶体管 | 43 亿 | 26.7 亿 | 26.7 亿 | 30 亿 | 30 亿 |
着色器数量 | 2048 | 1536 | 1408 | 512 | 480 |
着色器组织 | Vector *2048 | 4D*384 | 4D*352 | 1D *512 | 1D *480 |
ROPs数量 | 32 | 32 | 32 | 48 | 40 |
纹理单元数量 | 128 | 96 | 96 | 64 | 60 |
核心频率 | 925 MHz | 880 MHz | 800 MHz | 772 MHz | 732 MHz |
着色器频率 | 925 MHz | 880 MHz | 800 MHz | 1544 MHz | 1464 MHz |
理论计算能力 | 3.79 TFLOPs |
2.7 TFLOPs |
2.25 TFLOPs | 2.37 TFLOPs |
2.11 TFLOPs |
等效内存频率 | 5500 MHz | 5500 MHz | 5000 MHz | 4008 MHz | 3800 MHz |
内存位宽 | 384 bit | 256 bit | 256 bit | 384 bit | 320 bit |
内存带宽 | 264 GB/s | 176 GB/s | 152 GB/s | 192.4GB/s | 152 GB/s |
内存类型 | GDDR5 | GDDR5 | GDDR5 | GDDR5 | GDDR5 |
内存容量 | 3072 MB | 2048 MB | 2048 MB | 1536 MB | 1280 MB |
DX版本支持 | 11.1 | 11 | 11 | 11 | 11 |
HD视频技术 | UVD3.0+VCE | UVD3 | UVD3 | PureVideo HD | PureVideo HD |
通用计算接口 | Stream | Stream | Stream | CUDA | CUDA |
HD7970的默认核心及显存运行频率为925/5500MHz,默认Pixel Fillrate能力为29.6G/S,默认Texture Fillrate能力为118.4G/S。显存带宽264GB/S。拥有3.79T的单精度浮点运算能力以及947G的IEEE双精度浮点运算能力。HD7970拥有完整的DRAM及SRAM ECC 保护,支持 Open CL 1.2、DirectX 11.1以及C++ AMP。
Tahiti构架特性
HD7970的特色由六个主要的部分组成:
1、基于HKMG的TSMC全新28nm工艺。
2、包含了几何引擎、光栅化引擎以及一级线程管理机制的前端ACE( Asynchronous Compute Engine)。
3、负责处理运算任务及Pixel Shader的32个CU(Compute Unit)集群,包含在CU内部负责处理材质以及特种运算任务如卷积、快速傅里叶变换等的Texture Array,二级线程管理机制以及与它们对应的shared+unified cache等缓冲体系。
4、负责完成fillrate过程以及输出最终画面的ROP阵列,显存控制器MC(Memory Controller)以及PCI-Express3.0总线传输控制端。
5、负责视频回放及处理的UVD3.0单元,以及全新的负责视频编码部分的VCE。
6、Eyefinity(宽域)2.0引擎。
相对于前代的Cayman构架,Tahiti构架的结构有了诸多触及灵魂深处的改动,这些改动不仅为当下的HD7900提升性能做出了贡献,更为AMD开辟了诸多先进应用的领域。接下来,就让我们一起看看Tahiti上这些意义深远的构架特性吧。
● 全新28nm工艺
在Tahiti构架的产品上,AMD首次启用了TSMC全新的28nm HKMG(高介电金属栅极)工艺进行生产,这也让Tahiti构架的HD7900系列成了全球首款基于28nm HKMG工艺制造的GPU。TSMC的28nm HKMG工艺引入了诸多先进的制造方式以及技术,工艺进步所带来了更小的节点尺寸以及与之对应的更低的亚阀电压,不仅更好的控制了芯片的整体发热和功耗,更可让芯片面积大幅缩小超过40%,这对于芯片的可制造性有极大的帮助。
TSMC 28nm Wafer
除了更小的刻线宽度以及对应的更低的亚阀电压,本次TSMC采用的28nm HKMG工艺还有三个非常值得关注的重要改进,分别是High-K(高介电常数)材料的引入,GateLast(后栅)处理,以及nMOS/pMOS分开处理的金属栅极。
随着工艺的不断进步,cMOS的尺寸在不断的减小,这种“晶体管尺寸”缩减带来的一个直接后果便是晶体管与基体接触的氧化物层的不断减薄。快速减薄的栅氧层厚度虽然可以带来更快的开关速度以及更低的亚阀电压,但也直接导致了其对电子总容纳能力的指数级下降,更多的电子通过隧穿的方式泄漏到了基底中并转化成了发热。大量实验数据都证明栅氧层每减薄50%(工艺以常规方式进步一代),栅氧层造成的隧穿漏电量将平均增大13个数量级。这种漏电量的大幅增加,几乎将过去TSMC数代的工艺进步所带来的好处全部抵消,并最终导致了40nm芯片的发热量控制失败。
为应对这种问题,TSMC在28nm工艺中引入了High-K材料,提升了栅氧层的单位物质量电子容纳能力。事实上先前Intel的45nm工艺正是凭借着High-K材料的引入,才在保证栅极性能的前提下成功的大幅控制了功耗。TSMC在40nm时的EOT(氧化物层等效厚度)为1.6nm,这一数值在28nm时下降到了0.9nm,引入High-K的做法成功的抵消了尺寸减薄带来的容纳“空间”变小致使过多电子发生隧穿问题,大幅降低了体系的静态(待机)功耗表现和运行功耗,让HD7970有了出色的功耗及发热表现。
除了High-K材料之外,TSMC在热处理工艺层面成功的转型到了GateLast形态。与形成栅极之后在进行退火处理的GateFirst工艺相比,GateLast工艺将栅极的形成放到了热处理过程之后,这避免了栅极承受退火处理的高温环境,保护了晶体管尤其是pMOS部分,可以带来更加稳定的Vt电压。更低更稳定的Vt有助于进一步控制芯片的整体发热,让其能够在更低的电压下运行在更高的频率上。
由于结构的不同,随着栅极尺寸的不断下降,构成栅极的nMOS与pMOS的尺寸差异也在逐渐加大。由GateFirst工艺决定的传统的统一使用硅基材料或者单独为pMOS进行掺杂的方法,已经很难保证尺寸差异给性能和稳定性带来的影响了。得益于GateLast工艺的工艺转型,在Tahiti使用的28nm HKMG工艺中,TSMC全球首次将nMOS与pMOS分开处理,在nMOS中使用La2O3构建上覆层(layer Overlying),而pMOS则由Al2O3来构筑。通过将nMOS与pMOS分开处理,HD7900不仅获得了更好的晶体管性能,更进一步提升了整体良率。
关于更多TSMC 28nm工艺的细节,我们会在未来为大家带来更多详细的解析,而采用了诸多先进工艺的HD7970在实际使用中会有怎样的表现,我们会在后页的测试中为您一一揭晓。
● 异步运算引擎
ACE全称Asynchronous Compute Engine,译为异步计算引擎。作为AMD GPU最前端的组成部分,它的实际作用其实与几何以及光栅化等图形过程并没有直接的联系。ACE位于整个GPU的最前端管理任务队列,它会将线程块规整的分发给后面的ALU团簇。ACE是所有GPU任务的起点,它的存在和表现直接关系到了GPU进行图形及通用计算任务是的效率表现。
Tahiti构架Dual ACE细节
由于ACE与几何引擎直接相连,同时也在一定程度上决定了构架的多边形搏出能力,因此我们可以笼统的把它理解成前端/几何引擎与线程管理机制的结合体。Tahiti中的Dual ACE不仅改变了RV870构架几何性能较弱的局面,更为AMD向并行处理构架的进化打开了大门。
Daul ACE首次出现于Cayman构架,区别于传统的AMD构架,Cayman拥有了第二套完整的光栅化-几何处理单元阵列,该阵列拥有Rasterizer、Hierarchical-Z以及Tessellator/Germetry等全部的前端资源体系,与原有的前端部分完全对等,并且与流水线中的线程仲裁器UTDP直接对应。
Cayman构架的Dual ACE
Dual ACE的价值是显而易见的,它让Cayman拥有了双倍于RV870的几何处理能力,这极大地改善了RV870在面对曲面细分等领域时的表现。同时,由于单位周期的三角形搏出能力也从1个提升到了2个,Dual ACE的出现让Crysis这样对于传统多变形输出能力有很大需求的游戏也能获益。最后,更快的光栅化处理能力带来了更快的坐标变换和像素化速度,这降低了后续流水线步骤的等待延迟,从而为最低帧表现的提升提供了帮助。
Tahiti大幅提升的曲面细分性能
Cayman中Dual ACE的表现,让AMD看到了提升体系线程管理能力以及宏观并行度的好处,因此在Tahiti构架中,AMD对ACE进行了进一步的强化。根据AMD公布的数据,Tahiti构架拥有了4倍于Cayman的曲面细分能力,同时通用计算性能也有了长足的进步,这从侧面表明Tahiti构架的线程能力较之Cayman有了更进一步的提升。
● ALU团簇:Compute Unit
Tahiti构架最大的改进来自ALU集群部分。与传统AMD构架的VLIW结构ALU团簇不同,Tahiti构架的ALU集群撤消了来自超长字节指令的限定,所有ALU全部以SIMD的形式来完成吞吐,不再需要打包和解包的过程。
在Tahiti构架中,ALU团簇的名称从VLIW SIMD变成了Compute Unit,名称的改变不仅标志着功能及用途的变迁,更暗示了内部结构的方向性变化。Tahiti拥有32个CU单元,CU内部包含4组SIMD CORE,每组SIMD CORE由16个标准Vector ALU构成,所以Tahiti的一个CU单元拥有64个Vector ALU,32个CU单元合计拥有2048个Vector ALU。
Tahiti构架CU结构细节
除了负责浮点吞吐的SIMD CORE之外,Tahiti构架的每个CU单元还拥有在一个Scalar Unit,Scalar单元中包含Int ALU单元,可以用来处理整数指令以及特殊函数。另外,对线程效率至关重要的原子操作(Atomic)也在该单元中执行。
运算单元之外,Tahiti构架的每个CU还绑定了由Branch和Scheduler构成的二级线程控制机制,以及一个完整的Texture Array,Texture Arroy的作用与传统AMD构架中的TMU基本相同,包含了完整的Texture Fetch Load/Store Unit以及Texture Filter Unit。
由此不难看出,Tahiti构架CU单元的结构在逻辑层面上已经与Fermi构架的SM单元和Larrabee的Vector Unit存在极大的相似性。三者均由浮点吞吐部分(Tahiti的Vector ALU团簇,Fermi的SP单元集群,Larrabee的Vector集群),整数、特殊函数及原子操作部分(Tahiti的Scalar Unit,Fermi的SFU,Larrabee的Scalar pipeline)以及二级线程控制机制(三方的Scheduler等)。除此之外,CU还与Fermi的SM一样拥有完整的Texture Arroy,甚至每一个运算单元(Tahiti的Vector ALU,NVIDIA的SP单元)都拥有完全相同的4K寄存器。
CU进行wavefront吞吐示意
一个CU/SM/Vector Unit就是一个独立的处理单元,能够面对一个标准的指令集群或者说线程块,也就是AMD的wavefront以及NVIDIA的warp。Tahiti的CU能够在一个周期内处理一个64线程的wavefront,这与Fermi一个周期处理一个32线程的warp是相同的,但AMD目前上不存在类似half warp的线程块子划分机制。
Tahiti支持WinZip最新版带来的Open CL加速
更新之后的CU单元在计算能力和效率方面有了长足的进步,不仅令Compute Shader处理能力大幅提升,进而提升了GPU在DirectX 11环境下的图形性能,而且在通用计算领域也获得了更加广阔的前景和更多样化的发展可能。
● 统一缓冲体系
Tahiti另一个巨大的改进,来自缓冲体系的大幅调整。Tahiti构架的缓冲体系不仅对原有的GDS以及LDS等Shared资源进行了调整和重新布置,更引入了非常重要的多级unified cache。
不同于传统的被所有VLIW CORE共享使用的整体GDS,Tahiti构架的每个CU拥有独立的32K GDS(Golbal Data Share),这个尺寸完全符合微软在DirectX 11中的硬性规定。其中可以划分出16K作为L1 Data cache,Tahiti构架的多级cache体系属于包含式结构,L2保存了全部的L1数据且能够允许L1数据进行回写,结合AMD的官方描述,我们认为在宏观范围内Tahiti的Shared存在32K GDS+0K L1 Data cache+16K L2 Data cache或者16K GDS+16K L1 Data cache两种组合方式。
Tahiti构架缓冲体系
除了GDS+L1共享构成的以及缓冲体系,Tahiti构架的每个CU还拥有独享的LDS(Local Data Share),LDS在RV770以后的AMD构架中均有出现并为所有VLIW CORE共享,而此次在Tahiti中,LDS与GDS一样被打散到了每一个CU中,变成了专享的二级补充Shared。
除了一级缓冲和Shared,Tahiti的CU单元还拥有共享的L1 Instruction cache和Kernel cache,每4个CU共享16K的L1 Instruction cache和32K的Kernel cache。
Tahiti构架缓冲体系细节(引自后藤弘茂blog)
最后,Tahiti构架拥有沟通上级缓冲与显存的L2 Data cache,L2 cache与MC一一对应,因此Tahiti共拥有6组合计768K的L2 cache。L2 cache面向所有CU中的单元开放,ALU可以用它缓冲数据,TMU也可以用它充当Texture cache。
Fermi构架缓冲与单元的关系
整体来说,Tahiti的缓冲体系与Fermi存在极大的相似度,无论是可共享/切换的一级Shared/L1机制,还是面向所有单元并可以同时充当Texture cache的L2,Tahiti与Fermi在缓冲体上都已经处在了一致的状态。两者最大的区别,在于Tahiti采用了指令和数据缓存分离的方式,同时在L1与Shared的切换方式及尺寸上与Fermi存在差异。相对来说,Tahiti的切换及分配方式更加灵活多样,但同时也对cache的操作切换控制提出了更高的要求。
● 全新的PRT技术
Tahiti构架全面引入了一种新的超大尺寸材质处理技术,这便是全新出现的PRT(Partially Resident Textures)。
PRT技术类似之前在ID Tech5中出现过的MegaTexture技术,他们都是将整块大尺寸材质分割成小块,然后按照材质的使用概率对其进行不同位置的存放。在预处理mipmaps的过程中,GPU会根据mipmaps的状况来对材质整体使用情况进行预测和判断,并从材质库中直接进行抓取。如果这个抓取动作快速拾取的材质“命中”的通过mipmaps进行的判断,则Texture会直接进行快速贴图操作。
如果被拾取的材质并未“命中”,整个GPU体系将会对接下来进行的工作进行预测并维持整个流水线的动作,贴图需求将以常规的形式被Texture Array加以满足。直到下一帧画面再次出现通过mipmaps进行判断的时候为止。
PRT技术可以借由上述这个带有分支预测性质的动作过程大幅加快材质操作的速度,让体系具备实现32TB级别大小的材质操作的能力,同时还可以大幅降低Texture Array对材质进行操作时产生的延迟激增以及“塞车”现象。
● 无损各向异性过滤及DirectX 11.1支持
在Cayman发布时,AMD曾宣称自己的各向异性过滤算法是世界上最好的算法,不仅性能近乎无损而且可视角度方面的表现也完美无缺。但事后有大量媒体证明,Cayman的AF实际上在部分场合会导致LOD错误、闪烁等问题,AMD于Cayman发布后也承认了该方面的问题。
在此次的HD7970中,AMD引入了一种全新的非角度依赖算法,在解决Cayman纹理闪烁问题的同时提供了更好的AF性能表现。
通过新算法的引入,HD7970中的AF重写了整个内核,AMD为其引入了全新的自动调用机制,并承诺不会再出现纹理闪烁以及波浪状扭曲等错误,同时还承诺了新的AF算法将真正实现全角度有效。
除此之外,Tahiti构架的另一个重要特性在于DirectX 11.1的支持,DirectX 11.1中包含了DP Shader等诸多对未来图形化过程有深远影响的更新,可以说是一个具有开端意义的API升级。HD7970对DirectX 11.1特性提供了全面的支持,用户可以在未来快速的进入全新API的应用环境,获得全新的图形体验。
● VCE视频编码处理引擎
VCE技术是AMD在Tahiti构架中引入的另一个重要改进,相较于UVD3.0的原地踏步,VCE技术的出现可以说是Tahiti构架在视频相关方面最引人注目的亮点。
VCE功能细节
VCE技术从本质上来说是一组专门负责编码操作的硬件电路,该单元在操作方式上类似Intel Quick Sync Video高速视频编码处理电路,都是通过固定单元来高速完成视频编码过程的Preprossing以及Encode过程,这也是整个视屏编码过程中最为消耗系统运算能力的部分。以专门的电路来完成类似的操作不仅能够提升处理速度,同时还可以大幅降低处理过程所带来的功耗压力。
VCE与Quick Sync Video最大的不同,同时也是VCE意义最重大的设计,来自它的异构式处理结构。VCE对视频编码的操作分为两种模式,在Full Mode下,VCE会以自身的硬件单元来完成Preprossing以及Encode的全部过程。而Hybird Mode下,VCE单元会调用Tahiti构架丰富的ALU资源来更高速的完成Preprossing过程,以VCE自身的硬件单元来完成Encode过程。在性能最理想的状态下,VCE可以实现1080P分辨率视频的60帧速率实时编码。
VCE技术的意义是巨大的,除了在GPU单元中第一次引入了低功耗的专用高速视频编码处理电路之外,VCE体现了AMD多年来一直强调并不断付诸实施的异构计算操作结构。Fusion的精髓便是异构处理和加速,这种整体思路正在逐步融入AMD的每一个产品线甚至每一个适合的产品中。VCE技术的出现,不仅进一步实践了异构处理的想法,更向我们表达了AMD正在逐渐恢复的坚定的执行力。
● Eyefinity(宽域)2.0技术
民用低成本多屏拼接的Eyefinity技术一直是AMD的长处。在HD7970中,AMD将Eyefinity技术升级到了2.0版本,新的Eyefinity宽域技术为我们带来了更多富有特色的输出方案和视觉体验。
在Eyefinity 2.0技术中,AMD首次将多屏输出技术和HD3D立体技术结合在了一起,HD7970的用户仅需使用一块显卡便可以在多屏系统上同时体验立体游戏和电影。NVIDIA在SLI系统中虽然早就实现了3D Vision,但始终需要至少两块显卡才能完成输出工作。
新的Eyefinity 2.0率先采用了DisplayPort 1.2认证接口和HDMI 1.4a规范,在传输带宽和速度上能够通过更高的速度,为多屏3D应用提供更好的条件。AMD提供的HD3D技术是开放的,这让更多的厂商能够参与到AMD的HD3D立体显示技术当中,AMD单卡通过DisplayPort 3D显示器可以单卡实现三屏Stereo 3D效果。
Eyefinity2.0最重大的更新来自分辨率的多样化及组建屏幕要求的降低,Eyefinity1.0至少需要3台分辨率一致的显示器才能组建多屏输出,这要求很多用户采购新显示器,组建成本并不低。而在Eyefinity2.0中,AMD允许不同尺寸显示器组成一套Eyefinity多屏显示系统,这进一步降低了多屏输出的成本。但受限于现在的游戏输出技术,Eyefinity2.0在多个不同尺寸显示器组合的方案中还存在部分场景及物体显示不全等问题,相信随着技术的不断进步,这些问题终将得到解决。
音频输出能力的改进也是Eyefinity2.0的革新之一,HD7970支持独立数字多点音频(Discrete Digital Multi-Point Audio),简称DDM Audio。Eyefinity1.0只能输出一路音频信号,而HD7970显卡已经可以实现独立多路音频输出了,这样多屏看电影或者玩游戏时,每个屏幕都可以进行独立的音画输出。
● 更多样化的功耗控制技术
在Tahiti构架中,AMD除了采用28nm HKMG工艺降低整卡的功耗之外,还引入了更加多样化的功耗控制及管理技术,全方位的降低了HD7970在各种应用场合的能耗及发热。
在新的功耗控制技术中,AMD引入了更加敏感的功耗调节点,能够更加细密的实时监控显卡的运行状态,同时让其更加积极地向更低功耗的频率去转移。
另外,AMD还引入了全新的“黑屏”模式,当电脑处于节能待机状态且屏幕进入无输出的节能状态时,HD7970会关闭绝大部分卡上功能单元,通过这一类似关闭显卡的动作,HD7970的最低待机功耗将小于3W。
在多卡互联领域,AMD同样提供了更加丰富的功耗管理机制。当用户处于2D桌面待机状态时,Tahiti构架允许主卡(输出卡)以外的所有CrossFireX成员卡全部完全关闭,主卡以外的其他显卡甚至会达到风扇停转的深度休眠状态。当3D负载到来时,功耗管理机制会及时唤醒深度休眠的显卡,让其能够投入渲染工作中。
● 全新PCI-Express3.0总线接口
总线接口方面,HD7970显卡采用了全新的PCI-Express3.0总线,这让它成了全球首款支持PCI-Express3.0总线的显卡。PCI-Express3.0总线除了能够带来更大的传输带宽之外,还能够提供更多的功率负载。
HD7970是全球首款PCI-E3.0显卡
PCI-Express3.0标准将信号传输率提高到8GT/s,这让PCI-Express3.0的有效带宽达到了PCI-Express2.0的两倍,于此同时,PCI-Express3.0还有一系列关于信号增强以及数据完整性的优化,包括收发均等、PLL改进、时钟数据恢复、已支持拓扑的通道增强等等。
三代PCI-E标准的带宽变化
随着AMD后期在并行计算市场的发展路径,新的PCI-Express3.0总线可以让多个GPU以及CPU统一调用GPU显存以及CPU内存,并将处理器(CPU+GPU)和存储器(内存+显存)视为统一整体。未来的AMD多CPU和多GPU融合之后可以为整个系统带来大容量存储设备并且进行统一寻址。
带宽提升带来跨显卡显存调用效率提升
当然,值得注意的是随着北桥这一传统机制的逐渐消亡,对PCI-Express3.0的支持将变成CPU的“任务”。目前市面上还不存在支持PCI-Express3.0总线的CPU,因此HD7970在新总线下的威力还需要等待一段时间之后才能够发挥。
● Tahiti首个产品HD7970拆解
HD7970作为Tahiti构架的首发产品,是目前AMD最快的单芯旗舰产品。AMD的新一代单芯旗舰究竟长什么样子呢?接下来我们就来对其进行拆解赏析吧。
公版HD7970正面
作为全新一代的单芯旗舰,HD7970的用料做工较之前代又有了长足的进步,尤其是在供电部分采用了全新的DirectFET封装的铁素体电感设计,不仅大幅提高了整卡的负载需求应对能力,更带来了不错的散热性能。
● 首批送测样卡展示-迪兰
迪兰HD7970拆解
迪兰HD7970拆解
迪兰HD7970拆解细节
迪兰HD7970散热细节
迪兰HD7970拆解接口
迪兰HD7970交火桥
● 送测样卡展示-讯景
讯景本次送测了2款HD7970,其中包含首款非公散热产品。
讯景R7970配件
● 送测样卡展示-蓝宝
蓝宝HD7970显卡
蓝宝HD7970显卡正面
蓝宝HD7970显卡接口部分
蓝宝HD7970显卡细节
蓝宝HD7970
● 送测样卡展示-镭风
镭风HD7970
镭风HD7970背面图
镭风HD7970显卡
镭风HD7970包装
镭风HD7970拆解细节
● 送测样卡展示-双敏
双敏无双HD7970
双敏无双HD7970背面
双敏无双HD7970显卡
双敏无双HD7970细节
双敏无双HD7970拆解
19HD7970首发品牌汇总展示
● HD7970首发品牌汇总展示
华硕HD7970
20HD7970首发品牌汇总展示(二)
● HD7970首发品牌汇总展示(二)
● 测试平台及测试项目简介
性能测试使用的硬件平台由Intel Core i7-3960X、X79 Chipset和4GB*4四通道DDR3-1600内存构成。细节及软件 环境设定见下表:
测 试 平 台 硬 件 | |
中央处理器 | |
Intel Core i7-3960X | |
(6核 / 12线程 / 100MHz*33 / 15MB L3 Cache ) | |
散热器 | |
Intel RTS2011LC | |
(原厂水冷散热器 / 选配件 ) | |
内存模组 | |
Samsung 黑武士 DDR3-1600 4GB | |
(SPD:9-9-9-24-1T) | |
主板 | |
Intel DX79SI | |
(Intel X79 Chipset) | |
硬盘 | |
Hitachi 1T | |
(1TB / 7200RPM / 16M 50GB NTFS | |
电源供应器 | |
NERMAX 白金冰核 1500W | |
(CSCI Platinum 80Plus / 1500W) | |
显示器 | |
DELL UltraSharp 3008WFP | |
(30英寸LCD / 2560*1600分辨率) |
为保证系统平台具有最佳的稳定性,此次硬件评测中所使用的操作系统均为Microsoft Windows 7 正版授权产品。使用Windows 7正版软件能够获得最好的兼容性以及系统升级更新服务。
用户在体验或购买安装Windows 7的操作系统时请认准所装系统是否已经获得正版授权许可!未经授权的非正版软件将无法获得包括更新等功能在内的Windows 7服务。
操 作 系 统 及 驱 动 | |
操作系统 | |
Microsoft Windows 7 Ultimate RTM SP1 | |
(64bit / 版本号7601) | |
主板芯片组驱动 | |
Intel Chipset Device Software for Win7 | |
(WHQL / 版本号 9.2.3.1022) | |
AMD 显卡驱动 | |
AMD Catalsyt | |
(Beta / 版本号 8.921.2.0000) | |
NVIDIA 显卡驱动 | |
NVIDIA Forceware | |
(WHQL / 版本号 285.62) | |
| |
2560*1600_32bit 60Hz |
各类合成测试软件和直接测速软件都用得分来衡量性能,数值越高越好,以时间计算的几款测试软件则是用时越少越好。
● 理论性能测试:3DMark Series
3DmarkVantage及3Dmark11是Futuremark推出的显卡3D性能测试,两款软件分别针对DirectX 10及DirectX 11显卡。测试成绩主要由显卡测试和CPU测试两部分总和构成,整个测试软件更加偏重整机性能。
在理论测试环节,HD7970取得了令人满意的性能表现,其性能较之上代的Cayman有了显著的提升。
● DirectX 9.0C游戏测试:CWOW-CTM
《魔兽世界》(World of Warcraft)是暴雪娱乐(Blizzard Entertainment)所制作的一款大型多人在线角色扮演游戏(MMORPG),于2004年年中在北美公开测试。《魔兽世界》虽然目前支持DirectX 11 API,但其引擎的基础源自更为老旧的DirectX 9.0C。尽管API较为老旧,但暴雪凭借精湛的美工进行了充分的弥补。
我们采用的测试方法是新建一名人类角色,然后在周末游戏高峰期进入服务器并完成自暴风城正门广场至北郡修道院的48秒flybot过程,该过程中包含建筑及自然环境刻画、光线、大量植被、大量人员及魔法效果等效果。
较老的API以及较大的材质需求并不是Tahiti构架的强调重点,尽管如此HD7970在魔兽世界的测试中依旧取得了不错的测试结果,全面领先上代Cayman构架的HD6970。
● DirectX 10游戏测试:Crysis
多次跳票、万众期待的DirectX 10游戏大作Crysis,把目前PC 3D娱乐的视觉体验发挥到极致的游戏,大量使用DirectX 10的硬件功能,对显卡的负载也提升至空前水平。
我们使用游戏自带的CryEngine Benchmark来完成自动测试,测试持续三次,最终成绩取三次平均值。
孤岛危机可谓一件游戏艺术品,它能够全方位的压榨硬件的性能。无论是沉重的shader吞吐负荷还是每屏幕最多200万的多边形负担,孤岛危机从任何层面来讲都属于显卡杀手。因此,能够征服CryEngine Benchmark测试的HD7970,其游戏性能还是相当令人震撼的。
● DirectX 10游戏测试:Farcry 2
《孤岛惊魂2》拥有超高自由度的游戏系统,整个游戏世界面积达到50平方公里,玩家可以自由在其中驰骋,而游戏的结局也是开放的。《孤岛惊魂2》的PC版在2009年内上市,而Xbox 360和PS3版将随后推出。
我们使用游戏自带Benchmark来完成自动测试,测试持续三次,最终成绩取三次平均值。
Farcry2对于显卡的性能需求较为平均,即便如此,HD7970依旧表现出了出色的性能,较之HD6970有了不小的提升。
● DirectX 11游戏测试:BattleField 3
战地3是DICE于今年10月底推出的战地系列全新力作,其所采用的寒霜2引擎具备诸多先进的DirectX 11特性,拥有完美光照系统带来的单反照片级图形质量,其完美的多人配合游戏部分也得到了广泛的认可和赞誉。
我们采用游戏第二个任务——碎剑者行动的开始部分作为测试场景,通过fraps软件记录游戏FPS数据,测试时间设置为240秒,此时长为任务开始至剧情发展到第一名队友被狙击手击倒并被我们拖入掩体为止。该段游戏过程包含大量的市内外场景切换,狭窄和开阔地形,激烈交战以及出现在其中的复杂光照系统表现。
使用寒霜2引擎的战地3完美的契合了DirectX 11游戏的技术发展方向,该款游戏可以全面的考量显卡的DirectX 11游戏性能。Tahiti构架针对DirectX 11进行的优化设计在这里得到了体现,HD7970取得了大幅领先前代单芯旗舰的测试结果。同时我们也注意到了战地3对显存尺寸提出的要求,当分辨率达到2560X1600时,开启MSAA会导致游戏的显存需求总量接近甚至超过1.5G,显存容量较少GTX570在此时已经无法获得流畅的游戏体验了。
● DirectX 11游戏测试:Call of Duty MW3
由动视暴雪于今年11月初发布的使命召唤:现代战争3延续了前作的诸多特色,其完美的剧情创造了良好的代入感。图形引擎方面则沿用和改进了已经服役两年的IW4.0引擎,因此拥有良好的硬件“亲和力”。
我们选择游戏第一关过场动画结束主角坠机至玩家再次恢复控制之间的即时渲染部分作为测试场景,测试时长50秒,取期间的平均帧数作为最终测试结果。
相对亲和并不代表绝对亲和,事实上受限于引擎的绝对执行效率,现代战争3在超高分辨率下开启Native级画质设置之后依旧能够对旗舰级的硬件保持足够的杀伤力。HD7970能够在该款游戏中去的最快单芯显卡的测试结果,证明其构架拥有广泛的游戏适应力和优秀的游戏性能。
● DirectX 11游戏测试:Metro 2033
本作题材基于俄罗斯最畅销小说Dmitry Glukhovsky。由乌克兰4A游戏工作室开发,采用4A游戏引擎,而且PC版支持nvidia的PhysX物理特效。 2013年,世界被一次灾难性事件毁灭,几乎所有的人类都被消灭,而且地面已经被污染无法生存,极少数幸存者存活在莫斯科的深度地下避难所里,人类文明进入了新的黑暗时代。直至2033年,整整一代人出生并在地下成长,他们长期被困在“地铁站”的城市。
我们采取完整运行游戏第二关“Hunter”关卡,并记录其中平均帧数的方式来完成测试。Hunter关卡包含完整的室内场景切换,光照系统,DOF表现以及交战场景,能够全面反映显卡在面对Compute Shader以及超高分辨率材质时的表现。
地铁2033对于显卡的DirectX 11性能压迫是极其明显的,HD7970在常规分辨率下能够全面超越上代构架,并获得超过30帧的测试表现,足见其构架改进的成功。与此同时,地铁2033成为了另一个对显存容量提出极高要求的游戏,在2560分辨率下开启4XMSAA之后,NVIDIA阵营的显卡全线出现了极为严重的爆显存现象,GTX580以及GTX570甚至完全无法正常的运行游戏。
● DirectX 11游戏测试:Crysis2
《孤岛危机2》是《孤岛危机》的续作,游戏采CryENGINE 3引擎所制作,故事发生在距一代3年后的2023年。外星人在地球上的大片区域挑起了战争,各大城市都遭到攻击,人口锐减,玩家将要进行捍卫地球的末日战争。
我们采用Crysis2 BenchmarkTool来完成测试,场景选择Downtown,测试进行三次,取最高成绩作为最终测试结果。
孤岛危机2对于显卡的DirectX 11性能有着全方位同时严格的要求,其诸多先进的特性均让上代单芯旗舰显卡受制不小。Tahiti构架在这方面的改进显现出了威力,HD7970的游戏性能一洗Cayman构架的阴霾,在测试中获得了令人相当满意的流畅度表现。
● DirectX 11游戏测试:H.A.W.X 2
《鹰击长空2》是一款结合了拟真与空战要素而成的模拟飞行游戏,玩家可驾驶多种高性能战机,在高空中进行巡逻、护航、轰炸等任务。值得一提的是,游戏中的地面场景乃参考GeoEye卫星空照图所构建而成,这项游戏与现实生活的科技结合,让玩家仿佛置身于战机的驾驶舱内,逼真的地表风貌一览无遗。
我们采用游戏自带的Benchmark来完成测试,测试进行三次,取三次平均值作为最终结果。
鹰击长空2相对而言更加强调显卡的材质操作以及曲面细分性能,Tahiti构架对缓冲及前端ACE的改进让HD7970在该款游戏中有了长足的进步,其相对于上代的HD6970所取得的领先幅度相当可观。
● DirectX 11游戏测试:LostPlanet 2
《失落的星球2》背景设在原来第一季的十年后。气候变化融化冰雪覆盖的大陆,创造了新的环境,如丛林。在EDN-3rd的改变下,10年过去了。地球发生了重大改变,冰川已经融化,热带丛林,沙漠冷酷无情。玩家将进入新的环境,与雪贼战斗,以抓住不断变化的地球控制权。玩家将控制他们的英雄跨越6个相互关联的事件,创造一个真正独特的互动体验。有了这个概念,玩家将会有机会从不同的发展角度来动态的改变故事情节。
我们采用游戏自带的Benchmark来完成测试,测试进行三次,取三次平均值作为最终结果。
失落星球2对显卡的曲面细分能力有极大的需求,再加上游戏本身并不优秀的优化,HD7970在此款游戏中仍能取得对上代HD6970的大幅领先实属非常不易了。
● DirectX 11应用测试:天堂2.5
《Heaven Benchmark 2.5》是由俄罗斯Unigine游戏公司开发设计的一款Benchmark程序,该程序是由Unigine公司自主研发的游戏引擎设计,其支持DirectX 9、DirectX 10、DirectX 11与OpenGL 3.2 API,通过数十个场景的测试最终得出显卡的实际效能。
得益于前端ACE的改进,HD7970在天堂2.5测试中取得的进步令人侧目。相对于上代的HD6970,HD7970取得了超过60%的性能增幅。
● 游戏性能提升比率:DX11的性能大跃进
我们收集了全部9款参测游戏以及天堂2.5的帧数数据,以HD7970为基础将在游戏中的表现与所有参测显卡进行了一一对比,下面就是所有参测显卡在全部测试游戏中相对于HD7970比率的平均值。由于GTX580/570在地铁2033的2560分辨率下无法顺利完成测试,故2560环境下的数值并未将其计入其中。
通过数据的收集,我们发现HD7970相对于上代构架的HD6970,在不同分辨率下分别取得了23%和30%的游戏性能提升。相对于Fermi构架的GTX580也有近15%的性能领先。这看似并不算大的领先幅度实际上是由DirectX 9及DirectX 10游戏测试结果掺杂其中所造成的,Tahiti构架真正的革新以及性能优势,来自DirectX 11环境的应用。游戏越全面地应用到DirectX 11特性,HD7970的性能提升幅度也就越明显。
通过我们收集的Crysis2以及BattleField3这两款游戏的测试表现,不难发现HD7970在这两款游戏中取得了令人相当满意的性能提升,其最终性能相对于上代的Cayman构架最多领先多达40%。这在后端资源及纹理资源并未大幅提升的前提下是相当不易的。
Tahiti构架为何会取得如此大的DirectX 11性能提升呢?接下来就让我们进入构架底层测试环节,来看看到底是什么改变了AMD的命运吧。
● 构架底层延展测试
在构架底层性能的延展测试环节,我们使用基于OpenCL的通用计算测试软件——GPCBenchmark来完成数据的收集。GPCBenchmark使用最为通用的函数库及API接口进行编写,并未对任何构架进行针对性的优化,测试基于构架的底层能力,且第一次以常规数学方法全面的考验了构架的灵活度和运算应对能力。通过该款软件,我们不仅可以直接读取许多底层构架信息,更能获得构架最真实的特性。
在测试总分环节,HD7970取得了令人惊讶的近6000分的测试结果,即便是相对于以灵活通用计算能力见长的GTX580,其领先幅度也达到了51%之多。
在读写测试环节,我们注意到HD7970的数据传输平滑度较之Cayman有了很大的进步,无论单纯的读写能力还是拷贝能力,HD7970均达到了较高的水平。
局域存储器测试环节考验的是构架局域存储器,也就是Shared以及cache的读写和操作能力。Tahiti构架由于引入了完整且十分灵活的unified cache体系,同时进一步改进了传统Shared的分布形式及操作方式,因此在局域存储器测试环节的结果较之Shared操作方式落后且不支持unified cache的Cayman要抢眼得多。局域存储器的性能直接关系着构架对缓冲的使用能力,而对缓冲的使用和操作能力又直接影响着构架运行Compute Shader以及其他要求灵活度的图形和运算操作的性能。
在这个环节的测试中,我们注意到Cayman的双精度测试存在问题,无法进行任何双精度相关的运算过程。由于使用相同驱动的Tahiti构架在双精度方面的表现良好,因此我们认为AMD目前还无法在Cayman构架中很顺利地实现非ALU.Trans进行的DP过程。与此同时,Tahiti构架的局域存储器吞吐存在较大的单双精度差异,因此我们认为AMD目前在维持3个构架同时正常工作方面遇到了较大的挑战,同时在未来的驱动挖掘方面仍旧也还存在很大的余地。
● 延展测试下半场:为何DX11快了这么多
DirectX 11性能或者说Compute Shader性能,归根结底考验的是构架应对灵活自然的数学方法应用时的性能。GPCBenchmark的常规数学方法及图形处理过程测试,有助于我们了解构架在应对常规数学方法及图形处理相关数学操作时的表现,进而让我们对构架的Compute Shader性能提升有更加直观的感受。
原子操作能够将线程块凝固,并使其在执行完毕之前不可再分,因此高亮直方图的局域存储器原子操作是最接近发挥构架纯吞吐能力的常规应用。Tahiti构架先进的缓冲体系有助于将吞吐过程平顺化,同时可以大幅增加单元复用率,因此即便抛弃了有助于提升吞吐的VLIW,在该项测试以及后续的单精度浮点吞吐能力测试中HD7970依旧取得了高于HD6970的吞吐表现,这既证明了Tahiti构架的先进性,同时也正式宣判了VLIW最终的死刑。
Compute Shader应用基本上都是围绕着常规的数学方法进行的,这些常规数学方法主要包括了矩阵操作、并行规约以及递归等操作。这类自然的常规数学方法大多并不十分强调构架的吞吐能力,但却对构架的灵活度,比如吞吐模式、缓冲操作形式以及线程管理能力有极高的要求。在这部分测试中,Tahiti构架从前端ACE、缓冲体系以及吞吐模式的改进上获得了极大的好处。其性能相对于上代的Cayman有了长足的进步,在于Fermi构架的比较中也取得了令人满意的结果。
通过GPCBenchmark的测试,我们可以得出这样的结论——Tahiti构架改进的缓冲体系,前端ACE以及吞吐模式大大加强了其应对常规数学方法应用的能力,同时并未令其丢失传统的吞吐优势。这种改进是正确的,同时也是极端有效的。在更加自然的非吞吐数学应用场合,Tahiti构架能够表现出相当强劲的灵活性和绝对性能,而强调吞吐的场合中Tahiti构架凭借出色的单元复用率一样可以获得令人满意的结果。这种全面表现,让HD7970在常规数学方法及通用计算负荷更重的DirectX 11领域拥有了长足的性能进步。
● 功耗及温度测试
在温度及功耗测试环节,我们使用Furmark 1.92分别对单卡及三卡CrossFireX的HD7970进行了满载功耗及温度测试。
由于较高的默认运行频率以及相对保守的风扇设置这一所有公版卡的通病,HD7970的温度表现并不算十分理想。这种情况在三卡CrossFireX时尤为突出。
我们一共获得了累积9块HD7970显卡用于测试,这9块显卡的功耗表现并不完全相同,其中最低的一块整机满载功耗仅为366W,而最高的一块则超过了420W。因此在整机功耗测试环节,我们决定采用大多数参测显卡的平均水平,也就是380W及400W的整机功耗来衡量HD7970的功耗水平。扣除CPU因素,HD7970的峰值功耗应该在300W附近徘徊,常规体质下的芯片一般不会超过330W。
HD7970 3way CrossFireX平台满载功耗
HD7970 3way CrossFireX运行战地3实时功耗
三卡CrossFireX的Furemark进一步验证了我们对单卡测试的结果,三卡的峰值整机功耗达到了1129W,扣除CPU及高温因素,单卡的功耗依旧可以控制在330W附近。另外,我们还测试了CrossFireX平台在实际运行战地3测试时的功耗表现,930W的整机功耗证明了AMD控制HD7970功耗措施的有效性,同时也说明了Tahiti构架的单元复用率仍有不小的优化空间。
HD7970 3way CrossFireX使用距离噪音测试
作为单芯旗舰,极高的默认运行频率和密集的发热密度让三卡CrossFireX拥有了不小的满载噪音。希望通过多卡互联获得极限性能的用户,应该对这一点予以重视并尝试改进原厂的散热体系。
● Eyefinity2.0多屏游戏实战
在Eyefinity2.0多屏游戏实战,我们采用3块Dell 2410显示器为基础,组建了一个完整的单卡三屏游戏平台,由一块HD7970完成了横跨三个屏幕,分辨率达3600*1920的输出。
Eyefinity2.0多屏组建过程
我们在该平台上运行了战地3游戏测试,测试过程显示Eyefinity2.0兼容性良好,画面的边框补偿精准正确,没有出现任何游戏显示问题。同时HD7970在该分辨率下也取得了27.9帧的测试成绩,接近流畅运行游戏。
● 三卡互联性能延展力测试
我们分别收集了单HD7970以及三卡CrossFireX在测试平台下的性能表现,下面就是3Dmark Vantage以及3Dmark11下两者的测试结果。
3 way CorssFireX 3Dmark Vantage成绩
可以看出,HD7970的性能延展性还是相当优秀的,三卡CrossFireX在3Dmark Vantage以及3Dmark 11中分别达到了单卡性能的209%及271%,伴随着应用负载的逐渐加大以及DirectX 11应用的逐渐增多,这种相当优秀的性能延展性还将得到进一步的表现和延续。
● 超频性能测试
我们对HD7970进行了超频能力的延展测试,在风冷环境下以CCC控制面板直接对其进行了超频,超频频率为CCC允许的极限:1125/1575MHz。
在风冷环境及默认电压下,HD7970轻松的达到了这一频率,并顺利的通过了3Dmark11的性能测试。
● 测试总结:我等你等了好久
HD7970不仅在构架结构上明显接近了Fermi构架,如果不考虑资源总量等技巧性差异,两者在逻辑结构的方向层面也可以说已经完全相同了。在经历了5年曲折的摸索和前进之后,AMD终于为我们奉上了一款契合API需求同时DirectX 11实际性能也确实非常优秀的构架。
HD7970核心照
因为ALU团簇结构的趋同,Tahiti与Fermi构架之间有了一定的可比性,我们可以近似的将之看做两个运算结构相同,但缓冲比例搭配不同的体系。以各自在当前制程下所能够接受的资源总量来衡量,Fermi在缓冲资源部分投注的比例相对更大,而Tahiti构架则更加倾向于大量运算单元配备少量缓冲,这种倾向,让Tahiti看上去更加接近原教旨的GPU以及GPGPU。
Fermi构架单元对缓冲的调用过程
HD7970定位单芯旗舰显卡,它的如期到来再次让AMD攥紧了自己手中的传统武器——先发构架。HD7970不仅拥有取得长足进步的DirectX 11性能,小巧的核心面积,更拥有包括DirectX 11.1在内的诸多全新特性。快速先发不仅能够让AMD利用新的特性抢占市场真空期,在与竞争对手的对决中第三次取得了先机,更能让消费者更早获得更高性能的产品。HD7970适合注重性能的旗舰级玩家,尽管它的噪音和温度表现还有待改进,但其优势的DirectX 11性能足以令渴望性能的玩家们对其投来赞许的目光,并让AMD再次在产品层面走在了NVIDIA的前面。
Tahiti及其之后的构架表现令人期待
NVIDIA如果希望在这种状况下扳回劣势,除了进一步提升Kepler构架的绝对性能之外,还需要在可制造性以及功耗层面进一步强化自己的表现。如果Kepler构架单芯旗舰的绝对性能能够领先HD7970达20%以上,市场的接受度也会随之提升不小,而可制造性或者说芯片面积的合理优化,不仅能够让市场进一步接受这一迟到的作品,更能为后续在sweet spot领域的布局打下良好的基础。
在HD7970出现之前,AMD一直处在追随者的状态下。HD7970的出现,让AMD基本完成了在逻辑设计方向上的追赶,甚至具备了与NVIDIA一同探索并提出与过去不同的发展方向的资格。不论是转向偏重原教旨GPGPU强调的并行吞吐,维持现有的多样化应用要求的更大的灵活性,亦或是在两者之间寻找unified cache资源配置的平衡点,NVIDIA未来与AMD所做的事情将趋于相同。这不仅能够让游戏编程界在思想上获得统一,更能让双方将更多的精力投注到构架逻辑结构的优化方面并为我们带来更多更加精彩的产品。
HD7970的出现创造和改变了很多东西,它精巧的结构的令人赏心悦目,它具备与Fermi接近的逻辑结构以及与Larrabee类似的吞吐模式,它扭转了AMD在单元复用率方面的劣势,它的灵活度远超任何一款曾经出现的ATI/AMD图形构架,它拥有比过去好得多的DirectX 11游戏性能,它将AMD GPU长达5年的错误或者说迷茫一扫而空,并为AMD的未来发展指明了道路。但HD7970毕竟是一款面向旗舰级玩家的产品,真正能够为企业带来利润的,显然是sweet spot及以下级别的构架。有了良好的开端,AMD能否将构架层面的诸多改进和优势进一步发扬到普通用户层面,让我们拭目以待吧。
推荐经销商