1欢迎来到美丽的热带天堂
8个月的等待之后,我们终于迎来了又一次旗舰级的对决。而且很欣慰的是,我们并没有白等。
2013年10月24日,AMD正式发布了代号“Hawaii”的全新架构打造的新一代旗舰级显卡——Radeon R9-290X。Radeon R9-290X面向骨灰级游戏玩家,以包括4K UltraHD分辨率及多屏拼接在内的各种高分辨率/超高分辨率应用场合为目标。该款显卡的发布,标志着AMD同NVIDIA在旗舰级市场的竞争正式拉开了帷幕。
在推出GCN架构之后,AMD再一次审视自我并对架构进行了重大改进,本次发布的Hawaii架构包含了大量重要的逻辑结构更新。这些改进不仅精彩,而且在一定程度上改变了我们的许多“传统看法”。我们不得不在首页特别强调——相对于性能和表现,Hawaii的架构细节变化才是最值得我们注意的地方,它为我们带来了希望和未来。
想知道Hawaii架构都带来了哪些重大改进么?想知道这些改进为AMD带来了多少性能提升么?想知道Radeon R9-290X的实际性能究竟如何么?OK,让我们开始吧。
2R9-290X规格起底
● R9-290X规格起底
作为Graphic Core Next的最新改型,Radeon R9-290X采用的Hawaii架构拥有了AMD史上最为庞大的规模。它集成62亿晶体管,核心面积上升到了438平方毫米,这一数值已经超越了AMD在DirectX 11时代所划D线(什么是D线? 它会导致怎样的问题?)上空间的上限(338+33.8平方毫米)。Hawaii的GPU芯片集成度,亦即单位面积的晶体管密度有了较大改变,如果AMD所公布核心面积数值无误的话,Hawaii的每平方毫米集成度将达到1415万晶体管,这较之前代Tahiti架构的1178万有了明显的上升。集成度的提升降低了芯片总面积,进而降低了芯片的可制造难度,但同时也改变了芯片内部的热密度分布,对于纾解D线压力可谓是一把双刃剑,而且为Hawaii的功耗表现埋下了伏笔。
与Radeon HD 7970/7970GE采用的Tahiti架构相比,Radeon R9-290X的Hawaii架构的运算资源总量从2048个ALU上升到了2816个,Texture Filter Unit由128个上升到了176个,构成后端的ROP则从32个翻倍到了64个。Hawaii拥有庞大但经过重新设计的MC结构,8个64bit双通道显存控制器组合形成了512bit显存控制单元,Radeon R9-290X的显存容量也因此而从Tahiti的3072MB提升到了4096MB。重新设计的MC单元是Hawaii最核心的秘密和兴趣点,它背后蕴藏了很多有趣的现象及故事,我们将会对其进行针对性的解析。
*注:市场定价均为官方首发限价
Radeon R9-290X的默认核心及显存运行频率为1000/5000MHz,AMD Boost可将核心频率调回至800MHz,其默认Pixel Fillrate能力达到了惊人的64Gpiexls/S,默认Texture Fillrate能力为176Gtexels/S,显存带宽320GB/S。Radeon R9-290X拥有5.6T Flops的单精度浮点运算能力,理论上拥有1.4T的双精度浮点运算能力,但根据我们的测试,Radeon R9-290X实际上可以达到1/2于单精度的双精度浮点运算能力。我们尚无法确定这是否是由于驱动bug所致,并会对此保持持续关注。
Hawaii架构芯片由以下主要的部分组成:
1、与Tahiti相同的基于HKMG的TSMC 28nm工艺。
2、与Tahiti不同的宏观并行结构,44组CU单元被分为4个Shader Engines,每个Shader Engines包含11组CU。
3、与Shader Engines一一对应的4组Geometry Unit(几何处理单元)以及4组Rasterizer(光栅化单元)。
4、ACE异步计算单元的总量由2组提升至8组。
5、改进结构的MC单元,当前的8x64bit双通道显存控制器可以实现512bit显存位宽,并可在5000MHz显存频率上实现320GB/S的理论位宽,但该显存控制器所占资源数量却不到现有显存控制器逻辑设计方案的50%(面积/晶体管)。
6、调节控制粒度、突出低噪音及高温高性能耐受能力、同时频率控制范围更大的新一代AMD Boost。
相对于我们所熟悉的Tahiti,Hawaii架构既亲切又有些陌生。它的core核心设计,亦即CU单元与Tahiti相差甚微,但uncore部分的改进则几乎可以用天翻地覆来形容。这些改进对于AMD当前以及未来的架构均意义重大,所产生的效果也多种多样。接下来,就让我们从细节层面深入剖析一下Hawaii架构的各种特点吧。
3奋起直追的并行度
● 奋起直追的并行度
作为GCN架构的改良版本,Hawaii在诸多方面进行了修改,并行度的提升便是其中之一。宏观并行结构本身并不会给GPU带来通常意义上的直接可量化图形性能提升,但宏观并行度提升的副产品,也就是几何单元以及光栅化单元的增加,以及宏观并行度提升所带来的线程管理以及任务执行效率的增长,都将会给GPU的性能增长带来助益。
宏观并行度提升的Hawaii架构
Hawaii拥有4 Shader Engines的宏观并行结构,单位周期内可以并行处理4个多边形,几何处理能力以及坐标变换等光栅化处理能力均为前代Tahiti架构的两倍。
Hawaii的另一大前端改进来自ACE单元,这与整个体系的并行度及并行执行能力息息相关。ACE全称Asynchronous Compute Engine,译为异步计算引擎。作为AMD GPU最前端的组成部分,它的实际作用其实与几何以及光栅化等图形过程并没有直接的联系。ACE位于整个GPU的最前端管理任务队列,它会将线程块规整的分发给后面的ALU团簇。ACE是所有GPU任务的起点,它的存在和表现直接关系到了GPU进行图形及通用计算任务是的效率表现。在Hawaii架构当中,ACE的总量较之Tahiti提升了4倍,达到了8组。
除此之外,Hawaii的ACE单元在功能性层面也有提升。新的ACE单元支持L2 cache及GDS的直接访问及管理工作,可同时管理总计64个任务队列(8x8 queues),支持独立并行的任务运作及调度,可以实现图形命令及任务的并行处理,这不仅有助于整个架构实现更为快速的上下文切换功能,同时进一步改善任务密度和单元复用情况。
Hawaii内部划分明确的子处理单元代表了AMD在宏观并行度层面对竞争对手的追赶,从结构角度而言,Shader Engine与GPC的差异已经不大。尽管多shader engines构成的ALU集群仍旧可以被视为一个整体,同时也没有迹象表明AMD放弃了抢占式多线程等前端任务管理机制,但Hawaii架构的宏观并行度较之Cayman/Tahiti架构仍旧有了明显的提升。这是AMD GPU架构演进过程中里程碑式的一步,将会对未来的AMD图形架构乃至整个HSA通用计算架构的发展产生至关重要的影响。
4不变的core
● 不变的core
较之并行度方面的提升,Hawaii的直接运算部分亦即CU单元的结构并没有发生任何本质性的变化,它依旧维持和沿用了GCN架构的标准结构。在首代GCN架构的Tahiti当中,AMD将ALU团簇从VLIW SIMD改进成了Vector Compute Unit,我们亦可简称其为CU。CU单元内部包含4组SIMD CORE,每组SIMD CORE由16个标准Vector ALU构成,所以一个CU单元拥有64个Vector ALU。
Hawaii沿用了这样的CU单元设计,架构总计包含44个CU单元,合计拥有2816个Vector ALU。除了负责浮点吞吐的SIMD CORE之外,Hawaii构架的每个CU单元同样拥有在一个Scalar Unit,Scalar单元中包含Int ALU单元,可以用来处理整数指令以及特殊函数。另外,对线程效率至关重要的原子操作(Atomic)也在该单元中执行。
Tahiti构架CU结构细节
运算单元之外,Hawaii构架的每个CU还绑定了由Branch和Scheduler构成的二级线程控制机制,以及一个完整的Texture Array,Texture Arroy的作用与传统AMD构架中的TMU基本相同,包含了完整的Texture Fetch Load/Store Unit以及Texture Filter Unit。
由于整个结构并未发生变化,Hawaii的CU内部以及CU周边的缓冲资源也维持了前代的标准。CU内部拥有独立的32K GDS(Golbal Data Share),其中可以划分出16K作为L1 Data cache,另外每个CU还拥有独享的64K LDS(Local Data Share)。在一级缓冲和Shared之外,Hawaii的CU单元还拥有共享的L1 Instruction cache和Kernel cache,密度应与Tahiti维持一致,计每4个CU共享16K的L1 Instruction cache和32K的Kernel cache。
Hawaii架构的CU结构
最后,由于后端的直接放大以及cache体系的必要调整,Hawaii构架的L2 Data cache尺寸发生了变化,L2 cache拥有沟通上级缓冲与显存的作用,它需要与MC一一对应,因此Hawaii共拥有8组合计1024K的L2 cache。L2 cache面向所有CU中的单元开放,ALU可以用它缓冲数据,TMU也可以用它充当Texture cache。值得注意的是,由于Hawaii的CU单元数量增长与L2规模增长不成比例(40/6 VS 44/8),每个CU单元能够获得的L2使用密度(时间/空间)较之Tahiti有所下降。但AMD将Hawaii架构的L1/L2传输带宽提升到了1TB/S,在一定程度上冲淡了资源密度下降带来的影响。
5最大的“奇迹”——显存控制器
● 最大的“奇迹”——显存控制器
整个Hawaii架构中最重要的革新来自其全新结构设计的显存控制器体系,新的显存控制器以更小的面积和资源实现了更大的理论位宽,大大增加了每平方毫米可用带宽数量。
Hawaii拥有8组64bit双通道显存控制器,其理论总位宽达到了512bit,在此基础上,AMD宣称该组显存控制器的“占地面积”相当小,比现行架构中的6x64bit方案还小20%,每平方毫米显存控制器单元的理论可用带宽由此增加了50%。
Hawaii架构的MC体系
常规来讲,由于互联以及控制单元的激增,维持延迟在可控范围内的高频512bit显存控制器通常会比384bit显存控制器多占用接近100%的资源总量(面积/晶体管),Hawaii这一显存控制器所占资源情况,意味着其所采用的单位逻辑结构方案较之现行方案减小了50%以上的规模。这不仅为GPU节约了大量宝贵的晶体管资源,同时也大幅削减了芯片的最终面积,尤其是面积的削减对于饱受D线压迫的AMD来说是极其珍贵的。
当然,显存控制器的改变看似脱胎换骨,实则并没有所谓的奇迹存在,新设计的显存控制器是一个更加倾向与理论而非实际吞吐性能的结构,尽管AMD没有公布更多细节,我们无从知晓新的显存控制器究竟是在互联还是其他层面进行了结构缩减,但我们可以肯定它并没有挑战现行的显存控制器设计基础,也没有采用本质上可以提升单位有效吞吐能力的新结构。我们会在接下来的测试中见识这一结构产生的真实性能,并剖析其对整个架构带来的性能影响。但请注意,我们并不是为了要指摘这一结构设计的失当,相反,我们对Hawaii的显存控制器设计报以了极高的评价。
Hawaii架构的显存控制器是一个在较少的资源消耗和较低的有效性能当中求得平衡的设计,其中最值得注意的并非最终性能,而是AMD所进行的平衡。新结构的MC单元与其说是源自功能性和结构性的改变,倒不如说是AMD的GPU架构设计思路发生了重要变化,这一变化颇为关键,甚至可以说是一门艺术。
6正确的抉择
● 正确的抉择
逻辑结构的设计实际上是一个资源使用的平衡与取舍的艺术,在有某种特定约束范围作为前提的情况下,如何正确的使用定量资源并将其划分成正确比例的部分,进而有针对性的解决不同的矛盾,是一个体系能够成功的基础。
通俗的说法,就那么多钱的话,怎么最有效率的花出去是关键。就那么多晶体管的话,怎么最有效率的将其用在最需要的地方是关键。就那么多芯片面积的话,从一切可能的地方挤出面积来给最需要面积的部分是关键。
以Hawaii架构以及当前的AMD而言,逻辑结构设计过程中最大的问题无疑在于D线和既有的寄存器负担的强烈压迫。受限于D线对芯片面积的约束,在DirectX 11时代缺乏大芯片设计制造经验的AMD不可能随心所欲的制造与竞争对手同等规模的“巨无霸”,甚至在挑战400平方毫米级别时,每向上一平方毫米所带来的功耗增长及可制造性下降都会让试探变得更加困难。与此同时,寄存器所导致的晶体管负担也束缚了希望释放运算资源规模的AMD的手脚。尽每一份可能瘦身并用更小的面积来实现更多的性能,显然是AMD现在最迫切同时也是最困难的任务。究竟要怎样做,才能达成这样的任务呢?
平衡性能和消耗是AMD在Hawaii上面对的首要问题
AMD选择了从显存控制器这一极其消耗资源的部件着手,以单位有效带宽更低但理论带宽更高,同时更加节省资源的方案替代当前有效带宽更高但更加消耗资源的方案。
细化到具体做法,就是先修改现有的显存控制器逻辑结构,尽最大可能的简化单位逻辑结构所需要消耗的晶体管和互联资源,然后获取由此结构简化导致的新增延迟以及有效带宽衰减情况,接着再通过添加同类单位逻辑结构总量进而提升总位宽的形式抵消这部分新增延迟以及有效带宽衰减所造成的影响,最终在总有效带宽不弱于当前GPU架构的前提下确定资源消耗最少的显存控制器总位宽规模,这就是Hawaii显存控制器的设计指导思想。
尽管Hawaii的显存控制器并没与表现出与正常规模显存控制器相当的实际性能,但我们显然并不排斥这样的设计,它体现了AMD在GPU设计思路上仍旧保有的成熟。以最小的代价获取最大的收益,或者说以最小的代价来尽可能的弥合体系内部其他矛盾所带来的影响并获取最大的收益,这是十分成熟的解决问题的思路。我们曾经认为AMD与ATI的合并、前CEO Ruiz的一系列屡破下限的愚蠢还有各种不利的其他因素,已经让原本属于AMD和ATI研发团队的核心灵魂随风而逝了,漂亮的解决问题的过程将越来越难以出现在AMD的逻辑结构设计过程当中,可是Hawaii又让我们看到了希望。
在Hawaii身上,AMD/ATI之魂无疑仍在发光。
Hawaii以显存控制器单元为基点,在维持一定性能层级的前提下从其中“相对”节省了大量晶体管和芯片空间资源,并将其转化成了ROP/CU/ACE/Geometry乃至cache等等更为直接的性能提升资源,同时收窄了芯片面积并在所有的性能功耗组合方案当中找到了相对更理想的平衡,这种更有效的使用晶体管资源的抉择完全可以用“漂亮”来形容。在目前手中的可选牌为数不多的情况下,这是AMD能够打出的最出人意料同时也是最漂亮的一套组合。
这世界上没有设计错误的逻辑结构,只有设计是不是符合时宜的逻辑结构,能够在正确的被需要的时间出现,这种逻辑结构就是OK的。诚然,也许Hawaii这套新的显存控制器的实际性能并不能令所有人感到满意,也许把它放在别的GPU架构当中会导致该架构的最终落败,但在此时此刻,在Hawaii身上,在饱受D线压迫的AMD身上,这套显存控制器是全世界最棒的方案。
7Hawaii的更多“武器”
● Hawaii的更多“武器”
除了逻辑结构层面的改进之外,Hawaii还进行了许多功能性层面的改进,这些改进包括新一代Eyefinity,DirectX 11.2、mantle以及TrueAudio。
新的增强型Eyefinity
新一代增强型的Eyefinity的改进并不多但却相当务实,它大幅降低了组建三屏拼接组合的难度,它不再强制要求DP接口的参与,现在用户们仅需使用DVI+HDMI接口,便可以直接轻松的完成三屏拼接显示输出的组建工作。
AMD新API——Mantle
DirectX 11.2是微软为DirectX 11进行的一次小版本升级。除了各种面向接口的升级之外,DirectX 11.2带来的最主要的更新来自Tiled Resources技术。该技术旨在允许程序员透过虚拟化的操作方式开辟虚拟显存空间,同时透过Tiled的方式减少材质在渲染过程中的真实需求量。应用该技术可以减轻材质渲染对显存容量以及位宽的压迫,这不仅对PC系统的GPU有利,对采用小容量eSRAM作为缓存系统的XBOX One也将会产生重要的影响。
Mantle的情况较之前两者更为特殊,按照AMD官方的描述,这应该会一个独立在DirectX以及OpenGL以外的图形API,可以允许程序员绕过上述API直接访问AMD GPU的底层ISA并直接调用各种功能。尽管三缄其口同时对特性描述并不详尽,但如果AMD的描述没有问题的话,它将会是Glide之后的首个全新图形API,它的出现不仅给AMD GPU带来了新的契机,同时势必会对微软以及Khronos控制的图形API生态环境提出全新的大胆挑战。
TrueAudio是Hawaii架构最奇特的功能性改进。该功能通过内建在芯片中的Multiple integrated Tensilica HIFI EP Audio DSP,首次在GPU上实现了8声道环绕立体声输出,并带来了逼真的音效处理效果。TrueAudio可以在3.5mm耳机、USB输出设备以及复数个支持HDMI/DP Audio的显示设备上实现输出,这为游戏过程的体验提升带来了新的机会。
8Radeon R9 290X拆解赏析
● AMD Radeon R9 290X拆解赏析
AMD Radeon R9 290X
9送测产品展示之HIS R9 290X
● HIS R9 290X拆解赏析
HIS R9 290X
10送测产品展示之迪兰 R9 290X
● 迪兰 R9 290X拆解赏析
迪兰 R9 290X
11送测产品展示之蓝宝石 R9 290X
● 蓝宝石 R9 290X拆解赏析
12送测产品展示之微星 R9 290X
● 微星 R9 290X拆解赏析
微星 R9 290X
13测试平台一览
● 测试平台一览
为保证测试能够发挥显卡的最佳性能,本次测试的平台由Intel 酷睿i7-3970X处理器、X79芯片组主板、威刚16GB DDR3-1600四通道内存组建而成。详细硬件规格如下表所示:
测 试 平 台 硬 件 环 境 | ||||
中央处理器 | Intel Core i7-3970X | |||
(6核 / 12线程 / 3.5GHz / 15MB L3) | ||||
散热器 | Sapphire Vapor-X | |||
(LAG2011 单塔风冷散热器) | ||||
内存模组 | ADATA XPG DDR3-1600 4GB × 4 | |||
(SPD:9-9-9-24-1T) | ||||
主板 | GIGABYTE GA-X79-UD7 | |||
(Intel X79 Chipset) | ||||
硬盘 | Seagate Barracuda 1TB | |||
(1TB / 7200RPM / 32MB缓存 / SATA3) | ||||
电源 | Antec HCP-1000 | |||
(80Plus Platinum / 1000W) | ||||
显示器 | DELL Ultra Sharp 3008WFP | |||
(30英寸LCD / 2560×1600分辨率) |
● 测试平台软件环境一览 为保证系统平台具有最佳稳定性,本次横向评测所使用的操作系统为Microsoft Windows 7正版授权产品,除关闭自动休眠外,其余设置均保持默认,详细软件环境如下表所示:
测 试 平 台 软 件 环 境 | ||||
操作系统 | Microsoft Windows7 Ultimate RTM SP1 | |||
(64bit / 版本号:7601) | ||||
主板芯片组驱动 | Intel Chipset Device Software | |||
(WHQL / 版本号:9.2.3.1022) | ||||
NVIDIA显卡驱动 | NVIDIA Forceware | |||
(for game ready / 版本号:331.58) | ||||
AMD显卡驱动 | AMD Catalyst | |||
(Beta / 版本号:13.11 Beta V5) | ||||
桌面环境 | Microsoft Windows7 Ultimate RTM SP1 | |||
(2560X1600/32bit/60Hz) |
需要特别说明的是,为了保证游戏及测试过程中双方特效设置的完全相同以及公平公正,我们调整了AMD催化剂驱动的AI控制功能,将镶嵌等级从驱动默认的“AMD优化”改回了应有的“应用程序控制”。只有在这样的设置下,AMD显卡才会在游戏中使用正确的游戏自身设置的特效设置等级,而不是AMD预设的更低的特效设置等级。
与此同时,为照顾习惯于默认驱动设置环境使用AMD显卡的用户,我们会同时给出AI优化默认开启状态下的性能测试结果,以供更多用户进行对比及参考。
14理论性能测试之3DMark FireStrike
● 理论性能测试之3DMark FireStrike
于北京时间2013年2月5日推出的新3DMark,采用全新界面设计,除了测试分数,还会展现每个场景测试期间的实时曲线,全程记录帧率、CPU温度、GPU温度、CPU功耗。新3DMark取消了传统的E、P、X模式,取而代之的是根据负载不同所推出的三个场景,其中FireStrike专为基于DirectX 11显卡搭建的高端游戏平台,而CloudGate则支持基于DirectX 10环境的主流硬件,IceStorm则支持入门级DirectX 9设备、手机、平板电脑等等。
3DMark FireStrike
我们的理论测试从新3Dmark开始,但测试在开始阶段就给了我们一个不小的尴尬——AMD的13.11 Beta V5驱动仅针对Radeon R9-290X进行了优化,而NVIDIA的Forceware 331驱动的性能表现更是可以用“飘忽”来形容,两者的共同作用为本次测试的几乎所有项目都平添了许多变数。尽管如此,Radeon R9-290X仍旧让我们的眼前一亮——它的表现甚至超越了当前最快速的GeForce GTX Titan。
15理论性能测试之3DMark 11
● 理论性能测试之3DMark 11
PC游戏随Windows 7的发布进入DirectX 11时代,众多DirectX 11显卡早已摩拳擦掌上阵厮杀,却迟迟没有一个权威性的基准测试软件来衡量游戏显卡DirectX 11性能的高低。终于,DirectX 11时代的3DMark 11来到大家面前。3DMark 11使用原生DirectX 11引擎,测试场景包括Tessellation曲面细分、Compute Shader以及多线程在内的大量DirectX 11特性。
3DMark 11
在3Dmark 11的测试当中,Radeon R9-290X的性能与GeForce GTX 780处于伯仲之间,以我们对于Hawaii架构的理解,我们认为在今后的3Dmark 11测试中Radeon R9-290X还能有不小的提升余地。
16游戏测试之Crysis3
● 游戏测试之Crysis3
《孤岛危机3》是《孤岛危机》的最新续作,游戏采CryENGINE 3引擎所制作,其卓越的画面表现以及精彩的剧情相信已无需多言。作为硬件杀手的第三代,只支持DirectX 11的Crysis3 PC版再次将游戏的画面精美程度和硬件需求提升到了新的高度。
《孤岛危机3》
我们采用运行Origin平台启动游戏并进行第一关至进入建筑物为止,同时收集期间的平均帧数的方式来完成测试,测试进行三次,取平均成绩作为最终测试结果。
Crysis3对于硬件的压力依旧是相当可观的,这种压力并非全然来自像素端,所以Radeon R9-290X的优势并没有得到完全的发挥。
17游戏测试之Crysis2
● 游戏测试之Crysis2 《孤岛危机2》是《孤岛危机》的续作,游戏采CryENGINE 3引擎所制作,故事发生在距一代3年后的2023年。外星人在地球上的大片区域挑起了战争,各大城市都遭到攻击,人口锐减,玩家将要进行捍卫地球的末日战争。 我们采用Crysis2 BenchmarkTool来完成测试,场景选择Downtown,测试进行三次,取最高成绩作为最终测试结果。 Crysis2情况较之前一项测试要好上不少,伴随着特效压力的缓和,测试的天平再一次向 Radeon R9-290X倾斜,它完成了对GeForce GTX 780的超越。
《孤岛危机2》
18游戏测试之杀手5
● 游戏测试之杀手5 《杀手5:赦免》采用IO Interactive自主研发的冰川2(Glacier 2)引擎制作,游戏内容都是在引擎下实时进行反馈的,所有动作都是即时生成的。新作主要场景发生在芝加哥,名为代号47的主角在本作中将更加灵活,更好控制。他将可以攀在悬崖边,还可以保持平衡,游戏融入了掩护系统,挟持人持的功能回归。 我们使用游戏自带的Benchmark程序来完成设置,测试进行三次,取平均值为最终结果: 杀手5的测试让我们多少有些意外,这是一款像素吃重型游戏,原则上应该是Radeon R9-290X的优势项目才对,但也许是V5版beta驱动的问题,Radeon R9-290X虽然表现出了相对于Tahiti架构的充分提升,但却没有完成对GeForce GTX 780的超越。
《杀手5:赦免》
19游戏测试之Metro LastLight
● 游戏测试之Metro LastLight
本作题材基于俄罗斯最畅销小说Dmitry Glukhovsky,依旧由乌克兰4A游戏工作室开发并采用改进后的4A游戏引擎。最后的曙光讲述了一场为争夺足以毁灭人类的世界末日装置的内战。人类依旧苟活在地下等死。不同派系之间的战争还在继续,晚上依旧有各种变异生物潜伏在暗处。地面依旧是各种毒气,但有传言冰层开始融化,阳光开始穿透云层。
《地铁:最后的曙光》
我们采取游戏提供的Benchmark程序来完成测试,该Benchmark所包含的场景具有光照系统,烟雾系统以及激烈交战场景,能够全面反映显卡在面对Compute Shader以及超高分辨率材质时的表现。
地铁:最后的曙光同样给了我们意料之外的测试结果,Radeon R9-290X能够在一款The Way游戏中超越GeForce GTX 780,并且达到接近GeForce GTX Titan的性能水平。
20游戏测试之古墓丽影9
● 游戏测试之古墓丽影9
《古墓丽影9》将讲述劳拉的首次冒险之旅,主角劳拉·克劳馥的年龄被设定在21岁,那时的她还只是一名刚出茅庐的新人,经验欠缺。随着游戏剧情的发展,玩家将与劳拉共同成长,获得新的武器和道具并习得新技能。在冒险的小岛上,玩家可以在营地对道具进行组合,有些特定区域就需要特定道具和技能才能通过。岛上的各个营地之间可以快捷传送,玩家无需长途跋涉。而除了劳拉外还将有其他角色出现在岛上。
我们采取游戏提供的Benchmark程序来完成测试,测试进行三次,取平均值为最终结果:
1920X1200 FXAA 古墓丽影9测试结果
整体而言,这次Radeon R9-290X的测试确实给了我们不少的“出乎意料”。13.11 beta V5版测试驱动完全没有让AMD全系列显卡在古墓丽影9当中发挥出应有的优势,看来AMD的驱动团队还需要做更多工作,才可以让Hawaii架构的优势得到进一步发挥。
21游戏测试之Dirt 3
● 游戏测试之Dirt 3 《Dirt 3》是Codemasters制作发行的一款赛车竞速单机游戏,作为AMD Gaming Evolution的一款游戏,它采用与《F1 2010》同样的Ego引擎,支持DirectX 11 API,拥有更加拟真的天气系统及画面效果。游戏将包含冰雪场景、动态天气、YouTube上传、经典的赛车、分屏对战、party模式、开放世界、更多真实世界中的赞助商和车手等特点。 我们采用游戏自带的Benchmark来完成测试,最终结果以显示平均帧数为准。 我们选择尘埃3作为Radeon R9-290X的首发测试游戏,是希望更好的考察特效压力不重的游戏环境中Hawaii架构的像素数出能力和“直接图形性能”,开关AI调整之后的成绩对比让我们对此有了更加直观的了解。在驱动默认的设置当中,Radeon R9-290X再次完成了对GeForce GTX 780的超越,甚至表现出了接近GeForce GTX Titan的性能。
《尘埃3》
22游戏测试之蝙蝠侠阿甘之城
● 游戏测试之蝙蝠侠阿甘之城 蝙蝠侠:阿甘之城(Batman: Arkham City)是2009年最佳动作游戏《蝙蝠侠:阿甘疯人院》的续作,由华纳兄弟出品,该作由Rocksteady工作室负责开发,世界架构仍然建立在《阿克汉姆疯人院》的气氛上,不过这次上升至阿克汉姆之城——高谭市内戒备森严的,关押了大量暴徒的监狱之中。新作汇集了众多明星参与的配音阵容以及蝙蝠侠中的极度凶残的恶棍,并改进和加强了一游戏特点,让玩家们拥有像《蝙蝠侠:黑暗骑士》一般的终极游戏体验。 我们采用游戏自带Benchmark进行性能测试。测试进行三次,取三次平均值作为最终结果。
《蝙蝠侠:阿甘之城》
我们要再一次对AMD的驱动团队提出要求——Hawaii架构在蝙蝠侠:阿甘之城当中明显应该有更好的性能表现,如何通过驱动进一步发挥Radeon R9-290X的性能将是AMD接下来的首要任务。
23游戏测试之生化奇兵无限
● 游戏测试之生化奇兵无限 《生化奇兵:无限》将玩家带往1912年,那是巨型飞艇和浮空飞行器的全盛时期,在此背景下诞生了海底销魂城的前辈,即天空之城“哥伦比亚”:这座远离美国海岸自成一体的空中城市在信众的欢呼声中扶摇直上,寄托了美利坚强国之梦,但因其不可告人的目的使其似锦前程不久便急转直下,武装到牙齿的狰狞面目把原本光荣正确伟大的阿波罗登月变成邪恶的死星计划,整座城市消失在云端中自此再无人知晓。 凭借后端的改进,Radeon R9-290X在《生化奇兵:无限》中表现出了与GeForce GTX 780不相上下的性能。相信随着驱动的进一步更新,Radeon R9-290X还将会有更多可以被挖掘的潜力。
《生化奇兵:无限》
1920X1200分辨率 生化奇兵:无限测试结果
2560X1600分辨率 生化奇兵:无限测试结果
24应用测试之天堂4.0
● 应用测试之天堂4.0
《Heaven Benchmark》是由俄罗斯Unigine游戏公司开发设计的一款Benchmark程序的最新版本,该程序是由Unigine公司自主研发的游戏引擎设计,支持DirectX 9、DirectX 10、DirectX 11与OpenGL 3.2 API,通过数十个场景的测试最终得出显卡的实际效能。
《天堂4.0》
在测试的结尾部分,Radeon R9-290X以与GeForce GTX 780相当的性能完成了全部测试。
25游戏性能综合比率
● 游戏性能综合比率 我们收集了全部8款参测游戏的帧数数据,以Radeon R9-290X为基础将在游戏中的表现与所有参测显卡进行了一一对比,下面就是所有参测显卡在全部测试游戏中相对于Radeon R9-290X比率的平均值。 综合所有测试项目来看,在游戏中采用最高特效设置的前提下,Radeon R9-290X在默认驱动设置时的性能表现超越了GeForce GTX 780,如果采用更高的分辨率,同时进一步平衡游戏特效设置的话,Radeon R9-290X的性能等级还将会有更多提升。
Radeon R9-290X性能比率(1920分辨率)
26架构通用计算测试之FluidCS
● 架构通用计算测试之Fluid simulation
Hawaii架构的各种改进进一步提升了其通用计算的效率,所以我们进行了相关的通用计算能力测试。与各种不明就里或者只知道跑理论吞吐测试的第三方测试软件不同,我们进行的DirectX SDK Simulation直接调用微软的DirectX API来完成测试,这些测试的对象和过程都是构成DirectX环境下图形与计算任务的基础,是最直接的针对GPU实际运算性能的测试。以此为基准取得的测试结果,才是真实的能够反映架构运算性能和效率的结果。
Fluid dynamics simulation
我们首先进行的DirectX SDK测试是使用Direct Compute完成的流体力学模拟——Fluid dynamics simulation。Fluid dynamics simulation基于弹性力/黏着力/重力为基础的颗粒碰撞模拟,每一个颗粒均拥有独立的力学参数。通过对颗粒本身在统一的重力参数作用下自有力学参数以及交互作用的计算,可以模拟大量颗粒的行为并达到模拟由它们构成的“流体”特性的目的。
Fluid dynamics simulation分别提供了对shared性能以及Grid性能的测试,力学计算本身需要应用包括矩阵运算在内的多种数学方法,颗粒之间的力学交互作用存在条件分支关系,因此该项测试可以全面考验不同构架对图形通用计算以及有针对性的物理特效计算的性能。
Radeon R9-290X通用计算性能测试之FluidCS
在测试的起点,Hawaii架构为我们带来了良好的性能表现,AMD在Hawaii架构上进行的各种改进得到了检验。
27架构通用计算测试之CSM
● 架构通用计算测试之Cascaded Shadow Maps
Cascaded Shadow Maps(CSM)是一种基于阴影深度进行的阴影判断及快速操作模式,CSM通过将整个阴影划分成若干级的层次,以层次内部像素的深度来定义和快速判断阴影位置,并对近景阴影采取高精度贴图,远景阴影采用低精度贴图的方式来达到节约资源同时快速准确实现阴影贴图的目的。CSM可以极大地加快阴影操作的速度,同时避免大多数因为光源形态、阴影深度与像素尺寸差异所导致的阴影边缘及内部贴图错误。
Cascaded Shadow Maps
CSM大量涉及矩阵运算及坐标判断,因此在DirectX 11环境下可以透过Compute Shader来进行。对CSM的性能测试,有助于我们了解构架的矩阵操作等通用计算性能。
Radeon R9-290X通用计算性能测试之CSM
CSM测试的结果显示,尽管Hawaii架构相对于Tahiti架构有了长足的进步,但AMD在Compute Shader的实际应用环节还有很多工作要做。
28架构通用计算测试之OIT
● 架构通用计算测试之OIT
半透明是3D图形中一种重要的特效,但传统的Alpha混合基本上无法完成对不同半透明物体以及同一物体不同半透明部分的层次判断,因此如果以Alpha操作来简单的实现半透明效果,很多时候获得结果都是错误的。所以在DirectX 11中,微软为我们引入了OIT(透明独立叠加)技术来解决这一问题。
OIT(透明独立叠加)
在实现OIT技术的过程中,程序会将处于同一层次的部件所对应的线程/任务以Atomic(原子操作)的形式保护起来,使这些线程在被执行结束之前变成一个不可再分的整体。接下来这些Atomic会被放置在buffer中进行处理优先级的排序,通过这些操作,物体及部件所在的层次和正确的显示效果就被最终确定下来了。如果构架拥有cache等可读写近存近取缓冲,则可以极大地加快OIT的乱序操作过程。因此对OIT的性能测试,将可以让我们了解构架是否具有足够的灵活度、充足的缓冲密度以及完整的Atomic特性支持能力
Radeon R9-290X通用计算性能测试之OIT
在OIT的测试中,Hawaii架构Cache密度的下降抵消了一部分架构改进所带来的提升。但我们还是应当看到Hawaii架构改进所带来的提升——天下没有免费的午餐,解决最重要的当务之急才是架构改进最正确的方向。
29架构通用计算测试之nBodyCS11
● 架构通用计算测试之nBody Gravity CS11
nBody Gravity的前身来自nBody仿真,nBody仿真的目的在于模拟一个多体系统的演化过程,该系统中的每个个体(Body)都会与周围的其他物体发生非接触力学吸引/排斥作用。通过nBody仿真,我们可以获得大量长程力作用的系统,比如小到范德华力作用下的原子/分子群或者大到万有引力作用下的星系之类各色场合的模拟结果。对于气流等稀薄流体的模拟同样可以归约成nBody仿真过程并予以解决。
nBody Gravity
nBody Gravity将场景设定为大量粒子在引力这一种基本长程力下高速运动作用形成的多体问题,尽管粒子间不考虑接触力学传递,但整体而言nBody Gravity模拟与我们前面进行的Fluid dynamics simulation测试一样,都需要大量应用到矩阵操作等大量常见的数学方法。在此基础上,由于长程力一次影响的对象远较流体模拟中弹性碰撞传递所能够影响的对象要多,其背后所对应的线程量非常庞大,因此nBody Gravity对于硬件构架的并行度有极高的要求。透过nBody Gravity的测试,我们可以了解到被测对象的吞吐能力、对基本条件分支的应对能力、并行处理能力以及对矩阵等常规数学方法的处理能力。这些能力,最终都将反映构架执行DirectX 11特性尤其是Compute Shader的效率。
Radeon R9-290X通用计算性能测试之nBody Gravity
AMD的驱动问题在通用计算测试的结尾再次显现。如果要想让Hawaii架构以及Radeon R9-290X的表现更令人满意,迅速改进驱动是当务之急。
30架构延伸测试——有效显存带宽
● 架构延伸测试——显存带宽
Hawaii最惊艳的改进来自显存控制器,这个所占资源大幅低于当前方案的新设计究竟有怎样的性能表现呢?为了获得相关答案,我们测试了Radeon R9-290X的显存copy性能。copy是材质处理过程中十分重要的操作,同时也是显存体系执行最多的操作之一,它的性能直接关系到GPU处理材质乃至整个图形过程的性能。
显存有效带宽与实际带宽对比
测试结果显示,Hawaii新设计的显存控制器为整个架构的前景做出了不小的“牺牲”。在对常规的64MB数据块进行copy操作时,Radeon R9-290X最终的实际copy带宽平均为211GB/S,这一数值为320GB/S理论带宽的65.9%。Hawaii架构的实际带宽有效率不仅低于GK110的81.4%和Tahiti的77.2%,绝对带宽数值也未能与后两者234.4GB/S以及203.9GB/S拉开差距。这样的显存性能在一定程度上稀释了其他架构改进,尤其是大规模放大后端所应该带来的高分辨率性能增长,同时也解释了Radeon R9-290X在不同游戏及设置当中表现出的截然不同的极限性能。当游戏侧重于像素输出而非大规模特效应用时,Radeon R9-290X才能表现出与其后端规模相称的性能提升。
当然,我们并不是在指责Hawaii所采用的显存控制器设计,正如我们前页当中所提到的那样——相对于Hawaii的现实状况,这一显存控制器设计是目前能够找到的最棒的方案。它以比现行方案少20%的资源实现了相近甚至更多的绝对带宽数值,同时帮助芯片完成了重要的瘦身和有效资源转移利用工作。AMD在Hawaii架构中所表现出的取舍的艺术,正是通过该显存控制器体现的。
用更少的晶体管实现了相当甚至更好的绝对性能,还有比这更好的选择么?
31功耗温度测试
● 功耗温度测试
在功耗及温度测试环节,我们继续采用Furmark满载的方式让显卡达到全负荷工作的方式,来收集Radeon R9-290X显卡的满载温度及平台功耗数据。
Radeon R9-290X平台待机功耗
高温及能耗问题再次出现并依旧困扰着Radeon R9-290X,但同时我们也应该感到欣慰——凭借众多架构革新以及正确的取舍权衡,Radeon R9-290X的功耗问题并没有在Tahiti的基础上进一步恶化,这是良好的开端。在今后的AMD架构当中,功耗问题将有机会得到进一步的缓解。
另外,新的PowerTune功能可以实现人为设定的低噪音环境,但该功能并不能从本质上解决Radeon R9-290X的噪音/温度/功耗矛盾。如果您希望使用该款显卡,额定功率500W以上的电源以及一个优秀的辅助散热环境都是必要的。
32测试总结——彰显取舍的艺术
● 测试总结——彰显取舍的艺术
首先,我们应当给予Hawaii架构热烈的掌声。在完全可以称得上艰难的环境中,AMD的研发人员依旧坚韧的维持并推进了对于逻辑结构的革新,并且在困难的处境中取舍并选择了最适合当前的逻辑结构设计方案。Hawaii的积极意义远比实际表现更为重要,其在并行度层面的提升、对后端的果断放大以及对显存控制器的大胆改造均称得上精彩,这些改进方向正确而且非常必要,不仅为Radeon R9-290X带来了直接的性能提升,更能惠及AMD后续的GPU架构。
Radeon R9-290X总览
略显尴尬但却又深感欣慰的是,我们曾经在HD8900的架构预测文章中畅想过“一个CU单元大幅调整,甩掉寄存器包袱并以由此换来的晶体管继续强化Texture以及缓冲部分,外围采Quad ACE进行4单元并行,最终性能功耗比能给人更多遐想空间”的终极版AMD新架构方案,当时的我们认为生存不是童话,AMD很难在当前的环境下做到上述这些改进,虽然没能完全得偿所望,但如今的Hawaii还是真实的实现了我们的相当一部分期待。它确实已经进入了我们所预期的“复数ACE单元控制的4单元并行,用节约出来的晶体管继续强化Texture以及缓冲部分”的正确状态,这正是我们对Hawaii架构给予高度评价的最重要原因。我们说过那是我们第一次在制作架构预测文章的过程中希望自己完全猜错了,而AMD则以自己的努力以及取舍的艺术回应了我们的期待。我们没有猜中结局,但我们并不遗憾,而且我们还更加“贪婪”的希望AMD能够在未来进行更为彻底和正确的架构改进。AMD能够为我们带来希望,同时能够延续这一希望并让GPU的架构之争变得更加精彩,这才是最重要的。
Hawaii架构的Radeon R9-290X是一块更加倾向于纯图形端的显卡,巨大的后端为其带来了极高的像素吞吐能力,这是该款显卡性能表现的源泉,让其具备了挑战超高分辨率游戏应用的能力。但对于特效设置而言,其显存控制器当前的设计方案会带来不小的有效吞吐带宽衰减问题,这抵消了一部分ROP放大所带来的提升,并影响了高分辨率及超高分辨率下高画质设置的性能表现。
整体而言,目前的Radeon R9-290X在默认驱动设置环境下的常规性能处于GeForce GTX Titan以及GeForce GTX 780之间,在一部分游戏的特定设置环境下甚至超过了GeForce GTX Titan。如果您可以接受驱动中AI设置对画质进行的默认调整,同时将UltraHD分辨率下中等特效设置定为游戏应用环境,Radeon R9-290X将会回馈给您比肩GeForce GTX Titan的表现。
未来的游戏世界终将属于4K分辨率,这一点是毋庸置疑的,作为4K游戏世界的敲门砖和试金石,Radeon R9-290X以更直接的图形能力交上了一份在实际环境下令人满意的答卷。它并不是最快的单芯显卡,同时也确实还不足以处理超高分辨率+超高特效设置的双重压迫,但对于现阶段的大部分支持4K分辨率的游戏而言,Radeon R9-290X无疑是理想的选择之一。
尽管Radeon R9-290X依旧没有摆脱D线的纠缠,其功耗和温度表现仍然无法令所有人满意,但诚如我们先前所分析的那样,Hawaii身上所表现出的取舍的艺术已经显现出了希望。相信在下一代的AMD GPU架构当中,这些问题都将得到更好地解决。
摆在Radeon R9-290X面前的最大的问题并不是竞争对手,而是AMD自身。与Hawaii相同,Tahiti/Pitcairn同样是革新相当精彩的架构,这一点从我们首测期间对架构的评价便可获知。但是,AMD在其上所采取的定价和市场运作策略最终影响了Tahiti/Pitcairn的推广普及。所以在Hawaii时代,我们更希望新产品能够获得更好的市场表现,同时也希望屏幕前的不少人能够拿出更为实际的行动来真正的支持AMD,这不仅能不负研发团队历经的艰辛,同时也将会为AMD未来的GPU架构研发提供有力的保障。
爱不是说出来的,如果您真的希望AMD的明天会更好,就请用键盘上的双手拥抱Radeon R9-290X吧。
33产品参数对比
HIS R9 290X Fan 4GB GDDR5和迪兰R9 290X 4G和蓝宝石R9 290X 4GB GDDR5和微星R9 290X 4GD5有什么区别
随着Radeon R9 280X等产品的发布,真一代真正的单芯旗舰Radeon R9 290X浮出水面。它基于最新的Hawaii核心,究竟性能如何?会有怎样的新功能?本首测将会为您带来全面的解析。
推荐经销商