1当一切成真之后
无论甜美还是浑噩,梦总是会醒来的。每当梦醒时分,重归现实的时候,梦中的种种会给你怎样的触动呢?你会不会因为现实与美梦的落差而被失落感掩埋呢?
毫无疑问,随着各种关于FuryX的信息和情报的不断释出,这个六月已经被染成了一片红色。拜纤短身材以及HBM显存等颠覆性技术的列装,再加上各种泄露消息中关于强悍性能的剪影,AMD的全新一代旗舰级架构Fiji尚未发布便被罩在了一片“扭转乾坤”的光环之下,整个显卡业界以及玩家群体也都表现出了已经许久未见的热忱度,A饭们更是梦想着FuryX显卡能够给AMD带来一场辉煌的胜利。
如今,FuryX已经实实在在的来到了我们的面前,并且接受了全面的性能测试,我们想说——是时候梦醒了。这款AMD的新时代旗舰虽然较之上代的Radeon R9-290X有了长足的性能提升,但却并未如先前坊间所传言的那样一战定江山。这种结果多少有些出人意料,但却又在情理之中。
想知道Fiji架构都带来了哪些重大改进么?想知道这些改进为AMD带来了多少性能变化么?想知道Radeon R9-FuryX的实际性能究竟如何么?想知道它为什么没有达到人们所期待的水平么?OK,让我们在接下来的首发测试当中一起寻找答案吧。
2跃然纸上的狂怒
跃然纸上的狂怒
作为Graphic Core Next的最新改型,Radeon R9-FuryX采用的Fiji架构拥有了AMD史上最为庞大的规模。它集成89亿晶体管,核心面积上升到了590平方毫米以上,这一数值虽然超越了AMD在DirectX 11时代所划D线(什么是D线? 它会导致怎样的问题?)上空间的上限(338+33.8平方毫米),但本身并不会构成严重的问题,因为Fiji架构本身肩负着重置AMD新一代D线的任务。Fiji的GPU芯片集成度,亦即单位面积的晶体管密度较之Hawaii又有了较大改变,基本上已经达到了28nm HKMG工艺的极限。
显 卡 对 位 产 品 规 格 比 较 表 | ||||
显卡型号 | Radeon R9-FuryX | GeForce GTX 980 Ti | GeForce GTX TITAN X | Radeon R9 290X |
首发限价 | 5099 元 | 4699 元 | 7999 元 | 4599 元 |
GPU代号 | Fiji | GM200 | GM200 | Hawaii |
GPU工艺 | 28nm | 28nm | 28nm | 28 nm |
GPU晶体管 | 89 亿 | 80 亿 | 80 亿 | 62亿 |
着色器数量 | 4096 | 2816 | 3072 | 2816 |
着色器组织 | Vector×4096 | 1D×2816 | 1D×3072 | Vector×2816 |
ROPs数量 | 64 | 96 | 96 | 64 |
纹理单元数量 | 256 | 176 | 192 | 176 |
核心频率 | 1050MHz | 1000MHz | 1000MHz | 1000MHz |
着色器频率 | 1050MHz | 1000MHz | 1126MHz | 1000MHz |
理论计算能力 | 8.6 TFLOPs | 5.6 TFLOPs | 6.1 TFLOPs | 5.6 TFLOPs |
等效内存频率 | 1000 MHz | 7010 MHz | 7010 MHz | 5000MHz |
内存位宽 | 4096 bit | 384 bit | 384 bit | 512 bit |
内存带宽 | 512 GB/s | 336.5 GB/s | 336.5 GB/s | 320 GB/s |
内存类型 | HBM | GDDR 5 | GDDR 5 | GDDR 5 |
内存容量 | 4096 MB | 6144 MB | 4096 MB | 4096 MB |
DX版本支持 | 12 | 12 | 12 | 11.2 |
注:市场售价均为官方首发限价
与Radeon R9-290X的Hawaii架构相比,Fiji架构的运算资源总量从2816个ALU大幅上升到了4096个,Texture Filter Unit由176个上升到了256个,构成后端的ROP则出人意料的维持在64个。Fiji拥有全新设计的MC结构,新MC直接对接4枚Logic Die所管理的HBM堆叠显存体系,总显存位宽4096bit,的显存容量为4096MB。
Radeon R9-FuryX
Radeon R9-FuryX的默认核心及显存运行频率为1050/1000MHz,理论性能参数十分夸张,其默认Pixel Fillrate能力达到了67.2Gpiexls/S,默认Texture Fillrate能力为268.8Gtexels/S,显存带宽达到了惊人512GB/S。凭借庞大的运算规模,Radeon R9-FuryX拥有接近9T Flops的超高单精度浮点运算能力。
Fiji架构芯片由以下主要的部分组成:
1、GPU部分依旧基于HKMG的TSMC 28nm工艺,与HBM显存的最终封测在海力士完成。
2、与Hawaii完全相同的宏观并行结构,64组CU单元被分为4个Shader Engines,每个Shader Engines包含16组CU。
3、与Shader Engines一一对应的4组Geometry Unit(几何处理单元)以及4组Rasterizer(光栅化单元)。
4、ACE异步计算单元的总量由GCN1.0的2组提升至8组,与Hawaii一致。
5、重设结构的显存体系,4枚Logic Die控制的4颗HBM显存颗粒以2.5D的形式封装在GPU核心周围,可以实现高达4096bit的显存位宽,可在1000MHz显存频率上实现512GB/S的理论位宽,并且大幅降低了显存体系的能耗进而明显降低了整卡功耗。
6、因显存体系改变而重设的PCB结构,传统的显存颗粒及布线占位均已消失,整卡尺寸因此更为短小。
相对于我们所熟悉的Hawaii,Fiji架构可以说是十分“亲切”的。它的core核心设计,亦即CU单元与Hawaii甚至Tahiti相差甚微,绝大部分uncore部分的结构也完全沿用了Hawaii的设计,两者甚至连宏观并行结构和缓冲体系都一模一样。Fiji与Hawaii之间除了CU总量和显存控制器之外,可以说并没有本质性的差异。这种结构趋同和单纯放大决定了FuryX的最终表现,也让我们的技术细节介绍变得更加简便了。
3Fiji最强利器——HBM显存解析
Fiji最强利器——HBM显存解析
与以往的显存形式不同,HBM显存的最大特点在于向“空间”要“空间”。前一个“空间”指的是立体空间,后一个“空间”则指存储空间。传统显存的存储模式以平面分布为基础,所有存储颗粒均分布于二维平面当中,除了使用更大容量的单颗颗粒之外,如果要拓展容量就只能占用更多的平面空间(在PCB上敷设更多颗粒并使用更长的连线)。HBM显存改变了这一传统,将颗粒集中在一起并向“上”进行了空间的延伸,在相同的“占地面积”下,HBM显存能够实现数倍于传统显存的存储容量。
堆叠内存
无论内存、显存或者SSD,甚至是手机/平板电脑的NAND,传统DRAM体系在提升容量时都会受到来自PCB面积的约束,互联线长/带宽以及通讯延迟也会随之增大。相对于传统内存,堆叠显存所做的改进在于将若干片DRAM颗粒垂直叠放在一起,这相当于使用同样的PCB面积布置了比过去多数倍的DRAM颗粒。不仅如此,因为楼房楼层的垂直距离短于平面延伸平房的距离,人与人之间的物理距离也比平房时缩短了许多,沟通更加便利且可以实现更大规模的并行化通讯。所以相对于传统内存,堆叠内存的联线、带宽以及延迟均拥有很大的优势。
HBM显存的出现带来了很多与过去截然不同的存储模式,它将更多颗粒布置在了更小的面积当中,这在提升容量和带宽的同时也导致了新的问题,那就是内存控制器所面临的管理层级和管理范围有了显著的变化。突然激增的内存颗粒和并行存储链路对内存控制器提出了极大的挑战,如果依旧采用传统结构,让全部内存颗粒都去对应单一且统一的内存控制器的话,GPU芯片可能要做到巴掌大。
拥有Logic Die的HBM内存(图片源自后藤弘茂blog)
为了解决这一问题,HBM显存在解决内存控制器瓶颈的过程中也引入了一级新的沟通机制,每一簇HBM显存颗粒的最底层都拥有独立的Logic Die,其上集成了能够管理整簇堆叠颗粒的芯片,这些芯片将与内存控制器直接沟通,可被用来收集堆叠颗粒当中的数据、并帮助内存控制器对其实施管理。在HBM显存体系当中,内存控制器的规模不仅不会放大,甚至还会出现一定程度的缩减,它只需要面向这些Logic Die当中的芯片即可,对每簇颗粒当中各层DRAM的管理将由Logic Die完成。
当然,HBM显存在获得超高带宽大并行存储的同时所付出的代价也同样明显而且深刻——随着集成度的上升,过去相对均匀分布在大面积PCB空间上的总热量,现在也随之而几乎完全集中在了GPU周围的核心区域。
热密度的提升带来了很多新的考验,尽管PCB的尺寸和设计难度都已经随着HBM的列装而大幅下降,但这种下降同时也导致了散热器尺寸和有效散热面积的下降。在此基础上,传统散热器上应付自如的,分布在更大面积的总热量现在几乎全部集中到了GPU核心的周围,散热器与热源的有效接触面积因此而大幅下降,吸热窗口的减少令如何快速将这部分热量分散转移并有效传递到散热鳍片中进而散逸出去就成了一个全新的课题。
整体而言,初期的HBM显存拥有超高带宽和大并行度存储能力,可以简化PCB设计并明显降低整卡总功耗,但也存在频率提升困难,容量上限较低,Logic Die管理复杂以及对驱动依赖较高等问题。这正反两方面因素,最终决定了FuryX的实际表现。
4线程的高速公路
线程的高速公路
除了HBM显存之外,Fiji最引人瞩目特点无疑来自对DirectX 12的支持。作为微软四年来首次更新的最新版图形API,DirectX 12早在发布前很久就已经为人们所“熟知”了,它解放CPU并大幅提升多核心利用率的新特性以及它与Mantle的是非恩怨一直都是媒体和爱好者中间津津乐道的话题。但是事实上,DirectX 12的改进远不止于此。
DirectX 12能够带来的优势
在以前的DirectX当中,图形处理相关的线程,无论是光照处理、显存操作请求或者物理过程等等,最终都要按照某个特定的顺序汇总排列并进入到GPU的任务处理队列当中,这种汇总方式让GPU的最终处理过程处于事实上的单线程状态。与以往的各个版本相比,DirectX 12进一步强调了多线程调度和GPU资源并行利用的权重。
在DirectX 12当中,微软允许程序将不同的处理过程分配成不同的独立线程,然后让GPU以并行的方式吞吐这些线程并加以处理。过去被统一到同一条道路上的光照处理、显存操作请求或者物理过程,现在可以分开到各自的轨道当中同时被执行了。
开启并行处理过程的好处是显而易见的,串行线程处理过程对于GPU单元复用率的提升有巨大的制约,因为图形线程不可能包含能够对应GPU内各个单元的全部操作,当某个线程被执行时,串行线程执行方式会让一部分甚至是大部分GPU单元处于“空转”状态,这种状态所产生的能耗完全是被浪费掉的,而且整个GPU的大量闲置也无法被转化成更快的帧数。所以在DirectX 12时代,我们有理由相信能够利用多线程并行处理特性的GPU可以以更高的效率来完成渲染动作。
在FuryX当中,Fiji架构所基于的GCN架构已经完成了利用并行线程特性的设计。在之前发布的Hawaii架构当中,AMD做出了对GCN架构的前端设计调整,通过8组ACE并行结构的设计,GCN架构已经具备了很好的划分线程并完成并行吞吐的能力。只要API允许,同样基于GCN架构的FuryX就能以并行操作来让线程充塞整个GPU,提升单元复用率进而提高实际执行效率和整个GPU的能耗比属性。
5更多新特性
更多新特性
更新的API以及更高的执行效率可以让游戏制作者更大胆的使用特效,这固然是游戏体验提升的保障,但长久以来围绕常规2D平面呈现模式来营造视觉特效的手法已经很难在短时间内大幅提升或者改变游戏者的游戏感受了。针对这种现象,AMD为Fiji准备了不一样的技术来进行应对,那就是LiquidVR。
AMD的VR解决方案——LiquidVR
LiquidVR是AMD全新推出的基于沉浸式体验原理的VR立体显示技术,它的目标有三个:舒适性、兼容性,以及精彩内容。根据AMD官方资料显示,LiquidVR技术包含数据锁定(Latest data latch)、异步着色引擎(Asynchronous shaders)、多GPU异步渲染(Affinity Multi-GPU)等全新功能,可以以更低的延迟来实现更优质的画面,让存在感更加逼真。
LiquidVR在易用性层面的表现相当出色,在兼容性方面,LiquidVR可以让画面直接输出,即插即用,用户不用担心桌面设置等无关元素干扰使用。而呈现内容方面,LiquidVR让反馈更加迅捷,帧速率更高,为使用者带来更好的使用体验。
在经历了3D立体显示等一系列摸索之后,VR虚拟现实正在成为行业的一个全新热门方向,其应用领域相对而言非常广阔,包括教育、医疗、大数据视觉化、训练、虚拟社交以及游戏娱乐的体验都将会因此而发生颠覆。AMD在不久前推出了LiquidVR SDK,可以帮助程序员更好地进行游戏开发。随着Fiji及其他AMD新一代图形架构的列装,LiquidVR将会成为AMD为用户提供全新视觉体验的理想平台。
在Fiji架构当中,AMD还加入了对FreeSync技术的支持,该项技术与NVIDIA先前发布的G-Sync技术相似。通过让显示器直接与Fiji显卡进行通讯并与GPU outputbuffer之间的数据同步,FreeSync显示器的刷新延迟将可以与GPU帧输出延迟保持完全一致,从而避免帧速率过高且与显示器刷新率不同步是所导致的画面撕裂问题。此外,支持FreeSync技术的显示器会根据GPU当前的性能水平自动调节刷新率,在侦测到GPU的帧输出延迟大于16ms时,它便会自动延长显示器的刷新延迟,避免传统的帧丢弃问题所导致的视觉卡顿现象。
FreeSync是一个开放标准,它已经被视频电子标准协会所接纳,不但能够为玩家解决画面撕裂问题,而且并没有专门的硬件依赖及需求,同时不需要许可费用,显示器厂商可以根据这个标准来设计产品,消费者不会为FreeSync给出额外的开销。
在AMD现有的产品序列当中,不仅只有Fiji架构支持FreeSync,上一代的Hawaii架构产品也都可以提供对该项技术的支持。AMD希望通过FreeSync给游戏玩家创造更容易获得的优质画面体验,和其他标准相比,它进入市场的时间可能会长一些,但一旦进入市场,其免费且无其他硬件需求的特性会使其被接纳的速度大大加快。目前已有数款分别来自华硕、LG、宏碁、三星等厂商的支持FreeSync技术的显示器准备问世,它们拥有各自的分辨率、动态刷新率以及屏幕比例,可以为不同需求用户提供选择。
6测试软件平台环境一览
测试软件平台环境一览
为保证测试能够发挥显卡的最佳性能,本次测试平台由Intel酷睿i7-3970X处理器、超频3黄海至尊版风冷散热器、技嘉X79芯片组主板、威刚4GB DDR3-1600×4四通道内存、ANTEC HCP-1300电源组建而成。详细硬件规格如下表所示:
测 试 平 台 硬 件 环 境 | ||||
中央处理器 | Intel Core i7-3970X | |||
(6核 / 12线程 / 3.5GHz / 15MB L3) | ||||
散热器 | ANTEC H600 | |||
(水冷散热器 / 选配件) | ||||
内存模组 | ADATA XPG DDR3-1600 4GB × 4 | |||
(SPD:9-9-9-24-1T) | ||||
主板 | GIGABYTE GA-X79-UD7 | |||
(Intel X79 Chipset) | ||||
硬盘 | 影驰战将系列240GB | |||
(240GB / SSD / 64MB缓存 / SATA3) | ||||
电源 | 安钛克 HCP-1300 Platinum | |||
(80Plus Platinum / 1300W) | ||||
显示器 | ASUS PB287Q | |||
(28英寸LCD / 3840×2160分辨率) |
测试平台软件环境一览
为保证系统平台具有最佳稳定性,本次产品测试所使用的操作系统为Microsoft Windows 8.1正版授权产品,除关闭自动休眠外,其余设置均保持默认,详细软件环境如下表所示。
测 试 平 台 软 件 环 境 | ||||
操作系统 | Microsoft Windows 8.1 专业版 | |||
(64bit / 版本号:9600) | ||||
主板芯片组驱动 | Intel Chipset Device Software | |||
(WHQL / 版本号:9.2.3.1022) | ||||
AMD Catalyst/NVIDIA GeForce GTX | ||||
(版本号:15.15/353.30) | ||||
桌面环境 | Microsoft Windows 8.1 专业版 | |||
(3840×2160 / 32bit / 60Hz) |
在测试成绩方面,理论性能测试用得分来衡量性能,数值越高越好;游戏性能测试用游戏自带Benchmark来衡量性能,数值同样越高越好。
7跑分是显卡的一部分
跑分是显卡的一部分
由于FuryX在当前的15.15驱动环境下无法在3Dmark 11测试当中取得一个看上去正常的成绩,因此我们不得不在本次首测当中放弃3Dmark 11的测试,取代它成为理论测试项目的是Ultra设置的3Dmark FireStrike,我们正好可以以该项设置来收集FuryX以及其他参测显卡在4K分辨率下的理论性能。
于北京时间2013年2月5日推出的新3DMark,采用全新界面设计,除了测试分数,还会展现每个场景测试期间的实时曲线,全程记录帧率、CPU温度、GPU温度、CPU功耗。新3DMark取消了传统的E、P、X模式,取而代之的是根据负载不同所推出的三个场景,其中FireStrike专为基于DirectX 11显卡搭建的高端游戏平台,而CloudGate则支持基于DirectX 10环境的主流硬件,IceStorm则支持入门级DirectX 9设备、手机、平板电脑等等。
3DMark FireStrike
无论是Extreme还是Ultra,FuryX表现出的性能都明显领先上一代的R9-290X,但仍旧落后于竞争对手的GeForce GTX 980Ti以及Titan X。值得注意的是在4K分辨率的Ultra设置下,FuryX与GeForce GTX 980Ti的性能差距有了明显的缩小,两者的最终成绩基本相当。
8FuryX适合骨灰级FPS游戏么?
FuryX适合骨灰级FPS游戏么?
《孤岛危机3》是《孤岛危机》的最新续作,游戏采CryENGINE 3引擎所制作,其卓越的画面表现以及精彩的剧情相信已无需多言。作为硬件杀手的第三代,只支持DirectX 11的Crysis3 PC版再次将游戏的画面精美程度和硬件需求提升到了新的高度。
Crysis3
《Metro LastLight》基于俄罗斯最畅销小说Dmitry Glukhovsky,依旧由乌克兰4A游戏工作室开发并采用改进后的4A游戏引擎。最后的曙光讲述了一场为争夺足以毁灭人类的世界末日装置的内战。人类依旧苟活在地下等死。不同派系之间的战争还在继续,晚上依旧有各种变异生物潜伏在暗处。地面依旧是各种毒气,但有传言冰层开始融化,阳光开始穿透云层。
在Crysis3以及Metro:LL这两款骨灰级FPS游戏当中,FuryX的性能表现较之R9-290X提升明显,它现在已经可以应对2K分辨率下单机剧情模式的Crysis3以及4K分辨率下Metro:LL单机模式的流畅需求了。
9那么RPG游戏的表现又如何呢?
那么RPG游戏的表现又如何呢?
《GTA》系列被很多的玩家称为神作,《GTA5》当然也不例外,不论从游戏本身的设定还是从视听效果上来讲这款游戏都是相当不错的,不过想要有好的游戏体验的话对于玩家来说不光是要购买正版的游戏,同时也需要一台性能强劲的电脑,众所周知目前的游戏已经越来越依赖于显卡的性能,搭配最新图形技术的本作无疑是称职的硬件杀手。如果您有一款强大的骨灰级显卡,GTA自由的世界将会给您带来最畅快真实的体验。
GTA5
《巫师3:狂猎》采用Redengine3引擎,作为一款次世代的RPG游戏作品,本作栩栩如生的真实环境还原以及全新角色面部动作和人物面部表情都成为了一大亮点。Redengine3引擎在支持各种全新图形技术的同时也加快了地图载入速度,经由无缝地图打造的宏大世界让玩家可以自由无限制的漫游在游戏世界当中。
GTA5和巫师3对于显卡的整体压力相当高,FuryX在这两款游戏当中基本上达到了流畅游戏所需的性能,即便是巫师3的4K分辨率的平均帧数也超过了30帧,不过在GTA5当中则出现了爆显存的问题,玩家需要适当降低分辨率设置。
10动作冒险类游戏也能应付?
动作冒险类游戏也能应付?
《蝙蝠侠:起源》是《蝙蝠侠:阿甘之城》的续作,如果玩家们比较熟悉该系列的上一作《蝙蝠侠:阿甘之城》,那么就能够在这款最新的游戏作品中迅速上手。连贯的攻击动作,连击、反击系统,攀爬、滑翔等动作与上一作的设定十分类似。本作的图形品质较之前作有了进一步的提升,同时还支持4K分辨率超高清游戏设置。
蝙蝠侠:起源
《古墓丽影9》将讲述劳拉的首次冒险之旅,主角劳拉·克劳馥的年龄被设定在21岁,那时的她还只是一名刚出茅庐的新人,经验欠缺。随着游戏剧情的发展,玩家将与劳拉共同成长,获得新的武器和道具并习得新技能。在冒险的小岛上,玩家可以在营地对道具进行组合,有些特定区域就需要特定道具和技能才能通过。岛上的各个营地之间可以快捷传送,玩家无需长途跋涉。而除了劳拉外还将有其他角色出现在岛上。
以测试结果来看,FuryX在带有激烈动作元素的RPG/ARPG类游戏当中的表现还是值得肯定的,即便是4K分辨率all max设置下,这款AMD新旗舰都能以单卡提供超过30帧的流畅体验。
11“为什么不测些网游?”
“为什么不测些网游?”
既然总有人这样抱怨我们的首发测试以及各种单品测试,我们就在本次FuryX的首测顺应群众们的期望吧。《德拉诺之王》是魔兽世界最新的6.0版本资料片,该版本将剧情跳转到了平行世界的德拉诺大陆。除了全新的要塞系统以及100级等级之外,该版本再次升级了图形引擎,再引入全新图形技术的同时进一步提升了魔兽世界的整体图形质量。
魔兽世界:德拉诺之王
以测试结果而言,FuryX在魔兽世界当中的问题还是比较明显的,我们认为这种性能表现源自驱动程序的不成熟。随着后续驱动的优化和跟进,FuryX在这款游戏当中的表现应该还会有进一步的提升。
12我到底要什么机箱和电源才能带动它?
我到底要什么机箱和电源才能带动它?
在满载温度及功耗测试环节,我们采用Furmark以及3Dmark FireStrike Extreme来收集显卡的满载温度及功耗数据。
采用水冷解决方案的Fury表现出了典型的液冷温度曲线,尽管温度始终在缓慢提升,但8分钟满载之后仅为62度的温度表现还是能够令我们感到满意的。而在3Dmark FireStrike Extreme测试当中,FuryX的全平台满载功耗同样维持了不算很高的水平,列装HBM显存所带来的能耗优势在这里表现的相当明显。
我们认为一台额定功率550~600W以上的金牌/白金电源就可以很好地应对FuryX的要求,这方面不会给玩家造成太大的困扰,但在机箱的选择上FuryX有自己独特的需求。由于使用了水冷解决方案,传统的机箱结构很难让FuryX顺利安装冷排并完成散热,我们建议购买这款显卡的玩家尽可能采用大尺寸且背板上具备多个散热窗口的机箱解决方案。
13FuryX不得不说的结论
FuryX不得不说的结论
关于FuryX的性能及特性测试到这里应该可以告一段落了,尽管我们还会在后续为诸位奉上更为深入的架构延伸测试,但那些细节已经不再属于今天的故事了。与其他测试不同,我们所追求的不仅仅是单纯的性能结果呈现,明白究竟是什么因素导致了FuryX当前的性能状态同样是我们关注的焦点。
Radeon R9-FuryX
Fiji架构的实际状态可以用“新RV870”来形容,甚至在某些方面还没有完全做到——RV870启用了全新工艺来压制核心面积以及功耗并以此提升整个架构的能耗比,而且应DirectX 11的需求引入了包括GDS在内的一系列全新缓冲体系(尽管这些缓冲体系在当时极不成熟,并且一直延续到Tahiti才最终达到了比较理想的状态),这一系列举措配合先发9个月的时间优势让AMD获得了明确的口碑和市场优势,并且在相当长一段时间内掩盖了其所导致的战略性失误,但这些要素在Fiji身上并没有出现。Fiji架构没有进行细节层面的改进,它保持了与Hawaii架构的高度一致,除了规模和MC结构之外两者几乎没有任何决定性的差异,称其为“Hawaii Extreme HBM Edition”也许更为合适。
AMD遗憾的未能善用HBM显存体系所带来的各种机会,它在Fiji架构当中所做的选择相当简单,仅仅只是在Hawaii架构当中又塞入了45%的CU单元,并没有考虑(或者是“不得不阻止自己去考虑”)整个架构的平衡性,对宏观并行度、前端与后端匹配情况以及缓冲体系耐受情况也考虑不足。这样一味地为架构增肥,没有利用HBM列装导致MC结构整体巨变所带来的资源状态变化来对逻辑结构进行调整和修正,本质上是非常可惜的浪费——要知道Hawaii架构被我们形容为“取舍的艺术”恰恰正是因为活用了这一点,Hawaii就是利用MC结构改变所带来的资源余量对整体结构进行了调整,才获得了优于Tahiti的效率。
有Hawaii架构成功的先例,AMD却在HBM显存列装以及DirectX 12 API这两个绝好的调整点上选择了甚至不如RV870的单纯放大,这无疑是一种倒退。细数历次AMD的架构演进过程就可以很容易的发现,只有利用一切机会尽可能的修补RV870所遗留的节奏性错误才是正确的选择,Tahiti和Hawaii之所以广受好评并且表现优异盖因如此。没有做到这种改进的Fiji,自然会因为架构增肥而收获必然的结果,那就是实际性能无法虽理论增长而线性提升。正是这种性能无法线性增长的现状,再加上相比于硕大的运算资源而言显得十分弱小的后端(如官方数据无误则仅为64ROP,这种后端规模小的令我们倍感困惑,它严重削弱了FuryX显卡在面对高分辨率高AA高AF场合时的抗压能力,几乎彻底浪费了HBM显存带来的超大带宽,直接导致Fiji架构处在“头重脚轻”的不利境地),各种因素汇总在一起直接导致了Fiji在后发、水冷、列装HBM同时决意不顾能耗上限的前提下仍旧无法在对GM200的竞争中取得优势。
另外,第一代HBM显存在FuryX当中同样扮演了双刃剑的角色,它大幅提升了显存带宽,降低了显存到核心的互联线长以及延迟,为AMD简化和优化PCB设计奠定了基础,但同时也导致了激增的热密度、更低的良率、更高的驱动编写难度以及相对窘迫的显存空间上限。
显存带宽对GPU性能的提升一直都是一个充分非必要条件,只有当GPU的处理能力提出了更高的数据缓冲需求,或者说只有当显存带宽成为瓶颈之后,大幅提升显存带宽才会取得理想的效果,但现在Fiji的瓶颈在GPU逻辑结构设计而非显存带宽。再加上AMD并没有处理好GPU与新显存体系之间的关系,同时也没有利用HBM显存列装造就的可以调整核心逻辑结构设计的契机,所以除了更好的集成度、更理想的全卡能耗状态以及简化的PCB设计之外,HBM显存并没有给FuryX带来更多有效的实惠,却给高显存消耗类应用留下了隐患。
最后,驱动的不成熟也在相当程度上影响了FuryX的表现。HBM显存带来的全新的显存操作模式以及较低显存空间所带来的压力明显影响了驱动编写团队的工作,正式支持FuryX显卡的催化剂15.15状态很难令人满意。在很多“并不是那么老的经典游戏”当中,FuryX的表现甚至经常会滑落到R9-290X以下的水平。我们在本次测试当中启用全新的游戏测试体系,甚至没有将3Dmark 11纳入到理论测试当中,有相当一部分原因就是FuryX在其中的优化明显失当,这令我们不得不花大力气去寻找那些表现正常同时又能在不同应用场合客观全面的反映FuryX显卡性能全貌的测试项目。随着未来驱动的进一步优化,FuryX的表现还将会有提升,但这是一场与时间以及竞争对手一起进行的赛跑,它对AMD目前的驱动团队而言无疑是不小的考验。
FuryX究竟带给了我们怎样的启示呢?归根结底,这又是一个关键时机上做出不理想选择的生动例子。AMD既没有在其上完成架构设计的调整,也没有给自己的DirectX 12时代开一个好头,而且浪费了HBM显存列装带来的各种好处和机会。可能唯一解决的问题,就是在当前给AMD新一代的D线留下了不错的发挥空间。它所反映出的问题依旧是过去AMD一直面临的问题,这些问题困扰了AMD多年,我们也一遍又一遍的反复予以解析并希望以此来提醒AMD,但一切依旧没有任何改变。
当然,这里还有一个无法被忽视的要素,那就是之前在粉丝和相当一部分媒体当中弥散的那股明显的不理智情绪。和实际的测试结果相比,先前的大量关于强悍性能的期望以及各种逆天的坊间流传信息毫无疑问都是别有用心的人fake出来的,无论他们出于何种目的,是美好而殷切的期望也好,是为搏出位吸引眼球而杜撰也好,甚至是为了捧杀也罢,总之这些所谓的坊间泄露成绩在相当程度上加重了Fiji以及期待Fiji的玩家所受到的伤害。这个世界的设定很现实,跟各种电击文库类轻小说当中的世界完全不同,支配这个世界的不是YY而是严谨而且冰冷的物理定律。我们的生活也不是凡人修真或者别的什么玄幻故事,臆造和梦想无法以反物理的形式被转化成现实的。如果我们从第一秒起就放平心态,以一个理智而且更加正确的期望值来迎接AMD的新架构,也许现在FuryX的表现就可以以另一种不同的角度来进行解读了。
可惜很遗憾,发生过的事不容假设。
也许非公版的Radeon R9-FuryX可以给我们带来惊喜吧
梦醒了,现实已经铺陈在了我们的面前。不论你是不是AMD的拥趸,不论你先前如何看待Fiji架构以及FuryX显卡,它都已经实实在在的到来了。尽管它的故事曲折悠长,但还是在结尾处展露出了自己的真实面貌——在性能和效率层面,FuryX的对手都是GeForce GTX 980Ti,它尚不足以在all max游戏设置下冲击Titan X,任何分辨率下均是如此,而在于GeForce GTX 980Ti的对决当中,起码目前的驱动并不能保证FuryX的胜利。当然,如果你能接受各种包含了low或者med选项、需要权衡并丢弃掉相当一部分特效的复杂游戏设置状态的话,FuryX确实可以在一部分场合取得优势。在功耗表现层面,FuryX在使用HBM显存的前提下扭转了长期以来被对手压制的局面,这也给非公版的FuryX带来了更多值得期待的要素。至于接下来要做的选择,就由屏幕前的诸位自行决定了。
推荐经销商