1DirectX11的战列巡洋舰
战列巡洋舰(Battle Cruiser)是一种流行于20世纪前期的大型战舰。它是在装甲巡洋舰(Armored Cruiser)的基础上演变而来的功能性很强的新型战舰,可以看作一种装甲删减以换取机动性的战列舰。主炮口径大小和威力方面战列巡洋舰可以与战列舰媲美,但防护装甲比战列舰薄。装甲方面节省下来的重量被用在更强大的驱动装置上,这为战列巡洋舰提供了更高的速度。
——引自维基百科
2012年1月31日,AMD在旗舰级的HD7970发布一个月之后全球发布了南方群岛系列的次级旗舰产品——HD7950。HD7950与HD7970一样基于Tahiti构架,包含28nm制造工艺、DirectX 11.1以及PCI-express3.0等诸多先进技术,是目前AMD全新HD7000产品线中第二高位的显卡产品。
与HD7970相比,HD7950削减了CU单元的总规模,同时降低了默认运行频率,这成了它与HD7970惟一的区别。除了频率和规模,HD7950保留了Tahiti构架完整的ACE引擎以及后端的显存和ROP部分,在特性支持等方面也与HD7970并无二致。
如果说一支原教旨海军舰队中的旗舰通常由战列舰来担任的话,HD7970就是AMD DirectX 11末代舰队中的战列舰,而HD7950则是这个舰队中的战列巡洋舰。究竟是哪些特性让HD7950拥有了战列巡洋舰的素质呢?在接下来的测试中,我们将会为您揭晓答案。
2HD7950特性总览
● HD7950特性总览
HD7950与HD7970一样基于全新的GCN图形构架,拥有超过43亿的晶体管规模。尽管存在删减,但与上代的Cayman构架相比,其运算资源总量仍然提升到了1792个ALU,Texture Fetch Load/Store Unit则提升至恐怖的512个,Texture Filter Unit由Cayman的96个增加到了112个,构成后端的ROP则与Cayman及HD7970维持相同,均为32个。HD7950同HD7970一样拥有完整的全新设计的MC结构,6个64bit双通道显存控制器组合形成了全新的384bit显存控制单元,HD7950也因此获得了容量达3072MB且单位带宽与HD7970相同的显存体系。
HD 7950 显 卡 对 位 产 品 规 格 比 较 表 | ||||||
显卡型号 | Radeon HD 7950 |
Radeon HD 7970 |
Radeon HD 6970 | Radeon HD 6950 | GeForce GTX 580 | GeForce GTX 570 |
市场定价 | 3399元 | 4299 元 | 2999 | 2499 | 3999 元 | 2999 元 |
GPU代号 | Tahiti | Tahiti | Cayman | Cayman | GF110 | GF110 |
GPU工艺 | 28 nm | 28 nm | 40 nm | 40 nm | 40 nm | 40 nm |
GPU晶体管 | 43 亿 | 43 亿 | 26.7 亿 | 26.7 亿 | 30 亿 | 30 亿 |
着色器数量 | 1792 | 2048 | 1536 | 1408 | 512 | 480 |
着色器组织 | Vector*1792 | Vector*2048 | 4D*384 | 4D*352 | 1D *512 | 1D *480 |
ROPs数量 | 32 | 32 | 32 | 32 | 48 | 40 |
纹理单元数量 | 112 | 128 | 96 | 96 | 64 | 60 |
核心频率 | 800 MHz | 925 MHz | 880 MHz | 800 MHz | 772 MHz | 732 MHz |
着色器频率 | 800 MHz | 925 MHz | 880 MHz | 800 MHz | 1544 MHz | 1464 MHz |
理论计算能力 | 2.87 TFLOPs | 3.79 TFLOPs |
2.7 TFLOPs |
2.25 TFLOPs | 2.37 TFLOPs |
2.11 TFLOPs |
等效内存频率 | 5000 MHz | 5500 MHz | 5500 MHz | 5000 MHz | 4008 MHz | 3800 MHz |
内存位宽 | 384 bit | 384 bit | 256 bit | 256 bit | 384 bit | 320 bit |
内存带宽 | 240 GB/S | 264 GB/s | 176 GB/s | 152 GB/s | 192 GB/s | 152 GB/s |
内存类型 | GDDR5 | GDDR5 | GDDR5 | GDDR5 | GDDR5 | GDDR5 |
内存容量 | 3072 MB | 3072 MB | 2048 MB | 2048 MB | 1536 MB | 1280 MB |
DX版本支持 | 11.1 | 11.1 | 11 | 11 | 11 | 11 |
HD视频技术 | UVD3.0 VCE |
UVD3.0 VCE |
UVD3 | UVD3 | PureVideo HD | PureVideo HD |
通用计算接口 | Stream | Stream | Stream | Stream | CUDA | CUDA |
HD7950的默认核心及显存运行频率为800/5000MHz,低于HD7970的925/5500MHz。默认Pixel Fillrate能力为25.6G/S,默认Texture Fillrate能力为89.6GT/S。显存带宽240GB/S。拥有2.87T的单精度浮点运算能力以及717.5G的IEEE双精度浮点运算能力。HD7950也拥有完整的DRAM及SRAM ECC 保护,支持 Open CL 1.2、DirectX 11.1以及C++ AMP,与HD7970并无二致。其他关于Tahiti构架的更多细节,我们已经在Tahiti构架深度解析以及HD7970的首测文章中进行了详细的介绍,在此不再重复,有兴趣的朋友可以点击上面的超链接翻阅相关文章。
HD7950规格总览
HD7950拥有更好的功耗表现
由于功能单元的削减以及更低的默认运行频率,HD7950拥有了更好的功耗表现,这种低频以及单元削减对性能造成的影响,我们将在后续的性能测试以及构架底层延展测试中为你一一解析。
3送测样卡展示-讯景
● 送测样卡展示-讯景
首发的HD7950产品有一个共同的特点,那就是PCB方案沿用了公版设计的同时对散热系统进行了自主的改进。接下来我们就以讯景FX-795A-TDB为例,来看看HD7950的PCB设计特色吧。
讯景FX-795A-TDB显卡
讯景FX-795A-TDB PCB正面
讯景FX-795A-TDB PCB背面
由于定位问题,HD7950并未采用HD7970相同的先进供电设计,但6+1相的公版供电模块依旧可以充分保证整卡的高频稳定运行。这种设计让讯景FX-795A-TDB拥有了高达900/5500MHz的默认运行频率。
HD7950核心
海力士T2C显存颗粒
讯景FX-795A-TDB供电部分整体布局
讯景FX-795A-TDB元件细节
虽然整个PCB看上去删节不少,甚至很多地方还有下层裸露的情况发生,但这些都源自核心相对较小的规模。HD7950的整体设计趋向于成本最佳化以及可制造性的改进方面,这些特色无不反映到了PCB当中。就好像战列巡洋舰的特色那样,虽然牺牲了一定的防御力,但却换来了很好的机动性以及火力。
讯景FX-795A-TDB PCB编号
CF接口以及原有的BIOS切换开关位置
值得注意的是,HD7950公版去掉了上代Cayman以及本代HD7970均有采用的双BIOS切换功能,这不能不说是一个遗憾。
4送测样卡展示-迪兰
● 送测样卡展示-迪兰
迪兰HD7950酷能+3G
迪兰HD7950酷能+3G附件
迪兰HD7950酷能+3G散热器正面
迪兰HD7950酷能+3G散热细节
迪兰HD7950酷能+3G供电模块
迪兰HD7950酷能+3G输出接口
迪兰HD7950酷能+3G交火桥
5送测样卡展示-HIS
● 送测样卡展示-HIS
HIS 7950 Fan 3G显卡
6其他HD7950产品展示
● 其他HD7950产品展示
华硕HD7950
7测试平台及测试项目简介
● 测试平台及测试项目简介
性能测试使用的硬件平台由Intel Core i7-3960X、X79 Chipset和4GB*4四通道DDR3-1600内存构成。细节及软件 环境设定见下表:
测 试 平 台 硬 件 | |
中央处理器 | |
Intel Core i7-3960X | |
(6核 / 12线程 / 100MHz*33 / 15MB L3 Cache ) | |
散热器 | |
Intel RTS2011LC | |
(原厂水冷散热器 / 选配件 ) | |
内存模组 | |
Samsung 黑武士 DDR3-1600 4GB | |
(SPD:9-9-9-24-1T) | |
主板 | |
MSI BigBang XPowerII | |
(Intel X79 Chipset) | |
硬盘 | |
Seagate 1T | |
(1TB / 7200RPM / 32M 80GB NTFS | |
电源供应器 | |
NERMAX 白金冰核 1500W | |
(CSCI Platinum 80Plus / 1500W) | |
显示器 | |
DELL UltraSharp 3008WFP | |
(30英寸LCD / 2560*1600分辨率) |
为保证系统平台具有最佳的稳定性,此次硬件评测中所使用的操作系统均为Microsoft Windows 7 正版授权产品。使用Windows 7正版软件能够获得最好的兼容性以及系统升级更新服务。
用户在体验或购买安装Windows 7的操作系统时请认准所装系统是否已经获得正版授权许可!未经授权的非正版软件将无法获得包括更新等功能在内的Windows 7服务。
操 作 系 统 及 驱 动
操作系统
Microsoft Windows 7
Ultimate RTM SP1
(64bit / 版本号7601)
主板芯片组驱动
Intel Chipset Device Software
for Win7
(WHQL / 版本号 9.2.3.1022)
AMD 显卡驱动
AMD Catalsyt
(Beta / 版本号 8.921.2.0000)
NVIDIA 显卡驱动
NVIDIA Forceware
(WHQL / 版本号 285.62)
2560*1600_32bit 60Hz
各类合成测试软件和直接测速软件都用得分来衡量性能,数值越高越好,以时间计算的几款测试软件则是用时越少越好。由于是芯片级首测,因此我们将所有参测显卡的频率统一调节成了公版频率。
8理论性能测试:3DMark Series
● 理论性能测试:3DMark Series
3DmarkVantage及3Dmark11是Futuremark推出的显卡3D性能测试,两款软件分别针对DirectX 10及DirectX 11显卡。测试成绩主要由显卡测试和CPU测试两部分总和构成,整个测试软件更加偏重整机性能。
在理论性能测试中,HD7950分别在3Dmark Vantage和3Dmark 11中达到了HD7970性能的81.8%和83.5%,这种表现基本上与两者之间规模与频率的综合差距相当。
作为旗舰级别的显卡,对比P模式的意义并不是很大,因此我们只给出HD7950的3Dmark Vantage以及3Dmark 11的P模式成绩,供有需要的读者进行参考。
9DirectX 9.0C游戏测试:CWOW-CTM
● DirectX 9.0C游戏测试:CWOW-CTM
《魔兽世界》(World of Warcraft)是暴雪娱乐(Blizzard Entertainment)所制作的一款大型多人在线角色扮演游戏(MMORPG),于2004年年中在北美公开测试。《魔兽世界》虽然目前支持DirectX 11 API,但其引擎的基础源自更为老旧的DirectX 9.0C。尽管API较为老旧,但暴雪凭借精湛的美工进行了充分的弥补。
我们采用的测试方法是新建一名人类角色,然后在周末游戏高峰期进入服务器并完成自暴风城正门广场至北郡修道院的48秒flybot过程,该过程中包含建筑及自然环境刻画、光线、大量植被、大量人员及魔法效果等效果。
魔兽世界对GPU的材质处理能力,尤其是Alpha贴图的要求是非常高的,这一点在开启阴影平滑之后尤为明显。HD7950在测试中取得了流畅的成绩,足以应付这样一款老旧但却依旧精美的MMO-RPG。
10DirectX 10游戏测试:Crysis
● DirectX 10游戏测试:Crysis
多次跳票、万众期待的DirectX 10游戏大作Crysis,把目前PC 3D娱乐的视觉体验发挥到极致的游戏,大量使用DirectX 10的硬件功能,对显卡的负载也提升至空前水平。
我们使用游戏自带的CryEngine Benchmark来完成自动测试,测试持续三次,最终成绩取三次平均值。
我们曾经多次提到过,孤岛危机与其说是一款游戏倒不如说是一件艺术品。无论是沉重的shader吞吐负荷还是每屏幕最多200万的多边形负担,孤岛危机从任何层面来讲都属于精雕细琢之作。因此,能够在1920分辨率上征服CryEngine Benchmark测试的HD7950,其游戏性能还是值得称道的。
11DirectX 10游戏测试:Farcry 2
● DirectX 10游戏测试:Farcry 2
《孤岛惊魂2》拥有超高自由度的游戏系统,整个游戏世界面积达到50平方公里,玩家可以自由在其中驰骋,而游戏的结局也是开放的。《孤岛惊魂2》的PC版在2009年内上市,而Xbox 360和PS3版将随后推出。
我们使用游戏自带Benchmark来完成自动测试,测试持续三次,最终成绩取三次平均值。
Farcry2对于显卡的性能需求较为平均,在该项测试中,HD7950表现出的性能并不十分理想。
12DirectX 11游戏测试:BattleField 3
● DirectX 11游戏测试:BattleField 3
战地3是DICE于今年10月底推出的战地系列全新力作,其所采用的寒霜2引擎具备诸多先进的DirectX 11特性,拥有完美光照系统带来的单反照片级图形质量,其完美的多人配合游戏部分也得到了广泛的认可和赞誉。
我们采用游戏第二个任务——碎剑者行动的开始部分作为测试场景,通过fraps软件记录游戏FPS数据,测试时间设置为240秒,此时长为任务开始至剧情发展到第一名队友被狙击手击倒并被我们拖入掩体为止。该段游戏过程包含大量的市内外场景切换,狭窄和开阔地形,激烈交战以及出现在其中的复杂光照系统表现。
寒霜2引擎的战地3相当完美的契合了DirectX 11游戏的技术发展方向,该款游戏可以全面的考量显卡的DirectX 11游戏性能。HD7950继承了Tahiti构架优秀的衣钵,在该款游戏中较之上代的Cayman构架有了明显的进步。
13DirectX 11游戏测试:Call of Duty MW3
由动视暴雪于今年11月初发布的使命召唤:现代战争3延续了前作的诸多特色,其完美的剧情创造了良好的代入感。图形引擎方面则沿用和改进了已经服役两年的IW4.0引擎,因此拥有良好的硬件“亲和力”。
我们选择游戏第一关过场动画结束主角坠机至玩家再次恢复控制之间的即时渲染部分作为测试场景,测试时长50秒,取期间的平均帧数作为最终测试结果。
相对亲和并不代表绝对亲和,事实上受限于引擎的绝对执行效率,现代战争3在超高分辨率下开启Native级画质设置之后依旧能够对时下旗舰级的硬件保持足够的杀伤力。HD7950在该款游戏中取得了令人满意的测试结果,证明Tahiti构架的游戏适应力还是相当不错的。
14DirectX 11游戏测试:Metro 2033
● DirectX 11游戏测试:Metro 2033
本作题材基于俄罗斯最畅销小说Dmitry Glukhovsky。由乌克兰4A游戏工作室开发,采用4A游戏引擎,而且PC版支持nvidia的PhysX物理特效。 2013年,世界被一次灾难性事件毁灭,几乎所有的人类都被消灭,而且地面已经被污染无法生存,极少数幸存者存活在莫斯科的深度地下避难所里,人类文明进入了新的黑暗时代。直至2033年,整整一代人出生并在地下成长,他们长期被困在“地铁站”的城市。
我们采取完整运行游戏第二关“Hunter”关卡,并记录其中平均帧数的方式来完成测试。Hunter关卡包含完整的室内场景切换,光照系统,DOF表现以及交战场景,能够全面反映显卡在面对Compute Shader以及超高分辨率材质时的表现。
地铁2033对于显卡的DirectX 11性能压迫是极其明显的,作为“强调火力”的次级旗舰显卡,HD7950在常规分辨率下全面超越上代构架,并获得接近30帧的测试表现。
15DirectX 11游戏测试:Crysis2
● DirectX 11游戏测试:Crysis2
《孤岛危机2》是《孤岛危机》的续作,游戏采CryENGINE 3引擎所制作,故事发生在距一代3年后的2023年。外星人在地球上的大片区域挑起了战争,各大城市都遭到攻击,人口锐减,玩家将要进行捍卫地球的末日战争。
我们采用Crysis2 BenchmarkTool来完成测试,场景选择Downtown,测试进行三次,取最高成绩作为最终测试结果。
孤岛危机2对于显卡的DirectX 11性能有着全方位同时严格的要求,其诸多先进的特性均让AMD上代构架受制不小。Tahiti构架在这方面的改进显现出了威力,HD7950的游戏性能远超上代Cayman构架的次旗舰HD6950,在测试中获得了令人相当满意的流畅度表现。
16DirectX 11游戏测试:H.A.W.X 2
● DirectX 11游戏测试:H.A.W.X 2
《鹰击长空2》是一款结合了拟真与空战要素而成的模拟飞行游戏,玩家可驾驶多种高性能战机,在高空中进行巡逻、护航、轰炸等任务。值得一提的是,游戏中的地面场景乃参考GeoEye卫星空照图所构建而成,这项游戏与现实生活的科技结合,让玩家仿佛置身于战机的驾驶舱内,逼真的地表风貌一览无遗。
我们采用游戏自带的Benchmark来完成测试,测试进行三次,取三次平均值作为最终结果。
鹰击长空2相对而言更加强调显卡的材质操作以及曲面细分性能,Tahiti构架对缓冲及前端ACE的改进让HD7970在该款游戏中有了长足的进步,其相对于上代的HD6970所取得的领先幅度相当可观。
17DirectX 11游戏测试:LostPlanet 2
● DirectX 11游戏测试:LostPlanet 2
《失落的星球2》背景设在原来第一季的十年后。气候变化融化冰雪覆盖的大陆,创造了新的环境,如丛林。在EDN-3rd的改变下,10年过去了。地球发生了重大改变,冰川已经融化,热带丛林,沙漠冷酷无情。玩家将进入新的环境,与雪贼战斗,以抓住不断变化的地球控制权。玩家将控制他们的英雄跨越6个相互关联的事件,创造一个真正独特的互动体验。有了这个概念,玩家将会有机会从不同的发展角度来动态的改变故事情节。
我们采用游戏自带的Benchmark来完成测试,测试进行三次,取三次平均值作为最终结果。
尽管失落星球2对显卡的曲面细分能力有极大的需求,游戏本身的优化也并不优秀,HD7950在此款游戏中仍能取得对上代HD6970的领先。
18DirectX 11应用测试:天堂2.5
● DirectX 11应用测试:天堂2.5
《Heaven Benchmark 2.5》是由俄罗斯Unigine游戏公司开发设计的一款Benchmark程序,该程序是由Unigine公司自主研发的游戏引擎设计,其支持DirectX 9、DirectX 10、DirectX 11与OpenGL 3.2 API,通过数十个场景的测试最终得出显卡的实际效能。
得益于前端ACE的改进,HD7950在天堂2.5测试中取得的成绩令人满意。相对于上代的HD6970,HD7970取得了超过60%的性能增幅。
19游戏性能提升比率
● 游戏性能提升比率
我们收集了全部9款参测游戏以及天堂2.5的帧数数据,以HD7950为基础将在游戏中的表现与所有参测显卡进行了一一对比,下面就是所有参测显卡在全部测试游戏中相对于HD7950比率的平均值。由于GTX580/570在地铁2033的2560分辨率下无法顺利完成测试,故2560环境下的数值并未将其计入其中。
通过数据的收集整理,我们发现HD7950相对于上代构架的HD6970,在不同分辨率下分别取得了19.4%和20.1%的游戏性能提升。相对于Fermi构架的GTX580则互有胜负,在1920分辨率下GTX580反超1.5%,而2560分辨率下则是7950领先2.6%。
对于这种与GTX580相当接近的结果,起初我们以为是源自我们测试项目涵盖面的过于宽泛导致的,但当我们收集了Crysis2以及BattleField3这两款游戏的成绩比率之后,我们发现HD7950在这两款大量应用DirectX 11特性的游戏中的表现与整体测试结果相当接近。
HD7950的几何部分以及ROP/MC等后端资源相对于HD7970并没有频率之外的本质差异,是什么导致了它与7970较大的性能差异同时还没有拉开与GTX580的性能差异呢?接下来让我们进入构架底层的延展测试来一探究竟吧。
20构架底层延展测试
● 构架底层延展测试
在构架底层性能的延展测试环节,我们使用基于OpenCL的通用计算测试软件——GPCBenchmark来完成数据的收集。GPCBenchmark使用最为通用的函数库及API接口进行编写,并未对任何构架进行针对性的优化,测试基于构架的底层能力,且第一次以常规数学方法全面的考验了构架的灵活度和运算应对能力。通过该款软件,我们不仅可以直接读取许多底层构架信息,更能获得构架最真实的特性。
在更新过驱动之后,Tahiti构架的通用计算性能又有了极大的提升,在测试总分环节,HD7950取得了超过5600分的测试结果,而HD7970测试成绩则从首发测试驱动的6000附近猛升至近6800。
在吞吐测试环节中,HD7950在默认频率下表现出了与HD7970在理论吞吐能力方面相称的差距。而在反映灵活Shader应用,尤其是Compute Shader性能的常规数学方法环节,HD7950所取得的测试结果令我们为之一震。无论矩阵操作还是并行归约处理,HD7950均表现出了远高于理论吞吐差距的测试成绩。由于HD7950与HD7970同属Tahiti构架,双方的线程管理机制以及宏观缓冲总量是相当的,因此运算单元更少的HD7950可以获得比HD7970更高的缓冲密度以及线程管理资源,进而获得更为强大的单元复用率。这种单元复用率的提升,被忠实的反映到了需要强调单元灵活度以及复用率的常规数学方法测试环节。
尽管在ALU团簇部分,或者说灵活多样的shader执行能力部分HD7950反超了HD7970,但图形处理毕竟是一个完整的顺序过程,除了shader之外,对材质的操作能力也就是TA(Texture Arroy或TMU)的能力也十分重要。Tahiti构架实现了TA与CU的绑定,因此削减了CU规模的HD7950,其材质能力也相应的受到了影响。在先前的GPU大百科全书等文章中我们曾经提到过,GPU的TA/TMU是具备执行包括卷积以及傅里叶变换在内的一系列操作的,所以在构架以及操作模式相同的前提下,GPCBenchmark的通用图形处理测试可以剔除其他图形过程的干扰,求得理想的GPU TA性能对比状况。
在通用图形处理的二维卷积测试中,HD7950受限于规模的削减,最终达到了HD7970性能的70.1%,这与两者32%的理论材质性能差异符合的非常好,而更加偏重load/store能力的快速降噪测试中,HD7950达到了HD7970的83.8%。由此可见,较小的TA规模所导致的材质性能的缺失不仅将HD7950较高单元复用率带来的效率提升大幅“中和”,更是导致HD7950在综合图形及游戏表现中落后HD7970较多的重要原因。
21延展测试下半场:同频性能测试
● 延展测试下半场:同频性能测试
由于HD7950在默认状态下表现出了较之HD7970更好的ALU复用率,因此我们决定进一步验证资源等效密度对单元复用率以及GPU性能的影响。我们将HD7950从默认状态的800/5000MHz超频至与HD7970相同的925/5500MHz,并再次进行了GPCBenchmark性能测试,下面就是我们收集的测试结果。
由于更高的等效资源密度,超频至HD7970同频的HD7950果然表现出了极强的性能,在测试总分中更加接近旗舰级的HD7970。
但在接下来的吞吐能力测试中,我们并没有看到意料之外的事情发生。单元复用率的提升对构架的绝对吞吐能力帮助极为有限,最终HD7950依旧因为其绝对规模方面的缺失而获得了低于HD7970的吞吐能力测试结果。同样的,材质单元性能的测试反映了相同的结果,HD7950在通用图形处理测试中也败给了同频的HD7970。
由于频率的提升,HD7950获得了与HD7970对等相当的L2带宽,这为进一步提高单元复用率,尤其是ALU单元复用率创造了条件。因此,凭借更高的单元复用率,HD7950以小得多的吞吐能力在常规数学方法中获得了与HD7970几乎完全相同的同频性能。要知道即便频率相同,两者也还是存在12.5%的运算规模差异的。同样的,在二维卷积测试中,同频的HD7950与HD7970完全保持了接近规模差异的结果,而快速降噪测试中两者的成绩则因为缓冲密度带来的load/store能力提升而变得变得更加趋同了。
综合GPCBenchmark的测试结果,我们认为HD7950是一款“更加接近GTX580特色”的GPU,因为更小规模换来的更好的缓冲资源密度和线程管理能力,它拥有比HD7970更高的ALU单元复用率,因此在面对需要灵活处理能力的场合会有很好地表现,在通用计算领域的性能也非常值得期待。但同样因为较小的总规模,HD7950在绝对吞吐能力和材质处理能力方面落后于HD7970,再加上较低的默认运行频率,HD7950与GTX580在游戏应用环境中打得难解难分并以较大的幅度落后于HD7970也就不是什么奇怪的事情了。
22功耗及温度测试
● 功耗及温度测试
在温度及功耗测试环节,我们使用Furmark 1.92对HD7950进行了满载功耗及温度测试。
HD7950公版频率满载温度测试
平台满载功耗
HD7950的满载功耗令我们大跌眼镜,这一数值仅相当于HD7970的60%~70%,为了验证这不是个案,我们更换了另外一块HD7950进行同样的测试并且更换的拍照角度,以便让大家能够看到这确实是Furmark全功率正常运行而非节能芯片控制的结果。
更低的运行电压以及运行频率让HD7950的功耗温度表现终于回到了“正常”的范围内,现在这块显卡的表现,才是TSMC 28nm所应该具备的正常状态。HD7950的整卡功耗和满载温度均给我们留下了非常深刻的印象,它确实是一块安静且更为绿色的显卡。
23超频性能测试
● 超频性能测试
我们对HD7950进行了超频能力的延展测试,在风冷环境下以CCC控制面板直接对其进行了超频,超频频率最终稳定在了975/1500MHz。
HD7950风冷超频测试之3Dmark Vantage
在该频率下,HD7950顺利的通过了3Dmark Vantage以及3Dmark 11的X模式测试,不难发现此时HD7950的整体性能已经十分接近甚至超过了HD7970了。
24性价比及性能功耗比测试
● 性价比及性能功耗比测试
在性价比测试环节,我们决定以3Dmark 11测试成绩结合售价来获得显卡的每元性能也就是性价比,结合furmark整机最大功耗来获得每瓦特性能比,用以衡量HD7950/7970以及GTX580的使用体验及可购买性差异,结果如下:
通过对比不难发现,在综合考虑售价和功耗因素之后,HD7950在使用感受以及可购买性方面均优于HD7970。
25测试总结:D线压力降临
● 测试总结:D线压力降临
对于HD7950的测试到这里就全部结束了。通过对成绩的汇总以及解析,我们不难发现一些奇特的现象——HD7950在图形性能方面并未甩开对手上代的单芯旗舰,甚至可以说与之打得难解难分;HD7950的功耗仅相当于HD7970的60~70%,却以完全相同的构架和工艺提供了后者85%甚至以上的性能;HD7950甚至在不少场合拥有比HD7970更好的通用计算性能;这些奇特的现象,最终都指向了一个方向——HD7950的各方面表现,都开始正面承受来自5870致命D线的影响了。
为AMD创造了过低D线的HD5870
诚然,在进行HD7970首发测试时,我们曾经称赞过它是一款优秀的产品,但那是在当时缺乏参照物的前提下进行的。一个月之后的今天,当我们收到HD7950并完成全部测试之后,我们彻底改变了对HD7970的看法。以今天的眼光来看,HD7970的表现不仅可以用“失控”来形容,而且可以说HD7970成了整个AMD DirectX 11 D线的又一个直接受害者。
早在去年Tahiti构架的解析文章中我们就曾经提到过,Tahiti构架是非常优秀的,但它受到了来自D线的影响并最终只能以较小的规模面世。AMD无法也不愿意对Tahiti的芯片总面积进行放大,这不仅令了大量的单元配备得不到充足的unified cache资源,更让目前Tahiti构架GPU无法真正利用吞吐规模来掩盖虽然大幅改善但依旧存在的资源密度不足所造成的延迟,等效放大了缓冲密度的HD7950获得了ALU团簇单元复用率的大幅提升就是最典型的证据。
规模和频率是一对此消彼长的双生体,如果规模无法实现放大,那么提升性能的唯一手段就只有提升频率一途了。因此,被D线束缚住规模的HD7970拥有了极高的默认运行频率,而代价则是超过TSMC 28nm工艺理想Vt近20%的最终运行电压,以及由此带来的极高的默认满载功耗。HD7950的发布,让我们看到了“正常版”的Tahiti构架所应该具有的功耗/性能表现,如果以HD7950的功耗来衡量,HD7970根本就已经处在了脱缰野马一般的状态。
不仅HD7970,就连我们现在测试的HD7950同样也受到了来自D线的影响。作为次级旗舰,HD7950拥有相当“常规”的与旗舰之间的性能差异,15%这样一个与旗舰的差距在数代的次级旗舰中都不算很大的数值,但这种正常的差异比例却因为HD7970本来就不高的性能而最终转化成了HD7950相对较低的绝对性能,并令其最终落到了与对手上代旗舰缠斗的境地,这在双方构架均要发生完全更迭的GPU换代过程中从来没有发生过。
roadmap上来看,7950和7870之间的相互挤压相当明显
除此之外,HD7950还会影响到整个南岛时代AMD产品线的布局。较低的性能下限会直接影响到后续sweet spot级产品的性能表现和综合定位,令其直接面对并对HD7800系列造成全方位的压迫,HD7800系列的旗舰型号如果想要处在顶级sweet spot适度的位置,其性能势必会与HD7950十分接近,如果放弃对手上代旗舰性能这一sweet spot惯常的目标,转而以自家上代旗舰作为出发点的话,HD7800系列的性能又会像多米诺骨牌那样继续对下面更低阶的产品性能进行压迫,并最终导致整条产品线的性能低落。虽然这种局面存在造成错位竞争局面的可能,但AMD整条新产品线的表现也因此而存在雪崩的风险,手握更大D线下方空间的NVIDIA到底有多大的就范的必要和可能,我们目前也还不得而知。
如果当初HD5870没有那样令人扼腕的短视,HD7970将会拥有更大的规模,并以更低的频率获得更好的绝对性能,留给HD7950的性能空间也将会更大,如今这些问题也就都不会出现了。
好吧,让我们抛开这些陈年的旧账以及相对虚幻的未来不谈,仅以现有的HD7970来衡量,现在的HD7950到底算什么呢?
我们在开篇中就已经提到过了,HD7950就像一艘更加强调火力和机动性同时放弃了一部分防御力的战列巡洋舰,它拥有比HD7970更高的单元复用率和灵活shader处理能力,在非纯吞吐通用计算领域甚至有比后者更强的表现,删减的规格以及更加理智的默认频率和默认电压也让它的功耗温度非常出色。但是,规模的删减让它的材质和吞吐能力相应的受到了限制,因此在游戏领域的表现仅能达到后者的85%。最后,同时也是最关键的,它的售价还不到HD7970的80%。
XFX FX795A-TBD显卡
低得多的功耗和发热,更高的单元复用率,相差并不大的性能,更低的售价以及令人期待的超频后性能,相对于HD7970来说,我们认为HD7950无论从哪个方面来讲都是一款更加值得购买和使用的产品。它拥有更好的性能价格比,十分强大的性能功耗比以及非常不错的性能发掘空间,至于AMD将如何利用这些优势来弥补D线压迫带来的绝对性能方面的问题,就让我们拭目以待吧。
推荐经销商