1还游戏以游戏,还显卡以显卡
凭借SMM单元以及cache的各种全新设计,Maxwell架构拥有了超越Kepler架构的单元复用率以及任务执行效率,这种单元复用率和效率的极大提升为Maxwell架构带来了性能功耗比的再次飞跃。这种不单纯依赖工艺制程,而是转向从逻辑结构合理性层面入手来寻求性能提升的方式,才是半导体逻辑电路进步的正确方向。在Kepler时代,我们曾为NVIDIA的性能功耗比提升而雀跃,在即将到来的Maxwell时代,我们相信这种雀跃将得到切实的延续。
——《Maxwell震撼登场 GTX750Ti/750首发测试》
本次测试的开头很简单:是的,雀跃的确得到了延续。
北京时间2014年9月19日上午10时30分,NVIDIA全球正式发布了Maxwell架构的第二组作品:定位旗舰级的GeForce GTX 980/970。这两款两款显卡最大的特点在于彻底刷新了旗舰级显卡性能功耗比的记录,随着这两款显卡的出现,传统旗舰级显卡市场的格局和竞争模式都将会发生变化,玩家们仅关注性能而非游戏感受的时代也许即将结束,让显卡重新成为畅享游戏的工具的时代就要来临了。
性能功耗比这一属性至于显卡而言意味着很多东西,更高的性能功耗比不仅代表了更低的使用门槛以及最大化的单位性能,同时还意味着用户可以不用再将注意力更多地集中在与显卡使用过程及保障相关的领域,这样显卡可以更称职的充当游戏工具,让用户更自然的把注意力集中到游戏体验和享受当中。而NVIDIA交给GeForce GTX 980/970的主要任务,正是在性能优异的同时以性能功耗比属性把旗舰级显卡从纯炫耀物、高温怪兽或者功耗强盗之流变回畅享游戏的工具,“还游戏以游戏,还显卡以显卡”。
也许这并不能对上所有人的胃口,但它确实是一次有趣而且有意义的尝试不是么?
GeForce 900时代首个Maxwell架构旗舰登场
一般来讲,半导体芯片性能进步大多依赖于制程工艺提升所带来的频率和集成度提升,在同代工艺的前提下连续实现性能功耗比的大幅提升是一件相当罕见的事,但NVIDIA却在GM107之后再一次挑战并成功颠覆了这样的“常理”。在今天的测试当中,我们将会深入解析GeForce GTX 980/970以及新的Maxwell架构,为您揭开这两款显卡每瓦特性能居高的秘密。
2GTX980/970规格一览
● GTX980/970规格一览
GeForce GTX 980/970同属GM204架构。它们分别采用了GM204-400-A1以及GM204-200-A1芯片,拥有52亿的晶体管规模,核心面积为398平方毫米(此为NVIDIA公布数据),这一数值距离NVIDIA在DirectX 11时代所划D线上空间(什么是D线和D线上空间上限? 它会导致怎样的问题?)的上限(529+52.9平方毫米)还有相当一段距离,它成了GM204拥有卓越性能功耗比的重要因素之一。
与Kepler架构的GK110相比,GM204架构的运算资源总量从2880个ALU分别下降到了GeForce GTX980的2048以及GeForce GTX 970的1664个,Texture Filter Unit则由240个下降到了128个以及104个,但构成后端的ROP在GM204当中被提升到了64个,更庞大的ROP阵列为GM204带来了理想的像素处理能力。GeForce GTX 980/970均拥有4个64bit双通道显存控制器组合形成的256bit显存控制单元,也都采用了4096MB的尺寸的显存体系。
显 卡 对 位 产 品 规 格 比 较 表 | ||||
显卡型号 | GeForce GTX 980 | GeForce GTX 970 | GeForce GTX 780Ti | Radeon R9 290X |
市场售价 | 3999 元 | 2499 元 | 4999 元 | 4599 元 |
GPU代号 | GM204 | GM204 | GK110 | Hawaii |
GPU工艺 | 28nm | 28nm | 28nm | 28 nm |
GPU晶体管 | 52 亿 | 52 亿 | 71 亿 | 62 亿 |
着色器数量 | 2048 | 1664 | 2880 | 2816 |
着色器组织 | 1D×2048 | 1D×1664 | 1D×2880 | Vector×2816 |
ROPs数量 | 64 | 64 | 48 | 64 |
纹理单元数量 | 128 | 104 | 240 | 176 |
核心频率 | 1126MHz | 1050MHz | 876MHz | 1000MHz |
着色器频率 | 1126MHz | 1050MHz | 876MHz | 1000MHz |
理论计算能力 | 4.6 TFLOPs | 2.44 TFLOPs | 5.04 TFLOPs | 5.6 TFLOPs |
等效内存频率 | 7008 MHz | 7008 MHz | 7008 MHz | 5000MHz |
内存位宽 | 256 bit | 256 bit | 384 bit | 512 bit |
内存带宽 | 224 GB/s | 224 GB/s | 336.4 GB/s | 320 GB/s |
内存类型 | GDDR 5 | GDDR 5 | GDDR 5 | GDDR 5 |
内存容量 | 4096 MB | 4096 MB | 3072 MB | 4096 MB |
DX版本支持 | 12 | 12 | 11.1 | 11.1 |
注:市场售价均为官方首发限价
得益于生产经验累积所带来的可制造性要素提升,GeForce GTX 980的默认核心及显存运行频率提升到了1126/7008MHz。随着ROP以及频率的提升,其默认Pixel Fillrate能力提升到了72Gpixels/S,默认Texture Fillrate能力为144.1G/S,显存带宽224GB/S。GeForce GTX 980拥有4.6T Flops/S的单精度浮点运算能力,但受限于游戏旗舰显卡的定位,NVIDIA对其生产力属性,也就是双精度浮点运算能力进行了限制,GeForce GTX 980保留了1/32速DP的运算特征,双精度浮点运算能力为143G Flops/S。
GeForce GTX 970自发布起便开放了非公版设计限制,因此各款产品的基本参数数据会因频率的不同而发生变化,因此在这里不一一列举。
由于GeForce GTX 980采用了完整规格的GM204架构,我们可以从中勾勒出Maxwell 2.0架构的特点,这些特点主要由以下主要的部分组成:
1、基于HKMG的TSMC 28nm工艺。
2、4单元的宏观并行结构,16组SMM单元被分为4个GPC,每个GPC包含4组SMM。
3、16组全新设计的,包含了几何引擎、光栅化引擎以及线程仲裁管理机制的SMM单元。每个SMM单元包含一组负责处理几何任务需求的PolyMorph Engine,同时均下辖四组更基本的SM单元,每个SM单元包含32个负责处理运算任务及Pixel Shader的ALU,每个SMM单元包含8个负责处理材质以及特种运算任务如卷积、快速傅里叶变换等的Texture Array,四组并行的二级线程管理机制以及对应的shared+Unified Cache等缓冲体系。
4、重设且更为巨大的Cache体系资源,L1D\$ Cache与Shared彻底分离并与Texture cache完成统一,Shared独立之后容量提升50%,L2 cache的密度则提升至Kepler的4倍。
5、改进型的3.0版本PolyMorph Engine,重负载环境下可以实现2倍以上于PolyMorph Engine 2.0的性能。
GM204核心
Kepler构架曾经被我们冠以“黑科技”的存在,NVIDIA在其上进行了多项有序且精彩的技术创新。与之相比,Maxwell架构的技术改进更为有序且有效,一系列技术变革不仅为GeForce GTX 980/970带来了理想的性能和更高的性能功耗比,同时也为我们展现了GPU逻辑结构领域的正确发展方向。接下来,就让我们看看这些进一步推升GM204能耗比至全新高度的功臣们吧。
34x4x4,并行结构再次升级
● 4x4x4,并行结构再次升级
在Maxwell架构的一系列重要改进当中,首先要被提及的就是GPU并行结构的改进。
NVIDIA于Fermi架构中首次引入了宏观并行结构设计,它将若干组ALU团簇绑定为一个GPC,并辅以完整的几何处理及光栅化流水线,这让每个GPC因此成了与传统GPU同等级的存在。在接下来的Kepler架构当中,NVIDIA使用了新的宏观并行结构,GK110将15组SMX单元以三组为单位结合成一个GPC,整个架构被划分成了5 GPC并行的形式。但从本质上来讲,Kepler架构的宏观并行度与Fermi并无太大差异,他们均遵循了GPC-SMX-ALU的二阶三级原则,Fermi最大为4x4结构,而Kepler最大则为5x3结构。
完整的GK104架构
在Maxwell架构当中,NVIDIA改变了ALU团簇的绑定方式,在GPC-ALU之间添加了SMM和SM两级,这改变了新架构的宏观并行结构和等级。现在的Maxwell架构拥有4 GPC的宏观并行结构,每GPC下辖4组SMM单元,每组SMM下辖4组SM单元,每组SM单元包含32个ALU。整个架构的宏观并行结构也因此而变成了GPC-SMM-SM-ALU的三阶四级原则,因此GM204的宏观并行结构从Fermi/Kepler的4x4/5x3变成了4x4x4。
在当前的GM204架构中,NVIDIA的主要精力集中在了cache体系以及前后端新比例的平衡层面,我们一直期待的针对宏观并行度变化而出现的更大规模的前端改进并未到来,NVIDIA的第一级仲裁管理机制依旧是GTE(Giga Thread Engine)而非LOC(Latency Processor),扁平化的结构并未在GM204当中实现。以测试而言,并没有证据显示当前的GTE在新的三阶四级并行架构当中存在管理效率问题。尽管如此,我们仍旧坚持对LOC或类似结构以及GPU架构扁平化在未来会出现的判断,我们会对此保持关注。
NVIDIA采用的Setup以及Rasterizer同GPC绑定的方案在Maxwell当中没有变化,因此GM204架构可以实现单周期输出4多边形,在同频下拥有了和先辈们相当的多边形泵出能力,但光栅化处理能力由于新技术的加入而实现了部分场合的提升。
4大改,从SMX到SMM
● 大改,从SMX到SMM
从G80到Kepler,NVIDIA一直在改进GPU的ALU团簇基本单元,但整体上一直在使用并调整着分频电路+大规模仲裁机制+32ALU捆绑的SM单元方案,而Kepler则采用了取消分频电路+瘦身仲裁机制+192ALU捆绑的SMX单元方案。如今,NVIDIA在Maxwell架构中进一步改进了ALU团簇,新的团簇方案名称为SMM。
SMX单元结构
新的SMM单元较之原先的SMX单元有了本质性的结构变化,在保留完整的几何前端的前提下,SMM单元在内部将ALU团簇再次划分成了4个并行的独立子团簇SM,每个SM包含32个ALU,并且都拥有独立的Scheduler/Dispatch以及Register,每两组SM共享一组统一的Texture/L1 D\$ cache,这与SMX单元192个ALU共享同一组Scheduler、Dispatch、L1 D\$ cache以及Register形成了鲜明的对比,而且也进一步提升了每个ALU所能够获得的Register资源量。
ALU团簇结构的改变同时也带来了纹理单元分布的变化,材质资源方面,新的SMM单元包含2组共计8个Texture Array,相对于Kepler,Maxwell的运算/材质密度有了进一步下降,所以相对而言,我们可以认为Kepler是一个更偏重于图形操作的架构,而Maxwell则将注意力更多地集中在了运算和任务效率层面。
值得一提的是,尽管AMD在Hawaii/Tonga架构当中进一步提升了架构的整体宏观并行度并改进了前端,但Maxwell架构对于SMM单元的修改再次将竞争拉到了新的高度。跟先前的情况相同,除了没有后端之外,可以说一个SMM单元在结构上依旧接近于竞争对手的一颗标准GPU了。
5扩展并行的下级仲裁管理机制
● 扩展并行的下级仲裁管理机制
我们曾经多次强调过,在整个Kepler构架当中,产生影响最为深远的改进来自任务调度以及仲裁过程的巨大变化。果如我们所言,Maxwell架构最核心的改进直接获益于该项改进,那就是SMM架构的任务仲裁机制。
通常来讲,可重复性较低且需要运算过程的判断性工作并不适合固定单元来执行,更加灵活的具有可编程性的通用单元来完成这类工作会比较得心应手。而那些具有较高可重复性,过程相对固定且基本具备可预期性的控制类工作,则更加适合具有特定针对性功能的电路来完成。如果我们以可编程的通用处理单元来完成判断性工作,让控制工作更多地被特定功能电路所执行,就可以达到最高效率的利用不同单元,以最低的能耗来完成最多工作的目的。
Kepler构架与Fermi构架执行Scheduling过程的差异
正是在这种思想的指导下,Kepler完成了“送出去,请进来”的改进,NVIDIA把一部分Scheduling过程从本地“送出去”,也就是转移到了CPU中以运算的形式来完成,同时通过引入GMU单元以及添加Dynamic Parallelism特性来降低CPU控制对任务的介入和影响,将控制工作更多地“请进来”,亦即移动到本地的GMU完成。这种执行位置和执行对象的互换扭转了过去“满拧”的局面,将适合通用处理单元的工作从GPU中拿出来交给了通用处理单元,也将不适合通用处理单元完成的工作交还给了GPU中的固定单元来完成,从而达到了各种单元均可以以更合适的功耗完成更多工作的目的。
Pre-Scheduling过程变化(图片修改自后藤弘茂先生博客)
Kepler的这项改进不仅保障了流水线的执行效率,同时也完成了相当关键的工作——对下级仲裁管理机制的“瘦身”和“减负”,Kepler架构SMX单元当中的下级仲裁管理机制不仅打破了整体性,所占资源比例明显下降,效率也并未因此而变低,这为Maxwell提供了良好的基础。
在Maxwell架构的SMM单元中,NVIDIA进一步延伸了仲裁机制瘦身的成果,它将SMX单元中的scheduler/dispatch拆解成了并行的四等份“子仲裁机制”,每组新的仲裁机制虽然比原先缩小了75%,但其所面对的ALU数量却也进一步下降了83.3%,每组scheduler/dispatch所面对的ALU从48个下降到了32个,所以这种拆解实际上提升了任务管理机制的等效规模,让每一个ALU都获得了比过去更多的管理资源。
在此基础上,scheduler/dispatch的拆分还使得任务管理过程进一步受益于并行化结构,进一步减少了ALU单元用于等待管理机制作出决策并分派任务的周期,这种等待周期的减少直接提高了ALU的效率,从而让Maxwell架构拥有了比Kepler更强的性能和能耗比属性。
6大改II,更加完善的Cache体系
● 大改II,更加完善的Cache体系
在Unified Cache体系方面,Maxwell架构同样在结构上做出了大幅改进,不仅结构有了本质性的不同,容量和密度层面也有了大幅提升,其变化程度完全和所产生的影响完全不下于SMX到SMM的改进。
GM204与GK104规格对比
与Kepler架构的Shared+L1 D\$ Cache/L1 I\$ Cache/Texture Cache的体系相比,Maxwell架构的Cache体系进化到了L1 D\$+Texture Cache/L1 I\$ Cache。两者最本质的区别,在于Maxwell架构的Shared从L1 Cache当中被独立出去,而L1 D\$ Cache则与Texture Cache合并,可以同时完成运算数据和材质的缓冲工作。
分离shared的过程改善了Maxwell架构L1 D\$ Cache的效率和工作状态,传统的Fermi/Kepler架构所采用的Cache共享L1 D\$ Cache的做法(总量64K,采用16K/32K/48K可编程划分)虽然在资源利用率和灵活度上有一定优势,但Shared只读不可写的操作形式会影响到L1 D\$ Cache的使用,不断改变的L1 D\$ Cache/Shared空间干扰了L1 D\$ Cache本身的命中率和使用,L1 D\$ Cache与Texture Cache也因此而无法得到统一,这一系列弊端在Maxwell当中都得到了修正。
Maxwell架构分离了Shared和L1 Cache(GM107)
除了L1 Cache体系之外,Maxwell还大幅提升了L2 Cache的密度和总容量,Kepler架构的L2密度为128K per MC,这一密度在Maxwell架构的GM204中被提升4倍到了512KB per MC,而且到目前为止的所有Maxwell架构的L2总量都达到了史无前例的2048KB,这一数值已经超越了Kepler旗舰GK110。更大的L2 Cache所带来的好处是显而易见的,它能够为GPU提供比过去更好的数据缓冲,可以改善运算和材质操作环境,还能提升显存体系的效率。
7“芯之重器”,Shared重获自由
● “芯之重器”,Shared重获自由
除了Cache体系的进一步完善之外,Shared与Cache体系的最终剥离,以及Shared容量的进一步扩大对于Maxwell以及整个NVIDIA的GPU架构发展同样是一件大事。
传统意义上的Shared(DirectX 10时代)是只读不可写的,它在当时的职能就是一组给Thread Block和操作提供一个临时挂起中间结果以及运行状态,以便快速回到现场的透明延迟缓冲。但是在进入DirectX 11时代之后,Shared被赋予了更大的权限,DX11 GPU可以对Shared直接进行读写操作,而且与Unified Cache存在命中率这个导致延迟不透明的不可控因素不同,对Shared的操作延迟是受控的,这让Shared的作用有了相当程度的拓展和延伸。
NVIDIA缓冲架构发展历史回顾(图片引自后藤弘茂先生博客)
在DirectX 11时代,Shared Memory成了称职的全局寄存器溢出缓冲,ALU可以利用Shared来加速Thread以及Thread Block(Group)的运行速度和效率,而且不用担心会像直接使用Cache那样受到命中率的干扰。与此同时,Shared还会进一步影响到其他与寄存器操作相关的特性。所以在DirectX 11时代,致力于对Shared进行改进并寻找合适的“居所”一直是NVIDIA以及AMD努力的方向。
在Maxwell架构当中,NVIDIA完成了shared与L1的分离,L1 D\$也终于完成了与Tex cache的合并,这样做对双方都有好处。因为Shared在L1 D\$内部,Maxwell之前的架构当中tex cache只能独立存在,所以Unified Cache其实还不是完全的Unified。在将Shared分离出去之后,L1 D\$终于实现了彻底的Unified化,这不仅方便管理,而且有利于NV更专注且更方便的提升命中率等Cache性能。截止到目前为止的Maxwell架构均采用了相同的L1/L2 cache容量比例就是这种改进带来的改变之一,NVIDIA在GPU当中首次实现了固定比例的二级缓存体系,从而获得了统一管理并优化cache体系命中率的机会。
Shared同样从分离当中获得了好处,它现在不再担心会受到来自L1的空间制约以及对命中率干扰的顾忌,而且共享导致的来自L1 cache的空间限制也就此解除,分离后的Shared可以更轻松的提升容量,专职专用也提升了Shared的操作效率。NVIDIA同样简化了对Cache和Shared的操作流程,不需要再像过去那样为了不同程序对Shared的需求而忙活Shared和Cache的划分。
存储系统的改进为Maxwell的性能功耗比表现打下了良好的基础。在综合了cache以及Shared等多方改进之后,Maxwell的同频ALU效率较之Kepler提升了40%,每瓦特性能提升了100%,SMM单元整体效率也因此而获益,尽管ALU总量下降了33%,但却可以实现与SMX基本相当的同频性能,工作功耗也进一步下降。
也许有人认为Shared是一个关乎运算的缓存体系,与我们日常的游戏及显示并无太大瓜葛,它也不会对我们的游戏过程产生什么本质性的改变,其实不然。Shared广泛作用于DirectX 11的各个环节当中,不仅能够提高Thread的运行效率,而且还可以早Atomic等涉及实际图形显示的操作过程中发挥作用,与之相对应的OIT等特效已经被广泛的应用在DirectX 11游戏当中。提升缓存体系以及Shared的表现,实际上就是在提升GPU在运行游戏期间的执行效率。
可以预见的是,AMD的新一代架构可能同样会在Shared层面进行更多改进,而且还会和过去一样沿着NVIDIA已经走过的路前进,尤其是完成Shared与L1 Unified Cache的分离。
8更多GM204新特性一览
● 更多GM204新特性一览
一如既往的,除了架构层面的改进之外,NVIDIA还为GeForce GTX 980/970搭载了包括TDCC、DSR、MFAA、保守光栅化、VXGI等等在内的多项新技术,这些技术针对领域不同,但都会对架构效率及游戏画质带来积极的影响。
TDCC技术
在GM204当中,NVIDIA为提升有限显存带宽的利用率而列装了改进后的TDCC技术(Third generation Delta Clolr Compression,第三代色彩压缩技术),该项技术可以将相同色彩的像素信息进行压缩,能够时情况不同带来平均20%以上的数据量下降,这等于等效提升了对应比例的显存带宽。值得注意的是,在本月早些时候发布的Tonga架构当中,AMD同样加入了作用类似的色彩压缩机制,双方不约而同的选择了堆砌硬件规模之外的方式来提升硬件的使用效率,这是一个相当好的现象。
DSR是另一项出现在GM204当中的新技术,该项技术允许显卡将游戏画面以4K分辨率进行渲染,然后采样为1080P分辨率输出至屏幕当中。该项技术与早年间在DIY界曾经名骚一时并被传为“佳话”的“resizeAA”有异曲同工之妙(有兴趣的朋友们可以自行搜索那段历史),它利用高分辨率渲染结果来进行低分辨率采样并输出至屏幕上,不仅可以利用显卡的闲置性能,规避低分辨率渲染+采样所导致的像素细节丢失问题,而且可以让1080P分辨率的显示器呈现出接近4K超高分辨率的画面效果。对很多老游戏而言,这是一项可以再次提升画质的技术。
MFAA是一项全新的抗锯齿技术,传统的MSAA等抗锯齿技术采用当前帧复数采样来作为边缘颜色混合的依据,MFAA则将采样范围扩展到了前帧+当前帧两张画面,这可以在取得相近采样效果的前提下大幅降低采样次数。以MSAA为例,4xMSAA需要在当前帧采样4次以获得色差边缘的像素颜色信息并完成混合,且每帧画面皆如此处理,而MFAA则会在前帧(第n-1帧)及当前帧(第n帧)当中分别采样2次来完成颜色信息采集。每当新的一帧(第n+1帧)出现时,由于当前帧(第n帧)已经变成了新一帧的前帧(第n+1-1帧),之前采样的信息已经存在,所以MFAA无需再次重复采样,仅需再对新帧采样2次即可完成过去需要采样4次才能完成的混合效果。所以理论上,MFAA可以以MSAA一半的性能消耗实现相近的抗锯齿效果。
除上述技术之外,GM204还列装了更多与游戏引擎联动的新技术,比如基于立体像素及光锥追踪的新光照渲染技术VXGI等,但这些技术需要游戏引擎的特别支持,无法在现有游戏及应用当中发挥作用,因此在这里不予赘述。不过,VXGI技术本身确实是光线追踪实用化之前的一次极有意义的尝试,它甚至可以作为光线追踪的前置技术出现,因此在后续的技术解读类文章当中,我们会予以深入介绍。
9GeForce GTX 980拆解赏析
● GeForce GTX 980拆解赏析
自GK110时代延续至今的PCB版型,经典的封闭式涡轮散热,改进自TitanZ的背板,GeForce GTX 980的外观并没有太多变化。但是4+1相供电、双6Pin供电接口以及3DP+HDMI+DVI的输出接口方案还是给它带来了一定的新意。
GeForce GTX 980拆解赏析
10送测产品之索泰GTX980极速版
● 送测产品之索泰GTX980极速版
送测产品展示之索泰
11送测产品之索泰GTX970霹雳版HA
● 送测产品之索泰GTX970霹雳版HA
送测产品展示之索泰
12送测产品之影驰GTX980黑将
● 送测产品之影驰GTX980黑将
影驰GTX980黑将拆解赏析
13送测产品之影驰GTX970黑将
● 送测产品之影驰GTX970黑将
影驰GTX970黑将
14送测产品之七彩虹GTX980-CH
● 送测产品之七彩虹GTX980-CH
七彩虹GTX980-CH
15送测产品之七彩虹IGAME980
● 送测产品之七彩虹IGAME980
送测产品之七彩虹IGAME980
16送测产品之七彩虹IGAME970烈焰战神U
● 送测产品之七彩虹IGAME970烈焰战神U
17送测产品之技嘉 GV-N980G1 GAMING-4GD
● 送测产品之技嘉 GV-N980G1 GAMING-4GD
技嘉 GV-N980G1 GAMING-4GD
18送测产品之技嘉 GV-N970G1 GAMING-4GD
● 送测产品之技嘉 GV-N970G1 GAMING-4GD
技嘉 GV-N970G1 GAMING-4GD
19送测产品之映众GTX980
● 送测产品展示之映众GTX980
映众GTX980
20送测产品之映众GTX970
● 送测产品之映众GTX970
映众GTX970
21送测产品之耕升GTX980关羽
● 送测产品之耕升GTX980关羽
耕升GTX980关羽
22送测产品之耕升GTX970
● 送测产品之耕升GTX970
耕升GTX970
23送测产品之万丽GTX970嗜血
● 送测产品之万丽GTX970嗜血
万丽GTX970嗜血
24测试平台硬件环境一览
● 测试平台硬件环境一览
为保证测试能够发挥显卡的最佳性能,本次测试平台由Intel酷睿i7-3970X处理器、ANTEC H1200水冷散热器、技嘉X79芯片组主板、威刚4GB DDR3-1600×4四通道内存、ANTEC HCP-1300电源组建而成。详细硬件规格如下表所示:
测 试 平 台 硬 件 环 境 | ||||
中央处理器 | Intel Core i7-3970X | |||
(6核 / 12线程 / 3.5GHz / 15MB L3) | ||||
散热器 | Intel RTS2011LC | |||
(原厂水冷散热器 / 选配件) | ||||
内存模组 | ADATA XPG DDR3-1600 4GB × 4 | |||
(SPD:9-9-9-24-1T) | ||||
主板 | GIGABYTE GA-X79-UD7 | |||
(Intel X79 Chipset) | ||||
硬盘 | 影驰战将系列240GB | |||
(240GB / SSD / 64MB缓存 / SATA3) | ||||
电源 | 安钛克 HCP-1300 Platinum | |||
(80Plus Platinum / 1300W) | ||||
显示器 | DELL Ultra Sharp 3008WFP | |||
(30英寸LCD / 2560×1600分辨率) |
测试平台软件环境一览
为保证系统平台具有最佳稳定性,本次产品测试所使用的操作系统为Microsoft Windows 7正版授权产品,除关闭自动休眠外,其余设置均保持默认,详细软件环境如下表所示。
测 试 平 台 软 件 环 境 | ||||
操作系统 | Microsoft Windows7 Ultimate RTM SP1 | |||
(64bit / 版本号:7601) | ||||
主板芯片组驱动 | Intel Chipset Device Software | |||
(WHQL / 版本号:9.2.3.1022) | ||||
AMD Catalyst/NVIDIA GeForce GTX | ||||
(版本号:14.4 WHQL/344.07 Beta) | ||||
桌面环境 | Microsoft Windows7 Ultimate RTM SP1 | |||
(2560×1600 / 32bit / 60Hz) |
在测试成绩方面,理论性能测试用得分来衡量性能,数值越高越好;游戏性能测试用游戏自带Benchmark来衡量性能,数值同样越高越好。
25理论性能测试
● 理论性能测试
于北京时间2013年2月5日推出的新3DMark,采用全新界面设计,除了测试分数,还会展现每个场景测试期间的实时曲线,全程记录帧率、CPU温度、GPU温度、CPU功耗。新3DMark取消了传统的E、P、X模式,取而代之的是根据负载不同所推出的三个场景,其中FireStrike专为基于DirectX 11显卡搭建的高端游戏平台,而CloudGate则支持基于DirectX 10环境的主流硬件,IceStorm则支持入门级DirectX 9设备、手机、平板电脑等等。
3DMark FireStrike
PC游戏随Windows 7的发布进入DirectX 11时代,众多DirectX 11显卡早已摩拳擦掌上阵厮杀,却迟迟没有一个权威性的基准测试软件来衡量游戏显卡DirectX 11性能的高低。终于,DirectX 11时代的3DMark 11来到大家面前。3DMark 11使用原生DirectX 11引擎,测试场景包括Tessellation曲面细分、Compute Shader以及多线程在内的大量DirectX 11特性。
GeForce GTX 980的理论测试结果超过了前代旗舰GeForce GTX 780Ti,不过领先幅度并不大。送测的非公版GeForce GTX 970的性能则略低于GeForce GTX 780GHz。
26游戏性能测试之《孤岛危机2》
● 游戏性能测试之《孤岛危机2》
《孤岛危机2》是《孤岛危机》的续作,游戏采用CryENGINE 3引擎制作。《孤岛危机2》在游戏内容上与一代也有很大变化,已经从秘密的丛林作战转向了公开、大规模的现代城市战争。故事发生在距一代3年后的2023年,外星人在地球上的大片区域挑起了战争,各大城市都遭到攻击,人口锐减,玩家将要进行捍卫地球的末日战争。
《孤岛危机2》
与理论测试相同,GeForce GTX 980以微弱的优势战胜了前代旗舰GeForce GTX 780Ti,而非公版GeForce GTX 970则同样略低于GeForce GTX 780GHz。
27游戏性能测试之《地铁:最后的曙光》
● 游戏性能测试之《地铁:最后的曙光》
《地铁:最后的曙光》讲述一场为争夺足以毁灭人类的世界末日装置的内战。人类依旧苟活在地下等死,不同派系之间的战争还在继续,晚上依旧有各种变异生物潜伏在暗处。地面依旧是各种毒气,但有传言冰层开始融化,阳光开始穿透云层。
《地铁:最后的曙光》
在地铁:最后的曙光当中,GeForce GTX 980在1920分辨率下终于获得了较为明显的领先优势,而非公版GeForce GTX 970则超越了GeForce GTX 780GHz。
28游戏性能测试之《古墓丽影9》
● 游戏性能测试之《古墓丽影9》
《古墓丽影9》将讲述劳拉的首次冒险之旅,主角劳拉·克劳馥的年龄被设定在21岁,那时的她还只是一名刚出茅庐的新人,经验欠缺。随着游戏剧情的发展,玩家将与劳拉共同成长,获得新的武器和道具并习得新技能。在冒险的小岛上,玩家可以在营地对道具进行组合,有些特定区域就需要特定道具和技能才能通过。岛上的各个营地之间可以快捷传送,玩家无需长途跋涉。而除了劳拉外还将有其他角色出现在岛上。
古墓丽影9
古墓丽影不再是GeForce GTX 980的专场,GeForce GTX 780Ti/780GHz在这款游戏当中均保住了自己的面子。
29游戏性能测试之《杀手:赦免》
● 游戏性能测试之《杀手:赦免》
《杀手:赦免》采用IO Interactive自主研发的冰川2(Glacier 2)引擎制作,游戏内容都是在引擎下实时进行反馈的,所有动作都是即时生成的。新作主要场景发生在芝加哥,名为代号47的主角在本作中将更加灵活,更好控制。他将可以攀在悬崖边,还可以保持平衡,游戏融入了掩护系统,挟持人持的功能回归。
《杀手:赦免》
GeForce GTX 980在杀手:赦免当中的表现与分辨率关联,在1920分辨率下它战胜了自己要取代的对手,而高分辨率下GeForce GTX 780Ti则透过更大的显存带宽捍卫了自己的地位。非公版GeForce GTX 970则未能超越GeForce GTX 780GHz。
30游戏性能测试之《尘埃3》
● 游戏性能测试之《尘埃3》
《尘埃3》是由Codemasters制作发行的一款赛车竞速单机游戏,《尘埃3》采用与《F1 2010》同样的Ego引擎,拥有更加拟真的天气系统及画面效果。游戏将包含冰雪场景、动态天气、经典的赛车、分屏对战、party模式、开放世界、更多真实世界中的赞助商和车手等特点。
《尘埃3》
在Dirt3当中,GeForce GTX 980/970实现了翻身,再次在全分辨率下实现了对各自要取代对象的超越。不过同样值得注意的是,这两款显卡的性能在这里已经绝对过剩了。
31游戏性能测试之《蝙蝠侠:阿卡姆之城》
● 游戏性能测试之《蝙蝠侠:阿卡姆之城》
《蝙蝠侠:阿卡姆之城》(Batman: Arkham City)是2009年最佳动作游戏《蝙蝠侠:阿卡姆疯人院》的续作,由华纳兄弟出品,该作由Rocksteady工作室负责开发,世界架构仍然建立在《阿卡姆疯人院》的气氛上,不过这次上升至阿卡姆之城——高谭市内戒备森严的,关押了大量暴徒的监狱之中。新作汇集了众多明星参与的配音阵容以及蝙蝠侠中的极度凶残的恶棍,并改进和加强了一游戏特点,让玩家们拥有像《蝙蝠侠:黑暗骑士》一般的终极游戏体验。
《蝙蝠侠:阿卡姆之城》
与古墓丽影9相同,GeForce GTX 980/970在蝙蝠侠2当中一样未能战胜各自所要取代的对象。
32游戏性能测试之《生化奇兵:无限》
● 游戏性能测试之《生化奇兵:无限》
《生化奇兵:无限》将玩家带往1912年,那是巨型飞艇和浮空飞行器的全盛时期,在此背景下诞生了海底销魂城的前辈,即天空之城“哥伦比亚”:这座远离美国海岸自成一体的空中城市在信众的欢呼声中扶摇直上,寄托了美利坚强国之梦,但因其不可告人的目的使其似锦前程不久便急转直下,武装到牙齿的狰狞面目把原本光荣正确伟大的阿波罗登月变成邪恶的死星计划,整座城市消失在云端中自此再无人知晓。
《生化奇兵:无限》
在游戏测试的最后部分,GeForce GTX 980/970再次以微弱的劣势负于了GeForce GTX 780Ti/780。但如果综合考虑性能功耗要素,我们认为这样的结果完全是可以接受的。
33架构通用计算测试之Fluid simulation
● 架构通用计算测试之Fluid simulation
与各种不明就里或者只知道跑理论吞吐测试的第三方测试软件不同,我们进行的DirectX SDK Simulation直接调用微软的DirectX API来完成测试,这些测试的对象和过程都是构成DirectX环境下图形与计算任务的基础,是最直接的针对GPU实际运算性能的测试。以此为基准取得的测试结果,才是真实的能够反映架构运算性能和效率的结果。
Fluid dynamics simulation
我们首先进行的DirectX SDK测试是使用Direct Compute完成的流体力学模拟——Fluid dynamics simulation。Fluid dynamics simulation基于弹性力/黏着力/重力为基础的颗粒碰撞模拟,每一个颗粒均拥有独立的力学参数。通过对颗粒本身在统一的重力参数作用下自有力学参数以及交互作用的计算,可以模拟大量颗粒的行为并达到模拟由它们构成的“流体”特性的目的。
Fluid dynamics simulation分别提供了对shared性能以及Grid性能的测试,力学计算本身需要应用包括矩阵运算在内的多种数学方法,颗粒之间的力学交互作用存在条件分支关系,因此该项测试可以全面考验不同构架对图形通用计算以及有针对性的物理特效计算的性能。
来自缓冲体系以及SMM的改进给GeForce GTX 980带来了优秀的运算效率,它在计算测试的开始阶段再次战胜了所有以往的旗舰级显卡。
34架构通用计算测试之Cascaded Shadow Maps
● 架构通用计算测试之Cascaded Shadow Maps
Cascaded Shadow Maps(CSM)是一种基于阴影深度进行的阴影判断及快速操作模式,CSM通过将整个阴影划分成若干级的层次,以层次内部像素的深度来定义和快速判断阴影位置,并对近景阴影采取高精度贴图,远景阴影采用低精度贴图的方式来达到节约资源同时快速准确实现阴影贴图的目的。CSM可以极大地加快阴影操作的速度,同时避免大多数因为光源形态、阴影深度与像素尺寸差异所导致的阴影边缘及内部贴图错误。
Cascaded Shadow Maps
CSM大量涉及矩阵运算及坐标判断,因此在DirectX 11环境下可以透过Compute Shader来进行。对CSM的性能测试,有助于我们了解构架的矩阵操作等通用计算性能。
尽管运算效率提升,但TMU总量的不足还是影响了GeForce GTX 980在CSM测试当中的表现,它并没有彻底战胜GK110。不过通过它与GeForce GTX 680的对比,我们仍旧能直观的看到Maxwell架构在运算效率上的巨大提升。
35架构通用计算测试之OIT
● 架构通用计算测试之OIT
半透明是3D图形中一种重要的特效,但传统的Alpha混合基本上无法完成对不同半透明物体以及同一物体不同半透明部分的层次判断,因此如果以Alpha操作来简单的实现半透明效果,很多时候获得结果都是错误的。所以在DirectX 11中,微软为我们引入了OIT(透明独立叠加)技术来解决这一问题。
OIT(透明独立叠加)
在实现OIT技术的过程中,程序会将处于同一层次的部件所对应的线程/任务以Atomic(原子操作)的形式保护起来,使这些线程在被执行结束之前变成一个不可再分的整体。接下来这些Atomic会被放置在buffer中进行处理优先级的排序,通过这些操作,物体及部件所在的层次和正确的显示效果就被最终确定下来了。如果构架拥有cache等可读写近存近取缓冲,则可以极大地加快OIT的乱序操作过程。因此对OIT的性能测试,将可以让我们了解构架是否具有足够的灵活度、充足的缓冲密度以及完整的Atomic特性支持能力
毫无悬念,改进Cache体系并强化Shared的GeForce GTX 980在OIT测试当中占据了优势。
36架构通用计算测试之nBody Gravity CS11
● 架构通用计算测试之nBody Gravity CS11
nBody Gravity的前身来自nBody仿真,nBody仿真的目的在于模拟一个多体系统的演化过程,该系统中的每个个体(Body)都会与周围的其他物体发生非接触力学吸引/排斥作用。通过nBody仿真,我们可以获得大量长程力作用的系统,比如小到范德华力作用下的原子/分子群或者大到万有引力作用下的星系之类各色场合的模拟结果。对于气流等稀薄流体的模拟同样可以归约成nBody仿真过程并予以解决。
nBody Gravity
nBody Gravity将场景设定为大量粒子在引力这一种基本长程力下高速运动作用形成的多体问题,尽管粒子间不考虑接触力学传递,但整体而言nBody Gravity模拟与我们前面进行的Fluid dynamics simulation测试一样,都需要大量应用到矩阵操作等大量常见的数学方法。在此基础上,由于长程力一次影响的对象远较流体模拟中弹性碰撞传递所能够影响的对象要多,其背后所对应的线程量非常庞大,因此nBody Gravity对于硬件构架的并行度有极高的要求。透过nBody Gravity的测试,我们可以了解到被测对象的吞吐能力、对基本条件分支的应对能力、并行处理能力以及对矩阵等常规数学方法的处理能力。这些能力,最终都将反映构架执行DirectX 11特性尤其是Compute Shader的效率。
GeForce GTX 980以明显领先的胜利结束了通用计算测试部分,NVIDIA对Maxwell架构进行的各项改进无疑是有效的,它们确实提升了Maxwell架构的运算效率。
37功耗温度测试
● 功耗温度测试
在功耗及温度测试环节,我们继续采用Furmark满载的方式让显卡达到全负荷工作的方式,来收集GeForce GTX 980显卡的满载温度及平台功耗数据。
GeForce GTX 980平台待机功耗
GeForce GTX 980的满载功耗可以说是本次测试最大的亮点,其性能较之GeForce GTX 780Ti基本相当的前提下满载功耗却下降了70W,相同工艺下达到这样的性能功耗比增幅,这不能不说是一个令人印象深刻的结果。在使用GeForce GTX 980时,玩家不会受到高热高耗等负面问题的困扰,也不用为采购大功率电源而煞费苦心,他们可以将更多的注意力放在游戏上,“还游戏以游戏,还显卡以显卡”。
38测试总结——choice,chance
● 测试总结——choice,chance
GeForce GTX 980/970的测试至此已经结束, 其性能以及各项特性相信屏幕前的诸位应该都有所认知了。从数据上看,基于Maxwell架构的新一代NVIDIA旗舰级显卡在绝对性能上与前代旗舰基本相当,但我们显然无法忽略这样的事实——这样的结果,是在使用相同工艺、芯片面积缩减近40%同时功耗下降近30%的前提下取得的。
公版GeForce GTX 980/970拥有巨大的功耗余量和工程设计余量,其最终性能是经过权衡之后加以限制甚至是克制的结果。这两款产品均未将绝对性能作为自己的首要诉求,而是在维持性能优秀的前提下以卓越的性能功耗比表现来作为最主要特点,客观来说,这样的选择同时混杂了积极与无奈。
GeForce GTX 980
得益于Maxwell架构的高效率,NVIDIA在未来的GeForce 900时代将会继续维持全线产品的高性能功耗比表现,所有基于Maxwell架构的公版产品都将会拥有比过去更好的功耗表现,而非公版以及超公版产品则拥有了更大的发挥空间和可利用余量,可以预见,基于Maxwell的非公版显卡的性能将会比过去更为“疯狂”。所以无论是常规的游戏用户,还是关注硬件可玩性和绝对性能的传统DIY,GeForce 900时代都将会值得期待。
尽管如此,我们仍旧无法忽略显而易见的无奈。以竞争态势而言,无论绝对性能还是性能功耗比,NVIDIA目前都已经处在游刃有余的状态,甚至可以用无竞争对手来形容了。无论Kepler还是Maxwell架构,它们较之竞争对手都拥有代差甚至两代差的整体优势,即便偶尔出现市场运作层面失误所带来的个别产品竞争失利,也无法改变这种整体竞争态势。NVIDIA现在处于工艺完全相同的前提下可以以对手甜点级产品(比如说9月初刚刚全新发布的某款产品)的芯片面积/规模以及功耗来实现超过对手旗舰级产品性能的状态,没有对手能够有效的给NVIDIA施加性能层面的压力,它只能自己跟自己竞争,这种状态对NVIDIA提升自己产品的绝对性能显然毫无助益。
同Intel一样,NVIDIA现在无法随意的甩开竞争对手自顾自的去全力推进产品线的绝对性能进步,竞争环境和其他非市场因素都决定了这种结果。不仅如此,NVIDIA自身也不希望太快更迭产品线的性能上限,这不仅会给自己带来更为沉重的压力,同时也违反利益最大化原则。虽然很无奈,但过舒坦日子是必然的选择,很少有人会给自己找麻烦……
所以,GeForce GTX 980并没有像以往那样飙高性能,而是选择了现在这样的主题——“还游戏以游戏,还显卡以显卡”。尽管这是个有意义的尝试,但对于性能控以及相当传统的那一群DIY玩家而言,没有刷新性能记录确实是个遗憾。
当然,Maxwell身上也有相当积极的进步意义。NVIDIA使用了新的ALU团簇和宏观并行结构,完善了缓冲体系,在GPU当中首次实现了规整的Unified cache体系,增大了部分后端规模并加入了多项新的细节技术,这一系列架构改进有效的提升了GPU芯片的性能功耗比。我们需要再次重申并强调,这种不依赖工艺制程,而是转向从逻辑结构合理性层面入手来寻求性能提升的方式,才是半导体逻辑电路进步的正确方向。尽管利益趋向、环境所指甚至是惰性都在干扰着NVIDIA,但它仍旧在正确的技术进步的道路上努力,不断增加着自己的技术储备并推进技术前沿,这无疑是积极正面的信号。
NVIDIA正在试图以自己的影响力来改变整个显卡市场的格局,将传统的性能导向转变成性能/使用感受双重导向。NVIDIA希望玩家能顾更加关注高性能与低功耗并重的产品,进一步降低显卡的使用负担并尽量让其变成可被忽略的“背景化”的存在。玩家无需关注噪音、高温、高能耗、视觉卡顿甚至游戏设置等等一系列繁琐却又被一部分传统DIY玩家视若某种象征的负面因素,可以将精力和注意力更多的集中到单纯的游戏和娱乐过程当中,这就是NVIDIA努力的方向,同时也是GeForce GTX 980/970想要达成的目标。这是一次大胆且有意义的尝试,同时也是一次机会,它可能会改变玩家对待和使用显卡的态度,进一步强调了显卡最本质的任务和意义,甚至可能会改变整个显卡业界前进的方向。以结果而言,这两款极具性能功耗比的产品可以算是达成了这样的目标,至于市场是否会认可并接受NVIDIA的努力,就只有时间能够回答了。
39产品参数对比
索泰GTX 980-4GD5极速版HA和索泰GTX 970-4GD5霹雳版HA和技嘉GV-N980WF3-4GD和技嘉GV-N970G1 GAMING-4GD有什么区别
今天NVIDIA新一代旗舰显卡正式发布,GeForce GTX 980和GeForce GTX 970成为了DIY玩家与游戏玩家的焦点。那么这款产品就行规格如何、性能如何、综合素质如何?且听笔者为您全面解读……