1Kepler拼图的最后一块
Kepler无疑是2012年显卡业界最耀眼新星。通过这一全新系列的图形架构,NVIDIA®为我们上演了一幕幕出乎所有人意料的好戏。无论是GeForce® GTX 690/680/670对旗舰级对手的完美超越,还是GeForce® GTX 660 Ti以甜品级身份越级挑战对手次级旗舰的精彩,Kepler架构一直没有让我们失望。 现在
,NVIDIA®为我们带来了Kepler架构精彩的延续。北京时间2012年9月13日21时,GeForce® GTX 660以及GeForce® GTX 650正式发布了。
作为Kepler架构体系的最后一块拼图,GeForce® GTX 660带来的GK106架构身负着为全世界勾勒完整的Kepler体系的任务。作为GeForce® GTX 660 Ti的下级产品,定位游戏级甜品市场的GeForce® GTX 660能否成为游戏玩家的优秀选择,它的出现又是否能够将NVIDIA®产品布局更加清晰的展现在世人面前,这些都将成为我们今天将要揭晓的答案。
与GeForce® GTX 660同时到来的还有面向低端市场的GeForce® GTX 650,通过这款产品,NVIDIA®将会为我们展现GK107的真正实力。它能否成为称职的“低端游戏显卡”,我们同样会在今天的测试中为您揭晓。
一次发布两款定位差距很大的产品,这种现象在显卡发展史上是非常罕见的,NVIDIA®的本次发布让我们的测试数据量有了大幅增长。除此之外,我们还将会在本次测试中引入一种全新的游戏功耗记录手段,并首次向您展现AMD/NVIDIA®显卡在游戏中真实的功耗表现。所以屏幕前的诸位,请千万要打起精神跟上我们的脚步,否则您将会错过许多不应该被错过的精彩哦。
2中端新锐规格总览
● 中端新锐规格总览
GeForce® GTX 660采用了基于Kepler图形构架的GK106核心,它拥有221平方毫米的芯片面积。与完整规格的GK104相比,GeForce® GTX 660运算资源总量从1536个ALU下降到了960个,Texture Filter Unit由128个减少到了80个,构成后端的ROP为原生24个。与ROP相对应的,GeForce® GTX 660的MC结构也变成了3个64bit双通道显存控制器,显存位宽192bit。GeForce® GTX 660拥有2048/3096MB两种显存容量搭配方案,其中2048MB采用了非对称显存布局体系。
GeForce® GTX 660 显 卡 对 位 产 品 规 格 比 较 表
显卡型号
GeForce® GTX 660
Radeon
HD 7870Radeon
HD 7850GeForce® GTX 660 Ti
GeForce® GTX 560Ti
市场定价*
1799元
2699~2999元
1999~2199元
2199元
1999 元
GPU代号
GK106
Pitcairn
Pitcairn
GK104
GF114
GPU工艺
28nm
28 nm
28 nm
28 nm
40 nm
GPU晶体管
?亿
28 亿
28 亿
35.5 亿
19.6 亿
着色器数量
960
1280
1024
1344
384
着色器组织
1D*960
Vector*1280
Vector*1024
1D *1344
1D *384
ROPs数量
24
32
32
24
32
纹理单元数量
80
80
64
112
64
核心频率
980 MHz
1000 MHz
860 MHz
915 MHz
823 MHz
着色器频率
980 MHz
1000 MHz
860 MHz
915 MHz
1646 MHz
理论计算能力
1.88
TFLOPs2.56
TFLOPs1.76
TFLOPs2.46
TFLOPs1.89
TFLOPs
等效内存频率
6008MHz
4800MHz
4800MHz
6008MHz
4008MHz
内存位宽
192 bit
256 bit
256 bit
192 bit
256 bit
内存带宽
144.2 GB/S
153.6 GB/S
153.6 GB/s
144.2 GB/s
128 GB/s
内存类型
GDDR5
GDDR5
GDDR5
GDDR5
GDDR5
内存容量
2048 MB
2048 MB
2048 MB
2048 MB
1024 MB
DX版本支持
11.1
11.1
11.1
11.1
11
HD视频技术
PureVideo HD+NVENC
UVD3.0
VCEUVD3.0
VCEPureVideo HD+NVENC
PureVideo HD
通用计算接口
CUDA
Stream
Stream
CUDA
CUDA
GeForce® GTX 650采用了GK107架构,它的核心规模和面积更为小巧,仅为13亿晶体管/118平方毫米。与完整规格的GK104相比,GeForce® GTX 650运算资源总量从1536个ALU下降到了384个,Texture Filter Unit由128个减少到了32个,构成后端的ROP为原生16个。GeForce® GTX 650的MC结构为双64bit双通道显存控制器,显存位宽128bit。GeForce® GTX 650拥有1024/2048MB两种显存容量搭配方案,搭载GDDR5显存。
GeForc®e GTX 650 显 卡 对 位 产 品 规 格 比 较 表
显卡型号
GeForce® GTX 650
GeForce® GT 640
Radeon HD 7770
Radeon HD 7750
GeForce® GTX550Ti
市场定价*
799~899元
799~899元
899元
799元
899 元
GPU代号
GK107
GK107
CapeVerde
CapeVerde
GF116
GPU工艺
28 nm
28 nm
28 nm
28 nm
40 nm
GPU晶体管
13 亿
13 亿
15 亿
15 亿
11.7 亿
着色器数量
384
384
640
512
192
着色器组织
Vector*384
Vector*384
Vector*640
Vector*512
1D *192
ROPs数量
16
16
16
16
16
纹理单元数量
32
32
40
32
32
核心频率
1058 MHz
902 MHz
1000 MHz
900 MHz
900 MHz
着色器频率
1058 MHz
902 MHz
1000 MHz
900 MHz
1800 MHz
理论计算能力
0.81 TFLOPs
0.69
TFLOPs1.28
TFLOPs0.92 TFLOPs
1.04
TFLOPs
等效内存频率
5000 MHz
1782 MHz
4500 MHz
4500 MHz
4100 MHz
内存位宽
128 bit
128 bit
128 bit
128 bit
192 bit
内存带宽
72 GB/S
28.5 GB/s
72 GB/s
72 GB/s
98.5 GB/s
内存类型
GDDR5
DDR3
GDDR5
GDDR5
GDDR5
内存容量
1024 MB
1024 MB
1024 MB
1024 MB
1024 MB
DX版本支持
11.1
11.1
11.1
11.1
11
HD视频技术
PureVideo HD+NVENC
PureVideo HD+NVENC
UVD3+VCE
UVD3+VCE
PureVideo HD
通用计算接口
CUDA
CUDA
Stream
Stream
CUDA
作为全新产品,GeForce® GTX 660和GeForce® GTX 650的架构特性是最为引人瞩目的。由于比过去更多的旗舰级产品下延,以及低速显存对低端架构性能造成的干扰,我们一直无法把握NVIDIA®在Kepler时代确切的产品布局以及架构性能特征。现在,我们终于看到了全新的GK106架构,同时还获得了不受束缚的“真正的”GK107架构。接下来,就让我们一起看看这两款架构的更多细节吧。
3它完整么——GK106架构解析
● 它完整么——GK106架构解析
为了满足很多读者以及我们自己贪玩的“小性子”,我们在先前的《能否延续“6系经典”? GTX660性能预测》一文中对GK106架构的首发形态以及性能状况进行了预测。值得庆幸的是,我们的预测游戏再一次获得了大体上的命中。接下来,就让我们看一看出现在GeForce® GTX 660全新架构——GK106的诸多细节吧。
NVIDIA®公布的GK106架构
GK106架构具备5组SMX单元,分别居于3个GPC中来组成并行结构。3 GPC的传统结构让它具备了3套前端以及光栅化处理部分,其单周期的几何输出以及光栅化能力为同频旗舰级架构的75%。更好的几何性能、更低的时间成本以及研发成本是它的优势。GK106架构让NVIDIA®在下位甜品级以及上位中端产品区间里拥有了更好的产品可操作性,同时在面积和成本空间层面获得了较好的平衡。
上面这幅由NVIDIA®公布的架构图有一个有些刺眼的细节,那就是右边那个独立SMX的GPC单元。这一细节将GK106上最吸引人的话题表露了出来——它究竟是不是一款“阉割”之后的芯片呢?
在NVIDIA®发布的官方说明中,对于GK106的原文描述是“The GTX 660 uses the full chip implementation of gk106 silicone”,这句拗口的英文可以被翻译成“GTX660是使用的‘完整的GK106芯片’来实现的”或者“GTX660是基于完整规格的‘GK106芯片’”。这是两个完全不同的意思,如果玩一场充斥外交辞令的文字游戏的话,我们完全可以将之理解成GeForce® GTX 660使用了完整的GK106架构,但GK106架构是否就是一个完整规格的架构并不重要;或者GeForce® GTX 660就是一颗完整的没有任何阉割的芯片。
由于NVIDIA®最终也未能给予我们明确的答复,同时实际性能测试环节以及针对GK106架构的其他官方描述无法为我们提供足够的证据,来证明NVIDIA®在GK106中引入了完全不同的2种GPC结构设计,对NVIDIA®长期行动模式的分析、目的性出发的推论以及成本和风险考量同样无法为我们提供“新GPC结构设计”的支撑,因此我们认为GK106是一款削减规模的架构。它并非原生的5SMX/3GPC的非对称并行架构,而是由6SMX/3GPC的常规并行架构通过阉割一组SMX单元得来的。我们已经在前面提到的那篇预测文章中讨论过这种结构的利弊,所以在此就不再重复了。
4老友重逢——GK107架构解析
● 老友重逢——GK107架构解析
相较于GK106,GK107要来得更加“单纯”一些。我们可以很直接的将采用GK107的GeForce GTX 650,看成是换装更高速的GDDR5显存并提升一定频率的GT640。GeForce GTX 650,才是真正展现GK107架构性能的产品。
GK107架构
GK107拥有一组完整的GPC结构,内含2个SMX单元。它的实际规模是旗舰级的GK104的1/4,这种标本型的特征让GK107有了很高的参考价值,我们可以将GK107芯片的逻辑运算部分直接看做是GK100时代Kepler架构最基本的组成部分。
由于这种特性,GK107架构拥有了一套完整的前端以及光栅化处理部分,其单周期的几何输出以及光栅化能力为同频GK104架构的25%,或者同频GK106架构的三分之一。同时,与之搭配的显存控制器阵列扩展到了2个,GK107由此具备了128bit的显存位宽。除此之外,GK107的绝大多数特性均可以和GK106一样参考整个Kepler家族的传统。
在本代的Kepler产品线中,NVIDIA为我们带来了比过去出色许多的性能功耗比特性,为了进一步了解优秀性能功耗比的成因,同时进一步了解GK106/107架构的更多特性,我们不妨来回顾一下Kepler架构的细节特性。
5性耗比第一功臣:SMX单元
● 性耗比第一功臣:SMX单元
SM曾经是NVIDIA GPU的ALU团簇基本单元,这一单元在GK104中的改进可谓翻天覆地,NVIDIA采用的全新的SMX单元彻底改变了传统的SM单元的内涵。
Kepler架构所采用的SMX单元与Fermi的SM单元在逻辑结构上十分近似,都拥有完整的几何前端,线程仲裁机制,ALU团簇,Texture Array以及unified cache/shared和Register。除了没有后端之外,一个SM/SMX单元在结构上可以说趋近等同于一颗标准GPU。
GK104逻辑构架
与Fermi的SM单元规模对应线程粒度单位warp(32 ALU VS 32 Thread)不同,Kepler的SMX单元急剧放大了ALU团簇的整体规模,其ALU总量从过去的32个增加到了192个。与此同时,SMX单元的线程仲裁管理机制也得到了放大。负责线程分派和发放管理的Warp Scheduler从过去的两个增加到了4个,与之对应的Dispatch Unit从过去的2个增加到了8个,Warp Scheduler与Dispatch Unit的比例提升到了1:2,这些举措可以有效的改善单元规模增大带来的线程分派及管理压力。
SMX单元结构
在放大ALU团簇以及线程仲裁机制的同时,NVIDIA还进一步放大了与ALU团簇对应的Register。根据NV提供的资料,Kepler中每个SMX的Register较之Fermi的SM放大了一倍,达到了65536X32bit的规模。
在Unified Cache体系方面,Kepler与传统的Fermi在结构上没有多大的差异,其L1/shared以及L2 cache的大小和比例均未发生变化,仍旧维持64K的L1/Shared以及128K/MC的L2尺寸。整个体系中最值得关注的变动来自L2 cache速度以及带宽的提升,NVIDIA称GTX680的L2 cache目前运行在分频状态下,默认运行频率是核心频率的一倍,这为GTX680提供了比过去大得多的L2带宽,这为通用计算性能以及Texture性能的提升创造了有利的条件。
更为强劲的SMX性能
更大的ALU规模、更多的线程仲裁机制以及更大的寄存器缓冲为SMX带来了全新的性能表现,新的逻辑设计让GK104的运算单元拥有了2倍于Fermi的性能
6性耗比第二功臣:全新Scheduling过程
● 性耗比第二功臣:全新Scheduling过程
除了SMX单元的出现之外,在整个Kepler构架中产生影响最为深远的改进来自任务调度以及仲裁过程的变化。
GPU的逻辑结构决定了它并不适合被用来执行关联度过高过深的条件分支过程,因此对于任务的关联性检查是整个GPU任务队列执行过程中一个非常重要的步骤。在以Fermi为代表的传统仲裁体系中,任务会在解码过程之后完成指令的关联性检查,如果指令存在超过一定限度的关联性,为了规避条件分支对性能产生的影响,这些指令会被重新打包以便ALU团簇进行吞吐。在完成这些关联性检查之后,明确执行方向的指令才会被送入流水线中进行执行。为了加快这一过程的速度,Fermi构架为这个过程提供了Multiport Post decode Queue以及对应Register的硬件支持。
Kepler构架与Fermi构架执行Scheduling过程的差异
在Kepler构架中,这一传统的过程发生了很大的变化,NVIDIA®称在Kepler中任务会在解码之前根据Sched.info进行选择,然后直接进行解码并被送入流水线中完成后续处理。整个关联性检查以及指令重组等过程被一个简单的Sched.info-select所取代。在该过程下,指令从解码到执行几乎没有延迟,整个流水线因此获得了更高的执行效率。
Kepler与Fermi架构对处理器依赖性测试
由于新的Scheduling过程在CPU中基于软件形式完成,因此传统Logic controller中与Pre-Scheduling相关的硬件,比如Fermi中的Multiport Post decode Queue(解码后队列)以及对应的Register(寄存器)等等DCA(Dependency check Architecture,负责依赖性检查的逻辑结构)也就没有了存在的必要,它们所占用的晶体管资源可以被释放出来,Logic controller的规模也因此得以大幅削减。尽管目前的Pre-Scheduling只涉及中等以下关联性的延迟可预期指令的检查,并没有完全取代全部的Scheduling动作,关联度较深的指令依旧需要传统的硬件DCA来快速执行,但这一改进还是促使NVIDIA®将SMX中Warp Scheduler的密度削减到了Fermi的1/3。
Fermi架构SM单元内部的Scheduler以及Dispatch Unit比例
除此之外,Pre-Scheduling让指令从解码到执行之间的过程变得更加简洁,从线程进入SMX到抵达ALU进行执行这一过程的延迟也被降低。延迟的缩短缓解了线程派发效率带来的负担,让硬件不再需要配备大量的分派资源来提升任务分派的效率,以便抵充前面延迟所带来的性能损失,因此SMX单元中的Dispatch Unit密度也随之得以降低。在SMX中,NVIDIA®配给的Dispatch Unit密度只有Fermi的66%。
DCA的大量削减以及Warp Scheduler和Dispatch Unit密度的下降促成了Logic controller的的最终瘦身,这不仅直接导致了NVIDIA®可以放心大胆的扩张SMX单元的规模,将更多ALU资源纳入到GPU体系中去,更成功的将传统DCA硬件运行过程的功耗转移到了CPU当中。有了更多直接运算资源带来的性能,同时功耗矛盾也得到了缓解,GK104超过Fermi以及Tahiti的性能功耗比也就不是什么奇怪的事情了。
Kepler构架Pre-Scheduling过程变化(图片修改自后藤弘茂先生博客)
Kepler的表现非常直观地反映了NVIDIA®解决问题的哲学,不论Pre-Scheduling还是GPU Boost,它们都具有将某些内部无法解决的矛盾转移到外部环境中并寻求适当的方式加以解决的特征。拥有这种弹性的思维模式的NVIDIA®显然没有进入僵化以及固步自封的状态,这让NVIDIA®最终得以克服了大量的困难,为我们奉上了一款性能功耗比以及绝对性能均十分出色的图形架构。
7依旧是最重要的GPU Boost
● 依旧是最重要的GPU Boost
Kepler中引入的最具颠覆性的特性,来自GPU Boost技术带来的动态频率管理机制,它的出现彻底改变了人们对于性能及显卡使用方式的传统定义。
GPU Boost技术的核心内容,在于通过遍布全卡的数十个传感器实时收集数据,并根据这些数据及时掌握整卡的即时功耗状况,接下来根据当前功耗与设计TDP之前的差距,动态的调节GPU的运行频率,使其能够运行在更高的频率之上,以达到随时随地自动获取最大性能的目的。
GPU Boost可以充分利用实际功耗与TDP的差值空间
每一款不同的游戏程序/应用因为各自不同的编程特点,在实际运行中会令构架反映出不同的负载或者说GPU使用情况,这种GPU负载的不同,归根结底是GPU构架的单元复用率以及程序对硬件不同组元使用率差异造成的欠载所导致的。这些无法避免的欠载,会让GPU在绝大多数场合都不会运行在设计功耗数值之上。欠载以及未能让GPU运行在既定满载功耗这一现象本身,实际上就是GPU内部单元复用率不足的外在表现。
当构架设计完成之后,构架的诸如单元复用率之类的特性也就随之凝固,游戏程序及应用程序在编写完成之后也要面临对不同构架使用情况发生凝固的情况。既然我们无法改变构架的单元复用率,也无法适时修改程序对单元的使用情况,同时两者的矛盾已经已经被体现在了实际运行功耗与设计功耗之间的差异上,那么增大整个构架的运行频率,善加利用实际功耗与设计功耗之间的差值空间来获得更高的总执行能力,就成了提升性能以及解决单元复用率不足矛盾的最好办法了。
GPU Boost在应用程序中是实时调整的
GPU Boost技术所进行的动作,实际上是建立在性能与功耗平衡的基础之上的。当前频率下单元复用率不足会带来实际功耗与设计功耗之间的差异,可以被等效成频率的提升额度。所以GPU Boost可以以TDP为终点,根据游戏中瞬时单元复用率决定的欠载情况决定GPU的实时运行频率,让GPU能够在功耗一直维持在设计水平的前提下,实时的获得最强的游戏性能。
与此同时,GPU Boost对于频率的控制还具有反向性。当玩家们觉得当前的游戏帧数远远大于自己的需求时,也可以通过对帧数的限定来让GPU Boost达到节能的目的。因为构架的单元复用率凝固且时时刻监控,较低的帧数需求也就意味着较低的频率,因此GPU Boost可以根据玩家限定的低于最大构架性能的帧数来实时下调GPU的运行频率,并达到节能以及换取更佳功耗表现的目的。
GPU Boost动作记录
我们必须强调的一点——GPU Boost并不是超频,起码不是单纯意义上的超频。传统意义上的超频是频率动作的终点,一旦超频完成,GPU频率将不会再根据任何情况发生变动。而GPU Boost对频率的调节是建立在实时真实功耗与TDP差值的基础之上的,它既可以让GPU充分利用功耗差值空间来运行在比超频频率更高的频率之上,又可以通过限定帧数需求来让GPU运行在更低的频率水平上。因此GPU Boost技术出现之后的超频,变成了频率控制的起点。
利用功耗空间动态调节频率来解决GPU内部单元复用率不足的矛盾,同时还可以反向的利用限定性能上限的方式来换取更好的功耗发热表现,这些特性让GPU Boost成了一个划时代的技术,它是目前为止我们所见过的最具想象力,同时也是最直接的综合性能/功耗管理手段。相信在未来的日子里,我们将会见到更多类似的通过外部努力来解决GPU单元复用率不足矛盾的方案出现。有关GPU Boost技术的更多细节以及重要意义,我们将会在稍后为您奉上专门的介绍文章。
8第二代几何处理引擎
● 第二代几何处理引擎
在上一代的Fermi构架中,NVIDIA®为每个SM都配备了完整的PolyMorph Engine(几何处理引擎),16个SM单元意味着Fermi拥有16个能够进行Tessellation处理的几何引擎。在Kepler中,由于SMX单元结构的巨变以及总量的减少,8个SMX单元理论上仅能对应8组几何引擎,因此NVIDIA®对PolyMorph Engine进行了改进,使之能够在总量减少的前提下维持性能。
PolyMorph Engine 2.0以及线程仲裁机制
PolyMorph Engine 2.0引擎在结构上与PolyMorph Engine 1.0差异不大,均由Vertex Fetch、Tessellator、Viewport Transform、Setup以及Output单元构成。但在PolyMorph Engine 2.0引擎中,NVIDIA®加大了Tessellator单元的规模,同时还借鉴了AMD在Cayman以及Tahiti中的经验,通过优化线程以及Stream流的方式进一步加强了PolyMorph Engine在低负载下的几何处理能力。
完整版GK104曲面细分性能
通过改进,PolyMorph Engine 2.0拥有了2倍于Fermi的单位性能,这使得GK104在PolyMorph Engine数量减少一倍的前提下依旧维持了极为强劲的几何性能和高负载下较低的性能衰减,同时在低负载下的几何性能也变得更加高效。
9Bindless Texture
● Bindless Texture
在Kepler中,我们注意到了一个全新的来自材质与shader搭配的特性,那就是Bindless Texture——低shader绑定限制材质。
我们知道在图形处理过程中,所有场景及物体表面的颜色细节都是由Texture和shader共同完成的,Texture负责快速的完成大面积的颜色表达,而shader则负责局部正确颜色表现的修饰过程。值得注意的是,传统的Texture与shader搭配修饰过程存在绑定(Bind)限制,一组shader code只能同时对应最多128组Texture。
Bindless Texture操作特性
在Kepler构架中,NVIDIA®取消了shader code与Texture之间的绑定限制,新的Bindless Texture规则允许一组shader code同时对应超过100万组Texture。这不仅极具提升了可被同时进行shader处理的Texture的数量,等效减少shader被重复执行的几率,大幅减少CPU以及GPU的执行线程需求以及执行过程,同时还能带来更多样化的Texture应用。
Bindless Texture能够大幅减少操作过程并提升效率
Bindless Texture可以带来很多非常具有想象力的应用场合,比如搭配Compute Shader的树状结构来实现大跨度的多材质单shader复制处理,或者结合Gather/Scatter指令更加快速的实现简单shader对应复杂材质等等。Bindless Texture可以加速许多场合的应用速度,在未来的图形处理过程中将会扮演重要的角色。
10全新边缘检查抗锯齿:TXAA
● 全新边缘检查抗锯齿:TXAA
抗锯齿技术一直都是平滑物体边缘,提升模型精细度以及视觉美感的重要手段。从最开始的超级采样,到后来的多重采样以及CSAA等极富特色的采样形式,抗锯齿一直都是显卡发展重要的组成部分。
FXAA抗锯齿模式
伴随着DirectX 11的出现,GPU的通用计算性能被越来越多的直接应用在了图形计算过程中,这其中也包含了抗锯齿过程。使用Compute Shader带来的A-buffer等全新特性,边缘检查为主的MLAA以及FXAA这两种全新的抗锯齿形式获得了很好的接受度和支持度。而在GK104中,NVIDIA®再次为我们带来了全新的基于边缘检查的抗锯齿模式——TXAA。
NoAA图像质量
TXAA图像质量
TXAA作为改进型的新一代边缘检测型抗锯齿不仅改善了传统的边缘检测型抗锯齿所导致的材质模糊问题,同时还为我们带来了质量极高的细小多边形以及线框部位的AA表现。
8X MSAA图像质量
与之对比的TXAA图像质量
按照NVIDIA®公布的数据,TXAA能够以2MSAA的性能代价实现8MSAA的边缘抗锯齿质量,以4MSAA的性能代价实现大幅超越8MSAA的抗锯齿质量。TXAA的接受度相当高,已有包括EPIC以及Crytek在内的多家旗舰级游戏引擎供应商宣布将在旗下的引擎中对其进行支持。
11真正意义的流畅——自适应垂直同步
● 真正意义的流畅——自适应垂直同步
Adaptive VSync是NVIDIA®在GK104中引入的另一个重要新功能。其最大的意义,在于改变传统垂直同步分段式的帧数管理模式,用更加平滑的帧数曲线来最大限度的避免画面撕裂的情况发生。
传统的垂直同步依旧会带来画面撕裂和顿挫的问题
在传统的垂直同步设定中,帧数一般会被机械的划分成30以及60帧两档,当游戏帧数大于60帧时,垂直同步程序会将帧数限定在60帧,而当游戏实际帧数跌落到60帧以内时,垂直同步会将帧数限定成30帧。巨大的帧数落差不仅会给玩家们的游戏过程带来明显的顿挫感,同时还会导致画面撕裂等问题的出现,这不仅影响了游戏过程本身,更与垂直同步技术本身消除画面撕裂的初衷相悖。
GK104的Adaptive VSync技术
在Adaptive VSync中,NVIDIA®打破了传统垂直同步技术对帧数下限的限制,当游戏帧数低于60帧之后,Adaptive VSync将会尽量让帧数维持在当前水平,而不是像过去那样直接进入30帧档位。而当游戏帧数大于60帧时,传统的垂直同步机制依旧会发挥作用,游戏帧数依旧会如果去那样被限定在60帧上。
Adaptive VSync选单
相比与传统的垂直同步,Adaptive VSync技术能够带来更加平滑的帧数体验,避免帧数突然暴跌带来的最小帧问题,提升整个游戏的流畅度体验。在此基础上,Adaptive VSync并没有干扰帧数大于60时垂直同步机制的正常工作,因此从深层意义上来讲,Adaptive VSync才是真正实现垂直同步初衷的帧数控制机制。
12NVENC——硬件H264编码引擎
● NVENC——硬件H264编码引擎
在之前发布的Tahiti构架中,AMD首次引入了针对视频的硬件编码处理单元VCE,这套单元可以以纯硬件的形式完成高清视频的编码过程。而Intel早在Sandy Bridge中就已经引入了类似的电路。如今,NVIDIA®在GK104中同样加入了类似的针对性解决机制——NVENC。
NVENC特性
能够提供了一组专门的逻辑电路设计,它可以大大加快包括H.264在内的多种高清视频格式的编码和转码速度。按照NVIDIA®提供的数据,NVENC可以4~8倍于“real-time”的编码速度,如果以24帧的播放速率作为real-time的标准,则NVENC可以实现远大于60帧的高清视频实时编码过程。
MediaEspresso软件界面
除了提供更快的编码及转码速度之外,NVENC还提供了更好的性能瓦特比。它可以以十分之一的功耗实现与软件编码过程相同的性能,这从侧面进一步契合和呼应了Kepler构架以及GTX680着重强调性能瓦特比的特点。
目前,由Cyberlink出品的MediaEspresso软件已经率先提供了对NVENC的支持,用户们可以在Kepler构架发布后第一时间体验到NVENC技术带来的好处。
13将短小进行到底
● 将短小进行到底——GTX660拆解
NVIDIA® GeForce® GTX660采用基于28nm制程工艺、Kepler架构设计的GK106图形核心。该显卡拥有960个流处理器,24个光栅单元和80个纹理单元。
NVIDIA® GeForce® GTX660
NVIDIA® GeForce® GTX660采用4+1相供电设计(核心4相、显存1相),元器件采用全固态电容以及R22铁素体电感,外接单6pin外接供电接口,散热器与GeForce® GTX660 Ti如出一辙。
NVIDIA® GeForce® GTX660搭载三星GDDR5高速显存颗粒,显存容量2048MB,显存带宽192bit,默认频率为980/6008MHz。
NVIDIA® GeForce® GTX660 PCI-E接口
NVIDIA® GeForce® GTX660采用双DVI+HDMI+DisplayPort输出组合,与GeForce® GTX660 Ti/670/680完全相同。
14一沙一世界——GTX650拆解
● 一沙一世界
NVIDIA® GeForce® GTX 650采用基于28nm制程工艺、Kepler架构设计的GK107图形核心。该显卡拥有384个流处理器,16个光栅单元和32个纹理单元,GPU晶体管数量13亿。
NVIDIA® GeForce® GTX 650 PCB方案
NVIDIA® GeForce® GTX 650供电
NVIDIA® GeForce® GTX 650采用2+1相供电设计(核心2相、显存1相),元器件采用全固态电容以及全铁素体电感,外接单6pin外接供电接口。
NVIDIA® GeForce® GTX 650散热器
NVIDIA® GeForce® GTX 650外接供电接口
NVIDIA® GeForce® GTX 650搭载海力士GDDR5高速显存颗粒,显存容量1024MB,显存带宽128bit,默认频率为1058/5000MHz。
NVIDIA® GeForce® GTX 650 PCI-E接口
NVIDIA® GeForce® GTX 650采用双DVI+HDMI输出组合,与更高级别NVIDIA®显卡的区别是取消了DisplayPort视频输出接口。
15参测产品之七彩虹iGame660 烈焰战神X
● 参测产品之七彩虹GeForce® GTX 660
七彩虹GeForce® GTX 660
16参测产品之索泰GTX660极速版
● 参测产品之索泰GeForce® GTX 660
索泰GeForce® GTX 660
● 参测产品之影驰GeForce® GTX 660
影驰GeForce® GTX 660
18参测产品之映众GTX660冰龙版
● 参测产品之映众GeForce® GTX 660
映众GeForce® GTX 660
映众GeForce® GTX 660视频输出接口
19参测产品之华硕GTX660 DC2T 2GD5
● 参测产品之华硕GeForce® GTX 660
华硕GeForce® GTX 660
20参测产品之微星N660IF 2GD5OC
● 参测产品之微星GeForce® GTX 660
微星GeForce® GTX 660
21参测产品之耕升GTX660赵云版
● 参测产品之耕升GeForce® GTX 660
耕升GeForce® GTX 660
22参测产品之七彩虹GeForce® GTX 650
● 参测产品之七彩虹GeForce® GTX 650
七彩虹GeForce® GTX 650
23参测产品之索泰GeForce GTX 650
● 参测产品之索泰GeForce® GTX 650
索泰GeForce® GTX 650
24参测产品之影驰GTX650黑将
● 参测产品之影驰GeForce® GTX 650
影驰GeForce® GTX 650
25参测产品之映众GTX650游戏至尊版
● 参测产品之映众GTX650游戏至尊版
映众GeForce® GTX 650
26参测产品之技嘉GV-N650OC-2GI
● 参测产品之技嘉GV-N650OC-2GI
技嘉GeForce® GTX 650
27参测产品之翔升GTX650+ 2G D5
● 参测产品之翔升GTX650+ 2G D5
翔升GeForce® GTX 650
28参测产品之微星N650 PE 1GD5 OC
● 参测产品之微星GeForce® GTX 650
微星GeForce® GTX 650
29参测产品之耕升GTX650赵云版
● 参测产品之耕升GTX650赵云版
耕升GeForce® GTX 650
30参测产品之太阳花铁甲GTX650
● 参测产品之太阳花 铁甲GTX6501GDDR5圣堂武士
太阳花GeForce® GTX 650
31首批上市未送测之铭瑄/盈通/旌宇/昂达GTX650
● 展示产品之铭瑄GeForce® GTX 650
铭瑄GeForce® GTX 650
铭瑄GeForce® GTX 650
● 展示产品之盈通GeForce® GTX 650
● 展示产品之昂达GeForce® GTX 650
32测试平台软硬件环境简介
性能测试使用的硬件平台由Intel Core i7-3960X、X79 Chipset和4GB*4四通道DDR3-1600内存构成。细节及软件 环境设定见下表:
测 试 平 台 硬 件 | |
中央处理器 | |
Intel Core i7-3960X | |
(6核 / 12线程 / 100MHz*33 / 15MB L3 Cache ) | |
散热器 | |
Intel RTS2011LC | |
(原厂水冷散热器 / 选配件 ) | |
内存模组 | |
Samsung 黑武士 DDR3-1600 4GB*4 | |
(SPD:9-9-9-24-1T) | |
主板 | |
ASUS Rampage IV Extreme | |
(Intel X79 Chipset) | |
硬盘 | |
Hitachi 1T | |
(1TB / 7200RPM / 16M 50GB NTFS | |
电源供应器 | |
NERMAX 白金冰核 1500W | |
(CSCI Platinum 80Plus / 1500W) | |
显示器 | |
DELL UltraSharp 3008WFP | |
(30英寸LCD / 2560*1600分辨率) |
为保证系统平台具有最佳的稳定性,此次硬件评测中所使用的操作系统均为Microsoft Windows 7 正版授权产品。使用Windows 7正版软件能够获得最好的兼容性以及系统升级更新服务。
用户在体验或购买安装Windows 7的操作系统时请认准所装系统是否已经获得正版授权许可!未经授权的非正版软件将无法获得包括更新等功能在内的Windows 7服务。
操 作 系 统 及 驱 动 | |
操作系统 | |
Microsoft Windows 7 Ultimate RTM SP1 | |
(64bit / 版本号7601) | |
主板芯片组驱动 | |
Intel Chipset Device Software for Win7 | |
(WHQL / 版本号 9.2.3.1022) | |
AMD 显卡驱动 | |
AMD Catalsyt | |
(官方正式版 / 版本号 12.8) | |
NVIDIA 显卡驱动 | |
NVIDIA Forceware | |
(Beta / 版本号 306.23) | |
|
桌面环境 |
2560*1600_32bit 60Hz |
与之前的GeForce GTX 660Ti一样,在本次测试中,我们调整了参测游戏项目的分布情况,减小DirectX 9/10游戏的测试部分,加大了DirectX 11及较新发售的游戏的比重。具体变更如下:以《暗黑破坏神3》取代《魔兽世界》测试,取消了因uplay升级而无法正常进行的《H.A.W.X 2》测试,取消了较老的《Crysis》以及《Farcry2》测试,分别用DirectX 11游戏《幕府将军2:武士之殇》、《Dirt 3》、《蝙蝠侠:阿克汉姆之城》以及《上古卷轴5:天际》来替换上述游戏及其他被取消游戏进行测试。经过调整,非DirectX 11游戏在测试游戏中的总数下降到了2款,这将会让整体测试结果更加贴近当前应用更新的趋势。
除此之外,由于本次NVIDIA同时发布了两款性能跨度极大的产品,因此我们将测试以产品阶层划分为了3个部分。所有参测显卡均完成1920X1200X4AA环境下的测试,针对GeForce GTX 560Ti/Radeon HD6850以上级别产品,也就是旗舰级和甜品级产品线,我们将进行2560X1600X4AA设置的测试,而针对GeForce GTX 660Ti/Radeon HD7870以下级别的产品,也就是甜品级、中端以及低端产品线,我们将进行1920X1200X0AA/Post AA环境的测试。最终的游戏性能比率环节,我们将针对全部产品进行1920X1200 4XAA环境下的性能比较。
33理论性能测试:3DMark Series
● 理论性能测试:3DMark Series
3DmarkVantage及3Dmark11是Futuremark推出的显卡3D性能测试,两款软件分别针对DirectX 10及DirectX 11显卡。测试成绩主要由显卡测试和CPU测试两部分总和构成,整个测试软件更加偏重整机性能。
3Dmark Vantage
3Dmark 11
3Dmark Vantage X mode测试结果
理论测试环节,GeForce® GTX 660表现出了优秀的下位甜品级产品性能,它的理论性能领先同样定位的Radeon HD7850。而作为低端游戏级显卡出现的GeForce® GTX 650也取得了上佳的表现,它的理论测试性能甚至超越了下位中端定位的Radeon HD7750。
34非DirectX 11游戏测试:暗黑破坏神3
《暗黑破坏神3》是著名动作角色扮演游戏《暗黑破坏神2》的续作,游戏故事发生于《暗黑破坏神2》的20年之后。玩家可以在五种不同的职业中进行选择,每种职业都有一套独特的魔法和技能。玩家在冒险中可以体验丰富多样的设置、感受史诗般的故事情节,挑战无以计数的恶魔、怪物和强大的BOSS,逐渐累积经验,增强能力,并且获得具有神奇力量的物品。
暗黑破坏神3
我们采用的测试场景选择伪第三幕戍卫要塞的第一个任务——点燃篝火。该场景存在大量激烈群战以及快速场景切换,场景地形复杂且变化较多,玩家在进行这里的游戏时会经历比平时更大幅度的FPS变化。测试方法为获得首个任务之后移动到天冠城垛入口并开始记录帧数,然后以相同的由近至远的顺序点燃篝火并以相同单一技能与沿途敌人进行战斗且消灭之,直至最后一个篝火被点燃为止。测试平均时长417秒,测试进行3次,取平均帧数作为测试结果。
1920分辨率4AA环境暗黑破坏神3测试结果
暴雪并不以强大的图形表现见长,但Diablo3精美的画面以及绚丽的特效依旧可以对显卡造成了不小的压迫。在Diablo3的测试中,GeForce® GTX 660和GeForce® GTX 650均表现出了令人满意的性能。
35非DirectX 11游戏测试:Call of Duty MW3
● 非DirectX 11游戏测试:Call of Duty MW3
由动视暴雪于11年11月初发布的使命召唤:现代战争3延续了前作的诸多特色,其完美的剧情创造了良好的代入感。图形引擎方面则沿用和改进了已经服役两年的IW4.0+引擎,因此拥有良好的硬件“亲和力”。
使命召唤8
我们选择游戏第一关过场动画结束主角翻车至玩家再次恢复控制之间的即时渲染部分作为测试场景,无人为控制干扰因素,测试时长50秒,测试执行3次,取期间的平均帧数作为最终测试结果。
1920分辨率4AA环境COD8测试
无论是极限环境还是常规的1920分辨率,GeForce® GTX 660在使命召唤:现代战争3中均可以表现出令人满意的流畅帧数,并且超越同样定位的Radeon HD7850。作为低端出现的GeForce® GTX 650同样达到了HD7750的水平,这种越级的性能表现令人印象深刻。
36DirectX 11游戏测试:Crysis2
● DirectX 11游戏测试:Crysis2
《孤岛危机2》是《孤岛危机》的续作,游戏采CryENGINE 3引擎所制作,故事发生在距一代3年后的2023年。外星人在地球上的大片区域挑起了战争,各大城市都遭到攻击,人口锐减,玩家将要进行捍卫地球的末日战争。
孤岛危机2
我们采用Crysis2 BenchmarkTool来完成测试,场景选择Downtown,测试进行三次,取最高成绩作为最终测试结果。
1920分辨率4AA环境Crysis2测试
Crysis2依旧以画面标杆以及硬件杀手的身份出现在了我们的测试中。GeForce® GTX 660可以在常规的1920分辨率下取得流畅的游戏体验,而GeForce® GTX 650如果想取得令人满意的帧数,我们认为进一步降低分辨率并关闭post AA更为可行。
37DirectX 11游戏测试:Metro 2033
● DirectX 11游戏测试:Metro 2033
本作题材基于俄罗斯最畅销小说Dmitry Glukhovsky。由乌克兰4A游戏工作室开发,采用4A游戏引擎,而且PC版支持nvidia的PhysX物理特效。 2013年,世界被一次灾难性事件毁灭,几乎所有的人类都被消灭,而且地面已经被污染无法生存,极少数幸存者存活在莫斯科的深度地下避难所里,人类文明进入了新的黑暗时代。直至2033年,整整一代人出生并在地下成长,他们长期被困在“地铁站”的城市。
地铁2033
我们采取游戏提供的Benchmark程序来完成测试,该Benchmark所包含的场景具有光照系统,烟雾系统,DOF表现以及秘籍交战场景,能够全面反映显卡在面对Compute Shader以及超高分辨率材质时的表现。
1920分辨率4AA环境地铁2033测试
地铁2033的测试一如既往的令我们感到沮丧。在这款超级硬件杀手面前,这世界上现存的几乎所有单卡都无法保证实时的流畅体验。我们建议用户在运行这款游戏的过程中适当关闭抗锯齿以及对性能杀伤力极高的DOF特效,以便获取更加流畅的体验。
38DirectX 11游戏测试:幕府将军2武士之殇
● DirectX 11游戏测试:幕府将军2武士之殇
《幕府将军2:武士之殇》背景设在在关原之战四百年后,19世纪的日本再次陷入动乱,引进西洋兵器军制的尊皇派与代表守旧武士传统的江户幕府剑拔弩张,大战一触即发。 西洋列强三国英法美将在游戏中出场,坚船利炮轰开国门,激起了一场改变日本国运的血腥内战。玩家将从6个重要强藩中选择一家,为各自所持的正义而战。
幕府将军2:武士之殇
我们采用运行游戏自定义历史战役第一关开场即时渲染部分的方式来完成测试,测试由开始战役起至进入玩家控制环节为止,整个过程包含大量人物角色、植被、复杂模型等渲染需求,无人为控制干扰。测试进行三次,取三次平均值作为最终结果。
1920分辨率4AA环境幕府将军2测试
幕府将军2:武士之殇在采用了DirectX 11特性之后同样升格成了一款硬件杀手游戏,GeForce® GTX 660在1920X1200X4AA环境下取得了突破30帧的测试结果,而对于GeForce® GTX 650来说,也许降低分辨率更适合它低端游戏级显卡的定位。
39DirectX 11游戏测试:LostPlanet 2
● DirectX 11游戏测试:LostPlanet 2
《失落的星球2》背景设在原来第一季的十年后。气候变化融化冰雪覆盖的大陆,创造了新的环境,如丛林。在EDN-3rd的改变下,10年过去了。地球发生了重大改变,冰川已经融化,热带丛林,沙漠冷酷无情。玩家将进入新的环境,与雪贼战斗,以抓住不断变化的地球控制权。玩家将控制他们的英雄跨越6个相互关联的事件,创造一个真正独特的互动体验。有了这个概念,玩家将会有机会从不同的发展角度来动态的改变故事情节。
失落星球2
我们采用游戏自带的Benchmark来完成测试,测试进行三次,取三次平均值作为最终结果。
1920分辨率4AA环境失落星球2测试
在失落星球2的测试中,GeForce® GTX 660以及GeForce® GTX 650均取得了不错的测试结果。前者可以继续挑战极限分辨率环境,而后者在关闭AA之后也取得了可以接受的游戏流畅度。
40DirectX 11游戏测试:Dirt 3
● DirectX 11游戏测试:Dirt 3
《Dirt 3》是Codemasters制作发行的一款赛车竞速单机游戏,作为AMD Gaming Evolution的一款游戏,它采用与《F1 2010》同样的Ego引擎,支持DirectX 11 API,拥有更加拟真的天气系统及画面效果。游戏将包含冰雪场景、动态天气、YouTube上传、经典的赛车、分屏对战、party模式、开放世界、更多真实世界中的赞助商和车手等特点。
我们采用游戏自带的Benchmark来完成测试,最终结果以显示平均帧数为准。
1920分辨率4AA环境尘埃3测试
尘埃3的测试以皆大欢喜告终。GeForce® GTX 660以下位甜品级的身份取得了全分辨率全环境的流畅表现,同时在关闭AA的状态下甚至还超越了更高级定位的Radeon HD7870。而GeForce® GTX 650也在测试环节中顺利达到了流畅的图形表现,其性能超越了Radeon HD7750。
41DirectX 11游戏测试:蝙蝠侠阿克汉姆之城
● DirectX 11游戏测试:蝙蝠侠阿克汉姆之城
蝙蝠侠:阿甘之城(Batman: Arkham City)是2009年最佳动作游戏《蝙蝠侠:阿甘疯人院》的续作,由华纳兄弟出品,该作由Rocksteady工作室负责开发,世界架构仍然建立在《阿克汉姆疯人院》的气氛上,不过这次上升至阿克汉姆之城——高谭市内戒备森严的,关押了大量暴徒的监狱之中。新作汇集了众多明星参与的配音阵容以及蝙蝠侠中的极度凶残的恶棍,并改进和加强了一游戏特点,让玩家们拥有像《蝙蝠侠:黑暗骑士》一般的终极游戏体验。
蝙蝠侠:阿克汉姆之城
我们采用游戏自带Benchmark进行性能测试。测试进行三次,取三次平均值作为最终结果。
1920分辨率4AA环境蝙蝠侠2测试
蝙蝠侠系列不仅剧情及游戏性出色,其图形表现同样可圈可点。在这款游戏的测试过程中,无论GeForce® GTX 660还是GeForce® GTX 650均取得了足以流畅运行游戏的帧数表现。
42DirectX 11游戏测试:上古卷轴5
《上古卷轴5:天际》是Bethesda五年磨一剑的《上古卷轴》系列新作,Bethesda将提供充满无限期待与幻想的诺德大陆,本作将会和上古卷轴4拥有同等大小的地图。在这广阔的地图之上,Bethesda工作室给玩家提供了超过120个不重复的地下迷宫,以及5个规模宏大的城市供玩家探索,而玩家将在这个奇异自由的世界踏上史诗性的征程,使用自己心仪的武器装备自己擅长的技能,去和巨兽,飞龙战斗。前作作为引领PC硬件新潮流的RPG,续作的配置则平易近人,不过Bethesda依然为该作注入了新元素,那就是新引擎“创造”打造的重峦叠嶂的规模与细节的华丽。
上古卷轴5:天际
我们采用运行游戏开始场景直至马车进入村庄且玩家恢复对角色控制为止,并记录过程平均帧数的方式来完成测试,测试过程无人为控制干扰。测试进行三次,取三次平均值作为最终结果。
1920分辨率4AA环境上古卷轴5测试
上古卷轴5对于显卡的需求更加偏重于材质方面,因此参测显卡在测试过程中均取得了较为理想且接近的性能表现。无论GeForce® GTX 660还是GeForce® GTX 650,玩家们都可以在游戏中体验到顺畅的帧数。
43DirectX 11应用测试:天堂3.0
● DirectX 11应用测试:天堂3.0
《Heaven Benchmark 3.0》是由俄罗斯Unigine游戏公司开发设计的一款Benchmark程序的最新版本,该程序是由Unigine公司自主研发的游戏引擎设计,支持DirectX 9、DirectX 10、DirectX 11与OpenGL 3.2 API,通过数十个场景的测试最终得出显卡的实际效能。
天堂3.0
1920分辨率天堂3.0测试
在天堂3.0的测试中,GeForce® GTX 660再次取得了越级挑战Radeon HD7870的表现,而GeForce® GTX 650也维持了紧追Radeon HD7750的性能水平。
44游戏性能综合比率
● 游戏性能综合比率
我们收集了全部9款参测游戏以及天堂3.0的帧数数据,分别以GeForce® GTX 660和GeForce® GTX 650为基础(100%)将在游戏中的表现与所有参测显卡进行了一一对比,下面就是所有参测显卡在全部测试游戏中相对于GeForce® GTX 660以及GeForce® GTX 650性能比率的平均值。
1920分辨率参测显卡性能比率分布状态
通过对数据的收集,我们总结出了GeForce® GTX 660以及GeForce® GTX 650的性能排位情况。从表中可以看出,GeForce® GTX 660在我们测试的游戏环境下表现出了紧贴Radeon HD7870的性能水平,两者之间的差距小于3%,作为一款与Radeon HD7850定位相同的产品,这样的越级性能对抗的态势让我们回忆起了GeForce® GTX 660Ti的出色表现。而GeForce® GTX 650则成功的将GK107架构真实的基本性能表现带到了我们的面前,它以更小的芯片面积和运算资源规模追平了定位下位中端级产品的Radeon HD7750。
45通用计算延展测试:Fluid simulation
● 通用计算延展测试:Fluid simulation
架构底层延展测试是ZOL显卡频道传统的测试环节,我们会通过底层架构直接运行数学应用的形式来反应GPU的通用计算及图形通用计算效率。由于300系列驱动对OpenCL的支持存在问题,同时GPU Boost对于频率的调节会干扰底层运算性能的“纯净度”,因此我们决定放弃基于OpenCL的通用计算测试软件——GPCBenchmark,改用DirectX SDK来完成底层性能数据的收集。待到NVIDIA®的官方驱动能够提供正确的OpenCL支持以及可以关闭GPU Boost的设置之后,我们将会补上GPCBenchmark的相关测试。
我们首先进行的DirectX SDK测试,是使用Direct Compute完成的流体力学模拟——Fluid dynamics simulation。Fluid dynamics simulation基于弹性力/黏着力/重力为基础的颗粒碰撞模拟,每一个颗粒均拥有独立的力学参数,通过对颗粒本身在统一的重力参数作用下自有力学参数以及交互作用的计算,可以模拟大量颗粒的行为并达到模拟由它们构成的“流体”特性的目的。
Fluid dynamics simulation
Fluid dynamics simulation分别提供了对shared性能以及Grid性能的测试,力学计算本身需要应用包括矩阵运算在内的多种数学方法,颗粒之间的力学交互作用存在条件分支关系,因此该项测试可以全面考验不同构架对图形通用计算以及有针对性的物理特效计算的性能。
Fluid dynamics simulation的测试为我们拉开了通用计算能力真相的一角,在民用的单精度通用计算环境下,整个Kepler架构都表现出了卓越的性能。强大的矩阵处理能力、良好的并行度以及条件分支应对能力表明GeForce® GTX 660拥有了完善的应对各种通用计算场合的能力。
46通用计算延展测试:Cascaded Shadow Maps
● 通用计算延展测试:Cascaded Shadow Maps
Cascaded Shadow Maps(CSM)是一种基于阴影深度进行的阴影判断及快速操作模式,CSM通过将整个阴影划分成若干级的层次,以层次内部像素的深度来定义和快速判断阴影位置,并对近景阴影采取高精度贴图,远景阴影采用低精度贴图的方式来达到节约资源同时快速准确实现阴影贴图的目的。CSM可以极大地加快阴影操作的速度,同时避免大多数因为光源形态、阴影深度与像素尺寸差异所导致的阴影边缘及内部贴图错误。
Cascaded Shadow Maps
CSM大量涉及矩阵运算及坐标判断,因此在DirectX 11环境下可以透过Compute Shader来进行。对CSM的性能测试,有助于我们了解构架的矩阵操作等通用计算性能。
CSM测试让我们进一步了解了Kepler架构在进行矩阵操作是的性能,它的结果可以近似替代GPCBenchmark测试中的矩阵乘法以及矩阵转置测试。优秀的矩阵操作能力是一款DirectX 11 GPU所应该具备的基本素质,从测试的结果来看,GeForce® GTX 660并没有让我们失望。所谓Kepler架构放弃通用计算能力的说法,其实是根本不存在的。
47通用计算延展测试:OIT
● 通用计算延展测试:OIT
半透明是3D图形中一种重要的特效,但传统的Alpha混合基本上无法完成对不同半透明物体以及同一物体不同半透明部分的层次判断,因此如果以Alpha操作来简单的实现半透明效果,很多时候获得结果都是错误的。所以在DirectX 11中,微软为我们引入了OIT(透明独立叠加)技术来解决这一问题。
OIT
在实现OIT技术的过程中,程序会将处于同一层次的部件所对应的线程/任务以Atomic(原子操作)的形式保护起来,使这些线程在被执行结束之前变成一个不可再分的整体。接下来这些Atomic会被放置在buffer中进行处理优先级的排序,通过这些操作,物体及部件所在的层次和正确的显示效果就被最终确定下来了。如果构架拥有cache等可读写近存近取缓冲,则可以极大地加快OIT的乱序操作过程。因此对OIT的性能测试,将可以让我们了解构架是否具有足够的灵活度、充足的缓冲密度以及完整的Atomic特性支持能力。
OIT考验的cache性能以及Atomic能力是通用计算的基础,良好的缓冲体系以及对线程的控制能力体现了构架最基本的灵活度。测试结果表明,凭借着Fermi架构的积累,拥有良好cache性能以及线程块处理能力的GeForce® GTX 660在面对通用计算以及DirectX 11图形任务时将会变得游刃有余,其性能甚至超越了竞争对手旗舰级的Radeon HD7970。
48通用计算延展测试:Nbody Gravity CS11
● 通用计算延展测试:Nbody Gravity CS11
Nbody Gravity的前身来自Nbody仿真,Nbody仿真的目的在于模拟一个多体系统的演化过程,该系统中的每个个体(Body)都会与周围的其他物体发生非接触力学吸引/排斥作用。通过Nbody仿真,我们可以获得大量长程力作用的系统,比如小到范德华力作用下的原子/分子群或者大到万有引力作用下的星系之类各色场合的模拟结果。对于气流等稀薄流体的模拟同样可以归约成Nbody仿真过程并予以解决。
Nbody Gravity
Nbody Gravity将场景设定为大量粒子在引力这一种基本长程力下高速运动作用形成的多体问题,尽管粒子间不考虑接触力学传递,但整体而言Nbody Gravity模拟与我们前面进行的Fluid dynamics simulation测试一样,都需要大量应用到矩阵操作等大量常见的数学方法。在此基础上,由于长程力一次影响的对象远较流体模拟中弹性碰撞传递所能够影响的对象要多,其背后所对应的线程量非常庞大,因此Nbody Gravity对于硬件构架的并行度有极高的要求。透过Nbody Gravity的测试,我们可以了解到被测对象的吞吐能力、对基本条件分支的应对能力、并行处理能力以及对矩阵等常规数学方法的处理能力。这些能力,最终都将反映构架执行DirectX 11特性尤其是Compute Shader的效率。
Nbody Gravity是一个传统的偏重吞吐以及并行化方向的测试过程,Kepler能够在这里继续维持对吞吐见长的Tahiti以及Pitcairn架构的优势,表明其已经充分达成了构架灵活度、缓冲灵活度以及理论吞吐性能三者之间的统一和平衡,我们认为这是Kepler构架能够表现出强大绝对性能以及极好的功耗性能比的重要原因。
49游戏级显卡的穿越对决
● 游戏级显卡的穿越对决
接下来的测试要相对趣味一些。GeForce® GTX 660作为一款下位甜品级产品,其主要面对的市场需求来自游戏级玩家。所以我们找来了一款数年前颇为经典的游戏级显卡——GeForce® 9800 GT,通过让其与GeForce® GTX 660进行一场直接对决,借以衡量一下NVIDIA®在过去数年间究竟取得了怎样程度的进步,游戏玩家又获得了多少性能提升。
3Dmark Vantage X mode测试结果
从测试结果来看,5年的时光并没有白白流走。相比于5年前的GeForce® 9800 GT,GeForce® GTX 660在理论测试中取得了6倍的性能增长,实际游戏测试也维持了3~4倍的实际性能提升。正是得益于这些进步,显卡性能的提升被转化成了更加绚丽的游戏体验,并在过去的5年时间里为我们带来了更多的欢乐和享受。
50furmark功耗及温度情况
● furmark功耗、温度及可超频情况
在功耗温度测试环节,我们采用Furmark满载的方式让显卡达到全负荷工作的方式,来收集GeForce® GTX 660的满载平台功耗以及温度数据。
GeForce® GTX 650待机平台功耗
Radeon HD7800系列显卡的满载功耗及温度表现可以通过我们之前的首测文章中找到,应该说GeForce® GTX 660以及GeForce® GTX 650的待机及满载温度功耗表现都是非常优秀并且优于Radeon HD7000的。
Furmark创造的满载状态如此,实际应用中的状态又会如何呢?
51直击要害:真正的游戏实际功耗
● 直击要害:真正的游戏实际功耗
也许你看到过许多自称是准确的游戏功耗测试,这些测试或采用固定时间间隔记录瞬时功耗并求平均值,或直接采用游戏测试过程中的最低/最高功耗取平均值,甚至可能就是直接偷瞄一眼某个游戏过程中的瞬时功耗来充当游戏过程功耗。非常遗憾,这些方法全部都是错误的。如果您看到的不是精度达到1W以上的功耗记录装置收集的游戏测试过程中的连续功耗数据,那么您看到的一切所谓实际功耗测试就都是错误的。
游戏及应用环境功耗测试的最大特点,就是特定时间片段内显卡及平台负载状态的低可重复性。游戏不同于渲染精确可重复画面的benchmark,在游戏测试过程中,不同场景以及不同的渲染状态会导致显卡及平台负载的大幅波动,而这种波动导致了精确重现某个时间片段内的功耗状况的困难,某次测试中第X秒的渲染负载以及功耗状态在下次测试中几乎完全无法被重现。因此,简单的固定时间间隔测试会因为波动出现位置的差异而产生巨大的功耗数据误差,并最终影响到实际功耗数据的真实性。
解决这一问题最简洁的办法是使用能够实时记录并输出连续瞬时功耗数据,同时精度能够达到0.1W甚至更高的专业仪器,但很遗憾,这种仪器通常十分昂贵,我们目前仍然缺乏这种精度能够满足要求的动态功耗记录的设备,所以我们不得不采用一种新的记录方法来规避这种问题——以记录不同游戏中平台消耗单位电量的时间,来计算游戏中的平均功耗状况。
我们分别以1W和5W为单位电量,精确记录测试平台在游戏测试过程中消耗1W以及5W电量所消耗的时间,以此来求的平台的每秒电量消耗状况,并以此来求的平台每小时消耗电量的情况。由于目标值固定,场景和负载对功耗的影响会被正确的反映在最终的时间数据中,因此我们获得的数据可以最大限度的避免低可重复性导致的错误数据陷阱,反映游戏测试过程中平台以及显卡最真实的功耗状态。
受限于篇幅,测试的更多原理解析以及过程将不会在这里向大家一一展示。我们将会以一期GPU炼金试验室栏目的篇幅详细介绍这种功耗测试法的细节,并专门针对不同显卡的实际功耗表现展开一系列的讨论。
52实际性能功耗比及性价比情况
● 实际性能功耗比及性价比情况
以下就是我们通过前页所介绍方法得出的GeForce® GTX 660以及Radeon HD7870在相同测试平台下运行不同游戏时的功耗值。可以看出,GeForce® GTX 660在大部分游戏过程中的实际功耗均低于Radeon HD7870,而在应用及理论测试类场景中情况则刚好相反。
我们的测试发现了一个非常有趣的现象——相比Radeon HD7870因游戏不同而发生的功耗变化,GeForce® GTX 660的功耗不仅更低要稳定很多。在大多数游戏中,它的功耗都非常贴近于240W这一数值。我们已经知道,GeForce® GTX 660的全平台furmark满载功耗是242.5W,因此我们可以得到这样的结论:GeForce® GTX 660在大部分游戏应用中,都可以以接近满载功耗的负载状态来进行工作。这一现象,非常好的契合了GPU Boost的设计初衷及实际结果。
GPU Boost可以有效的动态提升显卡性能
我们已经知道,GPU Boost是一个利用实际负载功耗与设计功耗上限之间的空间来管理并提升性能的技术。如果当前显卡的实际功耗小于设计功耗上限,那么GPU Boost就会利用提升频率的方式来将这部分空间转化为性能。因此,原则上所有支持GPU Boost功能的Kepler架构显卡,在运行实际游戏的过程中都将会表现出接近furmark满载状态的功耗情况,我们本次进行的功耗测试很好的支撑了这一结论。由于这一功耗并未超过NVIDIA®的芯片安全界限,因此使用Kepler显卡的用户将可以最大限度的通过GPU Boost技术在安全的前提下获得更多的性能。
通过更真实的游戏运行过程功耗情况,我们以实际游戏帧数为基础分别计算出了GeForce® GTX 660以及Radeon HD7870针对不同游戏的性能功耗比以及性能价格比,亦即每瓦特功耗能够产生的帧生成速率以及每元人民币能够产生的帧生成速率。
性能价格比
测试结果表明,无论消耗1瓦特电量还是花费1元人民币,GeForce® GTX 660都可以在实际游戏环境下为您带来更快的游戏帧数。即便是时时刻刻都工作在极为贴近满载的状态下并尽量多的释放着性能,GeForce® GTX 660的功耗依旧要低于Radeon HD7870。再配合十分接近甚至几乎超越的性能表现,我们认为得出GeForce® GTX 660在当前环境下拥有更好的性能功耗比以及性能价格比这样的结论应该是没有任何问题的了。
53测试总结:后DirectX 11战争时代来临
● 测试总结:后DirectX 11战争时代来临
伴随着GeForce® GTX 660/GK106架构的到来,以及GK107架构真实性能的清晰,NVIDIA®终于将第一代Kepler架构完整的呈现在了我们的面前。无论Tahiti,Pitcairn,Cape Verde还是GK104/106/107,AMD以及NVIDIA®的新显卡架构均已全部亮相,一场轰轰烈烈的全面对决,终于要在本代显卡出现9个月之后正式开始了。
GeForce® GTX 660的发布有多重意义,它的性能和表现是非常优秀的,这种表现完全可以满足占比最高的1920分辨率游戏玩家的需求。它不仅为NVIDIA®提供了更加完善的甜品级产品线,为所有人再次上演了越级挑战更高阶对手的好戏,更为我们勾勒出了更加完整的NVIDIA®芯片及架构布局。出现确认了第一代Kepler架构中“4变3”的架构布局调整,传统的8/6/4/2对应旗舰/甜品/中端/低端的布局已经被全新的3架构跨界衔接所取代。也许我们需要一个过程来适应NVIDIA®的这种转变,但毋庸置疑,几乎每一款产品都能越级挑战对手的表现完全可以消除我们对市场布局调整的担忧。无论4变3与否,Kepler架构的产品性能和表现都是令人满意的。
相比于GeForce® GTX 660,GeForce® GTX 650的意义要更加直接和简洁。它的出现为我们带来了“真正的”GK107架构,同时帮我们进一步确认了NVIDIA®接下来的布局方向和意图。它的实际性能虽然已经超越了市场对低端产品的期待,甚至创造了“低端游戏级显卡”这一全新的产品领域,但它与GeForce® GTX 660之间的性能差距依旧过于巨大,再加上GK106架构仅仅发布了一款产品,我们完全有理由相信将会有更多GK106架构的产品来填补这一空缺。
架构线的布局完成意味着全面显卡大战的到来,伴随着双方产品线的完善,我们即将迎来真正属于市场的表演时间。但能否将市场真正运作起来,为用户带来更多更优秀产品的同时为自己赚取更多利润,将是摆在AMD/NVIDIA®这对老冤家面前最紧要的问题。
对于当前的NVIDIA®来说,最需要做到的事情是“冷静”。Kepler架构的各方面表现都相当优秀并超乎所有人的预期,我们都渴望这些优秀的表现为我们带来更多更好的游戏体验,所以这种优秀不应该被转化成自负或者“被胜利冲昏头脑”之类很传统的负面的东西。4变3的芯片布局带来了许多市场细分方面的实际问题,其中最典型的问题就是对性能的合理控制以及产品定位。如果对性能控制失当,GK107先期发布之后为人们带来的对其性能和效率的误解将会重演。而产品定位的明确则更加重要,越级挑战的好戏虽然精彩,但毕竟它是胜利之外锦上添花的要素,如果因为频繁的越级挑战而丧失了对产品合理判断和定位能力,错误的将越级挑战当成理所当然的事并将产品不正确的定位到更高级别的区间中去,其后果将会是非常严重的。决定产品命运的是市场,而市场只会接受真正优秀的产品,不会接受“拖大”的产品。
对于AMD来说,尽管对手的优异表现以及自身频繁出现的错误让它浪费了近6个月的大好时光,并且不得不在竞争对手产品发布之后令人沮丧的进行了两次甚至还可能会有第三次的调价,但这一切也并不意味着绝望。AMD现在所需要的是“行动”,伴随着第一代Kepler架构的全数登场,通过合理的预期尽快同时尽可能准确地判断竞争对手的行为是当前AMD的当务之急。如果可以尽量避免调价不到位以及多次调价对市场造成的冲击和动荡,将这一代HD7000产品尽快带入到更具有性价比的价格区间中,市场接受度带来的出货量的提升以及信心的回升完全可以让AMD在这一带显卡的竞争过程中取得更好的成绩。
我们在每次芯片级首测的结尾都会留下这样一些给AN双方的文字,这些文字看似妄自菲薄,实际上都出自我们对更优秀产品的渴望。如果竞争的双方能够同时保持优秀的表现,市场需求将会因此而获得提振,更多玩家获得优秀硬件并产生的游戏需求将会进一步良性刺激整个产业的发展,AMD/NVIDIA®也将因此而获得更多机会并将这种理想的良性循环持续推动下去。对于我们所有人来说,这应该都是理想的结局。
GeForce® GTX 660和GeForce® GTX 650的到来正式吹响了金秋显卡大战的号角,更加精彩和正式的全面市场大战即将展开,让我们一起期待双方更加精彩的表现吧。
54产品参数对比
七彩虹iGame660 烈焰战神X D5 2048M和索泰GTX660-2GD5 极速版 HA和影驰GTX 660黑将和Inno3D GTX 660 冰龙版和华硕GTX660 DiretCU II TOP和微星N660 TF 2GD5/OC和耕昇 GTX 660 赵云版和七彩虹iGame650 烈焰战神U D5 1024M和索泰GTX650-1GD5 雷霆版 PA和影驰GTX 650 黑将有什么区别
GeForce GTX 660和GeForce GTX 650是NVIDIA定位在千元上/下两个重要价位段的核心产品,性价比、性能功耗比突出,是主流级消费市场未来生力军。本文通过常规的3D性能测试、特色的功耗/温度测试以及直观的性能排行榜,为您提供最权威、最全面的首发测试。
推荐经销商