逼A卡价格现原形 GTX680性能全面测试

2012-03-22 20:00:00 [ 中关村在线原创 ] 作者：

顾杰

收藏文章分页阅读

新浪微博 QQ空间 QQ好友微信二维码

暂无评论

产品：GTX680 影驰显卡

1手提箱核弹正式发布

　　“小”在很多时候都意味着一些负面的东西，比如说“柔弱”、“缓慢”等等。但其实很多看上去很小的东西往往会表现得出人意料的强大，比如说手提箱核弹，比如说GTX680……

　　北京时间2012年3月22日21时，美国西海岸时间2012年3月22日6时，NVIDIA正式发布了第二代DirectX 11图形构架产品——代号Kepler的GTX680。这是一款集小巧、低成本、低功耗以及高性能于一身的全新产品，它将会直接以最高规格单芯旗舰的身份面对竞争对手AMD于3个月之前发布的Tahiti构架旗舰产品HD7970。

性能颠覆显卡规律 GTX680首发测试报告

　　每次NVIDIA与AMD全新图形构架的对决总是充满了戏剧性同时抓人眼球，我们总是会期待两家能够为我们带来更加高效的全新结构以及更加出色地产品。但毕竟这对冤家之间的故事已经持续了5年多了，我们已经渐渐地习惯了NVIDIA提供的性能更强但尺寸更大的芯片，也习惯了AMD为我们带来的“小核心策略”以及单卡双芯卡皇。虽然每次构架更迭都会带来更多惊喜，但一些仿佛约定俗成的规律正在慢慢的占据着我们的潜意识。

GTX680正式发布了

　　按照GPU发展的一般性规律，能够提供更大规模以及更大尺寸的芯片面积的构架，在绝对性能上是不会输给更小的同代对手的。无论是G80对R600，G92对RV670，GT200对RV770还是最近的GF100/110对Evengreen/Cayman，NVIDIA已经习惯了做单芯片性能的胜利者，而AMD则总能通过双芯获得卡皇的位置。

　　但是这一次，事情好像有点不大对头了——初见之下的GTX680一上来就打破了我们传统的认知，无论芯片尺寸还是整体规模，它都比HD7970要来的更小。但在此基础上，它却拥有了高于HD7970的最终性能，而且几乎在所有场合都能保持一定程度的领先。

这颗“手提箱核弹”究竟藏着多少秘密？

　　个头小但却更快，难道一般规律已经死掉了么？我不得不抱歉的通知你：是的。这款尺寸小巧但威力却如同手提箱核弹一般的全新GPU的到来，意味着“能够提供更大规模以及更大尺寸的芯片面积的构架，在绝对性能上是不会输给更小的同代对手的”这条统治GPU界许多年的基本规律被无情地打破了。在今天的首测及构架解析文章中，我们将会同你一起经历一场关于基本认知的变革。

产品：GTX680 影驰显卡

2GTX680规格一览

　　● GTX680规格一览

　　GTX680基于全新的Kepler图形构架，拥有超过35亿的晶体管规模，核心面积294平方毫米，仅为HD7970的80.5%。与上代的Fermi构架相比，其运算资源总量提升到了1536个ALU，Texture Filter Unit由Fermi的64个增加到了128个，构成后端的ROP则下降为32个。GTX680拥有全新设计的MC结构，4个64bit双通道显存控制器组合形成了全新的256bit显存控制单元，GTX680也因此采用了容量达2048MB的显存体系。

GTX 680 显卡对位产品规格比较表
显卡型号	GeForce GTX 680	Radeon HD 7970	Radeon HD 6970	GeForce GTX 580
市场定价	3999元	4299 元	2999元	3999 元
GPU代号	GK104	Tahiti	Cayman	GF110
GPU工艺	28 nm	28 nm	40 nm	40 nm
GPU晶体管	35.5 亿	43 亿	26.7 亿	30 亿
着色器数量	1536	2048	1536	512
着色器组织	1D*1536	Vector*2048	4D*384	1D *512
ROPs数量	32	32	32	48
纹理单元数量	128	128	96	64
核心频率	1006 MHz	925 MHz	880 MHz	772 MHz
着色器频率	1006 MHz	925 MHz	880 MHz	1544 MHz
理论计算能力	3.09 TFLOPs	3.79 TFLOPs	2.7 TFLOPs	2.37 TFLOPs
等效内存频率	6000 MHz	5500 MHz	5500 MHz	4008 MHz
内存位宽	256 bit	384 bit	256 bit	384 bit
内存带宽	192.3 GB/S	264 GB/s	176 GB/s	192.4 GB/s
内存类型	GDDR5	GDDR5	GDDR5	GDDR5
内存容量	2048 MB	3072 MB	2048 MB	1536 MB
DX版本支持	11.1	11.1	11	11
HD视频技术	PureVideo HD+NVENC	UVD3.0 VCE	UVD3	PureVideo HD
通用计算接口	CUDA	Stream	Stream	CUDA

　　GTX680的默认核心及显存运行频率为1006/6000MHz，默认Pixel Fillrate能力为32.2G/S，默认Texture Fillrate能力为128.8G/S。显存带宽192GB/S。拥有3.07T的单精度浮点运算能力。

　　GTX680的特色由六个主要的部分组成：

　　1、基于HKMG的TSMC全新28nm工艺以及由此带来的高性能功耗比。

　　2、与Fermi完全相同的4XGPC宏观并行设计。

　　3、8个包含了几何引擎、光栅化引擎以及线程仲裁管理机制的SMX单元。每个SMX单元包含一组改进型的负责出力几何任务需求的PolyMorph Engine，192个负责处理运算任务及Pixel Shader的ALU，16个负责处理材质以及特种运算任务如卷积、快速傅里叶变换等的Texture Array，二级线程管理机制以及与它们对应的shared+unified cache等缓冲体系。

　　4、负责完成fillrate过程以及输出最终画面的32个ROP单元阵列，以及对应L2 cache的4个64bit显存控制器MC（Memory Controller），负责视频回放及处理的PureVideo HD单元，以及全新的负责视频编码部分的NVENC。

　　5、根据功耗以及用户自定义负载需求实时调节GPU的GPU Boost功能，全新的TXAA以及抑制画面撕裂和顿挫的Adaptive VSync主动垂直同步技术。

　　6、单卡4屏输出以及单卡3屏3D Vision输出。

GTX680核心照片

　　Kepler构架与Fermi构架在宏观层面上非常接近，其改进主要集中在微观结构以及功能性层面，诸如ALU团簇的单元、Cache以及线程仲裁机制、调度器动作规则、动态频率调节体系以及单卡多屏输出等等。接下来，就让我们一起看一看GTX680都有哪些细节上的改进吧。

产品：GTX680 影驰显卡

3这堂课叫“性能功耗比”

　　● 这堂课叫“性能功耗比”

　　纵观整个芯片，本次GTX680最首要的特色在于强调绝对性能的同时将性能功耗比的地位突出到了一个前所未有的高度。在提供强劲性能的同时尽一切可能控制芯片的功耗和发热，成了NVIDIA在Kepler构架中最首要的任务。

　　在GTX680芯片中，NVIDIA启用了TSMC全新的28nm HKMG（高介电金属栅极）工艺进行生产，TSMC的28nm HKMG工艺引入了诸多先进的制造方式以及技术，工艺进步所带来了更小的节点尺寸以及与之对应的更低的亚阈/阈值电压，不仅更好的控制了芯片的整体发热和功耗，更可让芯片面积得以大幅缩小。

性能颠覆显卡规律 GTX680首发测试报告
TSMC 28nm Wafer

　　GTX680的默认电压仅为0.987V，这一数值极为接近TSMC 28nm时代的Vt。配合High-K（高介电常数）材料的引入，GateLast（后栅）处理，以及nMOS/pMOS分开处理的金属栅极，GTX680具备了极佳的漏电控制表现，这为其带来了很低的运行功耗及满载功耗，其设计TDP仅为195W，搭配双6pin供电接口即可满足超过1G的高频满载运行的需求。以其最终表现出来的绝对性能来衡量，GTX680的功耗表现可以说是空前的。

新工艺大幅降低了GTX680的发热

　　除了较低的运行功耗之外，GTX680常规使用甚至满载环境下“清凉”的温度表现也给我们留下了深刻的印象，与竞争对手大尺寸均热板的散热方案以及实际温度表现相比，GTX680以常规内嵌式热管的散热方案获得了比对手更好的温度和发热表现，这大大出乎了所有人的意料。

3扁平热管的常规散热解决方案

　　先进的工艺可以保证良好的静态待机以及运行功耗表现，但要想真正获得更高的性能功耗比，效率更高的构架逻辑结构设计是必不可少的。接下来，据让我们来看一看GTX680采用的Kepler构架在微观结构以及功能性方面都做出了哪些改进吧。

产品：GTX680 影驰显卡

4再见了“分频君”

　　● 再见了“分频君”

　　在GTX680的诸多特性中，首先映入眼帘的同时也是最引人关注的地方，在于NVIDIA放弃了沿用长达6年之久的ALU分频方案。GTX680不再采用ALU Hot clock，而是回归到了ALU与整个核心同频的常规方案上。

　　分频设计对于ALU来说是一把双刃剑，它可以让NVIDIA以更少的运算资源总量来实现更大的吞吐，而更少的运算资源总量可以减轻对包括互联资源在内的很多周边资源造成的压迫，但由分频导致的过高的ALU运行频率也会给整个GPU芯片带来了极为沉重的负担。现代GPU的ALU及其相关部分所占的比例相当巨大，ALU的运行频率如果过高显然会更早的触碰到芯片所能够耐受的频率极限，这不仅会造就更高的局部发热从而大幅推升整个GPU的发热总量，还会影响其他不得不运行在较低频率上的流水线部件的性能。

ALU分频被弃用

　　通俗的说，过高的ALU分频频率让TMU以及ROP之类的单元不得不运行在“较低”的分频前频率上，这对于整个图形流水线的延迟平衡其实是极为不利的。事实上NVIDIA GPU在过去数代中一直都受到了来自Texture性能等方面的影响，而这其中有相当一部分原因来自其TMU较低的运行频率。在这种情况下，弃用分频技术来换取shader性能以外的提升就显得很自然了。

性能颠覆显卡规律 GTX680首发测试报告
未采用ALU分频的GK104在各项性能参数上仍然高于GF110

　　通过启用同频方案，NVIDIA获得了比过去多80%的逻辑结构余量以及50%的单位频率功耗空间，对这部分资源的应用让GTX680获得了极其出色的性能功耗比，同时也有了更好的余量来进行ALU总量的释放。

产品：GTX680 影驰显卡

5庞大的SMX以及更快速的cache

　　● 庞大的SMX以及更快速的cache

　　SM是NVIDIA GPU的ALU团簇基本单元，在GTX680中SM部分的改进可谓翻天覆地，NVIDIA采用的全新的SMX单元彻底改变了传统的SM单元的内涵。

　　GTX680所采用的SMX单元与Fermi的SM单元在逻辑结构上十分近似，都拥有完整的几何前端，线程仲裁机制，ALU团簇，Texture Array以及unified cache/shared和Register。除了没有后端之外，可以说一个SM/SMX单元在结构上已经趋近等同于一颗标准GPU了。

性能颠覆显卡规律 GTX680首发测试报告
GTX680逻辑构架

　　与Fermi的SM单元规模对应线程粒度单位warp（32 ALU VS 32 Thread）不同，GTX680的SMX单元急剧放大了ALU团簇的整体规模，其ALU总量从过去的32个增加到了192个。与此同时，SMX单元的线程仲裁管理机制也得到了放大。负责线程分派和发放管理的Warp Scheduler从过去的两个增加到了4个，与之对应的Dispatch Unit从过去的2个增加到了8个，Warp Scheduler与Dispatch Unit的比例提升到了1:2，这些举措可以有效的改善单元规模增大带来的线程分派及管理压力。

SMX单元结构

　　在放大ALU团簇以及线程仲裁机制的同时，NVIDIA还进一步放大了与ALU团簇对应的Register。根据NV提供的资料，GTX680中每个SMX的Register较之Fermi的SM放大了一倍，达到了65536X32bit的规模。

　　在Unified Cache体系方面，GTX680与传统的Fermi在结构上没有多大的差异，其L1/shared以及L2 cache的大小和比例均未发生变化，仍旧维持64K的L1/Shared以及128K/MC的L2尺寸。整个体系中最值得关注的变动来自L2 cache速度以及带宽的提升，NVIDIA称GTX680的L2 cache目前运行在分频状态下，默认运行频率是核心频率的一倍，这为GTX680提供了比过去大得多的L2带宽，这为通用计算性能以及Texture性能的提升创造了有利的条件。

更为强劲的SMX性能

　　更大的ALU规模、更多的线程仲裁机制以及更大的寄存器缓冲为SMX带来了全新的性能表现，新的逻辑设计让GTX680的运算单元拥有了2倍于Fermi的性能功耗比。但我们同时注意到NVIDIA公布的诸多数据与其极高的实际性能很难直接对应，包括线程粒度是否发生变化、half warp是否依旧存在、寄存器是否充足以及Instruction cache总线是否已经从L1中独立出来等问题NVIDIA均未予以正面回答，因此我们会保持对SMX单元以及整个GTX680 ISA细节的持续关注，并在后续为你带来更多专门的分析文章。

产品：GTX680 影驰显卡

6第二代几何处理引擎

　　● 第二代几何处理引擎

　　在上一代的Fermi构架中，NVIDIA为每个SM都配备了完整的PolyMorph Engine（几何处理引擎），16个SM单元意味着Fermi拥有16个能够进行Tessellation处理的几何引擎。在GTX680中，由于SMX单元结构的巨变以及总量的减少，8个SMX单元理论上仅能对应8组几何引擎，因此NVIDIA对PolyMorph Engine进行了改进，使之能够在总量减少的前提下维持性能。

性能颠覆显卡规律 GTX680首发测试报告
PolyMorph Engine 2.0以及线程仲裁机制

　　PolyMorph Engine 2.0引擎在结构上与PolyMorph Engine 1.0差异不大，均由Vertex Fetch、Tessellator、Viewport Transform、Setup以及Output单元构成。但在PolyMorph Engine 2.0引擎中，NVIDIA加大了Tessellator单元的规模，同时还借鉴了AMD在Cayman以及Tahiti中的经验，通过优化线程以及Stream流的方式进一步加强了PolyMorph Engine在低负载下的几何处理能力。

GTX680曲面细分性能

　　通过改进，PolyMorph Engine 2.0拥有了2倍于Fermi的单位性能，这使得GTX680在PolyMorph Engine数量减少一倍的前提下依旧维持了极为强劲的几何性能和高负载下较低的性能衰减，同时在低负载下的几何性能也变得更加抢眼。

　　对于PolyMorph Engine 2.0的改进，我们会在本次测试中进行专门的SubD11项目测试。

产品：GTX680 影驰显卡

7黑科技的最深处：Scheduling过程

　　● 黑科技的最深处：Scheduling过程

　　在整个GTX680以及Kepler构架中，隐藏最深同时可能产生的影响也最为深远的改进，来自任务调度以及仲裁过程的巨大变化。

　　GPU的逻辑结构决定了它并不适合被用来执行关联度过高过深的条件分支过程，因此对于任务的关联性检查是整个GPU任务队列执行过程中一个非常重要的步骤。在以Fermi为代表的传统仲裁体系中，任务会在解码过程之后完成指令的关联性检查，如果指令存在超过一定限度的关联性，为了规避条件分支对性能产生的影响，这些指令会被重新打包以便ALU团簇进行吞吐。在完成这些关联性检查之后，明确执行方向的指令才会被送入流水线中进行执行。为了加快这一过程的速度，Fermi构架为这个过程提供了Multiport Post decode Queue以及对应Register的硬件支持。

性能颠覆显卡规律 GTX680首发测试报告
Kepler构架与Fermi构架执行Scheduling过程的差异

　　在Kepler构架中，这一传统的过程发生了巨大的变化，NVIDIA称在Kepler中任务会在解码之前根据Sched.info进行选择，然后直接进行解码并被送入流水线中完成后续处理。整个关联性检查以及指令重组等过程被一个简单的Sched.info-select所取代。在该过程下，指令从解码到执行几乎没有延迟，整个流水线因此获得了极高的执行效率。

　　对于这一改进，我们的评价是“这完全是一个黑科技”。从过程来看，这一看似简单的过程实际上已经具备了初步的分支预测的特质，这较之Fermi构架“随机抽取方向然后一条路跑到黑”的分支论断有了长足的进步。将任务关联性检查提前到解码过程之前也极大地加大了流水线的执行密度，进而提升了整个GPU的单元复用率。但受限于NVIDIA公布技术细节方面的保留，我们目前还无法深入到这一改进的核心部分。所以，我们暂且将其归结到诸多提升GTX680性能但却未被公布的“黑科技”中的一个，并将对其保持持续的关注。

产品：GTX680 影驰显卡

8GPU Boost：单元复用率的好基友

　　● GPU Boost：单元复用率的好基友

　　GTX680中引入的最具颠覆性的特性，来自GPU Boost技术带来的动态频率管理机制，它的出现彻底改变了人们对于性能及显卡使用方式的传统定义。

　　GPU Boost技术的核心内容，在于通过遍布全卡的数十个传感器实时收集数据，并根据这些数据及时掌握整卡的即时功耗状况，接下来根据当前功耗与设计TDP之前的差距，动态的调节GPU的运行频率，使其能够运行在更高的频率之上，以达到随时随地自动获取最大性能的目的。

性能颠覆显卡规律 GTX680首发测试报告
GPU Boost可以充分利用实际功耗与TDP的差值空间

　　每一款不同的游戏程序/应用因为各自不同的编程特点，在实际运行中会令构架反映出不同的负载或者说GPU使用情况，这种GPU负载的不同，归根结底是GPU构架的单元复用率以及程序对硬件不同组元使用率差异造成的欠载所导致的。这些无法避免的欠载，会让GPU在绝大多数场合都不会运行在设计功耗数值之上。欠载以及未能让GPU运行在既定满载功耗这一现象本身，实际上就是GPU内部单元复用率不足的外在表现。

　　当构架设计完成之后，构架的诸如单元复用率之类的特性也就随之凝固，游戏程序及应用程序在编写完成之后也要面临对不同构架使用情况发生凝固的情况。既然我们无法改变构架的单元复用率，也无法适时修改程序对单元的使用情况，同时两者的矛盾已经已经被体现在了实际运行功耗与设计功耗之间的差异上，那么增大整个构架的运行频率，善加利用实际功耗与设计功耗之间的差值空间来获得更高的总执行能力，就成了提升性能以及解决单元复用率不足矛盾的最好办法了。

GPU Boost在应用程序中是实时调整的

　　GPU Boost技术所进行的动作，实际上是建立在性能与功耗平衡的基础之上的。当前频率下单元复用率不足会带来实际功耗与设计功耗之间的差异，可以被等效成频率的提升额度。所以GPU Boost可以以TDP为终点，根据游戏中瞬时单元复用率决定的欠载情况决定GPU的实时运行频率，让GPU能够在功耗一直维持在设计水平的前提下，实时的获得最强的游戏性能。

　　与此同时，GPU Boost对于频率的控制还具有反向性。当玩家们觉得当前的游戏帧数远远大于自己的需求时，也可以通过对帧数的限定来让GPU Boost达到节能的目的。因为构架的单元复用率凝固且时时刻监控，较低的帧数需求也就意味着较低的频率，因此GPU Boost可以根据玩家限定的低于最大构架性能的帧数来实时下调GPU的运行频率，并达到节能以及换取更佳功耗表现的目的。

GPU Boost动作记录

　　我们必须强调的一点——GPU Boost并不是超频，起码不是单纯意义上的超频。传统意义上的超频是频率动作的终点，一旦超频完成，GPU频率将不会再根据任何情况发生变动。而GPU Boost对频率的调节是建立在实时真实功耗与TDP差值的基础之上的，它既可以让GPU充分利用功耗差值空间来运行在比超频频率更高的频率之上，又可以通过限定帧数需求来让GPU运行在更低的频率水平上。因此GPU Boost技术出现之后的超频，变成了频率控制的起点。

　　利用功耗空间动态调节频率来解决GPU内部单元复用率不足的矛盾，同时还可以反向的利用限定性能上限的方式来换取更好的功耗发热表现，这些特性让GPU Boost成了一个划时代的技术，它是目前为止我们所见过的最具想象力，同时也是最直接的综合性能/功耗管理手段。相信在未来的日子里，我们将会见到更多类似的通过外部努力来解决GPU单元复用率不足矛盾的方案出现。有关GPU Boost技术的更多细节以及重要意义，我们将会在稍后为您奉上专门的介绍文章。

产品：GTX680 影驰显卡

9主动式垂直同步：拒绝画面撕裂

　　● 主动式垂直同步：拒绝画面撕裂

　　Adaptive VSync是NVIDIA在GTX680中引入的另一个重要新功能。其最大的意义，在于改变传统垂直同步分段式的帧数管理模式，用更加平滑的帧数曲线来最大限度的避免画面撕裂的情况发生。

性能颠覆显卡规律 GTX680首发测试报告
传统的垂直同步依旧会带来画面撕裂和顿挫的问题

　　在传统的垂直同步设定中，帧数一般会被机械的划分成30以及60帧两档，当游戏帧数大于60帧时，垂直同步程序会将帧数限定在60帧，而当游戏实际帧数跌落到60帧以内时，垂直同步会将帧数限定成30帧。巨大的帧数落差不仅会给玩家们的游戏过程带来明显的顿挫感，同时还会导致画面撕裂等问题的出现，这不仅影响了游戏过程本身，更与垂直同步技术本身消除画面撕裂的初衷相悖。

GTX680的Adaptive VSync技术

　　在Adaptive VSync中，NVIDIA打破了传统垂直同步技术对帧数下限的限制，当游戏帧数低于60帧之后，Adaptive VSync将会尽量让帧数维持在当前水平，而不是像过去那样直接进入30帧档位。而当游戏帧数大于60帧时，传统的垂直同步机制依旧会发挥作用，游戏帧数依旧会如果去那样被限定在60帧上。

Adaptive VSync选单

　　相比与传统的垂直同步，Adaptive VSync技术能够带来更加平滑的帧数体验，避免帧数突然暴跌带来的最小帧问题，提升整个游戏的流畅度体验。在此基础上，Adaptive VSync并没有干扰帧数大于60时垂直同步机制的正常工作，因此从深层意义上来讲，Adaptive VSync才是真正实现垂直同步初衷的帧数控制机制。

产品：GTX680 影驰显卡

10全新边缘采样抗锯齿：TXAA

　　● 全新边缘检查抗锯齿：TXAA

　　抗锯齿技术一直都是平滑物体边缘，提升模型精细度以及视觉美感的重要手段。从最开始的超级采样，到后来的多重采样以及CSAA等极富特色的采样形式，抗锯齿一直都是显卡发展重要的组成部分。

FXAA抗锯齿模式

　　伴随着DirectX 11的出现，GPU的通用计算性能被越来越多的直接应用在了图形计算过程中，这其中也包含了抗锯齿过程。使用Compute Shader带来的A-buffer等全新特性，边缘检查为主的MLAA以及FXAA这两种全新的抗锯齿形式获得了很好的接受度和支持度。而此次在GTX680中，NVIDIA再次为我们带来了全新的基于边缘检查的抗锯齿模式——TXAA。

NoAA图像质量

TXAA图像质量

　　TXAA作为改进型的新一代边缘检测型抗锯齿不仅改善了传统的边缘检测型抗锯齿所导致的材质模糊问题，同时还为我们带来了质量极高的细小多边形以及线框部位的AA表现。

8X MSAA图像质量

与之对比的TXAA图像质量

　　按照NVIDIA公布的数据，TXAA能够以2MSAA的性能代价实现8MSAA的边缘抗锯齿质量，以4MSAA的性能代价实现大幅超越8MSAA的抗锯齿质量。TXAA的接受度相当高，已有包括EPIC以及Crytek在内的多家旗舰级游戏引擎供应商宣布将在旗下的引擎中对其进行支持。

产品：GTX680 影驰显卡

11解除绑定，Bindless Texture

　　● 解除绑定，Bindless Texture

　　在GTX680中，我们注意到了一个全新的来自材质与shader搭配的特性，那就是Bindless Texture——低shader绑定限制材质。

　　我们知道在图形处理过程中，所有场景及物体表面的颜色细节都是由Texture和shader共同完成的，Texture负责快速的完成大面积的颜色表达，而shader则负责局部正确颜色表现的修饰过程。值得注意的是，传统的Texture与shader搭配修饰过程存在绑定（Bind）限制，一组shader code只能同时对应最多128组Texture。

性能颠覆显卡规律 GTX680首发测试报告
Bindless Texture操作特性

　　在GTX680的Kepler构架中，NVIDIA取消了shader code与Texture之间的绑定限制，新的Bindless Texture规则允许一组shader code同时对应超过100万组Texture。这不仅极具提升了可被同时进行shader处理的Texture的数量，等效减少shader被重复执行的几率，大幅减少CPU以及GPU的执行线程需求以及执行过程，同时还能带来更多样化的Texture应用。

Bindless Texture能够大幅减少操作过程并提升效率

　　Bindless Texture可以带来很多非常具有想象力的应用场合，比如搭配Compute Shader的树状结构来实现大跨度的多材质单shader复制处理，或者结合Gather/Scatter指令更加快速的实现简单shader对应复杂材质等等。Bindless Texture可以加速许多场合的应用速度，在未来的图形处理过程中将会扮演重要的角色。

产品：GTX680 影驰显卡

12所有人都可以有单卡多屏了

　　● 所有人都可以有单卡多屏了

　　长期以来，NVIDIA对单卡多屏的支持一直都不是十分的积极。尽管这其中有传统构架的单芯显卡的确不具备多屏大分辨率流畅渲染的能力，即便具备多屏输出能力也无法用来顺畅地运行游戏，但其保守的做法并未得到所有用户的理解。

　　在全新的GTX680中，NVIDIA终于兑现了自己的承诺——当单芯显卡在3840*1200甚至更高分辨率环境下具备流畅运行游戏的能力时，NVIDIA将会为玩家们提供对应的单卡三屏甚至以上级别的多屏输出支持和立体视觉解决方案。于是，Single Card 3D Vision Surround来了。

性能颠覆显卡规律 GTX680首发测试报告
Single Card 3D Vision Surround可以实现单卡四屏输出

　　在GTX680中，NVIDIA提供了完整的DVI、HDMI1.4a以及DP1.2接口，提供了单卡3840X2160X60Hz的4K分辨率级显示器的支持，允许单块显卡同时输出4个显示器，其中包含3个3D Vision输出以及一个辅助显示输出。

Single Card 3D Vision Surround可以实现单卡三屏3D输出

　　单卡三屏以及单卡三屏3D输出的实现，让N卡玩家们终于获得了期盼已久的较低成本多屏输出解决方案。目前的GTX680不仅可以提供比过去更加全面的多屏输出选择，更可以以比过去低非常非常多的功耗来完成多屏输出和3D Vision多屏输出。

产品：GTX680 影驰显卡

13NVENC：硬件H264编码引擎

　　● NVENC：硬件H264编码引擎

　　在近3个月前发布的Tahiti构架中，AMD首次引入了针对视频的硬件编码处理单元VCE，这套单元可以以纯硬件的形式完成高清视频的编码过程。而Intel早在Sandy Bridge中就已经引入了类似的电路。如今，NVIDIA在GTX680中同样加入了类似的针对性解决机制——NVENC。

性能颠覆显卡规律 GTX680首发测试报告
NVENC特性

　　能够提供了一组专门的逻辑电路设计，它可以大大加快包括H.264在内的多种高清视频格式的编码和转码速度。按照NVIDIA提供的数据，NVENC可以4~8倍于“real-time”的编码速度，如果以24帧的播放速率作为real-time的标准，则NVENC可以实现远大于60帧的高清视频实时编码过程。

MediaEspresso软件界面

　　除了提供更快的编码及转码速度之外，NVENC还提供了更好的性能瓦特比。它可以以十分之一的功耗实现与软件编码过程相同的性能，这从侧面进一步契合和呼应了Kepler构架以及GTX680着重强调性能瓦特比的特点。

　　目前，由Cyberlink出品的MediaEspresso软件已经率先提供了对NVENC的支持，用户们可以在Kepler构架以及GTX680发布后第一时间体验到NVENC技术带来的好处。

产品：GTX680 影驰显卡

14GTX680显卡拆解赏析

　　● GTX680 显卡拆解赏析

　　与前代的GTX580以及竞争对手的HD7970相比，GTX680从优秀的核心设计中获得了相当大的成本优势，高能低耗的核心对PCB的周边需求相对很低，因此GTX680的PCB设计更加注重成本考量。

GTX680 公版PCB方案

GTX680核心

GTX680供电部分

GTX680采用的2相显存供电

GTX680采用的4相核心供电

海力士提供的0.3ns高速显存颗粒

GTX680供电接口方案

GTX680散热方案

产品：GTX680 影驰显卡

15送测产品展示：影驰

　　● 送测产品展示：影驰

影驰GTX680 显卡

影驰GTX680显卡背面

影驰GTX680接口

影驰GTX680显卡

影驰GTX680附件

本次送测的影驰GTX680为公版产品，影驰非公版GTX680的测试我们将在稍后为你奉上。

产品：GTX680-2GD5 极速版 HA 索泰显卡

16送测产品展示：索泰

　　● 送测产品展示：索泰

索泰GTX680显卡

索泰GTX680显卡附件

索泰GTX680

索泰GTX680显卡背面

索泰GTX680显卡接口

产品：680-GD5 CH版 2048M 七彩虹显卡

17送测产品展示：七彩虹

　　● 送测产品展示：七彩虹

七彩虹GTX680显卡

七彩虹GTX680正面

七彩虹GTX680背面

七彩虹GTX680

此次送测的七彩虹GTX680为公版产品，非公版的iGame GTX680的测试我们将在稍后为你奉上。

产品：Inno3D GTX680游戏至尊版映众显卡

18送测产品展示：Inno3D

　　● 送测产品展示：Inno3D

Inno 3D GTX680

Inno 3D GTX680背面

Inno 3D GTX680接口

产品：GeForce GTX 680 NVIDIA 显示芯片

19更多品牌送测产品展示

　　● 更多品牌送测产品展示

华硕GTX680

七彩虹 iGame GTX680

耕昇GTX680关羽版

技嘉 GTX680

微星 GTX680

产品：GTX680 影驰显卡

20测试平台及测试项目简介

　　● 测试平台及测试项目简介

　　性能测试使用的硬件平台由Intel Core i7-3960X、X79 Chipset和4GB*4四通道DDR3-1600内存构成。细节及软件环境设定见下表：

测试平台硬件
	中央处理器
	Intel Core i7-3960X
	（6核 / 12线程 / 100MHz*33 / 15MB L3 Cache ）
	散热器
	Intel RTS2011LC
	（原厂水冷散热器 / 选配件）
	内存模组
	Samsung 黑武士 DDR3-1600 4GB
	（SPD:9-9-9-24-1T）
	主板
	ASUS Rampage IV Extreme
	（Intel X79 Chipset）
	硬盘
	Hitachi 1T
	（1TB / 7200RPM / 16M缓存 / 50GB NTFS系统）
	电源供应器
	NERMAX 白金冰核 1500W
	（CSCI Platinum 80Plus / 1500W）
	显示器
	DELL UltraSharp 3008WFP
	*（30英寸LCD / 25601600分辨率）**

　　为保证系统平台具有最佳的稳定性，此次硬件评测中所使用的操作系统均为Microsoft Windows 7 正版授权产品。使用Windows 7正版软件能够获得最好的兼容性以及系统升级更新服务。

性价比无敌？1099元GTX560每元性能剖析

　　用户在体验或购买安装Windows 7的操作系统时请认准所装系统是否已经获得正版授权许可！未经授权的非正版软件将无法获得包括更新等功能在内的Windows 7服务。

操作系统及驱动

	操作系统
	Microsoft Windows 7 Ultimate RTM SP1
	（64bit / 版本号7601）
	主板芯片组驱动
	Intel Chipset Device Software for Win7
	（WHQL / 版本号 9.2.3.1022）

	AMD 显卡驱动
	AMD Catalsyt
	（WHQL / 版本号 12.2）
	NVIDIA 显卡驱动
	NVIDIA Forceware
	（Beta / 版本号 300.99）
	桌面环境
	*25601600_32bit 60Hz**

　　各类合成测试软件和直接测速软件都用得分来衡量性能，数值越高越好，以时间计算的几款测试软件则是用时越少越好。由于是芯片级首测，因此我们将所有参测显卡的频率统一调节成了公版频率。

产品：GTX680 影驰显卡

21理论性能测试：3DMark Series

　　● 理论性能测试：3DMark Series

　　3DmarkVantage及3Dmark11是Futuremark推出的显卡3D性能测试，两款软件分别针对DirectX 10及DirectX 11显卡。测试成绩主要由显卡测试和CPU测试两部分总和构成，整个测试软件更加偏重整机性能。

3Dmark Vantage

3Dmark 11

　　在刚一开始进行的理论测试环节，GTX680就结结实实的给了我们一记重击。它竟然以竞争对手75%的单元规模以及75%的带宽达到了竞争对手118%的理论性能水平，这完全是一个有悖GPU发展规律的结果。

GTX680 3Dmark Vantage P模式

GTX680 3Dmark 11 P模式

　　为方便读者们进行横向对比，我们附上3Dmark Vantage以及3Dmark 11的P模式得分供大家参考。

产品：GTX680 影驰显卡

22DirectX 9.0C游戏测试：CWOW-CTM

　　● DirectX 9.0C游戏测试：CWOW-CTM

　　《魔兽世界》（World of Warcraft）是暴雪娱乐（Blizzard Entertainment）所制作的一款大型多人在线角色扮演游戏（MMORPG），于2004年年中在北美公开测试。《魔兽世界》虽然目前支持DirectX 11 API，但其引擎的基础源自更为老旧的DirectX 9.0C。尽管API较为老旧，但暴雪凭借精湛的美工进行了充分的弥补。

DirectX11性能大跃进 HD7970首发评测
魔兽世界——大灾变

　　我们采用的测试方法是新建一名人类角色，然后在周末游戏高峰期进入服务器并完成自暴风城正门广场至北郡修道院的48秒flybot过程，该过程中包含建筑及自然环境刻画、光线、大量植被、大量人员及魔法效果等效果。

　　在传统的DirectX 9.0C环境下，GTX680依旧表现出了强劲的性能。不仅大幅超越了自家上代旗舰的Fermi构架以及竞争对手的本代旗舰，甚至还险些将两位单卡双芯的卡皇挑落马下。

产品：GTX680 影驰显卡

23DirectX 10游戏测试：Crysis

　　● DirectX 10游戏测试：Crysis

　　多次跳票、万众期待的DirectX 10游戏大作Crysis，把目前PC 3D娱乐的视觉体验发挥到极致的游戏，大量使用DirectX 10的硬件功能，对显卡的负载也提升至空前水平。

DirectX11性能大跃进 HD7970首发评测
Crysis

　　我们使用游戏自带的CryEngine Benchmark来完成自动测试，测试持续三次，最终成绩取三次平均值。

性能颠覆显卡规律 GTX680首发测试报告

　　在艺术品级的Crysis中，作为竞争对手出现的Tahiti终于扳回了一城。但GTX680的表现依旧抢眼，我们依旧要强调它只有HD7970单元规模和显存带宽的75%，在这个大前提下获得这样的性能，我们实在是不能再奢求什么了。

产品：GTX680 影驰显卡

24DirectX 10游戏测试：FarCry 2

　　● DirectX 10游戏测试：FarCry 2

　　《孤岛惊魂2》拥有超高自由度的游戏系统，整个游戏世界面积达到50平方公里，玩家可以自由在其中驰骋，而游戏的结局也是开放的。《孤岛惊魂2》的PC版在2009年内上市，而Xbox 360和PS3版将随后推出。

DirectX11性能大跃进 HD7970首发评测

　　我们使用游戏自带Benchmark来完成自动测试，测试持续三次，最终成绩取三次平均值。

性能颠覆显卡规律 GTX680首发测试报告

　　当测试项目转移到同为DirectX 10的FarCry2时，GTX680再次表露出它违背GPU发展规律，以更小规模和更小带宽挑战大号对手的一面。不仅性能再次领先自家前代旗舰以及规模更大的竞争对手本代旗舰，更再次逼近了单卡双芯的两位卡皇。

产品：GTX680 影驰显卡

25DirectX 11游戏测试：BattleField 3

　　● DirectX 11游戏测试：BattleField 3

　　战地3是DICE于去年10月底推出的战地系列全新力作，其所采用的寒霜2引擎具备诸多先进的DirectX 11特性，拥有完美光照系统带来的单反照片级图形质量，其完美的多人配合游戏部分也得到了广泛的认可和赞誉。

DirectX11性能大跃进 HD7970首发评测

　　我们采用游戏第二个任务——碎剑者行动的开始部分作为测试场景，通过fraps 软件记录游戏FPS数据，测试时间设置为240秒，此时长为任务开始至剧情发展到第一名队友被狙击手击倒并被我们拖入掩体为止。该段游戏过程包含大量的市内外场景切换，狭窄和开阔地形，激烈交战以及出现在其中的复杂光照系统表现。

性能颠覆显卡规律 GTX680首发测试报告

　　以小搏大的故事还在继续上演，这次的场合是极为强调DirectX 11特性的战地3。GTX680不仅在常规分辨率下维持了之前强劲的性能势头，在2560X1600这样的极限分辨率下也同样表现出了令人不解的高性能。

产品：GTX680 影驰显卡

26DirectX 11游戏测试：Crysis2

　　● DirectX 11游戏测试：Crysis2

　　《孤岛危机2》是《孤岛危机》的续作，游戏采CryENGINE 3引擎所制作，故事发生在距一代3年后的2023年。外星人在地球上的大片区域挑起了战争，各大城市都遭到攻击，人口锐减，玩家将要进行捍卫地球的末日战争。

DirectX11性能大跃进 HD7970首发评测

　　我们采用Crysis2 BenchmarkTool来完成测试，场景选择Downtown，测试进行三次，取最高成绩作为最终测试结果。

性能颠覆显卡规律 GTX680首发测试报告

　　我是一个认定规律决定一切的唯物主义者，因此当测试进行到Crysis2时，我已经完全无法接受GTX680这种以对手四分之三的规模和显存带宽获得超过对手一成性能，同时在极限分辨率下依旧能够维持良好性能状态的结局了，我所掌握的一切关于GPU的常规知识都告诉我这是不可能的事情，所以我的脑海里闪过了驱动程序作弊的念头。但当我将Crysis2.exe改名为“仙剑奇侠传”之后，测试结果提高了0.1帧，于是我只好接受了眼前的现实。

产品：GTX680 影驰显卡

27DirectX 11游戏测试：Call of Duty MW3

　　● DirectX 11游戏测试：Call of Duty MW3

　　由动视暴雪于今年11月初发布的使命召唤：现代战争3延续了前作的诸多特色，其完美的剧情创造了良好的代入感。图形引擎方面则沿用和改进了已经服役两年的IW4.0引擎，因此拥有良好的硬件“亲和力”。

DirectX11性能大跃进 HD7970首发评测

　　我们选择游戏第一关过场动画结束主角翻车至玩家再次恢复控制之间的即时渲染部分作为测试场景，测试时长50秒，取期间的平均帧数作为最终测试结果。

性能颠覆显卡规律 GTX680首发测试报告

　　测试还在继续，尽管结果还是维持了先前的趋势，GTX680依旧获得了领先竞争对手的性能表现，同时在极限分辨率下也能继续维持良好的性能状态，但我们已经无法再对这样的性能提出什么异议了。

产品：GTX680 影驰显卡

28DirectX 11游戏测试：Metro 2033

　　● DirectX 11游戏测试：Metro 2033

　　本作题材基于俄罗斯最畅销小说Dmitry Glukhovsky。由乌克兰4A游戏工作室开发，采用4A游戏引擎，而且PC版支持nvidia的PhysX物理特效。 2013年，世界被一次灾难性事件毁灭，几乎所有的人类都被消灭，而且地面已经被污染无法生存，极少数幸存者存活在莫斯科的深度地下避难所里，人类文明进入了新的黑暗时代。直至2033年，整整一代人出生并在地下成长，他们长期被困在“地铁站”的城市。

DirectX11性能大跃进 HD7970首发评测

　　我们采取完整运行游戏第二关“Hunter”关卡，并记录其中平均帧数的方式来完成测试。Hunter关卡包含完整的室内场景切换，光照系统，DOF表现以及交战场景，能够全面反映显卡在面对Compute Shader以及超高分辨率材质时的表现。

性能颠覆显卡规律 GTX680首发测试报告

　　在地铁2033的测试中，规律似乎再次回到了我们身边。但非常遗憾的是，在该款游戏的测试中，所有NVIDIA显卡的表现均不正常，在游戏运行过程中人物角色会出现莫名其妙的抽搐，同时抽搐的角色周围会出现不少黑色碎片材质，出现这些现象时游戏的帧数会发生显著的下降。我们认为这是源自驱动支持层面的BUG，但无法解释这种现象的成因，同时也未从其他测试者那里收集到类似的现象报告，因此只得将现有的测试成绩放出供大家参考。

产品：GTX680 影驰显卡

29DirectX 11游戏测试：H.A.W.X 2

　　● DirectX 11游戏测试：H.A.W.X 2

　　《鹰击长空2》是一款结合了拟真与空战要素而成的模拟飞行游戏，玩家可驾驶多种高性能战机，在高空中进行巡逻、护航、轰炸等任务。值得一提的是，游戏中的地面场景乃参考GeoEye卫星空照图所构建而成，这项游戏与现实生活的科技结合，让玩家仿佛置身于战机的驾驶舱内，逼真的地表风貌一览无遗。

DirectX11性能大跃进 HD7970首发评测

　　我们采用游戏自带的Benchmark来完成测试，测试进行三次，取三次平均值作为最终结果。

性能颠覆显卡规律 GTX680首发测试报告

　　鹰击长空2的测试结果还算忠实的反映了NVIDIA在GTX680中对PolyMorph Engine的改进，GTX680在该项测试中并没有表现出强大的离谱的性能，但其性能依旧领先Fermi以及Tahiti构架。

产品：GTX680 影驰显卡

30DirectX 11游戏测试：LostPlanet 2

　　● DirectX 11游戏测试：LostPlanet 2

　　《失落的星球2》背景设在原来第一季的十年后。气候变化融化冰雪覆盖的大陆，创造了新的环境，如丛林。在EDN-3rd的改变下，10年过去了。地球发生了重大改变，冰川已经融化，热带丛林，沙漠冷酷无情。玩家将进入新的环境，与雪贼战斗，以抓住不断变化的地球控制权。玩家将控制他们的英雄跨越6个相互关联的事件，创造一个真正独特的互动体验。有了这个概念，玩家将会有机会从不同的发展角度来动态的改变故事情节。

DirectX11性能大跃进 HD7970首发评测

　　我们采用游戏自带的Benchmark来完成测试，测试进行三次，取三次平均值作为最终结果。

性能颠覆显卡规律 GTX680首发测试报告

　　失落星球2的测试将我们本来有些麻木的神经直接打入了自我保护状态，GTX680在这款游戏中甚至表现了超越两位单卡双芯卡皇的强大性能。即便考虑到一直以来失落星球2对N卡的优化以及曲面细分性能的偏重度，这种结果也依旧令人震惊。

产品：GTX680 影驰显卡

31DirectX 11应用测试：天堂3.0

　　● DirectX 11应用测试：天堂3.0

　　《Heaven Benchmark 3.0》是由俄罗斯Unigine游戏公司开发设计的一款Benchmark程序的最新版本，该程序是由Unigine公司自主研发的游戏引擎设计，支持DirectX 9、DirectX 10、DirectX 11与OpenGL 3.2 API，通过数十个场景的测试最终得出显卡的实际效能。

DirectX11性能大跃进 HD7970首发评测

性能颠覆显卡规律 GTX680首发测试报告

　　测试进行到这里，我们基本上已经放弃了对一切GPU发展规律的固守。在天堂3的测试中，更多地晶体管规模意味着更好的性能这样一个来自摩尔定律推论并且一直支配GPU界发展的规律，依旧被GTX680干脆利落的打破了。

产品：GTX680 影驰显卡

32游戏性能综合比率

　　● 游戏性能综合比率

　　我们收集了全部9款参测游戏以及天堂2.5的帧数数据，以GTX680为基础将在游戏中的表现与所有参测显卡进行了一一对比，下面就是所有参测显卡在全部测试游戏中相对于GTX680比率的平均值。由于包括GTX680在内的全系列N卡在地铁2033的2560分辨率下无法无BUG的完成测试，故2560环境下的数值并未将其计入其中。

性能颠覆显卡规律 GTX680首发测试报告

　　通过对各种场合收集到的数据进行综合，我们获得了GTX680的性能表现水平。在常规的1920X1200分辨率下，GTX680的性能领先上代旗舰GTX580的幅度为22.9%，领先AMD本代旗舰HD7970的幅度为12%。在极限的2560X1600分辨率下，GTX680领先GTX580的幅度为25.4%，领先HD7970的幅度则为11.3%。尽管GTX680的显存带宽仅为192GB/S，芯片规模也同样仅有HD7970的75%，但其所表现出来的常规分辨率下强劲的性能，以及极限分辨率下几乎未出现衰减这点均给我们留下了异常深刻的印象。

性能颠覆显卡规律 GTX680首发测试报告

　　为了尽可能剔除DX9/10这样的传统场合对测试结果的影响，我们专门收集了战地3以及Crysis2中GTX680/HD7970以及GTX580三者的性能比率。在这两款游戏中，GTX680在常规分辨率下维持了对HD7970大于10%的性能领先幅度，而极限分辨率下的性能领先幅度虽然有所下降但依旧接近10%。

　　常规游戏及理论性能的测试至此结束了，为了进一步探寻GTX680的性能之谜，尤其是DirectX 11以及高分辨率环境下的性能之谜，同时也为了验证GTX680究竟是一款单纯强调游戏性能的构架还是一个拥有完整计算能力的旗舰级构架，我们对其进行了通用计算相关的底层性能延展测试。

产品：GTX680 影驰显卡

33构架底层延展测试：Fluid simulation

　　● 构架底层延展测试：Fluid simulation

　　由于300.99驱动对OpenCL的支持存在问题，同时GPU Boost对于频率的调节会干扰底层运算性能的“纯净度”，因此在本次的构架底层性能延展测试环节中，我们决定放弃基于OpenCL的通用计算测试软件——GPCBenchmark，改用DirectX SDK来完成底层性能数据的收集。待到NVIDIA的官方驱动能够提供正确的OpenCL支持以及可以关闭GPU Boost的设置之后，我们将会补上GPCBenchmark的相关测试。

　　我们首先进行的DirectX SDK测试，是使用Direct Compute完成的流体力学模拟——Fluid dynamics simulation。Fluid dynamics simulation基于弹性力/黏着力/重力为基础的颗粒碰撞模拟，每一个颗粒均拥有独立的力学参数，通过对颗粒本身在统一的重力参数作用下自有力学参数以及交互作用的计算，可以模拟大量颗粒的行为并达到模拟由它们构成的“流体”特性的目的。

性能颠覆显卡规律 GTX680首发测试报告

　　Fluid dynamics simulation分别提供了对shared性能以及Grid性能的测试，力学计算本身需要应用包括矩阵运算在内的多种数学方法，颗粒之间的力学交互作用存在条件分支关系，因此该项测试可以全面考验不同构架对图形通用计算以及有针对性的物理特效计算的性能。

性能颠覆显卡规律 GTX680首发测试报告

　　在Fluid dynamics simulation测试中，GTX680表现出了卓越的性能。强大的矩阵处理能力、良好的并行度以及条件分支应对能力表明GTX680拥有了完善的应对各种通用计算场合的能力。

产品：GTX680 影驰显卡

34构架底层延展测试：Cascaded Shadow Maps

　　● 构架底层延展测试：Cascaded Shadow Maps

　　Cascaded Shadow Maps（CSM）是一种基于阴影深度进行的阴影判断及快速操作模式，CSM通过将整个阴影划分成若干级的层次，以层次内部像素的深度来定义和快速判断阴影位置，并对近景阴影采取高精度贴图，远景阴影采用低精度贴图的方式来达到节约资源同时快速准确实现阴影贴图的目的。CSM可以极大地加快阴影操作的速度，同时避免大多数因为光源形态、阴影深度与像素尺寸差异所导致的阴影边缘及内部贴图错误。

性能颠覆显卡规律 GTX680首发测试报告

　　CSM大量涉及矩阵运算及坐标判断，因此在DirectX 11环境下可以透过Compute Shader来进行。对CSM的性能测试，有助于我们了解构架的矩阵操作等通用计算性能。

性能颠覆显卡规律 GTX680首发测试报告

　　CSM测试让我们进一步了解了GTX680在进行矩阵操作是的性能，它的结果可以近似替代GPCBenchmark测试中的矩阵乘法以及矩阵转置测试。优秀的矩阵操作能力是一款DirectX 11 GPU所应该具备的基本素质，从测试的结果来看，GTX680并没有让我们失望。

产品：GTX680 影驰显卡

35构架底层延展测试：OIT

　　● 构架底层延展测试：OIT

　　半透明是3D图形中一种重要的特效，但传统的Alpha混合基本上无法完成对不同半透明物体以及同一物体不同半透明部分的层次判断，因此如果以Alpha操作来简单的实现半透明效果，很多时候获得结果都是错误的。所以在DirectX 11中，微软为我们引入了OIT（透明独立叠加）技术来解决这一问题。

性能颠覆显卡规律 GTX680首发测试报告

　　在实现OIT技术的过程中，程序会将处于同一层次的部件所对应的线程/任务以Atomic(原子操作)的形式保护起来，使这些线程在被执行结束之前变成一个不可再分的整体。接下来这些Atomic会被放置在buffer中进行处理优先级的排序，通过这些操作，物体及部件所在的层次和正确的显示效果就被最终确定下来了。如果构架拥有cache等可读写近存近取缓冲，则可以极大地加快OIT的乱序操作过程。因此对OIT的性能测试，将可以让我们了解构架是否具有足够的灵活度、充足的缓冲密度以及完整的Atomic特性支持能力。

性能颠覆显卡规律 GTX680首发测试报告

　　OIT考验的cache性能以及Atomic能力是通用计算的基础，良好的缓冲体系以及对线程的控制能力体现了构架最基本的灵活度。测试结果表明，拥有良好cache性能以及线程块处理能力的GTX680在面对通用计算以及DirectX 11图形任务时将会变得游刃有余。

产品：GTX680 影驰显卡

36构架底层延展测试：Nbody Gravity CS11

　　● 构架底层延展测试：Nbody Gravity CS11

　　Nbody Gravity的前身来自Nbody仿真，Nbody仿真的目的在于模拟一个多体系统的演化过程，该系统中的每个个体（Body）都会与周围的其他物体发生非接触力学吸引/排斥作用。通过Nbody仿真，我们可以获得大量长程力作用的系统，比如小到范德华力作用下的原子/分子群或者大到万有引力作用下的星系之类各色场合的模拟结果。对于气流等稀薄流体的模拟同样可以归约成Nbody仿真过程并予以解决。

性能颠覆显卡规律 GTX680首发测试报告

　　Nbody Gravity将场景设定为大量粒子在引力这一种基本长程力下高速运动作用形成的多体问题，尽管粒子间不考虑接触力学传递，但整体而言Nbody Gravity模拟与我们前面进行的Fluid dynamics simulation测试一样，都需要大量应用到矩阵操作等大量常见的数学方法。在此基础上，由于长程力一次影响的对象远较流体模拟中弹性碰撞传递所能够影响的对象要多，其背后所对应的线程量非常庞大，因此Nbody Gravity对于硬件构架的并行度有极高的要求。透过Nbody Gravity的测试，我们可以了解到被测对象的吞吐能力、对基本条件分支的应对能力、并行处理能力以及对矩阵等常规数学方法的处理能力。这些能力，最终都将反映构架执行DirectX 11特性尤其是Compute Shader的效率。

性能颠覆显卡规律 GTX680首发测试报告

　　前面我们所进行的各项测试证明了Kepler构架拥有不错的灵活度以及优秀的缓冲性能的话，而Nbody Gravity的测试结果则让我们对GTX680的构架设计有了更深的认识。Nbody Gravity偏重吞吐以及并行化的测试方向，表明GTX680已经充分达成了构架灵活度、缓冲灵活度以及理论吞吐性能三者之间的统一和平衡，我们认为这是GTX680以及Kepler构架能够表现出强大绝对性能以及极好的功耗性能比的重要原因。

产品：GTX680 影驰显卡

37几何处理能力延展测试：SubD11

　　● 几何处理能力延展测试：SubD11

　　这是一个相当传统的测试项目，SubD11测试的是同一模型使用不同等级曲面细分来进行外形修饰的过程，它可以让我们获得最直观的构架几何处理能力信息。

性能颠覆显卡规律 GTX680首发测试报告

　　尽管说起来有些讽刺，但我们确实是第一次看到与官方PDF提供的结果符合的如此之好的实际测试。在SubD11测试中，GTX680在7级TS Level之前的曲面细分性能略低于HD7970但远高于GTX580，当TS Level超过7级之后，GTX680表现出了远好于对手的性能衰减能力，其性能衰减趋势基本上与PolyMorph Engine 1.0的GTX580相当。

性能颠覆显卡规律 GTX680首发测试报告

　　为了方便大家观看，我们专门提取了TS Level 3/7/12/16/31这5级典型曲面细分负载下GTX680/HD7970以及GTX580的性能。从图中可以更加直观的看出，GTX680在低负载度的曲面细分场合性能十分强劲，而高负载场合也有相当优秀的多边型输出能力，这证明了NVIDIA对PolyMorph Engine的改进完全达到了预设目标同时卓有成效。

产品：GTX680 影驰显卡

38PhyX游戏应用——QQ Dance 2

　　● PhyX游戏应用——QQ Dance 2

　　作为NVIDIA可玩性的体现之一，PhyX一直都是The way mean's to be played（游戏之道）重要的组成部分，本次GTX680对于PhyX的支持同样出色。而且与先前集中在高端游戏不同，此次NVIDIA选择的向大家展示PhyX应用的游戏相当大众化，它就是腾讯开发的网络游戏——QQ Dance 2（QQ炫舞2）。

逼A卡价格现原形 GTX680性能全面测试
QQ炫舞2

　　在本次的GTX680研发及发布过程中，NVIDIA与腾讯保持了紧密的合作，NVIDIA为腾讯提供了PhyX特效应用及编程方面的技术支持，这使得QQ炫舞2这款面向大众且受众广泛的网络游戏具备了更加真实的游戏体验。

QQ炫舞2画面

QQ Dancer 2

　　在QQ炫舞2中，腾讯首次引入了毛发及衣物布料的PhyX特效，在PhyX特效的帮助下，人物的随舞蹈动作摆动的衣物和秀发更加飘逸柔美。由GPU完成的实时物理演算以及处理，令这款以动听音乐及炫目舞蹈为亮点的网游平添了不少真实性和趣味性。相信凭借着PhyX的帮助，QQ炫舞2一定可以吸引更多玩家投入其中。

产品：GTX680 影驰显卡

39功耗温度、性能功耗比以及性价比测试

　　● 功耗温度及性能功耗比测试

　　在功耗温度测试环节，我们采用Furmark满载的方式让显卡达到全负荷工作的方式，来收集GTX680的满载平台功耗以及温度数据。

GTX680平台待机功耗

GTX680平台满载功耗

GTX680满载温度测试

　　实测表明，GTX680并未引入深度休眠/唤醒机制，因此其待机平台功耗为93W，高于HD7970平台。满载平台功耗则为321W，明显低于HD7970同平台380W的满载水平。

性能颠覆显卡规律 GTX680首发测试报告
GTX680与HD7970性能功耗比测试

GTX680与HD7970性价比数据

　　我们分别计算了GTX680与HD7970每瓦特平台功耗能够获得的3Dmark 11 X模式分数以及每元人民币能够获得的3Dmark 11 X模式分数，以此来分别衡量GTX680与HD7970的性能功耗比以及性价比情况。不难看出，无论性能功耗比还是性价比，GTX680均优于HD7970。

产品：GTX680 影驰显卡

40SLI性能延展度及超频测试

　　● SLI性能延展度测试

　　我们进行了GTX680的2-way SLI理论性能测试，结果如下。

GTX680 2-way SLI 3Dmark Vantage测试结果

GTX680 2-way SLI 3Dmark 11测试结果

　　测试结果表明，GTX680的多卡互联性能延展性还是相当可观的，在3Dmark Vantage中GTX680双卡获得了单卡172.5%的性能，而3Dmark 11中这一比例则上升到了更高的190.8%。这种接近200%性能延展性，应该是可以令人满意的。

性能颠覆显卡规律 GTX680首发测试报告

　　我们还对GTX680的超频能力进行了测试，由于GPU Boost参照TDP限制对频率进行实时调节，因此一切超过TDP限制的OC都会被调整回允许上线范围并导致超频失效。经过多次摸索，我们发现GTX680公版显卡的TDP上限对应频率通常为1.18G~1.2G之间，最高不会超过1.2G，因此我们将其超频至了1.18G并完成了3Dmark 11测试。

产品：GTX680 影驰显卡

41GPU Boost实际表现测试

　　● GPU Boost实际表现测试

　　我们在前面的介绍中曾经提到过，GPU Boost是一种非常前卫的动态频率调节机制，它不仅可以根据TDP上限与实际功耗之间的差值抬升频率释放性能，将单元复用率不足而压制的性能释放出来交还给用户，还可以根据用户的需求降低GPU的负载和频率，为用户提供一个更清凉安静的使用环境。接下来，我们就来分别看看GPU Boost在不同应用场合的实际表现吧。

GTX680运行3Dmark 11实时状态监控

GPU Boost动作记录

　　我们首先通过EVGA PrecisionX软件来进行系统运行3Dmark 11测试期间GPU Boost的动作记录。从上面的曲线图不难看出，当不同的Graphic Test场景被运行时，GTX680会根据实时功耗运行在不同的频率上。当GPU实时功耗与TDP存在空间时，GPU Boost将会将GPU的实时频率调节到高于默认同时能够让芯片实时功耗接近TDP的水平上，以便让GPU在功耗限制范围内获得最好的性能，这种调节完全是动态的。

　　接下来，我们测试了GPU Boost对系统功耗限制以及节能方面的贡献。当某个游戏运行的帧数大大高于用户的实际需求时，用户们将帧数限定在自己认为最理想的数值上，然后GPU Boost就会根据实际性能需求动态的将GPU的运行频率调低已达到节能的目的了。

最大性能需求模式下天堂3.0运行状态记录

限定帧数为42帧时天堂3.0运行状态记录

限定帧数为27帧时天堂3.0运行状态记录

　　我们以天堂3为目标来完成对用户不同帧数需求的模拟，从上面的测试结果不难看出，当用户对性能存在需求而不限定帧数时，GPU Boost会照常调节GPU的运行频率，用实际功耗与TDP之间的空间换取的频率来弥合单元复用率造成的性能损失。而当用户认为当前帧数过剩并将实时运行帧数被限定在42以及27帧时，GPU Boost会积极的根据系统的性能需求动态且实时的降低GPU运行的频率，用户自定义的个性化帧数可以被真实的转化成节约的功耗以及降低的温度。

　　通过这个系列的测试我们不难看出，GPU Boost在面对性能上限需求以及功耗下限需求时是同样有效的，它的出现不仅能够弥合单元复用率不足带来的性能损失，充分利用实时功耗与TDP之间的差值让用户获得了更高的性能上限和帧数享受，同时还给了用户自定义系统负载并实现“DIY系统能耗”的机会。

产品：GTX680 影驰显卡

42测试总结：难以理解的强大

　　● 测试总结：难以理解的强大

　　我们决定以7个“更”字来结束今天的测试。我们进行的所有测试结果都清楚无疑地表明，相对于竞争对手HD7970以及自家上代旗舰GTX580，GTX680更小、更短、更轻、更凉、更省电、更便宜，同时更快。

性能颠覆显卡规律 GTX680首发测试报告
“小巧”便宜外加凉又快是GTX680的特点

　　GTX680的强大是难以理解的，它的出现完全颠覆了很多支配GPU界发展的定律，诸如"不考虑代价，更多地晶体管数量以及更大的规模可以为同代芯片换来更好的性能"之类传统的观念已经被证实完全过时了。以80%的芯片面积、75%的单元规模以及75%的显存带宽获得几乎相同甚至更好的同频性能以及更佳的绝对性能，这是GTX680给我们带来的最巨大的惊喜和最根本的困惑。

GTX680全新特性

　　GTX680身上拥有极多的闪光点——极高的性能功耗比、比对手更高的性价比、最强的单芯显卡性能、良好的温度及噪音表现、通过GPU Boost同时解决单元复用率影响绝对性能以及性能过剩时温度噪音功耗需求得不到满足这两个截然相反的问题、主动垂直同步以及更好的AA特性、游戏和通用计算性能完美的统一……这一切的闪光点，都注定了GTX680即将获得成功的命运。

GTX680拥有极高的性能功耗比

　　GTX680身上又有太多的秘密——究竟是什么让它拥有了如此高的构架效率、是什么要素让它能够在极限分辨率下仍能以相对较小的带宽维持很好的性能抗衰减性、全新的Scheduling过程细节以及实现方式到底是怎样的、Bindless Texture会给现在及未来的图形处理带来怎样的影响、SMX内部的Warp Scheduler以及Dispatch Unit如何应付不对等比例增长的ALU规模、仅仅翻倍的Register怎么可能会有应对6倍于以前的ALU需求……太多黑科技等待着我们的发掘，只有将这些未知全部转化为已知，我们才能真正做到以GTX680为蓝本重新定义GPU的发展规律。

GPU Boost可以有效的动态提升显卡性能

　　GTX680的出现，让之前2个半月里非常风光的Tahiti构架瞬间变得黯淡无光了。我们曾经说过，Tahiti构架是一款非常优秀的构架，它致力于纠正AMD在过去5年里所犯下的诸多错误，事实上它确实几乎做到了这一点。但非常不幸的是，Tahiti依旧是一款“普通”的GPU构架，它的逻辑结构给我们带来的感受并不是“啊？怎么可能？！”，而是“嗯，应该是这样”。它并没有Kepler构架那么多的黑科技，同时它对过去错误的修正依旧承受着来自D线的直接压迫而变得并不彻底，这导致了它身上还有诸如缓冲密度低落之类的遗憾，这一系列的综合影响最终让它在与Kepler的对决中败下阵来。

GTX680拥有更高的曲面细分性能

　　相对于GTX680，HD7970乃至整个HD7000产品线目前的处境正在变的尴尬。我们曾经提到过，D线的压迫让Tahiti与Pitcairn之间空档过小，同时Pitcairn与Cape Verde空档又显得过大。目前HD7900的成本、售价、发热以及功耗均高于GTX680，而绝对性能却比竞争对手更低，这种处境不仅让HD7900的可购买性变得比过去更差，更可能影响到目前已经布局完成的整个AMD产品线的定价策略。

HD7000系列尤其是HD7900将变得日渐尴尬

　　以AMD的角度出发，目前唯一的选择是尽快将HD7970的售价下调，但这种调价动作会进一步加剧了Pitcairn及以下级别市场所承受的压迫，对刚刚已经完成布局的整条产品线进行整体下压，相信其所造成影响是任何一间公司都无法忽视的。而如果不对HD7900系列进行调价，则几乎意味着放弃了单芯旗舰市场的利润空间以及强大的号召力。如何破解这种两难的境地，防止尽早完成的市场布局变成“过早完成的市场布局”，是未来AMD亟待解决的问题。

GTX680会给我们带来更多惊喜

　　诚如测试所展示的那样，GTX680拥有目前最强的单芯绝对性能，比竞争对手更小的芯片面积和规模，更低的功耗以及更便宜的售价，我们要感谢NVIDIA为我们奉上了如此高效同时低耗的构架。遗憾的是现在的我们并没有窥见到它的全部细节，GTX680身上还有太多吸引人的特性值得我们去进一步发掘。所以虽然首发测试已经结束，但我们对它的进一步发掘绝不会就此停止。随着驱动的逐步稳定以及软件支持的丰富，我们对于Kepler构架的底层延展测试还将不断深入和继续。如果你希望了解更多Kepler构架以及GTX680所采用的不为人知的黑科技，就请继续关注中关村在线显卡频道为你带来的精彩文章吧。

43产品参数对比

影驰GTX680和索泰GTX680-2GD5 极速版 HA和七彩虹680-GD5 CH版 2048M和Inno3D GTX680游戏至尊版有什么区别

不喜欢(0) 点个赞(0)

今日最新

猜你喜欢

中关村在线首页显卡频道首页

显卡品牌大全热门显卡上升最快的显卡

显卡报价

品牌

Colorful 七彩虹 GALAXY 影驰 ZOTAC 索泰 msi微星蓝宝石耕升 MAXSUN 铭瑄迪兰昂达映众华硕

价格

2599元以下 2600-5999元 6000-9999元 10000元以上

显卡类型

发烧级中端级入门级专业级

逼A卡价格现原形 GTX680性能全面测试

1手提箱核弹正式发布

2GTX680规格一览

3这堂课叫“性能功耗比”

4再见了“分频君”

5庞大的SMX以及更快速的cache

6第二代几何处理引擎

7黑科技的最深处：Scheduling过程

8GPU Boost：单元复用率的好基友

9主动式垂直同步：拒绝画面撕裂

10全新边缘采样抗锯齿：TXAA

11解除绑定，Bindless Texture

12所有人都可以有单卡多屏了

13NVENC：硬件H264编码引擎

14GTX680显卡拆解赏析

15送测产品展示：影驰

16送测产品展示：索泰

17送测产品展示：七彩虹

18送测产品展示：Inno3D

19更多品牌送测产品展示

20测试平台及测试项目简介

21理论性能测试：3DMark Series

22DirectX 9.0C游戏测试：CWOW-CTM

23DirectX 10游戏测试：Crysis

24DirectX 10游戏测试：FarCry 2

25DirectX 11游戏测试：BattleField 3

26DirectX 11游戏测试：Crysis2

27DirectX 11游戏测试：Call of Duty MW3

28DirectX 11游戏测试：Metro 2033

29DirectX 11游戏测试：H.A.W.X 2

30DirectX 11游戏测试：LostPlanet 2

31DirectX 11应用测试：天堂3.0

32游戏性能综合比率

33构架底层延展测试：Fluid simulation

34构架底层延展测试：Cascaded Shadow Maps

35构架底层延展测试：OIT

36构架底层延展测试：Nbody Gravity CS11

37几何处理能力延展测试：SubD11

38PhyX游戏应用——QQ Dance 2

39功耗温度、性能功耗比以及性价比测试

40SLI性能延展度及超频测试

41GPU Boost实际表现测试

42测试总结：难以理解的强大

43产品参数对比

影驰GTX680和索泰GTX680-2GD5 极速版 HA和七彩虹680-GD5 CH版 2048M和Inno3D GTX680游戏至尊版有什么区别

显卡报价

热门搜索

推荐经销商

显卡文章推荐

周热门显卡排行榜

经销商