1拉开GTX700产品线的帷幕
GeForce GTX 780究竟会采用哪种实现方式,其实最终的决定要素并不完全在NVIDIA自身。对于AMD在未来将会遇到的困难、可能采取的应对措施以及这些措施所产生的结果也就是新架构的形态,NVIDIA知道的肯定比我们所知道的更多。所以GeForce GTX 780的命运实际上已经注定了,我们所能做的,其实应该仅仅是尝试着去理解这种命运的成因而已。
——《继续后发制人?新开普勒GTX780架构展望》 2012年12月18日夜
北京时间2013年5月23日21时,NVIDIA在GTX700时代的首款游戏显卡产品——GeForce GTX 780正式发布了。无论是产品编号、定价区间还是NVIDIA的期许,GeForce GTX 780都被指定为GeForce GTX 680的接替者。这款定位单芯旗舰游戏显卡的产品不仅提供了更为强大的性能,同时也开启了新一代的游戏显卡产品线。
凭借逻辑以及一些小小的运气,我们在半年前便掀开了命运面纱的一角,成功的窥探了GeForce GTX 780的架构的规模和基本特征,不过这显然还不够。尽管GeForce GTX 780的架构业已存在,但架构的存在与实际性能表现之间还有一段不小的距离,如果没有实际性能作为参照,我们对这款全新旗舰级显卡的一切理解都将会是空中楼阁。随着GeForce GTX 780的正式发布,我们终于可以将这些空中楼阁转化成现实了。
同以往一样,我们将会在今天的首发测试中为您带来详尽的关于GeForce GTX 780的性能测试及解读。而同以往不太一样的是,今天我们对这款新旗舰级游戏显卡的细节解析,将以一种更加“生动”的方式开始——
另外,如果您想在电商平台直接购买GeForce GTX 780,可以点击此处。
2GTX780规格一览
● GTX780规格一览
承袭自Titan,GeForce GTX 780拥有了远比GK104更为巨大的规模。它拥有71亿的晶体管规模,核心面积超过560平方毫米,这一数值十分接近但并未超越NVIDIA在DirectX 11时代所划D线(什么是D线? 它会导致怎样的问题?)的上限(529+52.9平方毫米),这种核心面积为其功耗及可制造性表现打下了基础。与GeForce GTX 680相比,GeForce GTX 780的运算资源总量从1536个ALU上升到了2304个,Texture Filter Unit由128个上升到了192个,构成后端的ROP则从32个提升到了48个。GeForce GTX 780拥有同Titan一样庞大的MC结构,6个64bit双通道显存控制器组合形成了384bit显存控制单元,GeForce GTX 780的显存容量也因此而从GeForce GTX 680的2048MB提升到了3072MB。
*注:市场定价均为官方首发限价
GeForce GTX 780的默认核心及显存运行频率为863/6008MHz,Boost频率达到了900MHz,默认Pixel Fillrate能力为35.4G/S,默认Texture Fillrate能力为161.1G/S,显存带宽288.4GB/S。GeForce GTX 780拥有近4T Flops的单精度浮点运算能力,理论上拥有1.3T的双精度浮点运算能力,但出于旗舰级游戏显卡的定位,它并未同Titan一样提供完全的双精度浮点运算能力,NVIDIA在它身上进行了一定的限制,仅开放了单精度1/24的双精度浮点运算能力。
GeForce GTX 780架构图
GeForce GTX 780采用的GK110与GK104同属Kepler架构,但只有GK110开放了Kepler架构全部功能性设计和特点,我们甚至可以这样说——只有GK110才是真正意义上的Kepler架构。GeForce GTX 780架构由以下主要的部分组成:
1、与Titan相同的基于HKMG的TSMC 28nm工艺。
2、与GK104不同的宏观并行结构,12组SMX单元被分为4个GPC,每个GPC包含3组SMX。
3、12组包含了几何引擎、光栅化引擎以及线程仲裁管理机制的SMX单元。每个SMX单元的细节同GK104完全相同,均包含一组改进型的负责处理几何任务需求的PolyMorph Engine,192个负责处理运算任务及Pixel Shader的ALU,16个负责处理材质以及特种运算任务如卷积、快速傅里叶变换等的Texture Array,二级线程管理机制以及与它们对应的shared+unified cache等缓冲体系。
4、由于关闭了一个GPC,GeForce GTX 780的同频几何处理处理能力、运算能力以及材质操作能力均为完整规格GK110的80%。
5、基于Dynamic Parallelism的全新本地任务管控机制,以及由此带来的更高的单元复用率。
6、调节粒度更细同时频率控制范围更大的新一代GPU Boost。
Kepler构架曾经是一个充满了神秘感的存在,伴随着GK104和GK110的发布,我们在过去的一年里曾经对它的各种细节和意义进行过详尽的相关分析,这些分析就像一组拼图游戏,我们不断的从NVIDIA发布的架构及芯片中拾取Kepler的意义,并经由3月份发布的GeForce GTX Titan最终完成了整幅拼图。现在,随着GeForce GTX 780的到来,Kepler架构的绝大部分GPU都已经来到了我们的面前,所以我们不妨再次深入Kepler架构,来回顾一下种种“黑科技”的真正内幕吧。
3宏观并行结构
● 宏观并行结构
NVIDIA于Fermi架构中首次引入了宏观并行结构设计,它将若干组ALU团簇绑定为一个GPC,并辅以完整的几何处理及光栅化流水线,这让每个GPC因此成了与传统GPU同等级的存在。在执行符合DirectX 11特征的程序时,一级任务管理机制只需将Kernel并行的发放给不同的GPC,即可达成整个架构的并行kernel处理过程。因此这种设计不仅可以比较直接的为架构带来更好的几何和光栅化处理能力,同时还可以提升任务的执行效率。
与去年发布的GK104不同,NVIDIA在GK110架构中使用了新的宏观并行结构。GK104的8组SMX单元被两两分组结合成一个GPC,整个架构的8组SMX单元被划分成了4 GPC并行的形式。而GK110则是将15组SMX单元以三组为单位结合成一个GPC,整个架构被划分成了5 GPC并行的形式。
完整规格GK110架构图
由于NVIDIA采用了Setup以及Rasterizer同GPC绑定的方案,因此GK110架构可以实现单周期输出5多边形,在同频下拥有了比GK104多20%的多边形泵出能力以及光栅化处理能力。
宏观并行度的进一步提升有助于体系在处理并行Kernel时的效率,但从外表上来看GK110对于宏观并行度的提升与其运算单元(SMX/ALU)规模的提升并不成比例,单个GPC的规模较之GK104提升了50%,这样的做法给人一种整个架构开始偏重于吞吐而非强调任务效率以及单元复用率的感觉。这是否意味着NVIDIA打算放弃坚持了多年的既有设计思路,开始放弃效率并转向提升架构的吞吐能力了呢?
GK110吞吐能力的提升是否意味着GK110的效率会下降呢?
事实并非如此,因为NVIDIA在GK110中为我们带来了另外两个重要的特性——Dynamic Parallelism和Hyper-Q,这两个特性不仅极大地提升了整个架构的任务效率/密集度,同时将单元复用率以及整个Kepler架构的意义提升到了一个全新的高度。
4Dynamic Parallelism
● 最重要特性——Dynamic Parallelism
在GK110架构中,NVIDIA在传统的二级仲裁机制CWD(CUDA Work Distributor,CUDA分配器)之外加入了全新的GMU(Grid Management Unit,Grid管理单元),GMU可以对CWD收到的Grid进行启停管理、回收、判断、挂起以及重排序等操作,令其以更加灵活的方式在必要时进入执行单元,这避免了Grid像过去那样以缺乏排序的顺序模式被送入SM,而且一旦进入SM之后就只能等到全部执行结束才能出来。
Dynamic Parallelism特性
GMU的引入为动态片上创建Kernel提供了条件,所以NVIDIA在GK110中引入了全新的Dynamic Parallelism(动态并行)特性,该特性允许GPU根据需要直接对Grid的结果进行判断并在本地创建新的Kernel,这与传统的Kernel执行完毕之后由CPU进行回收判断并创建新的Kernel再行发放有了很大的不同。
Dynamic Parallelism带来的变化(传统模式 VS Dynamic Parallelism)
Dynamic Parallelism减少了GPU同CPU之间的通讯需求,减轻了与CPU频繁通讯所带来的等待周期产生的延迟影响,提升了GPU内部的Kernel密度和执行连贯度,对于低负载高密集任务中单元复用率改善有不小的帮助。
5“送出去,请进来”
● “送出去,请进来”
从去年GK104架构发布之后起,我们在过去接近一年的时间里一直都在尝试着去解析Kepler架构的真实目的和意义。但遗憾的是由于NVIDIA的产品定位以及发布策略的困扰,Kepler架构的特性并没有在GK104中得到完整的阐释,我们的讨论也仅能止步于“黑科技”以及“将寄存器设计水平优势转化成性能功耗比”这样的程度。
伴随着GK110的发布,Kepler架构的完整特性终于全部来到了我们的面前,尤其是Dynamic Parallelism和Hyper-Q的出现,为我们进一步勾勒出了更加丰满的Kepler架构的轮廓。它们与已经先期在GK104及其后的所有Kepler架构中出现的新Scheduling过程一起为我们带来了Kepler区别于以往架构的最大特点,那就是“送出去,请进来”。
Kepler构架与Fermi构架执行Scheduling过程的差异
通常来讲,可重复性较低且需要运算过程的判断性工作并不适合固定单元来执行,更加灵活的具有可编程性的通用运算单元来完成这类工作会比较得心应手。而那些具有较高可重复性,过程相对固定且基本具备可预期性的控制类工作,则更加适合具有特定针对性功能的电路来完成。如果我们以可编程的通用处理单元来完成判断性工作,让控制工作更多地被特定功能的固定电路所执行,就可以达到最高效率的利用不同单元,以最低的能耗来完成最多工作的目的了。
但是很遗憾,Kepler之前的GPU并没有这样的获得最高性能功耗比的幸运。传统结构的GPU会在芯片本地以固定电路自行处理绝大部分具有判断性特征的Scheduling过程,而Kernel的启停和发放则依赖CPU,这实际上等于是通过通用处理单元来完成本该由更高效的特定功能电路或者说专用单元来完成的工作。这种让专用电路干通用电路的事,让通用处理器做专用单元的事的局面,与性能功耗比的诉求完全是相反的。
Pre-Scheduling过程变化(图片修改自后藤弘茂先生博客)
在Kepler中,NVIDIA实际上完成了一个“送出去,请进来”的过程——把一部分Scheduling过程从本地“送出去”,也就是转移到了CPU中以运算的形式来完成,同时通过引入GMU单元以及添加Dynamic Parallelism特性来降低CPU控制对任务的介入和影响,将控制工作更多地“请进来”,亦即移动到本地的GMU完成。这种执行位置和执行对象的互换扭转了过去“满拧”的局面,将适合通用处理单元的工作从GPU中拿出来交给了通用处理单元,也将不适合通用处理单元完成的工作交还给了GPU中的固定单元来完成,从而达到了各种单元均可以以更合适的功耗完成更多工作的目的。
Dynamic Parallelism的片上直接Kernel创建特性减小了CPU对控制的介入
关于将Scheduling移交给通用处理器完成的目的和意义,我们在过去的一年里已经进行了详尽的分析和解读,这是一个与NVIDIA未来架构发展息息相关的系列过程,在这里不再赘述,有兴趣的朋友可以点击这里阅读。而引入Dynamic Parallelism则带来了更多显而易见的好处,无论是计算任务还是图形处理任务,Kernel现在都无需亦步亦趋的频繁与CPU进行交换,GPU本地的任务密度将会得到进一步的提升,在此基础上,Hyper-Q的出现让更多的CPU线程可以向GPU发送Kernel,这进一步减少了GPU等待前端发放任务的周期并提高了任务密度。两者的共同作用导致了必然的结局——GK110架构的单元任务密度将进一步提升,单元复用率也将会因此而获益,这对于GPU的图形执行效率和运算执行效率是同样有益的。
6Kepler架构目的意义再解读
● Kepler架构目的意义再解读
通过GK110的“送出去,请进来”,我们已经可以明确的掌握Kepler架构的目的和意义了——Kepler架构的目的在于在NVIDIA从G80一直延伸到Maxwell及其后架构的路线图中扮演承前启后的角色,它尝试着将一部分逻辑判断性任务交给通用处理器执行,同时将一部分不适合通用处理器执行的控制性工作转移到对应的专用单元来处理,以厘清任务执行地点和执行特征、优化任务处理对象的选定、积累通用处理器使用经验以及收集执行过程中的能耗比特征等一系列手段,为未来Maxwell融合架构中最终接纳ARM架构通用处理器打下了必要的基础。
Maxwell的后续——Echelon架构细节
而Kepler架构的意义则更加单纯,那就是强调性能功耗比属性。让合适的单元以尽可能合适的功耗去完成尽可能合适它们完成的任务,进而让整个架构以更小的功耗达成更大的性能输出能力,这就是Kepler架构最突出的特征和意义。我们在过去一年间面对的以及等待的各色“黑科技”,包括高效的register体系、新Scheduling过程、GPU Boost以及Dynamic Parallelism等等,全部都是为这一意义而存在的。
通过调节SMX结构提升体系的吞吐能力,同时以优秀的缓冲体系、合理的仲裁和任务管理机制以及各种全新的技术来保证体系的单元复用率以及执行效率,这种平衡的理念赋予了Kepler架构强大的性能和成熟稳健的性能功耗表现。Kepler架构的注意力并没有片面的集中在某些特性或者单纯运算能力的提升上,它对任务分派管理机制的调整和改进属于最底层的架构效率优化,正是这种能够让所有架构中运行的任务,无论是运算任务还是图形任务均能受益的改动,为Kepler带来了令人难忘的表现。
G80~GF100架构发展示意,向你们致敬(图片引自后藤弘茂先生博客)
当然,我们同样不能忘记那些站在Kepler背后的英雄们,Kepler之前诸架构对于任务管理体系的不断完善,寄存器及寄存器溢出缓冲体系使用经验的积累,架构设计理念的逐步验证、检讨和补充修正同样是造就Kepler架构的成功的重要因素,而正确平衡成本关系并在DirectX 11时代的起点划下了空间充分的D线,又在可制造型层面为Kepler架构的最终实现奠定了最根本的基础。NVIDIA充分的计划性和推进这些计划的执行力,逐渐将这些积累转化成了实际的架构和产品,并最终带来了今天我们所见到的基于GK110架构的产品——GeForce GTX Titan以及GeForce GTX 780。
除此Dynamic Parallelism之外,GK110架构还将更多更新的技术引入到了体系当中,其中最典型的就是全新的GPU Boost——GPU Boost 2.0。
7同样被支持的GPU Boost 2.0
● 同样被支持的GPU Boost 2.0
GPU Boost是NVIDIA在GK104中首先引入的动态功耗/性能平衡调节机制,它可以动态游戏及应用负载,并将负载同设计功耗上限进行比较,接着将实际负载同设计功耗上限之间的差值转化成实时频率的提升,同时还能根据用户自定义的游戏帧数上限来判断性能需求,进而将多余的性能以降频的形式予以消去,并最终让用户获得更低的使用能耗。
GPU Boost 2.0
在Titan发布之后,NVIDIA将GPU Boost从1.0升级到了全新的2.0版本,本次发布的GeForce GTX 780同样具备GPU Boost 2.0的以下新特性:
更细腻和敏感的频率调节段位。
温度监控出现在控制要素中。
更加集中于“常规使用温度区间”的性能调节区间。
拥有更大的电压调节上限。
支持全新的电压上限/温度联动调节功能,GPU温度越低,可用的电压上限就越高。
支持温度目标值设定及对应的自动调节频率功能。
更多可调节选项。
显示器刷新率调节功能。
GPU Boost 2.0比1.0版本更加敏感,可以更加积极的完成功耗和性能之间的互换,其调节模式也发生了变化,监控机制对GPU频率的调节判断机制将不仅限于功耗数值,温度因素现在也已经被纳入到了判断机制当中。在GPU Boost 2.0默认控制下,显卡将会在更多的时间里处于预设温度上限附近一个小范围的温度区间中。玩家除了可以通过限定自定义帧数上限来达到节能降耗的目的之外,还能通过设定任意的自定义温度上限来达到相同的目的。
除了加入温度要素之外,GPU Boost 2.0还开放了电压控制的上限,玩家在进行超频时可以拥有更大的电压可调空间。另外,电压上限还可以与温度因素进行联动,如果玩家有能力改造散热并达到更低的使用温度,那么在GPU Boost 2.0中将可以获得比常规散热更多地电压上限空间。
GPU Boost 2.0引入的最后一个值得注意的变化来自全新的显示器刷新率超频能力,它允许显卡将显示器的刷新率从60Hz提升至80Hz,进而通过自适应垂直同步将垂直同步的帧速上限设定为80Hz而非过去的60Hz,更高的帧数设定可以让玩家在不产生画面撕裂的前提下获得更高的帧数,这一特性对于需要快节奏激烈对抗的FPS玩家而言应该会很有趣。NVIDIA并未公开该技术的具体实现细节,仅声称“绝大部分国际一线品牌的产品均支持该项特性”,我们猜测该特性应该是透过更改显示器驱动电路单片机中的时钟信息来完成的,因此原则上并不支持使用固定晶振来完成刷新率控制的显示器。我们会在未来展开针对该项特性的专门测试,敬请期待。
8更多丰富的特性
除了本身的强大,GeForce GTX 780还支持许多新奇的应用性特性,NVIDIA GeForce Experience以及与Project Shield之间的配合就是其中典型的代表。
好吧,即便是我们自己,在遇到诸如SMAA或者SBDOF之类新出现的特效之后往往也懒得去深究它们究竟是些啥。玩游戏图的是开心,要是玩个游戏还要先跑去学一大堆的图形术语,接着搞清楚面前这些花里胡哨的特效都代表了些什么效果,然后再去思考这些特效到底怎么取舍才能让自己的显卡流畅的运行起来……这么折腾一番再去玩游戏,那人生岂不是太苦短了?
GeForce GTX 780支持最新版本的GeForce Experience 1.5
NVIDIA GeForce Experience首选项界面
《星际争霸2:虫群之心》游戏优化建议
为了让玩家能够更加方便的设置游戏中的特效选项,让显卡可以快速在性能和特效之前达成最佳的平衡,NVIDIA推出了GeForce Experience技术,它基于NVIDIA设置在云端的庞大数据库,可以在连线后分析用户的硬件及游戏需求,然后自动完成以最佳图形表现为基础的最适合当前硬件性能的图形设置工作。只需点击一下,游戏即可以理想的流畅视觉表现呈现在你的面前。GeForce GTX 780完美支持最新发布的GeForce Experience 1.5,它可以代替玩家进行游戏相关的设置,从而节约玩家的时间和精力。
GeForce GTX Titan的新搭档——Project Shield
除了GeForce Experience之外,与Project Shield的配合也是GeForce GTX 780的一大特色,它可以通过家庭云互联的形式,让Project Shield直接调用其强大的运算和渲染能力完成游戏的本地渲染,然后再将结果呈现在Project Shield的屏幕之上。有了GeForce GTX 780,在马桶上玩Crysis3也不再是不可能的梦想了。
9似曾相识——GTX780拆解赏析
无论从任何角度来说,GeForce GTX 780都能给我们强烈的既是感——它太像GeForce GTX Titan了。除了被削减的显存颗粒以及正面金属外壳上的LOGO,两者的差异少的几乎可以忽略不计。
GeForce GTX 780
GeForce GTX 780的PCB几乎完全承袭自GeForce GTX Titan,其卡身长度并不夸张,略短于GeForce GTX 690,甚至并不比Radeon HD 7970长。供电部分以及其他关键性区域的元件配置同GeForce GTX Titan亦完全相同,这为GeForce GTX 780的性能及稳定性表现提供了相当充分的保障。
10送测产品展示之索泰
● 送测产品展示之索泰
索泰GTX780
11送测产品展示之七彩虹
● 送测产品展示之七彩虹
七彩虹GTX780 CH-3GD5
12送测产品展示之映众
● 送测产品展示之映众
映众GTX780
微星GTX780
影驰GTX780
15测试平台一览
● 测试平台一览
为保证测试能够发挥显卡的最佳性能,本次测试的平台由Intel 酷睿i7-3970X处理器、X79芯片组主板、威刚16GB DDR3-1600四通道内存组建而成。详细硬件规格如下表所示:
测 试 平 台 硬 件 环 境 | ||||
中央处理器 | Intel Core i7-3970X | |||
(6核 / 12线程 / 3.5GHz / 15MB L3) | ||||
散热器 | Sapphire Vapor-X | |||
(LAG2011 单塔风冷散热器) | ||||
内存模组 | ADATA XPG DDR3-1600 4GB × 4 | |||
(SPD:9-9-9-24-1T) | ||||
主板 | GIGABYTE GA-X79-UD7 | |||
(Intel X79 Chipset) | ||||
硬盘 | Seagate Barracuda 1TB | |||
(1TB / 7200RPM / 32MB缓存 / SATA3) | ||||
电源 | Antec HCP-1000 | |||
(80Plus Platinum / 1000W) | ||||
显示器 | DELL Ultra Sharp 3008WFP | |||
(30英寸LCD / 2560×1600分辨率) |
● 测试平台软件环境一览
为保证系统平台具有最佳稳定性,本次横向评测所使用的操作系统为Microsoft Windows 7正版授权产品,除关闭自动休眠外,其余设置均保持默认,详细软件环境如下表所示:
测 试 平 台 软 件 环 境 | ||||
操作系统 | Microsoft Windows7 Ultimate RTM SP1 | |||
(64bit / 版本号:7601) | ||||
主板芯片组驱动 | Intel Chipset Device Software | |||
(WHQL / 版本号:9.2.3.1022) | ||||
NVIDIA显卡驱动 | NVIDIA Forceware | |||
(Beta / 版本号:320.18) | ||||
AMD显卡驱动 | AMD Catalyst | |||
(Beta / 版本号:13.5 Beta2) | ||||
桌面环境 | Microsoft Windows7 Ultimate RTM SP1 | |||
(2560X1600/32bit/60Hz) |
需要特别说明的是,为了保证游戏及测试过程中双方特效设置的完全相同以及公平公正,我们调整了AMD催化剂驱动的AI控制功能,将镶嵌等级从驱动默认的“AMD优化”改回了应有的“应用程序控制”。只有在这样的设置下,AMD显卡才会在游戏中使用正确的游戏自身设置的曲面细分等级,而不是AMD预设的更低的曲面细分等级。
16理论性能测试:3DMark Series
● 理论性能测试:3DMark Series
我们在本次测试中使用3Dmark 11及新3Dmark来完成理论性能测试,两款软件均针对DirectX 11显卡。测试成绩主要由显卡测试和CPU测试两部分总和构成,整个测试软件均更加偏重整机性能。
3Dmark 11
以定位而言,GeForce GTX 780取代对象是NVIDIA的单芯旗舰GeForce GTX 680。相对于GeForce GTX 680,GeForce GTX 780在理论测试中的领先优势是非常明显的。
17游戏测试:Crysis3
● 游戏测试:Crysis3
《孤岛危机3》是《孤岛危机》的最新续作,游戏采CryENGINE 3引擎所制作,其卓越的画面表现以及精彩的剧情相信已无需多言。作为硬件杀手的第三代,只支持DirectX 11的Crysis3 PC版再次将游戏的画面精美程度和硬件需求提升到了新的高度。
孤岛危机3
我们采用运行Origin平台启动游戏并进行第一关至进入建筑物为止,同时收集期间的平均帧数的方式来完成测试,测试进行三次,取平均成绩作为最终测试结果。
Crysis3再次为我们展现了碾压一切的实力,极限分辨率下的它将成功的将所有参测显卡的表现都压制在了30帧以下。但即便如此,GeForce GTX 780依旧向我们展现了它强大的性能。
18游戏测试:Crysis2
● 游戏测试:Crysis2
《孤岛危机2》是《孤岛危机》的续作,游戏采CryENGINE 3引擎所制作,故事发生在距一代3年后的2023年。外星人在地球上的大片区域挑起了战争,各大城市都遭到攻击,人口锐减,玩家将要进行捍卫地球的末日战争。
孤岛危机2
我们采用Crysis2 BenchmarkTool来完成测试,场景选择Downtown,测试进行三次,取最高成绩作为最终测试结果。
1920X1200 4XAA Crysis2
Crysis2曾经也是显卡杀手级的存在,但在GeForce GTX 780这样的新一代旗舰级游戏显卡面前,这位杀手已经不再是不可逾越的天堑了。
19游戏测试:Call of Duty MW3
● 游戏测试:Call of Duty MW3
由动视暴雪于2011年11月初发布的使命召唤:现代战争3延续了前作的诸多特色,其完美的剧情创造了良好的代入感。图形引擎方面则沿用和改进了已经服役两年的IW4.0+引擎,因此拥有良好的硬件“亲和力”。
使命召唤8
我们选择游戏第一关过场动画结束主角翻车至玩家再次恢复控制之间的即时渲染部分作为测试场景,无人为控制干扰因素,测试时长50秒,测试执行3次,取期间的平均帧数作为最终测试结果。
1920X1200 4XAA使命召唤8测试
相对于GeForce GTX 680,GeForce GTX 780的性能提升在即便是COD8这样的老游戏中都是相当明显可见的。
20游戏测试:Metro 2033
● 游戏测试:Metro 2033
本作题材基于俄罗斯最畅销小说Dmitry Glukhovsky。由乌克兰4A游戏工作室开发,采用4A游戏引擎,而且PC版支持nvidia的PhysX物理特效。 2013年,世界被一次灾难性事件毁灭,几乎所有的人类都被消灭,而且地面已经被污染无法生存,极少数幸存者存活在莫斯科的深度地下避难所里,人类文明进入了新的黑暗时代。直至2033年,整整一代人出生并在地下成长,他们长期被困在“地铁站”的城市。
地铁2033
我们采取游戏提供的Benchmark程序来完成测试,该Benchmark所包含的场景具有光照系统,烟雾系统以及激烈交战场景,能够全面反映显卡在面对Compute Shader以及超高分辨率材质时的表现。需要注明的是,有介于既往测试的经验,我们在本次测试中关闭了所有参测显卡的DOF选项设置,以期获得“可以用来玩的帧数”数据。
关闭DOF的地铁2033终于变得平和,不再扮演硬件屠戮者的角色了,相对于GeForce GTX 680,GeForce GTX 780的提升依旧十分明显。
21游戏测试:LostPlanet 2
● 游戏测试:LostPlanet 2
《失落的星球2》背景设在原来第一季的十年后。气候变化融化冰雪覆盖的大陆,创造了新的环境,如丛林。在EDN-3rd的改变下,10年过去了。地球发生了重大改变,冰川已经融化,热带丛林,沙漠冷酷无情。玩家将进入新的环境,与雪贼战斗,以抓住不断变化的地球控制权。玩家将控制他们的英雄跨越6个相互关联的事件,创造一个真正独特的互动体验。有了这个概念,玩家将会有机会从不同的发展角度来动态的改变故事情节。
失落星球2
我们采用游戏自带的Benchmark来完成测试,测试进行三次,取三次平均值作为最终结果。
1920X1200 4XAA 失落星球2测试结果
以失落星球2的测试结果而言,GeForce GTX 780相对于GeForce GTX 680是符合旗舰级游戏显卡等级的。
22游戏测试:Dirt 3
● 游戏测试:Dirt 3
《Dirt 3》是Codemasters制作发行的一款赛车竞速单机游戏,作为AMD Gaming Evolution的一款游戏,它采用与《F1 2010》同样的Ego引擎,支持DirectX 11 API,拥有更加拟真的天气系统及画面效果。游戏将包含冰雪场景、动态天气、YouTube上传、经典的赛车、分屏对战、party模式、开放世界、更多真实世界中的赞助商和车手等特点。
我们采用游戏自带的Benchmark来完成测试,最终结果以显示平均帧数为准。
尽管游戏性相当不错,但尘埃3作为第一代DirectX 11游戏已经十分“老旧”了,最新硬件在其上难以发挥出全部的性能优势了。即便如此,GeForce GTX 780仍然在该款游戏中表现了强大的实力。
23游戏测试:蝙蝠侠阿克汉姆之城
● 游戏测试:蝙蝠侠阿克汉姆之城
蝙蝠侠:阿甘之城(Batman: Arkham City)是2009年最佳动作游戏《蝙蝠侠:阿甘疯人院》的续作,由华纳兄弟出品,该作由Rocksteady工作室负责开发,世界架构仍然建立在《阿克汉姆疯人院》的气氛上,不过这次上升至阿克汉姆之城——高谭市内戒备森严的,关押了大量暴徒的监狱之中。新作汇集了众多明星参与的配音阵容以及蝙蝠侠中的极度凶残的恶棍,并改进和加强了一游戏特点,让玩家们拥有像《蝙蝠侠:黑暗骑士》一般的终极游戏体验。
蝙蝠侠:阿克汉姆之城
我们采用游戏自带Benchmark进行性能测试。测试进行三次,取三次平均值作为最终结果。
1920X1200 4XAA分辨率蝙蝠侠2测试结果
同样是一款游戏性相当不错的老游戏,蝙蝠侠阿甘之城对于硬件的需求相对比较合适。根据测试结果,我们认为GeForce GTX 780的用户可以放心的在2560极限分辨率下开启PhysX选项来体验完全不一样的真实的阿甘之城,这是上一代的GeForce GTX 680无法做到的事。
24游戏测试:无主之地2
● 游戏测试:无主之地2
《无主之地》为一款RPG风格合作FPS游戏,作为《无主之地》的续作,这款卡通渲染风格的二代游戏可以让玩家仍然扮演来自前作的自定义英雄,同时引入了名为“圣安德列斯风格”的升级系统。并且该作取消在线多人模式,支持合作模式。
无主之地2
我们采用运行游戏第一关至第一个洞口的方式来完成游戏测试,整个测试过程重复3次,取平均帧数为测试结果。
1920X1200 FXAA 无主之地2测试结果
无主之地2的卡通渲染风格对GPU的性能要求并不算过分苛刻,因此同蝙蝠侠阿甘之城一样,我们建议选择GeForce GTX 780开启最高级的PhysX选项,GeForce GTX 780完全可以为你带来依旧流畅的性能表现。
25游戏测试:杀手5
● 游戏测试:杀手5
《杀手5:赦免》采用IO Interactive自主研发的冰川2(Glacier 2)引擎制作,游戏内容都是在引擎下实时进行反馈的,所有动作都是即时生成的。新作主要场景发生在芝加哥,名为代号47的主角在本作中将更加灵活,更好控制。他将可以攀在悬崖边,还可以保持平衡,游戏融入了掩护系统,挟持人持的功能回归。
杀手5:赦免
我们使用游戏自带的Benchmark程序来完成设置,测试进行三次,取平均值为最终结果:
相对于GeForce GTX 680,GeForce GTX 780在杀手5中的提升幅度依旧相当可观。
26应用测试:天堂4.0
● 应用测试:天堂4.0 《Heaven Benchmark》是由俄罗斯Unigine游戏公司开发设计的一款Benchmark程序的最新版本,该程序是由Unigine公司自主研发的游戏引擎设计,支持DirectX 9、DirectX 10、DirectX 11与OpenGL 3.2 API,通过数十个场景的测试最终得出显卡的实际效能。 得益于整体放大的规模以及完整的MC,GeForce GTX 780在2560X1600 8XAA的极限分辨率考验下依旧表现不俗,整体提升较之GeForce GTX 680十分明显。
天堂4.0
2560X1600 8XAA 天堂4.0测试结果
27GTX780游戏性能综合比率
● GTX780游戏性能综合比率
我们收集了全部9款参测游戏的帧数数据,以GeForce GTX 780为基础将在游戏中的表现与所有参测显卡进行了一一对比,下面就是所有参测显卡在全部测试游戏中相对于GeForce GTX 780比率的平均值。
GeForce GTX 780性能比率(1920分辨率)
GeForce GTX 780性能比率(1920分辨率,与GTX680对比)
GeForce GTX 780性能比率(2560分辨率,与GTX680对比)
我们同时还制作了以GeForce GTX 680为基准的性能比率表格,这样可以更加直观的获得GeForce GTX 780相对于GeForce GTX 680的性能提升幅度。在2560X1600分辨率下,GeForce GTX 780的游戏性能领先GeForce GTX 680的幅度为31.8%。
28SLI多卡性能延伸测试
● SLI多卡性能延伸测试
GeForce GTX 780支持多种SLI配置,可以以多卡互联的方式进一步拓展其性能界限。因此我们分别使用3Dmark 11以及新3Dmark完成了多卡互联性能的测试,结果如下:
3Dmark 11 X模式GeForce GTX 780双卡SLI性能测试
新3Dmark X模式GeForce GTX 780双卡SLI性能测试
以民用游戏显卡定位而言,GeForce GTX 780多卡SLI不仅性价比“颇高”,同时还能实现一般显卡无法达到的性能极限。除了GeForce GTX Titan,GeForce GTX 780无疑是平台极限性能的最佳选择。
29通用计算测试之Fluid simulation
● 架构通用计算测试:Fluid simulation
总有一种错误的观点,认为所谓游戏显卡和运算卡之间存在泾渭分明的架构级差异,玩游戏快的显卡跑通用计算必然会慢,这种看法是片面而且没有依据的。图形任务本来就是大量数学任务的集合,GPU执行图形操作的过程本身就是在计算,在DirectX 11时代这种特征更为明显。有介于这种错误的观点以及图形同运算之间的联系,探寻架构的通用计算特征一直是我们必定进行的测试项目。同往常一样,我们依旧为大家带来了基于DirectX SDK的通用计算性能测试。
与各种不明就里或者只知道跑理论吞吐测试的第三方测试软件不同,我们进行的DirectX SDK Simulation直接调用微软的DirectX API来完成测试,这些测试的对象和过程都是构成DirectX环境下图形与计算任务的基础,是最直接的针对GPU实际运算性能的测试。以此为基准取得的测试结果,才是真实的能够反映架构运算性能和效率的结果。
Fluid dynamics simulation
我们首先进行的DirectX SDK测试是使用Direct Compute完成的流体力学模拟——Fluid dynamics simulation。Fluid dynamics simulation基于弹性力/黏着力/重力为基础的颗粒碰撞模拟,每一个颗粒均拥有独立的力学参数。通过对颗粒本身在统一的重力参数作用下自有力学参数以及交互作用的计算,可以模拟大量颗粒的行为并达到模拟由它们构成的“流体”特性的目的。
Fluid dynamics simulation分别提供了对shared性能以及Grid性能的测试,力学计算本身需要应用包括矩阵运算在内的多种数学方法,颗粒之间的力学交互作用存在条件分支关系,因此该项测试可以全面考验不同构架对图形通用计算以及有针对性的物理特效计算的性能。
GeForce GTX 780通用计算性能测试之FluidCS
Kepler架构的通用计算能力是毋庸置疑的,GeForce GTX 780在Fluid dynamics simulation中的性能表现再次佐证了这一点,除了双精度之外,它保持了GK110的其他运算特性,所以能以非常明显的幅度领先于其他上代架构的所有参测旗舰级显卡。
30通用计算测试之CSM
● 架构通用计算测试:Cascaded Shadow Maps
Cascaded Shadow Maps(CSM)是一种基于阴影深度进行的阴影判断及快速操作模式,CSM通过将整个阴影划分成若干级的层次,以层次内部像素的深度来定义和快速判断阴影位置,并对近景阴影采取高精度贴图,远景阴影采用低精度贴图的方式来达到节约资源同时快速准确实现阴影贴图的目的。CSM可以极大地加快阴影操作的速度,同时避免大多数因为光源形态、阴影深度与像素尺寸差异所导致的阴影边缘及内部贴图错误。
Cascaded Shadow Maps
CSM大量涉及矩阵运算及坐标判断,因此在DirectX 11环境下可以透过Compute Shader来进行。对CSM的性能测试,有助于我们了解构架的矩阵操作等通用计算性能。
GeForce GTX 780通用计算性能测试之CSM
GeForce GTX 780继承自GK110的完整运算特性为其带来了相当不错的性能表现,领先上代旗舰GeForce GTX 680超过三成。
31通用计算测试之OIT
● 架构通用计算测试:OIT
半透明是3D图形中一种重要的特效,但传统的Alpha混合基本上无法完成对不同半透明物体以及同一物体不同半透明部分的层次判断,因此如果以Alpha操作来简单的实现半透明效果,很多时候获得结果都是错误的。所以在DirectX 11中,微软为我们引入了OIT(透明独立叠加)技术来解决这一问题。
OIT(透明独立叠加)
在实现OIT技术的过程中,程序会将处于同一层次的部件所对应的线程/任务以Atomic(原子操作)的形式保护起来,使这些线程在被执行结束之前变成一个不可再分的整体。接下来这些Atomic会被放置在buffer中进行处理优先级的排序,通过这些操作,物体及部件所在的层次和正确的显示效果就被最终确定下来了。如果构架拥有cache等可读写近存近取缓冲,则可以极大地加快OIT的乱序操作过程。因此对OIT的性能测试,将可以让我们了解构架是否具有足够的灵活度、充足的缓冲密度以及完整的Atomic特性支持能力
GeForce GTX 780通用计算性能测试之OIT
在OIT的测试中,GeForce GTX 780遇到了我们之前在GeForce GTX Titan首发测试中完全相同的状况,它的性能尚不及先期发布的GeForce GTX 680,我们无法断定这究竟是驱动不完善还是GK110架构的cache体系存在设计问题所导致的,但可以肯定现在的性能表现源自cache的实际表现异常。伴随着未来NVIDIA逐步更新和完善驱动程序,我们会持续关注这一问题的解决过程。
32通用计算测试之nBody Gravity
● 架构通用计算测试:nBody Gravity CS11
nBody Gravity的前身来自nBody仿真,nBody仿真的目的在于模拟一个多体系统的演化过程,该系统中的每个个体(Body)都会与周围的其他物体发生非接触力学吸引/排斥作用。通过nBody仿真,我们可以获得大量长程力作用的系统,比如小到范德华力作用下的原子/分子群或者大到万有引力作用下的星系之类各色场合的模拟结果。对于气流等稀薄流体的模拟同样可以归约成nBody仿真过程并予以解决。
nBody Gravity
nBody Gravity将场景设定为大量粒子在引力这一种基本长程力下高速运动作用形成的多体问题,尽管粒子间不考虑接触力学传递,但整体而言nBody Gravity模拟与我们前面进行的Fluid dynamics simulation测试一样,都需要大量应用到矩阵操作等大量常见的数学方法。在此基础上,由于长程力一次影响的对象远较流体模拟中弹性碰撞传递所能够影响的对象要多,其背后所对应的线程量非常庞大,因此nBody Gravity对于硬件构架的并行度有极高的要求。透过nBody Gravity的测试,我们可以了解到被测对象的吞吐能力、对基本条件分支的应对能力、并行处理能力以及对矩阵等常规数学方法的处理能力。这些能力,最终都将反映构架执行DirectX 11特性尤其是Compute Shader的效率。
GeForce GTX 780通用计算性能测试之nBody Gravity
GeForce GTX 780在nBody Gravity测试中恢复了正常的性能,我们再次体会到了GK110以及Kepler架构令人满意的通用计算性能以及整个架构正确的通用计算性能延续性,以及它相对于GK104架构的运算能力提升。
33功耗温度测试
● 功耗温度测试
在功耗、温度及噪音测试环节,我们采用Furmark满载的方式让显卡达到全负荷工作的方式,来收集GeForce GTX 780的满载平台功耗温度及噪音数据。
GeForce GTX 780平台待机功耗
结构承袭自GeForce GTX Titan的GeForce GTX 780拥有了与前者接近的功耗表现,在我们的测试平台上,该卡的平台待机功耗为62.76W,Furmark满载平台功耗则为356.75W。
GeForce GTX 780的Furmark满载温度为83度,这得益于GPU Boost 2.0的温度上限值功能。该上限值可由玩家自行决定,如果您不需要过高的性能,完全可以通过设定更低的温度上限来达到节能的目的。
34测试总结:关于未来的思考
● 测试总结:关于未来的思考
好了,我们对GeForce GTX 780的测试和呈现到这里就告一段落了。其实GeForce GTX 780的性能和特性并没有出乎大多数人的意料——由于之前发布的GeForce GTX Titan,当基于同架构的GeForce GTX 780规格公开的那一刻,相信屏幕前的您其实就已经对GeForce GTX 780的性能有一个大致的了解了。它的性能在现阶段是毋庸置疑的,市场定位也非常清晰指向了GeForce GTX 680的替代者,一再的重复这些已经摆在明面上的事然后冒充“评论性总结”,对于一篇旗舰显卡首测而言其实没有多少实际意义。我们还需要更多的东西,那就是思考。
所以在本文的最后,不如让我们一起来思考几个问题吧。
什么因素让GeForce GTX 780成了先发旗舰
GeForce GTX 780唯一超出我们预期并让人略感意外的东西在于其罕见的先发。NVIDIA为什么会打破从Tesla时代就已经形成并持续了多年的后发节奏?是什么因素让NVIDIA将GK110这样一款大芯片产品至于先发的位置呢?
GeForce GTX 780是一款定位于旗舰级游戏显卡的产品,它与它之上的GeForce GTX Titan所形成的“旗舰-超旗舰”的全新组合模式背后,有没有更加深层次的含义和作用呢?
我们又为什么会提前半年便猜中GeForce GTX 780的架构细节
在开篇时我们就已经提到了命运,包括性能表现以及定位在内的一系列关于GeForce GTX 780的事其实早已经注定,可为什么这些事能够早早的被导入到一个特定的轨道中并滑向今天这样的终点呢?
GK104的命运又会如何?表面上看它似乎是已经进入垂暮之年、即将被替换和取代的上一届旗舰级架构,但您在它身上感受到“衰老”和即将故去的气息了么?“104”原本就面向SweetSpot的代号,这代号现在又向我们透露着怎样的信息呢?
站在GeForce GTX 780的对面,HD8970会是什么样子呢?
每一款先发的GPU架构都是一面镜子,因为它们是建立在开发者对于对手行为预判的基础之上的,所以我们可以通过先发GPU架构来一窥竞争者的容貌。那么在GeForce GTX 780这面镜子中,我们能够看到的Radeon HD 8900架构会是怎样的?它的命运又将如何呢?
GeForce GTX 780的发布正式拉开了NVIDIA/AMD新一代产品线更迭的帷幕,那么这帷幕的背后究竟还藏了些什么值得我们关注的内容?我们会从中得到惊喜么?又是谁用怎样的一双手将它们摆在了帷幕后各自所在的位置呢?
我们没有这些问题的答案,它们是属于未来的。我们也不想提供任何可供参考的选项来左右屏幕前诸位的思考,它们是属于您的。除了和您一起思考之外,我们现在能做的事其实并不多——同GeForce GTX 780的命运一样,虽然我们提出的这些问题属于未来,但其实它们的走向早就已经注定了。我们所能做的只有静静的等待命运向我们走来,然后尝试着去理解这些命运以及它们背后的成因。
但愿命运不会让我们失望,但愿命运能给为我们勾勒出一片属于GPU以及显卡业界的全新篇章,但愿命运能够让我们更多的徜徉于图形世界带来的视觉震撼和享受当中,但愿……
35产品参数对比
索泰GTX 780-3GD5 极速版 HA和七彩虹GTX780 CH-3GD5和Inno3D GTX780游戏至尊版和微星N780-3GD5和影驰GTX780有什么区别
GeForce GTX Titan的单卡性能足以傲视群雄,而与其使用相同核心的GeForce GTX 780今天正式发布,性能自然不会让我们失望。不过还是让我们看一下这款产品的具体性能、功能、规格,以及在目前整个娱乐级显卡中,它所存在的行业、市场价值。
推荐经销商