1终场的最高潮
2013年的10月~11月对于显卡业界而言无疑是忙碌和令人眼花缭乱的。NVIDIA editor's day、Hawaii架构、Radeon R9-290X、GeForce GTX 780GHz/OC、Radeon R9-290……仿佛是要一口气打破业界沉闷的气息似的,NVIDIA和AMD在过去一个月间一股脑的同时倾泻出了大量的新作和惊喜。现在,这一波惊喜的结尾同时也是最高潮终于到来了。
美国时间2013年11月7日0时,北京时间11月7日21时,NVIDIA全球正式发布了新一代单芯旗舰级显卡——GeForce GTX 780Ti。该款显卡采用了完整规格的GK110架构芯片,不仅图形性能超过了曾经的跨领域卡皇GeForce GTX Titan,同时进一步将旗舰级单芯显卡的绝对性能和性能功耗比上限推进到了全新的高度。
自从一个月之前NVIDIA CEO黄仁勋先生在蒙特利尔的NVIDIA editor's day上亲自展示GeForce GTX 780Ti起,全世界的目光就聚焦到了这款新的单芯卡皇身上,对它的各种猜测不仅花样繁多,而且在过去一个月间一直没有停息。现在,谜底终于可以揭晓了。在接下来的测试当中,就让我们一起亲眼目睹这块新卡皇的真容吧。
2GTX780Ti规格一览
● GTX780Ti规格一览
GeForce GTX 780Ti与我们之前所见的GeForce GTX Titan同属GK110架构。它采用GK110-425-B1芯片,拥有71亿的晶体管规模,核心面积因此达到了533平方毫米(此为NVIDIA公布数据),这一数值并未超越NVIDIA在DirectX 11时代所划D线上空间(什么是D线和D线上空间上限? 它会导致怎样的问题?)的上限(529+52.9平方毫米),甚至进一步下行到了D线本身的附近,只要再小5平方毫米就可以到达D线以下了。与GeForce GTX Titan相比,其运算资源总量从2688个ALU上升到了2880个,Texture Filter Unit由224个上升到了240个,构成后端的ROP则维持了满规格的48个。GeForce GTX 780Ti拥有Kepler架构中最庞大的MC结构,6个64bit双通道显存控制器组合形成了384bit显存控制单元,GeForce GTX 780Ti因此采用了3072MB的尺寸的显存体系。
注:市场售价均为官方首发限价
得益于生产经验累积所带来的可制造性要素提升,GeForce GTX 780Ti的默认核心及显存运行频率在Titan的基础上被进一步提升到了876/7008MHz,默认Pixel Fillrate能力为42Gpixels/S,默认Texture Fillrate能力为204.4G/S,显存带宽336.4GB/S。GeForce GTX 780Ti拥有5.04T Flops/S的单精度浮点运算能力,但受限于游戏旗舰显卡的定位,NVIDIA对其生产力属性,也就是双精度浮点运算能力进行了限制,GeForce GTX 780Ti保留了1/24速DP的运算特征,双精度浮点运算能力为210G Flops/S。
GeForce GTX 780Ti采用的GK110与GK104同属Kepler架构,但只有GK110开放了Kepler架构全部功能性设计和特点,这些特点主要由以下主要的部分组成:
1、更加成熟的基于HKMG的TSMC 28nm工艺。
2、5单元的宏观并行结构,15组SMX单元被分为5个GPC,每个GPC包含3组SMX。
3、15组包含了几何引擎、光栅化引擎以及线程仲裁管理机制的SMX单元。每个SMX单元的细节同GK104完全相同,均包含一组改进型的负责处理几何任务需求的PolyMorph Engine,192个负责处理运算任务及Pixel Shader的ALU,16个负责处理材质以及特种运算任务如卷积、快速傅里叶变换等的Texture Array,二级线程管理机制以及与它们对应的shared+unified cache等缓冲体系。
4、基于Dynamic Parallelism的全新本地任务管控机制,以及由此带来的更高的单元复用率。
5、调节粒度更细同时频率控制范围更大的新一代GPU Boost。
6、由GPU Boost 2.0发展而来的新一代Power Balance功能。
Kepler构架曾经是一个充满了神秘感的存在,伴随着GK104以及GK110的陆续发布,我们在过去的一年多里曾经对它的各种细节,诸如ALU团簇单元、Cache、线程仲裁机制、动态频率调节体系等等进行过相关的分析,。随着GeForce GTX 780Ti的到来,Kepler架构的最终形态终于完整的展现在了我们的面前。所以接下来,就让我们一起深入的回顾一下Kepler架构“黑科技”的真正内幕吧。
3再读GK110的宏观并行体系
● 再读GK110的宏观并行体系
NVIDIA于Fermi架构中首次引入了宏观并行结构设计,它将若干组ALU团簇绑定为一个GPC,并辅以完整的几何处理及光栅化流水线,这让每个GPC因此成了与传统GPU同等级的存在。在执行符合DirectX 11特征的程序时,一级任务管理机制只需将Kernel并行的发放给不同的GPC,即可达成整个架构的并行kernel处理过程。因此这种设计不仅可以比较直接的为架构带来更好的几何和光栅化处理能力,同时还可以提升任务的执行效率。
与去年发布的GK104不同,NVIDIA在GK110架构中使用了新的宏观并行结构。GK104的8组SMX单元被两两分组结合成一个GPC,整个架构的8组SMX单元被划分成了4 GPC并行的形式。而GK110则是将15组SMX单元以三组为单位结合成一个GPC,整个架构被划分成了5 GPC并行的形式。
完整规格GK110架构图
由于NVIDIA采用了Setup以及Rasterizer同GPC绑定的方案,因此GK110架构可以实现单周期输出5多边形,在同频下拥有了比GK104多20%的多边形泵出能力以及光栅化处理能力。
宏观并行度的进一步提升有助于体系在处理并行Kernel时的效率,但从外表上来看GK110对于宏观并行度的提升与其运算单元(SMX/ALU)规模的提升并不成比例,单个GPC的规模较之GK104提升了50%,这样的做法给人一种整个架构开始偏重于吞吐而非强调任务效率以及单元复用率的感觉。这是否意味着NVIDIA打算放弃坚持了多年的既有设计思路,开始放弃效率并转向提升架构的吞吐能力了呢?
事实并非如此,因为NVIDIA在GK110中为我们带来了另外两个重要的特性——Dynamic Parallelism和Hyper-Q,这两个特性不仅极大地提升了整个架构的任务效率/密集度,同时将单元复用率以及整个Kepler架构的意义提升到了一个全新的高度。
4最重要特性——DynamicParallelism
● 最重要特性——Dynamic Parallelism
在GK110架构中,NVIDIA在传统的二级仲裁机制CWD(CUDA Work Distributor,CUDA分配器)之外加入了全新的GMU(Grid Management Unit,Grid管理单元),GMU可以对CWD收到的Grid进行启停管理、回收、判断、挂起以及重排序等操作,令其以更加灵活的方式在必要时进入执行单元,这避免了Grid像过去那样以缺乏排序的顺序模式被送入SM,而且一旦进入SM之后就只能等到全部执行结束才能出来。
Dynamic Parallelism特性
GMU的引入为动态片上创建Kernel提供了条件,所以NVIDIA在GK110中引入了全新的Dynamic Parallelism(动态并行)特性,该特性允许GPU根据需要直接对Grid的结果进行判断并在本地创建新的Kernel,这与传统的Kernel执行完毕之后由CPU进行回收判断并创建新的Kernel再行发放有了很大的不同。
Dynamic Parallelism带来的变化(传统模式 VS Dynamic Parallelism)
Dynamic Parallelism减少了GPU同CPU之间的通讯需求,减轻了与CPU频繁通讯所带来的等待周期产生的延迟影响,提升了GPU内部的Kernel密度和执行连贯度,对于低负载高密集任务中单元复用率改善有不小的帮助。
5“送出去,请进来”
● “送出去,请进来”
从去年GK104架构发布之后起,我们在过去接近一年的时间里一直都在尝试着去解析Kepler架构的真实目的和意义。但遗憾的是由于NVIDIA的产品定位以及发布策略的困扰,Kepler架构的特性并没有在GK104中得到完整的阐释,我们的讨论也仅能止步于“黑科技”以及“将寄存器设计水平优势转化成性能功耗比”这样的程度。
伴随着GK110的发布,Kepler架构的完整特性终于全部来到了我们的面前,尤其是Dynamic Parallelism和Hyper-Q的出现,为我们进一步勾勒出了更加丰满的Kepler架构的轮廓。它们与已经先期在GK104及其后的所有Kepler架构中出现的新Scheduling过程一起为我们带来了Kepler区别于以往架构的最大特点,那就是“送出去,请进来”。
Kepler构架与Fermi构架执行Scheduling过程的差异
通常来讲,可重复性较低且需要运算过程的判断性工作并不适合固定单元来执行,更加灵活的具有可编程性的通用运算单元来完成这类工作会比较得心应手。而那些具有较高可重复性,过程相对固定且基本具备可预期性的控制类工作,则更加适合具有特定针对性功能的电路来完成。如果我们以可编程的通用处理单元来完成判断性工作,让控制工作更多地被特定功能电路所执行,就可以达到最高效率的利用不同单元,以最低的能耗来完成最多工作的目的。
但是很遗憾,Kepler之前的GPU并没有这样的获得最高性能功耗比的幸运。传统结构的GPU会在芯片本地以固定电路自行处理绝大部分具有判断性特征的Scheduling过程,而Kernel的启停和发放则完全依赖CPU,这实际上等于是通过通用处理单元来完成本该由更高效的特定功能电路或者说专用单元来完成的工作。这种让专用电路干通用电路的事,让通用处理器做专用单元的事的局面,与性能功耗比的诉求完全是相反的。
Pre-Scheduling过程变化(图片修改自后藤弘茂先生博客)
在Kepler中,NVIDIA实际上完成了一个“送出去,请进来”的过程——把一部分Scheduling过程从本地“送出去”,也就是转移到了CPU中以运算的形式来完成,同时通过引入GMU单元以及添加Dynamic Parallelism特性来降低CPU控制对任务的介入和影响,将控制工作更多地“请进来”,亦即移动到本地的GMU完成。这种执行位置和执行对象的互换扭转了过去“满拧”的局面,将适合通用处理单元的工作从GPU中拿出来交给了通用处理单元,也将不适合通用处理单元完成的工作交还给了GPU中的固定单元来完成,从而达到了各种单元均可以以更合适的功耗完成更多工作的目的。
Dynamic Parallelism的片上直接Kernel创建特性减小了CPU对控制的介入
关于将Scheduling移交给通用处理器完成的目的和意义,我们在过去的一年多里已经进行了详尽的分析和解读,这是一个与NVIDIA未来架构发展息息相关的系列过程,在这里不再赘述,有兴趣的朋友可以点击这里阅读。而引入Dynamic Parallelism则带来了更多显而易见的好处,无论是计算任务还是图形处理任务,Kernel现在都无需亦步亦趋的频繁与CPU进行交换,GPU本地的任务密度将会得到进一步的提升,在此基础上,Hyper-Q的出现让更多的CPU线程可以向GPU发送Kernel,这进一步减少了GPU等待前端发放任务的周期并提高了任务密度。两者的共同作用导致了必然的结局——GK110架构的单元任务密度将进一步提升,单元复用率也将会因此而获益,这对于GPU的图形执行效率和运算执行效率是同样有益的。
6再议Kepler架构的目的和意义
● 再议Kepler架构的目的和意义
通过GK110的“送出去,请进来”,我们已经可以明确的掌握Kepler架构的目的和意义了——Kepler架构的目的在于在NVIDIA从G80一直延伸到Maxwell及其后架构的路线图中扮演承前启后的角色,它尝试着将一部分逻辑判断性任务交给通用处理器执行,同时将一部分不适合通用处理器执行的控制性工作转移到对应的专用单元来处理,以厘清任务执行地点和执行特征、优化任务处理对象的选定、积累通用处理器使用经验以及收集执行过程中的能耗比特征等一系列手段,为未来Maxwell融合架构中最终接纳ARM架构通用处理器打下了必要的基础。
Maxwell的后续——Echelon架构细节
而Kepler架构的意义则更加单纯,那就是强调性能功耗比属性。让合适的单元以尽可能合适的功耗去完成尽可能合适它们完成的任务,进而让整个架构以更小的功耗达成更大的性能输出能力,这就是Kepler架构最突出的特征和意义。我们在过去一年间面对的以及等待的各色“黑科技”,包括高效的register体系、新Scheduling过程、GPU Boost以及Dynamic Parallelism等等,全部都是为这一意义而存在的。
通过调节SMX结构提升体系的吞吐能力,同时以优秀的缓冲体系、合理的仲裁和任务管理机制以及各种全新的技术来保证体系的单元复用率以及执行效率,这种平衡的理念赋予了Kepler架构强大的性能和成熟稳健的性能功耗表现。Kepler架构的注意力并没有片面的集中在某些特性或者单纯运算能力的提升上,它对任务分派管理机制的调整和改进属于最底层的架构效率优化,正是这种能够让所有架构中运行的任务,无论是运算任务还是图形任务均能受益的改动,为Kepler带来了令人难忘的表现。
G80~GF100架构发展示意,向你们致敬(图片引自后藤弘茂先生博客)
当然,我们同样不能忘记那些站在Kepler背后的英雄们,Kepler之前诸架构对于任务管理体系的不断完善,寄存器及寄存器溢出缓冲体系使用经验的积累,架构设计理念的逐步验证、检讨和补充修正同样是造就Kepler架构的成功的重要因素,而正确平衡成本关系并在DirectX 11时代的起点划下了空间充分的D线,又在可制造型层面为Kepler架构的最终实现奠定了最根本的基础。NVIDIA充分的计划性和推进这些计划的执行力,逐渐将这些积累转化成了实际的架构和产品,并最终带来了今天我们所见到的基于GK110架构的产品——GeForce GTX 780Ti。
除此Dynamic Parallelism之外,GK110架构还将更多更新的技术引入到了体系当中,其中最典型的就是全新的GPU Boost——GPU Boost 2.0。
7GPU Boost 2.0+G-SYNC
● GPU Boost 2.0+G-SYNC
GPU Boost是NVIDIA在GK104中首先引入的动态功耗/性能平衡调节机制,它可以动态游戏及应用负载,并将负载同设计功耗上限进行比较,接着将实际负载同设计功耗上限之间的差值转化成实时频率的提升,同时还能根据用户自定义的游戏帧数上限来判断性能需求,进而将多余的性能以降频的形式予以消去,并最终让用户获得更低的使用能耗。
GPU Boost 2.0
伴随着GK110架构的到来,NVIDIA将GPU Boost从1.0升级到了全新的2.0版本,新版本GPU Boost支持以下新特性:
更细腻和敏感的频率调节段位。
温度监控出现在控制要素中。
更加集中于“常规使用温度区间”的性能调节区间。
拥有更大的电压调节上限。
支持全新的电压上限/温度联动调节功能,GPU温度越低,可用的电压上限就越高。
支持温度目标值设定及对应的自动调节频率功能。
更多可调节选项。
显示器刷新率调节功能。
GPU Boost 2.0比1.0版本更加敏感,可以更加积极的完成功耗和性能之间的互换,其调节模式也发生了变化,监控机制对GPU频率的调节判断机制将不仅限于功耗数值,温度因素现在也已经被纳入到了判断机制当中。在GPU Boost 2.0默认控制下,Titan将会在更多的时间里处于80度附近这样一个小范围的温度区间中。玩家现在除了可以通过限定自定义帧数上限来达到节能降耗的目的之外,还能通过设定任意的自定义温度上限来达到相同的目的。
除了加入温度要素之外,GPU Boost 2.0还开放了电压控制的上限,玩家在进行超频时可以拥有更大的电压可调空间。另外,电压上限还可以与温度因素进行联动,如果玩家有能力改造散热并达到更低的使用温度,那么在GPU Boost 2.0中将可以获得比常规散热更多地电压上限空间。
GPU Boost 2.0引入的最后一个值得注意的变化来自全新的显示器刷新率调节能力,该能力目前已经演化成了更为完善的G-SYNC技术,这项NVIDIA于2013年蒙特利尔媒体日上发布的全新技术从根本上解决了画面的卡顿及撕裂问题。我们会在未来展开针对该项特性的专门解析和测试,敬请期待。
8精彩的分享——ShadowPlay
● 精彩的分享——ShadowPlay
作为NVIDIA全新推出的游戏分享技术,ShadowPlay并非GeForce GTX 780Ti的专属新特性,但它在后者的服役生涯中同样会扮演重要的角色。该技术由Kepler GPU以及GFE软件两部分所组成,其作用在于以近乎无损性能的方式在游戏过程当中实时完成高清游戏视频的截取,同时完成近乎实时的上传分享。
全新游戏视频截取技术——ShadowPlay
ShadowPlay的视频截取过程可以充分GK110 GPU的硬件来完成视频编码过程,整个过程不会占用额外的CPU以及其他系统资源,因此对实际游戏帧数影响甚小。根据大会现场NVIDIA所演示的游戏实况,ShadowPlay即便是在进行1080P分辨率视频的实时录制时,对游戏的帧数影响也可以控制在1~2帧左右,几乎达到了无损的程度。
ShadowPlay同时支持从普通的480/720P一直到Full HD的1080P在内的多种不同分辨率的视频录制,同时还可以通过GFE软件简单实时地完成视频分享过程,视频上传到网络中的整体延迟仅为当前画面后2~3秒左右,这几乎等同于现场直播你的游戏过程。借由GeForce GTX 780Ti来实现实时的将逼真的高清分辨率游戏过程进行分享的感受,这是传统硬件以及其他解决方案无法提供的。
9最完整的释放——GTX780Ti拆解
● 最完整的释放——GTX780Ti拆解
GeForce GTX 780Ti
10送测产品展示之索泰
● 送测产品展示之索泰
索泰GTX780Ti极速版
11送测产品展示之Inno3D
● 送测产品展示之Inno 3D
Inno 3D GTX780Ti
12送测产品展示之Inno3D非公版
● 送测产品展示之Inno 3D非公版
Inno 3D GTX780Ti冰龙版
13送测产品展示之七彩虹
● 送测产品展示之七彩虹
14送测产品展示之七彩虹非公版
● 送测产品展示之七彩虹非公版
七彩虹iGame780Ti
● 送测产品展示之影驰
影驰GTX780Ti
● 送测产品展示之耕昇
耕昇GTX780Ti
17测试平台一览
● 测试平台一览
为保证测试能够发挥显卡的最佳性能,本次测试的平台由Intel 酷睿i7-3970X处理器、X79芯片组主板、威刚16GB DDR3-1600四通道内存组建而成。详细硬件规格如下表所示:
测 试 平 台 硬 件 环 境 | ||||
中央处理器 | Intel Core i7-3970X | |||
(6核 / 12线程 / 3.5GHz / 15MB L3) | ||||
散热器 | Sapphire Vapor-X | |||
(LAG2011 单塔风冷散热器) | ||||
内存模组 | ADATA XPG DDR3-1600 4GB × 4 | |||
(SPD:9-9-9-24-1T) | ||||
主板 | GIGABYTE GA-X79-UD7 | |||
(Intel X79 Chipset) | ||||
硬盘 | Seagate Barracuda 1TB | |||
(1TB / 7200RPM / 32MB缓存 / SATA3) | ||||
电源 | Antec HCP-1000 | |||
(80Plus Platinum / 1000W) | ||||
显示器 | DELL Ultra Sharp 3008WFP | |||
(30英寸LCD / 2560×1600分辨率) |
● 测试平台软件环境一览 为保证系统平台具有最佳稳定性,本次横向评测所使用的操作系统为Microsoft Windows 7正版授权产品,除关闭自动休眠外,其余设置均保持默认,详细软件环境如下表所示:
测 试 平 台 软 件 环 境 | ||||
操作系统 | Microsoft Windows7 Ultimate RTM SP1 | |||
(64bit / 版本号:7601) | ||||
主板芯片组驱动 | Intel Chipset Device Software | |||
(WHQL / 版本号:9.2.3.1022) | ||||
NVIDIA显卡驱动 | NVIDIA Forceware | |||
(Beta / 版本号:331.70) | ||||
AMD显卡驱动 | AMD Catalyst | |||
(Beta / 版本号:13.11 Beta V5/V6/V8) | ||||
桌面环境 | Microsoft Windows7 Ultimate RTM SP1 | |||
(2560X1600/32bit/60Hz) |
需要特别说明的是,为了保证游戏及测试过程中双方特效设置的完全相同以及公平公正,我们调整了AMD催化剂驱动的AI控制功能,将镶嵌等级从驱动默认的“AMD优化”改回了应有的“应用程序控制”。只有在这样的设置下,AMD显卡才会在游戏中使用正确的游戏自身设置的特效设置等级,而不是AMD预设的更低的特效设置等级。与此同时,为照顾习惯于默认驱动设置环境使用AMD显卡的用户,我们会同时给出AI优化默认开启状态下的性能测试结果,以供更多用户进行对比及参考。
再次强调,有介于双方在本轮首发测试旗舰所发布各版本驱动的“浮华”表现,我们决定将AMD最新发布的催化剂13.11 Beta V8纳入到测试当中并于V5/V6版进行平行对比,最终取V5/V6/V8驱动中最高的成绩作为最终比较成绩。
18理论性能测试之3DMark FireStrike
● 理论性能测试之3DMark FireStrike
于北京时间2013年2月5日推出的新3DMark,采用全新界面设计,除了测试分数,还会展现每个场景测试期间的实时曲线,全程记录帧率、CPU温度、GPU温度、CPU功耗。新3DMark取消了传统的E、P、X模式,取而代之的是根据负载不同所推出的三个场景,其中FireStrike专为基于DirectX 11显卡搭建的高端游戏平台,而CloudGate则支持基于DirectX 10环境的主流硬件,IceStorm则支持入门级DirectX 9设备、手机、平板电脑等等。
3DMark FireStrike
最强性能,无需多言,GeForce GTX 780Ti的表现已经超过了当前所有的单芯显卡。
19理论性能测试之3DMark 11
● 理论性能测试之3DMark 11
PC游戏随Windows 7的发布进入DirectX 11时代,众多DirectX 11显卡早已摩拳擦掌上阵厮杀,却迟迟没有一个权威性的基准测试软件来衡量游戏显卡DirectX 11性能的高低。终于,DirectX 11时代的3DMark 11来到大家面前。3DMark 11使用原生DirectX 11引擎,测试场景包括Tessellation曲面细分、Compute Shader以及多线程在内的大量DirectX 11特性。
3DMark 11
依旧最快的性能,GeForce GTX 780Ti的表现无愧于单芯卡皇的称号。但在理论测试环节,我们也注意到了NVIDIA驱动的优化问题,GeForce GTX 780Ti的理论性能较之Titan有12%的提升,显存带宽比后者也多了近50G/S,其理论测试的提升幅度远远没有达到应有的水平。
20游戏测试之Crysis3
● 游戏测试之Crysis3
《孤岛危机3》是《孤岛危机》的最新续作,游戏采CryENGINE 3引擎所制作,其卓越的画面表现以及精彩的剧情相信已无需多言。作为硬件杀手的第三代,只支持DirectX 11的Crysis3 PC版再次将游戏的画面精美程度和硬件需求提升到了新的高度。
《孤岛危机3》
我们采用运行Origin平台启动游戏并进行第一关至进入建筑物为止,同时收集期间的平均帧数的方式来完成测试,测试进行三次,取平均成绩作为最终测试结果。
尽管距离30帧的标准还差一点点,但GeForce GTX 780Ti的性能依旧是所有参测显卡中最强的,在理论测试环节表现出来的优化不足问题在这里也不再明显。
21游戏测试之Crysis2
● 游戏测试之Crysis2
《孤岛危机2》是《孤岛危机》的续作,游戏采CryENGINE 3引擎所制作,故事发生在距一代3年后的2023年。外星人在地球上的大片区域挑起了战争,各大城市都遭到攻击,人口锐减,玩家将要进行捍卫地球的末日战争。
《孤岛危机2》
我们采用Crysis2 BenchmarkTool来完成测试,场景选择Downtown,测试进行三次,取最高成绩作为最终测试结果。
优化问题又回来了!尽管在1920分辨率下GeForce GTX 780Ti捍卫了自己单芯卡皇的称号,但在2560分辨率下,其性能表现显然没有达到应有的水平。
22游戏测试之杀手5
● 游戏测试之杀手5
《杀手5:赦免》采用IO Interactive自主研发的冰川2(Glacier 2)引擎制作,游戏内容都是在引擎下实时进行反馈的,所有动作都是即时生成的。新作主要场景发生在芝加哥,名为代号47的主角在本作中将更加灵活,更好控制。他将可以攀在悬崖边,还可以保持平衡,游戏融入了掩护系统,挟持人持的功能回归。
《杀手5:赦免》
我们使用游戏自带的Benchmark程序来完成设置,测试进行三次,取平均值为最终结果:
杀手5的测试恢复了相对的正常,这是一款ROP倚重的重像素负载游戏,参测显卡之间的性能差异相对更多地来自于ROP的总处理能力差异。测试结果没有多少悬念,GeForce GTX 780Ti凭借更高的规格和主频再次登顶。
23游戏测试之Metro LastLight
● 游戏测试之Metro LastLight
本作题材基于俄罗斯最畅销小说Dmitry Glukhovsky,依旧由乌克兰4A游戏工作室开发并采用改进后的4A游戏引擎。最后的曙光讲述了一场为争夺足以毁灭人类的世界末日装置的内战。人类依旧苟活在地下等死。不同派系之间的战争还在继续,晚上依旧有各种变异生物潜伏在暗处。地面依旧是各种毒气,但有传言冰层开始融化,阳光开始穿透云层。
《地铁:最后的曙光》
我们采取游戏提供的Benchmark程序来完成测试,该Benchmark所包含的场景具有光照系统,烟雾系统以及激烈交战场景,能够全面反映显卡在面对Compute Shader以及超高分辨率材质时的表现。
地铁:最后的曙光延续了杀手5的测试结果,GeForce GTX 780Ti的性能在所有参测显卡当中达到了最高水平。
24游戏测试之古墓丽影9
● 游戏测试之古墓丽影9
《古墓丽影9》将讲述劳拉的首次冒险之旅,主角劳拉·克劳馥的年龄被设定在21岁,那时的她还只是一名刚出茅庐的新人,经验欠缺。随着游戏剧情的发展,玩家将与劳拉共同成长,获得新的武器和道具并习得新技能。在冒险的小岛上,玩家可以在营地对道具进行组合,有些特定区域就需要特定道具和技能才能通过。岛上的各个营地之间可以快捷传送,玩家无需长途跋涉。而除了劳拉外还将有其他角色出现在岛上。
我们采取游戏提供的Benchmark程序来完成测试,测试进行三次,取平均值为最终结果:
1920X1200 FXAA 古墓丽影9测试结果
2560X1600 FXAA 古墓丽影9测试结果
GeForce GTX 780Ti在古墓丽影9当中表现出了强劲的性能,其领先幅度相当可观。
25游戏测试之Dirt 3
● 游戏测试之Dirt 3
《Dirt 3》是Codemasters制作发行的一款赛车竞速单机游戏,作为AMD Gaming Evolution的一款游戏,它采用与《F1 2010》同样的Ego引擎,支持DirectX 11 API,拥有更加拟真的天气系统及画面效果。游戏将包含冰雪场景、动态天气、YouTube上传、经典的赛车、分屏对战、party模式、开放世界、更多真实世界中的赞助商和车手等特点。
《尘埃3》
我们采用游戏自带的Benchmark来完成测试,最终结果以显示平均帧数为准。
尘埃3测试再次表现出了331驱动的不成熟,不过GeForce GTX 780Ti依旧成为了最快的游戏显卡。
26戏测试之蝙蝠侠阿甘之城
● 游戏测试之蝙蝠侠阿甘之城
蝙蝠侠:阿甘之城(Batman: Arkham City)是2009年最佳动作游戏《蝙蝠侠:阿甘疯人院》的续作,由华纳兄弟出品,该作由Rocksteady工作室负责开发,世界架构仍然建立在《阿克汉姆疯人院》的气氛上,不过这次上升至阿克汉姆之城——高谭市内戒备森严的,关押了大量暴徒的监狱之中。新作汇集了众多明星参与的配音阵容以及蝙蝠侠中的极度凶残的恶棍,并改进和加强了一游戏特点,让玩家们拥有像《蝙蝠侠:黑暗骑士》一般的终极游戏体验。
《蝙蝠侠:阿甘之城》
我们采用游戏自带Benchmark进行性能测试。测试进行三次,取三次平均值作为最终结果。
毫无疑问,GeForce GTX 780Ti确实是当前最快的单芯显卡。
27游戏测试之生化奇兵无限
● 游戏测试之生化奇兵无限
《生化奇兵:无限》将玩家带往1912年,那是巨型飞艇和浮空飞行器的全盛时期,在此背景下诞生了海底销魂城的前辈,即天空之城“哥伦比亚”:这座远离美国海岸自成一体的空中城市在信众的欢呼声中扶摇直上,寄托了美利坚强国之梦,但因其不可告人的目的使其似锦前程不久便急转直下,武装到牙齿的狰狞面目把原本光荣正确伟大的阿波罗登月变成邪恶的死星计划,整座城市消失在云端中自此再无人知晓。
《生化奇兵:无限》
GeForce GTX 780Ti在生化奇兵:无限中再次表现了强大的性能,它在所有分辨率设置当中均表现出了最强的性能。
28应用测试之天堂4.0
● 应用测试之天堂4.0
《Heaven Benchmark》是由俄罗斯Unigine游戏公司开发设计的一款Benchmark程序的最新版本,该程序是由Unigine公司自主研发的游戏引擎设计,支持DirectX 9、DirectX 10、DirectX 11与OpenGL 3.2 API,通过数十个场景的测试最终得出显卡的实际效能。
《天堂4.0》
2560X1600 8XAA 天堂4.0测试结果
即便是2560X1600X8AA极限设置的天堂4,也没有能够阻挡住GeForce GTX 780Ti挺近单芯性能王座的脚步。
29游戏性能综合比率
● 游戏性能综合比率
我们收集了全部8款参测游戏的帧数数据,然后以GeForce GTX 780Ti为基础,将其在游戏中的表现与所有参测显卡进行了一一对比,下面就是所有参测显卡在全部测试游戏中相对于GeForce GTX 780Ti比率的平均值。
GeForce GTX 780Ti性能比率(1920分辨率)
GeForce GTX 780Ti性能比率(2560分辨率)
最强性能,这是GeForce GTX 780Ti唯一的评语。尽管驱动表现出了各种各样的不成熟,但其游戏性能依旧明显领先所有单芯显卡产品。那除了游戏性能之外,这款显卡的通用计算性能又会是怎样的呢?
30架构通用计算测试之FluidCS
● 架构通用计算测试之Fluid simulation
与各种不明就里或者只知道跑理论吞吐测试的第三方测试软件不同,我们进行的DirectX SDK Simulation直接调用微软的DirectX API来完成测试,这些测试的对象和过程都是构成DirectX环境下图形与计算任务的基础,是最直接的针对GPU实际运算性能的测试。以此为基准取得的测试结果,才是真实的能够反映架构运算性能和效率的结果。
Fluid dynamics simulation
我们首先进行的DirectX SDK测试是使用Direct Compute完成的流体力学模拟——Fluid dynamics simulation。Fluid dynamics simulation基于弹性力/黏着力/重力为基础的颗粒碰撞模拟,每一个颗粒均拥有独立的力学参数。通过对颗粒本身在统一的重力参数作用下自有力学参数以及交互作用的计算,可以模拟大量颗粒的行为并达到模拟由它们构成的“流体”特性的目的。
Fluid dynamics simulation分别提供了对shared性能以及Grid性能的测试,力学计算本身需要应用包括矩阵运算在内的多种数学方法,颗粒之间的力学交互作用存在条件分支关系,因此该项测试可以全面考验不同构架对图形通用计算以及有针对性的物理特效计算的性能。
GeForce GTX 780Ti通用计算性能测试之FluidCS
更高的规格为GeForce GTX 780Ti带来了更好的吞吐能力,所以在FluidCS的测试当中,这款显卡也表现出了最强的性能。
31架构通用计算测试之CSM
● 架构通用计算测试之Cascaded Shadow Maps
Cascaded Shadow Maps(CSM)是一种基于阴影深度进行的阴影判断及快速操作模式,CSM通过将整个阴影划分成若干级的层次,以层次内部像素的深度来定义和快速判断阴影位置,并对近景阴影采取高精度贴图,远景阴影采用低精度贴图的方式来达到节约资源同时快速准确实现阴影贴图的目的。CSM可以极大地加快阴影操作的速度,同时避免大多数因为光源形态、阴影深度与像素尺寸差异所导致的阴影边缘及内部贴图错误。
Cascaded Shadow Maps
CSM大量涉及矩阵运算及坐标判断,因此在DirectX 11环境下可以透过Compute Shader来进行。对CSM的性能测试,有助于我们了解构架的矩阵操作等通用计算性能。
GeForce GTX 780Ti通用计算性能测试之CSM
CSM测试的结果就没有那么幸运了,NVIDIA显然没有来得及细致的调试331.70驱动的表现,所以尽管拥有更高的理论性能,但GeForce GTX 780Ti依旧在该项测试中以微弱的劣势负于了Titan。
32架构通用计算测试之OIT
● 架构通用计算测试之OIT
半透明是3D图形中一种重要的特效,但传统的Alpha混合基本上无法完成对不同半透明物体以及同一物体不同半透明部分的层次判断,因此如果以Alpha操作来简单的实现半透明效果,很多时候获得结果都是错误的。所以在DirectX 11中,微软为我们引入了OIT(透明独立叠加)技术来解决这一问题。
OIT(透明独立叠加)
在实现OIT技术的过程中,程序会将处于同一层次的部件所对应的线程/任务以Atomic(原子操作)的形式保护起来,使这些线程在被执行结束之前变成一个不可再分的整体。接下来这些Atomic会被放置在buffer中进行处理优先级的排序,通过这些操作,物体及部件所在的层次和正确的显示效果就被最终确定下来了。如果构架拥有cache等可读写近存近取缓冲,则可以极大地加快OIT的乱序操作过程。因此对OIT的性能测试,将可以让我们了解构架是否具有足够的灵活度、充足的缓冲密度以及完整的Atomic特性支持能力
GeForce GTX 780Ti通用计算性能测试之OIT
Cache的表现与频率息息相关,因此GeForce GTX 780Ti在OIT测试当中战胜了Titan,但NVIDIA在GK110上所面临的cache问题依旧没有得到改善。
33架构通用计算测试之nBodyCS11
● 架构通用计算测试之nBody Gravity CS11
nBody Gravity的前身来自nBody仿真,nBody仿真的目的在于模拟一个多体系统的演化过程,该系统中的每个个体(Body)都会与周围的其他物体发生非接触力学吸引/排斥作用。通过nBody仿真,我们可以获得大量长程力作用的系统,比如小到范德华力作用下的原子/分子群或者大到万有引力作用下的星系之类各色场合的模拟结果。对于气流等稀薄流体的模拟同样可以归约成nBody仿真过程并予以解决。
nBody Gravity
nBody Gravity将场景设定为大量粒子在引力这一种基本长程力下高速运动作用形成的多体问题,尽管粒子间不考虑接触力学传递,但整体而言nBody Gravity模拟与我们前面进行的Fluid dynamics simulation测试一样,都需要大量应用到矩阵操作等大量常见的数学方法。在此基础上,由于长程力一次影响的对象远较流体模拟中弹性碰撞传递所能够影响的对象要多,其背后所对应的线程量非常庞大,因此nBody Gravity对于硬件构架的并行度有极高的要求。透过nBody Gravity的测试,我们可以了解到被测对象的吞吐能力、对基本条件分支的应对能力、并行处理能力以及对矩阵等常规数学方法的处理能力。这些能力,最终都将反映构架执行DirectX 11特性尤其是Compute Shader的效率。
GeForce GTX 780Ti通用计算性能测试之nBody Gravity
驱动问题再度降临,331版驱动的不成熟让拥有更高理论单精度浮点性能的GeForce GTX 780Ti在最后一项通用计算测试中再次负于了Titan。
34功耗温度测试
● 功耗温度测试
在功耗及温度测试环节,我们继续采用Furmark满载的方式让显卡达到全负荷工作的方式,来收集GeForce GTX 780Ti显卡的满载温度及平台功耗数据。
GeForce GTX 780Ti平台待机功耗
GeForce GTX 780Ti的满载功耗可以用相当优秀来形容,其性能较之GeForce GTX Titan仅有不足10W的提升,并没有因为性能的抬升而背负功耗及温度激增的恶名。NVIDIA将芯片面积控制在D线上空间上限以下,给GK110架构的良好表现打下了最坚实的基础。
35SLI多卡及4K游戏性能延伸测试
● SLI多卡性能及4K游戏性能延伸测试
GeForce GTX 780Ti支持多种SLI配置,可以以多卡互联的方式进一步拓展其性能界限,因此我们分别使用3Dmark 11以及新3Dmark完成了多卡互联性能的测试,结果如下:
3Dmark 11 X模式GeForce GTX 780双卡SLI性能测试
新3Dmark X模式GeForce GTX 780双卡SLI性能测试
4K超高清分辨率是未来游戏的一大趋势,但这一分辨率的最高画质设置对当前的任何显卡来说都是一个严峻的考验,这种考验会不会因为双卡处理能力的倍增而得到缓和呢?在SLI的基础之上,我们对GeForce GTX 780Ti的4K游戏性能进行了测试。
4K分辨率Crysis2测试设置及结果
4K分辨率尘埃3测试设置
4K分辨率古墓丽影9测试设置
测试结果可以说令人感到欣慰,在4K分辨率设置下,我们所有的测试游戏均已经达到了流畅可玩的帧数等级。如果您是一位不差钱的土豪,我们推荐您使用GeForce GTX 780Ti双卡或三卡SLI来搭配4K游戏平台,至关重要的一点在于——不像其他显卡,GeForce GTX 780Ti有充足的能力可以让您全开特效。
36测试总结——平衡,突破瓶颈
● 测试总结——平衡,突破瓶颈
对于GeForce GTX 780Ti而言,结局其实早在测试开始之前就已经注定了。这是一款当之无愧的单芯性能旗舰,它在没有明显提升功耗和使用温度的前提下提供了超越GeForce GTX Titan的当前最强的游戏性能,在继续维持功耗和温度优势的同时进一步扩大了NVIDIA的性能优势。在此基础上,去除生产力属性的GeForce GTX 780Ti在定价方面比Titan更有亲和力,而且并没有因为明确的性能领先而变得过分昂贵。所以以产品角度而言,GeForce GTX 780Ti是一款称职的旗舰。
GeForce GTX 780Ti的性能功耗比表现为GK110架构画上了完美的句号,在同样的制程和工艺下,它在功耗和性能功耗比层面的表现与竞争对手形成了鲜明的对比,这让它成了D线作用的完美阐释,同时也为我们进一步发展D线理论提供了极其重要的支撑和补充。我们将在后续为您奉上迄今为止的DirectX 11时代双方围绕D线所发生的故事,以及更为重要的D线理论推论解析。
性能、温度、功耗三者的联合胜利让GeForce GTX 780Ti本身的性能和地位变得非常直白,已经没什么可说的了,所以一如既往的,我们又该聊点关于性能和表现之外的事儿了。
GeForce GTX 780Ti是当之无愧的单芯王者
在上周的GeForce GTX 780GHz首测结尾,我们对NVIDIA新的331版驱动的质量以及稳定性进行了吐槽。一周的时间显然不够NVIDIA做出实质性的改进,因此在本次GeForce GTX 780Ti首发测试当中,驱动仍旧成了困扰我们测试以及GeForce GTX 780Ti性能发挥的最大障碍。尽管最终GeForce GTX 780Ti凭借优秀的架构达成了出色的表现,但我们仍旧认为GeForce GTX 780Ti还有不少性能潜力可挖。
纵观331系驱动,我们不难发现其中的“特点”——该系驱动的任务繁杂到了前所未有的程度,而首当其冲的便是各种新特性和新技术的支持。从331.40/58开始,NVIDIA便在驱动中开始了对包括ShadowPlay、GameStream PC Game for Shield以及各种GFE相关更新在内的各项新技术支持添加工作,蒙特利尔媒体日前后所公布的全新技术,几乎都在第一时间得到了应用和呈现。
在此基础上,331系驱动还有更为重要的任务,那就是添加对新一波首发硬件,亦即GeForce GTX 780GHz(海外名称GeForce GTX 780OC)和GeForce GTX 780Ti的支持,并尽一切可能发挥其性能优势。尽管两者在架构层面并不算全新产品,前者甚至仅仅是频率重新调整之后的产物,但新硬件的支持和性能开采终归是驱动无可回避的本职工作,而且Radeon R9-290X/290的到来以及表现也加大了NVIDIA新硬件对驱动的依赖和期许。所以这一系列硬件的到来和变更,进一步增加了331系驱动的负担。
仿佛是还嫌NVIDIA的驱动团队工作量不饱和似的,包括战地4、使命召唤:Ghost,蝙蝠侠:起源、刺客信条:黑旗等等在内的一系列游戏大作都在10月中下旬扎堆儿出现了,频繁的新游戏优化需求以及兼容性改进需求让本已任务繁重的驱动团队雪上加霜。这样来看,331系驱动差强人意的表现也就不奇怪了。
高规格的GeForce GTX 780 Ti性能仍在受驱动所累
驱动团队的繁忙同时折射出了NVIDIA现阶段的繁忙,NVIDIA现在正处在三线作战的状态下这件事,是任何人都无法忽视的。曾经给竞争对手带来不小困扰的漫长战线所导致的一系列问题,现在已经真切的摆在了NVIDIA的面前。
Tegra及其周边,包括手机、平板电脑、掌机乃至汽车领域在内的庞大SoC生态圈是NVIDIA当下最炙手可热的新兴增长点,这些新兴生态圈的出现客观上分散了NVIDIA的大量精力。与此同时,Kepler架构问世已经20个月了,按照一般的架构演进规律来看,新的Maxwell架构也已经临近完成并将很快与大家见面了。新的GPU架构不仅涉及民用显卡市场的更新换代和应用革新,利润丰厚同时需求旺盛的HPC市场以及专业图形市场同样需要NVIDIA投注大量的精力。
于是331系驱动的问题,同时也是NVIDIA当前最大的问题也就变得无法回避了——同时面对众多不同的领域需求的NVIDIA会不会“分身乏术”了?它还有能力做好GPU这个自己最看家的核心业务么?
GeForce GTX 780Ti无疑是冲击单芯显卡性能及性能功耗比顶峰的胜利者,它的胜利源自NVIDIA的长期积累以及对Kepler架构的成功释放,而这些积累则获益于NVIDIA对GPU业务的专注和坚韧,我们希望NVIDIA能够将这种成功经验继续发扬下去。GPU是NVIDIA最为擅长的核心业务,在该领域保持必要的专注性不仅对显卡业界有利,对NVIDIA自身同样有着重要的意义。GPU架构的不断进步不仅可以为NVIDIA带来直接的利益,由此所产生的技术积累和经验积累同时也可以非常明确地帮助NVIDIA在新兴的业务领域当中取得积极的进展。如何在漫长的战线中做好资源的平衡,将自身的优势更有效的发挥出来,是摆在NVIDIA面前最重要的课题。
随着GeForce GTX 780Ti的最终发布,我们终于可以在这个繁忙的深秋里透上一口气了。在接下来的日子里,AN双方将会围绕新发布的产品进行新的一轮市场对抗。两家GPU供应者能从这轮竞争当中沉淀出多少有益的经验,玩家能从即将到来的市场大战中获得多少实际好处,业界能否因此而上演新的一轮变革,就让我们一起期待吧。
37产品参数对比
索泰GTX 780Ti-3GD5极速版HA和Inno3D GTX780Ti游戏至尊和Inno3D GTX 780Ti冰龙版和七彩虹GTX780Ti CH-3GD5和七彩虹iGame780Ti-3GD5和影驰GTX780Ti和耕升GTX 780Ti有什么区别
GK110核心的完整规格的GeForce GTX 780 Ti终于发布了,这款将瞬间成为游戏显卡的单芯卡皇,那么这款产品和GeForce GTX TITAN有何区别,性能又有和惊人表现?本文详测将会为您揭开谜底。
推荐经销商