1打破尺寸历史的次级旗舰
这是一款“纤弱”的显卡,它的PCB甚至可以置于一个人的掌心。这同时又是一块强大的显卡,它不仅是NVIDIA产品线上单芯显卡的第二把交椅,更以短小的身材成功挑战了竞争对手旗舰级的显卡。它的出现,为我们上演了一场精彩的“四两拨千斤”的好戏,它的名字,叫做GTX670。
北京时间2012年5月10日21时,NVIDIA全球同步发布了Kepler产品线上的次级旗舰GeForce GTX670。该款产品的到来,标志着NVIDIA在完善Kepler为代表的新一代桌面图形产品线的道路上迈出了重要的一步。中关村在线一如既往的在第一时间获得了这款全新发布的产品,并开始了评测所需要进行的各项准备。
在过去一个月的时间里,我们已经通过GeForce GTX680了解了Kepler架构的特点:小巧同时性能强大,极高的性能功耗比,对PCB资源更低的需求。我们曾经据此设想过接下来将要到来的次级旗舰会是什么样子,但当真的GeForce GTX670产品摆在我们面前时,我们发现自己之前的种种想象都是那么的苍白和不给力——GeForce GTX670已经小巧到了袖珍的等级,它的PCB长度甚至只有17.4厘米。这样一个甚至不及中端显卡的尺寸,怎么可能能够承载Kepler架构次级旗舰所需的性能呢?承载着承上启下重要任务同时对性能有极高要求的GeForce GTX670,难道要被这样一款甚至给人“缩水”感的身形所拖累而变成一款性能羸弱的产品么?
还好,最终的测试结果不仅消除了我们的疑惑,甚至还给我们带来了意料之外的惊喜。GeForce GTX670拥有绝佳的性能表现和功耗表现,这种表现让它把对周边资源的需求削减到了最小的地步,并最终以一个小巧到有些惊艳的身形出人意料的亮相于世人面前。在今天的测试中,我们将会为你展现这款最小次级旗舰的种种特性,接下来就让我们一起看看它到底给我们带来了怎样的惊喜吧。
2GTX670规格一览
● GTX670规格一览
GeForce GTX670基于全新的Kepler图形构架,拥有超过35亿的晶体管规模,核心面积同旗舰版的GeForce GTX680一样均为294平方毫米,仅是HD7970的80.5%。与GeForce GTX680相比,其运算资源总量从1536个ALU下降到了1344个,Texture Filter Unit由128个减少到了112个,构成后端的ROP则维持相同的32个。GTX670拥有Kepler架构全新设计的MC结构,4个64bit双通道显存控制器组合形成了256bit显存控制单元,GTX670也因此采用了容量达2048MB的显存体系。
GTX 670 显 卡 对 位 产 品 规 格 比 较 表 | |||||
显卡型号 | GeForce GTX 670 | GeForce GTX 680 | Radeon HD 7970 |
Radeon HD 6970 | GeForce GTX 580 |
市场定价 | 3199元 | 3999元 | 4299 元 | 2999元 | 3999 元 |
GPU代号 | GK104 | GK104 | Tahiti | Cayman | GF110 |
GPU工艺 | 28nm | 28 nm | 28 nm | 40 nm | 40 nm |
GPU晶体管 | 35.5亿 | 35.5 亿 | 43 亿 | 26.7 亿 | 30 亿 |
着色器数量 | 1344 | 1536 | 2048 | 1536 | 512 |
着色器组织 | 1D*1344 | 1D*1536 | Vector*2048 | 4D*384 | 1D *512 |
ROPs数量 | 32 | 32 | 32 | 32 | 48 |
纹理单元数量 | 112 | 128 | 128 | 96 | 64 |
核心频率 | 915 MHz | 1006 MHz | 925 MHz | 880 MHz | 772 MHz |
着色器频率 | 915MHz | 1006 MHz | 925 MHz | 880 MHz | 1544 MHz |
理论计算能力 | 2.46 TFLOPs | 3.09 TFLOPs | 3.79 TFLOPs |
2.7 TFLOPs |
2.37 TFLOPs |
等效内存频率 | 6008 MHz | 6008 MHz | 5500 MHz | 5500 MHz | 4008 MHz |
内存位宽 | 256 bit | 256 bit | 384 bit | 256 bit | 384 bit |
内存带宽 | 192.3GB/S | 192.3 GB/S | 264 GB/s | 176 GB/s | 192.4 GB/s |
内存类型 | GDDR5 | GDDR5 | GDDR5 | GDDR5 | GDDR5 |
内存容量 | 2048MB | 2048 MB | 3072 MB | 2048 MB | 1536 MB |
DX版本支持 | 11.1 | 11.1 | 11.1 | 11 | 11 |
HD视频技术 | PureVideo HD+NVENC | PureVideo HD+NVENC | UVD3.0 VCE |
UVD3 | PureVideo HD |
通用计算接口 | CUDA | CUDA | Stream | Stream | CUDA |
注:市场定价均为官方首发限价
GTX670的默认核心及显存运行频率为915/6008MHz,默认Pixel Fillrate能力为29.3G/S,默认Texture Fillrate能力为102.5G/S。显存带宽192GB/S。拥有2.46T的单精度浮点运算能力。
GTX670的特色由六个主要的部分组成:
1、基于HKMG的TSMC全新28nm工艺以及由此带来的高性能功耗比。
2、7个包含了几何引擎、光栅化引擎以及线程仲裁管理机制的SMX单元。每个SMX单元包含一组改进型的负责出力几何任务需求的PolyMorph Engine,192个负责处理运算任务及Pixel Shader的ALU,16个负责处理材质以及特种运算任务如卷积、快速傅里叶变换等的Texture Array,二级线程管理机制以及与它们对应的shared+unified cache等缓冲体系。
3、与GTX680完全相同的负责完成fillrate过程以及输出最终画面的32个ROP单元阵列,以及对应L2 cache的4个64bit显存控制器MC(Memory Controller),负责视频回放及处理的PureVideo HD单元,以及全新的负责视频编码部分的NVENC。
4、根据功耗以及用户自定义负载需求实时调节GPU的GPU Boost功能,全新的TXAA以及抑制画面撕裂和顿挫的Adaptive VSync主动垂直同步技术。
5、单卡4屏输出以及单卡3屏3D Vision输出。
6、与GTX680的Pin to Pin设计,双方PCB可以互换通用。
GK104核心照片
Kepler构架与Fermi构架在宏观层面上非常接近,其改进主要集中在微观结构以及功能性层面,诸如ALU团簇的单元、Cache以及线程仲裁机制、调度器动作规则、动态频率调节体系以及单卡多屏输出等等。这些特性不仅为GeForce GTX670带来了旗舰级的性能,更为其良好的功耗表现、极低的周边资源依赖度以及由此带来的短小身形提供了最根本的前提。接下来,就让我们一起看一看Kepler架构都有哪些细节上的改进吧。
3庞大的SMX以及更快速的cache
● 庞大的SMX以及更快速的cache
SM是NVIDIA GPU的ALU团簇基本单元,在GK104中SM部分的改进可谓翻天覆地,NVIDIA采用的全新的SMX单元彻底改变了传统的SM单元的内涵。
GK104所采用的SMX单元与Fermi的SM单元在逻辑结构上十分近似,都拥有完整的几何前端,线程仲裁机制,ALU团簇,Texture Array以及unified cache/shared和Register。除了没有后端之外,可以说一个SM/SMX单元在结构上已经趋近等同于一颗标准GPU了。
GK104逻辑构架
与Fermi的SM单元规模对应线程粒度单位warp(32 ALU VS 32 Thread)不同,GK104的SMX单元急剧放大了ALU团簇的整体规模,其ALU总量从过去的32个增加到了192个。与此同时,SMX单元的线程仲裁管理机制也得到了放大。负责线程分派和发放管理的Warp Scheduler从过去的两个增加到了4个,与之对应的Dispatch Unit从过去的2个增加到了8个,Warp Scheduler与Dispatch Unit的比例提升到了1:2,这些举措可以有效的改善单元规模增大带来的线程分派及管理压力。
SMX单元结构
在放大ALU团簇以及线程仲裁机制的同时,NVIDIA还进一步放大了与ALU团簇对应的Register。根据NV提供的资料,GK104中每个SMX的Register较之Fermi的SM放大了一倍,达到了65536X32bit的规模。
在Unified Cache体系方面,GK104与传统的Fermi在结构上没有多大的差异,其L1/shared以及L2 cache的大小和比例均未发生变化,仍旧维持64K的L1/Shared以及128K/MC的L2尺寸。整个体系中最值得关注的变动来自L2 cache速度以及带宽的提升,NVIDIA称GTX680的L2 cache目前运行在分频状态下,默认运行频率是核心频率的一倍,这为GTX680提供了比过去大得多的L2带宽,这为通用计算性能以及Texture性能的提升创造了有利的条件。
更为强劲的SMX性能
更大的ALU规模、更多的线程仲裁机制以及更大的寄存器缓冲为SMX带来了全新的性能表现,新的逻辑设计让GK104的运算单元拥有了2倍于Fermi的性能功耗比。
4第二代几何处理引擎
● 第二代几何处理引擎
在上一代的Fermi构架中,NVIDIA为每个SM都配备了完整的PolyMorph Engine(几何处理引擎),16个SM单元意味着Fermi拥有16个能够进行Tessellation处理的几何引擎。在GTX670中,由于SMX单元结构的巨变以及总量的减少,8个SMX单元理论上仅能对应8组几何引擎,因此NVIDIA对PolyMorph Engine进行了改进,使之能够在总量减少的前提下维持性能。
PolyMorph Engine 2.0以及线程仲裁机制
PolyMorph Engine 2.0引擎在结构上与PolyMorph Engine 1.0差异不大,均由Vertex Fetch、Tessellator、Viewport Transform、Setup以及Output单元构成。但在PolyMorph Engine 2.0引擎中,NVIDIA加大了Tessellator单元的规模,同时还借鉴了AMD在Cayman以及Tahiti中的经验,通过优化线程以及Stream流的方式进一步加强了PolyMorph Engine在低负载下的几何处理能力。
GTX680曲面细分性能
通过改进,PolyMorph Engine 2.0拥有了2倍于Fermi的单位性能,这使得GK104在PolyMorph Engine数量减少一倍的前提下依旧维持了极为强劲的几何性能和高负载下较低的性能衰减,同时在低负载下的几何性能也变得更加抢眼。
5解除绑定,Bindless Texture
● 解除绑定,Bindless Texture
在GK104中,我们注意到了一个全新的来自材质与shader搭配的特性,那就是Bindless Texture——低shader绑定限制材质。
我们知道在图形处理过程中,所有场景及物体表面的颜色细节都是由Texture和shader共同完成的,Texture负责快速的完成大面积的颜色表达,而shader则负责局部正确颜色表现的修饰过程。值得注意的是,传统的Texture与shader搭配修饰过程存在绑定(Bind)限制,一组shader code只能同时对应最多128组Texture。
Bindless Texture操作特性
在GTX670的Kepler构架中,NVIDIA取消了shader code与Texture之间的绑定限制,新的Bindless Texture规则允许一组shader code同时对应超过100万组Texture。这不仅极具提升了可被同时进行shader处理的Texture的数量,等效减少shader被重复执行的几率,大幅减少CPU以及GPU的执行线程需求以及执行过程,同时还能带来更多样化的Texture应用。
Bindless Texture能够大幅减少操作过程并提升效率
Bindless Texture可以带来很多非常具有想象力的应用场合,比如搭配Compute Shader的树状结构来实现大跨度的多材质单shader复制处理,或者结合Gather/Scatter指令更加快速的实现简单shader对应复杂材质等等。Bindless Texture可以加速许多场合的应用速度,在未来的图形处理过程中将会扮演重要的角色。
6主动式垂直同步:拒绝画面撕裂
● 主动式垂直同步:拒绝画面撕裂
Adaptive VSync是NVIDIA在GK104中引入的另一个重要新功能。其最大的意义,在于改变传统垂直同步分段式的帧数管理模式,用更加平滑的帧数曲线来最大限度的避免画面撕裂的情况发生。
传统的垂直同步依旧会带来画面撕裂和顿挫的问题
在传统的垂直同步设定中,帧数一般会被机械的划分成30以及60帧两档,当游戏帧数大于60帧时,垂直同步程序会将帧数限定在60帧,而当游戏实际帧数跌落到60帧以内时,垂直同步会将帧数限定成30帧。巨大的帧数落差不仅会给玩家们的游戏过程带来明显的顿挫感,同时还会导致画面撕裂等问题的出现,这不仅影响了游戏过程本身,更与垂直同步技术本身消除画面撕裂的初衷相悖。
GTX680的Adaptive VSync技术
在Adaptive VSync中,NVIDIA打破了传统垂直同步技术对帧数下限的限制,当游戏帧数低于60帧之后,Adaptive VSync将会尽量让帧数维持在当前水平,而不是像过去那样直接进入30帧档位。而当游戏帧数大于60帧时,传统的垂直同步机制依旧会发挥作用,游戏帧数依旧会如果去那样被限定在60帧上。
Adaptive VSync选单
相比与传统的垂直同步,Adaptive VSync技术能够带来更加平滑的帧数体验,避免帧数突然暴跌带来的最小帧问题,提升整个游戏的流畅度体验。在此基础上,Adaptive VSync并没有干扰帧数大于60时垂直同步机制的正常工作,因此从深层意义上来讲,Adaptive VSync才是真正实现垂直同步初衷的帧数控制机制。
7“剥开掌上萌虎的衣服”—GTX670大拆解
● “剥开掌上萌虎的衣服”—GTX670大拆解
GeForce GTX670的PCB全长仅为17.4厘米,大小足以置于一个成年人掌中,其板型与NVIDIA之前发布的短版GTX560Ti几乎完全一样。GK104核心的卓越性能功耗比给了NVIDIA使用这种小巧PCB方案的勇气和资本,这进一步说明了Kepler架构的强大。
“掌上萌虎”GeForce GTX670
GeForce GTX670背面
GeForce GTX670拆解
尺寸小巧的PCB
公版GeForce GTX670采用了4+2相供电设计以及双6pin的供电接口布局,核心采用了特殊的横向放置方式,编号为GK104-325-A2,PCB正反面均预留了4颗显存焊位,这为未来进一步将显存容量扩展至4096MB留下了空间。
供电模块
核心及显存
全尺寸散热风扇
散热片
输出接口方案
更小的功耗上限和发热量进一步减轻了GeForce GTX670的散热负担,其所采用的散热风扇维持了GeForce GTX680的原尺寸,但散热片的大小得到了缩减。接口方面GeForce GTX670采用了与GTX680相同的双DVI+DP+HDMI的方案,方便用户组合自己的多屏输出方式。
8参测产品展示之七彩虹
本次七彩虹送测的GTX670为公版方案,所有设计全部遵循NVIDIA官方规定。采用非公版方案的iGame 670 烈焰战神X也已经完成设计,我们将会在稍后为大家奉上相关测试和信息。
七彩虹670-GD5 CH版2048M
七彩虹670-GD5 CH版2048M细节(一)
七彩虹670-GD5 CH版2048M拆解
9参测产品展示之索泰
● 参测产品展示之索泰
索泰GTX670采用了GeForce GTX680的公版设计,以旗舰级公版的用料和PCB对GeForce GTX670进行了很好的补充,使其能够提升到更高的频率并获得更佳的性能。我们将会在稍后为你奉上关于这款非公版GTX670的更多测试。
索泰GTX670
索泰GTX670拆解
索泰GTX670供电细节
索泰GTX670供电接口
索泰GTX670输出接口
10参测产品展示之影驰
● 参测产品展示之影驰
影驰GTX670四星黑将采用了影驰为GTX680提供的超公版方案,优秀的做工以及比公版GTX680更强大的PCB方案和供电方案给这款GTX670带来了高达1006MHz的默认运行频率和更好的可超频性,关于这款超公版GTX670的测试将会很快与你见面。
影驰GTX670四星黑将
影驰GTX670四星黑将拆解
影驰GTX670四星黑将细节
影驰GTX670四星黑将散热
影驰GTX670四星黑将采用了6+8Pin供电接口
11参测产品展示之华硕
● 参测产品展示之华硕
华硕本次送测的GTX670 DCII TOP同样采用了超公版设计,搭配6+2相超合金供电的重设大板型PCB以及DirectCU II散热系统帮助这款超版获得了很好的性能和温度表现。我们已经开始了对这款超公版GTX670的测试,相信你很快就可以对它有更加全面的了解了。
华硕GTX670 DCII TOP
12参测产品展示之映众
● 参测产品展示之映众
由于NVIDIA对GeForce GTX670的开放,我们本次收到的所有参测GTX670中有2/3都是非公/超公版设计,映众GTX670冰龙版就是其中之一。它采用了GTX680公版+超公版散热的组合形式,在让GTX670具备了与GTX680相同的可超频性和稳定性的同时大幅降低了显卡的工作温度和噪音。
映众GTX670冰龙版显卡
映众GTX670冰龙版供电接口
映众GTX670冰龙版采用的超公版散热
映众GTX670冰龙版核心
13其他送测产品展示
● 其他送测产品展示
○ 七彩虹iGame 670 烈焰战神X
七彩虹iGame 670 烈焰战神X
○ EVGA GTX670
○ 耕昇GTX670 关羽版
○ 技嘉GV-N670OC-2GD CandB
14其他送测产品展示(二)
● 其他送测产品展示
○ 双敏小妖G GTX670
○ 索泰670-2GD5至尊版
○ 索泰670-2GD5海外版
15测试平台及测试项目简介
● 测试平台及测试项目简介
性能测试使用的硬件平台由Intel Core i7-3960X、X79 Chipset和4GB*4四通道DDR3-1600内存构成。细节及软件 环境设定见下表:
测 试 平 台 硬 件
中央处理器
Intel Core i7-3960X
(6核 / 12线程 / 100MHz*33 /
15MB L3 Cache )
散热器
Intel RTS2011LC
(原厂水冷散热器 / 选配件 )
内存模组
Samsung 黑武士 DDR3-1600 4GB
(SPD:9-9-9-24-1T)
主板
ASUS Rampage IV Extreme
(Intel X79 Chipset)
硬盘
Hitachi 1T
(1TB / 7200RPM / 16M
50GB NTFS
电源供应器
NERMAX 白金冰核 1500W
(CSCI Platinum 80Plus / 1500W)
显示器
DELL UltraSharp 3008WFP
(30英寸LCD / 2560*1600分辨率)
为保证系统平台具有最佳的稳定性,此次硬件评测中所使用的操作系统均为Microsoft Windows 7 正版授权产品。使用Windows 7正版软件能够获得最好的兼容性以及系统升级更新服务。
用户在体验或购买安装Windows 7的操作系统时请认准所装系统是否已经获得正版授权许可!未经授权的非正版软件将无法获得包括更新等功能在内的Windows 7服务。
操 作 系 统 及 驱 动
操作系统
Microsoft Windows 7
Ultimate RTM SP1
(64bit / 版本号7601)
主板芯片组驱动
Intel Chipset Device Software
for Win7
(WHQL / 版本号 9.2.3.1022)
AMD 显卡驱动
AMD Catalsyt
(WHQL / 版本号 12.3)
NVIDIA 显卡驱动
NVIDIA Forceware
(Beta / 版本号 301.33)
2560*1600_32bit 60Hz
各类合成测试软件和直接测速软件都用得分来衡量性能,数值越高越好,以时间计算的几款测试软件则是用时越少越好。由于是芯片级首测,因此我们将所有参测显卡的频率统一调节成了公版频率。
16理论性能测试:3DMark Series
● 理论性能测试:3DMark Series
3DmarkVantage及3Dmark11是Futuremark推出的显卡3D性能测试,两款软件分别针对DirectX 10及DirectX 11显卡。测试成绩主要由显卡测试和CPU测试两部分总和构成,整个测试软件更加偏重整机性能。
3Dmark Vantage
3Dmark 11
3Dmark Vantage测试
3Dmark 11
在最开始进行的理论测试环节,GeForce GTX670为我们展现了强大的性能。它不仅维持了对次旗舰级的HD7950的性能优势,甚至还成功超越了竞争对手旗舰级的HD7970,而它小巧的身材则进一步强化了我们的深刻印象。相信和我们一样,屏幕前的你也迫切的想知道这样一个做工简单能耗很低的次级旗舰的游戏性能了吧。
17DirectX 9.0C游戏测试:CWOW-CTM
● DirectX 9.0C游戏测试:CWOW-CTM
《魔兽世界》(World of Warcraft)是暴雪娱乐(Blizzard Entertainment)所制作的一款大型多人在线角色扮演游戏(MMORPG),于2004年年中在北美公开测试。《魔兽世界》虽然目前支持DirectX 11 API,但其引擎的基础源自更为老旧的DirectX 9.0C。尽管API较为老旧,但暴雪凭借精湛的美工进行了充分的弥补。
魔兽世界:大灾变
我们采用的测试方法是新建一名人类角色,然后在周末游戏高峰期进入服务器并完成自暴风城正门广场至北郡修道院的48秒flybot过程,该过程中包含建筑及自然环境刻画、光线、大量植被、大量人员及魔法效果等效果。
2560分辨率魔兽世界测试
魔兽世界的引擎虽然古旧,但却可以对高配置系统提出较为严格的要求。通过测试我们不难看出,在2560分辨率这样的极限环境下,GeForce GTX670是完全可以保障你体验高强度RAID以及PVP等活动的。
18DirectX 10游戏测试:Crysis
● DirectX 10游戏测试:Crysis
多次跳票、万众期待的DirectX 10游戏大作Crysis,把目前PC 3D娱乐的视觉体验发挥到极致的游戏,大量使用DirectX 10的硬件功能,对显卡的负载也提升至空前水平。
Crysis
我们使用游戏自带的CryEngine Benchmark来完成自动测试,测试持续三次,最终成绩取三次平均值。
目前的NVIDIA架构以及驱动在缺乏直接优化的CryEngine测试中的表现均不尽如人意,因此在艺术品级的Crysis里,GeForce GTX670并没有表现出令人眼前一亮的性能。但相对于上代的Fermi,它的提升还是相当明显的。
19DirectX 10游戏测试:FarCry 2
● DirectX 10游戏测试:FarCry 2
《孤岛惊魂2》拥有超高自由度的游戏系统,整个游戏世界面积达到50平方公里,玩家可以自由在其中驰骋,而游戏的结局也是开放的。《孤岛惊魂2》的PC版在2009年内上市,而Xbox 360和PS3版将随后推出。
孤岛惊魂2
我们使用游戏自带Benchmark来完成自动测试,测试持续三次,最终成绩取三次平均值。
尽管引擎同样老旧,但GeForce GTX670在FarCry2中的表现还是可圈可点的。可以说在面对绝大多数老旧游戏时,
20DirectX 11游戏测试:BattleField 3
● DirectX 11游戏测试:BattleField 3
战地3是DICE于去年10月底推出的战地系列全新力作,其所采用的寒霜2引擎具备诸多先进的DirectX 11特性,拥有完美光照系统带来的单反照片级图形质量,其完美的多人配合游戏部分也得到了广泛的认可和赞誉。
战地3
我们采用游戏第二个任务——碎剑者行动的开始部分作为测试场景,通过fraps软件记录游戏FPS数据,测试时间设置为240秒,此时长为任务开始至剧情发展到第一名队友被狙击手击倒并被我们拖入掩体为止。该段游戏过程包含大量的市内外场景切换,狭窄和开阔地形,激烈交战以及出现在其中的复杂光照系统表现。
战地3是我们的第一项“大考”,在这款极致推崇DirectX 11特性的游戏中,GeForce GTX670取得了令人满意的测试结果。不仅完全超越了竞争对手的次级旗舰HD7950,而且也再一次以60%的身型成功挑战了AMD旗舰级的HD7970。
21DirectX 11游戏测试:Crysis2
● DirectX 11游戏测试:Crysis2
《孤岛危机2》是《孤岛危机》的续作,游戏采CryENGINE 3引擎所制作,故事发生在距一代3年后的2023年。外星人在地球上的大片区域挑起了战争,各大城市都遭到攻击,人口锐减,玩家将要进行捍卫地球的末日战争。
孤岛危机2
我们采用Crysis2 BenchmarkTool来完成测试,场景选择Downtown,测试进行三次,取最高成绩作为最终测试结果。
孤岛危机2同样是一个强调DirectX 11特性同时画面精美的游戏。尽管照顾家用机所不得不采用的扩展支持DirectX 11的方式多少影响了它的效率,但这仍不足以令我们忽视孤岛危机2通过DirectX 11带来的精美画面。GeForce GTX670在孤岛危机2中维持了良好的性能表现,再次以小巧的身量成功挑战了竞争对手最高级的旗舰。
22DirectX 11游戏测试:Call of Duty MW3
● DirectX 11游戏测试:Call of Duty MW3
由动视暴雪于11年11月初发布的使命召唤:现代战争3延续了前作的诸多特色,其完美的剧情创造了良好的代入感。图形引擎方面则沿用和改进了已经服役两年的IW4.0+引擎,因此拥有良好的硬件“亲和力”。
使命召唤8
我们选择游戏第一关过场动画结束主角翻车至玩家再次恢复控制之间的即时渲染部分作为测试场景,测试时长50秒,取期间的平均帧数作为最终测试结果。
测试还在继续,使命召唤8的IW4+引擎尽管老旧,但GeForce GTX670依旧提供了令人满意的表现,在1920分辨率下完成了对HD7970的挑战。即便在2560分辨率下,双方的表现也是不相伯仲的。但考虑到GeForce GTX670的板型以及用料,不得不说使命召唤8对决的胜利依旧是属于它的。
23DirectX 11游戏测试:Metro 2033
● DirectX 11游戏测试:Metro 2033
本作题材基于俄罗斯最畅销小说Dmitry Glukhovsky。由乌克兰4A游戏工作室开发,采用4A游戏引擎,而且PC版支持nvidia的PhysX物理特效。 2013年,世界被一次灾难性事件毁灭,几乎所有的人类都被消灭,而且地面已经被污染无法生存,极少数幸存者存活在莫斯科的深度地下避难所里,人类文明进入了新的黑暗时代。直至2033年,整整一代人出生并在地下成长,他们长期被困在“地铁站”的城市。
地铁2033
我们采取完整运行游戏第二关“Hunter”关卡,并记录其中平均帧数的方式来完成测试。Hunter关卡包含完整的室内场景切换,光照系统,DOF表现以及交战场景,能够全面反映显卡在面对Compute Shader以及超高分辨率材质时的表现。
在地铁2033测试中,Tahiti架构终于再次扳回了一城,同我们之前进行的GTX680首测一样,GeForce GTX670在该款游戏的所有测试分辨率测试中都输给了同档次的HD7950。
24DirectX 11游戏测试:H.A.W.X 2
● DirectX 11游戏测试:H.A.W.X 2
《鹰击长空2》是一款结合了拟真与空战要素而成的模拟飞行游戏,玩家可驾驶多种高性能战机,在高空中进行巡逻、护航、轰炸等任务。值得一提的是,游戏中的地面场景乃参考GeoEye卫星空照图所构建而成,这项游戏与现实生活的科技结合,让玩家仿佛置身于战机的驾驶舱内,逼真的地表风貌一览无遗。
鹰击长空2
我们采用游戏自带的Benchmark来完成测试,测试进行三次,取三次平均值作为最终结果。
鹰击长空2是一款强调曲面细分性能的空战游戏,它通过曲面细分实现了很好的地形以及机体模型效果。在该款游戏中,GeForce GTX670再次实现了对HD7950以及HD7970的超越。
25DirectX 11游戏测试:LostPlanet 2
● DirectX 11游戏测试:LostPlanet 2
《失落的星球2》背景设在原来第一季的十年后。气候变化融化冰雪覆盖的大陆,创造了新的环境,如丛林。在EDN-3rd的改变下,10年过去了。地球发生了重大改变,冰川已经融化,热带丛林,沙漠冷酷无情。玩家将进入新的环境,与雪贼战斗,以抓住不断变化的地球控制权。玩家将控制他们的英雄跨越6个相互关联的事件,创造一个真正独特的互动体验。有了这个概念,玩家将会有机会从不同的发展角度来动态的改变故事情节。
失落星球2
我们采用游戏自带的Benchmark来完成测试,测试进行三次,取三次平均值作为最终结果。
在基于MT Framework引擎的失落星球2中,GeForce GTX670再次让我们见识了“小而强大”的实例,它依旧在性能层面超越了包括HD7970在内的全部Tahiti架构产品
26DirectX 11应用测试:天堂3.0
● DirectX 11应用测试:天堂3.0
《Heaven Benchmark 3.0》是由俄罗斯Unigine游戏公司开发设计的一款Benchmark程序的最新版本,该程序是由Unigine公司自主研发的游戏引擎设计,支持DirectX 9、DirectX 10、DirectX 11与OpenGL 3.2 API,通过数十个场景的测试最终得出显卡的实际效能。
天堂3.0
在经历了几次版本更迭之后,天堂已经从单纯的曲面细分测试软件发展成了今天的综合性DirectX 11测试软件。在最新的天堂3.0中,GeForce GTX670的表现依旧令人满意。这样一款尺寸短小的显卡竟然可以超过对手全尺寸的旗舰级单卡,这样的结果应该大大出乎许多人的意料。
27游戏性能综合比率
● 游戏性能综合比率
我们收集了全部9款参测游戏以及天堂3.0的帧数数据,以GTX670为基础将在游戏中的表现与所有参测显卡进行了一一对比,下面就是所有参测显卡在全部测试游戏中相对于GTX670比率的平均值。由于包括GTX670在内的全系列N卡在地铁2033的2560分辨率下无法无BUG的完成测试,故2560环境下的数值并未将其计入其中。
在不同分辨率下,GeForce GTX670落后单芯旗舰GTX680的幅度均在8%附近,考虑到其实际频率、Boost频率以及规模的差异,这样的结果还是令人满意的。与此同时,发热和成本压力均更低的GeForce GTX670完成了对HD7950以及HD7970的超越,这对于售价更高同时已经经历过一次调价的HD7970来说并不是一个好消息。
28构架底层延展测试:Fluid simulation
● 构架底层延展测试:Fluid simulation
架构底层延展测试是ZOL显卡频道传统的测试环节,我们会通过底层架构直接运行数学应用的形式来反应GPU的通用计算及图形通用计算效率。由于300以及301系列驱动对OpenCL的支持存在问题,同时GPU Boost对于频率的调节会干扰底层运算性能的“纯净度”,因此我们决定放弃基于OpenCL的通用计算测试软件——GPCBenchmark,改用DirectX SDK来完成底层性能数据的收集。待到NVIDIA的官方驱动能够提供正确的OpenCL支持以及可以关闭GPU Boost的设置之后,我们将会补上GPCBenchmark的相关测试。
我们首先进行的DirectX SDK测试,是使用Direct Compute完成的流体力学模拟——Fluid dynamics simulation。Fluid dynamics simulation基于弹性力/黏着力/重力为基础的颗粒碰撞模拟,每一个颗粒均拥有独立的力学参数,通过对颗粒本身在统一的重力参数作用下自有力学参数以及交互作用的计算,可以模拟大量颗粒的行为并达到模拟由它们构成的“流体”特性的目的。
Fluid dynamics simulation
Fluid dynamics simulation分别提供了对shared性能以及Grid性能的测试,力学计算本身需要应用包括矩阵运算在内的多种数学方法,颗粒之间的力学交互作用存在条件分支关系,因此该项测试可以全面考验不同构架对图形通用计算以及有针对性的物理特效计算的性能。
测试结果在意料之中,与我们先前进行的GTX680首测中的Fluid Simulation一样,基于GK104架构的GTX670表现出了相当理想的通用计算性能,在常规场合表现出了领先于HD7970的测试结果。我们同时也注意到了NVIDIA在驱动开发方面遇到的问题,缓冲性能最近成了困扰Kepler甚至Fermi架构的一大障碍,在我们目前进行的部分OpenCL测试中,GK104的寄存器-cache/shared双精度带宽竟然大幅超过了单精度带宽,这种不正常的表现被忠实的反映到了Fluid Simulation shared memory上,在该测试中GTX670不仅只达到了GTX680性能的65.9%,明显低于双方的理论性能差距,同时也被HD7970所反超。希望NVIDIA能够尽早解决驱动方面的问题,完全释放Kepler架构的运算性能。
29构架底层延展测试:Cascaded Shadow Maps
● 构架底层延展测试:Cascaded Shadow Maps
Cascaded Shadow Maps(CSM)是一种基于阴影深度进行的阴影判断及快速操作模式,CSM通过将整个阴影划分成若干级的层次,以层次内部像素的深度来定义和快速判断阴影位置,并对近景阴影采取高精度贴图,远景阴影采用低精度贴图的方式来达到节约资源同时快速准确实现阴影贴图的目的。CSM可以极大地加快阴影操作的速度,同时避免大多数因为光源形态、阴影深度与像素尺寸差异所导致的阴影边缘及内部贴图错误。
Cascaded Shadow Maps
CSM大量涉及矩阵运算及坐标判断,因此在DirectX 11环境下可以透过Compute Shader来进行。对CSM的性能测试,有助于我们了解构架的矩阵操作等通用计算性能。
CSM测试进一步验证了GK104在进行矩阵操作时的性能,它的结果可以近似替代GPCBenchmark测试中的矩阵乘法以及矩阵转置测试。优秀的矩阵操作能力是一款DirectX 11 GPU所应该具备的基本素质,从测试的结果来看,GTX670并没有让我们失望。
30构架底层延展测试:OIT
● 构架底层延展测试:OIT
半透明是3D图形中一种重要的特效,但传统的Alpha混合基本上无法完成对不同半透明物体以及同一物体不同半透明部分的层次判断,因此如果以Alpha操作来简单的实现半透明效果,很多时候获得结果都是错误的。所以在DirectX 11中,微软为我们引入了OIT(透明独立叠加)技术来解决这一问题。
OIT
在实现OIT技术的过程中,程序会将处于同一层次的部件所对应的线程/任务以Atomic(原子操作)的形式保护起来,使这些线程在被执行结束之前变成一个不可再分的整体。接下来这些Atomic会被放置在buffer中进行处理优先级的排序,通过这些操作,物体及部件所在的层次和正确的显示效果就被最终确定下来了。如果构架拥有cache等可读写近存近取缓冲,则可以极大地加快OIT的乱序操作过程。因此对OIT的性能测试,将可以让我们了解构架是否具有足够的灵活度、充足的缓冲密度以及完整的Atomic特性支持能力。
OIT所考验的cache性能以及Atomic能力是通用计算的基础要素之一,良好的缓冲体系以及对线程的控制能力体现了构架最基本的灵活度。测试结果表明,拥有良好cache性能以及线程块处理能力的GTX670在面对通用计算以及DirectX 11图形任务时将会变得游刃有余。
31构架底层延展测试:Nbody Gravity CS11
● 构架底层延展测试:Nbody Gravity CS11
Nbody Gravity的前身来自Nbody仿真,Nbody仿真的目的在于模拟一个多体系统的演化过程,该系统中的每个个体(Body)都会与周围的其他物体发生非接触力学吸引/排斥作用。通过Nbody仿真,我们可以获得大量长程力作用的系统,比如小到范德华力作用下的原子/分子群或者大到万有引力作用下的星系之类各色场合的模拟结果。对于气流等稀薄流体的模拟同样可以归约成Nbody仿真过程并予以解决。
Nbody Gravity
Nbody Gravity将场景设定为大量粒子在引力这一种基本长程力下高速运动作用形成的多体问题,尽管粒子间不考虑接触力学传递,但整体而言Nbody Gravity模拟与我们前面进行的Fluid dynamics simulation测试一样,都需要大量应用到矩阵操作等大量常见的数学方法。在此基础上,由于长程力一次影响的对象远较流体模拟中弹性碰撞传递所能够影响的对象要多,其背后所对应的线程量非常庞大,因此Nbody Gravity对于硬件构架的并行度有极高的要求。透过Nbody Gravity的测试,我们可以了解到被测对象的吞吐能力、对基本条件分支的应对能力、并行处理能力以及对矩阵等常规数学方法的处理能力。这些能力,最终都将反映构架执行DirectX 11特性尤其是Compute Shader的效率。
透过Compute Shader执行的Nbody Gravity很好地反映了GPU在DirectX 11环境下的通用计算性能,尤其是吞吐以及并行化性能的情况。GK104在测试中充分表现了构架灵活度、缓冲灵活度以及理论吞吐性能三者之间的统一和平衡,所以GTX670在该项测试中再次取得了令人满意的结果,尽管依旧受限于驱动表现出了略大于与GTX680理论差距的性能差异,但依旧取得了对Tahiti架构的领先。
32功耗温度及性能功耗比测试
● 功耗温度及性能功耗比测试
在功耗温度测试环节,我们采用Furmark满载的方式让显卡达到全负荷工作的方式,来收集GTX680的满载平台功耗以及温度数据。
GeForce GTX670平台待机功耗
GeForce GTX670平台满载功耗
GeForce GTX670满载温度
GeForce GTX670小巧的版型已经暗示了它较低的全载功耗,所以测试结果其实在意料之中,91瓦的待机以及278瓦的满载平台功耗均低于GeForce GTX680,满载功耗甚至比HD7970的380W少了超过100瓦。
性能功耗比测试(每瓦特能够获得的3Dmark 11 X模式分数)
性能价格比测试(每元人民币能够获得的3Dmark 11 X模式分数)
为了进一步理解这个功耗数据的意义,我们分别计算了GTX670、GTX680、HD7970以及HD7950每瓦特平台功耗能够获得的3Dmark 11 X模式分数以及每元人民币能够获得的3Dmark 11 X模式分数,以此来分别衡量四者的性能功耗比以及性价比情况。。从上面的数据不难看出,GeForce GTX670已经顺利完成了自己的任务,它以极小的版型提供了最为充足的性能,同时进一步将Kepler架构单芯产品的性能功耗比提升到了新的高度。
33测试总结:握在手心里的图形利器
● 测试总结:握在手心里的图形利器
GeForce GTX670给我们留下了非常深刻的印象,它那袖珍到甚至有些“寒酸”,起码完全与高端旗舰挂不上钩的全长仅为17.4厘米的PCB,所承载的性能却与27厘米长同时售价高了500元以上的HD7970不相伯仲。如此具有颠覆性的差距,让很多人都难以接受它们是同代工艺生产的显卡这一事实。GeForce GTX670是一块值得投注9分肯定的产品,它实现了紧凑的成本空间与强大性能的统一,将次级旗舰的成本区间再次拉回到了更加“绿色”的区间。如果不是性能与市场定位限制了首发售价的下调,GeForce GTX670将会是一块相当完美的显卡。
除了板型小巧、成本低廉同时性能强劲之外,GeForce GTX670还有一项重要的特性,那就是开放,前面我们所进行的各品牌送测显卡展示已经充分展现了这种开放性。NVIDIA此次第一时间开放了GeForce GTX670的PCB方案权限,允许厂商在本次GeForce GTX670首发的同时推出自有的非公版产品。在我们首发测试的送测产品中,非公版方案占据了多达2/3的比例。第一时间出现的大量非公版产品不仅有利于快速的市场普及,更可以打破同质化对NVIDIA合作伙伴的束缚并进一步有效的提升GeForce GTX670的性能上限。
“掌上萌虎”GTX670
除此之外,NVIDIAI对于GK104的整体开放也同步的促进了GeForce GTX670的灵活度。得益于GK104芯片Pin to Pin的特性以及优秀的性能功耗表现,GeForce GTX670可以被相当方便的被安放在做工用料均更加出色,同时个方面表现都已经成熟的GeForce GTX680的公版/非公版方案上。反之亦然,由于目前GeForce GTX670的公版还留有一定的余量,GeForce GTX680同样存在做上这款“廉价”PCB并进一步发动价格战的可能。尽管这种做法会遭到做工党的不齿,但也确实表明了GeForce GTX670的灵活以及整个GK104在性能功耗比层面努力的成功。正是Kepler架构卓越的性能功耗比,给了NVIDIA制造这样短小的次级旗舰显卡的资本和空间。
GeForce GTX670的出现,再次将AMD带入了一个前景未知的境地。在过去的一个月里,由Steam统计的显卡销售榜上Kepler取得了突飞猛进的增长,相比竞争对手的产品存在很大优势。在性能更强同时售价更低的GeForce GTX680的压迫下,AMD之前刚刚对全系列Tahiti架构进行了一次调价,但就在AMD刚刚完成调价之后,NVIDIA便发布了成本低廉同时性能与之不相上下的GeForce GTX670,同时将官方建议价格定在了3199这一更低的水平上。所以非常不幸的,我们在GeForce GTX680首测文章最后一页预料的“尽早完成的市场布局变成‘过早完成的市场布局’”的状况,再次糟糕的成真了……
Tahiti架构本来是一个改革者,它所做的诸多努力都应该获得掌声、赞许以及肯定,但它却因为D线压迫、AMD未来目标选择的盲目性、执行力和贯彻力的欠缺以及胜利工程等诸多不利因素的影响,最终被性能功耗比出色的多的竞争对手逼到了只能在二次调价或者放弃旗舰端这两个下签和下下签中二选一的境地,这不能不令人唏嘘不已。一家独大的局面有CPU一个领域就足够了,我们不愿意看到GPU领域同样出现这样的状态。所以我们希望GeForce GTX670能够再次成为敲给AMD的警钟,但愿AMD能够从混沌的状态中尽快摆脱出来,学习竞争对手的成功经验并利用这些经验迅速明确自己的最终目标,也就是未来的HSA架构所必须经历的各项发展步骤,同时严谨并始终如一的坚定推进这些步骤的达成,不要在与HSA南辕北辙的方向上以“尝试”和多线发展为借口继续分散资源和精力。只有这样,AMD才能最终为我们奉上性能、功耗和成本表现方面均同样出色的产品,并以此形成有效的竞争来促进图形界以及异构融合架构的健康发展。
GeForce GTX670是一款非常奇特的显卡,它的小巧和它的强大几乎不成比例,它的出现不仅重新定义了次级旗舰,更为人们留下了遐想的空间。公版的GeForce GTX670是否还有很大的售价下调空间?它的SLI性能以及表现能否给人惊喜甚至超越当前的卡皇GTX690?即将到来的大量非公版/超公版的GeForce GTX670会有怎样令人惊艳的表现呢?随着这款“掌上萌虎”的全面上市,这些问题的答案都将一一揭晓,让我们共同期待吧。
推荐经销商