真正第二代DX10 GPU来临
真正第二代DX10 GPU来临
● 全新命名:Geforce GTX 280/260
GT200,扑朔迷离的NVIDIA第二代DirectX 10 GPU;一款全新设计的旗舰性能显卡,计算机图形加速领域最具奢华身份的娱乐产品已于今夜降临。
NVIDIA在进入Direct X10时代后一直领跑显卡产业链,Geforce 8800 GTX、Geforce 8800 Ultra、Geforce 9800 GTX和Geforce 9800 GX2这一连串耳熟能详的产品型号陆续攀顶3D性能高峰得事实在业内无可争议。也许有着“龟兔赛跑”的前车之鉴,NVIDIA在大幅领先的现状下仍然坚持不懈的快速研发新品,GT200应运而生。
也许在产品命名上NVIDIA遇到了“瓶颈”,毕竟将Geforce 9000升级为Geforce 10000的5位数字不太符合通常的命名规则,于是新的命名方式Geforce GTX 200系列诞生了。目前已知基于GT200核心的产品有Gefroce GTX 280和Geforce GTX 260,二者的关系和Geforce 8800 GTS 512MB和Geforce 8800 GT一样,通过屏蔽硬件规格换分档次。
● 万亿次计算的单芯片
在核心型号上GT200与上一代的G9X有了巨大改变,那么在性能上GT200是否会和型号升级一样有长足进步呢?保留顶级产品象征“GTX”的Gefroce GTX 280全新旗舰产品拥有傲人的240个流处理器和512bit显存位宽,仅这两个规格在NVIDIA历史上已经是“前无古人、后无来者”,均是首次在单卡单核产品中采用的高规格配置,同时GT200还较多的改进了核心架构,在流处理器数目的攀升支持下,其理论峰值计算能力已经逼近万亿次大关,是目前全球最复杂最强悍的单个芯片。
在NVIDIA官方的角度,第二代DirectX 10产品并非以Geforce 9800 GTX为代表,而是以GT200为基础的Geforce GTX 280。这是因为G92核心是在G80核心基础上优化而得,整体核心架构设计及思路没有革命性改变,仅是将384bit显存位宽和90nm这些权宜设计革新为256bit和65nm,同时NVIO外置芯片功能回归GPU。反观GT200架构、功能上都做了重新定位和调整,所以Geforce GTX 280才是真正第二代DirectX 10产品的先驱者。
第一批送抵ZOL的Geforce GTX 280显卡有四款,除了NVIDIA提供的官方样卡之外,映众(Inno3D)、讯景(XFX)和索泰(ZOTAC)最早送测了他们自有品牌的产品,对NVIDIA最新旗舰产品的发布表示了最有力的支持,也显示出自身的强悍实力。
也许一篇文字无法真正诠释这款划时代的产品,本站将分三路出击,从本文的技术分析,从《旗舰显卡狂超20% GTX280风冷超频实测》的超频测试,从《看三代显卡变革 GTX280大战二十款游戏》的全面游戏性能测试,为大家奉上GTX280这份饕餮盛宴。
GT200 爆炸性核心规格探秘
● GT200:创造以1敌2的奇迹
无论AMD-ATI还是NVIDIA,每代显卡旗舰产品的发布都预示着核心规格大幅度升级。在进入DirectX 10时代后,NVIDIA经历了Geforce 8800 Ultra、Geforce 9800 GTX以及双GPU产品Geforce 9800 GX2三代顶级产品,那么此次基于GT200核心的Geforce GTX 280有何突破,请看下表:
NVIDIA GeForce 高 端 / 高 性 能 系 列 显 卡 规 格 表 | ||||
显卡型号 | Geforce 8800 Ultra | Geforce 9800 GTX | Geforce 9800 GX2 | Geforce GTX 280 |
核心代号 | G80-450 | G92-420 | G92-450 | G200-300 |
制造工艺 | 90nm | 65nm | ||
核心晶体管数目 | 6.81亿 | 7.54亿 | 7.54亿 *2 | 14亿 |
DirectX 版本支持 | DirectX 10 | |||
着色器数量 (标量通用着色器) |
128 | 128 *2 | 240 | |
纹理拾取单元数量 | 32 | 64 | 64 *2 | 80 |
光栅处理器数量 | 24 | 16 | 16 *2 | 32 |
着色器 理论计算能力 |
393.6 GFLOPS |
432 GFLOPS |
384 GFLOPS *2 |
720 GFLOPS |
核心频率 | 615MHz | 675MHz | 600MHz | 602MHz |
着色器频率 | 1500MHz | 1688MHz | 1500MHz | 1296MHz |
GPU I/O | PCI Express x16 | PCI Express x16 2.0 | ||
内存频率 | 2160MHz | 2200MHz | 2000MHz | 2214MHz |
内存位宽 | 384bit | 256bit | 256bit *2 | 512bit |
内存带宽 | 103.7GB/s | 70.4GB/s | 64GB/s *2 | 140.8GB/s |
内存类型 | GDDR3 | |||
内存容量 | 768MB | 512MB | 512MB *2 | 1024MB |
视频加速相关 | PureVideo | PureVideo HD |
通过规格表中不同“朝代”的顶级产品对比,很容易得出Geforce GTX 280是一款全面革新的划时代产品。首先核心集体管规模激增至14亿,相对上一代的G92核心几乎有100%的提升,晶体管规模的巨幅增加自然是性能显著提升的外部表象。众所周知,Geforce 9800 GX2是采用两颗G92核心设计,相对于单核G92核心产品而言,可以简单看做核心的晶体管规模、规格累加,并获的接近2倍的性能提升。
Geforce GTX 280拥有240SPs、32ROPs、512bit显存位宽和1024MB本地内存,与Geforce 9800 GX2拥有近乎相同的规格,那么Geforce GTX 280这款单GPU产品能否完成昔日需要双GPU才能实现的性能呢?
● Geforce GTX 280的核心、显存
Geforce GTX 280的图形处理芯片为G200-300,它的出现与当初G80核心的重要性旗鼓相当,而且在显卡整体设计上也有很多相同之处,笔者将会在后文的产品拆解中做详细阐述。
Geforce GTX 280搭载G200-300-A2 GPU
Geforce GTX 280使用的是全规格G200-300-A2核心,它是由台积电(TSMC)使用65nm工艺制造,其拥有的14亿庞大晶体管群再次刷新了单GPU产品数量之最。不过由于GT200仍然采用上一代的65nm工艺,所以14亿的晶体管数量将核心面积撑至576mm2。这让笔者想起了G80核心的“遭遇”,采用了相对于其上一代的90nm制程,造成发热量大、功耗高、频率低的情况,在后续衍生品G8X(80nm)和改良品G9X(65nm)中得以改善。笔者估计在GT200的后续、改良品中,NVIDIA也许会采用45nm或32nm的先进制程来缓解G80曾经遇到的问题。
Geforce GTX 280的G200-300核心仍然采用统一架构和频率异步设计,核心、Shader频率分别为602MHz、1296MHz,GPU:Shader频率比例约为1:2.17。在渲染能力上240个1D标量流处理器和32个光栅处理器会作为GT200的强大后盾,在纹理拾取单元的数量上GT200增加到80个,这会提升显卡纹理填充率的大幅提升,在某些游戏方面显著改善了执行速度。
Geforce GTX 280在本地显存上仍然保守的采用了GDDR3颗粒,为了实现本地512bit/1024MB的显存组合,其使用了16颗规格为16M*32bit的FBGA封装hynix H5RS5223CFR N2C颗粒,默认显存频率为2200MHz,显存带宽也史无前例的高达140GB/s以上。
hynix GDDR3内存芯片规格
通过hynix官方查得hynix H5RS5223CFR N2C颗粒是其目前最高端GDDR3颗粒,芯片组织方式为16M*32bit=512Mbit,官方承诺最高频率能够实现1200MHz(即2400Mbps/pin),也就是说Geforce GTX 280没有发挥标配显存的最大能力,还有很大潜力等待超级玩家挖掘。
GT200 核心架构基础状况
● 成本高昂的GT200芯片
由于GT200核心是一款全新理念设计的产品,架构上也发生了改变,本章节将围绕核心架构设计展开,毕竟将14亿的庞大晶体管群设计在576mm2上需要非常合理的布局设计 。
G80(左)与G200(右)核心对比
拥有6.81亿晶体管的G80核心与拥有14亿晶体管的GT200核心外观设计上相同,采用类似于CPU的封装设计,外面这层“盖”既有保护核心的功能,又有增加核心表面积提高散热效果的功效。那么GT200相对G80多出一倍以上的晶体管数量,主要用于了哪方面呢?
这是台积电生产的GT200半成品硅晶圆,虽然还未切割,但是“每颗”GT200的雏形已经清晰可见。在相同晶圆上切割的GPU越多成本越低,而像GT200这种拥有14亿晶体管的怪兽单颗面积已经576mm2,这也就是为什么基于越高端GPU设计的显卡越贵原因。
● GT200芯片基础架构
这是GT200核心的透视图,每个功能区域错落有致、各司其职,具体功能如下:
绿色的区域代表240个流处理器,分布在GPU的四个角;紧挨流处理器的紫色区域为纹理拾取单元,其次为黄色区域的光栅处理单元。从图中查看这三个功能单元的面积,也能了解到它们占据了绝大多数核心晶体管数量。
在从G80、GT200硬件规格上对比,G80拥有128SPs+24ROPs+32TEXs,而GT200拥有240SPs+32ROPs+80TEXs,几乎每项翻倍的规格增加也就不难理解GT200为何需要14亿晶体管来构建。
240个流处理器分为10组流处理器阵列,当然每个流处理器的功能依然是能够兼职Pixel Shader、Vertex Shader和Geometry Shader,这也是DirectX 10显卡的一个特性。
每个流处理器阵列中有3组流处理器,每组8个流处理器独享本地存储,每个流处理器阵列独享8个纹理拾取单元和16K的一级缓存。
在此需要说明的是,有些用户对AMD-ATI和NVIDIA的流处理器有些疑问,为何两家对位产品上A卡流处理器总是大幅领先N卡,但是实际效能却不尽人意?
抛开核心其他架构不说,NVIDIA采用SIMT技术,每个流处理器独立运行,通过提高着色器速度(异步与核心频率)来提升流处理器效能;而AMD-ATI产品的设计为5个打包运行,需要驱动仲裁分组,驱动性能会直接影响显卡性能。以RV670核心为例,其拥有320个流处理器,但实际却等效为320/5=64。即使AMD-ATI还未发布的RV770核心,无论传说中的480个流处理器还是800个流处理器,即使是800个才等效160。AMD-ATI也看到这种设计的弊端,在马上释放的RV770产品中也加入了核心、Shader频率异步的设计。
超越G8X 二代统一架构改良
之所以称为Geforce GTX 280为真正的NVIDIA第二代DirectX 10产品,是因为G9X相对G8X没有本质改变使用相同的统一架构设计,那么GT200核心采用的第二代统一架构有何改变呢?
● 增加了FP和TEX的比值
GTX280的架构更侧重于Shader计算能力
即使在大大提升了纹理能力的前提下,Geforce GTX 280的浮点运算能力被拉升的却更高,这种新的架构面向未来,更强调芯片的Shader计算能力而不是单纯的暴力纹理填充,无论是通用型计算还是更灵活复杂的图形处理都能供从这种设计思路中受益。
● 改进了Geometry Shader的性能
NVIDIA坦言G8x/G9x时代的GPU在物理着色能力上不如同期的Radeon HD系列产品强悍,但在最新的GT200中,这一部分已经被大大增强。
● 第二代Dual Issue
G8x GPU在发布之初其着色器并没有支持单发射1次乘加+1次乘法指令的Dual Issue,但后来的Quadro用版本支持这个技术,现在的GT200 GPU全面支持Dual Issue,虽然其在3D图形方面性能改善有限,但在CUDA相关运算中还是大有裨益。
● 加倍寄存器文件
寄存器一直都是处理器最为重要的资源
加倍的寄存器资源的意义不言而喻,寄存器中活跃数据的更高命中带来显著的流处理器性能提升,同时在图形处理方面也可以支持运行更为复杂的Shader程序。
● 双精度
硬件规格的升级、核心架构的革新都会带来性能的大幅度提升,而本环节中的统一架构的进步同样会带来性能的提升。
其中被广大用户关注的Geometry Shader效能低下这个诟病,在Geforce GTX 280中得到彻底解决。而浮点运算的双精度、第二代Dual Issue、加倍寄存器和增加FP和TEX比值,都提升GPU运算效率和能力。
未来就在眼前:CUDA的实用化
NVIDIA其实对Geforce 9000系列产品的3D性能已经非常满意,而在Geforce GTX 280这款产品上NVIDIA更多的是体现其在3D之外的性能表现上。流处理器和统一架构的出现,进一步增加了GPU的并行处理能力,而并行处理在3D渲染能力上非常重要外,在很多科学运算中同样重要,NVIDIA看到了用户在这方面的需求,推出了专用于计算的Tesla产品和CUDA。
基于游戏但是超越游戏的NVIDIA GPU应用
而在今天,NVIDIA不仅推出了具有强悍3D性能的Geforce GTX 280,还为我们送来了并行处理能力更强的Geforce GTX 280,随其一并到来的还有全新CUDA 2.0。
在此次新品发布上NVIDIA称Geforce GTX 280为拥有240核的处理器,相对于桌面级CPU而言240核还是一个天文数字。上图为一颗主流中高端双核CPU Core 2 Duo E8400与Geforce GTX 280的核心对比,右侧是对比Intel的Core 2 Duo E8400和顶级Core 2 Extreme 9650浮点运算处理能力,即使是顶级Core 2 Extreme 9650四核处理器的浮点处理能力也仅为Geforce GTX 280的1/10能力,足见这颗接近1TFLOPS(1T=1024G,floating-point operations per second=flops)级别处理能力的Geforce GTX 280强悍。
● CUDA简介
说了半天CUDA也许很多读者对它仅是一知半解,而且很多用户很容易将它与GPGPU混淆,下面笔者将会对其做一个简介。
虽然GPGPU也是由NVIDIA提出并且要实现的目的也相同,但是CUDA是一种更加优化、更加易于操作使用的并行处理技术。CUDA全称Compute Unified Device Architecture,它不需要像GUGPU一样基于图形API运算,这样的设计降低了开发者的要求。首先减免了软件开发者使用CUDA必须了解图形API的痛苦,其次CUDA专用API更接近C语言和Fortran语言,能够令绝大多数软件开发者在极短时间内上手。
● 为何GPU更适合高密度并行计算
由于图形渲染需要高密度、并行计算,因此GPU不会像CPU一样将更多的晶体管投入到数据缓存和流量控制,而是将绝大多数晶体管用于数据处理(例如Geforce GTX 280的240个流处理器)。图形渲染这点需求上与很多科学运算不谋而合,GPU的多流处理器在解决一个问题上实现独立并行高速处理,可以大大降低运算复杂度,并且多数据元素高运算密度可以近似忽略内存访问的延迟,这也就为GPU应用于科学计算奠定基础。
实际上,在图形渲染和处理领域外还有很多算法同样可以通过并行数据处理得到加速,从一般信号处理或物理模拟、到金融计算或者生物计算等。目前主要应用于数学运算、金融分析、医学检查、气像预测、电子线路设计、生物分子结构分柝、光学模拟运算等传统借助超级电脑作运算的领域。
● 如何构建运行CUDA平台
如果想要使用CUDA技术,并不是安装基于CUDA的软件即可,还需要硬件及驱动的支持,目前支持CUDA技术的GPU请看下表:
GeForce | Tesla | Quadro |
9800 GX2 | C870 | FX 5600 |
9800 GTX | D870 | FX 4600 |
9600 GT | S870 | FX 3700 |
8800 Ultra | FX 1700 | |
8800 GTX | FX 570 | |
8800 GTS | FX 370 | |
8800 GT | NVS 290 | |
8800 GS | FX 3600M | |
8600 GTS | FX 1600M | |
8600 GT | FX 570M | |
8500 GT | FX 360M | |
8400 GS | Quadro Plex 1000 Model IV | |
8800M GTX | Quadro Plex 1000 Model S4 | |
8800M GTS | NVS 320M | |
8700M GT | NVS 140M | |
8600M GT | NVS 135M | |
8600M GS | NVS 130M | |
8400M GT | ||
8400M GS | ||
8400M G |
上表为目前已发布并支持CUDA的GPU,当然还要包括今天新鲜出炉的——Geforce GTX 280。
俗话说“万事俱备、只欠东风”,拥有了支持CUDA的显卡还需要专用驱动的搭配。目前Geforce GTX 280需要ForceWare 177.34,非Geforce GTX 280显卡需要174.55。
在支持CUDA的驱动中我们能够看到nvcuda.dl_的专有文件。
PhysX物理加速与Geforce的融合
● 从Ageia的PhysX到NVIDIA的PhysX
也许桌面级显卡的最主要应用目前还是游戏,显卡的3D性能强弱直接影响游戏的游戏性,但是随着游戏画面的逐渐逼真和玩家需求的逐渐提高,仅仅是逼真的画面已经无法满足玩家需求,真实的物理运算越来越被重视。
早在2005年Ageia公司就发布了世界上第一颗采硬件加速物理运算处理器(Physics Processing Unit, PPU)“PhysX”,而PPU将和CPU以及GPU组成一个相辅相成的关系共同运算。与GPU一样,PPU将协助CPU从运算度非常复杂并非常小号资源的物理计算中解救出来,所以CPU能够更加专注其他计算从而获得更佳、更平稳的游戏效果。
PhysX的物理加速技术应用广泛
在NVIDIA产品的影响度和PhysX先进物理引擎搭配下,目前已经有150多款游戏增加了PhysX引擎支持,并有超过25000名程序员基于它开发游戏,PhysX已经成为目前普及度最高的物理引擎。
● 用Geforce来实现PhysX
虽然Ageia的PhysX产品性能出色,但是苦于售价过高、游戏厂商接纳率低,一直没有得到大面积普及。不过NVIDIA看到Ageia的PhysX产品的优势,在2008年年初正式并购Ageia,并将PhysX物理引擎及技术引入到自己的显卡产品中。因为前文已经提到过GPU拥有强大的浮点运算能力,再配合CUDA可以实现很多非3D渲染运算,所以物理卡完全可以被显卡所吸收,而且在Geforce GTX 280这款产品开始正式实现。
而且值得一提的是,正如前文所说物理卡将被显卡整合,今后NVIDIA-Ageia不会再单独推出独立物理卡,如果现在购买一款支持CUDA的产品等于NVIDIA免费赠送了一款物理卡。
巨无霸!GTX 280全面观察
● Iron Man?更具未来感的整体设计
Geforce GTX 280作为目前最强大的单GPU产品,不仅要拥有前文介绍的诸多技术及功能,,还要拥有与之想匹配的物理设计及做工。与NVIDIA昔日高端产品发布一样,各品牌相关产品都将采用公版设计,起码在发布初期会是如此,这主要是为了保障各显卡品牌在初期不会因重新设计延误新品发布,同时纯公版产品能够保证最优质量。
Geforce GTX 280作为一款旗舰产品,延续了NVIDIA一贯为旗舰套用的黑色基调,确保了显卡的尊贵血脉。显卡正面散热器有点类似Geforce 9800 GTX标配散热器,不过Geforce GTX 280的散热器棱角分明,阳刚之气十足;通过查看显卡背面发现,显卡散热器整体思路与Geforce 9800 GX2相同,整个显卡被散热器包裹。
散热器风扇采用离心式风扇被设计在显卡右侧,将空气吹向显卡尾部,显卡尾部挡板留有导流孔,方便热空气释放;显卡视频输出接口采用双DVI + S-Video的组合,方便绝大多数用户使用。
● 拆解 NVIDIA史无前例的豪华供电
Geforce GTX 280采用NVIDIA为其独立设计的P651公版PCB,这款PCB共有10层,Lay Out复杂度绝不亚于其他任何一款显卡。
显卡供电模组可谓极尽豪华,为了在有限的PCB面积上设置更多相供电,使用了优质屏蔽电感搭配QFN封装的VT1165SF芯片4颗和VT238AWF芯片1颗,Volterra生产的VT1165SF和VT238AWF内置Mosfet场效应管,从而达到节省PCB空间和增强供电滤波的目的。
为了满足Geforce GTX 280的整卡供电需求,显卡标配8pin+6pin的4路12V外接供电。
三代旗舰显卡PCB纵向对比
● 规模空前 超越旧日旗舰
Geforce GTX 280作为新一代的顶级单核产品,相对于前几任顶级产品设计上有何突破或者相似呢?本章节在介绍Geforce GTX 280其他PCB部位设计同时,穿插介绍与前辈对比。
Geforce GTX 280整卡设计宽大并略长于标准ATX主板,这对于用户来说需要一个拥有较大空间的机箱来满足其需求。
供电部分Geforce GTX 280(下)相对于Geforce 8800 Ultra(左上)和Geforce 9800 GTX(右上),设计、用料更加奢华。
由上至下分别为Geforce 8800 Ultra、Geforce 9800 GTX和Geforce GTX 280,三者使用的PCB尺寸同为4.376英寸*10.5英寸,并且都为10层PCB。
● NVIO和3Way SLI
值得注意的是,Geforce GTX 280使用了和Geforce 8800 Ultra一样的外置功能芯片设计,从而确保GPU的核心面积和稳定性。
与Geforce 8800 Ultra的NVIO芯片一样,Geforce GTX 280标配的NVIO第二代产品——NVIO2,主要功能仍然是包括两个400MHz的RAMDAC、两个Dual Link规格的TDMS和HDCP,并协助显卡输出10bit色彩。
不过图中的NVIO2芯片上激光雕刻有ES字样,看来这颗功能芯片还在最后调试阶段。
Geforce GTX 280将成为第三款支持3-Way SLI的产品,它的SLI和3-Way SLI性能将会在下文测试中为大家奉上。
测试平台及测试项目简介
● 测试系统硬件环境
系 统 硬 件 环 境 | |
Intel Core 2 Extreme X9770 | |
PNY DDR3 1333 1GB*2 (1333 8-8-8-20-2T) | |
主板 | ASUS P5E3 (Intel X48 BIOS版本 : 0601) ASUS Striker II Extreme |
显示卡 | Geforce GTX 280 (G200 / 1024MB / 核心:602MHz / Shader:1296MHz / 显存:2214MHz) NVIDIA Geforce 9800 GX2 NVIDIA Geforce 9800 GTX NVIDIA Geforce 8800 Ultra Radeon HD 3870x2 Radeon HD 3870 |
硬盘 | Seagate Barracuda 7200.10 SATA (320GB / 7200RPM / 16M |
电源供应器 | Topwer TOP-900W (ATX12V 2.0 / 900W) |
显示器 | DELL 3007WFP (30英寸LCD / 2560*1600分辨率) |
● 测试系统的软件环境
操 作 系 统 及 驱 动 | |
操作 |
Microsoft |
|
Intel X38 for Vista |
|
(Beta / 版本号 177.34) NVIDIA Forceware for Geforce 8/9 AMD-ATI Catalyst for Vista |
|
256 0*1600_32bit 60Hz |
测试内容包括D3D合成测试软件3DMark 06和3Dmark Vantage,及5款最新DirectX 9 3D游戏和6款DirectX 10游戏。合成测试软件3DMark用总分衡量性能,3D游戏用平均fps来衡量性能,两者都是越高越好。
合 成 测 试 软 件 和 游 戏 | ||
3D合成 |
3Dmark06 (Futuremark / 版本号1.10) 3Dmark Vantage | |
3D |
DirectX 9 | Call of Duty 4:Modern Warfare (Activision / BenchMark Demo) Half-Life 2 Episode 2 Need for Speed:Pro Street Time Shift DEMO Unreal Tournament 3 |
DirectX 10 | Assassin's Creed (Ubisoft / 版本好1.0) BioShock Company of Heroes Call of Juarez DirectX 10 Benchmark Crysis PT Boats Knights of the Sea Benchmark |
测试辅助软件 | |
速度记录软件 | Fraps (beepa / 版本号 2.9.4) |
纯理论3D性能测试-3Dmark 06 / Van
● DX9性能测试:3DMark 06
3Dmark 06作为上一代3DMark系列巅峰之作,所有
● DX10性能测试:3Dmark Vantage
在3Dmark系列测试中,笔者仅选择了3Dmark06和3Dmark Vantage这两款最新的测试软件来检验产品在DirectX 9和DirectX 10下的纯理论性能。
3Dmark06中Radeon HD 3870x2的表现十分抢眼、技压群雄,位居第二的是Geforce 9800 GX2,但是二者均为双GPU产品。反观单GPU产品Geforce GTX 280,性能已经十分接近双GPU产品,性能可见一斑。
也许对于DirectX 10产品来说,DirectX 10性能才是真正衡量产品的最佳标尺。3Dmark Vantage下,拥有240 SPs、512bit的Geforce GTX 280不负众望用的第一,即使面对拥有双GPU的Geforce 9800 GX2也能以绝对优势领先。
DX9游戏-使命召唤4 / 半条命2第二章
● Call of Duty 4 Modern Warfare
>>游戏类型:DirectX9 第一人称射击游戏
>>测试方式:黑夜室外/室内场景,沿同一固定路线跑完3次取平均值,Fraps计速
>>画质设定:可设置的全部最高
● Half-Life 2 Episode 2
>>
>>测试方式:白天室外/室内场景,开始场景一段游戏的自行录像回放
>>画质设定:可设置的全部最高
>>AA、AF设定:AA和AF均在游戏中开启
第一人称设计游戏对游戏流畅度要求非常高,不能以最低的25帧流畅度来衡量,以许多玩家的实际视觉感官认为平均40帧为基础、60帧以上为佳。
在使命召唤4和半条命2第二章中,完全成了Geforce GTX 280和Geforce 9800GX2的双雄对决,二者成绩表现平分秋色,不过以实际游戏效果而言二者没有差别,即使在2560*1600 4X AA / 16X AF的画质下仍能保持平均60帧以上。
DX9游戏-极品11 / 时光飞梭 / 虚幻3
● Need for Speed ProStreet
>>游戏类型:DirectX9 竞速类游戏
>>测试方式:同一弯道竞速场景,人为操作跑完3次取平均值,Fraps计速
>>画质设定:全部最高
● Time Shift
Time Shift一年多以前就曾出现过一个PC版试玩DEMO,但是开发商方面的变化让它持续跳票。Time Shif的最新试玩DEMO不久前被放出,采用了自家研发的Saber3D引擎。从游戏画面来看相比去年的DEMO简直是天壤之别,一跃成为一流水平的第一人称射击游戏。
>>游戏类型:DirectX9 第一人称射击游戏
>>测试方式:黑夜室外场景,沿同一固定路线跑完3次取平均值,Fraps计速
>>画质设定:全部最高
>>
● Unreal Tournament 3
万众瞩目的Unreal Tournament 3终于出现了DEMO,这款基于Unreal Engine 3的最新第一人称视角竞技类
>>游戏类型:DirectX9 第一人称射击游戏
>>测试方式:黑夜室外/室内场景,沿同一固定路线跑完3次取平均值,Fraps计速
>>画质设定:全部最高
>>AA、AF设定:AA和AF均在控制面板中开启
在极品飞车11、时光穿梭和虚幻竞技场3中,性能表现与前文的两款DirectX 9游戏表现相类似。不过本环节我们关注一下各产品的反锯齿能力,尤其是在UE3引擎中的表现。
由于极品飞车11的最高分辨率仅为1920*1200,无法真正发挥显卡的极限性能。在虚幻竞技场3的2560*1600 4X AA / 16X AF画质中,Geforce GTX 280是惟一能够流畅运行的单GPU产品,而且实际性能表现与Grforce 9800 GX2不相伯仲。
DX10游戏-刺客信条 / 生化奇兵
● Assassin's Creed
>>游戏类型:DirectX10 第一人称冒险游戏
>>测试方式:黑夜室外/室内场景,沿同一固定路线跑完3次取平均值,Fraps计速
>>画质设定:可设置的全部最高
● BioShock
>>游戏类型:DirectX10 第一人称视角射击游戏
>>测试方式:黑夜室外/室内场景,沿同一固定路线跑完3次取平均值,Fraps计速
>>画质设定:全部最高
在刺客信条和生化奇兵两款DirectX 10年度大作中,Geforce GTX 280一路凯歌,虽然实际成绩不济Geforce 9800 GX2,但是性能相差不多。,产生的性能差距主要流处理器数量造成的并行运算能力差距。
DX10游戏-狂野西部 / 英雄连
● Call of Juarez
>>
游戏类型:DirectX10 第一人称射击游戏>>测试方式:白天室外/室内场景,开始场景一段游戏的自行录像回放
>>画质设定:可设置的全部最高
● Company of Heroes
>>游戏类型:DirectX10 即时战略游戏
>>测试方式:游戏自带性能测试工具,内容为3D实时运算的剧情过场回放
>>画质设定:全部最高
狂野西部和英雄连是两款对显卡本地内存十分敏感的游戏,拥有1024MB本地内存的三款产品分别位居前三甲。不过值得一提的是单卡双GPU产品虽然共有1024MB本地内存,但每颗GPU独享512MB,所以相对Geforce GTX 280的核心独享1024MB容量而言还是有一定性能差距,在英雄连中表现突出。
DX10游戏-孤岛危机 / 鱼雷舰艇
● Crysis
>>游戏类型:DirectX10 第一人称视角射击游戏
>>
>>画质设定:全部最高
● PT Boats Knights of the Seat
PT Boats Knights of The Sea游戏由Akella开发,它们曾经制作过Sea Dogs、Pirates of The Carribean等作品。这是一款即时战略游戏,游戏不但支持DirectX10,还支持AGEIA PhysX物理处理卡,游戏画面表现相对平庸,但对系统要求不低。
>>游戏类型:DirectX10 即时战略游戏
>>测试方式:游戏自带性能测试工具,内容为3D实时运算的战斗回放
>>画质设定:全部最高
Crysis和PT Boat Knights of Sea是两款对显卡整体综合性能要求很高的游戏,尤其是被称为游戏杀手的Crysis游戏中,仅有Geforce GTX 280能够流畅所有测试,一款单GP产品能有如此表现,可见其在规格、架构上设计的成功。
CUDA测试:Badaboom / Folging@Home
● Badaboom
Badaboom是Elemental公司基于NVIDIA的CUDA技术设计的一款视频编码软件,它可以把mpeg2视频转换为ipod或者iphone这样设备所使用的H.264视频格式。
视频
测试方案是笔者将采用Apple公司为ipod和iphone专门设计的iTunes软件做对比,将一个相同的mpeg2视频转换为320*240的iphone需求视频。
测试过程笔者并没有按照常规的单独运行测试软件、计时编码时间,而是将Badaboom和iTunes同时运行,然后用视频记录的方式直观的为各位读者展现CUDA的魅力。测试结果很明显,基于CUDA技术的Badaboom在编码完成时,iTunes仅完成了1/5左右进度,性能相差惊人。
● Folding@home
Folding@home是斯坦福大学的一个分布式计算计划可以利用分布于全球的计算机模拟复杂的蛋白质折叠效应,是一款典型的科学计算程序。目前它有两个版本,一种是基于CPU的版本,一种是基于GPU的版本。
>>
Folding@home-CPU版>>
Folding@home-GPU版具体关于Folding@home如何设置及使用笔者就不在此赘述,我们直接看结果。
通过运行个版本的Folding@home一段时间后,使用设计好的Excel函数我们能够计算出,Geforce GTX 280的运算能力为576NS/day;反观笔者使用Core 2 Extreme X9770却仅为4NS/day。
而且值得一提的是,笔者在使用Folding@home-GPU版时运行了图形化,所以减弱了Geforce GTX 280的运算能力,如果不实用图形化显示超过600NS/day不成问题。相比CPU的4NS/day运算能力,150倍的性能差距不用笔者再赘述谁谁强谁弱。
强强联手 SLI性能测试
前文的产品介绍中提及过Geforce GTX 280是第三款支持3-Way SLI技术的产品,再通过性能测试环节的铺垫,想必很多读者对Geforce GTX 280的SLI性能和Geforce GTX 280的3-Way SLI性能感到好奇,线面笔者将选取3Dmark Vantage和Crysis作为测试基准。
● SLI性能展示
3Dmark Vantage P 3Dmark Vantage H
3Dmark Vantage P Crysis 1920*1200
● 3-Way SLI性能展示
3Dmark Vantage P 3Dmark Vantage H
3Dmark Vantage P Crysis 1920*1200
Geforce GTX 280 | Geforce GTX 280 SLI |
Geforce GTX 280 3-Way SLI | |
3Dmark Vantage | |||
Performance | 10523 | 16447 | 18744 |
High | 7230 | 12693 | 15895 |
Extreme | 4925 | 9165 | 12661 |
Crysis | |||
1920*1200 | 21.2 | 36.9 | 42.9 |
为了真实展示多卡并行处理性能,笔者将每项测试成绩截图,用以证实成绩真实度。
通过成绩归类表可以计算出,双卡性能相对单卡有70%左右的性能提升,三卡性能有110%左右的提升,而且性能差距随着画质的提升而越拉越大。一款全新产品能有如此良好的兼容性和稳定性,足见NVIDIA的技术研发实力。而且通过本环节让笔者首次见识了,Crysis 1920*1200 Very High特效绝对流畅是什么概念。
● 美丽的意外
在笔者测完本环节最后一项——3-Way SLI的3Dmark Vantage Extreme后发现,笔者竟然将这个档次的世界记录打破,而且还是提升了3500多分。默认性能就有如此强劲的表现,看来Geforce GTX 280将会在发布后迅速成为DIY职业选手冲击设计界记录的最新利器。
高能≠高功耗?功耗测试
● 功耗测试
NVIDIA在Geforce GTX 280设计上不仅考虑了3D方面的性能提升,在全球呼吁节能的大环境下,NVIDIA将节能技术融入到Geforce GTX 280中。这种全新的节能技术,不同于以往的简单调整频率改变功耗,也不同于Hybrid Power需要IGP主板协助,它是通过软件侦测显卡负载状况来随时调节显卡电压和显卡频率,从根本上处理高功耗问题。
首先对比单卡功耗,Geforce GTX 280属于旗舰产品,所以它的满载功耗自然不会“环保”,它的满载峰值与双GPU的Geforce 9800 GX2旗鼓相当。不过反观待机平均显卡功耗,Geforce GTX 280却仅为145W,而且是所有测试产品中最低成绩,足见Geforce GTX 280的节能实力。
回归单核心霸主时代 GTX 280强势登场
● 套路出牌 单卡就要用单核
随着NVIDIA和AMD-ATI在显卡技术上的资深造诣,在现有产品基础上提升单卡性能唯有制造单卡多GPU产品,但这仅是将原来主板的多卡并联技术专一到显卡中,虽然会带来一时的高幅性能,但是随之而来的高功耗、高发热量、兼容性差无法弥补,而且这类产品售价过高根本无法普及。
而常规的单卡单GPU产品,例如Geforce GTX 280不仅拥有傲人的性能,与双GPU产品Geforce 9800 GX2打成平手,而且价格相对合理、兼容性、高功耗等问题都得以解决。
不过需要了解的是,虽然Geforce GTX 280在顶级产品中各方面已经非常出色,但是对于普通用户而言,如果想要真实发挥它的实际性能,一套价格不菲的配套平台不可或缺。
● 改升级时机到了嘛?
对于这个问题笔者很难回答,因为用户成千上万自然需求各不相同,对于那些追求极致性能并且资金充裕的用户来说,尝鲜是一种乐趣,升级最新的Geforce GTX 280当然不能错过。而对于另外一部分用户,不妨期待性价比更为突出的Geforce GTX 260。
● NVIDIA未来产品展望
虽然笔者出产品性能外并不看好单卡多GPU产品,但是NVIDIA与AMD-ATI两者间只要继续搞性能“军备竞赛”,这种单卡多GPU就不会停止研发脚步。
不过笔者前文也曾提及,G200核心已经遇到了很多G80时代的问题,例如制程工艺难以承载庞大的晶体管,架构设计有待深度优化,产品成本过高等,也许在不久的未来就会出现全新的产品来弥补这些缺憾。但是无论怎样,Geforce GTX 280的表现还是彻底折服了笔者,这不仅仅是因为强悍的3D性能,在其他方面例如CUDA技术、PhysX引擎等都深深的吸引了笔者。
● “我”不是游戏机 而是超级计算机
NVIDIA在Geforce GTX 280这一代产品上,强调的不仅仅是强大的3D图形处理能力,NVIDIA Computing能力也被提到一个新高度。例如随Geforce GTX 280一并到来的CUDA 2.0就是一个典型NVIDIA Computing,显卡可以凭借百倍于CPU的浮点运算能力轻松赶超现有超级计算机架构,为科研等高、精、尖行业服务,起到推波助澜的深远作用。
Geforce GTX 280产品展示
NVIDIA对自己全新发布的旗舰产品向来严格把控,这也就造成首测时收到的产品除LOGO贴纸或散热器外没有任何不同。而且旗舰产品所采用的核心本身良品率较低,所以各厂商也不会推出非公版产品。本次测试共收到5家产品分别如下(根据产品送测先后顺序):
● XFX(讯景)Geforce GTX 280
● Zotac(索泰)Geforce GTX 280
● Colorful(七彩虹)Geforce GTX 280
● Galaxy(影驰)Geforce GTX 280