
前言:新纪元领袖8800Ultra登场
自从NV4x构架后,NVIDIA就一直朝着图形显卡的王位不断靠近。GeForce 6凭借着先进的技术与理念成功的为NVIDIA挽回了GeForce FX时代的颓势;GeForce 7凭借着出色的成本控制完美的诠释出市场在业内应有的地位。这次突然亮相的GeForce 8系列顶级显卡:GeForce 8800 Ultra,又会带给我们怎样的启示呢,NVIDIA能否最终登上图形显卡的王位?
GeForce 8800 Ultra的保密工作做的十分出色,以至于在它发布之前没有半点风声透露出来。中关村在线评测中心第一时间收到了来自NVIDIA公司和XFX(讯景)的各一块Geforce 8800 Ultra显卡,随即就在5月2日发布了整体性的测评。作为上次测试的延伸,我们在上次的基础上对Geforce 8800 Ultra做了尽可能细致的分析与测试,希望能够帮助大家更深入的了解关于它的一切。
文章导读:
● 新领袖登场!
-技术旗舰 横空出世
-神似貌离 我与GTX有不同
-8800Ultra 指引方向的领袖
● 技术改变未来 由8800U所带来的启示
-DirectX10 洪流已不可阻挡
-昂贵的自由 浅析MIMD与8800U
-“免费”的平滑画质与无损抗锯齿
-天造地设还是弄巧成拙?再谈NVIO与高清世界
-没有G8X就没有HDR+AA
● 常规3DMARK基准测试
● 常规游戏类软件测试
-极品飞车10:卡本峡谷
-英雄连
-最高指挥官
-无限试驾
-上古卷轴4
● 功耗与温度测试
● 常规高清影片测试
-CPU占用率测试
-高清片段欣赏:加勒比海盗3预告片(1080P)
-高清片段欣赏:蜘蛛狭3(1080P)
● 测试分析
-专业性能&OpenGL性能测析:Specviewperf9
-各种抗锯齿效果实及损耗测析
-自由仍未实现?3DMARK06的顶点单元测试
-通用计算能力测试:GPUDIP
-各种抗锯齿效果及损耗测析
● 全文总结
-GeForce 8800 Ultra似乎并非那么完美
-由Ultra与GTX间的细小差异联想:频率与性能不再挂钩?
-总结与展望:它将是引领下一代的新领袖

技术旗舰 横空出世
● 技术旗舰 横空出世
DirectX10时代的来临已是不可阻挡。2006年11月,nVIDIA率先发布了全球首款支持DirectX10的GPU-G80。2007年4月17日中、低端产品G84/G86的问世标志着DirectX10显卡普及的开始。nVIDIA有条不紊的扩充着自己的产品线,而被AMD收购的ATI,却只能尴尬的坚守在DirectX 9.0C的阵地上。
传说中的R600
GeForce 8800GTX在发布半年之后仍未遭到挑战,但这种情况可能会在近期改变。历经长达半年的跳票期之后,Radeon HD 2900XT终于表示将在5月发布,这样的发布同样面临尴尬:Radeon HD 2900XT只是R600家族中的“2当家”,真正的R600XTX依旧处于“火星状态”。
此次GeForce 8800Ultra的推出,一方面是为了继续保持对AMD的优势,另一方面则是一种自我完善的产物。在以往的交锋历史中,像是GeForce 8800Ultra这种“完美版”的东西一般都是在对手推出新旗舰产品之后用于再夺王位的利器,这次GeForce 8800Ultra在没有任何对手的情况下突然被推向前台,从侧面也可以看出nVIDIA对G80自信满满。
我们将GeForce 8800Ultra称为领袖,所谓领袖就是指挥群众,发挥群体力量的那个人。领袖能力的强弱决定了一个团体的前途和命运,在DirectX 10时代来临的时候,nVIDIA将重任托付给了GeForce 8800Ultra。
GeForce 8800Ultra的意义不在于它能带来多少市场分额。像这种顶端型号,即使能有一定的销量,也不过是大陆随意一家AIC的水准。它最重要的意义,一方面可以作为“耀武扬威”竖立产品形象的产品;另一方面,它是引领一代产品的技术领袖。GeForce 8800Ultra并非是真正的旗舰,因为它实在是太过稀缺。笔者更愿意以“技术旗舰”、“领袖”去称呼它。

神似貌离 我与GTX有何不同
● 神似貌离 我与GTX有何不同
从规格上看,GeForce 8800Ultar与GeForce 8800GTX只存在频率上的区别。GeForce 8800Ultar的核心/着色器/显存频率分别高达615MHz/1500MHz/2160MHz,比GeForce 8800GTX高出7%/11%/20%。
Geforce 8800 系 列 显 卡 规 格 及 价 格 对 比 | ||
显卡型号 | Geforce 8800 Ultra | Geforce 8800 GTX |
核心代号 | G80 - 450 | G80 - 300 |
制造工艺 | 90nm | 90nm |
核心晶体管数目 | 6.81亿 | 6.81亿 |
DirectX 版本支持 | DirectX 10 | DirectX 10 |
着色器数量 | 128 (标量通用着色器) |
128 (标量通用着色器) |
光栅处理器数量 | 24 | 24 |
核心频率 | 615MHz | 575MHz |
像素着色器频率 | 1500MHz | 1350MHz |
内存频率 | 2160MHz | 1800MHz |
内存位宽 | 384bit | 384bit |
内存类型 | GDDR3 | GDDR3 |
内存容量 | 768MB | 768MB |
产品售价 | 829美元 | 4500元 |
“武装”着的GPU
GeForce 8800Ultar的核心代号为G80-450-A3,依旧使用90nm工艺制造,由台基电(TSMC)代工生产。代号中的A3为芯片步进,数字越大说明步进越新。GeForce 8800GTX的核心代号为G80-300-A2,步进较老。A3步进的G80核心在工艺上有所改良,根据nVIDIA提供的数据,更高频率的GeForce 8800Ultar TDP为175W,比GeForce 8800GTX还低了2W。为了保护脆弱的核心,NVIDIA重新启用了FX时代时的防护铁盖设计。
PCB方面,GeForce 8800Ultar采用了与GeForce 8800GTX完全一致的P355公板,其长度为26.7厘米。如此的长度恐怕只有R600XTX才能与之“媲美”。
显存方面,GeForce 8800Ultar采用12颗16M*32bit三星 -0.8ns GDDR3显存,默认频率为2160MHz。显存容量/位宽仍为768M/384bit,其内存带宽也从Geforce 8800 GTX的86.4GB/s提升到103.68GB/s。编号为BJ08的显存颗粒是目前速度最快的GDDR3显存,其速度不仅超过了GeForce 8800GTX所采用了-1.0ns显存,也超过了目前的GDDR4显存!-0.8ns的显存额定频率应为2500MHz,对于GeForce 8800Ultar 2160MHz的默认频率来讲,还有很大的提升空间。
散热方面,GeForce 8800Ultar采用了与GeForce 8800GTX相似的双槽涡轮风扇设计,铜制底座+双热管+铝制散热器的组合在保证了导热效果的同时可以有效的减少散热器的重量。巨大的黑色导风槽将显卡表面完全覆盖过来,这也在一定程度起到保护显卡的表面元件的作用。在风扇位置上,GeForce 8800Ultar比GeForce 8800GTX有所上移,使它接近于一个协风扇,设计上更加科学。此外导风槽可以重整风道,在为核心提供散热的同时照顾到供电区的发热元件。

8800 Ultra 指引方向的领袖
● 8800 Ultra 指引方向的领袖
GeForce 8800 Ultra与GeForce 8800GTX规格相近,在更多的时候它是作为“GeForce 8800GTX官方超频版”而存在。这种策略nVIDIA并不是第一次才采用,之前为对抗Radeon X1800XTX而诞生的GeForce 7800GTX 512M就是一个很好的例子。但他们的历史使命又有不同:GeForce 7800GTX 512M是为重夺王位而生,而GeForce 8800Ultra目前只能与自家GeForce 8800GTX对抗?
7800GTX 512M
事实上,几个月之前市面上就已经出现厂商超频版的GeForce 8800 GTX,GeForce 8800 Ultra眼下的的竞争对手正是同宗同源的GeForce 8800GTX。虽然定价的不同使他们很难有正面冲突的机会,但这样的一种定位,还是令人难以理解。其实历史上也出现过类似的情况,我们不妨先回忆一下历史上与之类似的产品。
拥有一定阅历的玩家大概还记得图片上的这款显卡:GeForce 6800 Ultra-512M。传说中的NV48核心与重新设计过的PCB使得它的性能比起GeForce 6800 Ultra有所提升,但它的实质仍是“官方超频版”的产物。GeForce 6800 Ultra-512M数量极其稀少,以至于很多人都不知NV48为何物,它对市场带来的冲击几乎难以察觉,这是否意味着它的价值有限?答案是否定的。
NV4X时代,包括GeForce 6800在内很多产品的核心频率都比较低,不超过400MHz。很多人认为当时的130nm/110nm制造工艺是造成这种现象的原因,其实不然:核心频率450Mhz的GeForce 6800Ultra 512M采用NV48核心,核心频率400Mhz的GeForce 6800 Ultra采用NV45核心,NV48与NV45本质上几乎没有区别,但是NV48所搭配的是全新设计的PCB,其电器性能更强大,这使的它可以在比对方高50MHz的情况下运行。后来的GeForce 6800GS +P317公板设计吸取这个教训,彻底释放了NV4X的能量。
领袖的作用往往不在于它本身能有多少战力,而是在于它的统帅力。GeForce 8800 Ultra与GeForce 6800 Ultra 512M有着非常相近的历史地位,他们都是一种自我完善的产物。因为GeForce 8800Ultra与GeForce 8800GTX差距甚微,人们往往不屑于理会他们间的不同。GeForce 8800GTX已是“集大成者”,为何nVIDIA不惜以开发一款新产品为代价,造出细节上稍有变动、性能提升有限的GeForce 8800 Ultra?其实这些细小的差异恰恰能够反应出G8X一代显卡的发展方向。我们将以GeForce 8800Ultra为范本,从细节上的差异来分析G8X系列显卡的技术特点。

DirectX10 洪流已不可阻挡
● DirectX10 洪流已不可阻挡
DirectX10作为3D API进化的产物、作为自由编程时代里的一个重要转折点,其必然性笔者已在《从8系列发布 漫谈娱乐3D图形技术发展》一文中进行过论述。我们在这只是简单的对其做补充说明。
不同版本SM的规格对比
在这个自由编程时代,Shader Model 4.0有中重要意义。相比原先的Shader Model 3.0,Shader Model 4.0支持的最大指令数从512条增加到了64000条,寄存器数量也从原先的32个大幅跃升到4096个。众多先进的特性,目的只有一个:增加自由度。
统一渲染架构:Unified Shader,它的出现颠覆了延续了十几年的“管线”概念。DirectX8时代,顶点着色器与像素着色器的分离曾经为显卡带来了革命性的发展。而显卡发展至今,即使以各种不同比例去配置它们的比例,都难免经常有时会出现一方负担过重,而另一方无所事事的局面,造成资源浪费。在DirectX10时代管线将不再存在,取而代之的是兼顾了像素着色器与顶点着色器作用的统一渲染单元,nVIDIA将其称为Stream Processor(流处理器,SP)。
统一渲染架构的出现,并不意味着像素渲染与顶点渲染的终结,DirectX10依旧保留了这两个过程。统一渲染单元极高的自由度打破了传统管线的比例限制,能够使这两个渲染过程能够更加彻底的得到运用。单纯从眼下的功用去看,Stream Processor只是一个单纯的替代者,一个代价有些大的替代者。的确,nVIDIA用了近7亿晶体管的代价换来了仅仅128个Stream Processor,每个Stream Processor都价值不菲。但Stream Processor绝不只是一个“新模式的渲染单元”那么简单,如果能够得到持续的开发,Stream Processor有可能会发挥出更多的用途。

昂贵的自由 浅析MIMD与8800U
● 昂贵的自由 浅析MIMD与8800U
GeForce 8800Ultra内建128个Stream Processor,每个SP包含两个ALU(逻辑算术单元):一个MAD(乘加单元)与一个MUL(无符号乘法单元)。双ALU构成了Dual-Issue(双线)体系,据说由于种种原因G80架构中的MUL至尽仍处于“未激活”状态,往往将其忽略。类似于QUAD的设计,128个SP被分为8个大区,由仲裁机构进行调配。GeForce 8800Ultra的每个SP只能进行1D运算,处理能力较弱。
G80架构
为了弥补处理能力上的欠缺,GeForce 8800Ultra具备了庞大的SP数量并让他们运行在高达1500MHz的频率上。G8X采用了类似CPU倍频的设计,使Shader(着色器)与核心部分运行在不同的频率下,这难免会带来高延迟的问题。要维持这样的体系就需要足够强大的仲裁机构,而它正是与MIMD设计相辅相成的。
所谓MIMD即多指令多数据流,它与SIMD(单指令多数据流)对应。对于一个3D模型来讲,它包含4条信息:X,Y,Z轴对应的是坐标数据;W则包含色彩信息。在3D世界中,一套完整的数据实质上是一条“4D数据”。为了配合这种模式,功能单元往往被设计为4D,这样就可以在同一周期内同时处理4条信息。显卡自诞生至今多采用SIMD的设计,但这次nVIDIA“冒天下之大不韪”,居然将G80设计为MIMD架构!
GeForce 8800 Ultra使用了近7亿的晶体管,却只集成了128个SP。其中一个原因是因为它所使用的1D MAIN(全功)ALU设计,128个SP虽然每个处理能力都不强,但至少它们都是有完整处理能力的ALU。要知道制造4个1D MAIN ALU与一个4D MAIN ALU所耗费的晶体管数目是不可同日而语的。MIMD与SIMD在本质上没有区别,两者都可以认为是对方在特殊情况下的存在。MIMD算不上革命或者革新,它被应用到G80之中更多的是nVIDIA取向性的产物。
SIMD在长时间内把持着显卡核心架构的主导权,这样的设计4D ALU有一个好处:单周期内可以同时处理一组完整的“4D数据”。两种SIMD架构的显示核心,要区分其处理能力强弱往往考虑的是诸如浮点运算能力或者吞吐能力之类的指标。SIMD同样也存在着明显的缺陷,那就是在处理不同指令时灵活度不足。一旦遇到非常“别扭”的指令,其效率可能会降低到一个很低的水平。
为了避免这样的状况,往往就只能牺牲程序员的劳动,对其进行烦琐的软件优化。对于这种状况,nVIDIA勇敢的进行了变革。在G80架构中,每处理一条指令,首先由仲裁机构将其拆分成若干条1D指令,然后分配给各个ALU进行处理。
虽每个ALU的处理能力都不强,但这样的分配模式却可以保证每个ALU接近100%的利用率,在处理效率方面无人能及,程序员也可以得到一定程度上的解脱。这时衡量一块显卡的强弱,除了浮点与吞吐能力,我们还必须要考虑它的效率。要实现这样的架构并非易事,庞大的ALU数量、极高的SP频率与强大的仲裁机构都是不可缺少的,而GeForce 8800 Ultra正是最能反应这种设计思想的产物。

“免费”的平滑画质与无损抗锯齿
● “免费”的平滑画质与无损抗锯齿
GeForce 8800 Ultra具备6组内存控制器,每组包含4个光栅着色器(ROP),总计为24ROP。其中每组内存控制器可提供64bit显存位宽,合计就是6*64bit=384bit。nVIDIA将ROP部分重新组合设计,使其效率较以往又有提升。
每一个3D模型都包含着X,Y,Z三个轴与色彩信息W,这是显卡运做中最基本的东西。但我们目前还没有办法将3D真实的还原出来,无论多么昂贵的显示器也只能进行包含一个平面坐标系与对应色彩的2D显示显示。对于显卡来说,将运算结果输出到显示设备必须先经过ROP对像素进行处理。如果输出的分辨率固定下来,那它所包含的像素数目也是固定的,这时候把包含“深度”信息的3D场景直接搬上2D银幕,其结果是必然会有锯齿产生。
锯齿与抗锯齿(Antialiasing,AA)总是会被同时提起的,超级采样抗矩尺(Super Sample Antialiasing,SSAA)是较早采用的一种AA模式。实现SSAA的方法很简单:只需将所有的3D模型框架(三角形)与贴图进行采样并缩放既可。理论上采用SSAA所得到的画质是最好的,但实现SSAA的代价十分高昂。它相当于给显卡增加了几倍的运算量,其负担令人难以承受。即使是今天的王者GeForce 8800Ultra与R600XTX,打开SSAA后也会出现巨幅的性能下降……
Multi Sample Antialiasing(MSAA)是目前采用比较多的一种AA模式,它的原理与SSAA差别不大:保持对同等数量的3D模型框架进行取样的前提下,减少对贴图的取样点。理论上使用MSAA处理后的画面质量要差一些,但从实际效果来看,这种差距并不会对应用带来明显的影响。开启MSAA对显卡来说同样是一笔沉重的分担,但至少比起SSAA来说这已经算是廉价而高效的解决方案了……
无损抗锯齿一直是人们所追求的目标,在这方面GeForce 8800Ultra为我们带来了惊喜。所谓无损抗锯齿指得是(相对NA AA)不付出性能损耗的代价即可实现一定程度的抗锯齿效果,4X MSAA则是玩家们常用来判断一块显卡抗锯齿能力的标准之一。强大的像素输出机构是实现无损抗锯齿的必要条件,GeForce 8800Ultra具备6组24个ROP,宽带达到了384bit,并进一步对ROP进行优化编排,提高其效率。
在测试中,我们发现在主流的1280*1024分辨率与高端的1600*1200分辨率下,使用4X MSAA带来的性能下降被控制在5%之内。也许这还算不上纯粹的无损抗锯齿,不过它已经具备了相当的应用价值。毕竟在实际使用的过程中,5%的性能差距往往是难以察觉的。
除了可以用低廉的代价实现MSAA外,GeForce 8800 Ultra还为我们提供了一种新的渲染模式:Coverage Sampling Antialiasing(CSAA)。CSAA通过对算法的重新编排,可以压缩掉多余的色彩值与深度值,提供额外的取样点。这样的设计可以减少进行抗锯齿操作时所要处理的数据量,提高效率。在我们的测试中,采用16X CSAA与4X MSAA所带来的系统损耗相差无几,其效果却远强于4X MSAA。这就意味着GeForce 8800Ultra有实现无损16X CSAA的能力!不过令人遗憾的是,CSAA的应用面还比较小,在一些老游戏中强制打开CSAA有可能会导致渲染出错。
GeForce 8800Ultra提供384bit的显存带宽,无论从哪种意义上这都是一个很奇怪的数字。在以往的显卡所配备的显存带宽往往是2的积数,从32bit到256bit,其演变过程从没产生过偏差。据传,AMD在自己的旗舰级产品R600XT/XTX中都配备了512bit的显存带宽,而GeForce 8800 Ultra仅有384bit,这是否意味着nVIDIA的失败?
在测试的过程中,我们发现384bit的显存带宽为GeForce 8800 Ultra带来了实质上的性能提升,带来了无损抗锯齿的能力,这些特性在严苛的测试环境下也没有出现瓶颈。在笔者看来,虽然不能断言512bit的带宽是资源浪费,至少384bit的带宽已经可以满足包括极限情况下的需求。联想到追求效率而不追求吞吐量的MIMD架构,不禁令人感慨:G8X是一种非常务实的设计。

天造地设还是弄巧成拙?再谈NVIO与高清世界
● 天造地设还是弄巧成拙?再谈NVIO与高清世界
10年之前的GPU就已经同时包含了2D/3D处理的能力,时至今日,GPU所提供的视频解码能力使我们几乎不需要再添加额外的硬件解码设备。但G80是个例外,所谓NVIO指得是一种集成在显卡中却独立于GPU之外的视频处理芯片,它是GeForce 8800系列显卡独有的,顶级GeForce 8800 Ultra也不例外。
优化显而易见
曾经有这样的一个说法:GeForce 8800的晶体管规模应该是7.5亿个!的确,将G80核心的6.81亿晶体管与NVIO的6800万晶体管加在一起正是7.49亿个。NVIO的出现是一种“逆潮流”的行为,G80核心晶体管规模已达6.81亿,已接近90nm工艺的极限;高达615MHz的核心频率与1500MHz的着色器频率不可避免的会对2D输出部分产生干扰,它更多是一种无奈的产物。但正是“被逼无奈”状况下才诞生的NVIO芯片,却带来了很好的反响。
这块集成在输出接口附近的小芯片虽不起眼,却是G80 2D性能强有力的保障。通过NVIO,GeForce 8800Ultra能够实现真正10bit色彩输出能力,实现TMDS、双Dual-Link XHD DVI输出功能,并且同时支持TV Out和HDCP。搭配独立的RAMDAC可以减少GPU产生的电磁干扰,保持较好的输出质量。它具备对H.264、VC-1、MPEG-2等流行的高清视频格式硬件解码的能力,这对于大尺寸显示器用户以及HDTV爱好者,NVIO的出现无疑是一个福音。
在视频处理能力方面,GeForce 8800Ultra留有一点遗憾,那就是它不支持最新的解码技术。G80的硬件解码能力来自于视频处理单元(VideoProcessor,VP),原则上它只能辅助CPU分担一部分工作罢了。这一点在G84/G86中有所改变,除了对VP进行了重新设计之外,它们还具备了全新的动态流处理单元(Bitstream Processor,BSP),理论上即使没有CPU的参与,GPU也可以独立进行硬件级视频解码。
GeForce 8800Ultra不支持BSP,这与当年GeForce 6800Ultra不支持H.264硬件解码有着惊人的相似之处。不过人无完人,这一点遗憾不能掩盖其强大的视频处理能力。也许正是参考老式解码器在GeForce 8800Ultra所暴露的缺点,才会诞生BSP等新的设计?

没有G8X就没有HDR+AA
● 没有G8X就没有HDR+AA
目前市面上正式支持HDR+AA的产品包括GeForce 8系列与Radeon X1000系列。随着Shader Model 4.0的引入,对于HDR的浮点格式也有所改变。这是否意味着在DirectX10与DirectX9.0C下实现的HDR与HDR+AA会有所不同??
记得曾有人讲过“任何一块支持SM3.0的显卡都可以实现HDR+AA”,的确,早在GeForce 6时代人们就可以通过修改游戏控制台的手法在《孤岛惊魂》等几个游戏中实现这样的效果,但最终GeForce 6/7系列都没有能够正式支持HDR+AA。事实上,使用修改控制台的手法能够实现的只是HDR+SSAA,也就是上文中曾经提到的超级采样抗锯齿,这样就不需要去获取模型边缘信息,实现全贴图抗锯齿。这样的做法消耗的资源极大,更多的时候只是得不偿失。
GeForce 6/7系列之所以不能实现HDR+AA,是因为它们的浮点格式为FP16。在他们的架构中HDR运算与AA需要占用同样的缓存区域,而缓存区同时只能执行两者中的一项,无法同时实现HDR与AA。Radeon X1000系列同样采用FP16的浮点格式,它将AA交给着色器(Shader)去进行处理,不会产生缓存冲突,因此它能够实现HDR+AA。Shader的本质是一段可以编写的程序,也有Radeon X1000系列是依靠软件去实现HDR+AA的说法。这样“取巧”的做法代价就是游戏需要和显卡驱动的互相配合,增加了程序员的工作量。
GeForce 8800 Ultra采用了128bit的浮点格式,支持4个32bit的浮点通道,从根本上解决了缓存冲突的矛盾。HDR对于DirectX9.0C来讲属于一种占用大量资源的特效,可对于DirectX10来讲这个代价就要低廉的多。DirectX10的特性之一就是可以使特效更廉价,具体的内容在上文的列表中已经表述过,这里就不在重复。可以预见的是,有DirectX10的助力,GeForce 8800 Ultra以及G8X系列产品可以更加轻松的实现各种令人眼花缭乱的特效。

测试意图以及测试平台、环境说明
● 测试意图以及测试平台、环境说明
GeForce 8800Ultra本身是顶级产品,我们选取了同样为顶级配置的平台与之搭配,尽可能的减少瓶颈现象。测试项目方面,此次测试分为4个大项:3DMARK理论测试、游戏测试、测试分析、高清测试。其中前两项属于常规测试,参与测试的游戏均为近期热门的新游戏。
在“测试分析”中,我们会对包括Specviewperf在内的一些有针对性的项目进行测试,并配合测试数据进行理论分析(测试分析里部分项目采用的平台与列表中有区别,请对号入座)。针对目前兴起的HDTV热潮,我们还将对GeForce 8800Ultra的高清播放能力进行测试。
为了对新领袖:GeForce 8800Ultra有一个直观印象,在3DMARK理论测试中,我们加入了与GeForce 8800GTX SLI的成绩对比。测试设置方面,除有特殊说明外,所有的测试项目均选最高效果。分辨率选为1280*1024、1600*1200、2560*1600,分别对应目前的主流、高端、顶级用户的需求。
系 统 硬 件 环 境 | |
中央处理器 | Intel Core 2 Extreme X6800 ( 双核 / 266MHz*11 / 4MB共享L2缓存 ) |
内存模组 | ADATA Vitesta Extreme Edition DDR2-1066 1GB *2 ( 运行在 1066@5-5-5 ) |
主板 | NVIDIA nForce 680i SLI ( nForce 680i SLI / PCB版本C00 / BIOS版本6.00 PG ) |
显示卡 | XFX Geforce 8800 Ultra ( Geforce 8800 Ultra / 768MB / 核心:650MHz / 内存:2260MHz ) NVIDIA Geforce 8800 Ultra ( Geforce 8800 Ultra / 768MB / 核心:615MHz / 内存:2160MHz ) NVIDIA Geforce 8800 GTX ( Geforce 8800 GTX / 768MB / 核心:580MHz / 内存:1800MHz ) |
硬盘 | Seagate ST3200827SCE ( 160GB / 7200RPM / 8M缓存 / 100GB NTFS系统分区 ) |
电源供应器 | Topower TOP-900W ( ATX12V 2.0 / 900W ) |
显示器 | DELL Ultrasharp 3007WFP ( 30英寸LCD / 2560*1600分辨率 |
操 作 系 统 及 驱 动 | |
操作系统 | Microsoft Windows XP Professional ( 中文版 / 版本号2002 / Service Pack2 ) |
主板芯片组驱动 | NVIDIA Chipset Driver Pack for 680i ( WHQL / 版本号9.53 ) |
显卡驱动 | NVIDIA Forceware for Geforce 8 ( WHQL / 版本号158.22 ) |
桌面环境 | 2560*1600_32bit@60Hz |
测试主板全貌
这里有一点需要说明:因为目前没有可用的DirectX10测试软件或程序,无法考量GeForce的DirectX10性能,但不应该忘记它支持DirectX10的特性。

基准理论测试:3DMARK03
● 基准理论测试:3DMARK03
3DMark 03是Futuremark在2003年推出的,检测项目跨DirectX7/DirectX 8/DirectX 9_SM2.0性能,3DMARK 03一直被认为是nVIDIA的传统强项之一。虽然时间久远,我们仍将使用它进行测试。
3DMARK03显然不能难倒GeForce 8800Ultra,在默认分辨率下我们可以跑到6万多的成绩。

基准理论测试:3DMARK05
● 基准理论测试:3DMARK05
3DMARK05是第一款完全在DirectX9下编写的测试软件,在测试中它会产生大量3D模型,对顶点渲染单元(VS)的要求很高。
3DMARK05曾被认为是偏向ATI的一款测试软件,但GeForce8的出现改变了这一切。

基准理论测试:3DMARK06
● 基准理论测试:3DMARK06
3DMARK06是目前3DMARK中版本最新的一个,在测试中包含对DirectX9.0C与HDR的需求。因为3DMARK06不对N卡或A卡有所偏向,它也成为衡量显卡性能的公平标杆之一。
不愧是顶级配置,即使在苛刻的要求下都能够完全流畅的运行3DMARK06。但我们发现了一些奇怪的地方,在包括3DMARK05在内的某些项目里面GeForce 8800 Ultra SLI的成绩低于GeForce 8800GTX SLI。就以往的经验来看,除了驱动不完善的原因外,CPU在这里可能已经成为很大的瓶颈。

游戏性能测试:英雄连
● 游戏性能测试:英雄连
Company of Heroes是一款2战题材的游戏,在各场景中大量运用到DirectX9.0C所带来的新技术,被认为是能够反应出DirecxX9.0C内涵的代表作。
>>游戏类型:DirectX9 即时战略游戏
>>测试方式:游戏自带性能测试工具,内容为3D实时运算的剧情过场回放
>>画质设定:全部最高
>>其它:无
即使在2560*1600 4X AA+ 16X AF的极端条件下,GeForce 8800Ultra的成绩也达到110帧以上,不愧是王者该有的风范。

游戏性能测试:无限试驾
● 游戏性能测试:无限试驾
凭借着漂亮的画面与“赛车游戏”的身份,无限试驾成为近期热门的游戏,对硬件配置的极高需求也使得它变成新一代硬件杀手。
>>游戏类型:DirectX9 竞速类游戏
>>测试方式:起始点至第一存盘点,人为操作跑完3次取平均值,Fraps计速
>>画质设定:全部最高,HDR开启
>>AA、AF控制:显卡驱动程序内
>>其它:无
《无限试驾》对硬件的需求实在了得,即使是GeForce 8800Ultra在极限场景下也只有21.49帧,但也保留了可玩性。

游戏性能测试:上古卷轴4
● 游戏性能测试:上古卷轴4
“上古卷轴”系列可算是欧美著名的3D类型RPG游戏,推出至今已经十年。Oblivion对系统尤其是显卡的要求非常高。在测试中我们用强制在显卡驱动中开启AA和游戏中开启HDR来实现AA+HDR设定。
>>游戏类型:DirectX9 第一 / 第三人称视角RPG游戏
>>测试方式:白天室外场景,第三人称视角为操作沿同一固定路线跑完3次取平均值,Fraps计速
>>画质设定:全部最高,HDR开启
>>AA、AF控制:显卡驱动程序内
>>其它:无
在上古4中,GeForce 8800Ultra SLI只在2560*1600 4X AA+16X AF中掉下60帧。上古卷轴4本身也是一款硬件杀手级的游戏,这样的成绩对于上一代显卡是难以想象的。

游戏性能测试:最高指挥官
● 游戏性能测试:最高指挥官
作为继承《横扫千军(Total Annihilation)》精髓的年度即时战略精品,由Chris Taylor领衔开发的《最高指挥官》定位于遥远的未来。在统治宇宙的地球帝国(Earth Empire)分崩离析之后,帝国继承者U.E.F.、人机共生体种族Cybran以及受外星文明影响而自成一体的Aeon,为了获得世界的统治权发动了旷日持久的“无尽战争”。
>>游戏类型:DirectX9 竞速类游戏
>>测试方式:起始点至第一存盘点,人为操作跑完3次取平均值,Fraps计速
>>画质设定:全部最高,HDR开启
>>AA、AF控制:显卡驱动程序内
>>其它:无
《最高指挥官》对硬件要求很高,测试过程中没有一项帧数达到50,同样的仅有极限下的一项低于40。自始至终都保持了足够的流畅度。

游戏性能测试:极品飞车10
● 游戏性能测试:极品飞车10
Need for Speed:Carbon是目前人气很高的赛车类游戏,对系统配置-尤其是对显卡的3D能力有很高需求。由于Need for Speed:Carbon是由Xbox360移植过来,因此ATI Radeon X1000系列显卡速度优势明显。
>>游戏类型:DirectX9 竞速类游戏
>>测试方式:同一弯道竞速场景,人为操作跑完3次取平均值,Fraps计速
>>画质设定:全部最高
>>AA、AF控制:显卡驱动程序内
>>其它:无
因为游戏本身的特性,我们无法在2560*1600分辨率下运行NFS10。GeForce 6/7系列曾在NFS10中惨败于X1000系列,这次GeForce 8800Ultra为nVIDIA挽回了颜面。

功耗与温度测试
● 功耗与温度测试
我们使用Seasonic PowerAngel分别记录系统在待机与连续运行3DMARK06时的功耗,数据均为平均值。
轻载
温度方面,我们使用RivaTuner记录显卡在待机与运行HDR小球时的温度,室内温度约为23摄氏度。
GeForce 8800Ultra配备了可自动调速的涡轮风扇,在高负荷情况下会提高转速。在测试中温度最高值达到了75度,对于顶级显卡来说这样的温度基本可以让人接受。在全速运转下,风扇会有一定的噪音。如果在轻载下,风扇的噪音难以察觉。
GeForce 8800 Ultra虽频率更高,但功耗上对比GeForce 8800GTX没有明显的提升。对于如此规格的一款由90nm制程制作的显卡来说,这实在是难能可贵。

常规高清影片测试
● 常规高清影片测试
GeForce 8800Ultra依旧使用旧式的VP引擎,不支持最新的BSP引擎。它的高清播放能力与GeForce 8800GTX几乎完全相同,在此我们只简单的进行CPU占用率的测试,对此有兴趣的玩家不妨查阅一下以前的相关文章。在此我们使用KMPlayer v2.9.3.1227播放数段1080P H.264格式的高清片段,以检验GeForce 8800 Ultra的高清播放能力。
CPU占用率很低
不具备像G84那样能够脱离CPU单独解码的BSP引擎不得不说是GeForce 8800Ultra的一大遗憾,但即使用老式引擎它也具备很强的性能。在播放H.264格式的高清影片时CPU的占用率稳定在不到30%的水平上。如配合nVIDIA独家的PureVideo HD,效果还会更好。
此外,我们准备了一些GeForce 8800 Ultra测试高清片段中的截图,请大家欣赏。
●高清片段欣赏:加勒比海盗3预告片(1080P)
●高清片段欣赏:蜘蛛狭3(1080P)
专业OpenGL性能测析:Specviewperf9
● 专业性能&OpenGL性能测析:Specviewperf9
与民用游戏软件不同,OpenGL在专业领域拥有更大的发言权。在以前,专业性能多与显卡的顶点渲染能力(VS)有关。统一渲染架构对专业领域很有意义,每一个流处理器都可以做VS使用,灵活性极高。在这里我们将测试GeForce 8800Ultra的专业性能。
SPECviewperf9是一个由C语言编写的OpenGL(开放源代码)的测试程序,它是由IBM开发的,后来SGI。Digital以及其他的SPECopc项目开发人员对此作了升级和显著的贡献。SPECviewperf在benckmaking openGL执行方面提供了巨大的灵活性。该软件所包含的测试主要针对于显卡在真实软件中性能而设计,这些项目当然少不了CAD/CAM/CAE以及数码内容制作俗称DCC应用。SPECviewperf9将所有的运行结果都以帧的形式表达,最终再进行重新的整理评分,以求得出一个最接近显卡在真实应用环境下的表现。
在单卡模式下对GeForce 8800Ultra进行测试,成绩如下:
Run All Summary
---------- SUM_RESULTS3DSMAXSUMMARY.TXT
3dsmax-04 Weighted Geometric Mean = 13.62
---------- SUM_RESULTSCATIASUMMARY.TXT
catia-02 Weighted Geometric Mean = 6.709
---------- SUM_RESULTSENSIGHTSUMMARY.TXT
ensight-03 Weighted Geometric Mean = 18.01
---------- SUM_RESULTSLIGHTSUMMARY.TXT
light-08 Weighted Geometric Mean = 11.48
---------- SUM_RESULTSMAYASUMMARY.TXT
maya-02 Weighted Geometric Mean = 29.54
---------- SUM_RESULTSPROESUMMARY.TXT
proe-04 Weighted Geometric Mean = 12.04
---------- SUM_RESULTSSWSUMMARY.TXT
sw-01 Weighted Geometric Mean = 12.19
---------- SUM_RESULTSUGNXSUMMARY.TXT
ugnx-01 Weighted Geometric Mean = 5.242
---------- SUM_RESULTSTCVISSUMMARY.TXT
tcvis-01 Weighted Geometric Mean = 4.337
GeForce 8800Ultra本身是一款民用游戏显卡,在种种限制下它只能运行SPECviewperf9里有限的几个项目,所以成绩比专业显卡要低很多。但如果就单个场景的成绩来讲,它的表现已是很出色了。参考GeForce 8800 Ultra的专业版本:Quadro FX 5600,可以明显的发现GeForce 8800 Ultra的专业性能是被人为限制过的。但这也可以从另一方面说明GeForce 8800 Ultra在专业领域有很大的潜力可以挖掘。
各种抗锯齿效果及损耗测析
● 各种抗锯齿效果及损耗测析
在上面已经介绍过8800 Ultra在抗锯齿方面的新特性,除了通过3DMARK与各种游戏的测试可以说明其性能损耗程度外,我们将通过FSAA Tester与FSAA Viewer进行进一步的测试说明。
FSAA Viewer:NA AA

自由仍未实现?3DMARK06的顶点单元测试
● 自由仍未实现?3DMARK06的顶点单元测试
在此笔者要向一位名为“龙嗣”的网友表示感谢,他的提议成为这项测试的灵感。测试的过程中笔者吸收了多位网友的意见,正是因为你们的支持,ZOL才有进步的动力!测试的灵感来自于“目前G80并非完全自由的统一渲染架构,它的一部分SP被固定做VS”的说法。对此我们选取了3DMARK06的顶点渲染(VS)场景进行测试,以便于对比。
在对GeForce 8系列显卡的测试过程中笔者也发现了这样的现象,对于那些有很高VS需求的项目里同SP数量的显卡型号表现出的性能都很接近,也就是说他们的VS能力很接近。在G8X的架构中,排除频率的因素每个SP的能力是相同的,决定性能的因素主要看参与到其中的SP数量。联想到为统一渲染架构的GPU编写驱动有着较大难度,nVIDIA绕开仲裁机构,在DirectX9环境下通过底层限制固定一定数量的SP专门做VS,这也是有可能的。
在这里笔者要指出一点,此测试不具有完全的说服力,受限于软件环境,目前还没有可靠的办法对此观点进行验证。这个测试仅可做为一个参考,不能作为验证此观点的依据。

通用计算能力&HDR效果测试
● 通用计算能力测试:GPUDIP
GPU拥有强大的浮点运算能力,这种能力除了用在3D渲染之外,也在逐渐走入通用计算领域。不过有一点是令人遗憾的,目前能够用到GPGPU能力的只有专业领域。但这种GPU通用化的趋势是不容否认的。为此,我们将使用GPUDIP考量GeForce 8800Ultra单卡的通用计算能力。
GPUDIP基于GPUINSTR开发,GPUDIP用来测试图形芯片在数字图像处理或者GPGPU(GPU通用计算)任务,如混合、锐化、模糊和边缘测试当中的性能。Tertsi表示,今天发布的只是GPUDIP预览版,其中只有1个单独的DIP任务(Blur模糊测试),但是未来的beta版GPUDIP当中,将支持到20+不同的DIP任务其中包含Mandelbort。
测试成绩如下:
Blur 9 73 5 512 768 10000 982.0378 ms
36.0367 GInstr/sec
4.0041 GPixel/sec
292.2980 GFlops/sec
20.0204 GTexel/sec
14.9164 GB/sec
参考:X1950PRO
Blur 9 73 5 512 768 10000 2708,5256 ms
13,0659 GInstr/sec
1,4518 GPixel/sec
105,9793 GFlops/sec
7,2589 GTexel/sec
5,4083 GB/sec
需要说明的一点是,目前除了少数专业软件之外,还没有能够对GPU通用计算能力做出权威测评的方法。此次的GPUDIP测试,只能做为一个参考。
●HDR,HDR+AA效果以及损耗测析
DirectX10带来的众多实惠之一,就是降低了实现HDR效果的费用。配合GeForce 8800 Ultra高效率的ROP部分,可以实现很好的HDR+AA。为此,我们将使用实际场景进行测试,以说明其效果与系统损耗。场景选为3DMARK06“极度深寒”场景,测试选用单卡模式。

驱动干涉与超频能力测试
● 不同驱动下的成绩
上文中已经提过,驱动是困扰GeForce 8系列的问题之一。为了GeForce 8系列,nVIDIA放弃了沿用已久的统一驱动架构,转而采用“一月一发布”的模式。为此,这里将测试不同驱动下GeForce 8800Ultra SLI的表现。
158.16
GeForce 8800系列显卡与它的驱动发布已有半年时间,在这期间可以看到nVIDIA在驱动上的进步。但也产生了像158.16这样的“战斗驱动”,自158.XX后,nVIDIA驱动的性能相对稳定。不过,因架构的原因,对于GeForce 8系列的驱动优化还将持续很长时间。
●超频能力测试
普通GeForce 8800GTX在风冷下的超频极限在650MHz/2000MHz+左右,这个成绩不算很理想。对此比较多的解释是:G80采用了比较老的90nm制程,近7亿的晶体管数目限制了它的超频能力。GeForce 8800Ultra采用了最新的A3制程,这是否意味着它的超频能力有所提升?这里将对此进行测试。
我们选择ATITOOL作为此次的测试软件,通过其自带的频率检测选项估测大致的频率,然后以3DMARK06进行验证。测试在单卡模式下进行。
最终GeForce 8800Ultra稳定在701MHz/2360MHz并通过3DMARK06,这只是原装散热器下无MOD无调整电压下的成绩。如果对显卡本身进行修改,有可能会达到更高的水准,这对那些渴望世界记录的超频爱好者来说很有吸引力。

GeForce 8800Ultra并非那么完美
● GeForce 8800Ultra并非那么完美
提出这样的一个观点,笔者并非是指它仍在上一代硬解码技术的遗憾或是高昂的价格,而是它的当家利器:MIMD。
笔者不想过多的谈论MIMD与SIMD的优劣或区别:这只是两种不同的取向。MIMD的架构具有良好的软件适应性,即使再复杂的指令也会被拆分成数条1D指令,然后由效率接近100%的SP去执行。这是一种“看低”的设计,nVIDIA为指令的适应性吃过苦头:GeForce 6/7系列显卡曾在几个由XBOX360移植的游戏中惨败给“3:1架构”Radeon X1000系列,也许这给了nVIDIA一些启示。
关于3:1笔者不想多做叙述,MIMD的架构可以避免类似于GeForce 6/7系列显卡曾发生的“意外”。但MIMD的软件适应性这也只是“避免惨剧的发生”的一种设计,所谓的适应性对保证显卡整体性能的强大并不是最重要的组成部分,毕竟效率与效能是两个概念。
NFS10—GeForce 7永远的痛
因失去软件优化而最终失败的例子有很多,例如末代Pentium4的Prcscott,其架构庞大而艰深,令人很难能够读懂。对Prcscott进行优化需耗费程序员大量的精力,这是最终导致其不成功的原因之一。MIMD架构具有很好的软件适应性,也有很强的软件依赖度。这种依赖度与仲裁机构有关:上百个数量庞大的SP群需要它们进行调配;成千上万条线程需要它们去转切;分频设计带来的高延迟需要他们去遮盖……nVIDIA不惜以超过1亿晶体管为代价为G80编制了庞大的仲裁机构,它已然成为GeForce 8800Ultra与G8X的灵魂。
我们无法用一个确切的数字去形容它,但有一点可以肯定:nVIDIA拥有全球数一数二的驱动开发团队。G8X架构面临着与Prcscott类似的问题,但它的生机要大的多:它的仲裁机构只是庞大,并不繁杂。即使是这样,为它编写驱动时不得不考虑到多达128个的SP在各种状况下的编排;成千上万条线程与控制器间的调度等等……
恰逢微软发布了下一代操作系统:Vista,而Vista下的3D子系统与WINDOWS下大相径庭……这不可不谓是雪上加霜的消息。然而这还不够,nVIDIA的竞争对手AMD(ATI)有可能累积了更多的经验,这一方面源于3:1架构中“统一PS架构”的观摩,另一方面比G80出世更早的游戏机芯片C1也使ATI在对US编程方面在时间上领跑一年。为了摆脱这种困境,nVIDIA孤注一掷全力开发G8X的驱动软件,甚至为此放弃了使用已久并广受好评的统一驱动架构。在G80发布的半年时间里,我们可以感觉到nVIDIA驱动上的进步。
也许将G8X体系对软件的依赖度定性为软肋太过武断,随着驱动的进步,也许会有更多潜在的性能从G8X体系中挖掘出来。新的特性决定了这一代的显卡在发布之后还会有一段研发周期在等着它,现在就要完整无误的对它进行全面论述,这为时尚早。

差异联想:频率与性能不再挂钩?
●由Ultra与GTX间的细小差异联想:频率与性能不再挂钩?
上文中对GeForce 8800Ultra与GeForce 8800GTX的细小差异进行了对比,除了散热器、步进、功耗的不同之外,频率的不同是他们间最大的差异。GeForce 8800Ultar的核心/着色器/显存频率分别高达615MHz/1500MHz/2160MHz,比GeForce 8800GTX高出7%/11%/20%。但在测试中,我们发现成绩的差距与这个比例有一些出入,为此我们做了一个简单的对比。
在许多项目GeForce 8800Ultra与GeForce 8800GTX的性能差距不符合他们间的频率差距。排除掉系统瓶颈的原因,这种现象其实不是第一次见到,根据以往测试的经验,这一般发生在一些特定的软件或者显卡型号上。
例如像《英雄连》之类的游戏,不同频率所带来的性能非常之小。与之类似的游戏还有《极品飞车10》、《最高指挥官》等等,带来这种差异的原因大概与游戏本身所采用的引擎有关,在这里就不多做分析。此外,在X1000系列与GeForce 8系列显卡的测试中,我们也发现了类似的问题。这两个系列的显卡架构差异较大,不方便做直接对比。但有一点两者是相同的:他们都不是传统“管线”架构。
关于“管线”的一些问题,笔者曾在《永别了管线 记我们的3D发展史》中简单介绍过。X1000系列显卡与GeForce 8系列显卡的性能与频率之所以不成正比关系,笔者认为这与它们的仲裁机构有关。所谓的仲裁机构,即负责线程分配、平衡负载的单元。
GeForce 8系列为统一渲染架构,根据系统需求会自动调整流处理器的作用,这相对容易理解。记得有人称X1000系列“部分实现了DirectX10”,其实这是指它的“3:1”架构。3个像素着色器(PS)对应一个纹理单元的设计,注定它必须要对PS做出合理的安排。ATI的做法是通过仲裁机构与超标量线程体系对PS进行时时调配,以满足不同的需求,这与统一渲染架构很相似,也有人将之称为“统一PS架构”。因为仲裁机构的作用与日俱增,在一些应用里出现类似非线性频率与性能关系,也是一个趋势。
●总结与展望:它将是引领一代的新领袖
我们将GeForce 8800Ultra称为领袖,所谓领袖就是指挥群众,发挥群体力量的那个人。领袖能力的强弱决定了一个团体的前途和命运,在DirectX 10时代来临的时候,nVIDIA将重任托付给了GeForce 8800Ultra。
Gforce8系列已整装待发
GeForce 8800Ultra售价高达839美金,如此的价格令人咋舌。相信除了少数极端发烧的爱好者,大多数人都无力承担起它的高价。比起它本身的市场价值,它更重要的意义莫过于是做一个引领GeForce 8系全军的领导者。AMD的滞后促使nVIDIA拿出自我完善的产物:GeForce 8800Ultra。在即将降临于世的G80与R600的大战中,GeForce 8会拿什么应战?它已经给出了答案。
追求高效率与自由度的MIMD架构、免费的无损抗锯齿、廉价的HDR效果、更强的通用计算能力;对软件优化的高依赖度、庞大的仲裁机构、频率与性能的非线性关系等等,这是GeForce 8800Ultra交出的答卷,这也是GeForce 8系的时代特征。已经拉下序幕的DirectX10对于业界来讲是一个充满美妙遐想的时代,GeForce 8800Ultra究竟会为我们描绘出一副怎样的景象?让我们拭目以待。
XFX 8800 Ultra(PV-T80U-SHD) | |
显卡芯片 | Geforce 8800 Ultra |
芯片厂商 | nVIDIA |
芯片位宽 | 256 bit |
制造工艺 | 0.09 微米 |
核心频率 | 650MHz |
显存频率 | 2260MHz |
显存类型 | DDRIII |
显存容量(MB) | 768 |
显存位宽 | 384bit |
晶体管数目 | 6.81亿Million |
针对这次8800 Ultra的发布,XFX在向全国市场供货100片,而我们所拍到的这对XFX 8800 Ultra显卡是北京地区唯一的一对,售价同早期的8800 GTX价格相同,为19999元!此外,如果一次性买进一对8800 Ultra,XFX还将赠送价值千元的七盟750W电源一个,且卡内有会员卡,每对显卡的积分可兑换千元礼品!
现场出了有电源赠送外,XFX讯景显卡还提供了丰富的游戏软件,包括《手足兄弟连》、《金刚》和《英雄无敌V》三款正版游戏奉送。
XFX 8800 Ultra(PV-T80U-SHD)
[参考价格] 19999元 送七盟750W电源
[联系方式] 中关村e世界A3562 010-62682671
[报价查询] 显卡产品报价 XFX讯景产品报价
- 相关阅读:
- ·影驰GTX 960名人堂2GB与4GB对比测验
//vga.zol.com.cn/551/5510481.html - ·高端的对决 R9-390X和GTX 980对比推荐
//vga.zol.com.cn/549/5491726.html - ·NVIDIA推出移动版GTX 980 规格不缩水
//vga.zol.com.cn/544/5443681.html - ·快人一等 影驰NVIDIA GTX950黑将售1199
//vga.zol.com.cn/542/5422065.html - ·NVIDIA要把完整GTX 980显卡塞进笔记本
//vga.zol.com.cn/541/5417620.html