ZOL首页 > 显卡 > 技术应用 > 显卡技术 > 正文

逼近现实的魔力 NVIDIA四图形技术解析

分页浏览|全文浏览2007-09-19 06:00 【CNET中国·ZOL 原创】 作者：王胤韬 | 责编：王胤韬评论

本文导航

第1页：PC图形业霸主NVIDIA 四大当家本事
第2页：全功能高清视频解码：PureVideo HD
第3页：多GPU并行：NVIDIA SLI

第4页：向系统内存要性能：NVIDIA TurboCahce
第5页：图形计算的革命：NVIDIA Unified Shader Model

返回分页阅读文章

产品：EN8800GTX AquaTank 华硕显卡

PC图形业霸主NVIDIA 四大当家本事

PC图形业霸主NVIDIA 四大当家本事

　　● NVIDIA 14年成为PC图形霸主

　　十四年前黄仁勋和Curtis Priem、Chris Malachowsky在美国建立了NVIDIA，并在开始就把研制世界最先进的图形加速芯片，成就一家伟大的技术公司作为奋斗目标。在这么多年里，NVIDIA经历了无数风浪争斗，始终坚持推动最新的图形技术作为自己的竞争力，锐意进取。直到06年底AMD收购ATI，计算机图形硬件战争基本告一段落，NVIDIA成为唯一的独立图形硬件厂商幸存者和事实上的霸主，其图形硬件整体市场占有率超过75%！

　　不久前笔者曾在文章《从平民到皇帝 NVIDIA产品14年发展回顾》中用十四款产品串联起这段历史，本文则将用另一个视角来重新认识NVIDIA的优势，这里我们将回顾近年推动NVIDIA产品在市场上披荆斩棘的四个核心技术，事实上它们已经各自成长为技术品牌，成为PC用户耳熟能详的名词和符号。

　　● 四大旗帜技术

　　NVIDIA PureVideo —— NVIDIA PureVideo技术是GeForce 6、7、8系列GPU支持的高分辨率视频处理器和NVIDIA视频解码软件的完美结合。该技术面向所有视频内容在任何显示模式下均可提供前所未有的清晰图像、流畅视频、逼真色彩和精确的图像比例。

　　NVIDIA SLI —— 作为一种实现灵活伸缩性的革命性方式，通过在一台PC中组合多片显卡来提升系统性能，NVIDIA SLI多GPU技术充分发挥了PCI Express总线架构实现的更高带宽优势，并采用了智能硬件和软件解决方案，使得多颗GPU可以高效地协同工作，实现突破性的性能。

　　NVIDIA TurboCahce —— TurboCache技术充分利用了PCI-E的额外带宽，使图形显示性能超越了使用传统显示内存解决方案的图形性能。TurboCache技术在充分利用板载显存的容量和带宽的同时，动态利用系统可用内存来实现更大的整体显示内存，并为图形性能注入智能加速动力以提供出色表现。

　　NVIDIA Unified Shader Model —— 统一渲染架构（Unified Shader Model）是最新一代GPU破除顶点/像素着色器分离架构的全新GPU组织形式，这种架构拥有最高的硬件资源利用率并能够和DirectX 10更完美的配合。NVIDIA Geforce 8系列GPU的统一渲染架构革新进行的非常彻底，继续走在图形技术革新之路的最前面。

产品：EN8800GTX AquaTank 华硕显卡

全功能高清视频解码：PureVideo HD

全功能高清视频解码：PureVideo HD

　　● 100% GPU解码的期望

　　高清视频能提供前所未有的细致入微画面，但视频文件所需存储空间巨大，因此用于实现尽量高的压缩比，并保持良好画面质量的更先进编码格式不断涌现。之中最流行并被DVD标准制定组织DVD Forum认可的VC-1（微软WMVx的纯算法版）和H.264。而用户在播放使用这些编码的高清视频的时候，就需要对进行过复杂编码后的视频进行实时解码。目前超过25Mbps码率的H.264编码高清视频就很难在主流CPU平台上顺畅播放，100%的CPU负载并带来画面迟滞是所有视频爱好者的噩梦。

　　● 最新PureVideo HD特性

　　NVIDIA的GPU在NV4x一代开始便引入辅助高清解码技术的PureVideo HD，并在06年初增加了对H.264编码格式视频的解码支持。PureVideo HD已经能有效缓解CPU的压力，只是解码过程仍然需要CPU很高的参与度，不能彻底释放CPU负载。PureVideo HD最新版本现在在NVIDIA G84和G86 GPU上被引入，它的最大改进是：高清视频解码可以100%交由GPU计算！CPU彻底解放。

　　G7X和G80 GPU的PureVideo HD特性依靠内部的VP（VideoProcessor）提供，在对高清视频进行解码时，能够完成除了Bitstream处理和InverseTransform之外的其它操作，包括对CPU能力要求不低的De-Blocking操作。但以H,264编码的高码率影片播放时，即使CPU被PureVideo HD从De-Blocking解放出来，Bitstream处理仍旧给CPU沉重的压力。

逼近现实的魔力 NVIDIA四图形技术解析
G84、G86 GPU内的视频解码逻辑得到大幅加强

　　G84、G86 GPU在内部设计上大大增强了视频解码逻辑，除了VP版本更新并加强了性能之外，还新增了针对H.264解码的BSP（Bitstream Processor）引擎，解决原来G7X和G80 GPU的PureVideo HD仍需CPU进行Bitstream处理的问题，彻底接手高清视频解码的所有工作。

无PureVideo HD和两个版本PureVideo HD的H.264解码对比

　　以G84、G86 GPU为核心的Geforce 8600 / 8500 / Geforce 8400系列显卡，能够基本不需CPU计算能力的支持，就流畅播放高码率H.264压缩格式的高清视频，BSP支持CABAC/CAVLC两种方式的Bitstream处理，即使使用的是低速CPU，CPU占用率也可以保持在40%以下，系统响应度和播放顺畅度都能够保证。

　　Geforce 8600 / 8500 / Geforce 8400对MPEG2、VC1及H,264均能提供最优的支持。VP+BSP的协同工作目前已经在InterVideo WinDVD和Cyberlink PowerDVD的最新版本中实现。

　　● HDCP功能和PureVideo

Geforce 8400 GS上的HDCP key ROM

　　HDCP是High-bandwidth Digital Content Protection的缩写，意为高清数字内容保护。HDCP技术是由好莱坞与半导体界巨人Intel合作发开，它可以实际运用在显卡、DVD播放机等传输端，以及显示器、电视机、投影机的接收端之间。想在计算机上播放有版权的高清节目，不论是HDTV、蓝光还是HD DVD碟片，都要求显示器和显卡支持HDCP协议。

　　在显卡端，实现HDCP需要卡上安装有存放了HDCP Licence安全密钥的Atmel AT88SC 0808C Crypto ROM。PCB背面和显卡BIOS ROM芯片临近的即是这枚Atmel AT88SC。显卡支持HDCP配置的意义在于，未来所有发行载体的高清视频内容均会被加入HDCP，如果显卡不支持这个功能，显示输出的内容将被降低分辨率水平甚至是不能输出信号。

　　● PureVideo对画面质量的改善

　　在视频的回放质量方面，NVIDIA PureVideo技术可以消除重影、模糊和扭曲等现象，呈现清晰明快的画面。通过空间时间去交织、反向电视电影处理和先进的缩放技术，消除锯齿状边缘，显示鲜锐的图像

PureVideo改善视频回放质量

　　PureVideo显卡支持高清电视，通过分量、DVI和HDMI接口，可以最高达1920*1080的分辨率驱动高清电视机。归功于灰度、亮度和饱和度控制、色温矫正以及LCD锐化等特性，还可以在任何显示器上呈现栩栩如生的画面和鲜活生动的色彩。

产品：EN8800GTX AquaTank 华硕显卡

多GPU并行：NVIDIA SLI

多GPU并行：NVIDIA SLI

　　● 目前几乎所有的NVIDIA GPU都支持SLI

　　 NVIDIA的SLI全称Scalable Link Interface，是NVIDIA公司于05年6月28日推出的一种革命性技术。能让多块NVIDIA GeForce系列或者NVIDIA Quadro显卡工作在一台个人计算机或工作站上，从而极大地提升图形性能。目前为止，支持NVIDIA SLI技术的显卡（GPU）包括以下型号：

　　NVIDIA GeForce 8800 Ultra
　　NVIDIA GeForce 8800 GTX
　　NVIDIA GeForce 8800 GTS 640
　　NVIDIA GeForce 8800 GTS 320
　　NVIDIA GeForce 8600 GTS
　　NVIDIA GeForce 8600 GT
　　NVIDIA GeForce 8500 GT
　　NVIDIA GeForce 7950 GX2
　　NVIDIA GeForce 7950 GT
　　NVIDIA GeForce 7900 GTX
　　NVIDIA GeForce 7900 GT
　　NVIDIA GeForce 7900 GS
　　NVIDIA GeForce 7800 GTX 512
　　NVIDIA GeForce 7800 GTX
　　NVIDIA GeForce 7800 GT
　　NVIDIA GeForce 7600 GT
　　NVIDIA GeForce 7600 GS
　　NVIDIA GeForce 7300 GT*
　　NVIDIA GeForce 7300 GS*
　　NVIDIA GeForce 7300 LE*
　　NVIDIA GeForce 7100 GS*
　　NVIDIA GeForce 6800 Ultra
　　NVIDIA GeForce 6800 GS
　　NVIDIA GeForce 6800 GT
　　NVIDIA GeForce 6800
　　NVIDIA GeForce 6800 XT
　　NVIDIA GeForce 6800 LE
　　NVIDIA GeForce 6600 GT
　　NVIDIA GeForce 6600*
　　NVIDIA GeForce 6600 LE*
　　NVIDIA SLI-Ready Quadro GPUs

逼近现实的魔力 NVIDIA四图形技术解析
NVIDIA SLI系统

　　● SLI技术目标：提升性能、弹性化采购成本

　　SLI这个字母缩写最先曾经被3Dfx的Voodoo系列产品使用，其双卡并联技术称为Scan Line Interleave，其工作原理是将画面分为一条条扫描帧线(Scanline)，两块显卡对奇数帧线和偶数帧线分别渲染，然后将同时渲染完毕的帧线进行合并后写入到帧缓冲中，接下来显示器就可以显示出一幅完整的画面。

　　NVIDIA的SLI技术与早先3dfx的SLI虽然缩写相同，其实已经是全新的技术，工作原理不同，它支持多重联合渲染方式其中主要包括：分割帧渲染模式(Scissor Frame Rendering，SFR)和交替帧渲染模式(Alternate Frame Rendering，AFR)。

　　分割帧渲染模式是将每帧画面划分为上下两个部分，主显卡完成上部分画面渲染，副显卡则完成下半部分的画面渲染；而交替帧渲染模式则是一块显卡负责渲染奇数帧画面，而另外一块显卡则负责渲染偶数帧画面，二者交替渲染，在这种模式下，两块显卡实际上都是渲染的完整的画面。

逼近现实的魔力 NVIDIA四图形技术解析
Geforce 8800 Ultra SLI系统的性能提升

　　SLI技术理论上能把图形处理能力提高一倍，在实际应用中，除了极少数测试之外，在大多数实际游戏中图形性能能提高30%-70%不等。特别的，这种极端的技术还是节省升级图形系统成本的最有效的方法之一。

产品：EN8800GTX AquaTank 华硕显卡

向系统内存要性能：NVIDIA TurboCahce

向系统内存要性能：NVIDIA TurboCahce

　　● 更高速更灵活配置的系统内存利用途径

　　TurboCache的中文名为“智能加速引擎”，其最大的一个特性就是支持了将图像直接渲染到内存。顾名思义，直接渲染到内存的技术便是通过PCI Express的总线通道，直接对系统内存进行读写访问，而读写的内容便是以往需要用显存来存放和处理的图象数据。TurboCache 架构的主要功能特点包括：

　　专利硬件和软件技术，直接渲染到系统内存
　　TurboCache Manager可以动态分配内存以获得最大的系统性能
　　智能软件算法可以最大化应用程序性能
　　双向PCI Express带宽配合TurboCache架构，实现图形系统高性价比

逼近现实的魔力 NVIDIA四图形技术解析
ASUS Geforce 6200 TurboCache显卡

　　早年的AGP平台中，板载显卡其实使用了与此类似的技术，但那时的图形核心只能通过AGP对内存进行访问，并且我们需要在Bios中划分出固定容量的内存，来放置图形处理需要的顶点和纹理数据。这样做有两点不足：首先AGP的带宽不能满足越来越高的数据传输需要，大大限制了核心性能的发挥；其次在内存被固定的划分给图形核心后便不能改变容量，造成了内存资源的浪费。

TurboCache和非TurboCache两种GPU的对比

　　TurboCache技术很好的解决了这两个问题。由于PCIE的传输带宽远高于AGP总线，因此图形核心能够高速的与内存进行数据交换。如此一来显示核心便能够直接的利用内存，当进行纹理渲染时能够实时的对内存进行读取和写入操作。除此之外，对内存的实时调用也另TurboCache技术不需要划分固定容量的内存，系统能够根据图形处理工作的需要来访问内存。

　　从这张图中我们也能够清楚的了解到，采用TurboCache技术的这款产品只需要板载16MB的显存，但通过动态分配最高达112MB的系统内存，实现了128MB的显示存储系统。而没有采用TurboCache的产品如果想要拥有128MB的显存容量，就只能通过显卡板载的方式来实现了。二者相比，规格和成本已经见了分晓。

　　● MMU改进渲染流程

　　TurboCache技术还针对其出现时流行的GPU渲染构架、重新进行了三维管线的改进，增加了MMU（内存管理单元）。MMU就是在系统内存与核心内部的相应流水管线建立了连接通道，它能够同时调用和动态的分配本地及系统内存容量，使得GPU能够高效的利用系统内存进行渲染和纹理处理。此外，通过更改多种管线要素，新的架构除了能够有效的利用PCIE的高速传输带宽，还能够处理由于通过PCI Express接口接入系统而增加的时延。

MMU在渲染架构中的作用

　　除了在GPU中配置独特的MMU（内存管理单元）硬件支持TurboCache外，驱动程序中也针对TurboCache技术进行了相应的修改，实现了以智能化的方式确定色彩、纹理和Z轴缓冲数据的位置。这种处理能力也能够最大限度的提高每种应用的性能。此外，MMU还能够按照应用的需要，将更多内存分配用于图形处理。当该应用关闭时，分配用于图形处理的内存将被释放，以供系统使用。这个过程是在后台完成的，并随应用的不同而不同。

产品：EN8800GTX AquaTank 华硕显卡

图形计算的革命：NVIDIA Unified Shader Model

图形计算的革命：NVIDIA Unified Shader Model

　　● 统一的着色器架构

　　在传统的管线模型里，数据流的开始是各种不同从CPU至GPU的属性、指针、命令和纹理。然后主要的处理阶段遵循相当线性方式，包括顶点着色、像素着色、栅格化，一直到完成处理的像素输入到缓冲区。再一步深入图形程序，通常来说都是像素着色应用多于顶点着色应用，这也是早先着色器分离架构中像素着色器多于顶点着色器的原因。不过这只是总体上的统计情况，而在具体3D应用程序中，某个时段还是有所不同。因此，统一着色器架构的GPU的动态着色器处理能力将比传统的着色器分离架构更有效率。

逼近现实的魔力 NVIDIA四图形技术解析
统一着色器架构示意

　　以这样一幅图来说明问题。都是拥有12个着色器的分离架构和统一架构的对比中，分离架构为4顶点着色+8像素着色的配置，而统一架构是所有着色器动态配置执行着色任务。两种着色器架构分别执行极端3D几何处理和极端像素填充的两种应用中差异立显。分离架构在两种极端应用中分别遭遇了顶点着色和像素着色的瓶颈，而统一架构则能够最大限度的发挥所有着色器的能力，以相同着色器数量规模实现更高的性能。

　　虽然DirectX 10是一种统一着色器架构的API，但并不是只有统一着色器架构的GPU才能支持DirectX 10。Geforce 8的设计团队认为未来的高端DirectX 10游戏将非常依赖GPU着色器的硬件处理能力，因此Geforce 8800 GPU的架构完全和DirectX 10吻合，能够配合基于DirectX 10的统一着色器方式编程，在未来的DirectX10游戏中发挥最高效率。事实上，Geforce 8800的四年研发周期内，为了这个新架构克服了无数困难。

Geforce 8800 GPU构架示意图

　　包括顶点、像素、几何处理等各种其他3D处理都能被映射成浮点处理被Geforce 8800 GPU的流处理器（SPs：Streaming Processors）计算。几何着色处理是DirectX 10的新特性，这种功能Geforce 8800的流处理器可以很好的支持，以此实现更加丰富的特效，并大大降低几何处理对CPU的依赖。GPU的分遣控制逻辑可以动态的分配流处理器去执行前面所述的顶点、像素和几何着色部分，甚至对于3D开发者来讲都不用过多的考虑不同着色器的分配，现在这些完全都可以交给API和驱动自动控制。由于Geforce 8800 GPU流处理器的通用性良好，未来更多的3D应用也可以在API和驱动的支持下被加进来，就这一点来说统一架构的着色器也远优于不可扩展的传统架构。

　　● Geforce 8800 GTX和流处理器架构

　　06年11月发布、完整支持DirectX 10、彻底统一渲染架构风格的Geforce 8800 GTX是自Geforce 256以来NVIDIA受到关注最高的革命性产品，这款产品领先3D API标准3个月，领先比自己慢的竞争对手半年上市，创下了NVIDIA旗舰级3D娱乐显卡的销售记录。

ASUS Geforce 8800 GTX

　　Geforce 8800 GTX使用的GPU为G80，它提供对ShaderModel 4.0、NVIDIA Quantum Effects物理处理技术的支持，NVIDIA Lumenex引擎的引入则实现了128位浮点高动态范围光照和8倍多重取样抗锯齿效果。G80带来前所未有的设计：统一Shader架构（Unified Shader）带来强劲的性能，完全硬件支持DirectX10的各项先进特性，具备128个通用标量着色器的Geforce 8800 GTX具备万亿浮点处理能力（Teraflops of floating point），GigaThread逻辑支持数千个线程并行运行，有效调度所有着色器的均衡负载，最大化3D计算，对DX9和DX10级别的3D应用都有理论上趋于完美的适应性。Geforce 8800 GTX还支持384bit的内存位宽，搭配将近2GHz频率的768MB本地内存，即使在30英寸LCD上游戏也不会遭遇本地内存容量瓶颈。

G80 流处理组结构

　　G80 GPU的每组流处理器联合着一组均衡配置的纹理过滤/地址单元和对应的L1/L2 Cache一起工作，这些都是Geforce 8800 GPU的基本组成部分，以Geforce 8800 GTX来说，它的内部拥有128个流处理器，即16个流处理器组。

　　Geforce 8800 GPU架构的关键就是它使用大量的流处理器完成着色器操作，这种流处理器可以高效率的计算输入进来的数据并把结果输出给其他的流处理器，单指令流多数据流架构（SIMD ：single instruction/multiple data）使这些流处理器可以支持分组，大量组合在一起的流处理器能够更具效率的执行指令，实现非常强大的并行处理能力。每一个流处理器还内置了高速的编码和执行逻辑，输入数据流中的不同数据元素都被使用相似的操作执行着。

　　以往领先的GPU都使用向量处理器单元，因为在图形处理过程中产生的数据大多数都是向量，典型的情况包括R-G-B-A的像素着色和4*4矩阵的几何变换，当然这其中也包含着不少标量数据。在Geforce 8800 GPU的研发过程中，NVIDIA的工程师研究了海量的图形着色处理数据，认为标量计算的比例在显著的增长，并在将来还将继续保持这个趋势。而在NVIDIA内部的测试里，Geforce 8800 GPU的128个标量处理器单元在处理图形数据时（向量数据被转化成标量数据来执行）比32*4模式的向量处理器单元快两倍有余。

查看本文作者王胤韬的其他文章>> 返回显卡首页

频道热词：华硕主板 Intel AMD