1属于技术革新的2012
2012年是一个具有特殊意义的年份,我们非常幸运的至今都还没有迎来山崩、地裂、海啸或者世界毁灭什么的,同时还收获了AMD和NVIDIA为我们奉上的全新图形架构及十余款各具特色的显卡产品。既然都到11月份了地球还看不出有什么要完蛋的架势,那大家是不是可以放下心来好好用新显卡玩玩游戏,然后静静的审视一下过去一年中所发生的一切了呢。
2012年也是一个奇特的年份,无论AMD还是NVIDIA都将精力集中在了新图形架构以及新技术的开发上,不遗余力的用一个又一个的新技术来强化自己的产品,这种数年未见的双方同时努力精进的态势给人满满的希望。整个业界都在注视着这一年的显卡市场,渴望看到经由激烈技术对抗碰撞出来的灿烂火花以及期盼许久的市场复苏。但最终,大多数人都失望地发现,碰撞、火花以及复苏都没有如约而至,整个2012年完全可以用一边倒来定义……
无论结局是否出人意料或者难以理解,任何结果都有其出现的原因。很多人都无法理解为何同样努力,同样在技术层面不断地推陈出新,AMD和NVIDIA在这一年里却收获了不同的结局。有介于这一令人产生“这不科学”想法的现状,从今天开始,我们将以三期连续文章的篇幅,对2012年度AMD和NVIDIA在技术、架构以及发展路线上的表现进行一次全方位的总结。我们会回顾2012年到来的各项全新GPU技术,并将这些技术的碎片重新拼接成一整完整的架构地图,再通过这张地图的指引找到我们要寻求的答案。
接下来,就让我们一起进入回顾的第一部分,来看看2012年的显卡界究竟有哪些值得我们记住的新技术出现吧。
2运算就是图形—Compute Unit
● 运算就是图形—Compute Unit
Tahiti构架中ALU集群部分的改进,是我们在2012年AN新架构中看到的第一项全新技术应用。与传统AMD构架的VLIW结构ALU团簇不同,Tahiti构架的ALU集群撤消了来自超长字节指令的限定,所有ALU全部以SIMD的形式来完成吞吐,不再需要VLIW过程。
在Tahiti构架中,ALU团簇的名称从VLIW SIMD变成了Compute Unit,名称的改变不仅标志着功能及用途的变迁,更暗示了内部结构的方向性变化。Tahiti拥有32个CU单元,CU内部包含4组SIMD CORE,每组SIMD CORE由16个标准Vector ALU构成,所以Tahiti的一个CU单元拥有64个Vector ALU,32个CU单元合计拥有2048个Vector ALU。
Tahiti构架CU结构细节
除了负责浮点吞吐的SIMD CORE之外,Tahiti构架的每个CU单元还拥有在一个Scalar Unit,Scalar单元中包含Int ALU单元,可以用来处理整数指令以及特殊函数。另外,对线程效率至关重要的原子操作(Atomic)也在该单元中执行。在结构上,CU单元已经同Fermi的SM以及Larrabee的Vector Core趋于接近了。
运算单元之外,Tahiti构架的每个CU还绑定了由Branch和Scheduler构成的二级线程控制机制,以及一个完整的Texture Array,Texture Arroy的作用与传统AMD构架中的TMU基本相同,包含了完整的Texture Fetch Load/Store Unit以及Texture Filter Unit。
CU进行wavefront吞吐示意
一个Vector Unit就是一个独立的处理单元,能够面对一个标准的指令集群或者说线程块,也就是AMD的wavefront以及NVIDIA的warp。Tahiti的CU能够在一个周期内处理一个64线程的wavefront,这与Fermi一个周期处理一个32线程的warp是相同的,但AMD目前上不存在类似half warp的线程块子划分机制。
Tahiti支持WinZip最新版带来的Open CL加速
抛弃单纯强调吞吐的基于VLIW机制的多ALU绑定结构,转而以更加灵活的1D Vector ALU的举动对AMD的意义是巨大的,更新之后的CU单元在计算能力和效率方面有了长足的进步,它令Compute Shader处理能力大幅提升,进而提升了GPU在DirectX 11环境下的图形性能,而且在通用计算领域也获得了更加广阔的前景和更多样化的发展可能。CU的出现,标志着AMD在逻辑结构设计以及GPU架构发展方向上终于从R600开始的漫长“歧途”中回到了正轨。
3收获成熟——SMX
● 收获成熟——SMX
SM是NVIDIA GPU的ALU团簇基本单元,而这一单元在NVIDIA开普勒时代的首款架构GK104中的改进可谓翻天覆地,NVIDIA采用的全新的SMX单元彻底改变了传统的SM单元的内涵。
SMX单元与Fermi的SM单元在逻辑结构上十分近似,都拥有完整的几何前端,线程仲裁机制,ALU团簇,Texture Array以及unified cache/shared和Register。除了没有后端之外,可以说一个SM/SMX单元在结构上已经趋近等同于一颗标准GPU了。
与SM单元相比,SMX单元急剧放大了ALU团簇的整体规模,其ALU总量从过去的32个增加到了192个。与此同时,SMX单元的线程仲裁管理机制也得到了放大。负责线程分派和发放管理的Warp Scheduler从过去的两个增加到了4个,与之对应的Dispatch Unit从过去的2个增加到了8个,Warp Scheduler与Dispatch Unit的比例提升到了1:2,这些举措可以有效的改善单元规模增大带来的线程分派及管理压力。
在放大ALU团簇以及线程仲裁机制的同时,NVIDIA还进一步放大了与ALU团簇对应的Register。GK104中每个SMX的Register较之Fermi的SM放大了一倍,达到了65536X32bit的规模。
从SM到SMX的改进,主旨在于削减硬件管理机制与ALU的比例,开始尝试将控制管理工作交由性能功耗比更高的组件来完成,它标志着NVIDIA在长达8年的逻辑结构发展路线上进入了全新的阶段。它对从G80到GF100的诸多努力进行了收获和总结,并为NVIDIA后续的架构打开了大门。
4性能功耗比的意义——GPU Boost
我们在2012年中见到的最具颠覆性的新技术,来自NVIDIA在GK104中引入的GPU Boost动态频率管理机制,它的出现彻底改变了人们对于性能、功耗以及显卡使用方式的传统定义。
GPU Boost技术的核心内容,在于通过遍布全卡的数十个传感器实时收集数据,并根据这些数据掌握整卡的即时功耗状况,然后根据当前功耗与设计TDP之前的差距,动态的调节GPU的运行频率,使其能够运行在更高的频率之上,以达到随时随地自动获取最大性能的目的。
每一款不同的游戏程序/应用因为各自不同的编程特点,在实际运行中会令构架反映出不同的负载或者说GPU使用情况,这种GPU负载的不同,归根结底是GPU构架的单元复用率以及程序对硬件不同组元使用率差异造成的欠载所导致的。这些无法避免的欠载,会让GPU在绝大多数场合都不会运行在设计功耗数值之上。欠载以及未能让GPU运行在既定满载功耗这一现象本身,实际上就是GPU内部单元复用率不足的外在表现。
当构架设计完成之后,构架的诸如单元复用率之类的特性也就随之凝固,游戏程序及应用程序在编写完成之后也要面临对不同构架使用情况发生凝固的情况。既然我们无法改变构架的单元复用率,也无法适时修改程序对单元的使用情况,同时两者的矛盾已经已经被体现在了实际运行功耗与设计功耗之间的差异上,那么增大整个构架的运行频率,善加利用实际功耗与设计功耗之间的差值空间来获得更高的总执行能力,就成了提升性能以及解决单元复用率不足矛盾的最好办法了。
GPU Boost技术所进行的动作,实际上是建立在性能与功耗平衡的基础之上的。当前频率下单元复用率不足会带来实际功耗与设计功耗之间的差异,可以被等效成频率的提升额度。所以GPU Boost可以以TDP为终点,根据游戏中瞬时单元复用率决定的欠载情况决定GPU的实时运行频率,让GPU能够在功耗一直维持在设计水平的前提下,实时的获得最强的游戏性能。
与此同时,GPU Boost对于频率的控制还具有反向性。当玩家们觉得当前的游戏帧数远远大于自己的需求时,也可以通过对帧数的限定来让GPU Boost达到节能的目的。因为构架的单元复用率凝固且时时刻监控,较低的帧数需求也就意味着较低的频率,因此GPU Boost可以根据玩家限定的低于最大构架性能的帧数来实时下调GPU的运行频率,并达到节能以及换取更佳功耗表现的目的。
我们必须强调的一点——GPU Boost并不是单纯意义上的超频。传统意义上的超频是频率动作的终点,一旦超频完成,GPU频率将不会再根据任何情况发生变动。而GPU Boost对频率的调节是建立在实时真实功耗与TDP差值的基础之上的,它既可以让GPU充分利用功耗差值空间来运行在比超频频率更高的频率之上,又可以通过限定帧数/性能需求来让GPU运行在更低的频率水平上。因此GPU Boost技术出现之后的超频,变成了频率控制的起点。
GPU Boost定帧节能动作记录
利用功耗空间动态调节频率来解决GPU内部单元复用率不足的矛盾,同时还可以反向的利用限定性能上限的方式来换取更好的功耗发热表现,这些特性让GPU Boost成了目前为止我们所见过的最具想象力,同时也是最直接的综合性能/功耗管理手段。相信在未来的日子里,我们将会见到更多类似的通过外部努力来解决GPU单元复用率不足矛盾的方案出现。
有介于其重要意义,我们针对GPU Boost的两方面特性表现进行了深入的测试和探讨,您可以在下面的连接中看到他们。
5实用就是好技术——AMD Boost
● 实用就是好技术——AMD Boost
与GPU Boost相比,AMD Boost出现的有些仓促,在功能性和意义上也略显单薄,但它依旧起到了控制产品功耗的积极作用,这对于饱受D线压迫之苦的Tahiti来说,无疑是一项非常重要的技术进步。
作为最主要的改进,AMD在HD 7970 GHz Edition中同样引入了名为“Boost”的GPU频率动态调节机制,但与NVIDIA的GPU Boost不同,AMD Boost的作用并不是提升显卡性能,它的作用是通过降频来保护GPU的运行安全,或者尽可能的保护由高频带来的性能提升。
AMD版本的Boost技术实际上是一个高负载保护机制
AMD Boost功能基于改进型的Power Tuner,AMD在HD 7970的BIOS中加入了新的一档P-State(运行频率段位通称,并非官方命名),该档P-State对应HD 7970 GHz Edition的默认运行频率1050MHz以及默认运行电压1.256V,在此基础上还细分了1000MHz及以下频率的P-State段位,加入了更为丰富和细腻的电压设置。
AMD Boost动作期间GPU实时频率及GPU占有率状况
在正常状态下,运行大多数游戏应用以及测试程序所产生的负载允许该卡维持这一档P-State。当某些特定的游戏以及测试程序,比如Furmark导致HD 7970 GHz Edition的运行功耗超过设计安全上限时,Boost功能会通过Power Tuner实时的将显卡的默认运行频率从最高的1050MHz直接拉回1000MHz,同时将电压拉回至1.1V附近的范围动态调节。
GeForce GTX 680的默认运行频率为1006MHz,大多数游戏应用的负载都无法让该频率运行的GeForce GTX 680达到功耗的设计上限,因此GPU Boost功能会动态抬升GPU运行电压以及频率并提升性能,一旦GeForce GTX 680的运行功耗达到设计上限,GPU Boost将停止抬升动作。而AMD Boost则刚好相反,在游戏或者应用让HD 7970 GHz Edition的负载达到设计安全值之前,它并不会进行任何动作,一旦HD 7970 GHz Edition的运行功耗达到安全阈值,AMD Boost将会介入并完成强制降低GPU占有率、降频以及降压等一系列动作,透过限制性能的方式来完成对显卡的高负载保护。这样的动作特征,与GPU Boost在面对性能过剩并进行定帧节能时的做法是非常相似的。
简单来说,AMD Boost技术的目的和结果是在必要时通过降低性能来保证显卡处于安全范围内,它会在显卡不安全时实时动作,而显卡安全时它并不会介入运行过程,虽然略显粗犷和原始,还无法像GPU Boost那样在功耗和性能两端自由充分且更加开放的游走,但它确实可以起到控制峰值功耗并尽可能保护高频性能的作用。
6更深度的沉睡——Zero Core
● 更深度的沉睡——Zero Core
对承受着D线压迫的Tahiti来说,尽一切可能的降低能耗是非常重要的,在这种需求背景下,Zero Core诞生了。在新的Zero Core技术中,AMD引入了更加敏感的功耗调节点,能够更加细密的实时监控显卡的运行状态,同时让其更加积极地向更低功耗的频率去转移。
另外,AMD还引入了全新的“黑屏”模式,当电脑处于节能待机状态且屏幕进入无输出的节能状态时,HD7970会关闭绝大部分卡上功能单元,通过这一类似关闭显卡的动作,HD7970的最低待机功耗将小于3W。
在多卡互联领域,Zero Core同样提供了更加丰富的功耗管理机制。当用户处于2D桌面待机状态时,Zero Core允许主卡(输出卡)以外的所有CrossFireX成员卡全部达到风扇停转的深度休眠状态。当3D负载到来时,功耗管理机制会及时唤醒深度休眠的显卡,让其能够投入渲染工作中。
Zero Core对于单卡常规桌面应用意义不大,但却可以在许多常见但又相对特殊的场合发挥明显的作用,比如说挂机下载以及长时间无输出需求的待机。对于多卡互联的用户来说,Zero Core让副卡在桌面环境下进入深度休眠的做法则可以起到更明显的节能功效。
7节能抗裂——Adaptive VSync
● 节能抗裂——Adaptive VSync
Adaptive VSync是NVIDIA在GTX680中引入的另一个重要新功能。它不仅改变了传统垂直同步分段式的帧数管理模式,用更加平滑的帧数曲线来最大限度的避免画面撕裂的情况发生,还带来了比传统垂直同步更优秀的功耗平顺度和节能特性。
在传统的垂直同步设定中,帧数一般会被机械的划分成30以及60帧两档,当游戏帧数大于60帧时,垂直同步程序会将帧数限定在60帧,而当游戏实际帧数跌落到60帧以内时,垂直同步会将帧数限定成30帧。巨大的帧数落差不仅会给玩家们的游戏过程带来明显的顿挫感,同时还会导致画面撕裂等问题的出现,这不仅影响了游戏过程本身,更与垂直同步技术本身消除画面撕裂的初衷相悖。
在Adaptive VSync中,NVIDIA打破了传统垂直同步技术对帧数下限的限制,当游戏帧数低于60帧之后,Adaptive VSync将会尽量让帧数维持在当前水平,而不是像过去那样直接进入30帧档位。而当游戏帧数大于60帧时,传统的垂直同步机制依旧会发挥作用,游戏帧数依旧会如果去那样被限定在60帧上。
相比与传统的垂直同步,Adaptive VSync技术能够带来更加平滑的帧数体验,避免帧数突然暴跌带来的最小帧问题。在此基础上,Adaptive VSync并没有干扰帧数大于60时垂直同步机制的正常工作,因此从深层意义上来讲,Adaptive VSync才是真正实现垂直同步初衷的帧数控制机制。
8视频领域的“异构架构”——VCE
● 视频领域的“异构架构”——VCE
显卡的功用不光只有运算和图形而已,对于视频的处理同样是显示应用的一个重要的组成部分。所以在回顾各种提升运算/图形效率以及降低能耗的显卡技术之后,接下来我们要面对的将是在2012年出现的一系列与视频处理相关的新技术。
VCE技术是AMD在Tahiti构架中引入的另一个重要改进,相较于UVD3.0的原地踏步,VCE技术的出现可以说是Tahiti构架在视频相关方面最引人注目的亮点。
VCE功能细节
VCE技术从本质上来说是一组专门负责编码操作的硬件电路,该单元在操作方式上类似Intel Quick Sync Video高速视频编码处理电路,都是通过固定单元来高速完成视频编码过程的Preprossing以及Encode过程,这也是整个视屏编码过程中最为消耗系统运算能力的部分。以专门的电路来完成类似的操作不仅能够提升处理速度,同时还可以大幅降低处理过程所带来的功耗压力。
VCE单元Full模式
VCE与Quick Sync Video最大的不同,同时也是VCE意义最重大的设计,来自它的异构式处理结构。VCE对视频编码的操作分为两种模式,在Full Mode下,VCE会以自身的硬件单元来完成Preprossing以及Encode的全部过程。而Hybird Mode下,VCE单元会调用Tahiti构架丰富的ALU资源来更高速的完成Preprossing过程,以VCE自身的硬件单元来完成Encode过程。在性能最理想的状态下,VCE可以实现1080P分辨率视频的60帧速率实时编码。
VCE单元Hybird模式
VCE技术的意义是巨大的,除了在GPU单元中第一次引入了低功耗的专用高速视频编码处理电路之外,VCE上还体现了AMD多年来一直强调的异构计算操作结构的思想。Fusion的精髓便是异构处理和并行加速,这种整体思路正在逐步融入AMD的每一个产品线甚至每一个适合的产品中。
9殊途同归——NVENC
● 殊途同归——NVENC
AMD引入了针对视频的硬件编码处理单元VCE,而Intel早在Sandy Bridge中就已经引入了类似的电路。为了避免自己被甩在后头,Kepler中同样加入了类似的针对性解决机制——NVENC。
能够提供了一组专门的逻辑电路设计,它可以大大加快包括H.264在内的多种高清视频格式的编码和转码速度。按照NVIDIA提供的数据,NVENC可以4~8倍于“real-time”的编码速度,如果以24帧的播放速率作为real-time的标准,则NVENC可以实现远大于60帧的高清视频实时编码过程。
MediaEspresso软件界面
除了提供更快的编码及转码速度之外,NVENC还提供了更好的性能瓦特比。它可以以十分之一的功耗实现与软件编码过程相同的性能,这从侧面进一步契合和呼应了Kepler构架着重强调性能瓦特比的特点。
10更自由的宽域——Eyefinity 2.0
● 自由的宽域——Eyefinity 2.0
民用低成本多屏拼接的Eyefinity技术一直是AMD的长处。在2012年中,AMD将Eyefinity技术升级到了2.0版本,新的Eyefinity宽域技术为我们带来了更多富有特色的输出方案和视觉体验。
在Eyefinity 2.0技术中,AMD首次将多屏输出技术和HD3D立体技术结合在了一起,HD7970的用户仅需使用一块显卡便可以在多屏系统上同时体验立体游戏和电影。NVIDIA在SLI系统中虽然早就实现了3D Vision,但始终需要至少两块显卡才能完成输出工作。
新的Eyefinity 2.0率先采用了DisplayPort 1.2认证接口和HDMI 1.4a规范,在传输带宽和速度上能够通过更高的速度,为多屏3D应用提供更好的条件。AMD提供的HD3D技术是开放的,这让更多的厂商能够参与到AMD的HD3D立体显示技术当中,AMD单卡通过DisplayPort 3D显示器可以单卡实现三屏Stereo 3D效果。
Eyefinity2.0最重大的更新来自分辨率的多样化及组建屏幕要求的降低,Eyefinity1.0至少需要3台分辨率一致的显示器才能组建多屏输出,这要求很多用户采购新显示器,组建成本并不低。而在Eyefinity2.0中,AMD允许不同尺寸显示器组成一套Eyefinity多屏显示系统,这进一步降低了多屏输出的成本。但受限于现在的游戏输出技术,Eyefinity2.0在多个不同尺寸显示器组合的方案中还存在部分场景及物体显示不全等问题,相信随着技术的不断进步,这些问题终将得到解决。
音频输出能力的改进也是Eyefinity2.0的革新之一,Eyefinity2.0支持独立数字多点音频(Discrete Digital Multi-Point Audio),简称DDM Audio。Eyefinity1.0只能输出一路音频信号,而新版本则可以实现独立多路音频输出了,这样多屏看电影或者玩游戏时,每个屏幕都可以进行独立的音画输出。
11大家终于一样了——3D Vision Surround
● 大家终于一样了——3D Vision Surround
长期以来,NVIDIA对单卡多屏的支持一直都不是十分的积极。尽管这其中有传统构架的单芯显卡的确不具备多屏大分辨率流畅渲染的能力,即便具备多屏输出能力也无法用来顺畅地运行游戏,但其保守的做法并未得到所有用户的理解。
在Kepler架构中,NVIDIA终于兑现了自己的承诺——当单芯显卡在3840*1200甚至更高分辨率环境下具备流畅运行游戏的能力时,NVIDIA将会为玩家们提供对应的单卡三屏甚至以上级别的多屏输出支持和立体视觉解决方案。于是,Single Card 3D Vision Surround来了。
Single Card 3D Vision Surround可以实现单卡四屏输出
在GTX680中,NVIDIA提供了完整的DVI、HDMI1.4a以及DP1.2接口,提供了单卡3840X2160X60Hz的4K分辨率级显示器的支持,允许单块显卡同时输出4个显示器,其中包含3个3D Vision输出以及一个辅助显示输出。
Single Card 3D Vision Surround可以实现单卡三屏3D输出
单卡三屏以及单卡三屏3D输出的实现,让N卡玩家们终于获得了期盼已久的较低成本多屏输出解决方案。目前的Kepler架构不仅可以提供比过去更加全面的多屏输出选择,更可以以比过去低非常多的功耗来完成多屏输出和3D Vision多屏输出。
122012关键词——你有我就有?
很显然,2012年是属于“提升性能+降低功耗”的年份。无论是CU/SMX,GPU Boost/AMD Boost还是VCE/NVENC,甚至是单卡多屏相关的Eyefinity2.0/single card 3D Vision Surround,它们的作用和直接结果之一,都是以更低的能耗来实现更好的性能或者更多的效果。
无论怎样革新,任何技术都必须具备明确的正确性以及充分的可用性才算具有实际意义。有介于此,我们并没有将TXAA,DX11.1,Bindless Tex以及PRT等或存在争议或在可见未来内无太大实际意义的技术纳入到年度技术回顾当中。
Kepler架构的Bindless Texture
对于AMD和NVIDIA来说,2012年对它们来说都是革新和相互借鉴渗透的一年。通过CU等一系列革新,AMD进行了架构发展层面的各项“纠偏”动作,同时通过VCE等技术进一步强化了自己在视频处理领域以及多屏输出领域的优势。而NVIDIA则通过Kepler对自己的整条架构发展路线进行了很好地总结和延伸,同时在视频处理以及多屏输出环节进行了补充和追赶。NVIDIA在逻辑效率层面表现卓越,AMD就改进了ALU团簇的结构以提升效率,NVIDIA拥有GPU Boost,AMD就推出AMD Boost;AMD在单卡多屏层面具有优势,NVIDIA就推出Single Card 3D Vision Surround,AMD有VCE,NVIDIA就拿出了NVENC。这种针对自己优势的强调以及对劣势的补充,让双方在这一年里呈现出了明显的“你中有我,我中有你”的态势。
未能被新技术拯救的HD7970 GHz Edition
从单一技术或者特定应用层面来讲,双方在2012年的各个技术革新都是具有积极意义且行之有效的。我们今天回顾的这些技术都能非常实际的为用户们带来好处,同时可以明确的贯穿在用户对显卡的整个使用环节中。但就整体产品表现而言,AMD与NVIDIA在2012年度的表现却并不都是向好的。
一款显卡架构,本质上就是各项先进技术的综合和应用,那为什么“具有积极意义且行之有效”的各项技术,被揉捏在一起形成GCN以及Kepler这两个系列架构之后却具备了完全不同的两种表现呢?GCN以及Kepler这两个出现在2012年的全新显示架构体系,又分别具有怎样的特性呢?在下周的《显示世界的2012中篇》中,我们将会为大家进一步解读GCN体系的Tahiti/Pitcairn/Cape Veder架构以及Kepler体系的GK10X架构的特点回顾,并进一步为您带来上书这些问题的答案,敬请期待吧。
AMD和NVIDIA,在2012年都做了什么?尤其是在产品技术上为我们带来了什么?本文作者秉承一贯的严谨技术风,为大家盘点属于图形世界技术的那点事……
推荐经销商