1技术革新催生的复苏之风
说老实话,这篇业界回顾是我们制作过的最为“灰暗”的文章。当行文至此的时候,连我们自己都被压抑的气氛弄得有些喘不过气来了。用时下比较流行的话说,这篇文字基本上没怎么传递“正能量”。“灰暗”的一年临近尾声,已经没有什么可以改变2012年的过往种种了,于是我们最后的问题似乎也就变得清晰和紧迫起来了——明年呢?2013年是不是还是灰暗的呢?答案看上去有些模棱两可:也是,也不是。因为节奏性问题的影响会长期化,技术进步的不对称还将会延续下去,2013年注定困难重重,但同时却也蕴藏着不小的希望。
——《显示世界的2012终篇 显卡业界深度解析》
还记得去年年终时我们所制作的三期连载——《显示世界的2012》么?也许那曾经是您看过的最“沉重”的一篇文章,其实如果有可能的话,我们也想描述一个积极向上健康发展的显卡业界。还好,这样的机会并不是永远不会到来,而且现在就已经来了。
时间总是在不经意间飞快的流逝着,匆匆翻页的日历一转眼就又来到了12月这个意味着总结和展望的月份。回顾显卡业界在过去一年中的发展是我们的工作,而这一工作的起点来自我们去年回顾文章结尾所留下的一系列预期和期望。正是这些预期和期望的实现,让我们避免了再次面对沉重的尴尬。
按照我们去年的预期,尽管充满坎坷,但显卡业界在2013年仍旧可以通过技术革新来寻求复苏和增长,那么在过去的一年里,AMD和NVIDIA是否继续保持锐意进取的势头,在衰退的环境中继续努力推动技术和业界自身的进步呢?我们庆幸的发现,答案是正面且令人欣喜的。无论AMD还是NVIDIA,都在2013年做出了自己应有的努力和成绩,他们在技术层面的革新不仅卓有成效,同时还为各自打开了通往未来的大门。
好吧,那就让我们一起按照时间顺序,来重新梳理一下2013年度显卡业界关于技术的那些大事吧。
2个人/家庭云的起点——Shield
● 个人/家庭云的起点——Shield
整个2013年的显卡业界技术革新,其实是从老黄的一个“新玩具”开始的。2013年1月7日,NVIDIA在拉斯维加斯的CES2013上发布了其最新的“游戏设备”计划——Project Shield,并于8月正式发布了这一具备革命性的掌上游戏设备。
NVIDIA新游戏设备——Shield
Shield以架构而言并不复杂,它其实就是一个带有游戏手柄设备的“变形”的平板电脑。Shield运行在完全的安卓系统环境下,甚至可以直接运行现有的绝大部分安卓平台游戏及应用。其主体由可折叠屏幕系统、输入手柄、主板+SoC芯片以及电池系统构成,整个体系最核心的部分来自SoC部分,除了手柄的加入,其他部分与现行的安卓平台亦无差异。
Shield运行安卓游戏的画面表现以及打击手感均十分出色
但Shield并非仅仅是一台安卓平台掌机那么简单,较之传统掌机/安卓平台,Shield最大的变化在于引入了与PC的Stream无线互联模式。它可以通过WIFI同具有GeForce显卡的普通PC互联,通过直接使用PC本地的运算能力来运行PC上的游戏。此时的Project Shield不仅仅是一个移动的控制+呈现端,还可以再次充当中间层,将游戏的内容直接输出到外接的其他显示设备中去。通过PC,我们能直接用Shield运行全高特效的极品飞车17、Crysis2或者刺客信条3等等游戏大作,这是安卓平台连做梦都不敢梦到的场景。
Shield和PC都将彼此当做自身的延展,并构成了云的节点
Shield所带来的特有的游戏模式标志着云游戏模式又向前迈进了一步,传统的云计算概念更多地依旧停留在大数据层面,缺乏延伸让其距离个人节点应用显得太过遥远。Shield出现之后,我们可以在WIFI覆盖范围内的非PC设备上直接使用PC的运算能力,用户们有机会以一台PC为中心建立一个属于自己的包含运算端、中介/输入端以及呈现端的设备群,并以此为基础在一定的物理距离内脱离与PC的实际接触,直接在其他无线设备节点上处理各种各样的对运算能力的需求。这不仅仅意味着我们可以在马桶上享受质量更高的娱乐体验,更意味着对移动智能平台运算能力和续航能力的松绑。
以这样的技术作为全年的发端,2013年的显卡业界正式拉开了一系列创新的帷幕。接下来到来的新技术同样与云应用有关,那就是NVIDIA的局域云渲染集群——GRID。
3GRID——NVIDIA的"云"
● GRID——NVIDIA的"云"
跟Shield一样,GRID的基本结构也不算不复杂,我们不仅熟悉而且甚至可以说是经常见到。GRID的基本结构就是一个由刀片服务器构成的机架,从单纯意义来讲它甚至可以说毫无新意可言。但当我们触及到GRID的细节之后,GRID就显得不那么“普通”了。
GRID的核心构筑在全新的硬件虚拟化技术——NVIDIA VGX Hypervisor 之上,与传统的刀片服务器不同,GRID的单运算节点由非CPU部分所组成。在每个节点也就是我们通俗理解的每个GRID的“刀片”内,NVIDIA都配置了用于直接处理任务的Tesla K10加速卡,或者我们可以干脆认为每一个节点内都被塞入了开放全部特性的GeForce GTX 690。之所以说是“开放了全部特性的GTX690”,是因为每个Tesla K10都可以以虚拟化硬件的形式同时处理8个并行的渲染任务请求,这让每一个节点都拥有了能够同时面对复数用户节点任务需求的能力。
无论更小的VGX还是Tesla K10,由它们构成的GRID都具有统一的特点,那就是以NVIDIA VGX Hypervisor 来完成GPU节点的硬件共享,以此直接面向游戏渲染任务请求提供处理能力,这同时也是GRID区别于普通服务器的最大不同。
GRID的操作过程其实十分传统,节点(无论是智能手机还是平板,甚至可以是一台连上GRID的PC)在产生游戏图形渲染需求之后,只需要将任务通过无线或者有线网络上传到GRID中,直接交给其中的Tesla K10或者VGX进行渲染,在完成后在将结果通过网络传回节点本地,本地所需要的处理仅仅是将结果解码然后完成输出即可。除了游戏渲染任务,GRID还能以同样的步骤应对其他各种渲染类任务的节点请求。
与现有的本地处理模式,即产生渲染需求之后本地CPU将任务交给本地GPU进行渲染然后输出的方式相比,GRID将渲染工作从本地搬到了云端,这一变化不仅让任务处理过程变得更具性能功耗比,同时还大幅解放了本地设备的运算能力和能源消耗情况。在GRID覆盖的范围内,本地节点设备只需要保有能够尽快完成解码和输出操作的运算能力即可,其能源消耗也仅限于解码运算以及呈现过程等方面。
根据NVIDIA公布的数据,常见的家用机完成一帧画面的渲染需要100ms左右的周期,输出延迟则在66ms左右,而由CPU编码图像的云计算解决方案则需要在此基础上加入30ms的编码延迟,75ms的网络传输延迟以及15ms的本地解码延迟,因此完成一帧画面总共需要286ms。与前两者相比,GRID方案中的Tesla K10可以将渲染时间缩短至50ms,而其内置的编码硬件也可以让编码时间缩短至10ms,另外,合作伙伴Gaikai的专利技术还可以让使得网络传输延迟降至30ms,由于直接面向渲染任务,节点本地获得的结果完成度更高,解码只需5ms,显示仍然为66ms,整个渲染及输出总延迟已与家用机平台基本相当了。
基本上,我们完全可以把GRID看作是一个被集约化的显卡集团。用户节点的任务并没有发生变化,处理任务所需要的总运算量亦没有发生变化,它们只是把任务的处理过程从传统的CPU-GPU-屏幕变成了本地节点-GRID-屏幕。显而易见的是,达成这样结果,用户不仅无需再架设强大的本地硬件,节点本地所需要消耗的能耗以及对性能的需求比本地处理要低太多太多了。
GRID的深层次意义同Shield一样,都是富有开创性同时能够对业界产生充分震动的。GRID不仅可以开创一种全新的云计算应用模式,即直接从云端完成的实时游戏图形渲染的“云游戏”模式,让Shield等个人移动节点设备获得更好的施展空间,甚至还可以改变传统PC平台中显卡的命运——GRID并不是一个局限于无线移动节点的上层应用环境,有线网络和PC节点同样可以连接到GRID上并完成任务的非本地处理工作,无论游戏还是图形渲染工业,GRID都将改变这些原本同显卡息息相关的领域的面貌。
NVIDIA能否驾驭包括GRID在内的庞大新生态?
GRID代表了NVIDIA的巨大野心,它的背后是一个衔接了掌机/移动智能平台、传统PC硬件、通用计算体系以及软件体系的庞大网络,NVIDIA现在可以通过自身的GPU产品线、通用计算产品线以及SoC芯片来打造一套完全属于自己而且可以在体系内部形成彼此促进关系的生态系统。除此之外,GRID还将触角伸向了传统芯片供应商很少触及的网络底层,如果仅维持在局域有限网络接入,而非更广域的无线互联网/广域有线网络接入,GRID的命运将同“没有PC的Shield”一样。所以可以想见,NVIDIA在不久的将来应该会开始向网络运营商层面的渗透,将GRID作为更广域的云计算结局方案进行推广。这种介入并不一定能确定获得成功,但肯定会给NVIDIA的未来带来更多的机会和更多样化的可能性。
4GPU效率再提升——Dynamic Parallelism
2013年首先到来的前两个技术革新均与云计算有关,那么对于个人节点上的GPU来说,进步会因为未来的云计算图景而放缓么?显然不会。GPU目前是,将来相当长一段时间内也将依旧是PC娱乐及显示呈现手段的首选和基础,所以在GPU端出现的技术进步仍将是我们所关注的焦点。2013年第一个到来的同时也是最精彩的新GPU技术,来自GK110架构的Dynamic Parallelism,亦即动态分支。
在GK110架构中,NVIDIA在传统的二级仲裁机制CWD(CUDA Work Distributor,CUDA分配器)之外加入了全新的GMU(Grid Management Unit,Grid管理单元),GMU可以对CWD收到的Grid进行启停管理、回收、判断、挂起以及重排序等操作,令其以更加灵活的方式在必要时进入执行单元,这避免了Grid像过去那样以缺乏排序的顺序模式被送入SM,而且一旦进入SM之后就只能等到全部执行结束才能出来。
Dynamic Parallelism特性
GMU的引入为动态片上创建Kernel提供了条件,所以NVIDIA在GK110中引入了全新的Dynamic Parallelism(动态并行)特性,该特性允许GPU根据需要直接对Grid的结果进行判断并在本地创建新的Kernel,这与传统的Kernel执行完毕之后由CPU进行回收判断并创建新的Kernel再行发放有了很大的不同。
Dynamic Parallelism带来的变化(传统模式 VS 动态并行)
Dynamic Parallelism减少了GPU同CPU之间的通讯需求,减轻了与CPU频繁通讯所带来的等待周期产生的延迟影响,提升了GPU内部的Kernel密度和执行连贯度,对于低负载高密集任务中单元复用率改善有不小的帮助。它与已经先期在GK104及其后的所有Kepler架构中出现的新Scheduling过程一起为我们带来了Kepler区别于以往架构的最大特点,那就是“送出去,请进来”。
Kepler构架与Fermi构架执行Scheduling过程的差异
通常来讲,可重复性较低且需要运算过程的判断性工作并不适合固定单元来执行,更加灵活的具有可编程性的通用运算单元来完成这类工作会比较得心应手。而那些具有较高可重复性,过程相对固定且基本具备可预期性的控制类工作,则更加适合具有特定针对性功能的电路来完成。如果我们以可编程的通用处理单元来完成判断性工作,让控制工作更多地被特定功能电路所执行,就可以达到最高效率的利用不同单元,以最低的能耗来完成最多工作的目的。
但是很遗憾,Kepler之前的GPU并没有这样的获得最高性能功耗比的幸运。传统结构的GPU会在芯片本地以固定电路自行处理绝大部分具有判断性特征的Scheduling过程,而Kernel的启停和发放则完全依赖CPU,这实际上等于是通过通用处理单元来完成本该由更高效的特定功能电路或者说专用单元来完成的工作。这种让专用电路干通用电路的事,让通用处理器做专用单元的事的局面,与性能功耗比的诉求完全是相反的。
Pre-Scheduling过程变化(图片修改自后藤弘茂先生博客)
在Kepler中,NVIDIA实际上完成了一个“送出去,请进来”的过程——把一部分Scheduling过程从本地“送出去”,也就是转移到了CPU中以运算的形式来完成,同时通过引入GMU单元以及添加Dynamic Parallelism特性来降低CPU控制对任务的介入和影响,将原本由CPU遂行的控制工作更多地“请进来”,亦即移动到本地的GMU完成。这种执行位置和执行对象的互换扭转了过去“满拧”的局面,将适合通用处理单元的工作从GPU中拿出来交给了通用处理单元,也将不适合通用处理单元完成的工作交还给了GPU中的固定单元来完成,从而达到了各种单元均可以以更合适的功耗完成更多工作的目的。
Dynamic Parallelism的片上Kernel创建特性减小了CPU对控制的介入
关于将Scheduling移交给通用处理器完成的目的和意义,我们在过去的一年里已经进行了详尽的分析和解读,这是一个与NVIDIA未来架构发展息息相关的系列过程,我们在这里不再赘述,有兴趣的朋友可以点击这里阅读。而与之相对应的,引入Dynamic Parallelism带来了更多显而易见的好处,无论是计算任务还是图形处理任务,Kernel现在都无需亦步亦趋的频繁与CPU进行交换,GPU本地的任务密度将会得到进一步的提升,在此基础上,Hyper-Q的出现让更多的CPU线程可以向GPU发送Kernel,这进一步减少了GPU等待前端发放任务的周期并提高了任务密度。两者的共同作用导致了必然的结局——GK110架构的单元任务密度将进一步提升,单元复用率也将会因此而获益,这对于GPU的图形执行效率和运算执行效率是同样有益的。
5动态的平衡——GPU Boost2.0
● 动态的平衡——GPU Boost2.0
执行效率并不是唯一值得关注的GPU技术进步方向,在效率和功耗之间达成动态可调的平衡对于用户而言跟提升效率一样意义重大,而属于性能功耗平衡调节层面的2013年技术进步,则归于GPU Boost2.0所有。 GPU Boost可以动态收集游戏及应用中显卡的负载,并将将实际负载同设计功耗上限之间的差值转化成实时频率的提升,同时还能根据用户自定义的游戏帧数上限来判断性能需求,进而将多余的性能以降频的形式予以消去。但是最初版本的GPU Boost仅止于此,或者说仅能依据性能以及功耗情况对显卡的频率进行动态调节,并没有考虑其他影响使用感受的因素。如果想要更好的控制显卡,让其能够更加人性化的在性能和使用感受之间更加细腻的游走,GPU Boost显然还需要更多改进。
GPU Boost 2.0
伴随着Titan的发布,NVIDIA将GPU Boost从1.0升级到了全新的2.0版本,新版本GPU Boost在1.0的基础上支持了以下新特性: 更细腻和敏感的频率调节段位。 温度监控出现在控制要素中。 更加集中于“常规使用温度区间”的性能调节区间。 拥有更大的电压调节上限。 支持全新的电压上限/温度联动调节功能,GPU温度越低,可用的电压上限就越高。 支持温度目标值设定及对应的自动调节频率功能。 更多可调节选项。 显示器刷新率调节功能。
GPU Boost 2.0比1.0版本更加敏感,可以更加积极的完成功耗和性能之间的互换,其调节模式也发生了变化,监控机制对GPU频率的调节判断机制将不仅限于功耗数值,温度因素现在也已经被纳入到了判断机制当中。在GPU Boost 2.0默认控制下,Titan将会在更多的时间里处于80度附近这样一个小范围的温度区间中,而且GPU的工作温度通常不会超过80度,在未达到该温度之前,GPU会尽量提升频率来获取性能,当GPU达到80度之后,GPU会自动调节频率已是当前温度维持在80度附近。 与GPU Boost 1.0一样,在自动调节之外,玩家现在还可以在通过限定自定义帧数上限来达到节能降耗的目的之外,进一步通过设定任意的自定义温度上限来达到相同的目的。
除了加入温度要素,GPU Boost 2.0还开放了电压控制的上限,玩家在进行超频时可以拥有更大的电压可调空间。另外,电压上限还可以与温度因素进行联动,如果玩家有能力改造散热并达到更低的使用温度,那么在GPU Boost 2.0中将可以获得比常规散热更多地电压上限空间。
至此,GPU Boost 2.0已经从过去的单纯性能约束变成了现在的三重要素约束,即作为最先决条件的温度约束要素,后续的电压约束要素以及原有的性能约束要素。新机制的作用不仅取得了性能和功耗的平衡,同时还进一步实现了显卡使用感受与性能的动态平衡管理。
6不仅只是硬件——GFE
● 不仅只是硬件——GFE
GeForce Experience是NVIDIA于2013年年中推出的云游戏优化程序,它可以将用户的电脑连接到NVIDIA云数据中心,根据用户电脑中的CPU、GPU和显示器配置来下载最佳的游戏设置。最佳设置可以让用户在保持高性能的同时还能实现最佳的图像质量,从而获得最佳体验。内置的互动屏幕截图查看程序可以帮助用户详细了解每一项设置及其优点。
GeForce Experience具有完整的驱动及应用程序管理机制,可以自动通知用户NVIDIA发布的最新的驱动程序版本。用户无需离开桌面,只需简单单击一下鼠标就可以直接完成驱动程序的更新。它可以根据用户电脑中的游戏,适时选择合适的驱动程序供用户下载,为用户带来最佳游戏体验。
Crysis3全特效画质
GeForce Experience的原理其实很简单,它会根据硬件实际情况对游戏设置进行了适当的调整,降低了AA等级、远景、几何外观设置以及一部分着色设置,但保留了对视觉感受非常重要的后处理以及材质质量设置。经过GeForce Experience的调节,性能相对较低的显卡及平台可以通过放弃一部分消耗极高资源但仅能带来较低视觉变化感受的特效,比如远景特效和几何模型精度等,同时保留视野焦点集中区域内的绝大部分视觉特征的方式,来达成保留大部分游戏视觉体验的同时尽可能提高游戏帧数的目的。
GeForce Experience优化后的Crysis3画质
经过GeForce Experience优化,我们不仅得到了流畅的帧数体验,拥有了用相对廉价的硬件在最顶级游戏当中畅游的乐趣,同时并没有牺牲过多的视觉体验,而且只需要一次鼠标点击即可完成,完全不用多余的设置或者去关心特效的内容以及它们与性能之间的关系。轻松的享受游戏,将游戏之外的一切事都交给NVIDIA去处理,我们觉得这应该就是GeForce Experience最大的意义和贡献。
7对“传统”的宣战——G-SYNC
● 对“传统”的宣战——G-SYNC
说来多少有些尴尬,我们曾经制作过大量关于最新图形技术进展的解析和测试,也曾经以令人眼花缭乱的特效进展为大家勾勒过各种关于未来视觉世界的美好前景,但我们不得不承认一点——即便视觉特效技术已经进步到了一个几年前完全无法想象的高度,但PC游戏中最基本的两大问题,也就是画面撕裂和视觉卡顿现象,却至今仍未得到解决。 在2013年的年末,NVIDIA决定解决这一困扰游戏体验的基本问题了。
G-SYNC技术
2013年10月18日,NVIDIA editor's day第二天,NVIDIA在加拿大蒙特利尔正式发布了全新的针对画面连贯性的新技术——G-SYNC。作为垂直同步技术的替代以及自适应垂直同步技术的延伸,G-SYNC技术不仅解决了画面撕裂问题,同时从根本上解决了困扰垂直同步技术许久的画面视觉卡顿问题。
在我们正在使用的传统的垂直同步过程当中,GPU处理某帧画面的延迟如果长于显示器的刷新间隔,V-SYNC的会将错过同步帧节奏之后的画面被丢弃,所以当FPS低于60帧时,即便实时帧数高于视觉流畅需求,V-SYNC会因为帧丢弃问题而带来明显的视觉卡顿现象。而如果放弃垂直同步过程,画面又会因为输出帧间隔与显示器刷新过程的不同步而产生撕裂现象。所以在常规的垂直同步过程中,除非GPU的性能远远高于并且一直高于60FPS的需求,否则我们所看到的画面将不可避免的在卡顿或者撕裂之间二选一。 想要从本质上改变这种现状,很有希望的方式之一在于改变传统的垂直同步机制。如果能够将显示器的刷新同GPU outbuffer中的帧延迟进行同步,最终达到GPU与显示器的完全同步。在新的同步机制下,画面撕裂问题和帧抛弃所导致的卡顿问题都会因为显示器与GPU的同步动作而得到解决。这种新的同步机制,就是G-SYNC技术的核心组成部分。
G-SYNC技术在显示器中内置一枚可与GeForce硬件直接通讯的芯片,这枚自带缓存的芯片可以协调显示器与GPU outputbuffer之间的数据同步。通过G-SYNC芯片的控制,显示器的刷新延迟将可以与GPU帧输出延迟保持完全一致,支持G-SYNC技术的显示器会根据GPU当前的性能水平自动调节刷新率,在G-SYNC芯片侦测到GPU的帧输出延迟大于16ms时,它便会自动延长显示器的刷新延迟,避免传统的帧丢弃问题所导致的视觉卡顿现象。
NVIDIA在editor's day现场演示了G-SYNC技术与V-SYNC的对比demo,demo过程显示G-SYNC技术确实消除了FPS低于60之后开启垂直同步所导致的卡顿现象。与此同时,NVIDIA还邀请了著名的doom/quake之父john carmark来到现场,carmark表示了对G-SYNC技术及其作用的赞赏和充分肯定。
G-SYNC对于游戏画面体验的改善是革命性的。它进一步延展并最终达到了自适应垂直同步所要达到的目的,最终实现了真正意义上的画面连贯性和完整性。G-SYNC的改进不仅提升了游戏过程中的视觉体验,而且也让GPU的性能变得更加有意义了。
8并行度——AMD表演的开始
● 并行度——AMD表演的开始
以10月为分界线,2013年前部的GPU技术进步几乎全部由NVIDIA斩获,而10月之后的年尾则明显进入了AMD的主场。作为最亮点,Hawaii架构的出现以及整体改进不仅让我们在两年之后再次看到了来自AMD的技术进步,同时也在年尾为GPU业界的2013年度涂上了一抹亮色。
Hawaii架构显卡——Radeon R9-290X
作为GCN架构的改良版本,经过18个月沉淀的Hawaii在诸多方面进行了修改,并行度的提升便是其中之一。宏观并行结构本身并不会给GPU带来通常意义上的直接可量化图形性能提升,但宏观并行度提升的副产品,也就是几何单元以及光栅化单元的增加,以及宏观并行度提升所带来的线程管理以及任务执行效率的增长,都将会给GPU的性能增长带来助益。
Hawaii拥有4 Shader Engines的宏观并行结构,单位周期内可以并行处理4个多边形,几何处理能力以及坐标变换等光栅化处理能力均为前代Tahiti架构的两倍。
Hawaii的另一大前端改进来自ACE单元,这与整个体系的并行度及并行执行能力息息相关。ACE全称Asynchronous Compute Engine,译为异步计算引擎。作为AMD GPU最前端的组成部分,它的实际作用其实与几何以及光栅化等图形过程并没有直接的联系。ACE位于整个GPU的最前端管理任务队列,它会将线程块规整的分发给后面的ALU团簇。ACE是所有GPU任务的起点,它的存在和表现直接关系到了GPU进行图形及通用计算任务是的效率表现。在Hawaii架构当中,ACE的总量较之Tahiti提升了4倍,达到了8组。
除此之外,Hawaii的ACE单元在功能性层面也有提升。新的ACE单元支持L2 cache及GDS的直接访问及管理工作,可同时管理总计64个任务队列(8x8 queues),支持独立并行的任务运作及调度,可以实现图形命令及任务的并行处理,这不仅有助于整个架构实现更为快速的上下文切换功能,同时进一步改善任务密度和单元复用情况。
Hawaii内部划分明确的子处理单元代表了AMD在宏观并行度层面对竞争对手的追赶,从结构角度而言,Shader Engine与GPC的差异已经不大。Hawaii架构的宏观并行度较之Cayman/Tahiti架构有了明显的提升,这是AMD GPU架构演进过程中里程碑式的一步,将会对未来的AMD图形架构乃至整个HSA通用计算架构的发展产生至关重要的影响。
9属于AMD的奇迹——新一代MC单元
● 属于AMD的奇迹——新一代MC单元
整个Hawaii架构中最重要的革新,甚至可以说是2013年度AMD在技术层面上最重要同时也是最漂亮的革新,来自Hawaii架构全新设计的显存控制器体系。这套新的显存控制器以更小的面积和资源实现了更大的理论位宽,大大增加了每平方毫米可用带宽数量。
Hawaii拥有8组64bit双通道显存控制器,其理论总位宽达到了512bit,在此基础上,AMD宣称该组显存控制器的“占地面积”相当小,比现行架构中的6x64bit方案还小20%,每平方毫米显存控制器单元的理论可用带宽由此增加了50%。
Hawaii架构的MC体系
常规来讲,由于互联以及控制单元的激增,维持延迟在可控范围内的高频512bit显存控制器通常会比384bit显存控制器多占用接近100%的资源总量(面积/晶体管),Hawaii这一显存控制器所占资源情况,意味着其所采用的单位逻辑结构方案较之现行方案减小了50%以上的规模。这不仅为GPU节约了大量宝贵的晶体管资源,同时也大幅削减了芯片的最终面积,尤其是面积的削减对于饱受D线压迫的AMD来说是极其珍贵的。
当然,显存控制器的改变看似脱胎换骨,实则并没有所谓的奇迹存在,新设计的显存控制器是一个更加倾向与理论而非实际吞吐性能的结构,尽管AMD没有公布更多细节,我们无从知晓新的显存控制器究竟是在互联还是其他层面进行了结构缩减,但我们可以肯定它并没有挑战现行的显存控制器设计基础,也没有采用本质上可以提升单位有效吞吐能力的新结构。但请注意,我们并不是为了要指摘这一结构设计的失当,相反,我们对Hawaii的显存控制器设计报以了极高的评价。
Hawaii架构的显存控制器是一个在较少的资源消耗和较低的有效性能当中求得平衡的设计,其中最值得注意的并非最终性能,而是AMD所进行的平衡。新结构的MC单元与其说是源自功能性和结构性的改变,倒不如说是AMD的GPU架构设计思路发生了重要变化,这一变化颇为关键,甚至可以说是一门艺术。
逻辑结构的设计实际上是一个资源使用的平衡与取舍的艺术,在有某种特定约束范围作为前提的情况下,如何正确的使用定量资源并将其划分成正确比例的部分,进而有针对性的解决不同的矛盾,是一个体系能够成功的基础。
通俗的说法,就那么多钱的话,怎么最有效率的花出去是关键。就那么多晶体管的话,怎么最有效率的将其用在最需要的地方是关键。就那么多芯片面积的话,从一切可能的地方挤出面积来给最需要面积的部分是关键。
以Hawaii架构以及当前的AMD而言,逻辑结构设计过程中最大的问题无疑在于D线和既有的寄存器负担的强烈压迫。受限于D线对芯片面积的约束,在DirectX 11时代缺乏大芯片设计制造经验的AMD不可能随心所欲的制造与竞争对手同等规模的“巨无霸”,甚至在挑战400平方毫米级别时,每向上一平方毫米所带来的功耗增长及可制造性下降都会让试探变得更加困难。与此同时,寄存器所导致的晶体管负担也束缚了希望释放运算资源规模的AMD的手脚。尽每一份可能瘦身并用更小的面积来实现更多的性能,显然是AMD现在最迫切同时也是最困难的任务。究竟要怎样做,才能达成这样的任务呢?
AMD选择了从显存控制器这一极其消耗资源的部件着手,以单位有效带宽更低但理论带宽更高,同时更加节省资源的方案替代当前有效带宽更高但更加消耗资源的方案。
细化到具体做法,就是先修改现有的显存控制器逻辑结构,尽最大可能的简化单位逻辑结构所需要消耗的晶体管和互联资源,然后获取由此结构简化导致的新增延迟以及有效带宽衰减情况,接着再通过添加同类单位逻辑结构总量进而提升总位宽的形式抵消这部分新增延迟以及有效带宽衰减所造成的影响,最终在总有效带宽不弱于当前GPU架构的前提下确定资源消耗最少的显存控制器总位宽规模,这就是Hawaii显存控制器的设计指导思想。
尽管Hawaii的显存控制器并没与表现出与正常规模显存控制器相当的实际性能,但我们显然并不排斥这样的设计,它体现了AMD在GPU设计思路上仍旧保有的成熟。以最小的代价获取最大的收益,或者说以最小的代价来尽可能的弥合体系内部其他矛盾所带来的影响并获取最大的收益,这是十分成熟的解决问题的思路。我们曾经认为AMD与ATI的合并、前CEO Ruiz的一系列屡破下限的愚蠢还有各种不利的其他因素,已经让原本属于AMD和ATI研发团队的核心灵魂随风而逝了,漂亮的解决问题的过程将越来越难以出现在AMD的逻辑结构设计过程当中,可是Hawaii又让我们看到了希望。
Hawaii以显存控制器单元为基点,在维持一定性能层级的前提下从其中“相对”节省了大量晶体管和芯片空间资源,并将其转化成了ROP/CU/ACE/Geometry乃至cache等等更为直接的性能提升资源,同时收窄了芯片面积并在所有的性能功耗组合方案当中找到了相对更理想的平衡,这种更有效的使用晶体管资源的抉择完全可以用“漂亮”来形容。在目前手中的可选牌为数不多的情况下,这是AMD能够打出的最出人意料同时也是最漂亮的一套组合。
这世界上没有设计错误的逻辑结构,只有设计是不是符合时宜的逻辑结构,能够在正确的被需要的时间出现,这种逻辑结构就是OK的。诚然,也许Hawaii这套新的显存控制器的实际性能并不能令所有人感到满意,也许把它放在别的GPU架构当中会导致该架构的最终落败,但在2013年年末这一时间点上,在Hawaii身上,在饱受D线压迫的AMD身上,这套显存控制器是全世界最棒的方案。
10体验革新+底层优化——TureAudio/Mantle
● 体验革新+底层优化——TureAudio/Mantle
除了图形硬件层面的改进之外,AMD还在2013年的尾端为我们带来了音频及软件层面的新进展,那就是TureAudio和Mantle。
除了视觉之外,与GPU息息相关的游戏应用当中还有听觉这一重要的组成元素,声音与图像,TrueAudio便是Hawaii架构当中最奇特的功能性改进,它所针对的领域正是长期以来一直被忽略的,或者说广义上被认为与显卡关系不大的领域——音频应用。
TrueAudio技术
作为丰富GPU处理能力并改善游戏体验的手段,AMD在R9 GPU芯片当中集成了全新的Multiple integrated Tensilica HIFI EP Audio DSP,通过它首次在GPU上实现了8声道环绕立体声输出,并带来了逼真的音效处理效果。TrueAudio能够处理更多音源以及声音信号,可以利用GPU直接参与与声音有关的运算活动,并且可以在3.5mm耳机、USB输出设备以及复数个支持HDMI/DP Audio的显示设备上实现输出,这为游戏过程的体验提升带来了新的机会。
与TureAudio一样,Mantle对于2013年的其他技术进步而言也显得十分特殊,它并不是一个纯粹的图形技术革新,它所针对的领域介乎于硬件和软件之间,那就是API层。
按照AMD官方的描述,Mantle应该会一个独立在DirectX以及OpenGL以外的图形API,可以允许程序员绕过上述API直接访问AMD GPU的底层ISA并直接调用各种功能。尽管三缄其口同时对特性描述并不详尽,但如果AMD的描述没有问题的话,它将会是Glide之后的首个全新图形API,它的出现不仅给AMD GPU带来了新的契机,同时势必会对微软以及Khronos控制的图形API生态环境提出全新的大胆挑战。
Mnatle的出现同时还为我们指出了AMD前进的方向,那就是生态,培育一个能够贯通所有产品线,完全属于自己的可以同时发挥运算和图形技术优势的新的生态体系。顺着这一方向,我们看到了AMD在2013年为我们带来的最后一组技术革新——更加完善的HSA体系。
11面向异构未来——HSA
● 面向异构未来——HSA
HSA(Heterogeneous System Architecture,异构计算架构)并不是一个全新的技术性架构,它最早出现于AMD的融合架构——Fusion当中。在2013年11月13日召开的APU13大会上,AMD宣布了这一面向通用计算架构的最新变化。
新的HSA架构的主要革新之一在于实现了hUMA(heterogeneous Uniform Memory Access,即异构统一内存寻址),它允许CPU和GPU共用一套MC单元,在同样的寻址规则下共享并互访同一片内存空间,这一过程无需让CPU和GPU之间通过复制数据做“二次”处理,也不需要经由CPU以内存调用命令再次分派给GPU,所以hUMA体系下运算单元的内存访问将会更加高效、顺畅。
hUMA+hQ
除此之外,AMD还在HSA中引入了全新的异构任务队列机制hQ(heterogeneous Queueing),它允许不同数据归于统一的任务队列中进行并行计算。GPU的原生设计特点让其可以同时从硬件层面检测10~50个任务队列,为如此巨大的并行能力提供统一的标准任务信息包以及队列的机会,将明显有助于并行计算体系快速获取工作指令并开始高效的处理。
简单来说,HSA体系的最终目的就是将GPU与CPU连接在了一起,并且让GPU能够直接使用CPU的MC、存储空间以及任务队列来完成运算任务。这么做除了可以节约晶体管降低发热之外,还可以让CPU和GPU直接完成运算数据的交换和共享,为两者的进一步融为一体并完成计算任务打下基础。
树状结构的CS指令在HSA架构中将会更好处理
如果HSA按正确的路线前进,未来的CPU和GPU在经过代码优化之后将可以分别处理同一个任务的不同部分。而GPU和CPU使用了统一的操作场合之后,运算所需要的横向数据共享将会让今天HSA的工作变得更有意义。我们甚至可以在未来将HSA内部的GPU看作是CPU的一个“浮点运算指令集”,所有针对并行浮点指令进行优化的程序都将像使用其他指令集优化的程序一样,从HSA体系的异构并行计算当中获得极大地浮点性能提升。
对于现在而言,HSA的意义还没有看上去那么明显,能够从其中获益的产品还仅限于APU这样的高集成度桌面解决方案,但它的两项重要革新,亦即hUMA和hQ,为未来真正意义上的异构并行计算奠定了最坚实的基础。HSA是属于未来的革新,它不仅为2013年的显卡业界技术革新划上了一个圆满的句号,更为AMD的未来打开了一扇充满希望的大门。
12精彩仍将继续
● 精彩仍将继续
纵观这一年,AMD/NVIDIA的每一次技术革新都有自己重要的意义,这一点从我们今天的回顾中铺设的篇幅应该可以很明显的感受到。这些技术革新也许未必都能马上带来翻天覆地的变化,也有可能因为底层技术所特有的晦涩而不是那么容易让人理解,但它们都是显卡给用户带来游戏视觉享受的基础。正是这一次次的努力,让我们拥有了更多更有趣的体验。
Shield能给我们的生活带来不一样的变化么?
以更“大局”一些的眼光来衡量,2013年AMD/NVIDIA双方的技术革新可以说是各具特色的。NVIDIA更加注重具体实际的应用新技术,同时将注意力集中在了游戏应用相关的新生态环境拓展的工作上,AMD则更倾向于修补亟待追平的技术落差,并且运算和非图形环节寻找新的突破口。相对而言,一个着力于实际,另一个则更富跳跃性和创意。
除了底层技术的继续推陈出新之外,云计算的延伸实践以及音频/底层优化环节的努力也是双方在今年的亮点。这些方向对于显卡业界的意义已经在我们去年的回顾当中做过讨论,如果AMD和NVIDIA能够继续保持在这些新兴增长点上的努力,相信显卡业界的复苏和重新崛起将会离我们更近。
不管是解决实际问题还是面向更底层或者更理论性的技术革新,AMD/NVIDIA在过去一年中所做出的努力都是有目共睹的。技术的不断革新不仅可以为用户带来更好的显卡使用体验和游戏体验,同时也有助于推动整个DIY业界的前进,为略显沉闷的PC市场注入新的活力和增长契机,这就是我们回顾并高度认可双方在过去一年中所作努力的原因。唯有不断前进,才是让整个业界重现更多生机与希望的唯一途径。
尝试也许不一定成功,停在原地不去尝试一定失败。做,永远比不做更有意义。既然AMD和NVIDIA都还在努力,我们还有什么理由不去期待新的更精彩的未来呢?
2013年即将结束,回首整个今年AMD和NVIDIA在图形计算行情的发展,确实有不少可圈可点的重要技术和功能。让我们跟随笔者的文字,一同回首这丰富的一年。
推荐经销商