1统一缓冲:Unified Cache in GPU
前言:回忆终究是属于过去的东西,对于生存在这个世界中的大多数人来说,所要面对的最多的东西不是过去而是未来。所以我们不仅要记住过往时光中每一个闪光的涟漪,更要学会展望即将到来的未来。在昨天的《风中的烛光 2011年度核心硬件技术回顾》中,我们回顾了今年看似清冷且停滞的核心硬件技术发展领域所出现的足以影响未来的核心硬件技术,并再次领略了它们对DIY界产生的影响。在今天的文章中,我们将继续挑战所谓的“业界正在凋零”的寒风,为你展望明年即将出现的,能够为DIY界带来温暖和希望并令其继续保持生命力的技术。
● 统一缓冲:Unified Cache in GPU
2012年第一个值得我们期待的技术或者说改进,来自GPU界对于Unified Cache的全面引入。统一缓冲在AMD阵营的出现,不仅让GPU构架中原本凌乱的缓冲体系得到了统一,更让DirectX 11走向真正意义上的普及扫清了物理上的障碍。
基于Tahiti构架的HD7970
促成这一改进到来的,是计划于2012年1月上市的基于全新GCN构架的Tahiti,也就是HD7900。Tahiti构架引入了完整的Unified L1 Data Cache、Unified L1 Instruction Cache以及Unified L2 Cache,每个CU(Compute Unit)拥有16K的L1 Data Cache以及64K的L2 Cache,每4个CU共享16K的L1 Instruction Cache,其中L2对全部数据开放,可用于缓冲包括纹理指针以及寄存器溢出在内的各种数据。
开放的二级缓冲体系不仅为编程者的使用带来了极大的便利,也为GCN的DirectX 11性能提供了充分的保障。许多过去在Cayman体系上无法实现的操作和功能,现在在Tahiti上均可以轻松实现,这不仅让其拥有了更好的DirectX 11游戏性能,更为DirectX 11的进一步普及做出了重大的贡献。
尽管Fermi构架早在GF100时代就引入了对Unified Cache的完整支持,但由于AMD方面的不予跟进,缓存体系一直无法在整个DirectX 11产品线中得到普及,这从物理层面限制了许多游戏相关的新技术的应用,制作者在制作游戏时不得不顾及到AMD构架缺乏完整有效的缓冲体系所带来的影响,避免部分操作在Cayman等构架中无法实现的情况出现。Tahiti对Unified Cache体系的引入,从根本上打消了制作者的各种顾虑,为DirectX 11的进一步普及铺平了道路。
2光线追踪要来了?DirectX 11.1
● 光线追踪要来了?DirectX 11.1
图形硬件以及图形界技术的发展,很明显离不开API的更新和前进。因此2012年度最引人瞩目的图形技术,自然要数DirectX 11.1的最终发布了。
DirectX 11.1或将伴随Windows 8一起到来
就目前公布的情报来看,DirectX 11.1包含大量的D3D新特性支持,其中大多数是针对程序员编程进行的更新,包括为shader绑定作为子区间的常buffer、通过新的copy选项改进资源体系以及引入更多的UAV操作等等。整体更新量很大,甚至超过了DirectX 8.1以及10.1的更新规模。
DP Shader Ops引入了诸如双精度ADD、mov等诸多指令和操作
在这些特性中与我们关系最为密切的,或者说直接作用在可见图形领域的最大亮点则来自Core Structures部分,包括D3D11 Feature data double的DoublePrecisionFloatShaderOps和D3D11 Feature data arthitecture的TileBasedDeferredRenderer,也就是我们通常所说的DP Shader Ops以及TBDR。
DP shader(Double Precision Float Shader,双精度浮点shader)是微软在DirectX 11中首次引入的shader类型。与传统的常规shader相比,DP shader的最大特点在于在shader处理数据及运算过程中全面引入双精度规则,这让DP shader具备了远高于常规shader的运算精度,配合FMA的应用,DP shader可以称得上桌面应用范围内完全无损的shader类型。
Tile-Based Deferred Render则是Power VR独特的TBR技术的一种延伸实现手段。TBR/TBDR通过将每一帧画面划分成多个矩形区域,并对区域内的所有像素分别进行Z值检查,在任务进入渲染阶段之前就将被遮挡的不可见像素剔除掉。
精度更高的DP shader的引入,对光线追踪的交汇检查计算过程是至关重要的;TBDR的引入则代表着移动图形编程的需求。微软此次在DirectX 11.1中实现了上述两个功能,基本上意味着为光线追踪在桌面的应用以及DirectX进军移动图形领域打开了大门。两者无论哪一个,都是值得我们给予高度关注的。
3异构处理的延伸:VCE
● 异构处理的延伸:VCE
VCE技术是AMD在Tahiti构架中引入的另一个重要改进,相较于UVD3.0的原地踏步,VCE技术的出现可以说是Tahiti构架在视频相关方面最引人注目的亮点。
VCE功能细节
VCE技术从本质上来说是一组专门负责编码操作的硬件电路,该单元在操作方式上类似Intel Quick Sync Video高速视频编码处理电路,都是通过固定单元来高速完成视频编码过程的Preprossing以及Encode过程,这也是整个视屏编码过程中最为消耗系统运算能力的部分。以专门的电路来完成类似的操作不仅能够提升处理速度,同时还可以大幅降低处理过程所带来的功耗压力。
VCE与Quick Sync Video最大的不同,同时也是VCE意义最重大的设计,来自它的异构式处理结构。VCE对视频编码的操作分为两种模式,在Full Mode下,VCE会以自身的硬件单元来完成Preprossing以及Encode的全部过程。而Hybird Mode下,VCE单元会调用Tahiti构架丰富的ALU资源来更高速的完成Preprossing过程,以VCE自身的硬件单元来完成Encode过程。在性能最理想的状态下,VCE可以实现1080P分辨率视频的60帧速率实时编码。
VCE技术的意义是巨大的,除了在GPU单元中第一次引入了低功耗的专用高速视频编码处理电路之外,VCE体现了AMD多年来一直强调并不断付诸实施的异构计算操作结构。Fusion的精髓便是异构处理和加速,这种整体思路正在逐步融入AMD的每一个产品线甚至每一个适合的产品中。VCE技术的出现,不仅进一步实践了异构处理的想法,更向我们表达了AMD正在逐渐恢复的坚定的执行力。
4为了maxwell的“融合”:GPU 64bit INT
● 为了maxwell的“融合”:GPU 64bit INT
作为处理像素及顶点空间位置数据的运算单元,GPU长期以来都是以强调浮点运算能力而见长的。对于精确地RGBA以及空间坐标来说,整形数据无法满足数据模式的需求,所以自从float shader出现之后,int执行能力就一直没有获得GPU的重视。
maxwell的运算能力将大幅增加
这种情况,现在已经伴随着GPU越来越多的介入到通用计算领域而悄悄的发生改变了。来自不同运算类型需求,甚至是未来可能出现的系统操作等方面所带来的需求,正在悄悄的对GPU的整形运算能力提出着越来越高要求。
CUDA-X86编译器就是为了应对未来的运算变成需求而诞生的
既是为了顺应这些需求,同时也是为了为即将到来的集成了ARM内核的maxwell构架做准备,NVIDIA在GPU中引入了64bit INT处理单元的计划。该计划将极有可能在2012年与大家见面,换句话说,我们可能会在开普勒构架中第一次看到64bit INT处理能力的体现。
64bit INT处理单元的引入,不仅能够让GPU拥有更加宽泛的数据处理能力,更多的减轻甚至是接管CPU的运算负担,同时还为未来maxwell构架的异构化创造了先决条件,maxwell构架的ARM内核不仅可以将浮点数据处理工作全权发放给GPU执行,现在也将有可能将整数部分交由GPU来完成。这样做不仅能够更好的发挥异构构架高效的运算特性,实现更深层次的融合,还能提供更加优秀的性能功耗比。
5Fusion的未来:Trinity APU
● Fusion的未来:Trinity APU
基于Fusion的APU产品,无疑是AMD在2011年给予最高度重视的产品。APU通过将一颗标准CPU和一颗标准的支持DirectX 11的GPU组合在一起,为一般用户面对不同场合提供了一组常规控制、图形输出以及异构运算的解决方案。APU中的CPU负责常规运行及控制所需,GPU则负责图形输出部分的功能。
基于Fusion构架的APU
作为第一代面向桌面的Fusion产品,追求稳妥的AMD在Llano APU集成的HD6550D采用了相对传统的Turks构架。Turks构架拥有小巧的面积和不错的功耗发热表现,3D性能相对传统的集显以及核显也要领先许多,但其性能对内存带宽的依赖较为严重,与CPU的异构连接的程度并不如想象中那样彻底,同时基于传统的VLIW 5结构在面向未来的运算及图形应用中效率也较为低下。这些因素,均限制了APU作为异构构架的性能表现。
基于Barts构架的HD6850
在2012年,AMD决定推出改进型的第二代桌面APU——Trinity,Trinity APU最大的变化,在于将具备双UTDP的Barts构架引入到了APU当中,同时进一步加深了GPU与CPU部分的联系,从而实现了显示输出与通用计算性能的同步提升。
Barts构架拥有优秀的性能功耗比,作为AMD在桌面GPU市场主力的sweet spot级构架表现相当优秀,该构架引入APU,势必会进一步拉大APU与其他融合/集成显卡之间的性能差距。与此同时,Barts所拥有的更好的线程分配和调度能力,以及更大的ALU集群规模,都将为APU的异构运算加速提供更好的帮助。我们有理由相信,Trinity APU如果能够顺利推出,将帮助AMD在Fusion融合以及异构计算这条路上走得更加顺畅。
6能放更多书的书架:3D tri-gate
● 能放更多书的书架:3D tri-gate
这世界是很神奇的,许多看上去高深莫测的技术或者理论,其实本质上简单的会让人为之顿足,当你明白了其中的原理,你首先想到的东西肯定不是“为什么?”,而是“怎么可能是这样?!”。即将在2012年到来的看似最高神的半导体技术进步——3D tri-gate,就是这类简单的让人为之一顿的典型。
3D tri-gate示意图
3D tri-gate技术最核心的特点,在于通过改变刻蚀和沉积方式的形式,将原本的水平置于氧化物层的源极和漏极调整方向至垂直。这中将源极和漏极从水平面置于“空中”的做法,为电路带来了极高的面积利用率,大幅提升了单位面积内的晶体管密度,同时降低了栅极的亚阀电压,从而大幅削减了其内部的功耗。
这个步骤虽然制作过程精巧复杂,而且即便是在使用了Piii(Plasma-immersion ion implantation)技术的前提下也很难保证晶体管中鳍也就是源/漏极部分的掺杂均匀性。但其本质却着实简单的要命——书架子上只能放一层书,你觉得书本是平躺着放的多呢,还是立起来紧密的插在一起放得多呢?所谓3D tri-gate,其实就是将书本(源极)从平躺状态竖立起来(3D Gate模式)并借以提高了书架(基体平面)上放书(源极/栅极)的总密度,仅此而已。
简单么?我母亲只用了不到10秒就弄明白了3D tri-gate的核心原理,这样的技术本质难道不是简单的会让人为之顿足么?
3D tri-gate技术对于未来CPU的构架发展以及性能延展具有极端重要的意义。按照Intel公布的数据,3D tri-gate可以实现比传统结构栅极低20%的亚阀电压,而同亚阀电压状态下的开闭性能则比传统结构高出37%,同时由于所占空间的大幅下降以及排列形式的变化,同等条件下采用3D tri-gate技术的晶圆生产成本将大幅降低至原有成本的2%~3%,这是能让我们获得惊人的性能提升以及成本下降。
3D tri-gate的出现,不仅极大的延长了摩尔定律的有效寿命,更为我们在未来获得更强性能的CPU打下了坚实的基础。尽管仍旧存在许多诸如离子注入均一度以及粗糙度等生产细节方面的问题,但3D tri-gate的正式引入和逐步普及,必将在2012年为我们带来更多精彩的CPU作品。
7消灭最低帧:PCIE 3.0
● 消灭最低帧:PCIE 3.0
显示设备的总线接口,一直都是总线界快速发展的领域。从PCI到AGP,再到现在的PCI-Express,我们的显示带宽从最开始的133MB/S发展到了今天的16GB/S,其速度可谓飞跃式的。
显示总线及接口变迁
我们在之前的文章中曾经多次提到过关于最低帧对图形的影响。当图形处理的任何一个环节出现过大的延迟,并最终导致流水线总延迟大大高于33ms之后,屏幕上所显示出的画面更新速度将会大幅下降,这种下降是极其明显而且非常游戏体验度的。怎样消除最低帧对游戏的影响,是摆在每一个与之相关的人面前最重要的课题。
总线的数据传输带宽,在大多数时候似乎并不能构成GPU渲染延迟大增的原因。除了极个别超高分辨率的极限环境之外,我们目前看到的几乎所有测试中PCI-Express2.0 X16都能够很好地满足显卡的数据传输需求。但归根结底,PCI-Express2.0 X16最大16GB/S的双向带宽,较之本地显存动辄上百甚至接近200GB/S的带宽仍相去甚远,再加上越来越沉重的通用计算需求以及即将到来的由GPU Direct衍生的对跨GPU显存读取的需求,PCI-Express2.0 X16已经变得不再适合面对未来显卡的带宽需求了。于是,PCI-Express3.0来了。
即将于2012年全面登场并获得更多CPU支持(好吧,原来这事情是主板来做的……)的PCI-Express3.0总线在技术层面上的革新其实并不复杂,该总线较之现在的PCI-Express2.0总线在带宽方面提升了一倍,达到了双向32GB/S的水平,这一带宽已经达到了目前顶级平台中内存带宽的水平。与此同时,PCI-Express3.0还将提供更好的供电设计。更大的带宽不仅让通用计算性能得到更好地发挥,在多卡互联等数据传输量较大的场合,尤其是今后允许跨显卡操作显存的场合也能提供更多帮助,减少最低帧出现的可能。
8操作系统里玩主板:SCT2.2
● 操作系统里玩主板:SCT2.2
明年值得展望的最后一项技术同样来自主板领域,那就是针对Windows 8出现的SCT2.2 BIOS。它的出现,将Windows 8同底层硬件更加紧密的联系在了一起。
Phoenix UEFI BIOS
Phoenix SCT 2.2是Phoenix UEFI BIOS的第2代产品,SCT 2.2的更新包括UEFI 2.3.1、TCG 1.2/2.0、ACPI 4.0/5.0、USB 3.0、SMBIOS 2.7和NIST-SP800-147,这些功能能够帮助硬件厂商进一步开发与Windows 8相关的功能。
SCT 2.2强化了header设计、添加了可以显示在操作系统中的版本更新通知,另外还增加了更多的BIOS设定范围和弹性,添加了通过GPT(GUIDed Partition Table)加速64bit操作系统启动的能力。对大于2.2T的硬盘以及USB 3.0也提供了支持。
SCT 2.2在POST和Setup中增加了HID(Human interface device)技术的支持,通过该技术,我们可以实现诸如在控制面板及一般图形界面中进行鼠标操作来控制BIOS的目的。这样的功能让用户能够在Windows 8操作系统中更加方便的控制BIOS设定,通过对功能性的延展进一步提升了用户的最终体验度以及对硬件的控制能力。
● 尾声:
对于包括我在内的很多玩家来说,DIY就是我们生活的一部分。他锻炼了我们的动手能力,给我们带来了更多知识和体验,同时还给予我们无数的快乐和感动,每一个拥有相同经历并且热爱DIY的玩家都不希望这个伴随着我们一起成长起来的行业在业界萎缩的寒风中凋零。所以,我们决定以两期文章的篇幅,向你展现与DIY息息相关的核心硬件界的技术与未来发展方向,展现这些在业界略显凄零的寒风中顽强释放热量的点点温暖。
我们希望向你传达的信息很简单:一个行业想要健康发展并持续存在下去,需要具有未来着眼点的技术以及行业用户们的信心。有了具有前瞻性以及面向未来的技术进步,行业就有了健康持续发展的前提和基础,而有了行业用户及关注者的信心,行业就有了前进的动力。有我,有你,再加上这些先进的技术,DIY的明天一定会更加美好。
推荐经销商