1为了忘却的纪念
一年又一年,绵延的时间之河永恒的冲刷着我们的世界,它静静地将过去的种种一并带走,让所有我们周围发生过的一切变得越来越模糊,最终归于遗忘。我们没有力量改变或者挽留这种流逝,每当回望那些渐渐飘远而且永远不会再回头的时光时,我们所能做的只有记住每一个闪光的涟漪,将那些那些需要被我们记住的,值得记住的东西留在我们的心里。所以每当岁末,我们都会去回顾这一年所发生的一切,回顾这一年里出现过的先进技术,品评它们的特色和意义,将它们更深的烙入我们每个人的脑海中。
为了那些正在被忘却,或者即将被忘却的纪念,我们决定梳理十个这一年中出现在核心硬件领域,也就是CPU/GPU/主板领域的应该被我们记住的技术。这十个技术不仅改变了这一年里DIY产业的格局和我们的应用环境,更为整个产业的未来发展产生了影响,所以它们不应该被忘却。
不得不承认,2011年的IT产业并不是属于DIY的。平板电脑和智能手机的迅速崛起,将全世界的目光都吸引到了移动电子产品领域。铺天盖地的宣传声势以及突飞猛进的技术进步,与受到冲击而显露出萎缩态势且发展似乎确实放缓的DIY领域形成了鲜明的对比。平板电脑和智能手机,在2011年大有取代传统DIY以及桌面电脑的架势,甚至有人形容,DIY领域就像风中的残烛一样,只等命运来吹下熄灭的最后一口气了。
市场份额的萎缩,关注度的下降以及技术进步的放缓也许确实是事实,在喜爱DIY的玩家心中,2011年似乎平淡如水,没有什么可以刺激到自己注意的东西。但传统DIY领域尤其是核心硬件领域,真的如部分人形容的那样选择了自暴自弃的停滞不前,最终将被人遗忘并消失在时间的长河中么?我想,在看过今年的这是个技术进步之后,你的心里自然会得到答案的。
2崭新未来的大门:Dual ACE
● Dual ACE
今年第一个值得我们记住的显卡技术来自AMD的Dual ACE(Asynchronous Compute Engine——异步计算引擎),由于ACE与几何引擎直接相连,同时决定了构架的宏观并行度,因此我们可以笼统的把它理解成第二套前端/几何引擎。它的出现不仅改变了RV870构架几何性能较弱的局面,更为AMD向并行处理构架的进化打开了大门。
采用双ACE引擎的Cayman构架
Daul ACE首次出现于Cayman构架,区别于传统的AMD构架,Cayman拥有了第二套完整的光栅化-几何处理单元阵列,该阵列拥有Rasterizer、Hierarchical-Z以及Tessellator/Germetry等全部的前端资源体系,与原有的前端部分完全对等,并且与流水线中的线程仲裁器UTDP直接对应。
Dual ACE的价值是显而易见的,它让Cayman拥有了双倍于RV870的几何处理能力,这极大地改善了RV870在面对曲面细分等领域时的表现。同时,由于单位周期的三角形搏出能力也从1个提升到了2个,Dual ACE的出现让Crysis这样对于传统多变形输出能力有很大需求的游戏也能获益。最后,更快的光栅化处理能力带来了更快的坐标变换和像素化速度,这降低了后续流水线步骤的等待延迟,从而为最低帧表现的提升提供了帮助。
Dual ACE的另一个重大意义,在于第一次在AMD GPU构架中引入了宏观并行度的设计。DirectX 11的核心特性之一便是并行kernel的处理,kernel的并行化处理会为整个图形流水线带来更好的宏观密度,进而提升图形渲染的执行效率,需求则是图形流水线的宏观并行化设计。Dual ACE出现之后,Cayman构架拥有了宏观双阵列的设计风格,尽管还未达到费米构架4GPC完全对等并行的等级,但较之RV870依旧迈出了重要而坚实的一步。
Dual ACE简单明快,效果直接。已很小的代价为GPU带来了近乎翻倍的几何处理能力和光栅化能力,同时还为构架带来了前所未有的宏观并行度,显示了AMD希望修复历史积累错误的决心和行动力,其重要程度不言而喻。
3另一扇大门:VLIW 4
● VLIW 4
按照时间顺序来看,今年最初到来的一系列新技术,基本上都是围绕着去年年底发布并于今年年初大量上市的Cayman构架进行的。除了Dual ACE之外,AMD GPU构架吞吐模式的改变同样值得被记住,因为它与Dual ACE一样,也是一项着眼于未来的技术进步。
VLIW 4 ALU结构
传统的RV870构架的运算部分采用了VLIW SIMD的结构设计,ALU团簇由4个非全功能ALU+1个拥有ALU.Trans的全功能ALU组成4+1D非对称结构,程序需要将指令尽可能的剔除关联性,然后以5条指令打包成一个超长字节的VLIW指令的形式来满足RV870构架的吞吐需求。Cayman改变了这种结构,将ALU团簇改为由4个结构完全对等的ALU单元4D对称形式,同时对程序端指令的VLIW结合需求需求也从5条指令打包变成了4条指令打包。因此,我们也可以将Cayman的这种改进成为VLIW 4。
VLIW 4的出现对AMD有着巨大的意义。它不仅降低了程序找齐指令对称性和关联性的难度,降低了编程端和优化端的负担,更提高了单位ALU所能够获得的资源密度,提升了整个GPU运算部分的单元复用率。更好的单元复用率可以提升GPU执行Shader的效率,也可以为其带来更好的功耗表现。
同Dual ACE一样,VLIW 4也显示着AMD纠正过去错误的决心。DirectX 11要求构架拥有更好的ALU灵活度和通用计算能力,而非传统意义上的单纯吞吐能力。RV870自R600构架中继承的高吞吐低灵活性的衣钵,在通用计算就是图形计算的今天已经显得很不“合身”了。VLIW 4的出现,正是AMD在意识到需要加强通用计算性能来获取更好的图形表现之后所做出的重大转变。相信以VLIW 4为标志,我们将在未来看到AMD做出越来越多符合DirectX图形需求的优秀设计。
4多卡最低帧的希望:GPU Direct
● GPU Direct
与AMD在桌面图形端做出的诸多直接且值得肯定的改进相比,2011年的NVIDIA在GPU技术领域所作的努力从表面上来看显得与常规用户并没有太多的直接联系。对于我们来说,NVIDIA今年最值得注意的技术改进来自显存应用部分的GPU Direct。
CUDA 4.0三大组成部分
GPU Direct是NVIDIA CUDA4.0的核心组成部分之一,它搭配费米构架引入的统一虚拟定址技术(UVA:Unified Virtual Addressing),能够允许GPU无需经过访问北桥以及内存的拷贝,直接跨GPU进行数据的显存直接读写和共享。在GPU Direct技术下,所有显存内德数据都将透过PCIE总线直接进行交换,所有GPU也可以直接访问其他GPU的本地显存,这不仅创造了比过去低很多的访问延迟以及更好地系统内存利用率,更让多卡体系下的所有板载显存形成了一个整体。
GPU Direct现阶段虽然还是针对通用计算应用的技术,但它为桌面显卡的显存应用创造了一种新的可能。无论是AMD的CrossFire X还是NVIDIA的SLI,在采取隔帧叫错渲染模式进行快速切换画面的处理时,都会遇到画面负载尤其是显存负载不均衡所导致的最低帧问题。GPU Direct技术为多卡互联创造了一个整体显存空间,在驱动控制及优化得当的前提下可以大幅减少多卡体系中某块显卡爆显存所导致的最低帧。
由于费米构架在逻辑设计方面的成熟和高效,NVIDIA对其进行的改进主要集中在了可制造性领域。因此NVIDIA在GPU技术方面的着眼点,很自然的也就放在了后DirectX 11时代图形需求的探索以及验证上。DirectX 11及其后续版本的API对于图形过程提出了越来越高的通用计算性能需求,再加上NVIDIA具备完整的专门针对通用计算需求的产品线,所以这种验证很自然的集中在通用计算应用领域,也就是Tesla产品线中。我们接下来将要看到的Maximus技术,同样是来自该产品线但却可以对桌面领域进行影响的技术改进。
5Optimus与桌面的桥梁:Maximus
● Maximus
在处理专业领域的工作时,我们经常会遇到需要同时面对渲染以及运算需求的场合。比如说当你在完成某个实验的运算模拟之后,需要将结果实时的显示输出出来。这种场合不仅需要系统中的显卡具备专业渲染能力和通用计算能力,更要求系统能够快速甚至无缝的在这两种能力之间进行切换。
不同的需求对应不同的运算环境
为了应对这种需求,解决跨应用场合对不同性能领域需求不同的问题,NVIDIA在工作站产品线上发布了Maximus技术。Maximus技术将Tesla、Quadro以及Optimus三者的特色结合在一起,让模拟、设计、实施预览以及三者之间的切换达到完全无缝级,从而提高了设计者在进行设计工作时的效率。
Maximus技术本是应用在专业级领域的应用,为何会跟桌面级显卡发生关系呢?答案尽在Maximus实现无缝切换的关键——Optimus。
Optimus原本是NVIDIA应用于笔记本领域,针对Sandy Bridge移动处理器的快速核显/独显切换技术,这项移动领域的技术一直未能在桌面领域得到应用。Maximus虽然属于工作站,但归根结底依旧是桌面应用,因此Maximus技术的产生,让我们看到了桌面级市场中实现Optimus的前景。根据NVIDIA长期以来所形成的特有的“专业产品线验证—民用产品线推广”的节奏,Maximus所包含的显卡快速切换技术,将会在不久的将来出现在一般用户的视野当中,为桌面显卡的节能及性能的无缝拓展衔接提供帮助。
6带宽为王:Ringbus环状总线
● Ringbus环状总线
除了显卡之外,2011年度核心硬件部分的其他两名成员,也就是CPU和主板的技术演进同样值得关注。接下来就让我们看一看这两个领域都有哪些引人注目的进步吧。
Sandy Bridge构架采用了ringbus来取代传统的crossbar
2011年1月,Intel依照Tick-Tock节奏推出了Westmere的换代构架Sandy Bridge。Sandy Bridge除了引入核显等先进技术之外,整体CPU执行效率较之上一代I7也有了很大的提升,这种提升与其所采用的全新技术——Ringbus环形总线有着极大的关系。
为了维持较低的延迟和更快速的互联速率,传统的CPU通常都会采用高速的Crossbar总线对部件进行直连。Crossbar总线采用的直连方式能够获得最低的局部延迟和最快的响应速度,其代价便是伴随着带宽的提升,直连所需的资源成本将大幅膨胀。但随着CPU规模的逐步扩大以及核心数量的不断增加,Crossbar极其消耗直连资源同时带宽难以提升的弊端也就逐渐的暴露出来了。Nehalem/Westmere每个核心与三级缓存间的Crossbar直连都需要大约1000条连线来完成,即便耗费了如此大量的连线,每个核心与三级缓存之间的带宽也依旧无法令人满意,如果核心高强度的访问三级缓存,各种数据会在Crossbar中频繁的发生撞车事件。
有介于此,Sandy Bridge并没有沿用Crossbar,而是大胆的引入了一般概念中延迟更高但带宽提升更加方便简洁的Ringbus,Sandy Bridge的每个核心、每一块三级缓存(LLC)、集成图形核心、媒体引擎、系统助手(System Agent)都在Ringbus上拥有自己的接入点。
SNB构架的I7处理器
为了抑制Ringbus总线相对较高的延迟,Intel改变了传统环状总线的结构设计,Sandy Bridge的Ringbus由四条独立的“环”组成,分别是数据环(DT)、请求环(QT)、响应环(RSP)和侦听环(SNP),每条“环”的每个节点在每个时钟周期内都能接受32字节数据,这种细腻的划分模式让“环”的访问总能自动选择到最短的路径以缩短延迟。另外,伴随着核心数量、缓存容量的增多,挂在Ringbus上的缓存带宽也能同步增加。
经过优化设计的Ringbus表现出了强大的威力,不仅令每个核心到L3的带宽都提升到了96GB/S,甚至还让三级缓存的平均延迟从Crossbar的大约36个周期减少到26-31个周期。这一系列的性能提升,最终成功的让Sandy Bridge拥有了超越Nehalem/Westmere的性能和效率表现,也为人们在未来进一步提升CPU-内存带宽提供了一种全新的解决方式。
7分久必合:Fusion
● Fusion
天下之事,分久必合,合久必分。这是一条上至家国天下,下到原子级的凝聚态物理实验都会服从的定律。定律统治之下的CPU/GPU已经在12年前经历了合久必分的阶段,那么接下来的分久必合又将何时到来呢?AMD的Fusion技术告诉我们——这个时刻已经到来了。
AMD历经5年精心准备的Fusion
Fusion是AMD运作了长达5年之久的概念,其最终目的,在于将已经独立在外的GPU重新纳入到CPU的“管辖”之下。Fusion的具体做法是将GPU与CPU设计成同一颗芯片,中间以一定的方式加以直连。由此可见,Fusion构架由一颗标准CPU和一颗标准的支持DirectX 11的GPU组成,在一般用户面对的常规场合中,CPU负责常规运行及控制所需,GPU则负责图形输出部分的功能。
Fusion最大的进步,在于通过CPU与GPU直连的形式,将GPU的通用计算能力开放给了CPU。AMD在Fusion中将GPU与CPU用crossbar连接起来,并让GPU直接使用CPU的MC,除了可以节约晶体管降低发热之外,还可以让CPU和GPU通过MC的统一控制直接完成数据的交换和共享。CPU和GPU在Fusion中实际上处于异构构架状态,在经过代码优化之后可以分别处理同一个任务的不同部分。而GPU和CPU使用了统一的操作场合之后,Direct Compute所具备的横向数据共享也将成为可能。
集成进Fusion的显示部分,也就是符合DirectX 11设计要求的GPU,已经完全具备了通过Direct Compute来分担常规CPU需要执行的诸多计算和操作任务的可能,程序员们所需要做的就是利用微软提供的编译器对代码进行对应的优化。虽然在细节上会有诸多的不同,比如对ALU的使用更多的是直接运算和操作能力而不是控制手段的应用,但从本质上来讲这与为SSE提供优化没什么两样。
Fusion的出现,不仅极大地活用了Direct Compute环境下GPU的通用计算能力,更为CPU在指令集以外寻找到了一个更加合适的提升吞吐及处理能力的途径。在Fusion的规划中,GPU在未来甚至可以成为新的“DC指令集”,CPU将借助GPU提供的运算能力最终实现浮点及综合性能的极大突破。无论专业领域还是民用领域,这样的突破都是意义巨大的。
8一切为了效率:AVX指令集
● AVX指令集
SIMD指令集是CPU增加吞吐能力的有效手段,并行吞吐浮点指令的引入这种直接面向底层控制来加快运行效率的手段,能够在晶体管及资源代价较小甚至极小的前提下极大地提升了CPU的单位周期执行能力,也提高了寄存器资源的利用效率。自SSE指令集出现以来,SIMD指令集一直都在CPU的发展和性能提升过程中扮演着重要的角色。
AVX指令集
第一代SSE引入以来,Intel的SIMD指令集已经走过了4代的发展历程,前四代的SSE指令集除了不断提升浮点吞吐能力,增强寄存器操作能力之外,还逐步添加了诸如网络及视频之类针对性极强的应用加速。随着时间的推移,针对SSE系列指令集的优化也逐步成熟,Intel认为是时候进一步提升指令集的功能了。于是在Sandy Bridge构架中,我们看到了全新的AVX指令集——Advanced Vector Extensions。
AVX的基础建立于传统的SSE指令集,在原有SSE指令集的基础之上引入了全新的prefix指令、FMA指令、VEX编码体系、fetch以及puridekodo优化等诸多先进设计,同时具备了256bit浮点吞吐能力。
AVX指令集未来将会以512bit的吞吐版本加入GPU中
AVX指令集的出现,不仅进一步扩展了SIMD指令集未来的发展道路,增强了包括整数流水线效率、FMA高精度运算效率以及X86指令集性能在内的诸多CPU性能,更为CPU以外的领域发展提供了助益。有介于AVX指令集大幅增加浮点吞吐的能力和强劲的实际表现,Intel计划在未来的Larrabee中采用全新的AVX-512指令集来增强性能,CPU指令集的演进,最终将会被用来提升GPU以及GPGPU的性能,这无论是对于GPU还是对于未来Intel的CPU/GPU合并之路来说都有着特殊而重大的意义。
9更快外设的基础:原生USB3.0
● 原生USB3.0
自从内存控制器回到CPU的怀抱之后,主板作为系统性能重要支柱的作用变得越来越不明显,人们不再能看到过去一个BIOS提升XX%内存性能甚至CPU性能的情况出现了。主板从过去系统性能发挥重要的影响因素,逐渐蜕变成了一个巨大的IO集合控制平台。
主板原有的影响力被“抢劫”了不少
尽管看上去有“退居二线”的趋势,但主板技术的发展其实并未出现丝毫的停滞。即便仅仅只是IO控制平台,我们也依旧能从中看到许多先进且非常实用的优秀技术出现,原生USB 3.0便是其中之一。
与USB 2.0相比,USB 3.0采用了对偶单纯形四线制差分信号线,故而支持双向并发数据流传输,其带宽从480Mbps(60MB/S)半双工大幅提升到了5Gbps(650MB/S)全双工,同时实现了更好的电源及功耗管理,让USB接口能够承受更大的能源负载需求。
USB 3.0除了可以实现更好更快的传输速率,加快高速U盘等移动存储介质的工作效率,还可以搭载功耗更大的外设设备,但长期以来USB 3.0的解决方案都只能以第三方芯片的形式来实现,主板厂商对于先进外设传输协议的支持也并非强制性的,这虽然不能说阻碍了USB 3.0的普及,但起码并没有大幅为其提供助力。
这种情况,直到A75芯片组的出现才得到了改变。A75芯片组中第一次提供了原生的USB 3.0的支持,所有采用A75芯片组的主板,都将提供最多4个USB 3.0接口供人们使用。这为高速移动存储设备,尤其是高速闪存存储设备的普及和推广奠定了基础。
10用功能提升性能:SRT
● SRT磁盘智能响应技术
主板尽管已经变成了一个巨大的IO集合控制平台,但这并不意味着其技术进步就会因此停滞。人们不仅需要更高速的IO传输协议以及接口,更加先进的IO控制方式同样也是需求极高的领域。有需求就会有进步,IO的控制和操作方式,现在已经成了主板重要的技术进步方向和需求领域。SRT的出现,就是这个趋势的体现。
SRT(Smart Response)磁盘智能响应技术
传统的机械硬盘在内部传输速率方面存在严重的发展瓶颈,而NADN Flash芯片又因为大部分供货给平板及手机厂商而导致了产能相对不足,因此过慢的硬盘性能对整机性能以及用户体验提升的影响在短期以内似乎还没办法得到改善。为了解决这一瓶颈,Intel在Z68芯片组中首次引入了SRT——磁盘智能响应技术(Smart Response)。
支持SRT的技嘉Z68主板
SRT的工作原理并不负载,用户可以使用一款较小容量的SSD固态硬盘作为传统硬盘的缓存,这块较小的SSD并不影响传统的机械硬盘做为用户日常使用的主盘。当文件被传输和操作时,SRT能够对用户使用的文件类型进行分类,常用的文件将以预读缓冲的形式被放在SSD固态硬盘当中,以便加速应用程序的load过程和运行速度。而诸如视频,音频等等数据,该技术也能够进行过滤。
通过SRT,我们可以将SSD与传统的HDD组合成一个类似Raid的磁盘阵列,通过基于数据块的智能高速缓存技术来提升传统硬盘的性能。SRT让我们很容易联想到之前上市的混合固态硬盘,与之不同是SRT更加灵活,同时由于SSD部分的容量更大,因此性能表现也要更好一些。可以说SRT的出现,在功能性以及行能性两端同时做到了较大的进步,这在当前主板发展的大环境下显得尤为可贵。
11功耗速度两相宜:Lucid Virtu
● Lucid Virtu显卡切换技术
内存控制器进入CPU其实并不是主板变成IO平台的唯一原因,对于主板芯片组来说,失去了包括PCIE控制器在内的几乎全部北桥功能才是令其在系统性能影响因素中逐步消失的最大原因。不光AMD的Fusion,Intel的Westmere和Sandy Bridge构架同样将GPU以及北桥的功能集成进了CPU。丢失了北桥,最终让主板从几乎影响PC全部性能表现的部件蜕变成了承载运算部分以及负责存储IO控制的支援型角色。
Lucid Virtu技术
集成了核显芯片以及独显核心的CPU们虽然表现出了优秀的视频编码能力,这些芯片的低功耗优势也是独立显卡所无所比拟的。但归根结底,其3D性能依旧无法与独立显卡相提并论。如何才能将独立显卡和核显类芯片的优势结合起来,令其在需要节能的时候开启核显关闭独显,在需要性能的时候开启独显关闭核显呢?针对这一问题,Intel在Z68芯片组中提供了对Lucid Virtu技术的支持,该技术第一次在桌面平台实现了独显/核显的完美任意受控切换。
独显/核显功能切换似乎并不是什么新鲜事,笔记本上早就已经可以完美的实现类似的功能了。Lucid Virtu 集显独显自动切换技术有什么优势呢?
在Z68芯片组中,第三方厂商Lucid为显卡切换提供了技术支持。该技术通过主动拦截API对底层硬件发出的中断请求,并代之以不同硬件的底层驱动调用来达到实时切换的目的,因此核芯显卡与独立显卡之间能够做到无缝融合,切换过程不再需要重新启动计算机。
除了独显/核显的切换之外,Lucid Virtu技术还支持两块独显之间的同时运行(非性能叠加),用户可以在使用独立显卡来进行游戏的同时使用核芯显卡的高速视频同步技术来完成视频转换的工作。不过需要注意的是,该方案目前并不能支持核显与独立显卡同时运行同一个应用来达到性能延展的效果。
12DIY不会被忘却
● DIY不会被忘却
我们经历了清冷的2011,在这一年里卖场不在人头攒动摩肩接踵,玩家升级的步伐变得缓慢,业界也不再有各种激动人心的爆炸性消息。我们也经历了热络的2011,看似平静的大环境中蕴藏着无数变革,上面这些不同领域的技术进步就像坚冰下的岩浆一般,时刻准备着再次彰显DIY的热力。
DIY不会消逝
我们在今年看到的各项技术进步虽然风格迥异,作用的领域也不尽相同,但他们都具有一个统一的特点,那就是为未来打下了坚实的基础——Daul ACE和VLIW 4为AMD正式转向更好的DirectX 11以及Compute Shader提供了前提;Direct Memory以及Maximus让NVIDIA未来的多卡互联以及性能功耗综合管理方案提供了验证;Ringbus的到来,让未来的CPU有了非常好的突破内存/缓存带宽瓶颈的手段;Fusion更是为未来的运算和应用提供了异构融合这一极富开创性的方向;AVX不仅能够加强CPU的性能,更能协助未来的GPU处理数据;原生USB 3.0的到来,让大容量高速闪存外设以及移动存储技术有了前进的动力;SRT开创了一条全新的消弭系统瓶颈,提升用户体验度的方式;Lucid Virtu在桌面领域的应用,让显卡进一步获得了性能和功耗的平衡。这十个技术与其说是2011年的创新,不如说是未来的创新。
不难看出,2011年DIY界表面上的平静及内敛并不是退缩和消沉的表现。恰恰相反,2011年对于整个DIY界来说是充满希望的一年。各条产品线都在积累着自己的技术储备,为未来的发展寻找更加宽广的出路,同时接近一切所能来提升产品的性能和功能并借以提升和改善用户的应用体验度。一个着眼于未来的领域,是不会轻易被时间长河冲走并淹没的。DIY不仅不会被命运之神熄灭生命的烛光,反而依旧能够维持自身的发展和存在。
正因为此,2011年才应该被我们所记住。
让我们记住这些技术吧,它们诞生于现在,也许会被遗忘于过去,但它们却为我们带来了未来。有了这样的技术不断的产生,DIY领域毕竟长久地保持活力。
推荐经销商