ZOL首页 > 显卡 > 评测 > 1000元以上 > 分裂帝国的统一之路 Intel融合构架探秘

分裂帝国的统一之路 Intel融合构架探秘

CBSi中国·ZOL 作者：中关村在线顾杰 责任编辑：林光楠【原创】 2011年04月14日 05:00 评论

本文导航

第1页：强盛的帝国
第2页：帝国之殇
第3页：痛苦的分裂
第4页：渐行渐远
第5页：帝国的明天在哪里
第6页：我也要咬破那无边的黑暗
第7页：卧薪尝胆

第8页：又是指令集，又是救世主
第9页：回来吧，你是我的一部分
第10页：从第一秒起，你就是我的一部分
第11页：莫斯科的大雪还是滑铁卢的落日
第12页：僵局之下的全面审视
第13页：合久必分，分久必合

返回分页阅读文章

产品：NVIDIA GeForce GTX 590 nVIDIA 显示芯片

强盛的帝国

　　在之前两期ZOL显卡探索与发现节目中，我们分别讨论了AMD以及NVIDIA的CPU/GPU统一之路，那么作为最老牌的CPU厂商，INTEL的融合之路又是一番怎样的景象呢？AMD，NVIDIA以及INTEL三家的融合过程又会遇到哪些挑战及问题呢？在本期的探索与发现节目中，我们将继续为你一一呈现这些问题的答案。

　　● 强盛的帝国

　　这是一个无边无际的帝国。帝国所统治的疆土，几乎涵盖了整个人类社会。帝国的治下，一切皆为统治者的马首是瞻。帝国的外围，连一个像一点点样子的强敌都不存在。帝国的兴盛，仿佛可以持续万年不衰。

　　这个帝国的名字，叫X86 CPU。

CPU帝国的第一代统治者8086

　　1978年，INTEL推出了第一款民用X86 CPU——8086,8086在CISC的基础上第一次将编程指令直接以硬件执行电路的形式进行了对应，这种对应使得这些指令可以获得远快于常规运算器的快速执行，这种对应执行电路的集合，就是X86指令集。X86几乎为程序员们定义好了一切常用的操作，解决了一切可能遇到的问题。CISC与X86指令集的配合，使得INTEL的CPU成了当时兼容性和易用性最佳的产品，透过对他们的支持，程序员不仅大幅降低了编程、兼容性控制及后续的除bug之类操作的难度，更可以通过适当的优化获得更好的执行性能。一经推出便获得了编程界的广泛支持，IBM随后推出的使用8086/8088的PC-XT和PC-AT，甚至Displaywriter打字机都成了极度热销的产品。

使用8086处理器的IBM PC-XT

　　通过IBM的使用、程序员的极高接受度以及民用PC的快速成长，INTEL很快就构筑起了一个强大而又统一的帝国，CPU的帝国。在这个帝国中，CPU处于绝对的统治地位，整个PC中几乎所有的操作和运算全部由CPU来完成，对于当时的PC机来说，CPU的性能就是唯一一切的性能。

　　我们今天的故事，就是关于这个帝国的一幕悲喜剧。

顾杰所写过的技术分析类文章索引（持续更新）
1、谁是微软忠实随从 A/N统一构架历史回顾	2、忠实微软是否有用 A/N统一构架细节分析
3、揪出幕后罪魁祸首是谁拖累了统一架构	4、曝你不知道的DX11 解析GPU通用计算妙用
5、融聚的未来在哪里 APU构架方向发展分析	6、特效消耗是无尽陷阱?游戏画质现状解析
7、NV也玩融合探GTX700核心CPU+GPU构架

产品：NVIDIA GeForce GTX 590 nVIDIA 显示芯片

帝国之殇

　　● 帝国之殇　　

　　当确信自己已经统治了几乎整个世界的每一个角落之后，帝国的缔造者INTEL满意的注视着自己的疆域。他相信凭借着自己过人的精力和智慧，自己的臣民们所能够遇到的一切问题都已经通过X86 CPU得到了解决，一切都会按照自己的规划有条不紊的前进，这个自己辛苦创建的帝国将永续下去。

使用8088处理器的IBM PC-AT

　　世界上真的存在可以永续的安泰的帝国么？显然不。历史告诉我们，任何强大的帝国，其内部都会有这各种各样的矛盾，CPU帝国也不例外。INTEL的CPU帝国表面的繁华和稳定之下，隐藏着两个致命的矛盾和缺陷，他们就是吞吐和浮点处理能力。

帝国的隐患——X87指令集

　　CPU的执行过程离不开对指令的吞吐，而常规CPU的吞吐是建立在单流水线作业的基础之上的，这也就意味着流水线在进行吞吐的过程中一次只能够使用一组相关的寄存器以及其他相关资源，用他们处理一组指令或数据，这种SISD的操作方式不仅导致了寄存器的重大浪费，也严重的限制了CPU的吞吐能力。

SISD结构

　　浮点处理能力低下的矛盾则更为致命，帝国建立之初，X86本身并不具备浮点处理能力，因此必须借由X87来完成浮点相关的操作。相比于其他X86指令，X87更为僵化和保守，再加上SISD的操作方式导致吞吐能力低下，CPU的浮点处理能力长时间处于发展极为缓慢的状态。

X87浮点过程

　　帝国建立之初，所有人都渴望着稳定和安逸，这种对制度和规范的迫切需求凌驾在对性能的需求之上。随着帝国的发展，已经获得安逸和稳定的人们开始了对性能的进一步渴求。正是这种渴求，将吞吐和浮点能力低下的矛盾逐渐暴露出来。因为这两个矛盾，曾经强盛统一的帝国分裂开始了分裂。

产品：NVIDIA GeForce GTX 590 nVIDIA 显示芯片

痛苦的分裂

　　● 痛苦的分裂

　　第一个将帝国的统一版图分裂开来的，是T&L。

　　在传统的帝国版图中，显卡的作用一直都类似于一杆画笔。CPU经过思考和计算之后，将命令告诉显卡，显卡仅能根据命令在正确的位置上绘制出正确的颜色，并没有其他的权力。然而，随着人们对运算能力要求的日益增长，CPU在各个领域的应用都开始显得捉襟见肘起来，沉重的运算负担使得帝国开始出现了越来越多的间隙。于是，长期得不到权力的显卡开始了分裂，而分裂的手段，则是Transform & lighting。

Transform & lighting过程

　　Transform & lighting涉及3D空间内坐标点的坐标变换以及基本光照信息的确定，由于计算机绘图过程中所涉及的空间非常庞大，坐标点为数众多，CPU传统的SISD吞吐模式显然无法满足复杂坐标变换及光影效果的需求，而随着3D画面及及特效的进步以及人们对更好图形品质需求的不断增长，这种处理与需求的矛盾被一次次的激化。终于，在CPU帝国建立21年之后，第一种具备处理和运算能力的非协处理器单元——GPU出现了。

成熟的第一代GPU——Geforce2

　　第一代GPU的出现，将原本由CPU执行的Transform & lighting操作直接纳入到了自身旗下。这不仅意味着图形过程将获得更快的执行效率，更意味着CPU完全独揽PC内所有运算和操作的统一状态被彻底打破。伴随着GPU的不断发展，将会有更多的运算和操作过程被不断地从CPU当中分化出去。

Transform & lighting效果

　　完整的帝国版图，就此出现了痛苦分裂。这分裂以及后面CPU与GPU之间的纠葛，一直持续到了现在。

产品：NVIDIA GeForce GTX 590 nVIDIA 显示芯片

渐行渐远

　　● 渐行渐远

　　GPU以及硬件T&L的出现，对于图形业界来说是一件令人欣喜的进步，更快速的执行过程可以让程序员们实现更多的特效和更加流畅的图形表现，但这件事对于CPU来说却是一个不折不扣的悲剧。GPU的出现意味着PC内部第一次出现了CPU之外的独立运算单元，这标志着CPU对PC性能及分级的垄断被彻底打破。

Transform & lighting效果

　　Transform & lighting的出走对CPU的打击是巨大的，但这种打击并不致命，CPU执行Transform & lighting的效率虽然不够高，却也并非不能运行。实际上因为GPU刚刚出现时的高价因素，许多人甚至还更倾向于继续用CPU来处理Transform & lighting过程。如果这种状况持续下去，CPU帝国甚至可以一步步的逐渐收复失地。它需要的仅仅是一个稳定的过程，以及允许其表现和发展的时间。

　　但上帝并没有给CPU帝国时间，伴随着图形业界的高速发展，shader来了。

真实的shader效果

　　随着图形级数的不断发展，人们发现图形效果的正确表达离不开颜色与光影的正确表现。这些表现的基础就是像素的正确操作。于是，计算和操作像素的Piexl shader出现了。与传统的图形操作不同，Piexl shader对颜色的计算需要极其强大的浮点处理能力，这种需求是如此之大，以至于即便将CPU的全部资源都投注进去，也完全无法满足计算所需的要求。换句话说，CPU已经完全丧失了Piexl shader的可执行性。

CPU已经丧失了执行Piexl shader的能力

　　如果说T&L时代GPU对CPU版图的分裂还有争议和回旋的余地，那么Piexl shader的出现则彻底标志着CPU丧失了与GPU在图形处理发展中对抗的资本。GPU的独立以及与CPU分庭抗礼的局势，变得愈加明显了。

产品：NVIDIA GeForce GTX 590 nVIDIA 显示芯片

帝国的明天在哪里

　　● 帝国的明天在哪里

　　对于一个帝国来说，原本属于自己的疆域忽然间脱离了自身的控制，这不仅仅是莫大的耻辱，更是空前的危机。如果处理不当，INTEL辛苦建立起来的通用CPU帝国将被越来越多具备更强大执行能力的专有功能处理器所肢解而变得分崩离析。所能够留下的，可能只有残垣断壁和只能供后人追忆思考的历史剪影了。

GMA 900构架

　　坐以待毙显然不是INTEL的风格，只有不断地进取，发展，争夺和占领，帝国才能够稳定的存在并健康的发展下去，从哪里丢掉就要从哪里找回来，这样做才是体现帝国的荣光和尊严。可是，究竟该怎样才能夺回已经失去的疆域，让一切重归统一呢？答案很简单，进攻。那INTEL进攻了么？

GMA 900显示芯片

　　在其后相当长的一段时间里，INTEL对显卡的高速发展看上去一直漠不关心，Extrame Graphics以及Graphics Media Accelerator这些INTEL推出的GPU无论从哪个角度来看都好像是普通的集成货，从I740到现在一路修修补补没什么长进，根本不值得一提，仿佛注定只能仗着INTEL的强大影响力靠芯片组集成来抢低端市场。与这些同期的CPU更是陷入了发展的僵局，单核效率受到来自频率和半导体工艺的双重挤压，变得越来越难以提升，多核并行的发展则受限于任务的无损拆解和网格化这一纯数学领域的阻碍而进展缓慢。而同期的GPU则呈现了爆炸式的发展状态，不仅处理能力大幅提升，能够处理的场合也愈加完善，甚至大举进入了CPU帝国最核心的底线——通用计算领域。

　　难道INTEL辛苦构建的帝国，就这样败亡了么。

产品：NVIDIA GeForce GTX 590 nVIDIA 显示芯片

我也要咬破那无边的黑暗

　　● 我也要咬破那无边的黑暗

　　其实，我们从前面AMD及NVIDIA关于融合和CPU/GPU统一之路的文章中不难发现。要制约对手的发展，通过对技术专利进行限制所构成的专利墙是一个非常好的选择。AMD发展过程的阻碍来自指令集，而NVIDIA的统一之路则受到了X86的直接阻拦。

AMD面对的指令集兼容性限制

　　我很多次使用过下面这句话——这个世界是公平的，你得到了某些东西，就必定要付出对应的代价。INTEL常年专注在CPU领域并取得了近乎于绝对的统治地位，那么其他领域的发展就必定要受制于人。而这次充当无边黑暗的，是光栅化的专利墙。

光栅化过程专利

　　虽然在最初阶段，光栅化的核心过程一直受制于CPU，但光栅化的细节操作，比如填充，IO以及2D/3D坐标变换等却不受CPU的管辖。这些CPU“不愿意做”的所谓的体力活，成了显卡发展和经营的原始资本。伴随着GPU的高速发展以及光栅化过程的逐步完善和进步，更多的细节比如裁剪，变形，材质压缩以及采样等也不断地被丰富到了光栅化之中。随着光栅化过程的不断完善，这些技术相关的专利积累越来越厚重，整个过程变得越来越无懈可击。现在，仅仅ROP单元内部所形成的专利墙，就足以阻止任何想要轻易进入光栅化过程的人前进的脚步。

光栅化过程方法

　　想要收复失地，最好的办法就是进攻，想要进攻，就要深入对方的领域。可摆在面前的这一堵厚重的光栅化专利墙，就和INTEL摆在对手面前的诸多限制一样，成了无边无际的黑暗。

产品：NVIDIA GeForce GTX 590 nVIDIA 显示芯片

卧薪尝胆

　　● 卧薪尝胆

　　在面对几乎无法克服的困难时，最理想的选择显然不是热血沸腾的冲上去然后撞个头破血流。这不仅浪费资源，更不是一家成熟的企业所应该选择的发展之道。另外，INTEL毕竟一手缔造了一个统一强大的CPU帝国。在面对GPU的时候，INTEL显然不可能撇下自己的帝国不顾，全身心的投入到图形领域的研发之中去。所以，INTEL在触碰到了专利墙带来的种种限制之后选择了隐忍和观察，仅仅维持最低限度的对图形界各种API的支持和研究。INTEL在等待和积累，一面通过缓慢、低强度但不间断的研发完成自己对图形领域必要的积累，一面观察着周围的一切，一旦时机成熟，便释放自己全部的能量，收回曾经属于自己的领地。

　　很快，机会来了。

Imagination Technologies公司

　　2006年10月，INTEL通过注资的形式，获得了英国半导体开发商Imagination Technologies公司2.9%的股份，随后又不断增持其股票，最终获得了总发行股份的16%，以收购的形式成了Imagination Technologies公司的第二大股东，而Imagination Technologies公司，是曾经在图形界叱咤风云并一直延续至今的图形核心——POWER VR的主人。

POWER VR图形构架

　　通过对Imagination Technologies公司的增持，INTEL获得了POWER VR构架的全部细节以及使用和开发授权，这其中包含了很多INTEL梦寐以求的突破现有光栅化专利墙的方法。虽然POWER VR与现代桌面GPU相比已经显得有些落后了，但拜近年来突飞猛进的shader应用所赐，图形业界的注意力几乎全部集中在了像素以及运算相关的技术进步上，对光栅化过程本身的改进仅停留在细节阶段，并没有出现本质的足以让POWER VR所持有的技术与现代技术出现巨大断层的改变。因此，获得POWER VR的技术和授权，对INTEL突破专利墙有非常巨大的意义。

GMA X3000显示芯片

　　既然看到了挣脱光栅化专利墙束缚的曙光，INTEL迅速进入了状态，开始了一系列看似不起眼但却有意义深远的研发工作。这一切的第一个实际表现，就是GMA X3000。

X3000中的EU单元

　　GMA X3000的绝对性能并不起眼，尽管它比之前INTEL推出的其他显卡有了突飞猛进的提升，但相对于其他GPU厂商提供的产品，其性能仍旧完全不在一个档次。但在GMA X3000身上，INTEL却第一次亮出了自己的獠牙——通用矢量运行单元Execution Unit。EU单元并非专有功能的固定单元，它只是一个常规的通用矢量处理器，但通过对EU的可编程操作，INTEL不仅实现了shader model3.0的支持，甚至还实现了setup和视频处理这类GPU通过固定化单元才能完成的操作的支持。这无疑意味着在CPU上实现上述功能的可能性。

　　CPU帝国重获统一的曙光，在卧薪尝胆得来的GMA X3000上出现了。

产品：NVIDIA GeForce GTX 590 nVIDIA 显示芯片

又是指令集，又是救世主

　　● 又是指令集，又是救世主

　　有了突破光栅化阻碍的希望，又有了在CPU上实现图形功能的曙光，INTEL要让CPU帝国重新将图形处理以及GPU纳入自己的版图还缺什么呢？答案是shader。我们前面提到了，由于X86先天的SISD的处理模式，其吞吐量和吞吐宽度都远不足以让X87指令集来承担处理shader所需要的浮点重担，如果没有shader的执行能力，一切统一的梦想都是空话。怎样才能解决这个问题呢？

shader需要强大的浮点能力

　　INTEL是一名商人，商人与学者的一个不同之处，就在于商人能够更敏锐的意识到一些“老东西”的价值，这次也不例外。INTEL所看上的东西，就是指令集。

SIMD与SISD的区别

　　我们在《融聚的未来在哪里 APU构架方向发展分析》进行过指令集方面的讨论。为了解决X87指令集单进单出的SISD吞吐形式对寄存器及运算器资源的巨大浪费，INTEL从Katmai核心也就是PIII开始引进了一系列的SIMD指令集，用来完成并行多指令数据的吞吐工作，这就是我们今天看到的SSE。

SSE指令集

　　SSE这种SIMD指令集的出现，在很大程度上解决了CPU浮点吞吐能力不足的瓶颈，经过对应的优化之后，SSE在很多场合甚至可以取得比X87快几十甚至几百倍的速度。如果通过改进现有的SIMD指令集，让它能够达到现有GPU的吞吐能力，甚至哪怕只是接近，传统图形领域shader的高浮点要求都将得到很大程度上的满足。当初被shader彻底架空的CPU将重获介入图形过程并发挥领导作用的机会，CPU帝国再度统一也就指日可待了。

SSE优化示例

　　但SSE也存在需要特殊优化以及编译器极度配合的问题，如果没有编译器，指令集在强大也无法发挥作用。好在INTEL的编译器开发能力有目共睹，为了应对图形环节中shader对CPU内部吞吐的适应力要求，INTEL开发了专门的编译器——shader compiler。shader compiler是INTEL专门针对常规的HLSL shader开发的一套编译系统，该系统与D3D的HLSL-Asm compiler相对应。通过shader compiler，程序中的HLSL shader可以被翻译成特定的Asm shader或者其他通用处理器可以直接执行的形式，这为CPU和指令集吞吐现有的常规图形指令扫除了最后一道屏障。

shader compiler工作示例

　　CPU帝国的建立到GPU对帝国的分裂，之间间隔了21年，而GPU独立发展的时间已经达到了CPU帝国整个寿命的一半，漂泊在外的时间太长了，是时候让它重新回到帝国“温暖”的怀抱了。

　　于是，INTEL吹响了侵攻图形界并收复失地，使CPU帝国再度获得统一的号角——Larrabee。

产品：NVIDIA GeForce GTX 590 nVIDIA 显示芯片

回来吧，你是我的一部分

　　● 回来吧，你是我的一部分

　　Larrabee是INTEL正式推出的第一个对应桌面级应用的独立显示构架。该构架的核心特点，就是通过多CPU核心并行互联，以及通用处理单元对特定操作的模拟来解决传统图形过程中的操作问题。

larrabee构架

　　Larrabee在规划中由一个高度弹性的体系组成，先期发布的部分包含16至32枚核心X86核心，每个X86核心通过ringbus与其他核心、共享的L2 cache、Texture单元以及MC进行连接。除必要的材质操作以外，一切图形涉及的相关操作及处理，包括Setup，Geometry(几何过程，包括tranform以及各种culling操作等)，Shader，Rasterization（光栅化过程），以及其他各种render操作，均由X86核心搭配compiler来完成。

Larrabee构架解析

　　Larrabee的X86核心采用类似P54C，也就是传统的奔腾处理器的设计思路，但对其结构进行了大幅的扩展，将传统的OoO（乱序）体系变成了更加节能的IO（顺序）体系，在保留Scalar设计的基础上添加了Thread Dispatch，更大的指令和数据cache，Vector Unit以及对应的寄存器，还有通过直达通道从共享中直接获取并可以接受统一管理的目录式256K L2 cache。常规的X86指令及其他低负荷整数指令通过传统的Scalar部分实现吞吐，而浮点数据及图形相关指令则通过全新的512bit Vector Unit进行吞吐。

Larrabee构架细节（图片源自网络）

　　Larrabee引入的全新的Vector Unit，也就是向量处理单元，在结构上与INTEL的AVX指令集非常类似，最大的区别为AVX指令集的SIMD过程单次吞吐8条32bit浮点指令，而Vector Unit达到了AVX的一倍，即16条32bit浮点指令，这使得Vector Unit在一般情况下拥有了超过AVX一倍的浮点吞吐能力。透过shader compiler的配合，Vector Unit在吞吐常规shader时不会出现太多效率方面的问题。

Larrabee core细节（图片源自网络）

　　与此同时，在实际吞吐过程中Vector Unit还可以实现跨线程指令的吞吐操作，这就使得我们可以将Vector Unit与GPU中的warp或者wavefront进行对照。以线程粒度衡量，AMD的wavefront为64Thread，NVIDIA的warp则支持32Thread或者16Thread（half-warp），而INTEL的粒度则为16Thread。线程粒度与吞吐和延迟直接挂钩，更高的粒度会带来更大的吞吐，但也会带来更大的延迟，这种情况在分支频繁的场合尤其明显。在经历了多年的观察之后，INTEL选择了16Thread的线程粒度作为其Vector Unit的处理宽度，希望能够在吞吐及延迟间取得最佳的平衡。

分裂帝国的统一之路 INTEL融合构架探秘
线程粒度的选择（图片源自网络）

　　在处理常规图形过程时，Larrabee与几十年前CPU帝国全盛时期的传统手段类似，只不过将处理的过程从过去的单纯数据及指令环节延伸到了光栅化过程的每一个角落。而应用场合如果转移到了通用计算的领域时，Larrabee又可以被看作是一个多核心的常规X86处理器，程序可以将Vector Unit直接看做一个512bit的SIMD指令集并对其进行优化和使用。

　　CPU帝国的荣光，再一次照耀进了图形业界的领土。INTEL收复分离出去的GPU的领土的时机，已经尽在眼前了。

产品：NVIDIA GeForce GTX 590 nVIDIA 显示芯片

从第一秒起，你就是我的一部分

　　● 从第一秒起，你就是我的一部分

　　现在，你们还觉得INTEL是那个对图形产品消极怠工，只会出低性能集成显卡然后靠抱芯片组大腿骗钱的无良厂商么？

Larrabee构架细节

　　INTEL为了能够再度统一CPU帝国，对分裂出去的图形处理过程进行了大量细致入微的观察和全面的研究。他拆分了每一代DirectX环境下的图形处理过程，精确的分析了各个过程所需要耗用的执行资源，还有他们在整个图形过程中所占的比例，根据分析的结果，结合手中所掌握的技术进行搭配组合，并且不断的完善编译器端的效率和能力。在Larrabee上，我们看到了X86、看到了Vector Unit、看到了SMT、看到了QPI、看到了远远领先于GPU的成熟cache操作模式，我们几乎看到了INTEL能够拿出的所有家当。

　　也许你会问，INTEL到底是从什么时候开始打这些算盘并偷偷摸摸的搞了这么多东西的？

INTEL图形发展路线图

　　从上面这张INTEL对图形发展的规划说明图中我们不难发现，其实GPU分裂出去的第一天开始，INTEL就已经看到并且规划好了未来的路线。既然过去CPU曾经能够处理从Input到Frame Buffer输出之间的一切事情，而后因为运算性能不济以及自身发展的缓慢而丢失了这些过程的处理能力，那么随着吞吐和运算性能的提升，总有一天CPU还是可以拿回这些事情的控制权的，并再次将CPU帝国归于统一，恢复昔日的太平盛世。

　　在上一篇NVIDIA路线规划中出现过的一颗还是两颗的问题上，INTEL的答案显然是一颗。

产品：NVIDIA GeForce GTX 590 nVIDIA 显示芯片

莫斯科的大雪还是滑铁卢的落日

　　● 莫斯科的大雪还是滑铁卢的落日

　　尽管Larrabee是INTEL长时间周密准备并寄予厚望的产物，但是它的结局却并不如同INTEL期待的那样美丽。

Larrabee构架体系

　　由于选择了对图形处理的诸多过程进行模拟来作为突破光栅化专利墙的方法，Larrabee的规模被持续的放大，但最终即便是32核的版本也仅仅是能够满足基本的性能需求而已。同时，为了满足cache的一致性等问题的需求，ringbus的加入也是的Larrabee的晶体管数激增，不断攀升的规模和晶体管数使得Larrabee背上了沉重的可制造性负担。另外，Larrabee采取CPU为基础的做法让其丧失了内存带宽上接近传统GPU的机会，而低带宽的存储体系又对cache提出了更高的要求，这不仅影响了最终产品的性能表现，更进一步加重了Larrabee的晶体管负担。雪上加霜的是，尽管采用了Vector Unit，同时选择自认为合适的粒度，但Larrabee的理论浮点能力较之NVIDIA和AMD的当代产品依旧较低。这一系列无法克服的困难，使INTEL不得不忍痛放弃了第一代Larrabee产品。

Larrabee最终仅停留在了图纸上

　　拿破仑一生中有过两次大败，其中一次是在莫斯科的郊外，而另外一次则是在滑铁卢的平原上。前一次的失败让拿破仑痛定思痛并重新站立了起来，而后一次的失败则彻底击垮了他。Larrabee到底属于哪一种呢？

拿破仑.波拿巴

　　虽然诸多很难克服的困难让INTEL不得不放弃了第一代Larrabee，但却没有让它放弃Larrabee计划以及再度统一CPU帝国的野心。按照INTEL的规划，我们甚至有理由相信，在未来的某一天，INTEL不仅会在图形领域让Larrabee发扬光大，甚至还可能将Larrabee的技术引入到CPU当中去，完成最终版本的融合。

分裂帝国的统一之路 Intel融合构架探秘
INTEL对Larrabee的未来规划？（图片源自网络）

　　读到这里，屏幕前的你觉得Larrabee更像是哪一种呢？请张开你想象的翅膀，愉快的思考问题的答案吧。

产品：NVIDIA GeForce GTX 590 nVIDIA 显示芯片

僵局之下的全面审视

　　● 僵局之下的全面审视

　　Larrabee的失败，让一切都再次陷入了混沌。我们一直在黑暗中摸索，希望得到一个答案，一个究竟哪条路线正确，错误的路线又在哪里出了问题的答案。现在，本来可以为我们带来解答和曙光的Larrabee以胎死腹中这一方式收场，让我们不得不重新开始对CPU/GPU融合之路的审视。

APU的直连方案

　　首先是AMD的路线，与INTEL及NVIDIA相比，AMD的融合之路显得十分中庸。他没有选择激进的一方吃掉另一方的方式，而是通过比较CPU以及GPU的优劣，通过温和的连接方式将他们有机的结合在一起。在需要宽泛指令格式支持的场合，CPU可以以其良好的兼容性以及耐受力进行快速处理，而需要大量浮点吞吐的领域，GPU中的ALU可以通过Compute Shader指令来扮演指令集的角色，完成快速大量的浮点吞吐作业。应该说AMD的中庸之道是所有方案中最为保险和灵活的方案，它不仅能够保障应用两端的平衡，而且不会为更好的应用性能付出巨大的代价。

APU构架特色

　　但AMD这种路线本身的缺陷也是明显的，中庸之道注定了它的全面平庸。AMD的融合之路不仅需要依赖大商人微软对DirectX的更新和优化，而且还需要将希望寄托在Compute Shader的快速普及和广泛接受上。另外，将GPU挂上CPU的MC这一选择是的GPU丧失了原本巨大的内存带宽优势，其浮点性能的发展势必会受到影响。

Denver构架

　　与AMD不同，NVIDIA的融合出发点并不是和气生财，或者单纯的在必要的时候加以利用而平时则和平共处。在NVIDIA的CPU/GPU统一路线中，虽然短期内我们并没有看到以GPU入侵通用处理器领域的迹象，但也正如前一篇文章中我们所设想的那样，我们并不能完全排除NVIDIA通过GPU向CPU界宣战的可能性。以目前的状态来看，NVIDIA在maxwell上所选择的将ARM纳入到GPU旗下的路线在性能上显然要超越AMD的中庸之道，尽管它会花费更多的资源，但是这条路线可以充分利用到GPU原本就非常可观的内存带宽资源，让CPU和传统GPU都能够从中获得巨大的助益，这种明显的GPU包围CPU的激进策略必定会对未来可能出现的NVIDIA的融合产品产生深远的影响。

GF100的cache设计仍显稚嫩

　　但同样的，NVIDIA所选择的路线也并非就是正确的通途。NVIDIA是一家传统的GPU厂商，在cache体系的应用领域显然远远落后于AMD和INTEL，虽然NVIDIA意识到了问题的所在，并以Fermi甚至整个G80构架为基础做了许多的功课，大有迎头赶上之势，但cache的设计毕竟是一个需要长期积累和实践的过程，与INTEL在Larrabee上不经意间所变现出来的成熟和强大相比，NVIDIA明显还非常的稚嫩，而如果没有优秀的cache设计，显示存储体系延迟巨大的痼疾势必会在未来的某天越过大并行度的保护，直接对体系的性能造成冲击。与此同时，NVIDIA还有半导体工艺这一Fabless不得不面对的问题。

Larrabee X86 core细节

　　最后是INTEL，曾经梦想重新统一CPU王国，恢复自己在整个PC业界内绝对领导权的INTEL，在他长期积累之后力作最终失败之后也陷入了迷茫之中。诚然，以CPU来完成一切在理论上确实可行，但这也会让整个体系重新面对目前CPU发展时所遇到的诸多问题，比如可制造性，任务的无损拆解及网格化，还有与AMD同样的内存带宽问题，以及IO和OoO在效率上平衡的问题等等。

产品：NVIDIA GeForce GTX 590 nVIDIA 显示芯片

合久必分，分久必合

　　● 合久必分，分久必合

　　没有正确路线并不代表没有未来。正相反的是，没有正确的路线恰恰意味着每一条路线都有成功的可能。

　　AMD虽然中庸，但AMD的路线所花费的资源以及对应的风险最小，最小的风险和最少的投入往往就意味着最大的利润和价值。作为第一个推出实际融合产品的公司，AMD很可能因此而占尽先机，取得市场上的成功。

APU SPEC一览

　　NVIDIA虽然存在各种新手问题，但NVIDIA有明确的自我认知以及方向。我们在这个系列的第一篇文章中就进行过讨论，一间公司只要拥有明确的发展方向和实际操作能力，任何困难都可以得到克服，即便他面对的对手是如此强大。只要NVIDIA维持现有的状态，成功对他来说并不遥远。

可制造性方面有很大改进的GF110

　　至于INTEL，他的强大毋庸置疑，他的统一路线也最接近最理想的状态。尽管短期内出现了失败，但从长期角度来讲，只要INTEL自身不放弃希望，统一的CPU帝国依旧是地平线上可以被遥望到的美好目标及前景。

Larrabee对CPU构架的影响（图片源自网络）

　　虽然每个人前进的道路上都有必须面对的困难，但有一点是毋庸置疑的——合久必分，分久必合这个道理正在越来越明确的影响着整个CPU以及GPU业界。通过通用计算及更加灵活的通用shader的不断发展以及影响，CPU和GPU这两个曾经是一体的构架，终将会慢慢的再次走到一起。至于究竟是谁靠近谁，还是干脆从两边慢慢的走向中间化，恐怕只有时间才能给我们答案了。

　　● 后记

　　经过3期的阅读和思考历程，屏幕前的你辛苦了，在这个浮躁的时代，能够静下心来进行阅读以及思考实在是一件难能可贵的事情。唤起人们心底的这份难能可贵的欲望，正是我们这个节目的初衷之一以及持续下去的动力，我们衷心的感谢每一位阅读到这里的人。

　　随着本期探索与发现节目的结束，我们的探索与发现之旅又将进入新的阶段。我们会继续向你展现行业以及技术背后的诸多本质，但愿我们的节目能够为你带来更多阅读和思考的快乐。

查看本文作者顾杰的其他文章>>

相关阅读：
·悲剧了！Intel桌面级10核心CPU还得半年
//vga.zol.com.cn/556/5569463.html
·英特尔挖角高通高管负责最大业务板块
//vga.zol.com.cn/553/5532923.html
·不再只依赖PC：Intel上调明年营收预期
//vga.zol.com.cn/552/5529780.html
·Intel重提“GDP”概念期许拉动PC更新
//vga.zol.com.cn/547/5477785.html
·联手Intel LG开发14nm工艺移动处理器
//vga.zol.com.cn/547/5474792.html