● Tick-Tock铸就CPU速度
无论是你把它当成Intel最自信最有力量的竞争筹码,还是Intel为了维持摩尔定律而做出的自我严格要求,Tick-Tock战略是蓝色巨人Intel掌握行业发展规律并试图控制整个行业命脉的核心节奏。
在这个概念被提出以前,Tick-Tock就是时钟的“嘀嗒”的意思,而如何通过滴答声感知到公司未来节奏,是那些金字塔顶端行业领袖的工作,今天显卡频道探索与发现栏目仅是将这种节奏在GPU厂商身上也做一次拟合,来和读者共同探寻显卡进步的规律,也用Tick-Tock这个全新角度揭示一些已经鲜为人知但是不好理解的事件。
Intel早在2005年开始遵循自家研发战略计划——“Tick-Tock”。转眼间Intel已经走了6年的“Tick-Tock”路。Intel钟摆计划(Tick-Tock)是处理器芯片厂商里独一无二的节奏,这好比Intel的一个"五年计划",Intel凭借该计划让其成功成为行业领头羊。
在CPU行业Tick-Tock的执行细节是:奇数年更新制作工艺,偶数年更新微架构。Tick指每隔两年的奇数年推出核心面积更小、制程更先进的处理器;Tock指每隔两年的偶数年推出新架构的处理器。
由于每年都投下重金进行处理器研发,而处理器目前的两大核心问题就是制造工艺和微架构,制造工艺方面Intel拥有全球最多的晶圆厂,甚至还要给其他厂商代工很多芯片,自家的产能不成问题,但依然要做到全球领先。微架构研发方面从NetBurst的惨痛教训到酷睿微架构延续到今天的成功,Intel也必须付出巨大的精力才能让CPU领先竞争对手。
为了不让每年的研发精力过于分散,甚至因为重点产品开发让公司资金链紧绷,Tick-Tock战略应运而生。Tick-Tock研发模式将处理器技术不断推向新的高度,也是英特尔保持活力和市场占有率的重要战略。微处理器竞争中Intel严格按照Tick-Tock研发新产品,市场占有率也是上升。
那么GPU芯片行业是否也有自己的一套Tick-Tock发展模式?NVIDIA和AMD是如何权衡并且调整节奏让新的工艺和新架构开发出现错峰期?今天我们通过回顾经典芯片和大家一起感受两家GPU厂商的策略。
● G80-G92严格遵循Tick-Tock发展
简单来讲,CPU行业的Tick-Tock发展就是“构架-工艺-构架-工艺”轮流转换。在GPU制造领域,已经被AMD收购的ATI和自来强大的NVIDIA两家厂商一直是无工厂半导体设计厂商,所以每次都把设计好的芯片架构和EDA模板交付给晶圆厂共同开发制造GPU芯片,理论上它们没有生产压力,但实际上整个设计沟通环节需要付出大量精力,一旦工艺失败或者工艺出现巨大消耗,破产的厄运随时有可能降临。
时间回到5年前,G80-G92是NVIDIA的第一次Tick-Tock战略,NVIDIA在2006年11月8日成功发布了G80核心的GeForce 8800 GTX显卡,巨大的技术革新和性能提升,获得了用户的一致认同。
至今耳熟能详的G80架构GeForce 8800 GTX显卡
G80架构使用了多指令流多数据流MIMD结构标量流处理器,一共128个流处理器替代了原来分立的Vertex Shader和Pixel Shader,拥有当时最强的性能,当然G80拥有6.81亿个晶体管,是G71的2.5倍之多,显存方面384Bit显存位宽也充分保证了数据吞吐能力。
G80架构芯片
如何理解7亿个晶体管?即便是当时号称内核最为复杂的Pentium 955XE的晶体管数量为3.7亿个,当年我们能买到的最新的Conroe的晶体管数量也只有1.67亿,两者加起来还远远没有G80图形处理器的一颗多。Tick-Tock似乎已经被提到日程上,也只有这种战略能让G80统一渲染架构普及。
对G92产生第一印象的应该是人们所熟知具有112个流处理器的GeForce 8800GT,其实在NVIDIA的显示芯片发展史上,这种旗舰芯片以简化版(简化版≠降频版)先行的做法鲜为罕见。实际上G92并非简单地把G80缩小到65纳米工艺,而是引入了更多的纹理定址单元、完整的H264硬件解码加速以及一些纹理处理方面的增强,晶体管数量从G80的680M提升到了754M。
巧妙更新工艺到65nm让NVIDIA的高端芯片面积大幅度下降,G92 vs. G80的面积比率大约为66%,如果采用300mm的wafer(晶圆片),每片300mm wafer大约可以包含173枚G92,相比之下如果是G80只能包含大约114枚左右。成本下降让G92在后期成为千元级主力显卡,而在G92将要退市的时候,500元的9600GSO成为令市场最难忘的回忆。
● 后期GT200架构重演历史
Tick-Tock战略随后继续延续,并且在GT200-GT200b时代出现了真正意义上的延续。代号GT200的GeForce GTX 280是NVIDIA基于第二代统一着色器及计算架构的第一款产品,架构归属于为G100,在性能上相对上一代的产品(G80)来说快大约50%到100%。这次NVIDIA出于谨慎原因又一次使用了上一代成熟的65nm工艺,所以虽然这是一颗大芯片,但是没有出现良率等一系列问题。
芯片良率是制衡发展的重要原因
NVIDIA的旗舰GeForce GTX 280集成14亿晶体管电路,拥有240颗流处理器,配备了1GB GDDR3显存,采用了512-bit位宽,显存带宽高达141.7GB/s,成熟的65nm技术让GT200虽然庞大,但是功耗和发热都处于可控范围。
从R300到RV770的芯片面积变化对比
如上图,GT200面积的面积可以说是前所未有。GT200晶体管集成度达到了14亿,而依然使用着65nm的制造工艺,因为这种工艺可以非常稳定地生产这种大体积的芯片,改进工艺反而容易出现不可预料的问题。
不过当时间发展到2008年5月,使用台积电55nm工艺制程制造的GT200b GPU 芯片已经于美国时间28日流片成功(Tape out),后期它正式取代使用65 nm制程制造的GT200芯片,而 GT200b的芯片面积稍微大于400 mm^2,比起576mm^2的GT200小了很多。在台积电的55nm晶圆上,GT200b的面积刚刚超过400mm2,可以将芯片成本降低到100美元左右。并且由于功耗的降低和内部bug的修正,GT200b的频率提升空间更大。Tick-Tock名至实归。
● Fermi架构两代不断完善
2010年3月NVIDIA发布了Fremi架构的GTX480显卡。但是架构方面彻底地改进引来了很多非议,首当其冲是其巨大的发热和功耗问题,这种可制造性问题如果得不到很好解决,用户获得再强大的性能也无法摆脱发热和功耗的折磨,产品成本也会不断提升。
正是在这种背景之下,2010年底一块崭新的GF110芯片诞生了,它是Tick-Tock的产物。它仅是补全了GF100芯片屏蔽的流处理器和功能单元吗?虽然大多数人是这样认为的,但是事实证明大多数人都错了。虽然这颗芯片的架构完全和GF100芯片相同,但是却经过了彻底推倒重来的EDA设计。
身材硕大的GTX480显卡
我们通常习惯把30亿晶体管的GF100芯片所产生的发热原因,归结与TSMC 40nm工艺不够成熟所致,当然NVIDIA设计这样大的一颗芯片也可以认为是战略错误。实际上GPU芯片的EDA设计方案都是NVIDIA自己完成的,所以NVIDIA仓促的EDA设计才是导致GF100芯片发热巨大的根源。
此后经过精简的GF100芯片诞生了,但它还是一个30亿晶体管的大家伙。在2009年末基于GF100芯片的Tesla首先登场,这批芯片额定频率较低,开启448个流处理器,所以功耗和发热问题并没有完全暴露。直到今年初发布GF100芯片,各种各样的麻烦问题才被人们所重视。
2010年末,通过GF104等芯片对功耗发热的良好控制经验,NVIDIA 终于正式发布代号 GF110 的 GeForce GTX 580 显卡,作为 GeForce GTX 480 的更新产品。时隔 8 个月不到就推出。GF110 的代号以及相应的架构微调(稍后介绍)表明 NVIDIA 并没有纯粹依赖于 TSMC 的工艺改进,而是更加主动地重新设计了芯片EDA部分。
● R600-RV670透露第一次改变
受制于台积电的80纳米高速版(80HS)工艺,加之R600集成了大约7亿枚晶体管这个不小的数量,R600最后的工作频率在一味追求GFLOPS浮点吞吐量的前提下达到了740MHz,并且为512Bit显存通道配备多达16颗显存,最终巨大的功耗下性能还是无法和对手同等级显卡对比。但此时65nm工艺已经有了一些消息,Tick-Tock步骤势在必行。
AMD向外界公布80HS工艺先进性
R600出现了严重的问题,如果以2003年ATI设计这颗GPU的思路来衡量这款产品,我们可以判断它已经失败,因为耗费巨大研发实力的顶级GPU无法和对手的顶级产品相提并论,更严重的是基于R600架构的其他中低端产品也受到了高端产品的影响,改进势在必行。
80nm工艺制造的Radeon HD 2900 XT显卡
RV670已经没有时间重新设计芯片,而且巨大的设计成本和GPU相对较短的生命历程,也让AMD放弃了这个决定,ATI只是在芯片的内部进行了一些细微的调整,加入了DirectX 10.1技术的支持,同时得益于AMD在半导体工艺方面的经验以及和TSMC方面的紧密合作,RV670正在悄然发生转变……
代号RV670的工艺改进版显卡
RV670的GPU微架构并没有任何大的改动,只是将内存控制器由512bit缩减到256bit,这样就带来了芯片内部线长的大幅度下降,同时GPU需要的显存数目也有很大减少,显卡整体制造成本下降。
RV670可以说是完封不动的工艺微缩,这样的做法我们认为主要是为了更快地把成熟产品做工艺提升后的微缩化产品推出市场。不过在技术特性上,RV670通过简单改进,实现了Direct3D 10.1、PCI Express 2.0 x16以及PowerPlay的支持,这些细节方面的改进最后成为了用户非常欣赏的产品亮点。
● RV770无明显Tick-Tock节奏
RV670也无法摘得性能桂冠,所以随后发布的RV770芯片走上了一条小布快跑的的道路,但是也背离了Tick-Tock战略的节奏。RV770首先决定使用新工艺,AMD在RV670上已经试水了这种做法,效果一般。RV770是一颗经过了重新设计的芯片,无论是内部架构还是规模,都得到了合理的优化。
RV770足够小 但是透支了未来
R600和RV670都具备4个渲染核心,总共320个流处理器。而在RV770上,AMD把这两个数字分别扩大到了10和800,整整2.5倍的运算能力提升。扩充后的RV770已经拥有了1TFLOPS以上的运算能力。当然RV770还有基于内部结构方面的一些优化改进,它可不是简单的放大1倍处理器规模。
RV770运算资源的大幅度扩充带来Shader单元的性能提升,但是让NVIDIA更没有想到的是ATI潜心研究改进了R600以来GPU的后端设计,主要是RBE(Render Back-End)单元,也就是NVIDIA所称的ROP单元。RV770另一个值得称道的地方在于它彻底摒弃了一直处于争议的R600 Ringbus环形内存控制器总线,使用AMD擅长的Crossbar总线。
2009年09月23日,AMD为我们带来了基于DirectX 11的Radeon HD5870显卡。它采用第二代40nm工艺制造、搭载第四代GDDR5显存、拥有1600个流处理器。 除了规模上的扩张,RV870还竭力弥补了R600架构之前遗憾。在核心芯片使用TSMC 40nm工艺情况下,核心面积为334mm2,配备有21.5亿个晶体管。
过去由于过分注重成本,从R600开始AMD家族的通用运算能力就落后对手不少。AMD在RV870上着重改进了这一点,新加入的LDS(Local Data Share)有效提升了存储性能,改善了流处理器的执行效率。
● R800延伸品艰难扭转局面
不过这种快速发布产品的节奏让AMD背上较大的研发压力,一旦工艺端和架构端同时出现短板,则情况会变得非常危险。所以Barts以及Cayman在流处理器没有突破1600个的情况下,开始优化内部结构,因为R800理论上基于IC设计层面,R800还可以继续扩展规模,但是实际操作中几乎已经不可能了。
RV870芯片近照 单一单元过度重复
IC设计中,不是晶体管多内部互联线长就会过度,要看芯片具体结构,大量重复的单元才会导致线长急剧放大,RV870正是这一方面的典型案例,AMD自己和台积电已经很难再承受单一单元的多次重复了。
2010年末的两次架构改进,都围绕构架的线程管理发放机制名为Ultra Threaded Dispetch Processor,简称UTDP,整个构架体系使用2套UTDP对线程进行管理,UTDP衔接着Geometry(几何引擎)与整个体系的ALU CORE,Barts及Cayman内部的全部ALU均直接被UTDP控制。
Cayman芯片借鉴了Fermi在几何端充裕的曲面细分单元构成思路,为Cayman核心搭载了双图形引擎。通过构建双图形引擎设计,不言而喻Tessellation单元将会由此设计倍增,从而更好的适应目前DirectX 11应用。当然加倍的不仅仅是Tessellation单元,在顶点、几何等计算中也会相对老核心架构有双倍提升。时间到了2011年,我们看到了Barts和Cayman架构的不断演变发展,但是始终基于40nm工艺的芯片优化和放大已经让人很难感受到Tick-Tock的意味。
● 未来步伐决定鹿死谁手
当我们看完了前文对于NVIDIA和AMD的芯片级产品路线分析之后,发现这些无工厂半导体企业活的也很累,而且在TSMC的产能垄断之下,必须让自己的芯片EDA设计更加规范,更加符合市场需求才能获得更多厂房数量支持,保证基本的芯片供应。
很明显未来NVIDIA和AMD的Tick-Tock战略步伐非常重要,为了在投资量已经极大的每一步研发中尽量少出问题,它们必须让工艺和架构循环往复互相适应,所以笔者愿意在文章末尾对目前已经得到的信息做一些分享和思维加工。
更大面积晶元是制造保障
我们获悉AMD将在2012年年初抢先推出28nm新工艺的下代显卡“南方群岛”,NVIDIA同样新工艺的“开普勒”同样在2011年初发布,这是目前已经达成的共识。但是共识不会出错吗?
NVIDIA下代GPU产品将会改进一次架构,变成开普勒新架构GPU,但是也完全有可能不变架构,走一次tick路线,网站SemiAccurate于日前对外曝光了NVIDIA公司28nm移动GPU的相关信息。最关键的就是这些28nm GPU并非基于下代Kepler架构,而是对当前Fermi架构进行改进。
AMD方面虽然铺天盖地的消息都是其28nm工艺显卡正在转向 Graphic Core Next设计,但是我们依然认为:AMD设计的RV670核心通过55nm工艺成就了最快的R600,无论是每瓦特/每平方毫米性能,还是绝对频率潜力,RV670都有出色的性能。
在本次Cayman核心遭遇到半导体工艺限制之时,新一代AMD Graphic Core Next暂时无法弥补市场空隙,Radeon HD 7000在完全可以再走一次RV670路线,一颗身材纤细而频率极高的Cayman核心一定会带来惊人效果。
选择显卡不仅是一次消费体验,隐藏在这背后的GPU厂商Tick-Tock战略也是我们关注的焦点。无论是通过8600GT试水65nm工艺还是通过GT240试水40nm工艺或是在2012年通过Fermi架构试水28nm工艺,NVIDIA都有足量的迂回筹码掌握在自己手中。AMD比较在乎手头资源的全面发挥,所以RV670试水65nm工艺,RV740试水40nm工艺也算是成功的策略,不过目前的Cayman显得失去空间非常局促,所以亟待新工艺为它提升性能。
28nm工艺兵临城下,由于Fermi和Cayman的芯片规模已经达到25亿-32亿左右,所以选择新架构老工艺已经失去可能性,所以选择上代架构进行新工艺拓展,是两个老冤家的必经之路。不过在通过新工艺拓展芯片规模的同时,是否激进地选择新架构同时登场呢?答案众说纷纭,希望读者朋友们选择和ZOL显卡频道的各位战友一同欣赏2012年GPU市场大乱斗。
再议Tick-Tock战略价值与意义
Tick-Tock对整个产业是有明显正面意义的。典型的案例是在Fermi时代,NVIDIA在Cache投入方面的问题就是决策级的,它虽然意味着更先进的理念和特性,但当时的NVIDIA并不具备完美掌控它的能力。虽然NVIDIA通过后手补充修正了Cache的问题,但却也因此而不得不面对新的问题。如果没有Tick-Tock,产品的生命周期会直接让Cache及其后续所带来的问题激化或者难以被修复。
2007年末AMD在身陷绝境的时候Tick思路的RV670诞生了,它放弃了对性能桂冠的仰望,却通过简单修正RBE问题并使用新的总线降低晶体管消耗,以此提升良率来赢得市场,才有后期RV770的精准市场定位。
如果没有Tick-Tock过程,很多决策级的错误是很难被修正的。这无论对GPU芯片厂商还是对最终用户来说都将是一个悲剧。我们常说为人做事留有余地,在芯片级厂商眼里其实就是应用Tick-Tock循环加深对架构和工艺的微调,也让自己有更大的错误回退余地,最终目标还是打造价值型GPU产品,这对于显卡厂商也会降低设计难度,对于最终用户显卡的使用体验才能做到更好。