1想提前拆开“新年礼物”么?
夫時有否泰,故用有行藏;卦有小大,故辞有险易。一时之制,可反而用也;一时之吉,可反而凶也。寻名以观其吉凶,举时以观其动静,则一体之变,由斯可见矣。
——《周易略例•明卦适变通爻》
2012年马上就要过去了,在这个多少有些特殊的年份里,许多人都收获了甚至可以说是五味杂陈的感受,AMD便是其中之一。满携革新之风的Tahiti为AMD的2012开了一个好头,但在这一年的结尾,各色各样的困难却让AMD陷入了疲于应付的状态。一时之吉,未能带来一世的安泰。
值得庆幸的是,2012年很快就要过去了,随着时间车轮的滚动,新的一年正带着更多的希望向我们靠近。这些“新年礼物”不光预示着各种各样的好兆头,有些甚至还有扭转乾坤的可能,即将到来的Sea Islands架构,包括Venus、MarsHD8000系列显卡,便是其中之一。
Sea Islands是AMD继Southern Islands的Radeon HD 7000之后推出的全新一代GPU架构系列,它包括对应旗舰级的Venus,对应sweet spot级的Mars以及面向中端的Oland三款架构,从更新状况来看,Sea Islands可以被视为GCN系列的改进和延伸。在这些架构中,规格最高、规模最大同时也最全的Venus显然是最引人注目的新图形架构。
就像每一个面对一大堆五颜六色的礼物包装盒憧憬内容的小朋友一样,我们很自然的会对Venus架构以及全新的Radeon HD 8900显卡产品产生各种各样的猜测和幻想。而当我们意识到在结合GPU发展一般规律以及对当前AMD图形架构所处环境进行分析之后,我们完全有可能贴近即将到来的未来时,这种愿望会变的更加迫切。
还记得之前在GeForce GTX 660以及GeForce GTX 660 Ti发布之前我们一起玩过的预测游戏么?想提前知道即将到来的Venus架构以及全新的Radeon HD 8900会长成什么样子么?OK,让我们再来一次有趣的探索之旅,一起预测和展望一下Venus架构的尊荣吧。
》现在去显卡道转转《|》看看今日最新文章《
2模块化的奇妙关联
● 模块化的奇妙关联
在进行今天的展望和探讨之前,我们首先要引入一个既熟悉又陌生的概念,那就是体系化。体系化的概念不仅可以让我们更好地了解DirectX 11时代GPU设计理念的变迁,更可以大幅简化我们进行性能预测时所需要订立的目标。
在进入DirectX 11时代之后,尤其是以Tahiti架构为代表的GCN出现之后,GPU架构的设计已经彻底进入了一个模块化并行的时代。无论是NVIDIA的SM/SMX还是AMD的CU,它们都是由ALU集群、独立且完整的缓冲体系、完整的Texture Array、任务仲裁/分派控制机制以及相关互联以体系化的形式结成运算模块单元所构成的。作为二级并行机制的一部分,这些体系化的运算模块单元已经变成了整个架构中最基本的组成部分。
Tahiti构架细节,“GCN”区域即为CU单元
一个SM/SMX/CU的构成,从逻辑结构的层面上来讲已经达到了一整颗传统GPU,比如RV870之类的复杂程度。我们所面对的最基本单元,也因此而从传统的ALU/流处理器+Texture Unit+几何部分变成了这些运算模块单元。新的属于DirectX 11时代的这种设计理念与DirectX 11本身打破运算与图形操作界限的特性,让GPU架构的整体效率对决从传统的不同单元的各自为战,变成了宏观并行度统御和影响下微观运算模块单元效率之间的对决。
由于一个模块内部包含了从运算到操作的全部单元,同时具备了自己的缓冲体系、任务管理机制以及互联模式,因此一旦单元设计凝固,整个架构的效率也就大体上固定了。与此同时,虽然并不会发生直接联系和转换,但诸如材质之类的纯图形“操作”单元的能力也因此和单元内部ALU所具备的总运算能力以一个固定的比例对应了起来。比如说CU单元的Vector ALU与Texture Filter单元的比例为16:1,无论ALU单元总量怎样增减,GCN体系的Texture Filter都会以1/16的比例进行同步增减。
GTX680逻辑构架
这导致了一个有趣的结果,那就是只要运算模块的结构保持不变,我们就可以非常直接的以特定的运算能力来作为衡量新架构整体性能的基本要素,而不用像过去那样还要考虑诸如Texture之类大幅变化对图形性能的影响。
3目标在哪里?
● 目标在哪里?
得益于模块化的设计理念,我们可以直接以运算能力来衡量整个体系的性能指标。而伴随着HPC领域对GPU设计的影响,以及AMD对HPC领域重视度的不断提升,架构的理论双精度浮点能力或者说架构理论上可以达到的双精度浮点能力,已经成了影响架构运算能力设计目标的最根本要素。双精度浮点运算能力会因架构设计特性而与单精度浮点运算能力对应起来,进而直接对应架构ALU的总量,并因此而同整个架构的各种能力发生联系。所以只要设定好双精度运算能力的界限,我们就可以正式开始今天的预测了。
Venus的目标:GK110
需要特别提及的是,“具备”能力和“拥有”能力是完全不同的两个概念,不具备能力就不可能拥有能力,但没有能力并不代表不具备能力。因为应用场合不同,架构存在关闭或者通过特定手段限制已经具备的双精度浮点运算能力的情况,比如GeForce/Tesla这样未直接配备足量FMA但具备其他必备资源和实现条件的产品就是典型,单纯以受到限制之后的GeForce来衡量整个架构设计之初的DP能力是不科学的,所以我们使用了“架构理论上可以达到的双精度浮点能力”这样的说法。看待架构的DP运算能力应当以最底层或者说最核心的HPC需求作为依据,单纯从图形市场的状态出发是很难获得正确结论的。
AMD目前尚不具备为HPC市场以及民用市场分别提供两套不同架构的能力,因此HPC市场直接竞争对手的表现,可以被用来作为界定HD8000系列性能指标的重要参考依据。NVIDIA已于11月初正式发布并出货了基于GK110架构的Tesla K20/K20X,他们分别具备1.31T Flops以及1.17T Flops的双精度浮点运算能力,因此我们认为HD8000系列的顶级架构,也就是Venus架构的旗舰级产品应当具备1.2T Flops左右的双精度浮点运算能力。这一数值领先Tahiti架构的首发产品Radeon HD 7970约26.7%,同时也意味着大体相当甚至可能幅度更大的图形性能提升。
4不变与万变
● 不变与万变
要达到某些特定的性能参数,GPU可以做出的调整有多种方向,比如运算单元微结构的改进,Texture、后端以及运算单元三者比例之类逻辑结构基本特征值的调整或者缓冲及辅助资源的追加等等。或者也有非常干脆的方式,比如扩大GPU的整体规模、提升频率或者将两者有机的结合在一起。
综合GPU自然发展规律,时间要素以及AMD当前所处的状态,我们倾向于在即将到来的Venus架构中,AMD不会对GPU的运算部分也就是CU单元结构进行大规模调整的预测。大幅改变CU单元意味着重设GPU的运算部分,有介于我们前页所展现的DirectX 11时代GPU架构的模块化特征,这几乎等于重新开发了一颗全新的GPU架构。同时,在Venus中启用看似合理的晶体管负担更轻但DP性能更弱的CU结构,还意味着Tahiti逻辑结构的短寿以及先前为进军HPC方向所做诸多努力的被否定,AMD在其中所投注的大量研究资源仅能获得很低的利用周期和价值转化率,还会因此而继续丧失获得寄存器使用经验的机会并进一步加重竞争节奏的错位。无论从哪个角度出发,这应该都不属于很划算的选择。
Tahiti构架CU结构细节
同样不太可能会改变的还有显存控制器的结构。尽管删减MC单元的规模将可以极大地减少GPU芯片的晶体管总量,腾出更多资源用以强化其他部分。但以Tahiti的表现来看,GCN架构整体上属于显存饥渴型结构,显存带宽在性能组成中占据了很大的比例,如果要在削减显存带宽的前提下维持Tahiti等级的显存带宽等级,AMD至少需要装配7500MHz(256Bit、240GB/s)的显存颗粒,这样的颗粒无论产量还是成本都无法令人满意。但考虑到AMD历来喜欢在显存上进行冒险并总能获得命运之神的眷顾,我们将在后面的预测中对可能出现的对应情况进行体现。
GDDR5的“豪赌”成就了RV770的经典
如果不进行微结构的重设以及运算效率的提升,那么通过平衡规模和频率之间的关系来直接提升GPU的理论处理能力就成了最直接的选择。大体上来讲,理论性能可以粗略的用“规模X频率”来衡量,因此放大规模以及提神频率都可以很直接的为GPU带来性能提升,尽管来自单元复用率的影响会让其表现出非线性增长的趋势,但对规模和频率的提升仍旧是最直接有效的提升性能的手段。放大规模和提升频率是一个结合的过程,其搭配方式多种多样,因此我们对Venus架构的预测,将主要集中在规模和频率的平衡关系以及对应后果层面。
除了规模和频率的取舍之外,一些相对细微、不会对逻辑结构产生重大重设影响,同时又更具直接效果和宣传意义的特性引入也将是Venus的变化之一。依据AMD在Evengreen、Cayman以及Tahiti中所进行的一系列研发动作,我们认为AMD有可能会在Venus中再次对曲面细分单元进行改进,第10代(以AMD所用命名方式进行延续)Tessellator单元将会进一步优化Venus的曲面细分性能。同时,在Radeon HD 7970 GHz Edition以及新Radeon HD 7950中登场的AMD Boost技术也将再次出现,并为控制整个芯片的功耗发挥作用。
5“Venus32”——以不变应万变
● “Venus32”:以不变应万变
在充分设置先决条件之后,我们对新一代Sea Islands架构的完整结构展望将正式开始。按照不同的特点及可能性,我们分别将预测结果架构命名为“Venus32”、“Venus40”、“Venus40 II”以及“Venus48”。需要特别提及的是,这些代号均为我们所设想,并非官方路线图中的正式代号。首先登场的,是优势和问题同样明显的“Venus32”。
Tahiti(HD7970)架构示意图
在第一种预测中,“Venus32”拥有同Tahiti几乎完全相同的逻辑结构,它包含32组CU ,合计2048个Vector ALU单元,这些CU将通过Dual ACE达成对称宏观并行结构。32组CU的规模同时还意味着材质端的总量不会变化,仍将维持在128 Texture Filter+512 Load/Store的总体规模。与之相对应的,32ROP的数字也将被保留下来。该方案的晶体管总量预估为42~44亿,芯片面积仍为365平方毫米,达到1.2T DP Flops的性能水平需要1175MHz的核心频率。
“Venus32”将保留Tahiti的大部分精华,如CU对wavefront的吞吐模式
“Venus32”的最大优势在于逻辑结构变化极小,芯片面积没有提升,即便考虑假设中新版本曲面细分单元加入的影响,其整体设计难度仍旧接近0,我们甚至可以直接套用Tahiti的逻辑架构示意图,并将由此制成的Radeon HD 8970看做“Radeon HD 7970 GHz Edition II”。这是研发成本最为低廉的Venus架构,无需投入太多资源便可以实现,这一要素对于当前的AMD来说无疑是极具吸引力的。
但对应的,该结构所面临的问题同样突出:由于结构规模没有放大,要达成性能提升最主要的手段便是直接提升频率。“Venus32”达成性能所需频率可以说相当的高,以Radeon HD 7970以及Radeon HD 7970 GHz Edition的频率/功耗表现来看,即便考虑TSMC工艺以及AMD进行EDA优化的可能,同时以AMD Boost加以保护和限制,该架构的功耗以及良率控制仍将面临不小的考验。因此综合来看,“Venus32”未必是最理想的选择。
6中正之作“Venu40”
● “Venu40”:中正之作
“Venus32”拥有很低的研发难度,但其自身的弱势以及所要面临的困难同样不容忽视。所以我们继续在预测中加入了新的“Venus40”架构。与“Venus32”相比,这一结构的优缺点没有那么极端,整体而言显得更趋合理。
“Venus40”逻辑架构示意图
“Venus40”拥有40组CU单元,合计2560个Vector ALU,同样以Dual ACE达成宏观并行。由于CU总量的增长,Texture Array和ROP的数量分别提升到了160和40。“Venus40”的运算单元及后端规模较之Tahiti整体放大了25%,CU单元的增长同时带来了L1 Cache总量的提升,结合各方面因素考虑,我们认为“Venus40”的晶体管总量将在50~52亿左右,芯片面积预估为430平方毫米,该架构达到1.2T DP Flops需要925MHz。
与“Venus32”相比,“Venus40”的规模更大,这改变了其在性能界限要求下的“规模/频率”的平衡模式。达成同样的性能指标,“Venus40”所需要的频率将会更低,这将在一定程度上缓解“Venus32”面临的已经在Tahiti架构中表现出来的高频功耗激增问题,同时还为HPC及民用领域进一步的性能增长需求留下了余地。综合而言,“Venus40”拥有更好的可操作性。
会被保留的部分:Tahiti构架缓冲体系
“Venus40”的优势在于规模提升,但其所面临的问题同样由规模提升所引起。由于规模的放大以及芯片面积的增加,“Venus40”仍将是一款需要重设并进行规模放大的架构,这让它需要面对设计研发投入等资源性问题。在此基础上,虽然“Venus40”的芯片尺寸并不算十分巨大,但仍旧明显超越了AMD在DirectX 11时代的D线(什么是D线? 它会导致怎样的问题?),这为芯片的可制造性以及功耗表现带来了相当程度的隐患。
7险中求胜的“Venu40 II”
● “Venu40 II”:险中求胜
诚如我们在前面文章中提到的那样,削减MC规模对AMD来说是一种冒险,但它并非不可能发生,因此我们继续给出了第二种“Venus40”结构的推测——“Venus40 II”。
“Venus40 II”逻辑架构示意图
“Venus40 II”在运算单元部分同“Venus40”的结构是一致的,在达成同样的理论双精度浮点运算能力时的频率也完全相同,两者最大的区别在于显存控制器以及ROP。“Venus40 II”将采用256Bit显存位宽,即4组双通道64bit显存控制器,在这样的显存位宽下,7000MHz频率运行的显存体系将带来224GB/s的带宽,而7500MHz频率运行的显存体系则可以带来240GB/s的显存带宽。
虽然单纯从数字上看,“Venus40 II”能够获得的显存带宽甚至未达到Radeon HD 7970的水平,而且更高的显存频率还会带来更大的延迟参数,运算单元/ROP/MC三者比例的调整带来的开发难度以及0.28ns GDDR5显存颗粒的出货情况也都存在风险和变数,但相比于Tahiti以及“Venus40”所采用的6组双通道64bit显存控制器的方案,我们估计“Venus40 II”的显存控制器方案可以节约4亿左右的晶体管总量,芯片面积亦会因此而缩减到400平方毫米甚至更低的尺寸,届时如果能够和好的搭配AMD Boost功能来压制功耗,其实际功耗表现将可能类似Cayman的状态,这对于备受D线压迫的AMD而言无疑是很有诱惑力的选择。
其实我们不应该对“Venus40 II”这样的结构和调整感到陌生,类似的做法在RV670以及RV770中都曾经出现过。AMD连续两次对高速显存的赌博都收获颇丰,选择在困难时祈求命运之神能够再次垂青,对当下的AMD而言也是可以理解的。
8“Venus48”——最和谐但也最困难的选择
● “Venus48”:最和谐但也最困难的选择
以个人而言,我是一个轻度的强迫症患者,追求“完美事物”,“Venus40”的ROP和CU/MC对齐度较低,而“Venus40 II”的结构改变和显存带宽同样让其显得并不完美,这让这款图形架构看起来多少让人觉得有些“别扭”。
“Venus48”逻辑架构示意图
“Venus48”的整体规模较之“Venus40”又有了进一步的放大,它拥有48组CU,3072个Vector ALU,192个Texture Array以及48组ROP,这些结构依旧以Dual ACE达成宏观的对称并行。“Venus48”的晶体管规模预估为60亿左右,芯片面积预估为505平方毫米,在达到1.2T DP Flops的性能指标时,其核心频率为770MHz。
强大同时看上去非常“和谐”,这是“Venus48”架构最为突出的特点。它不仅运算单元规模充足,前后端以及传统图形/运算资源的分布也更加对称和适宜,在实现相同性能指标时需要的频率更低,我们认为这是不考虑各种外部环境因素影响前提下最为强大和完整的GCN架构。
TSMC 28nm Wafer恐怕难以承载“Venus48”的压力
尽管我们甚至已经用上了“和谐”这样的形容词,但这并不意味着“Venus48”就是“无敌”的存在,它要面对的困难和挑战在三款架构中最为根本,同时也最难以逾越。同“Venus40”一样,“Venus48”的芯片面积大幅超越了AMD面前的D线,其对D线的跨越幅度(37.6%)甚至超过了ATI的末代产品R580(25.2%),500平方毫米级别的芯片尺寸虽然在GPU发展史上并非没有先河,但对于已经5年未曾涉足大尺寸芯片布局及制造过程的AMD来说,无论从经验、能力还是可以投注的资源总量来衡量,这样的芯片被制造出来的可能性对现在的它来说都是极小的。除此之外,庞大的运算部分本身虽然带来了可观的理论运算资源,但也对管理机制提出了更大的要求,以Tahiti的Dual ACE对这样的运算部分进行管理,“Venus48”的单元复用率以及整个架构的效率将面临不小的考验。
9前路的困境
● 前路的困境
这世界是平衡的,任何想要达成的目标背后都有不能回避的代价问题。无论是我们预测的上述架构还是其他更好的方案,想要达成任何程度的改进,AMD都要面对一系列亟待解决的问题。
由于我们已经多次提及的原因,AMD在Tahiti时代背负了沉重的寄存器总量以及晶体管负担,同时并没有获得足够好的双精度浮点运算“效率”。提升同样比例的DP性能,GCN架构所要付出的晶体管和ALU总量代价都要高于Kepler架构(4K per ALU+1/4 speed DP vs 1.33K per ALU+1/3 speed DP)。与此同时,正如我们在前页所提到的,在Venus架构中对CU单元进行充分的优化甚至换代并不符合GPU技术进步的一般积累规律以及当下AMD的实际状况,而简单地削减DP性能又不符合AMD前期投资回报+后续发展方向的要求。于是伴随着CU结构的保留,寄存器负担的问题也就会在HD8000时代继续扮演反面角色了,任何程度的规模改动都要顾及其所产生的负面影响。
可以作为寄存器出现的6T sram单元
与晶体管负担一同出现并相互“配合”的,还有我们经常面对的D线(什么是D线? 它会导致怎样的问题?)。AMD在DirectX 11时代划出的D线上空间界限在367平方毫米左右,如果AMD更倾向于扩大芯片规模来达成性能指标,那么其晶体管数量及芯片面积势必会随之线性放大。Tahiti的芯片面积已经达到了365平方毫米,所以我们给出的大部分预测方案中的规模放大模式,都会导致Venus架构的面积明显超越D线。
晶体管负担以及D线共同作用,导致了Venus最直接的困境,那就是可制造性问题以及频率/功耗压力。如果放大规模,Venus的芯片面积势必会给良率和芯片布局能力带来了明显的考验,平衡成本并让芯片具备充分的出货将是AMD亟待解决的问题。另外,另一个伴生的问题,也就是功耗压力与频率取舍之间的关系也将考验HD8000时代的AMD。
在这些现实问题面前,究竟该如何权衡利弊,选择怎样的Venus形态才能“反一时之制为用”,是AMD在新一代架构中必须面临的考验。寻名以观其吉凶,举时以观其动静,AMD能否最终通过考验,答案将在2013年揭晓。
10Venus,存续之战的关键
● Venus,存续之战的关键
模块化的设计特点不仅反映了DirectX 11时代GPU的设计特点,同时也揭示了新时代GPU对决的本质——GPU架构能力的竞赛,已经从单纯运算性能或者图形性能参数比拼变成了单元复用率、宏观并行度以及理论运算性能共同决定的竞争,其中单元复用率和理论性能都决定于运算模块单元的设计细节。伴随着缓冲体系、任务仲裁机制以及图形/运算结合日益紧密等等要素影响的不断加深,运算模块的完整以及复杂度在不断提升,这导致它需要更多并且是越来越多的积累才能有所革新并提升效率,所以一款GPU架构的成败已经不再是一段特定时期或者某个特定领域投入所能够决定的事了,它已经变成了一个需要漫长、厚重、全面的积累,正确的实施节奏以及果决的执行力所共同决定的体系化的过程。
值得借鉴的经验:G80~GF100寄存器密度变迁(图片引自后藤弘茂先生博客)
对于Venus的开发者来说,眼下的局面无疑是困难的。无论体系研发过程、推进变革的执行力还是当下可用的资源情况,AMD都面临着形形色色的问题和考验。Tahiti虽然进行了大量触及AMD GPU体系灵魂层面的重大变革,但这些变革仍旧不足以弥补先前长达5年时间里其所积累的各种不足和节奏性问题。在这样的大前提下,Venus架构最需要的并不是平衡规模和频率,或者努力在各种限制条件的夹缝中寻找一个所谓最适宜的解决方案,而是全面审视并重新评估自己以及竞争对手设计方案上的优劣,更加积极的在微观结构的设计上进行追赶和突破,以此来重新夺回竞争中的主动权。
但这一切都需要两样东西:钱,以及稳定成熟的研发团队。
从内心深处来讲,这是我们第一次在制作架构预测文章的过程中希望自己完全猜错了。诚如我们所言,上述这些Venus架构几乎都是在各种无法回避的限制条件间寻找平衡和妥协的产物,我们并不喜欢这些过多受制的方案。我们最渴望加入的展望,本来是一个CU单元大幅调整,甩掉寄存器包袱并以由此换来的晶体管继续强化Texture以及缓冲部分,外围采Quad ACE进行4单元并行,最终性能功耗比能给人更多遐想空间的架构方案。但很明显,生存不是童话……
对于AMD而言,当下最直接也是最紧要的任务,在于通过Venus架构领衔的Sea Islands架构系列产品来重新取得市场的青睐,增大图形部门的营收并进一步改善公司的资金状况。能否最终达成这样的结果,不仅关系到AMD的存续,更影响着竞争对手以及整个业界的进一步发展——如果Venus“不给力”,GK110甚至将可能不会进入图形市场,GK104再战一年这种前景应该不会为大多数人所乐见。所以,我们希望AMD能够拿出更好更完善地解决方案,让Venus能够修正当前Tahiti所面临的各种问题并变得更加高效,进而完成对今后发展至关重要的经验和技术积累过程,为接下来的GPU甚至是APU架构发展提供更有力的支撑和保障。如果Venus能够成功的帮助AMD扭转颓势,那才是对所有人都有意义的结局。
11AMD Radeon HD 8970详细参数
Radeon HD 7000和GeForce GTX 600之间的对抗随着12月21日的到来在今年告一段落,那么在2013年AMD和NVIDIA又有什么力作呢?AMD未来期间Radeon HD 8900系列核心Venus的规格已经曝光,本文作者根据扎实的理论专业知识和经验,大胆预测了其四种架构,并分析利弊,让您提前零距离接触Radeon HD 8900。
推荐经销商