热点推荐
ZOL首页 > 显卡 > 评测 > 1000元以上 > 从Cayman架构改进 看下一代蓝宝显卡发展

从Cayman架构改进 看下一代蓝宝显卡发展


CBSi中国·ZOL 作者:中关村在线 濮元恺 责任编辑:林光楠 【原创】 2011年08月01日 16:34 评论
产品:HD6970 2GB GDDR5 蓝宝 显卡 回到顶部阅读

下一代蓝宝显卡发展

  Cayman是AMD在2010年底发布的一款全新GPU架构。基于Cayman的Radeon HD 6900就在NVIDIA发布GeForce GTX 570一周后发布,这表现出AMD急于改变现状的欲望,同时在Radeon HD6000时代首先发布HD6800再发布HD6900的做法在历史上也从未出现过……


从Cayman架构改进 看下一代蓝宝显卡发展
图片来自:美国“大黄蜂号”航母 RV870产品发布

  针对Cayman努力做出的改进,我们看到了AMD对图形市场现状的不满,同时以VLIW Core配合单一几何流水线为基础的R600以来图形架构,似乎成为AMD长期无法突破的瓶颈。我们已经能够遇见到进一步放大流处理器数量将受到物理限制,同时几何性能特别是三角形生成和裂变能力长期无法提升,在夹缝中寻求架构改进的确是一件左右为难的事。

  ● R800时代的荣耀与暗流

  在经济发展周期方面,喜欢中庸之道的中国经济学家始终强调要软着陆,在图形芯片架构设计方面,喜欢小步快跑的AMD总喜欢用一套可伸缩性较强的架构进行不断修补与扩展。不过对于快速变化的图形编程环境,长期坚持经典架构显然难以守住自己的江山,AMD在经历了RV770核心的成功定位之后,决定借助40nm工艺对RV770进行一次暴力放大——1600个流处理器的怪兽Radeon HD 5870出现了。

从Cayman架构改进看下一代AMD显卡发展
Radeon HD 5870跑赢摩尔定律

   我们暂且不谈RV870芯片的架构是否适合当时推出的DirectX11接口,单纯从芯片集成度和运算密度来看,Radeon HD 5870绝对是成功的,这是第一款浮点运算能力超过2TeraFlops的GPU。

从Cayman架构改进 看下一代蓝宝显卡发展
蓝宝石Radeon HD 5870公版显卡

  在提升计算能力的同时,AMD通过RV870的紧密设计将每瓦特性能和每晶体管性能提升到史无前例的水平。全世界游戏玩家享受到了暴力放大带来的硕果,AMD也通过RV770的精准定位和RV870领先的性能和众多显卡厂商赚取了等待已久的利润。

从Cayman架构改进看下一代AMD显卡发展
运算密度提升

  从放大的程度上来说,RV870相对于上代产品在单核上实现双倍的渲染单元,双倍的ROP,双倍的TMU。在这之前将R600的流处理器数目翻2.5倍,其他单元做进一步优化,AMD造就了成功的RV770。

  基于RV870的Radeon HD 5870出现和之前的积累,让AMD在2009年第三季度,公司的非GAAP净收入为200万美元,非GAAP营业收入为4700万美元。而第二季度,AMD产品公司的非GAAP净亏损则达到了2.44亿美元,非GAAP营业亏损为2.05亿美元。作为业界唯一一家能同时提供CPU+GPU+芯片组的整合平台的优势企业,其本身具有的发展能力在财报上得到了较好的反映。

  不过RV870也有自己的苦衷,首先最明确的一点是:业界特别是较为资深的分析师认为RV870是RV770扩张两倍之后,添加DirectX 11强制硬件单元之后的GPU,它并不符合微软DirectX 11设计初衷。RV870最大的问题也就出在这里,它的几何处理能力和上一代相比没有质的提升,同时微弱的并行计算能力将在ComputerShader相关应用中受到明显压制。

产品:HD6870 1G白金版 蓝宝 显卡 回到顶部阅读

四代产品延续同一架构

  ● 四代产品延续同一架构

  从AMD Radeon HD 2000开始,直到Radeon HD 5000最后一款产品发布结束,我们看到的GPU单元核心架构始终是一成不变的——一个UDTP线程分配仲裁器、一个几何单元、每个线程处理器包含5个1D ALU、5个1D ALU以VLIW超长指令字打包方式和外界进行通讯。


从Cayman架构改进 看下一代蓝宝显卡发展
蓝宝石Radeon HD 2900XT

  GPU全局:

  Radeon HD 2000标志着AMD也跟随NVIDIA的脚步进入了DirectX 10和统一渲染GPU架构元年。实际上在2005年AMD已经设计出了XBOX使用的统一渲染Xenos处理器。第一代R600处理器包括了前端的UDTP仲裁器、几何处理器、统一执行GS/VS/PS的线程处理器,数量充足的纹理单元和后端单元。

从Cayman架构改进看下一代AMD显卡发展
AMD统一渲染架构图示

  其中硬件Tessellator单元和统一线程处理器是整个架构的设计亮点,显存控制器从RingBus环形总线发展到CorssBar交叉总线,而纹理和后端部分到今天为止,NVIDIA和AMD方面都没有出现飞跃性的改进。

  几何部分:

  GPU前端最主要的单元是Command Processor(指令处理器)、Graphics Engine(图形装配引擎)、Ultra-Threaded Dispatch Processor(超线程分配处理器)。

从Cayman架构改进看下一代AMD显卡发展
AMD GPU几何处理器

  其中Graphics Engine部分的设计,从R600开始到现在,几何处理器之中有很多模块,包括Tessellator(镶嵌器)、Vertex Assembler(顶点装配器)、Geometry Assembler(几何装配器)、Rasterizer(光栅器)、Hierarchial-Z(多级Z缓冲模块)等。

  仲裁部分:

  AMD在R520时代ATI开始引入Ultra Threaded Dispatch Processor单元,UTDP为不同的shader类型提供了专门的命令队列窗口,这些窗口内塞满了等待执行的线程,每个线程都是若干条对输入数据处理的指令。

从Cayman架构改进看下一代AMD显卡发展
Ultra-Threaded Dispatch Processor(PCinlife网站制图)

  UTDP属于GPU前端逻辑。Ultra-Threaded Dispatch Processor,也被译为超级线程分配器,如字面意思,负责GPU全局线程分配,既然是“全局”,就应该一个GPU只有一个。

  线程处理器:

    ATI将这些ALU称作streaming processing unit,因而,ATI宣称R600拥有320个SPU。我们考虑R600的每个流处理器,它每个周期只能执行一条指令,但是流处理器中却拥有5个1D ALU。

从Cayman架构改进看下一代AMD显卡发展
R600时代的320个ALU阵列或者说64个线程处理器

  ATI为了提高ALU利用率,采用了VLIW体系(Very Large Instruction Word)设计。将多个短指令合并成为一组长的指令交给流处理器去执行。例如,R600可以5条1D指令合并为一组5DVLIW指令。

产品:HD6870 1G DDR5 蓝宝 显卡 回到顶部阅读

Barts发现问题并尝试改进

  ● Barts发现问题并尝试改进

  在经历了4代产品的发展之后,到RV870时代AMD已经意识到问题的严重性并且做出了相应对策。到了去年发布的Radeon HD 6800系列Barts核心,AMD在不能有效触碰核心线程处理器的情况下,采取了提升固定单元频率的方式来提升几何性能,同时通过分离UDTP单元的方式加强仲裁管理能力。


从Cayman架构改进 看下一代蓝宝显卡发展
蓝宝石HD6850白金版显卡

    Barts在核心架构上的变化主要有三点:

    1、Tessellator数量仍为1组,但是为增强型的Tessllator Gen7。
    2、线程控制器由Cypress的一组变为Barts现在的两组。
    3、UVD引擎升级至第三代,提供了更多功能及格式的图形核心计算模式。

  前端开始分离:

同频对比HD5000 HD6000架构效率摸底
RV870与HD6000前端设计

    其中线程控制器分为两组,是HD6800系列Barts核心性能提升的主要因素,两组线程控制器同时工作能够更有效的发挥流处理器的并行计算能力。这一改革让HD6000拥有更丰富的指令缓存和发射端资源,虽然两个UTDP单元还是采用抢占式资源分配模式,但是面对庞大的流处理器阵列时效果会比一个UTDP单元好很多。

  额定高频带来全局性能提升:

  HD6800系列Barts核心的另一个重要特点就是额定运行频率较高,其900MHz核心频率在以前的GPU中从未出现过。AMD之所以能够在这颗核心中采取高频策略的重要原因,主要原因是使用了TSMC提供的40nm CMP碱洗工艺。

多项细微改进 HD6000架构效率摸底
HD6870相对与HD5850的性能提升

    如果不考虑运行频率,HD5850和HD6870的区别只在于SIMD Core组数,也就是流处理器数量,两款芯片的固定单元数量是基本相等的(HD6800纹理单元有减少,UTDP单元翻倍)。但是当HD6870披上高频外衣之后,其线程分配能力、几何吞吐能力、光栅化与Z轴处理能力都获得了线性提升。

  高频与UDTP分离带来几何提升:

从Cayman架构改进看下一代AMD显卡发展
第七代Tessllator定义

  AMD在官方的对比中,HD6870的Tessellation性能表现最高能领先于HD5870的两倍,这表面上归功对Barts核心对Tessellation的增强,同时AMD也反复强调这是第七代Tessllator综合作用结果。

从Cayman架构改进 看下一代蓝宝显卡发展

  而我们仔细阅读AMD的注解可以发现,其曲面细分性能提升来自于改进的线程管理(两组DUTP单元),和更高的几何单元频率(前文分析过用TSMC 40nm碱洗工艺提升运行频率),同时第二组DUTP势必带来更多的缓冲存储器,在多方面作用之下Barts核心HD6800系列弥补了一定程度的性能短板。

产品:Radeon HD 6970 蓝宝 显卡 回到顶部阅读

Cayman并行体系与几何端

  ● Cayman并行体系与几何端

  基于Cayman芯片的蓝宝Radeon HD 6900系列显卡在2010年末发布,同时与Radeon HD 6800系列做好由高到中端的顺畅布线,直到Cayman发布的最后一刻我们才感受到了架构改进带来的特性提升,而在此之前AMD的很多方向性问题都是保密的。蓝宝本次发布的HD6900系列显卡包含了多个型号,其中最为正统的就是身着游戏外观的公版HD6970显卡。


从Cayman架构改进 看下一代蓝宝显卡发展
蓝宝Radeon HD 6970系列显卡

  首先Cayman在几何执行端做到了并行处理,这是AMD一直希望自己做到的,也是对当今GPU架构设计最具挑战性的难题。我们知道NVIDIA方面Fermi架构GF100 GPU基于图形处理团簇(翻译为GPC),每个GPC包含一个光栅引擎和四个SM单元。GPC是GF100占主导地位的高层次的硬件模块。

从Cayman架构改进看下一代AMD显卡发展
Cayman芯片架构示意图

  如果按照多核心CPU的角度去分析Fermi架构GPU,所有的GPC都集成了关键的图形处理单元,它包括顶点,几何,光栅,纹理均衡设置和像素处理资源。随着ROP单元功能的不断增强,一个GPC单元可以被看作是一个配置齐全的GPU,而GF100拥有4个这样的核心。本次Cayman则拥有两个不完全的“GPC”,因为Cayman芯片的流处理器、纹理和后端部分还是没有分开。

30亿晶体管的咆哮
Fermi架构GPC架构图

  Cayman之前的几代产品在几何性能上几乎没有遭遇到任何瓶颈,不过对于暴力放大的RV870芯片,其三角形生成和曲面细分能力已经成为重要障碍,特别是面对NVIDIA架构原生16个曲面细分单元时,AMD从顶级的HD5870到低端HD5450都仅有一个曲面细分单元,几何性能只能用频率划分高低。

HD6900诞生测试
并行双图形引擎

  本次从架构图上分析AMD为Cayman核心放置了两个几何单元,其实这背后牵扯到极其复杂的线程管理问题,这种设计意义非凡。双图形引擎设计,不言而喻Tessellation单元将会由此设计倍增,从而更好的适应目前DirectX 11应用。当然加倍的不仅仅是Tessellation单元,在顶点、几何等计算中也会相对老核心架构有双倍提升。

从Cayman架构改进看下一代AMD显卡发展
几何端并行化更加透彻

  双几何单元打破了AMD向来坚持的单一GPU流水线套路,三角形生成能力和曲面细分能力翻倍提升,也让AMD开始走上并行化几何处理道路。其实并行化构想在Barts时代已经提出,Barts以及Cayman构架的线程管理发放机制名为Ultra Threaded Dispetch Processor,简称UTDP,整个构架体系使用2套UTDP对线程进行管理,但Cayman的努力让几何端实现了完整彻底的并行化。

产品:Radeon HD 6970 蓝宝 显卡 回到顶部阅读

Cayman图谋线程处理器改进

  ● Cayman图谋线程处理器改进

  我们经常把GPU的Shader单元称为流处理器,这一概念是在Geforce 8时代开始的,后来因为AMD在Radeon HD 2000时代也提出了流处理器的称谓,但是其流处理器的计算方式实际上是VLIW Core单元内部ALU阵列数量,所以线程处理器应该是对VLIW Core单元最贴切的形容。

  R600开始每个VLIW Core是分“1大4小”,即一个全功能SP单元和4个仅能执行乘加运算而无法执行连乘运算的部分功能SP。R600为每个US配备了1个发射端,所以如果要保证指令吞吐不受限制就通过VLIW,也就是超长指令打包的形式将若干个短指令打包在一起。理论上可以做到1个4D+4个1D打成一个包一起丢进VLIW Core,这是VLIW结构的优势所在。


超越图形界限 AMD并行计算技术全面解析
R600到R800统一渲染流处理器架构

  由于内部的5个1D ALU共享同一个指令发射端口,因此宏观上R600应该算是SIMD(单指令多数据流)的5D矢量架构。但是R600内部的这5个ALU与传统GPU的ALU有所不同,它们是各自独立能够处理任意组合的1D/2D/3D/4D/5D指令,支持Co-issue(矢量指令和标量指令并行执行),因此微观上可以将其称为5D Superscalar超标量架构。

  不过在GPU进化发展的过程中AMD看到了这种VLIW Core线程处理器的两个核心问题:

  首先是打包方式容易造成拥堵;
  其次是5个ALU阵列构成一个线程处理器还不是最为灵活和经济的选择。

无心插柳柳成荫 GPU通用计算十年发展
AMD历代着色器演进

  VLIW打包方式可以最大限度的避免发射端不足的问题,可是如果这个包里面有一个1D指令的结果很不凑巧是同一个包里另外一个1D指令的初始条件,效率就非常低下了。同样的2个关联1D,R600需要打包—在所有寄存器中转一圈,运算第一个1D同时第2个1D挂起等待,从寄存器出来解包,把第一个1D的结果和第二个等待的1D都释放进LDS,等待再次打包,打包完成进入线程处理器计算。

从Cayman架构改进 看下一代蓝宝显卡发展

从Cayman架构改进 看下一代蓝宝显卡发展

  但是面对现实我们看到要想解决VLIW打包方式只有弃用VLIW结构,AMD目前的GPU资源充裕度特别是线程处理器发射端显然不能满足这一要求,解决的办法转移到了在线程处理器内部下功夫——VLIW4线程处理器应运而生。通过上图测试结果我们看到三代图形架构的性能差异并不是非常明显,不过在DirectX 11测试中HD6000系列显卡优势愈加明显。

产品:HD6970 2GB GDDR5 蓝宝 显卡 回到顶部阅读

VLIW4单元改进细节

  ● VLIW4单元改进细节

  本次在Cayman芯片中所采用的VLIW4线程处理器单元中的ALU阵列减为4个(删除了1个较大的ALU.transcendental单元),ALU阵列数量减少了20%,但是这种设计减少了指令调度和寄存器管理,反而提升了利用率。

  由于取消了原本5-WAY VLIW中带ALU.Trans的1D ALU,现在Cayman将通过占用3个1D ALU的资源来完成特殊函数的运算。按照AMD的说法,调整VLIW粒度为4指令Co-issue后,可以让VLIW core的性能/面积比提升10%,同时降低指令排序以及寄存器空间配置的难度,提升单位周期内电路的重复使用率,实现比5-way VLIW更佳的利用率。


从Cayman架构改进看下一代AMD显卡发展

全新的VLIW4线程处理器

  Cayman 的 4-way VLIW包含4个对等的ALU,每周期可执行4个单精度浮点算术指令(例如 FMA/MAD、ADD、MUL、或者2个双精度浮点加法指令、或者一条双精度乘加融合(FMA)或乘法指令、或者1条特殊功能单元指令。

从Cayman架构改进看下一代AMD显卡发展
流处理器之变革

  1、首先ALU.trans处理的超越计算(如正弦余弦平方根等)任务在全新的VLIW4线程处理器中可以被3个普通ALU来替代,所以删除ALU.trans之后,处理器功能不会发生缺失。

  2、其次Cayman芯片线程处理器的ALU阵列组合方式更为自由,有一种传闻认为Cayman核心的3个普通ALU计算超越函数的同时,剩下的1个1D ALU可以进行常规计算,而以往ALU.trans在进行超越函数计算过程中其他单元必须等待。

  3、同时Cayman芯片线程处理器的寄存器和发射端能力得到加强,所以ALU阵列数量虽然少了但是这种设计减少了指令调度和寄存器管理,反而提升了利用率。

  4、最后宏观来看Cayman芯片的线程处理器数量得到了提升。RV870是320个(1600个ALU阵列/5),Cayman芯片是384个(1536个ALU阵列/4)。AMD目前架构的障碍主要在VLIW线处理器内部而不在数量,所以VLIW4线程处理器单元降低了10%的晶体管占用,换来了数量提升。

产品:HD6970 2GB GDDR5 蓝宝 显卡 回到顶部阅读

28nm工艺改进之处与进展

  ● 28nm工艺改进之处与进展

  在芯片生产行业,Intel得益于旗下二十多家工厂的强大产能,产品一经发布,大规模的上市则会随后跟进。NVIDIA向来是一家无工厂半导体厂商,而AMD在2009年实现业务剥离之后,也走上了无工厂道路。实际上从Radeon HD 2000到现在,无论NVIDIA还是AMD都把芯片订单交给台积电TSMC完成,台积电完美的成本控制和较大的产能满足了全球主要GPU的供应任务,不过台积电也经常能够影响和干预行业发展节奏。


从Cayman架构改进看下一代AMD显卡发展
TSMC台积电官方网站

  目前的GPU都已经在40nm工艺上碰到了“性能墙”,基本失去了继续提升的空间,新工艺势在必行。如果按照TSMC在2009年爆出的路线图,它将会在2010年年中的时候推出32nm GPU,2011年上半年推出28nm GPU。

  在GPU制造领域制造商喜欢半代工艺,55nm是65nm的半代Half-node工艺,而40nm是45nm的半代工艺,我们本次看到的28nm工艺是Intel用来制造酷睿SNB架构32nm整代工艺Full-node的半代工艺。半代和整代的区别是半代工艺拥有更好的刻宽,所以通过改善聚焦的方式,半代工艺能够做出更小的晶体管。但是半代工艺导致的下游效应让Intel到现在都对这种所谓巧妙的蚀刻方式敬而远之。

从Cayman架构改进看下一代AMD显卡发展
TSMC在2009年的规划

  不过在今年6月传出消息:据台湾媒体报道,AMD已经利用台积电28nmHKMG工艺完成了下代显卡“南方群岛”的流片工作(此前有消息称二月份就已搞定),将在今年年底投入批量生产并正式发布。AMD高管昨日也重申,下代显卡会在年内推出。也就是说台积电28nm工艺的发展速度比我们预想的还要快,一切进展都显得非常顺利。

从Cayman架构改进 看下一代蓝宝显卡发展
TSMC路线图与蓝宝石显卡配合(点击可放大)

  使用最新的28nm工艺之后,GPU集成度在芯片面积不变的前提下会出现40%的提升,换句话说Cayman如果维持目前的规格将缩小40%面积,发热和功耗会得到非常好的控制。鉴于台积电没有使用Tri-Gate 3D制造工艺,晶体管数量不会出现异常增长,不过40%的潜力提升已经非常令人满意了。

从Cayman架构改进看下一代AMD显卡发展
不同半导体制程的面积缩小

  28nm工艺在推出时间方面令人满意,台积电在2010年成功进行了28nm SRAM测试存储芯片试产,2011年2月已经进行了一次28nm的半导体芯片试产。在上个月末,多个消息来源确认,代号“开普勒”(Kepler)的NVIDIA下一代GPU芯片已经成功流片,台积电28nm工艺再次立功。不过台积电还需要更多时间让28nm工艺进一步成熟起来,开普勒最早也要明年初问世。

产品:HD6870 1G Toxic 毒药 蓝宝 显卡 回到顶部阅读

RV670能否带给下代GPU启示

  ● RV670能否带给下代GPU启示

  目前针对AMD下一代GPU架构业界有很多种说法,毕竟在Radeon HD 2000到Radeon HD 5000时代AMD在整个产品线都维持一种非常工整的架构,区分不同档次产品的方法仅是规模。但是从Radeon HD 6000开始,同一代产品中出现了3种不同的架构——Cypress、Barts和Cayman,AMD会继续这样玩下去吗?


从Cayman架构改进看下一代AMD显卡发展

  近日AMD向开发人员推出的Catalyst 11.7预览版驱动程序,意外的公布了AMD下一代南方群岛的全部代号。从图片里分析,南方群岛将会采用新的VLIW4 SIMD架构和Graphic Core Next架构混合搭配出整条HD7000产品线,工艺方面已经确定采用新一代的28nm工艺。

从Cayman架构改进看下一代AMD显卡发展
RV670芯片面积非常完美

  那么问题来了,AMD Graphic Core Next作为一套全新的架构,能否在2012年推向市场并开始量产呢?我们在《AMD全新GPU构架深度解析》文中分析过,但凡事都有两面性,机遇与挑战从来都是并存的,对Graphics Core Next来说也是如此。巨大的架构改进可能不能获取到API和软件的合力支撑。

  按照AMD目前的实力,同时在一代产品上运行三套架构,各方面的开支都难以想象,程序必须想办法同时优化3套架构的特性,况且Graphics Core Next和VLIW4 SIMD架构差异更加恐怖,所以我们推测AMD负担不起这样沉重的任务。那么曾今使用过的一招在Radeon HD 7000上或许可以重演——延续RV670策略。

从Cayman架构改进看下一代AMD显卡发展
新工艺带来芯片面积缩小

  RV670相对于硕大的前辈R600的GPU架构并没有任何大的改动,只是将内存控制器由RingBus环行512bit缩减到CrossBar交叉256bit,这样就带来了芯片内部线长的大幅度下降,同时GPU需要的显存数目也有很大减少,显卡整体制造成本下降。

  RV670除了保留R600强悍的3D加速架构并细微调节更新支持至DirectX 10.1之外。这款GPU的最大改进在于它使用55nm工艺制造。RV670是全球第一款55nm工艺的GPU芯片,AMD在当时的制造工艺上走到了NVIDIA 前面。55nm的优势是提高集成度并缩小核心面积,RV670内含6.6亿个晶体管,因内存控制器位宽减半而低于R600,其核心面积只有192平方毫米。

  如果使用28nm工艺在制造Cayman核心,那么Radeon HD 7000就是一代完全使用Cayman架构的产品线,同时也是一代完整使用28nm工艺的产品线,最重要的是AMD可以通过更小的芯片有效攻击Sweet Spot市场,这向来是芯片制造商利润最丰厚的环节,也是显卡制造商提升竞争力和品牌影响力的价格段。

  我们认为:

  AMD设计的RV670核心通过55nm工艺成就了最快的R600,无论是每瓦特/每平方毫米性能,还是绝对频率潜力,RV670都有出色的性能。在本次Cayman核心遭遇到半导体工艺限制之时,新一代AMD Graphic Core Next暂时无法弥补市场空隙,Radeon HD 7000在完全可以再走一次RV670路线,一颗身材纤细而频率极高的Cayman核心一定会带来惊人效果。制胜的不一定是大核心带来的绝对性能,而是最终用户希望看到的高性价比产品。

  在28nm时代蓝宝将紧密配合AMD发布的相关芯片,实现最合理的产品线搭配,我们所熟悉的蓝宝毒药等高端系列显卡在下一代Radeon HD 7000时代将变为中端悍将,这种高端变中端的打法可以让更多千元市场用户获得实惠,未来的中低端显卡在28nm工艺配合下将会拥有更强悍的超频能力。

查看本文作者 濮元恺 的其他文章>>
给文章打分 5分为满分(共0人参与) 查看排行>>
频道热词:华硕主板  Intel  AMD  
视觉焦点
显卡评测热点
排行 文章标题
TOP10周热门显卡排行榜
  • 热门
  • 新品