保守还是创新？HD7000下代GPU产品前瞻

2011-12-10 05:31:00 [ 中关村在线原创 ] 作者：

濮元恺

| 责编：林光楠

收藏文章分页阅读

新浪微博 QQ空间腾讯微博人人网 QQ好友微信二维码

暂无评论

1HD7000下代GPU产品前瞻

　　● 收购ATI带AMD通向何处？

　　从2006年7月收购ATI开始，AMD正式成为唯一拥有CPU和GPU技术的厂商。当时AMD官方网站上的一则声明，最终宣布了其对ATi的收购。此次收购交易总额高达54亿美元，摩根斯坦利为AMD提供了25亿美金的贷款以完成此次交易。此举也表明了华尔街对于AMD-ATI的信心。

　　5年过去了，回头再看这次交易，不免让人担心，毕竟全新的AMD还没有发挥出自己CPU和GPU结合的技术优势，而正是从那次交易开始，Intel酷睿架构的推出让Athlon 64失去霸主地位，而NVIDIA在2006年底推出的G80架构也让AMD失去了GPU方面凭借R580架构获得的领先优势。背上沉重负担的AMD似乎失去了前进的动力和方面，再次变为一个追赶者。

保守还是创新？HD7000下代GPU产品前瞻
5年前的收购如今伤痕累累

　　2007年AMD放出的R600架构，就如同G80革命性的架构带给我们的震撼一样，R600的图形架构也让人为之一怔，空前复杂和庞大的规模令人眼花缭乱……DirectX 10、Shader Mode 4.0、统一渲染架构，再加上ATI各种创新的技术和功能，R600的核心架构发生了巨大的变化，但我们依稀也能看出其架构与上代产品有几分相似之处。

　　但是让人失望的80HS（台积电80nm高速）工艺，加上R600本身设计的很多缺憾，诸如显存位宽过大环形，总线消耗晶体管数量过多等原因，高频低能的帽子被R600接了过来，直到后期RV670芯片，AMD才找到了一条适合自己发展的道路，相反是在放弃最高性能的争夺之后，AMD赢得了板卡厂商的支持也赢得了更广泛的市场。

代号RV670的工艺改进版显卡

RV670的GPU微架构并没有任何大的改动，其核心改进就是使用65nm工艺降低GPU面积，同时将内存控制器由512bit缩减到256bit，这样就带来了芯片内部线长的大幅度下降，同时GPU需要的显存数目也有很大减少，显卡整体制造成本下降。

RV670可以说是完封不动的工艺微缩，这样的做法我们认为主要是为了更快地把成熟产品做工艺提升后的微缩化产品推出市场。不过在技术特性上，RV670通过简单改进，实现了Direct3D 10.1、PCI Express 2.0 x16以及PowerPlay的支持，这些细节方面的改进最后成为了用户非常欣赏的产品亮点。

TSMC官方首页

　　问题回来了，RV670在架构没有大幅度改进的情况下让AMD扭转乾坤，起码让它能够继续生存下去，那么历史能否在HD7000架构方面重演？历史又是否具备重演的条件？Graphic Core Next是否适合全面铺货市场？

　　证据一：芯片制造商工艺换代
　　证据二：上代架构未取得完全领先，有待改进
　　证据三：上代架构能够通过工艺改进焕发新生

2Cayman具备进一步改进空间

　　● Cayman具备进一步改进空间

　　Cayman芯片的出现并不令人惊讶，但是AMD选择在HD6000架构后期才放出这一架构，确实没有踏准节奏。实际上Cayman芯片出现最理想的时间，就在R800时代，而当时为了追求一时的爽快，将传统架构流处理器数量提升到1600个，忘记了R600以来积累的问题并不在执行端，而在GPU几何与仲裁方面。

　　但是AMD不得不面对一个重要问题，那就是数量较高的流处理器需要更庞大的仲裁机制，同时DirectX 11的核心问题曲面细分也是包含在几何端的两种Shader综合运行结果。所以Cayman按照这个思路改进之后，面临芯片面积较大而流处理器数量受到限制这一窘境，在和GTX580的对比中让出了顶级性能皇冠。

保守还是创新？HD7000下代GPU产品前瞻
Cayman芯片有价值延续到HD7000

　　首先一大改进在于Cayman XT核心采用了双图形引擎设计，不言而喻Tessellation单元将会由此设计倍增，从而更好的适应目前DirectX 11应用。当然加倍的不仅仅是Tessellation单元，在顶点、几何等计算中也会相对老核心架构有双倍提升。

几何端并行化更加透彻

　　首先Cayman在几何执行端做到了并行处理，这是AMD一直希望自己做到的，也是对当今GPU架构设计最具挑战性的难题。AMD在这颗芯片上使用的双图形引擎设计，不言而喻Tessellation单元将会由此设计倍增，从而更好的适应目前DirectX 11应用。当然加倍的不仅仅是Tessellation单元，在顶点、几何等计算中也会相对老核心架构有双倍提升。

从Cayman架构改进看下一代AMD显卡发展
全新的VLIW4线程处理器

　　我们知道Cayman核心最大的改进之处就是使用了全新的ALU计算单元组织形式，VLIW4(超长指令字，Very long instruction word)架构指的是一种被设计为可以利用指令级并行(ILP)优势的体系结构。VLIW4相比于VLIW5最特殊的地方就是去掉了体积最大、可同时处理普通整数/浮点操作和超越操作的第五个SP单元，或者说特殊功能单元(SFU)。这就意味着，每个SPU可以一次性处理的普通整数/浮点操作数从五个减少到四个，同时还可以将三个SP合并起来处理一个超越操作，这样能有效地提升了GPU运算效率。

　　本次在Cayman芯片中所采用的VLIW4线程处理器单元中的ALU阵列减为4个（删除了1个较大的ALU.transcendental单元），ALU阵列数量减少了20%，但是这种设计减少了指令调度和寄存器管理，反而提升了利用率。由于取消了原本5-WAY VLIW中带ALU.Trans的1D ALU，现在Cayman将通过占用3个1D ALU的资源来完成特殊函数的运算。

　　近日AMD向开发人员推出的Catalyst 11.7预览版驱动程序，意外的公布了AMD下一代南方群岛的全部代号。从图片里分析，南方群岛将会采用新的VLIW4 SIMD架构和Graphic Core Next架构混合搭配出整条HD7000产品线，工艺方面已经确定采用新一代的28nm工艺。

3HD7000用Cayman争取中端市场

　　● HD7000用Cayman争取中端市场

　　目前针对AMD下一代GPU架构业界有很多种说法，毕竟在Radeon HD 2000到Radeon HD 5000时代AMD在整个产品线都维持一种非常工整的架构，区分不同档次产品的方法仅是规模。但是从Radeon HD 6000开始，同一代产品中出现了3种不同的架构——Cypress、Barts和Cayman，AMD会继续这样玩下去吗？

AMD Radeon HD 7000架构预测
高端	Radeon HD 7990	Graphic Core Next（双芯）
	Radeon HD 7970	Graphic Core Next
	Radeon HD 7950	Graphic Core Next
千元级	Radeon HD 7870	Cayman VLIW-4
千元级	Radeon HD 7850	Cayman VLIW-4
千元以下	Radeon HD 7000	R800 VLIW-5
千元以下	Radeon HD 7600	R800 VLIW-5
入门	Radeon HD 7500	R800 VLIW-5

　　AMD Graphic Core Next作为一套全新的架构，能否在2012年推向市场并开始量产呢？我们在《AMD全新GPU构架深度解析》文中分析过，但凡事都有两面性，机遇与挑战从来都是并存的，对Graphics Core Next来说也是如此。巨大的架构改进可能不能获取到API和软件的合力支撑。

从Cayman架构改进看下一代AMD显卡发展
RV670芯片面积非常完美

　　按照AMD目前的实力，同时在一代产品上运行三套架构，各方面的开支都难以想象，程序必须想办法同时优化3套架构的特性，况且Graphics Core Next和VLIW4 SIMD架构差异更加恐怖，所以我们推测AMD负担不起这样沉重的任务。那么曾今使用过的一招在Radeon HD 7000上或许可以重演——延续RV670策略。

　　RV670相对于硕大的前辈R600的GPU架构并没有任何大的改动，只是将内存控制器由RingBus环行512bit缩减到CrossBar交叉256bit，这样就带来了芯片内部线长的大幅度下降，同时GPU需要的显存数目也有很大减少，显卡整体制造成本下降。

当年RV670新工艺带来芯片面积缩小

　　RV670除了保留R600强悍的3D加速架构并细微调节更新支持至DirectX 10.1之外。这款GPU的最大改进在于它使用55nm工艺制造。RV670是全球第一款55nm工艺的GPU芯片，AMD在当时的制造工艺上走到了NVIDIA 前面。55nm的优势是提高集成度并缩小核心面积，RV670内含6.6亿个晶体管，因内存控制器位宽减半而低于R600，其核心面积只有192平方毫米。

　　如果使用28nm工艺在制造Cayman核心，那么Radeon HD 7000就是一代完全使用Cayman架构的产品线，同时也是一代完整使用28nm工艺的产品线，最重要的是AMD可以通过更小的芯片有效攻击Sweet Spot市场。

4GCN架构被用作高端HD7000

　　● GCN架构被用作高端HD7000

　　GCN是AMD下一代全新GPU架构，被我们寄予厚望的原因是这套架构改进了AMD延续5年以来的大方向，转而优化GPU并行计算能力，同时灵活的前端架构可以让整个GPU拥有更好的仲裁能力，当然“多任务多引擎架构、计算单元架构、多级读写缓存架构”这些曾今只能在NVIDIA身上听到的概念如今在AMD芯片中也要成真。

重归正途迎未来 AMD全新GPU构架深度解析
Graphics Core Next CU结构

　　本次Graphics Core Next最引人瞩目的改进，就是AMD放弃了自R600以来一直坚持的VLIW打包吞吐模式。这个改动可以说彻底撼动了AMD GPU构架发展的基础。放弃VLIW不仅意味着GPU领域超长指令与普通指令分庭抗礼时代的终结，普通SIMD吞吐模式统一江湖，更标志着AMD正式“重归”GPU高性能计算应用领域。

CU单元处理模式

　　按照目前得到的消息判定Radeon HD 7970拥有完整的32组CU，总计2048个处理核心(大致相当于传统的流处理器)、128个纹理单元、64个ROP单元，同时还有接近5MB缓存：512KB一级数据缓存、384KB共享一级缓存、2MB本地数据共享(LDS)、2MB二级缓存。虽然目前还不清楚Tahiti核心的具体规模，但即便是28nm工艺，相信核心面积也不会太小。

　　Radeon HD 7970的默认核心频率将会高达1GHz，成为继Radeon HD 4890之后史上第二款破“G点”的GPU，而且后者只是限量升级版，这次是全面铺开了。显存方面也蔚为壮观：位宽拓展至384-bit，足以媲美GeForce GTX 580，同时搭配3GB GDDR5，等效频率5500MHz，带宽将达创纪录的264GB/s。

谍照曝光的显存位置分布

　　从曝光的照片中不难看出，代号Tahiti的HD7900将不再采用HD6900的256bit显存体系，虽然照片的模糊导致我们还无法100%确认最终的显存总带宽，但由谍照以及构架常规规律推测，Tahiti构架的最大位宽将为384bit。

　　昨天早上中关村在线显卡频道报道了HD7900显卡的相关谍照，这些照片也告诉我们这一代显卡果然核心面积不小，不过性能值得期待。从以上资料分析可以得到，高端HD7000系列显卡已经基本确定使用Graphics Core Next架构，它们将会为AMD确定高端优势，而性能级别的千元显卡使用28nm工艺Cayman的确是最理想的选择。