ZOL首页 > 显卡 > 评测 > 1000元以上 >

AMD对GPU架构的不断改进和优化

ATI Radeon HD 4850

明星编辑

超越图形界限 AMD并行计算技术全面解析

CBSi中国·ZOL 作者：中关村在线濮元恺 责任编辑：王胤韬【原创】 2010年08月25日 06:20 评论

在本页阅读全文（共53页）

● AMD对GPU架构的不断改进和优化

2007年6月3日，AIT终结了长达7个月的等待时间，Radeon HD 2000家族终于发布。业内第一片DX10 GPU的头衔被G80抢了去，不过ATI这次也没有完全被NVIDIA牵着鼻子走。除了对DX10和统一着色架构的支持外，R600还加入了一些特有的功能。例如，独立于几何着色器（Geometry Shader）的专用曲面细分单元（tessellation），加入属于Direct X 10.1范畴的可编程AA功能等。

AMD统一渲染GPU架构历程回顾与评测
80nm工艺制造的Radeon HD 2900 XT

R600架构在最后的设计阶段，已经发现了明显的问题，那就是SIMD结构的流处理器在使用了VLIW之后，过分依赖指令系统和编译器的效率。如果说流处理器数量足够多，则可以在宏观上抑制这种性能下降，但是R600但是只有320个流处理器。

RV770可以说是AMD化腐朽为神奇的力作，较之R600，RV770不仅将公共汽车一般缓慢的Ringbus换成了高速直连的Crossbar，而且还追加了大量的资源，比如为16个VLIW CORE配置了16K的Local Data Share，同时将原有的Global Data Share容量翻倍到了16K，在此基础上，还将VLIW CORE规模整体放大到了R600的250%（320个提升到800个），另外，在后端配置的RBE单元以及更加完善的TA/TF也促成了RV770的脱胎换骨。

AMD统一渲染GPU架构历程回顾与评测
代号RV670的工艺改进版显卡 Radeon HD3870

在扩展ALU资源的基础之上，AMD还在做着另外一件事，那就是尽一切可能逐步优化较为古老和低效的SIMD结构。在RV7中对LDS的空间直接读写操作管理等改进就是这类努力地开始。这导致了R600和R700在Shader Program执行方面有很大差别。R600的Shader Program是Vertical Mode（5D）+Horizontal Mode（16x5D）的混合模式。而RV770是单纯的Vertical Mode（16x4D=64D & 16*1D=16D，即64D+16D）。

2009年09月23日，AMD为我们带来了基于DirectX 11的Radeon HD5870显卡。它采用第二代40nm工艺制造、搭载第四代GDDR5显存、拥有1600个流处理器、Eyeinfinty多屏显示技术、超低待机功耗等。最为关键的是Radeon HD5870满足了DirectX 11的一切设计要求，同时取得了对NVIDIA上一代顶级单卡Geforce GTX285的全面领先。

AMD统一渲染GPU架构历程回顾与评测
定位出色的Radeon HD 4850

除了规模上的扩张，RV870还竭力弥补了R600架构之前遗憾。过去，由于过分注重成本，从R600开始AMD家族的通用运算能力就落后对手不少。AMD在RV870上着重改进了这一点，新加入的LDS（Local Data Share）有效提升了存储性能，改善了流处理器的执行效率。RV870不但支持微软DirectCompute和苹果OpenCL通用计算平台，还重新优化了数据共享结构，提供了完整的多级缓存供流计算使用，并且优化了访存能力。抢占式多线程虽然在技术层面略逊于Fermi的多级多分配并行多线程设计，但是就技术的标准来讲，RV870与对手站到了同一起跑线上。

AMD从R600核心开始，一直延续着上述理念设计GPU产品，R600身上有很多传统GPU的影子，其Stream Processing Units很像上代的Shader Units，它依然是传统的SIMD架构。这些SIMD架构的5D ALU使用VLIW技术，可以用一条指令完成多个对数值的计算。

双刃剑伤及自身？Fermi激进技术优劣谈
当之无愧的一代显卡王者 Radeon HD 5870

由于内部的5个1D ALU共享同一个指令发射端口，因此宏观上R600应该算是SIMD（单指令多数据流）的5D矢量架构。但是R600内部的这5个ALU与传统GPU的ALU有所不同，它们是各自独立能够处理任意组合的1D/2D/3D/4D/5D指令，完美支持Co-issue（矢量指令和标量指令并行执行），因此微观上可以将其称为5D Superscalar超标量架构。

SIMD虽然很大程度上缓解了标量指令执行效率低下的问题，但依然无法最大限度的发挥ALU运算能力，尤其是一旦遇上循环嵌套分支等情况，SIMD在矢量处理方面高效能的优势将会被损失殆尽。同时VLIW的效率依赖于指令系统和编译器的效率。SIMD加VLIW在通用计算上弱势的原因就在于打包发送和拆包过程。

AMD所使用的SIMD结构流处理器，具有非常明显的优势就是执行全4D指令时简洁高效，对晶体管的需求量更小。而NVIDIA为了达到MIMD流处理器设计，消耗了太多晶体管资源，同时促使NVIDIA大量花费晶体管的还有庞大的线程仲裁机制、端口、缓存和寄存器等等周边资源。NVIDIA为了TLP（线程并行度）付出了太多的代价，而这一切代价，都是为了GPU能更好地运行在各种复杂环境下。

    NVIDIA在最近3年中更新了3次GPU硬件架构，它们分别是：

    ● 面向DirectX 10游戏设计以G80G92为主的第一代统一渲染架构
    ● 面向游戏和通用计算并重的GT200架构（不包含GT210 220 240）
    ● 面向大规模并行计算和游戏并重的Fermi GF100架构

    而ATI在最近3年中，成功推出了4款GPU硬件架构，它们分别是：

    ● HD2000系列第一代统一渲染架构
    ● HD3000系列平衡和改进型统一渲染架构
    ● HD4000系列扩张型优化后端和增添LDS缓冲架构
    ● HD5000系列支持DirectX 11放大版优化通用计算统一渲染架构

几乎在每一代架构更替中，AMD都能通过其强大的细分市场能力制造出数量庞大而又密集的GPU产品线，NVIDIA的产品线则相对于单一，特别是在1000元以下市场很容易被对手包围。

AMD强大的细分市场能力已经无数次得到市场验证，特别是HD5000系列产品中，在确认了HD5870的优势之后，AMD不断细化市场，诞生了以下几个定位卓越市场控制力优秀的产品：

双刃剑伤及自身？Fermi激进技术优劣谈
AMD密集的产品线规划

    ● HD5970 单卡双芯设计，代表了目前单卡GPU顶级性能；
    ● HD5870 最强单卡单芯设计，在功耗和发热可控的情况下提供优秀的3D性能
    ● HD5830 高性能级别GPU产品，流处理器数量精简到1120个，让用户可以用更低的价格买到高端GPU；
    ● HD5770 拥有和GTX260+相仿的性能，但是999元的售价非常切合主流用户的消费心理；
    ● HD5670 超越NVIDIA的GT240，和9800GT平起平坐，价格上具有一定优势；
    ● HD5550 在500价位上提供了DirectX 11、Eyefinity和Stream等技术支持，320个流处理器让它压制了对手GT220的进攻，超低价格和新技术是主要卖点。