热点推荐
ZOL首页 > 显卡 > 评测 > 1000元以上 >

揭秘GPU高性能计算关键

超越图形界限 AMD并行计算技术全面解析

CBSi中国·ZOL 作者:中关村在线 濮元恺 责任编辑:王胤韬 【原创】 2010年08月25日 06:20 评论
在本页阅读全文(共53页)

    ● 揭秘GPU高性能计算关键

    高性能计算并不是纯数据吞吐,也不是纯计算密集型任务,它对计算机硬件拥有较为复杂的要求。所以单独提升单线程能力不能解决高性能并行计算需求,单纯堆积流处理器数量也无法适应未来的数据和指令环境。CPU和GPU都必须做出改变,但是我们明显能够感觉到GPU改变的代价小于CPU特别是X86架构的CPU。基本上每隔一年,GPU的架构体系就会发生一次转变,而每两代转变则代表计算能力的一次飞跃。

    有效地运用计算资源的财富要涉及到多个重要目标。首先必须合理组织计算资源,使得重要的数据和指令类型获得较高的加速比。同时大量提供计算单元还远远不够;必须实现高效的通信、高效的线程管理,充足的寄存器与前端资源……这样才有可能让流处理器尽可能地被数据填充而不浪费。我们将GPU高性能计算的关键分为以下几个部分来分析:


超越图形界限 AMD并行计算技术全面解析
典型的CPU内部功能单元

    1、高效的计算方法

    GPU核心上可以放下上百个计算单元。为了计算的目的架构设计师必须最佳利用晶体管的关键是使致力于计算的硬件最大化,并且允许多个计算单元通过并行同时操作,而且保证各个计算单元以最大效率操作。

    虽然现在的半导体制程技术允许在单个芯片内放置大量晶体管以提升单核心性能或提升并行度,但资源不是无限的。我们可以广义地将晶体管的用途划分为3类:控制类(这些晶体管用于指挥操作);数据通路(Datapath,这些硬件用来执行计算);存储类(这些硬件用于存放数据)。

    在数据通路之内,可以允许在相同时间的并发操作。这种技术被称为并行性。我们可以构想几个方式以利用并行性和允许同时执行。复杂的任务比如图形处理,一般由几项连续的任务组成,当运行这些应用时,我们能够在不同的数据上同时运行几个这样的任务(任务并行性)。在一个阶段之内,如果在几个数据元素上执行一个任务,我们能够利用数据并行性同时对数据求值。而在一个数据元素的复杂求值之内,能够同时求值几个简单操作(指令并行性)。

超越图形界限 AMD并行计算技术全面解析
Fermi架构GPU内部功能单元

    2、高效的通信方法

    GPU芯片外的存储器速度总是无法跟上GPU算术能力的增长幅度,所以作为一颗高性能处理器,GPU必须要想办法突破这道“存储器墙”,必须尽量减少芯片外通信以节能带宽降低延迟。为了逼近终极目标“消灭片外通信”,也就是尽量只在芯片内部进行数据通信,芯片外通信只用于获取或者保存真正的全局数据。

    在GPU内部加入Cache是一种有效的方式:最近使用的数据的副本可以由存储器传递到Cache中并根据替换协议不断更改。Cache由于对晶体管消耗较大,缓存协议难以实现,一直是GPU设计的重要障碍之一。比如在GPU上经过几代尝试已经成熟的Texture cache可以存放纹理,又如NVIDIA在G80架构中加入的Shared Memory和AMD在RV770架构加入的LDS(Local Data Share)。这个共享寄存器位于每个流处理器单元内部的所有运算单元中,它在通用计算时负责共享数据和临时挂起线程。容量足够大的共享缓存可以在运算时提高线程的挂起能力,还有很多东西比如乱序,分支等等都会受益于Cache的加入。

上一页 1 ...28 29 30 31 32 ...53 下一页
本文导航
频道热词:华硕主板  Intel  AMD  
视觉焦点
ATI Radeon HD 4850
  • 商家报价:
  • 厂商品牌:ATI
  • ZOL评分:0
  • 网友口碑:0
  • 查看详细>>
    显卡评测热点
    排行 文章标题