热点推荐
ZOL首页 > 显卡 > 新闻 > 行业动态 > 棋逢对手 GPU和蓝色基因做HPC哪个更好

棋逢对手 GPU和蓝色基因做HPC哪个更好


cnbeta 责任编辑:林光楠 【转载】 2010年12月24日 06:27 评论

    ● GPU和蓝色基因做HPC哪个更好

    新的中国系统天河-1A以2.5Pflops的Linpack性能有望登上新一期TOP500排行榜的冠军宝座,该系统的发布在美国也引起了轩然大波。近日,英国华威大学(University of Warwick)计算机科学系发表了一篇题为“NAS-LU基准下混合MPI/CUDA实现的性能分析”的论文,该文描述了华威大学所做的一些有意思的研究,以及访问美国劳伦斯利弗莫尔国家实验室(LLNL)中机器的一些工作,并提出了一个很重要的问题:当一个机构选择构建HPC时,应该基于通用GPU的平台还是采用IBM蓝色基因平台?近日,HPCWIRE编辑发表文章,阐述了在构建高性能计算机时,通用GPU(GPGPU)平台与蓝色基因平台各自的优势与不足。

    新的中国系统天河-1A以2.5Pflops的Linpack性能有望登上新一期TOP500排行榜的冠军宝座,该系统的发布在美国也引起了轩然大波。近日,英国华威大学(University of Warwick)计算机科学系发表了一篇题为“NAS-LU基准下混合MPI/CUDA实现的性能分析”的论文,该文描述了华威大学所做的一些有意思的研究,以及访问美国劳伦斯利弗莫尔国家实验室(LLNL)中机器的一些工作,并提出了一个很重要的问题:当一个机构选择构建HPC时,应该基于通用GPU的平台还是采用IBM蓝色基因平台?


7168颗英伟达GPU 天河超级计算机揭秘   7168颗英伟达GPU 天河超级计算机揭秘

7168颗英伟达GPU 天河超级计算机揭秘   7168颗英伟达GPU 天河超级计算机揭秘
中国天河一号A超级计算机

    购买一台超级计算机时,要考虑很多因素,性能、可用性和软件,系统未来科学应用的潜力,公司运营该系统的能力,等等。但评估一台系统并做出明智的决定需考虑很多技术问题:CPU速度、存储器规模和带宽、通信延迟、可扩展性、性能、功耗、支持旧代码的简易性等。事实上,考虑所有资源的完整性取决于总体拥有成本(TCO)。这项研究抓住了目前HPC发展的实质问题。使用基准和性能建模,华威的研究小组可以处理一些基本的技术问题,推测基于GPGPU和蓝色基因平台的大规模解决方案的性能和用电量。

    超级计算的竞争正日益激烈。到2011或2012年,LLNL将部署20Pflops的蓝色基因/Q,该系统代号为“红杉”,将基于下一代IBM蓝色基因技术。同时,中国的星云和天河-1A系统都已发布。橡树岭国家实验室的美洲豹(Jaguar)系统配备了NVIDIA的GPU,也将达到数千万亿次的性能。

    蓝色基因目前正处于第四次技术革新,上一次的设计争议是发生在上世纪90年代后期的专用千万亿次设计,即蛋白质折叠。当时,通用计算机不能在合适的功率和占地面积要求下实现所需性能。为攻克这一难题,IBM适当采用了减少指令集设计。

棋逢对手 GPU和蓝色基因做HPC哪个更好
新的蓝色基因/P超级计算机

    蓝色基因建立大规模超级计算机的方法是采用大量相对简单的处理核心,并通过低时延、高可扩展互连进行连接。其优点是可达到很高的总存储器带宽(因为每个核可直接连接到其自己的存储器上),同时由于低时钟频率和简单的处理器设计,还可保持低功耗。如果代码具有良好的可扩展性,那么这种简单的内核设计无需过多修改,就可以使基于现有MPI代码的移植更加简便。为了保证高效地利用功率和物理空间,蓝色基因/P每个执行核的存储器最大容量为1GB

    采用GPU的超级计算机基于高端的消费级视频和图形卡设计。由于经济原因,GPU有望以更低的成本实现高性能。该方法以大量轻量级线程的形式使用并行性,如果每个线程执行同样的指令就可提供良好的性能。如果控制流分散,性能损失将会非常大。在某种意义上这相当于现代的向量处理器,但它可同时执行相当多的指令。目前,大部分采用GPU的机群规模都很小,并通过InfiniBand连接,这需要将消息从GPU复制到主存储器,然后从存储器复制到远程节点。

    这种“双重损失”使得在图形卡之间交换数据时的成本非常高,而蓝色基因系统则不同,其低时延互连可以使消息传递的成本降低。每个GPU的高计算功率会将相同的处理功率集中在少量节点上,以帮助减少(但不能消除)应用的扩展性需求。但通信成本很高,对于需要扩展到数千个GPU的应用来说存在很大问题。目前GPU的存储器容量为3GB或6GB,当执行线程间分离时,每个线程只需要非常少量的存储器,其数量远比基于通用CPU的机群或蓝色基因/P系统少。

    GPGPU与蓝色基因的争论不仅仅是硬件层面的。应用开发商也准备改变这一现状。很多年来HPC界的专家已警告过,用更高时钟速度和每核更多存储器来获得更高性能的方法不一定适用于未来的结构,比如曾炙手可热的Intel Westmere将不能保证适合于未来的结构。蓝色基因/P每核具有1GB的存储器,这对于很多应用开发商来说已经压缩到极限。现在需要的是修改应用代码来满足这种存储器限制。GPU解决方案需要进一步缩减,每448个核只需6GB共享存储器。

    从目前蓝色基因和基于GPU的系统中我们学到了什么呢?在今年六月份发布的TOP500排行榜中可以看到,LLNL的基于蓝色基因/P系统Linpack性能为415Tflops,中国曙光公司基于GPU的星云系统Linpack性能为1.271Pflops。从这些系统的情况可以看出什么呢?

    华威大学的研究中提出一个问题:“假如我们以现在的GPU和蓝色基因为标准,我们是否可以模拟这种系统在千万亿次级的应用?”这个问题要考虑的不仅是原始性能或解决方案推出时间,而且要考虑功率成本。

    该小组讨论的问题是到底需要多少蓝色基因核心才能获得与基于GPU解决方案相同的性能。他们的研究使用了HPC允许的GPU基准,包括基于“Fermi”架构的NVIDIA C2050、Nehalem级的CPU和LLNL的蓝色基因/P系统。性能模型是为每个级别的系统而建立的,可研究大规模应用性能。这种性能建模技术也用于基准测试和采购中。

1 2 下一页
本文导航
  • 第1页:GPU和蓝色基因做HPC哪个更好
频道热词:华硕主板  Intel  AMD  
视觉焦点
NVIDIA GeForce GTX 580
    显卡新闻热点
    排行 文章标题