
GPU和蓝色基因做HPC哪个更好
● GPU和蓝色基因做HPC哪个更好
新的中国系统天河-1A以2.5Pflops的Linpack性能有望登上新一期TOP500排行榜的冠军宝座,该系统的发布在美国也引起了轩然大波。近日,英国华威大学(University of Warwick)计算机科学系发表了一篇题为“NAS-LU基准下混合MPI/CUDA实现的性能分析”的论文,该文描述了华威大学所做的一些有意思的研究,以及访问美国劳伦斯利弗莫尔国家实验室(LLNL)中机器的一些工作,并提出了一个很重要的问题:当一个机构选择构建HPC时,应该基于通用GPU的平台还是采用IBM蓝色基因平台?近日,HPCWIRE编辑发表文章,阐述了在构建高性能计算机时,通用GPU(GPGPU)平台与蓝色基因平台各自的优势与不足。
新的中国系统天河-1A以2.5Pflops的Linpack性能有望登上新一期TOP500排行榜的冠军宝座,该系统的发布在美国也引起了轩然大波。近日,英国华威大学(University of Warwick)计算机科学系发表了一篇题为“NAS-LU基准下混合MPI/CUDA实现的性能分析”的论文,该文描述了华威大学所做的一些有意思的研究,以及访问美国劳伦斯利弗莫尔国家实验室(LLNL)中机器的一些工作,并提出了一个很重要的问题:当一个机构选择构建HPC时,应该基于通用GPU的平台还是采用IBM蓝色基因平台?
购买一台超级计算机时,要考虑很多因素,性能、可用性和软件,系统未来科学应用的潜力,公司运营该系统的能力,等等。但评估一台系统并做出明智的决定需考虑很多技术问题:CPU速度、存储器规模和带宽、通信延迟、可扩展性、性能、功耗、支持旧代码的简易性等。事实上,考虑所有资源的完整性取决于总体拥有成本(TCO)。这项研究抓住了目前HPC发展的实质问题。使用基准和性能建模,华威的研究小组可以处理一些基本的技术问题,推测基于GPGPU和蓝色基因平台的大规模解决方案的性能和用电量。
超级计算的竞争正日益激烈。到2011或2012年,LLNL将部署20Pflops的蓝色基因/Q,该系统代号为“红杉”,将基于下一代IBM蓝色基因技术。同时,中国的星云和天河-1A系统都已发布。橡树岭国家实验室的美洲豹(Jaguar)系统配备了NVIDIA的GPU,也将达到数千万亿次的性能。
蓝色基因目前正处于第四次技术革新,上一次的设计争议是发生在上世纪90年代后期的专用千万亿次设计,即蛋白质折叠。当时,通用计算机不能在合适的功率和占地面积要求下实现所需性能。为攻克这一难题,IBM适当采用了减少指令集设计。
蓝色基因建立大规模超级计算机的方法是采用大量相对简单的处理核心,并通过低时延、高可扩展互连进行连接。其优点是可达到很高的总存储器带宽(因为每个核可直接连接到其自己的存储器上),同时由于低时钟频率和简单的处理器设计,还可保持低功耗。如果代码具有良好的可扩展性,那么这种简单的内核设计无需过多修改,就可以使基于现有MPI代码的移植更加简便。为了保证高效地利用功率和物理空间,蓝色基因/P每个执行核的存储器最大容量为1GB。
采用GPU的超级计算机基于高端的消费级视频和图形卡设计。由于经济原因,GPU有望以更低的成本实现高性能。该方法以大量轻量级线程的形式使用并行性,如果每个线程执行同样的指令就可提供良好的性能。如果控制流分散,性能损失将会非常大。在某种意义上这相当于现代的向量处理器,但它可同时执行相当多的指令。目前,大部分采用GPU的机群规模都很小,并通过InfiniBand连接,这需要将消息从GPU复制到主存储器,然后从存储器复制到远程节点。
这种“双重损失”使得在图形卡之间交换数据时的成本非常高,而蓝色基因系统则不同,其低时延互连可以使消息传递的成本降低。每个GPU的高计算功率会将相同的处理功率集中在少量节点上,以帮助减少(但不能消除)应用的扩展性需求。但通信成本很高,对于需要扩展到数千个GPU的应用来说存在很大问题。目前GPU的存储器容量为3GB或6GB,当执行线程间分离时,每个线程只需要非常少量的存储器,其数量远比基于通用CPU的机群或蓝色基因/P系统少。
GPGPU与蓝色基因的争论不仅仅是硬件层面的。应用开发商也准备改变这一现状。很多年来HPC界的专家已警告过,用更高时钟速度和每核更多存储器来获得更高性能的方法不一定适用于未来的结构,比如曾炙手可热的Intel Westmere将不能保证适合于未来的结构。蓝色基因/P每核具有1GB的存储器,这对于很多应用开发商来说已经压缩到极限。现在需要的是修改应用代码来满足这种存储器限制。GPU解决方案需要进一步缩减,每448个核只需6GB共享存储器。
从目前蓝色基因和基于GPU的系统中我们学到了什么呢?在今年六月份发布的TOP500排行榜中可以看到,LLNL的基于蓝色基因/P系统Linpack性能为415Tflops,中国曙光公司基于GPU的星云系统Linpack性能为1.271Pflops。从这些系统的情况可以看出什么呢?
华威大学的研究中提出一个问题:“假如我们以现在的GPU和蓝色基因为标准,我们是否可以模拟这种系统在千万亿次级的应用?”这个问题要考虑的不仅是原始性能或解决方案推出时间,而且要考虑功率成本。
该小组讨论的问题是到底需要多少蓝色基因核心才能获得与基于GPU解决方案相同的性能。他们的研究使用了HPC允许的GPU基准,包括基于“Fermi”架构的NVIDIA C2050、Nehalem级的CPU和LLNL的蓝色基因/P系统。性能模型是为每个级别的系统而建立的,可研究大规模应用性能。这种性能建模技术也用于基准测试和采购中。

华威大学提供最新结果
● 华威大学提供了几个最新研究结果:
1. 以NAS-LU并行基准代码为例,在相同的E级解决方案推出时间内,蓝色基因/P系统需要8192个核,是基于GPU系统核心(256个Tesla C2050)数量的32倍。但蓝色基因解决方案需要大约33KW,而更小的GPU系统需要最大60KW。
2. GPU解决方案的理论峰值几乎是蓝色基因的五倍。如果注重TOP500榜单的排名的话,那么就使用GPU,但如果注重更高的持续性能的话就要慎重考虑了。GPU解决方案在实现峰值性能方面优于蓝色基因,但在NAS基准测试中,二者的解决方案所需的时间相同。
3. 峰值与实际性能的争论激烈。中国曙光公司的星云系统的性能结果就是个例子。该系统的理论峰值性能接近3Pflops,但Linpack性能只有1.271Pflops。而LLNL的蓝色基因/P系统的理论峰值性能为0.5Pflops,Linpack性能为0.415Pflops。这就引发一个问题:到底希望应用如何发展?一个机构到底是投资在峰值上还是实际性能上?
Tesla C2050加速器
4. GPU单节点性能是首屈一指的。同样以NAS-LU并行基准代码为例,与最先进的Intel和AMD的只采用CPU的解决方案的运行速度相比,其在GPU上的运行速度大约提高了6倍。
但研究专家指出,这些数据通常没有考虑互连开销。他们在研究结果中发现,蓝色基因的扩展性很好,蓝色基因/P系统可配备约16000个核心,以相同的解决方案时间,可能只需要五分之一的GPU处理器部件。这说明对于更小型的系统来说,在功耗方面,16000个蓝色基因核心需要大约66KW,而4000个Tesla C2050则需要974KW。
这两种结构下的性能对未来HPC结构的发展提出了两种可能:一种是希望在更小的机群上采用SIMT(单指令多线程)或基于GPU的解决方案,采用具有高度向量化代码的内核;另一种情况是希望推出蓝色基因/P的高度并行解决方案,其中的“众核”将意味着对独立操作内核的大规模并行。
重新设计这两种平台的应用需要进行很大的投资:蓝色基因面临着存储器的限制,具有较低的时钟频率,但扩展性很好,目前我们的算法在很多情况下无法实现。GPU需要内核的移植,这无疑会带来性能提升,但也需要有效的互连,否则其性能收益将会损失。
因此,到底是选择GPU还是蓝色基因,这完全取决于系统的规格。GPU在效能方面较有前景,但这只是一方面。利用GPU的可用峰值是相当具有挑战性的。而蓝色基因更接近于传统设计,因此随着算法本身的发展,在这种平台上实现性能意味着编程的挑战会更小。
- 相关阅读:
- ·AMD下一代高端GPU终极曝光:和三星共享
//vga.zol.com.cn/559/5591184.html - ·曝华为正在研发自主GPU和手机操作系统
//vga.zol.com.cn/558/5588228.html - ·三星野心勃勃研发GPU 然而技术尚不成熟
//vga.zol.com.cn/557/5577259.html - ·更好游戏体验 七彩虹GTX960售价1599元
//vga.zol.com.cn/557/5576693.html - ·12核心 三星Exynos8890芯片GPU跑分曝光
//vga.zol.com.cn/557/5573716.html