● 华威大学提供了几个最新研究结果:
1. 以NAS-LU并行基准代码为例,在相同的E级解决方案推出时间内,蓝色基因/P系统需要8192个核,是基于GPU系统核心(256个Tesla C2050)数量的32倍。但蓝色基因解决方案需要大约33KW,而更小的GPU系统需要最大60KW。
2. GPU解决方案的理论峰值几乎是蓝色基因的五倍。如果注重TOP500榜单的排名的话,那么就使用GPU,但如果注重更高的持续性能的话就要慎重考虑了。GPU解决方案在实现峰值性能方面优于蓝色基因,但在NAS基准测试中,二者的解决方案所需的时间相同。
3. 峰值与实际性能的争论激烈。中国曙光公司的星云系统的性能结果就是个例子。该系统的理论峰值性能接近3Pflops,但Linpack性能只有1.271Pflops。而LLNL的蓝色基因/P系统的理论峰值性能为0.5Pflops,Linpack性能为0.415Pflops。这就引发一个问题:到底希望应用如何发展?一个机构到底是投资在峰值上还是实际性能上?
Tesla C2050加速器
4. GPU单节点性能是首屈一指的。同样以NAS-LU并行基准代码为例,与最先进的Intel和AMD的只采用CPU的解决方案的运行速度相比,其在GPU上的运行速度大约提高了6倍。
但研究专家指出,这些数据通常没有考虑互连开销。他们在研究结果中发现,蓝色基因的扩展性很好,蓝色基因/P系统可配备约16000个核心,以相同的解决方案时间,可能只需要五分之一的GPU处理器部件。这说明对于更小型的系统来说,在功耗方面,16000个蓝色基因核心需要大约66KW,而4000个Tesla C2050则需要974KW。
这两种结构下的性能对未来HPC结构的发展提出了两种可能:一种是希望在更小的机群上采用SIMT(单指令多线程)或基于GPU的解决方案,采用具有高度向量化代码的内核;另一种情况是希望推出蓝色基因/P的高度并行解决方案,其中的“众核”将意味着对独立操作内核的大规模并行。
重新设计这两种平台的应用需要进行很大的投资:蓝色基因面临着存储器的限制,具有较低的时钟频率,但扩展性很好,目前我们的算法在很多情况下无法实现。GPU需要内核的移植,这无疑会带来性能提升,但也需要有效的互连,否则其性能收益将会损失。
因此,到底是选择GPU还是蓝色基因,这完全取决于系统的规格。GPU在效能方面较有前景,但这只是一方面。利用GPU的可用峰值是相当具有挑战性的。而蓝色基因更接近于传统设计,因此随着算法本身的发展,在这种平台上实现性能意味着编程的挑战会更小。
- 相关阅读:
- ·AMD下一代高端GPU终极曝光:和三星共享
//vga.zol.com.cn/559/5591184.html - ·曝华为正在研发自主GPU和手机操作系统
//vga.zol.com.cn/558/5588228.html - ·三星野心勃勃研发GPU 然而技术尚不成熟
//vga.zol.com.cn/557/5577259.html - ·更好游戏体验 七彩虹GTX960售价1599元
//vga.zol.com.cn/557/5576693.html - ·12核心 三星Exynos8890芯片GPU跑分曝光
//vga.zol.com.cn/557/5573716.html
- 第2页:华威大学提供最新结果