【中关村在线】蓝宝石AMDFireProW9100评测:将GPU应用于通用计算的概念从提出至今已经有大约15年的时间,在此期间,GPU 的发展日新月异,从固定功能单元为主发展到现在已经出现了绝大部分渲染功能都可以由内部大规模的通用计算单元实现。
以蓝宝石PGS AMD FirePro W9100为例,它集成了2816 个 PE(处理单元),每秒能执行 5.2TFLOPS单精度计算或者2.6TFLOPS双精度计算,具备320 GiB/s的内存带宽以及高达16GiB的内存容量,性能/耗电比率远超CPU。
在近两年的全球超级计算机 500 强中,基于 GPU 或者说以 GPU 作为主力加速器的大型机已经成为最重要的推动力量,前十名中一直有多台都是 GPU 超算系统,这说明了一个很简单的现实:GPU 加速已经获得了市场认可。 不过一个产品要获得市场认可的话,从技术层面而言,一定需要提供些数据才有说服力。
在 08年就正式介入 GPU 通用计算的美国 Oak Ridge National Laboratory(橡树岭国家实验室)于 2010 年公布了一个名为 SHOC(Scalable HeterOgeneous Computing)的性能测试包,尝试从真正的超算用户角度找到一个判断各规模下的异构系统性能的解决方案。
顾名思义,SHOC 是一个针对异构系统性能的可延伸性测试工具,支持 OpenCL 和 CUDA,它包含了性能测试和稳定性测试,其中性能测试按照测试的复杂性划为三个 level 或者说三组测试项目:
Level 0用于测试设备的特征(吞吐率、速度),例如 GPU 总线带宽、设备的峰值浮点性能等。
总线速度(Download 与 Readback),Download 和 Readback 分别表示 GPU 从主内存读取数据以及将数据从加速卡的内存读取回主内存。
设备内存带宽:对加速卡所有类型内存的带宽进行测试。包括全局内存、本地内存、常数内存、图像内存,这些内存的概念都是源自 OpenCL 中的定义。其中全局内存地址空间采用了 coalesced 和 uncoalesced 两种存取方式进行测试。这些测试所采用的存取线程粒度是 16 个独立内存存取请求。
内核编译时间。
峰值浮点性能(单精度和双精度)。
队列化延时。测量一个 kernel 从递交到队列到开始在“设备”上执行之间所需要的平均时间开销。
本文属于原创文章,如若转载,请注明来源:解析SHOC小白慎入 专业卡FireProW测试//vga.zol.com.cn/515/5154282.html
以上是关于蓝宝石AMDFireProW9100产品评测的报道,欢迎用户在文章下发表个人看法或@作者直接提问。有关蓝宝石AMDFireProW9100产品的图赏、应用解析及视频等后续内容,敬请关注中关村在线关于蓝宝石AMDFireProW9100评测的报道。