测试平台以及结果_蓝宝石 AMD FirePro W9100

编辑

解析SHOC小白慎入专业卡FireProW测试

2015-04-11 05:00:00 [ 中关村在线原创 ] 作者：

姜梦雨

收藏文章阅读全文

新浪微博 QQ空间 QQ好友微信二维码

暂无评论

测试平台：

CPU：Intel Xeon E5-1620
主板：华擎工作站主板 EPC602D8A
内存：DDR3-1600 8GiB*2，双通道配置
操作系统：CentOS 7.0（已更新）
编译器：GCC 4.8.2

测试结果

Level 0 测试结果

Level 0测试的是诸如内存带宽、总线带宽、计算性能这类底层的性能，也都是厂商在宣传上直接可以给客户看到的指标。众所周知的是，这类指标的参考价值并不能反映实际的性能，有时候底层性能一样的两代显卡，在实际应用中的性能往往截然不同。

但是不管怎样，这个指标便于初步在同一代产品中作遴选以及快速判断系统是否已经就绪，所以 SHOC 还是将其纳入到测试中，将这类测试定义为 Level0 组别。蓝宝 PGS AMD FirePro W9100 具备 2:1 的单双精度设计，单卡就能提供 5.2TFLOSP 单精度或者 2.6TFLOPS 双精度性能，16GiB 内存能提供高达 320 GiB/s 的带宽，从超算的角度而言这些指标都是目前业界最先进的水平。达成这些指标的根本原因在于蓝宝 PGS AMD FirePro 集成了 2812 个计算单元和高达 384-bit 的内存总线，计算性能和带宽目前是没有对手可言的。

level 0 测试包括了以下内容：

BusSpeedDownload：OpenCL 设备从系统主内存读取数据，这里一般是用于测试 PCIE 通道的读取性能。BusReadBack：将 OpenCL 设备上的数据写回到系统主内存，这里一般是用于测试 PCIE 通道的写回性能。

解析SHOC小白慎入专业卡FireProW测试
Benchmark1.1.5

Benchmark1.1.5

对GPU 这类 OpenCL 设备来说，这组测试本质上其实就是测试 PCIE 带宽。相对于 Wx000 系列而言，Wx100 系列在 host->device 的 download 测试中差别不大，不过在 device->host 的 readback 中则有大约 7% 的提升。MaxFlops：最高单精度和双精度浮点性能。

maxFlops测试结果

maxFlops 的测试结果就是让 device 跑一大堆 madd 指令的 work-item 然后除以运行时间。这里的测试结果有单精度和双精度两个项目，从测试结果来看，非常接近于各显卡的理论性能，例如 FirePro W9100 的单精度/双精度性能分别是 5.2 TFLOPS 和 2.6 TFLOPS，这里测试出来的结果是 5.0 TFLOPS 和 2.5 TFLOPS。gmem_readbw：全局内存读取带宽。

gmem测试结果

gmem在这里是指OpenCL 中的 Golbal Memory 这个存储级别对应的内存，在显卡中，其实就是指显存，不过严格来说，显存只是 global memory 的一部分。

gmem_readbw 顾名思义，就是测试显卡内存的读取带宽，从测试来看，W9100 的实测值是 289GiB/s，相对于理论值 320GiB/s 大约少 10%，这部份差别是正常的。gmem_readbw_strided：跨步式全局内存读取带宽。

gmem测试成绩

这里增加了一个 strided 的后缀，表示存取不是完全连续的，读取的内存地址之间是存在间隔的，这样的存取方式显然会造成效率上要低不少。相对于 wx000 而言，wx100 跑这个测试的性能衰减情况要好一些，例如 W9100 的性能是连续读取的 27%，而 W9000 则下跌到 21%。基于 GCN 1.2 的 W7100 表现情况还更好一些，是连续读取时的 45%，而它的上一代 W7000 则下跌到 20%。gmem_writebw：全局内存写入带宽。

测试成绩

在连续写入测试中，蓝宝 PGS FirePro W7100 再次展现了较好的写入，达到了读取时 94% 的水平。 gmem_writebw_strided：跨步式全局内存写入带宽。

测试成绩

在跨步式写入测试中，所有测试卡都跌到了 8GiB/s 以下的水平。这个测试目前能跑出比较好成绩的还是得看 CPU。 lmem_readbw：局部内存读取带宽。

测试成绩

lmem 是指 OpenCL 中的 local memory，相当于 CUDA 中的 shared memory （早期 NVIDIA 曾经将其称作 PDC），AMD 则称之为 local data share 简称 LDS。local memory 是可以让 compute unit 中的 work-group 的各个 work-item 实现数据共享的存储层次，很大程度上可以看作是GPU 实现“高效”通用计算的关键所在。local memory 的“速度”一般都非常快，NVIDIA 曾经在 G80 的文件中提到 shared memory 的速度和寄存器一样快，请注意，我们这里说的速度其实是指时延。

目前的 GCN 中每个 compute unit 有 32KiB 大小的 local memory，每次的读写大小是 32 个 32-bit bank（存储体），这意味着 GCN 的每个 compute unit 的每次 local memory 存取可以获得 128 字节的低时延带宽。理论上，这个测试的测试值应该和 compute unit 的数量挂钩，不过从实际测试看，W9100 vs W7100 的数据比值（3.5 倍）还是要高于其 compute unit 比值（1.6 倍）。lmem_writebw：局部内存写入带宽。

测试成绩