广义矩阵乘法(GEMM):测量 GEMM BLAS 性能,单精度。
测试成绩
GEMM 是高性能计算中最常使用的功能,所有的数学库都有该计算模块,像 Top500 的 HPL 就是典型的 GEMM 应用之一。SHOC 提供了 4 种预设的求解规模(单位 KiB):1、4、8、16,此外还可以用 -KiB 开关来指定求解规模,我们在这里使用预设的最高规模 16KiB。SGEMM 表示单精度、DGEMM 表示双精度、transpose 表示进行矩阵转置。
在SGEMM 测试中,蓝宝 PGS AMD FirePro W9100 的测试结果有些偏低,相比较之下,蓝宝 PGS AMD FirePro W7100 的矩阵转置性能相对较高。排序(Sort):测量无符号数矩阵基数排序性能。
sort(排序)算法有很多种,现在比较常用的是 quicksort,一般刚刚学编程的人士大都会以最简单、但并非最低效的冒泡算法来练手。排序的重要性是毋庸置疑的,例如要剔除重复项目的话,先对数据进行排序往往是必要的。SHOC 采用的排序算法是基数排序(redix sort),有四种求解规模,分别是 1、8、48、96,单位是 MiB,我们选择的是规模最大的 96MiB。
测试结果或者说排序率的单位是 GiB/s,用来表示执行排序 kernel 消耗的带宽。 从测试结果来看,消耗的带宽相当低,都是 1 GiB/s 不到,测试结果应该说是偏低的。
推荐经销商