● 构架底层延展测试
在构架底层性能的延展测试环节,我们使用基于OpenCL的通用计算测试软件——GPCBenchmark来完成数据的收集。GPCBenchmark使用最为通用的函数库及API接口进行编写,并未对任何构架进行针对性的优化,测试基于构架的底层能力,且第一次以常规数学方法全面的考验了构架的灵活度和运算应对能力。通过该款软件,我们不仅可以直接读取许多底层构架信息,更能获得构架最真实的特性。
在更新过驱动之后,Tahiti构架的通用计算性能又有了极大的提升,在测试总分环节,HD7950取得了超过5600分的测试结果,而HD7970测试成绩则从首发测试驱动的6000附近猛升至近6800。
在吞吐测试环节中,HD7950在默认频率下表现出了与HD7970在理论吞吐能力方面相称的差距。而在反映灵活Shader应用,尤其是Compute Shader性能的常规数学方法环节,HD7950所取得的测试结果令我们为之一震。无论矩阵操作还是并行归约处理,HD7950均表现出了远高于理论吞吐差距的测试成绩。由于HD7950与HD7970同属Tahiti构架,双方的线程管理机制以及宏观缓冲总量是相当的,因此运算单元更少的HD7950可以获得比HD7970更高的缓冲密度以及线程管理资源,进而获得更为强大的单元复用率。这种单元复用率的提升,被忠实的反映到了需要强调单元灵活度以及复用率的常规数学方法测试环节。
尽管在ALU团簇部分,或者说灵活多样的shader执行能力部分HD7950反超了HD7970,但图形处理毕竟是一个完整的顺序过程,除了shader之外,对材质的操作能力也就是TA(Texture Arroy或TMU)的能力也十分重要。Tahiti构架实现了TA与CU的绑定,因此削减了CU规模的HD7950,其材质能力也相应的受到了影响。在先前的GPU大百科全书等文章中我们曾经提到过,GPU的TA/TMU是具备执行包括卷积以及傅里叶变换在内的一系列操作的,所以在构架以及操作模式相同的前提下,GPCBenchmark的通用图形处理测试可以剔除其他图形过程的干扰,求得理想的GPU TA性能对比状况。
在通用图形处理的二维卷积测试中,HD7950受限于规模的削减,最终达到了HD7970性能的70.1%,这与两者32%的理论材质性能差异符合的非常好,而更加偏重load/store能力的快速降噪测试中,HD7950达到了HD7970的83.8%。由此可见,较小的TA规模所导致的材质性能的缺失不仅将HD7950较高单元复用率带来的效率提升大幅“中和”,更是导致HD7950在综合图形及游戏表现中落后HD7970较多的重要原因。
推荐经销商