热点推荐
ZOL首页 > 显卡 > 评测 > 横向评测 >

测试项目简介之CUDA-Z

神卡再现?GTS450决战5大GPU计算测试

CBSi中国·ZOL 作者:中关村在线 濮元恺 责任编辑:李鹏飞 【原创】 2010年09月26日 06:07 评论
在本页阅读全文(共15页)

    ● 测试项目简介之CUDA-Z

    CUDA-Z就像我们常用的CPU-Z或者GPU-Z,但是具体参数就变成了针对CUDA应用方面的信息,支持CUDA信息查询,还可以测试电脑CUDA的速度。目前该软件更新到了0.5.95版,该程序需要与NVIDIA公司的GeForce 8000,9000,GT100和GTX200系列,或者Quadro和Tesla卡和ION离子芯片显卡相搭配。该程序仅2.25MB,属于免费版系统检测软件。

    此版本可以显示GPU核心运算能力和性能、显存容量和带宽。它显示了所有CUDA技术的单精度浮点和整数运算性能。同时它也显示了支持双精度操作的GT200芯片的最新显卡特性。该软件还可以生成一个HTML格式和TXT纯文本文件报告,方便用户参考。

    打开CUDA-Z软件后,可以很清楚地看到上面的4个选项卡,分别是Core(核心)、Memory(内存,这里值本地显存)、Performance(性能)、About(相关信息)。通过这4个界面,我们可以很清楚地了解到自己的NVIDIA显卡在通用计算方面的性能,当然这些都是硬件配置和理论性能。

    在Clock Rate中,我们可以看到自己的CUDA设备运行频率,当然这里的频率已经不是GPU的核心频率,而是流处理器频率。因为CUDA的运算部件就是GPU中曾今的着色器——流处理器。当然这个说法也不是完全准确,因为GPU核心中的某些单元,比如说仲裁器和Atomic单元工作频率还是和固定单元(也就是GPU核心)一样,这些单元为流处理器提供的源源不断的数据支持和控制,当然他们几乎没有参与实际的运算工作。


跨时空对决 四代NV显卡激战CUDA-Z
CUDA-Z软件的Core核心界面

    Multiprocessors代指流多处理器,也被称为SM(Stream Multiprocessors),在CUDA架构GPU,8个流处理器为一组,当然每个SM还包括两个SFU(Super Function Unit)特殊运算单元,GTX200架构中每个SM中增加了一个DPU(Double Precision Unit)双精度运算单元。

    Warp Size表示每个warp块包含的线程数,也可以称作粒度。线程发射粒度越小,代表GPU线程管理能力越强,但这会付出很大的硬件开销代价。目前市面上的所有N卡Warp Size都是32,但特殊情况下存在Half Warp,也就是说可以16个指令发射一次,这样可以进一步提高线程管理能力。

    Regs per Block代表每个多处理器的寄存器数量。

    Threads per Block代表每个Block中的最大线程数量。

    Watchdog Enabled代表GPU“监护人”能力,是一种特殊的防火墙功能。

    最下方的Threads Dimentions代表一个线程块的 x、y 和 z 维最大规格。

    Grid Dimentions则代表线程块网格各维度的最大规格。

    寄存器(Register)是GPU片上高速缓存器,执行单元可以以极低的延迟访问。寄存器的基本单元式寄存器文件(register file),每个寄存器文件大小为32bit。对于每个线程,局部存储器(Local memory)也是私有的。如果寄存器被消耗完,数据将被存在局部存储器中。共享存储器(Shared memory)也是GPU片内的高速存储器。它是一块可以被同一block中的所有线程访问的可读写存储器。它的访问速度几乎和寄存器一样快,所以是实现线程间通信的延迟最小的方法。全局存储器(Global memory)位于显存(占据了显存的绝大部分),CPU和GPU都可以对其进行读写访问。常数存储器(Constant memory)中的数据位于显存,但拥有缓存加速以节约带宽,常数存储器是只读的地址空间。纹理存储器(Texture memory)也是一种只读存储器,由GPU负责纹理渲染的图形专用单元发展而来,具备一些特殊功能。

跨时空对决 四代NV显卡激战CUDA-Z
存储器界面

    Total Global代表本地显存容量,这是是扣除了2D帧后缓存的显存容量。

    Shared Per Block代表每个block的缓存容量。

    Pitch代表最高点,可以理解为最大线性单位缓存,就是每个SM可以在单位周期内使用的缓存总数。

    Total Constant代表连续缓存块数。

    Texture Alignment代表纹理簇大小。

    GPU Overlap翻译为GPU重叠,实际上可以理解为GPU的SLI扩展能力。

    性能界面分为存储性能和核心性能两个部分,在介绍这部分之前,我们要先熟悉几个专有名词。

    CUDA编程模型将CPU作为主机(Host),GPU作为协处理器(co-processor)或者称为设备(Device),在一个系统中可以存在一个主机和多个设备。

    在这个模型中,CPU与GPU协同工作各司其职。CPU负责进行对逻辑性强的事物处理和串行计算,GPU则专注于执行高度线程化的并行处理任务。CPU和GPU拥有各自独立的存储器地址空间:主机端的内存和设备端的显存。CUDA对内存的操作与一般的C程序基本相同,但是增加了一种新的Pinned memory;操作显存则需要调用CUDA API中的存储器管理函数,这些管理操作包括开辟、释放和初始化显存空间,以及在主机端和设备端进行数据传输等。

神卡再现?GTS450决战5大GPU计算测试
Performacne性能界面

    CUDA-Z的存储性能测试,包括主机到设备(Host to Device)、设备到主机(Device to Host)、设备到设备(Device to Device)3个方面。其中的Pinned指页锁定内存(也被称为page-locked),而Pageable指可分页内存,它们都位于主机(CPU)端。

    第二部分GPU核心性能分别测试了单精度浮点运算能力Single-precision Float、双精度浮点运算能力Double-precision Float、32位整数运算能力32-bit Integer和24位浮点运算能力24-bit Integer。G92核心的GTS250没有双精度运算能力,所以这一栏为不支持。GTX200系列以上显卡测试后可以得到相关数据。

    需要注意的是这里的测试数据都是理论值,实际运算时,会有很多不同情况出现。比如运算程序中循环和分支过多,都会严重影响GPU的运算能力。衰减程度视架构设计和运算器周边资源配备而定。

    下方的选项是:Update Results in Background(后台更新测试数据),选择后数据会实时更新。而Export按钮则可以由用户自行选择生成一个TXT或者HTML报告。

    最后的About界面显示了CUDA-Z软件的制作信息,有兴趣的朋友可以点击链接去他们的网站进行了解。

上一页 1 ...4 5 6 7 8 ...15 下一页
频道热词:华硕主板  Intel  AMD  
视觉焦点
显卡评测热点
排行 文章标题
TOP10周热门显卡排行榜
  • 热门
  • 新品