ZOL首页 > 显卡 > 评测 > 1000元以上 >

如何将GPU功能单元映射为通用单元

ATI Radeon HD 4850

明星编辑

超越图形界限 AMD并行计算技术全面解析

CBSi中国·ZOL 作者：中关村在线濮元恺 责任编辑：王胤韬【原创】 2010年08月25日 06:20 评论

在本页阅读全文（共53页）

● 如何将GPU功能单元映射为通用单元

　　基于GPU的计算从概念上讲很容易理解，并且现有多种高级语言和软件工具可以简化GPU的编程工作。但是开发人员必须首先了解GPU在图像绘制过程中是如何工作的，然后才能确定可用于计算的各个组件。为了着手把一般性的计算映射到GPU的专用硬件中，必须先确定GPU提供的各种计算资源，下面我们将简单了解GPU通用计算中各硬件系统的作用。以下资料由英国NVIDIA公司的开发工程师Mark Harris提供。

从Folding@home项目看GPU通用计算发展
NVIDIA和ATI的GPU流处理器设计

　　可编程并行处理器：GPU有两类可编程处理器，即三角顶处理器和像素处理器。顶点处理器负责处理顶点数据流（由位置、颜色、标准向量和其它属性），它们是组成三维几何模型的元素。依据每个顶点相对于其视点的位置，顶点处理器用顶点渐变程序对其转换。

像素处理器将像素渐变程序用于处理每个输出像素以确定其最后的颜色。顶点处理器和像素处理器是完全可编程的，可以对四个不同的数值同时执行一条指令。这是因为图形的基本要素或者是位置（X、Y、Z、W）或者是颜色（红、绿、蓝、alpha）。

从Folding@home项目看GPU通用计算发展
ATI最为喜欢的SIMD结构流处理器

　　光栅处理器：在顶点处理器转换完顶点之后，每三个一组的顶点就用来计算一个三角形。从这个三角形出发，光栅处理器生成一个像素流。该光栅处理器的功能非常专一，就是表现这些三角形，因而不是用户可编程的，但可将它看成是一个地址内插器和一个数据放大器（因为它根据几个三角顶就可生成许多像素）。

纹理单元：顶点处理器和像素处理器能以纹理（图像）的形式访问存储器。该纹理单元可被看成是一个只读存储器接口。当前的GPU可以将一个输出图像写到纹理结构存储器，而不是写到帧缓存器。这个纹理渲染功能是基本的，因为它是将GPU输出直接反馈到输入的唯一现有机制，这个过程无须返回到宿主处理器。纹理渲染可被看成是一个只写存储器接口。

从Folding@home项目看GPU通用计算发展
本次Fermi架构显卡所使用的CUDA运算核心