CPU与GPU的设计方向决定运算能力

显卡只能玩游戏? 10年GPU通用计算回顾

CBSi中国·ZOL 作者：中关村在线濮元恺 责任编辑：李鹏飞【原创】 2010年04月06日 08:42 评论

● 揭秘GPU为何如此强大

近30年来，由Intel、IBM、SUN、AMD和富士通生产的通用CPU虽然有了很大发展，但性能提高速度却已经不能与上世纪八十年代末九十年代初相比。单线程处理性能在很大程度上受到了限制。这些限制一方面来自于通用计算程序中过低的指令级并行；另一方面来自于“功率墙（Power Wall）”——集成电路的功率消耗的物理限制。

而GPU的用途已经远远超出运行游戏，我们买到的显卡其实是一块高性能加速器。特别是现在NVIDIA和AMD的显卡产品都体现出了极高的浮点运算能力，双精度浮点运算中的衰减也越来越小。

举例说，在Folding@home项目中，一款中端显卡一天24小时可以计算10个左右的大分子蛋白质折叠，而一款酷睿2双核E7200处理器的一个核心在24小时内完成一个小分子包运算任务都非常困难。CPU和GPU在高密度多线程浮点运算中体现出的性耗比差异，相信大家已经非常清楚。在这一节，我们将着重分析GPU相对于CPU的架构优势。

● 两种架构设计方向不同

CPU和GPU架构差异很大，CPU功能模块很多，能适应复杂运算环境；GPU构成则相对简单，目前流处理器和显存控制器占据了绝大部分晶体管。CPU中大部分晶体管主要用于构建控制电路（比如分支预测等）和Cache，只有少部分的晶体管来完成实际的运算工作。

无心插柳柳成荫 GPU通用计算十年发展
CPU和GPU逻辑架构对比

而GPU的控制相对简单，而且对Cache的需求小，所以大部分晶体管可以组成各类专用电路、多条流水线，使得GPU的计算速度有了突破性的飞跃，拥有了惊人的处理浮点运算的能力。现在CPU的技术进步正在慢于摩尔定律，而GPU（视频卡上的图形处理器）的运行速度已超过摩尔定律，每6个月其性能加倍。

CPU的架构是有利于X86指令集的串行架构，CPU从设计思路上适合尽可能快的完成一个任务；对于GPU来说，它的任务是在屏幕上合成显示数百万个像素的图像——也就是同时拥有几百万个任务需要并行处理，因此GPU被设计成可并行处理很多任务，而不是像CPU那样完成单任务。

CPU内部架构

当今CPU仅前端部分就非常复杂，指令解码、分支预测等部分消耗晶体管数量巨大。CPU的设计目标是不仅要有很高的吞吐量，还要有良好的应用环境兼容性，CPU所要面对的应用面远远超过了GPU。CPU是设计用来处理通用任务的处理、加工、运算以及系统核心控制等等的。CPU中包含的最基本部件有算术逻辑单元和控制单元，CPU微架构是为高效率处理数据相关性不大的计算类、复杂繁琐的非计算类的等工作而优化的，目的是在处理日常繁复的任务中应付自如。

GPU设计的宗旨是实现图形加速，现在最主要的是实现3D图形加速，因此它的设计基本上是为3D图形加速的相关运算来优化的，如z-buffering消隐，纹理映射（texture mapping），图形的坐标位置变换与光照计算（transforming & lighting）等等。这类计算的对象都是针对大量平行数据的，运算的数据量大。但是GPU面对的数据类型比较单一，单精度浮点占到其处理数据的绝大多数，直到GTX200和HD 4800系列显卡才对双精度运算提供了支持。