Tesla欲走平民化路线 低价HPC
NVIDIA给广大普通用户的印象,一般是一个致力于高效视觉处理的厂商,为广大用户提供的逼真的3D视觉效果。不过在专业领域中,NVIDIA同样拥有着傲人的产品及业绩,例如为专业3D领域打造的Quadro系列显卡,还有为超级计算机领域打造的Tesla系列产品。
Tesla从发布到现在仅仅一年左右的时间,就得到了很多厂商和科研单位用户群体的广泛支持,它的特点毋庸置疑,就是利用GPU强大的并行计算能力打造小型化、经济化的个人超级计算机,特点就是成本低、功耗低、体积小等。
NVIDIA Tesla产品事业部总经理Andy Keane先生2008年12月05日,笔者专访了NVIDIA Tesla产品事业部总经理Andy Keane先生,作为Tesla等项目的直接领导人,他对Tesla有着最权威的发言权。
Andy Keane先生于2006年加盟NVIDIA公司,出任NVIDIA公司全新的GPU计算事业部的总经理,全面负责这一全新业务部门的组建,包括财务、销售、市场运作、产品规划以及推广等。在加入NVIDIA之前,Andy Keane先生曾分别在Morphics及Ageia两家公司的创业期任职市场副总裁,这两家公司主要为电信以及消费品行业开发并行计算技术。在此以前,Andy Keane先生曾为3dfx公司和QED公司的快速发展以及最后公开上市做出了卓越贡献。其中,3dfx公司带动了消费级3D图形加速器的发展,而QED公司则是世界首批多核处理器供应商之一。不仅如此,Andy Keane先生在Xilinx公司早期进行的可重配置计算以及FPGA系统的开发过程中,也发挥了重要作用。此外,Keane还曾任职于英特尔生产设计部门,从事容错并行计算技术的生产设计。 Andy Keane先生拥有伯克利商学院(Berkeley Business School)的MBA学位和伦斯勒理工学院(Rensselaer)的物理学学位。
Tesla也许各位读者都听说过,但是它究竟什么样子?如何运算?能够服务于哪些领域?想必很多读者知道的不多,本文将通过
NVIDIA公司GPU计算事业部总经理Andy Keane先生专访,为你揭开Tesla的真正面孔。Tesla究竟有多强?究竟能做啥?
● Tesla性能揭秘 不止提升1倍
NVIDIA的CUDA架构对于了解显卡技术的用户来说已经非常了解,尤其是基于它的PhysX物理引擎更是被很多游戏玩家津津乐道。不过在专业计算领域,CUDA发挥着更大的能力,例如同样基于CUDA架构的Tesla产品。
NVIDIA GPU PK X86 CPU计算效能
第一代Tesla 8系产品已经获得了很多傲人成绩,例如上图中的各种专业运算中,均是以最低10倍以上的性能提升撼动原有超级计算机架构,然而这仅仅是Tesla 8系的功效,现如今NVIDIA已经正式发布了Tesla 10系列产品,相对Tesla 8系性能又有了长足进步。
之所以Tesla能够拥有今天骄人的性能,这主要是GPU和CPU走了两条不同的发展道路,这也就奠定了GPU拥有多“核”高速并行处理能力。
● 技术不是说的 而是拿来用的
俗话说“光说不练假把式”,无论CUDA架构有多先进、无论GPU的并行处理器能力有多强,仅是把这些挂在嘴边上无以信服众人,下面就是应用CUDA架构设计的Tesla产品在实际生活中的应用。
我们可以看到Tesla的应用已经涉及了很多专业领域,同时获得该领域的专业人员认可,最重要的是Tesla是凭借自己的性能优势和低廉的成本赢得了上述战绩。
庐山真面目 Tesla产品揭秘
粗略了解了Tesla的性能,下面让我们了解一下Tesla产品本身,它的体积有多大,是否和我们印象中的大型机、服务器乃至机房一样呢?
● Tesla S1070 1U系统
这是NVIDIA采用最新Tesla 10系列产品设计的Tesla S1070 1U系统,我们能够看到这套系统能够提供高达4TFLOPs的浮点运算能力,功耗为700W。
700W对于个人电脑来说确实是一台高功耗平台,那么对于高性能计算机来说700W是一个怎样的表现呢?首先要搭配4TFLOPs的传统X86 CPU集群,大概需要170颗频率为3.0GHz的4核CPU,满负载运算前提下功耗为Tesla S1070的10倍以上。
那么拥有如此强悍性能的Tesla S1070硬件规格怎样呢?
首先Tesla S1070的主要配件是4块Tesla T10,这样平台就具备了960个“核心”(960个流处理器),同时搭配16GB内存等等。
● Tesla C1060计算处理器
图中的这块“显卡”就是Tesla S1070的计算处理核心配件——Tesla C1060计算处理器,这款产品外观与我们见过的GeForce GTX 200、Quadro CX产品很像。没错,Tesla C1060同样是基于G200核心,不过它的用途仅是浮点计算,不会进行3D渲染计算。
由于Tesla C1060产品基于G200核心,那么它同样拥有全规格的240个流处理器,单卡板载4GB高速本地内存,这点在桌面级显卡中是绝无仅有的,即使在Quadro系列产品中也不曾见过,这样的设计主要是为大量复杂告诉并行计算做准备。
“我”不是显卡 Tesla T10面面观
看过前文笔者对Tesla产品的介绍,尤其是Tesla C1060计算处理器,很多读者为认为这不就是GeForce GTX 280的显存容量升级版嘛,那么是否我们普通用户可以使用桌面级的GeForce GTX 280来组建更廉价的“Tesla”呢?
通过Tesla T10系列产品的正面、背面特写能够看到,其与GeForce系列产品极为相似,但是散热器上的Logo及表面磨砂质感给人一种严肃、庄重的感觉,而且产品PCB使用了NVIDIA惯用的绿色(在专业卡领域NVIDIA一直使用绿色PCB)。
Tesla计算处理器与显卡的最大不同之处,也许就是没有视频输出接口,因为它的工作内容仅是高密度并行计算,不涉及3D计算及视频输出,所以视频信号输出接口显得多余。
CUDA 2.0是随GeForce GTX 280一同问世,也就是说CUDA 2.0和G200核心之间有着密不可分的渊源,自然基于G200的Tesla T10处理器同样完美支持CUDA 2.0。
Tesla T10的内部处理器架构想必很多用户都很熟悉,毕竟它是基于G200核心。T10内部处理器共有30个TPA,每个TPA由8个“核”(流处理器)构成。
我们知道Tesla T10产品支持IEEE 754(IEEE 754仅是规定了最小精度和大小,并未规定扩展格式的精度和大小),支持双精度浮点运算。不过像至此还SSE4的X86架构CPU和Cell的处理器也同样支持双精度浮点运算,那么Tesla T10的优势是什么呢?
通过上表我们能够看出,在计算效率大大提升的前提下,Tesla T10拥有更多位的有效计算数字和计算结果精度。
T10全速升级 Tesla性能更上一层楼
G200核心相对G80核心可以说有了质的飞跃,其有了很大幅度的规格、性能提升,自然基于这两款核心的Tesla产品在性能上也会有较大差异。
前辈Tesla T8系产品主力C870(左)和Tesla T10现任主力C1060。
Tesla T10产品不仅在核心规格、性能上比Tesla T8占有优势,在显存容量上也由Tesla T8的1.5GB升级为4GB容量,浮点运算能力及精度也有了翻倍提升,这对各专业领域来说都带来了不可忽视的性能提升。
究竟两代产品性能提升多少,上图中的各类性能对比柱状图、条形图会给各位读者一个直观的表述。
Tesla产品今后发展及如何应对串行计算
记者问:
“Tesla后续产品以及芯片技术规格是否会沿用同期的GeForce和Quadro产品?或者是会采用只为计算用途而重新设计的芯片和架构?”
Andy Keane先生答:
“当前的策略是在Tesla产品线中采用具备特殊特性的标准GPU。现在,GeForce、Quadro以及Tesla中的计算特性是相同的,但是在将来的产品中,Tesla将拥有专为高性能计算而设计的其它特性。这些产品线中的性能级别也会有所变化。
通过在专业级图形产品中使用与消费级相同的GPU,Tesla在容量较小的高性能计算市场上获得了规模经济效益。这就是所有定制高性能计算处理器与系统专业供应商被市场淘汰的主要原因,未来唯一可行的技术是基于大众市场的技术,例如GPU。”
NVIDIA Tesla产品事业部总经理Andy Keane先生
记者问:
“Tesla基于NVIDIA CUDA,该技术最显著的特点就是能够利用GPU的并行计算能力,在大规模、高带宽计算中有着极大的优势。 但是,面对串行计算密集型任务,Tesla是否有解决办法呢?”
Andy Keane先生答:
“GPU及其内部的CUDA架构是专为并行计算而设计的。
串行计算是一种有很大区别的架构,这种架构的设计目的是为了解决不同的问题。CPU执行指令的方式就是一个接着另一个地执行。CPU中有许多能够加速串行计算的技术。高速缓存、无次序执行、超标量技术、分支预测……均为抽取指令的技术或一系列指令的串行级并行机制。CPU对片上高速缓存的设计与容量的依赖也非常大。如果程序大小与CPU高速缓存容量不匹配,那么该程序在CPU上的运行速度将会很慢。
GPU内部的并行计算架构围绕两个基本概念而设计。首先,程序中的数据可分成许多个部分,而为数众多的核群可以并行地处理这些数据。第二个架构方面的设想是,数据将不与高速缓存匹配。例如在图形计算或石油天然气数据处理上,数据量可能会达到兆字节甚至是太字节,用高速缓存来容纳如此巨大的数据量几乎是不切实际的。考虑到这两点设想,GPU被设计为能够使用数以千计的线程,所有线程均并行地执行,能够访问巨大容量的本地存储器。在最新的Tesla产品中,每颗GPU均配备4GB存储器,可容纳待执行的数据。同时针对反复使用的数据,还设有较小的片上存储空间,GPU所配备的巨大容量存储器等同于CPU内部的高速缓存,只是容量大了许多倍而已。”
Tesla运行环境及自有产品间如何抉择
记者问:
“Tesla个人超级计算机不能独立运行,那么它的系统配置要求是怎样的呢,例如CPU、内存以及显卡?”
Andy Keane先生答:
“Tesla个人超级计算机一般需要搭配一颗四核处理器,每个CPU核心匹配一颗GPU。根据计算问题的具体情况,主内存容量可从4到16 GB之间选择。为CPU配备较大内存的系统被用于处理更大的数据集,例如地震应用程序中所使用的数据集。分子动力学等其它类型的应用程序则不需要巨大容量的内存,因此4GB足够了。图形处理方面就视应用程序而定了。对于大多数计算应用程序来说,NVIDIA板载GPU这样的简单GPU或一块Quadro NVS显卡就足够了。如果应用程序集计算与可视化于一身,那么这样的应用程序一般需要较高的显卡性能,可选用从Quadro NVS到高端的Quadro FX 5800产品。”
NVIDIA Tesla产品事业部总经理Andy Keane先生
记者问:
“就硬件来说,我们已经了解到Tesla配备的显存容量比GeForce的更大。然而,Quadro也有一些4GB显存的版本。NVIDIA如何说服消费者购买Tesla产品而不去选择价格更便宜的Quadro或GeForce呢?”
Andy Keane先生答:
"这里其实有两个问题。
确实有4GB显存的Quadro显卡,但是其价格远高于Tesla。Quadro支持高速OpenGL渲染,速度远高于GeForce,因此这项技术的价格自然高于Tesla。Tesla不支持OpenGL。
GeForce是计算用户的另一种选择。Tesla专为企业部署而设计,拥有更高级别的专业显存,专为处理计算类应用程序而设计。此外,Tesla产品由NVIDIA设计、制造和提供质保。Tesla市场供应周期更长,并提供3年质保。对于这些需要更加可靠的企业级产品的公司,Tesla是最适合的产品。Telsa还有专为数据中心设计的1U系统产品。"
Tesla发展现状及未来前景
记者问:
"到2010年之前,东京大学的Tsubame超级计算机是否有机会跻身世界十强超级计算机? 还有哪些超级计算机有希望跻身世界十强或五百强?"
Andy Keane先生答:
"我不能代表东京工业大学超级计算领军人物的意见,Matsuoka博士曾公开表示,他打算使用GPU在2010年打造出一台荣登世界最快榜单的计算机。还有更多使用GPU打造的超级计算机。美国国家超级运算应用中心(NCSA)以及法国原子能委员会(CEA)是两家著名的超级计算中心,他们将跻身下一届世界五百强榜单。"
记者问:
"当前,NVIDIA GPU的双精度性能仅相当于单精度的8%。 到2010年之前,你认为这种性能可以有多大的改善? NVIDIA会采取怎样的技术手段来确保这种性能提升呢?"
Andy Keane先生答:
"当前10系列GPU是首批拥有双精度的NVIDIA处理器。过去这种性能曾作为GPU的一个模块添加在GPU当中。而在这一代产品中,我们为每组八个单精度处理器加入了一个双精度单元。随着快速发展,未来的GPU将拥有更多双精度单元。由于GPU的性能一般每年都会翻一番,未来双精度性能将至少比当前的速度快5倍。"
NVIDIA Tesla产品事业部总经理Andy Keane先生
记者问:
"获取软件时,中国的超级计算机用户要么购买商业软件解决方案,要么自己开发,或者在商业软件解决方案的基础上进行二次开发。 CUDA与独立软件供应商之间有一定的合作,你有没有成熟的软件应用程序推荐给用户使用? CUDA怎样帮助这些想要自己开发软件的用户?"
Andy Keane先生答:
"我们与打算发布超级计算软件的独立软件供应商都进行了积极的开发工作。分子动力学领域的《NAMD/VMD》以及《GROMACS》是为群集GPU发布的两个应用程序例子。在美国的超级计算展会上,我们还展示了许多用于石油天然气领域地震处理、量子化学以及Ansys有限元设计的应用程序。
对于想要自己设计和开发应用程序的开发人员,用于CUDA架构的并行计算开发C语言编译器可从NVIDIA网站上免费下载。Portland Group的Fortran等其它编译器也正在陆续推出。有很多来自NVIDIA以及其它来源的程序库,这些库使应用程序更易于开发。针对这些不懂C语言或Fortran的开发人员,Accelereyes以及Wolfram(Mathematica)等公司还提供了GPU加速版的软件。因此你可以看到,利用GPU计算优势的方式有许多种。"
记者问:
"NVIDIA与惠普以及CRAY公司联合发布小型高性能计算系统。 这是否意味着NVIDIA认为高性能计算将从大型计算机发展到台式机以及桌边型计算机上来?"
Andy Keane先生答:
"想要对科学技术产生最大的影响,高性能计算就必须发展到科学家们的桌面上。每一名研究人员、科学家以及工程师都应该拥有自己的超级计算机,这些计算机应该具备足够的实用性能来满足他们的工作需要。想象一下如果这些才华横溢的人们能够更快地解决问题,那么科学发展的节奏将会变得怎样。凭借这些基于GPU的工作站以及拥有兼容处理器的超级计算机,现在的技术计算达到了前所未有的全新水平。"
记者问:
"Tesla将对传统超大型计算机产生怎样的影响? Tesla是否会从超大型计算机系统市场中夺取一些市场份额?"
Andy Keane先生答:
"在接下来的几年里,GPU将越来越多地被大型计算所采用。GPU拥有超高的计算密度和显存带宽,足以支持这种计算性能的增长。GPU将成为超级计算机中极其重要的动力源泉。GPU每年的出货量数以百万计,在超级计算领域中,它现在已经成为高性能、低能耗并且是人们买得起的并行处理器。"