GTS450 CUDA性能测试
● CUDA通用计算代表GPU发展新方向
一位ZOL博客用户告诉我,最近他在同学聚会上,与一个从事广告设计、美工制作的老朋友各自谈起自己的工作。那位同学经常策划许许多多大型的户外广告宣传活动,需要进行很多如巨型条幅,大型广告画面的设计任务,工作可谓非常的繁忙。不过虽然繁忙,他的工作时间却有绝大部分在喝茶、聊天、看报纸杂志,但是他仍然需要加班到深夜。这让他摸不着头脑,既然如此繁重的工作,为什么会出现一边效率低下、一边加班加点的情况呢?
同学的解释让他一下子明白了其中的奥秘,由于户外广告设计一个最重要特点——超大文件。他们工作时所需要处理的图片和条幅都是超乎寻常的海量文件,虽然公司几经为他们配备了性能非常优秀的电脑来进行处理,但是,由于文件的容量太大,仅仅一个简单的渲染过程就要等待半个小时甚至最长长达5个小时。导致我这位可怜的同学一天下来,仅仅能够进行简单的几部操作,而剩下的事情几乎全部是坐在电脑前等待……
NVIDIA和AMD两家公司都意识到了通用计算的重要性
这种悲惨局面的造成其实是一个非常重要的原因,那就是在我们的工作中,对于这种大型的运算、我们的软件仍然在过分的依赖着CPU处理器。而GPU通用计算的出现,正在改变这种现状,借助一款中端显卡,我们就能实现很多原来CPU非常难以处理的工作。
CUDA是NVIDIA公司于2007年推出的GPU通用计算产品。CUDA是Compute Unified Device Architecture(统一计算架构)的简称,是建立在GPU基础之上的通用计算开发平台,它是一个全新的软硬件架构,可以将GPU视为一个并行数据计算的设备,对所进行的计算进行分配和管理。利用CUDA能够充分的将GPU的高计算能力开发出来,并使得GPU的计算能力获得更多的应用。
CUDA最为关键也最受推崇的原因很简单——它是业界第一款不需要图形学API就能使用类C语言进行通用计算的开发环境和软件体系。这大大增强了CUDA的普及速度和普及成本。
CUDA能够有效利用GPU强劲的处理能力和巨大的存储器带宽进行图形渲染以外的计算,广泛应用于图像处理、视频传播、信号处理、人工智能、模式识别、金融分析、数值计算、石油勘探、天文计算、流体力学、生物计算、分子动力学计算、数据库管理、编码加密等领域,并在这些领域中对CPU获得了一到两个数量级的加速。取得了令人瞩目的成绩。
CUDA从发布开始,到目前已经到了3.0版,从NVIDIA提出CUDA这个概念,已经有三年多时间,在这一年时间里CUDA发展迅速,在NVIDIA CUDA网站上每天都有很多网友提交自己的CUDA软件作品。
在轻量级的小软件中,CUDA已经如雨后春笋般的涌现,从IE图象插件PICLENS,到PHOTOSHOP CS4 开始支持CUDA的插件。视频编码解码是CUDA发展最迅速的方面之一,目前已经有大量的软件开始支持CUDA GPU加速,同时支持CUDA应用大型软件也出现了不少。
千元以下神卡GTS450简析
● 千元以下神卡GTS450简析
作为G80架构的改良产品G92可以说是一款长寿卡,从2007年末诞生的GeForce 8800 GT一路走来历经不同“朝代”,即使是DirectX 11 API发布1年后的今天,市场中仍能见到由其衍生出来的GeForceG GTS 250活跃在零售市场中。
不过好产品归好产品、经典归经典,毕竟G92的性能及功能已经不能再完全满足用户的日常所需,最重要的一点就是DirectX 11 API的不支持。当然在这其中也有很多NVIDIA自身策略原因影响左右,例如DirectX 11产品开发的进度,例如Fermi架构衍生产品的市场定位等等。
从外观而言,GeForce GTS 450与GeForce GTX 460极为相似,均采用了100%覆盖的导风罩设计,同时散热器风扇中置。接口方面公版的GeForce GTS 450采用了双DVI搭配Mini HDMI的组合,和其他所有NVIDIA 4系列DirectX 11产品一致。
标配8颗SAMSUNG K4G10325FE-HC05颗粒
GeForce GTS 450公版产品标配了8颗SAMSUNG K4G10325FE-HC05颗粒,每颗规格为32M*32bit,构成128bit/1024MB的显存规格组合。
为GeForce GTS 450设计的GF106核心基于40nm工艺打造,型号为GF106-250-KA-A1核心,其由11.7亿个晶体管组成,约为GF106核心的一半。GF106-250核心原生192个流处理器、标配128bit显存控制器,同时具备16个光栅单元和32个纹理单元。
在NVIDIA上一代产品中,不得不说GeFoce GTX 260和GeForce GTS 250是两款明星产品,他们分别依附在千元价位上,前者主攻千元稍高的价位,而后者主要镇守千元以下高性能产品的地位。同时前者也是GTX高端系列的最“弱”型号,而后者也是中端系列GTS中的最“强”型号,二者给消费者以高性价比的性能体验,深受用户青睐出货量惊人。
时至今日,随着DirectX 11朝代的来临GeForce GTX 260和GeForce GTS 250已经廉颇老矣显现疲态,此时GeForce GTX 460和今日发布的GeForce GTS 450正式走上历史舞台。而且值得一提的是,无论是价位、定位还是命名上,我们都能看到当年GeForce GTX 260和GeForce GTS 250的身影。
千元以下神卡GTS450架构沿革
● 千元以下神卡GTS450架构沿革
GF100、GF104和GF106都是基于Fermi架构打造,不过在规格矩阵上为了适应不同成本、定位的产品,进行了合理化的调整。例如GF100拥有超过30亿的晶体管、原生具备512个流处理器,而GF104拥有接近20亿的晶体管、原生384个流处理器。
而GF106核心具备11.7亿晶体管、192个流处理器、128bit显存控制器,这些规格细心的用户能够发现正好是GF104的一半,难道二者有着相对更加紧密的关系?
GF100/GF104/GF106市场定位
根据NVIDIA针对GF100、GF104和GF106的定位为除了一个较为形象的比喻,GF100拥有最猛火力的重装战士,而GF104是具备杀伤力武器的机动战士。而GF106被定义为“Sniper”(狙击手),拥有一击毙命的本事,足见NVIDIA对这款产品的厚望。
通过上面GF100、GF104和GF106的核心架构图,我们发现虽然在整体架构上三者保持了Fermi的完整性,例如GPC→SM→CUDA Core由广到微的等级结构,例如独立的Polymorph Engine和Raster Engine的设计等。
而且从GF104和GF106架构图中不难看出,就GPC、SM、CUDA Cores、MC控制器而言,GF106正好均为GF104的一半。
GF100 SM vs. GF104/GF106 SM | |||
Graphics Core | Graphics Core | GF100 | GF104/GF106 |
SM | CUDA Cores | 32 | 48 |
Warp Scheduler | 2 | 2 | |
Dispatch Unit | 2 | 4 | |
SFU | 4 | 8 | |
LD/ST | 16 个 | 16 个 | |
INT Unit | 32 | 48 | |
FP Unit | FP32:32 FP64:16 |
FP32:48 FP64:24 | |
Texture Unit | 4 | 8 |
不过在微架构上,例如SM的CUDA Core等功能模块的组成,GF106延续了GF104的设计,即每组SM中包含48个CUDA Core、8个SFU和8个纹理单元等改良设计。相比拥有庞大规格的GF100而言,GF104的微架构的优化能够弥补先天规格不足的弊端,所以GF106传承了GF104微架构体系设计。
相 关 显 卡 规 格 对 比 | |||||||
显卡型号 | GeForce GTX 480 | GeForce GTX 460 | GeForce GTS 450 | GeForce GTS 250 | Radeon HD 5770 | Radeon HD 5830 | Radeon HD 5870 |
市场定价 | 3500元 | 1499元 | 129美元 | 799 元 | 899 元 | 1499元 | 2999元 |
GPU代号 | GF100 | GF104 | GF106 | G92 | RV840 | RV870 | RV870 |
GPU工艺 | 40nm | 40 nm | 40 nm | 40 nm | 40 nm | 40 nm | 40 nm |
GPU晶体管 | 32亿 | 19.5 亿 | 11.7 亿 | 19.5 亿 | 10.4 亿 | 21.5亿 | 21.5亿 |
着色器数量 | 480 | 336 | 192 | 128 | 800 | 1120 | 1600 |
着色器组织 | 1D*480 | 1D *336 | 1D *192 | 1D *128 | (1D+4D)*160 | (1D+4D)*224 | 1D+4D)*320 |
ROPs数量 | 48 | 32 | 16 | 16 | 16 | 16 | 32 |
纹理单元数量 | 60 | 56 | 32 | 64 | 40 | 56 | 80 |
核心频率 | 700 MHz | 675 MHz | 783 MHz | 738 MHz | 850 MHz | 800 MHz | 850 MHz |
着色器频率 | 1401 MHz | 1350 MHz | 1566 MHz | 1836 MHz | 850 MHz | 800 MHz | 850 MHz |
理论计算能力 | 2.02 TFLOPs |
1.36 TFLOPs | 0.902 TFLOPs | 0.705 TFLOPs |
1.36 TFLOPs | 1.79 TFLOPs | 2.72 TFLOPs |
等效内存频率 | 3696 MHz | 3600 MHz | 3600 MHz | 2200 MHz | 4800 MHz | 4000 MHz | 4800 MHz |
内存位宽 | 384 bit | 256 bit | 128 bit | 256 bit | 128 bit | 256 bit | 256 bit |
内存带宽 | 177.4 GB/s | 115.2 GB/s | 57.6 GB/s | 70.4 GB/s | 76.8 GB/s | 128.0 GB/s | 153.6GB/s |
内存类型 | GDDR5 | GDDR5 | GDDR5 | GDDR3 | GDDR5 | GDDR5 | GDDR5 |
内存容量 | 1024 MB | 1024 MB | 1024 MB | 1024 MB | 1024 MB | 1024 MB | 1024 MB |
DX版本支持 | 11 | 11 | 11 | 10 | 11 | 11 | 11 |
HD视频技术 | PureVideo HD | PureVideo HD | PureVideo HD | PureVideo HD | UVD2 | UVD2 | UVD2 |
通用计算接口 | CUDA | CUDA | CUDA | CUDA | Stream | Stream | Stream |
GTS450挑战暴风视频转码
● GTS450挑战暴风视频转码
随着高清视频、手持影音设备的逐渐普及,越来越多的用户在日常生活中都接触了视频编解码的转换。对于许多用户而言,视频的转码是一项非常繁琐的事情,因为许多软件所转换的格式非常有限,同时转换的效率也是非常低下,因此一款真正全能的高效视频转换软件正被用户们所期待。
GTS450正在使用暴风影音转码
暴风转码的输出设备就集中在了电脑之外的掌上设备上,包括手机、MP3、MP4、PSP等。打开暴风转码1.0正式版,进入输出设备的设置界面,你会发现它支持的设备让人眼花缭乱,包括诺基亚、多普达、摩托罗拉、三星、iPhone、PSP、iPod、魅族等在内的5大类,109个系列、300多种不同的移动设备,都能找到支持。
暴风转码软件是首款支持CUDA加速技术的软件,在研发过程中与全球视觉计算技术的行业领袖NVIDIA公司展开了密切的合作,在暴风转码1.0中已经成功支持NVIDIA CUDA计算架构,在安装有NVIDIA显卡的电脑时,其视频转换速率将提高3-4倍。
转码没有打开CUDA加速
而在最新的暴风转码1.0正式版中,最重要的一个突破就是,它与NVIDIA进行了深入合作,利用NVIDIA CUDA技术开放平台,大大提升了视频的转换效率和质量,与NVIDIA显卡进行天衣无缝的配合,最大限度地利用了硬件的性能。据NVIDIA技术人员检验,采用NVIDIA CUDA技术加速H.264视频编码,其转化速度10倍于正常播放速度,一部DVD 5分钟之内就能转换完毕。
毫无疑问,暴风转码1.0正式版是目前支持格式最齐全、转换速度最快、支持输出设备最多、操作最简单、功能最强大的视频转换软件。与它的“老大哥”暴风影音一样,它的出现颠覆了市场格局——终结了速度缓慢、高资源占用、兼容性差、用户体验不好的历史。再加上“暴风”的强大品牌效应和“完全免费”这张王牌,可以断定,暴风转码将刮起一阵旋风,成为最受欢迎的视频转码软件。
GPU通用计算-Media Coder NT for CUDA
● GPU通用计算-Media Coder NT for CUDA
MediaCoder是一个免费的通用影音转码工具,它将众多来自开源社区的优秀音频视频编解码器和工具进行整合,让用户可以自由地转换音频和视频文件,可满足各种场合下的转码需求。软件自2005年问世以来,被全球广大多媒体爱好者广泛使用,曾经入围SourceForge.net优秀软件项目,被众多网站和报刊杂志介绍和推荐,其中包括:《CNET》、《PC World》、《ZDnet》、《USA Today》、《New York Times》、印度《Techtree》、德国《Der Spiegel》、德国《Bild》、德国《La Nación》、墨西哥《El Universal》、泰国《Bangkok Post》、德国《Chip》、俄罗斯《Computerra》。
软件识别GF106计算能力为2.1版本
软件仅能使用到CPU的4线程
对于MediaCoder NT这款针对CUDA变成的软件,对于所有N卡用户来说都是一个好消息。
我们使用GeForce GTS 450 875MHz/1750MHz/4000MHz产品进行测试,由于该款软件对Shader频率极为敏感,所以1750MHz的频率作用下仅耗时16秒,这个成绩要比GeForce GTX 460公版频率产品的20秒要快。
GTS450实战Adobe Photoshop
● GTS450实战Adobe Photoshop
Adobe Photoshop CS4、Adobe After Effects CS4、Adobe Premiere Pro CS4三款软件支持CUDA技术。Adobe Photoshop CS4包含在Design Standard版本中,而Adobe After Effects CS4及Adobe Premiere Pro CS4则包含在Production Premium、Master Collection版本中。
Adobe After Effects适用于从事设计和视频特技的机构,包括电视台、动画制作公司、个人后期制作工作室以及多媒体工作室。通过CUDA技术,After Effects CS4可以实现诸如景深、双向模糊、有机纹理等特效,可以帮助开发人员迅速的将思维中的设计构想展示出来。
GTS450运行Adobe Photoshop CS4演示
NVIDIA给Fermi的定义是:新一代CUDA计算与图形架构。它采纳了用户在使用G80和GT200架构时给出的建议,针对双精度运算、ECC内存容错能力、Cache体系结构、上下文切换和原子读写操作等方面进行了全新的设计。
Fermi架构的GTX400系列产品通过新的架构设计不仅仅增加了计算能力,并且支持更好的可编程能力和计算效果。所以我们看到沿用了3代的流处理器概念,在Fermi架构中,已经被改为CUDA Cores,这再次说明NVIDIA对通用计算的重视程度。
勾选启用NVIDIA OPENGL绘图:并将下面高级设置中的所有选项都勾上,NVIDIA CUDA设备就开始为PHOTOSHOP CS4工作了。这里显示Adobe Photoshop CS4已经识别出我们的显卡。
Photoshop是我们都熟知的软件,在以下的两个视频中可以观察到使用GPU与CPU分别对图片进行局部缩放的不同,通过视频我们可以看到图片大小在100MB以上,在我们日常见到的图片中已属巨大。
开启GPU加速:
关闭GPU加速:
仔细观察你就会发现有无GPU加速之间的差距是如此的明显,在使用GPU加速时图片在放大缩小时可以做到完全的实时,非常的平滑,给人一种非常流畅的感觉,而没有使用GPU加速每次进行放大和缩小时都会先卡一下,而且在也不平滑,会发现画面在缩放时先是被切割成几个像素块,然后才能拼凑成操作后的样子。
Adobe Reader和Picasa图片软件
● Adobe Reader和Picasa图片软件
在最新的Adobe Reader 9软件中,NVIDIA显卡同样可以为用户提供硬件加速。对于行业用户来说,PhotoShop CS4中的硬件加速或许可以带来更好的回报,但是在Adobe Reader 9中,更流畅的阅读是用户对于生活的一种享受。
AAdobe软件家族已经拥有越来越多的GPU加速功能
通过Adobe Reader 9的编辑菜单可以到达首选项页面,而3D和多媒体子项中就是我们开启显卡硬件加速的部分了。在开启了Adobe Reader 9的GPU加速之后,阅读大图片的pdf文档不再像以往那样吃力,更流畅的阅读令用户更加舒适。
这张图的左下角显示着“31”这个数字,常玩游戏的玩家肯定一眼就看出来这是FPS统计软件Fraps的帧数显示,一般说来都是在玩游戏的时候才出现,何以会在Adobe Acrobat reader里也会有呢?
Fraps的原理就是绑定了若干图形API,不管是用D3D还是OpenGL,只要初始化了绘图窗口,Fraps就会把当前FPS画在窗口上。在这里出现只有一个可能:Adobe reader也使用了D3D来加速文档显示(在Preference的3D选项里是可以选择用Dx8、Dx9或者软加速)。毕竟现在的文档越来越复杂,使用显卡加速不失为一个提高文档浏览速度的好方法。
从Google开发的Picasa图片浏览和处理工具及Google Earth的GPU加速,到游戏中采用的PhysX物理加速技术;从Photoshop cs4的GPU浏览加速技术到视频转码的Badaboom软件,小到浏览图片,大到天文数据计算,随着CUDA的应用越来越广泛,它我们的生活也变得越来越交融。
其中不能不提到Google所开发的Picasa图片浏览及编辑器,以及Google Earth这款号称“上帝之眼”的地图软件。
Google作为世界首屈一指的网络IT巨头,也被NVIDIA的CUDA并行运算架构所吸引,连续推出两款支持CUDA图形核心加速功能的著名软件就是最好的明证,而在使用了Acer AspireRevo之后我们可以开启这些功能,这是未采用CUDA架构的硬件所不具备的,这也是Acer AspireRevo的优势、同样也是NVIDIA产品的优势所在。
Folding@home运算测试
● Folding@home运算测试
Folding@home是一个研究蛋白质折叠,误折,聚合及由此引起的相关疾病的分布式计算项目。我们使用联网式的计算方式和大量的分布式计算能力来模拟蛋白质折叠的过程,并指引我们近期对由折叠引起的疾病的一系列研究,找到相关疾病的发病原因和治疗方法。
Folding@home能了解蛋白质折叠、误折以及相关的疾病。目前进行中的研究有:癌症、阿兹海默症(老年失智症)、亨廷顿病、成骨不全症、帕金森氏症、核糖体与抗生素。
2006年9月底,ATI宣布了通用计算GPGPU架构,并得到了斯坦福大学Folding@Home项目的大力支持,加入了人类健康研究。2007年3月22日,PS3正式加入史丹佛大学分布式运算研究计划,至今已有超过百万名 PS3 玩家注册参与。NVIDIA于2008年6月宣布旗下基于G80及以上核心的显卡产品都支持该项目的通用计算,更是对分布式计算的重要贡献。
Folding@home在自身定位明确、成功发展的基础下,通过斯坦福大学的大力推广,已经获得了全世界广泛认同。而近期PS3和GPU的参与更是将Folding@home的运算能力推向高峰。值得一提的是NVIDIA在2008年6月果断宣布加入Folding@home项目,至今已经为该项目提供了超过2 PFlops运算能力。
GTS450显卡运行Folding@Home项目
该项目在中国拥有约2000多名参与者,其中最强大的China Folding@Home Power(Folding@Home中国力量,团队编号3213)团队已经拥有2585人,最近活跃用户200人以上,目前贡献计算量排名世界第33位,团队整体运算能力约为80到100TFLOPS。
Folding@home分布式计算项目偏重实际运算环境,这项测试是科学实用项目Folding@home项目,该项目使用了CUDA或者Stream加速的Gromacs引擎,NVIDIA的GPU架构由于流处理器设计原因,非常适合这种充满了大量跳转嵌套分支等指令的应用环境,我们的测试得到了非常理想的运算速度。
在这个项目中,我们添加了更多NVIDIA不同架构的显卡供大家对比,而斯坦福大学Folding@home项目方从HD5000开始尚未对AMD显卡提供支持,此前HD4870的PPD值为3400至4000之间。不过我们了解到GPU3客户端在今年正在努力为AMD显卡开发基于OpenCL接口的客户端。虽然我们了解到A卡架构已经显现出一定程度的老迈,但是该项目的支持者相信最早加入该项目的AMD不会放弃对这一经典GPU分布式计算项目的支持。
特色GTS450展示影驰、索泰
● 特色GTS450展示影驰、索泰
今年9月13日NVIDIA终于正式的发布了新一代的Fermi显卡的中端产品GeForce GTS 450显卡,这款拥有强悍DX11性能兼且是首款千元一下的Fermi的产品,在上市前就获得用户媒体的高度关注。
影驰GTS 450骨灰黑将显卡
因为这款高性价比的GTS 450显卡面世,意味着NVIDIA DX11显卡正式走向主流用户群体。作为NVIDIA全球重要的AIC级别合作伙伴,影驰正是抓住这个难得的机遇,发布了两款基于GTS450芯片的产品——影驰GTS 450黑将、影驰GTS 450骨灰黑将。
索泰 GTS450-1GD5极速版HB基于全新40nm工艺制造的GF106显示核心,核心研发代号为GF106-250-KA-A1,它拥有192个流处理器、具备16个光栅单元和32个纹理单元,同时标配128bit显存控制器,它能够完美支持DirectX 11 API、CUDA 3.0、PhysX物理加速、3D显示与3D眼镜支持以及PureVideo高清硬件加速技术。
来自索泰的这款GTS450极速版显卡依旧采用了黑色的主色调搭配橘黄色的亮色调风格,保留了索泰产品的一贯风格。显卡正面来看,硕大的导风罩涵盖了整个显卡的PCB部分且导风罩为了增加空气的流动性,还大面积采用了网眼处理。提供了整体散热效果,防尘网设计的散热器还有效去除灰尘污染。
特色GTS450展示七彩虹、铭瑄
● 特色GTS450展示七彩虹、铭瑄
2010年9月13日,NVIDIA正式向全球同步发布了全新40nm制程,拥有Fermi架构的GPU,代号为GF106,被正式命名为GeForce GTS450。作为NVIDIA亚太区核心合作伙伴的AIC品牌,七彩虹也在第一时间推出了限量100片的镀银版iGame450 定制版显卡。
七彩虹GTS450定制版采用了两个市售价格将近300元一个的ENERMAX(安奈美)蝠翼系列风扇。ENERMAX蝠翼系列风扇采用最先进的磁浮轴承(Twister Bearing)专利设计与纳米塑钢材质,相比滚珠轴承与油封轴承,磁浮轴承只有1个摩擦接触点,让风扇的使用寿命更长,同时降低了摩擦带来的噪音。
iGame450 定制版显卡的做工及用料都非常扎实,供电方面采用了核心与显存独立的供电方案。用料上不仅选取全固态电容的设计,而且在PCB设计上还搭配了七彩虹独创的SPT超量镀银技术。另外,配合6PIN外接电源接口,保证了显卡发挥空间的最大化。
在DIY板卡发展差异化愈加明显的今天,国内板卡厂商铭瑄为了迎合现时游戏用户的口味,强势推出了全新的“黑武士”系列游戏显卡。铭瑄针对该系列显卡的超频能力而对PCB电路进行优化,选取体质极佳的GPU芯片和显存颗粒,配合“黑武士”上出色的做工和用料,使得“黑武士”系列显卡比普通显卡的超频能力获得明显提升。
铭瑄黑武士GTS450使用了GF106核心,它的规模可以视为GF104芯片的一半。继7月中旬发布的GeForce GTX460后,面向千元以下级别市场基于新一代Fermi架构的核心GF106产品GeForce GTS450也终于正式问世。