1末日之后再见
从Tahiti架构发布算起,这一代的显卡与我们见面已经差不多整一年时间了。不管之前有多少惊喜、感动、遗憾或者唏嘘,365天的时光都会冲淡了一切刺激的情感,只留下平淡的往事以及我们每天都会面对的平常产品。
翻动的日历向我们诉说着岁月的消磨一切棱角的力量,同时却也预示着一件事——周而复始是常理,所以当一切归于平淡时,新的刺激也正在酝酿当中。当你眼里的Radeon HD 7970以及GeForce GTX 680变得不再那么新鲜时,新一代的产品和更多的惊喜也就差不多该到来了。
在上周的文章中,我们已经与您一同进行了关于AMD的全新架构——Sea Islands中的旗舰Venus的预测,那么作为Venus的对手,NVIDIA又将为我们带来怎样的GeForce GTX 780呢?既然我们都认为子虚乌有的2012无法阻止这些新显卡的到来,那么在今天的文章中,就让我们一起来看一看GeForce GTX 780可能的样子吧。
》现在去显卡道转转《|》看看今日最新文章《
2继续后发制人?
● 继续后发制人?
在讨论即将到来的Kepler 2.0以及GeForce GTX 780的结构之前,我们首先要明确一件事,那就是GeForce GTX 780到来的时机。
从AMD转入小核心策略开始,AMD与NVIDIA之间的竞争过程就一直维持前者以小核心完成架构更迭的先发,而后者则更加习惯于后发的状态。我们认为这样的关系会在GeForce GTX 780得以保留。尽管我们觉得无论采用怎样的架构形式,GeForce GTX 780的芯片架构均早已凝固,而且此时可能已经有复数的GeForce GTX 780方案同时存在,但GeForce GTX 780应该依旧会在基于Venus架构的Radeon HD 8970发布之后到来。
小核心先发策略代表——HD5870
后发策略在正常情况下是一种看似被动的选择,它会让后发者失掉先发者获得的关注,但同时也会给后发者带来产品针对性调整及市场运作形式调整的机会,究竟能否化被动为主动,最终还要看后发者的后发周期长短、对后发时间损失的评估、能否事实承受这样的损失以及调节能力是否充分。与此同时,传统的先后发关系还有“AMD握有功耗优势,而NVIDIA则掌握绝对性能优势”这样的“潜规则”作为基础,一旦形成这样的思维定式,先发对市场的刺激效应会逐渐弱化,人们都会因为期待更明显的性能及综合表现提升而更加倾向于等待后发者的表现再作打算,此时如果能够正确的评估时间损失与关注度及市场反应之间的联系,在不太长的周期之后推出新品,后发将不再是被动的表现。
在“潜规则”成立的时代,NVIDIA尚且能够承受后发带来的影响并适时地推出产品,在同时手握绝对性能、功耗以及市场优势的眼下,NVIDIA更可以轻松的采用紧密后发这样一种辛辣的手段来完成竞争。
我们预计GeForce GTX 780将会在Venus架构发布后相对较短的时间内到来,具体时差由Venus架构的最终表现决定。如果Venus架构表现平平,那么GeForce GTX 780将可能在对手发布1周~半个月后发布。如果Venus架构革新较大同时性能提升明显,GeForce GTX 780的准备周期可能更长,但应该不会超过Tahiti/Kepler之间的发布间隔长度。
3业已存在的目标
● 业已存在的目标
相对于AMD,NVIDIA的性能目标要更加明确一些。2012年11月初正式发布并出货的Tesla K20/K20X不仅标志着Kepler 2.0架构的成熟和凝固,同时也为GeForce GTX 780的架构/性能边界以及特性情况提供了重要的参考依据。尽管由于资料公布的不完全,我们目前还没有彻底掌握GK110架构的全部细节,但对于可能对GeForce GTX 780产生影响的基本面细节,NVIDIA公布的信息基本上已经足够。
完整规格GK110架构
根据信息汇总,完整规格的GK110架构拥有5组宏观并行的GPC,这些GPC的结构经过了重设,每个GPC包含3组SMX单元。与之相对应的,GK104架构中每组GPC仅包含2组SMX单元。整个架构合计拥有15组SMX单元,2880个ALU。由于SMX单元的基础结构未被重设,我们认为GK110的基本缓冲体系、几何及图形特质并未发生改变,因此完整GK110架构的图形版本将拥有单周期5多边形的输出能力(Fermi及Kepler 1.0为4),15组PolyMorph Engine以及240组Texture Array。目前而言,PolyMorph Engine及Texture Array均存在改进的余地,但不会从根本上对性能带来巨大的影响。
从逻辑结构的层面出发,GK110架构较之GK104架构的不同除了重设的GPC之外,还有Dynamic Parallelism及Hyper-Q特性的引入。
在GK110架构中,NVIDIA在传统的二级仲裁机制CWD(CUDA Work Distributor,CUDA分配器)之外引入了全新的GMU(Grid Management Unit,Grid管理单元),GMU可以对CWD收到的Grid进行启停管理、回收、判断、挂起以及重排序等操作,令其以更加灵活的方式在必要时进入执行单元,这避免了Grid像过去那样以缺乏排序的顺序模式被送入SM,而且一旦进入SM之后就只能等到全部执行结束才能出来。GMU的引入不仅提升了GK110中SMX单元的执行灵活度和单元复用率,还为动态片上创建Kernel提供了条件,所以NVIDIA引入了全新的Dynamic Parallelism,允许GPU根据需要直接对Kernel的结果进行判断并创建新的后续Kernel,这与传统的Kernel执行完毕之后由CPU进行回收判断并创建新的Kernel有了很大的不同,Dynamic Parallelism非常明显的提升了体系的Kernel密度,减轻了与CPU频繁通讯所带来的等待周期,对于低负载高密集任务中单元复用率改善有不小的帮助。
除了Dynamic Parallelism之外,NVIDIA还引入了Hyper-Q特性,允许最多32个CPU同时访问GPU并发送不同的Kernel,结合Femi时代就已经存在的并行Kernel以及Dynamic Parallelism,Hyper-Q进一步提升了GPU在面对低负载多任务时的效率。
如果没有Dynamic Parallelism和Hyper-Q,GPU一次只能与1个CPU进行通信并获得任务,在执行有关联性的Kernel串时还必须每完成一组Kernel就同CPU通信一次,提交任务结果并等待CPU进行判断及发放新的任务,这造成了许多不必要的等待周期。Dynamic Parallelism和Hyper-Q的出现弥合了这些周期,提升了整个体系对任务的管理及分派效率,让GPU处在了更高效的任务切换和执行过程中,提升了整个体系的单元复用状态,因此对提升GPU的效率及性能功耗比有十分积极的意义,它们的出现也表明了NVIDIA继续强调性能功耗比特性的决心和努力方向。
由于Dynamic Parallelism和Hyper-Q均属于任务管理模式的改进,可以提高包括图形任务在内的各种任务的执行效率以及整个体系的单元复用率,所以我们认为这些特性在GeForce GTX 780中均会得到保留,最终与我们见面的产品在特性层面上将同当前已经发布的Tesla保持一致,架构的基本形态也将承袭GK110的绝大部分特征。性能方面,我们决定采用HD8900预测中出现过的目标,以1.2T Flops的双精度浮点运算能力作为预设性能界限。由于GK110本身具备71亿晶体管的庞大规模,芯片面积已经贴近甚至可能已经小幅超越了NVIDIA在DirectX 11时代的582平方毫米的D线(什么是D线? 它会导致怎样的问题?),如果要继续强调性能功耗比特性并触及性能界限,NVIDIA必须限制GeForce GTX 780的规模以降低功耗表现,甚至可能会改变该芯片的最终形态,并将之打造成一款更小规模的GK110。而这些可能的方案,就是我们今天预测和展望的重点。
4简单直接的“切角版”GTX780
● 简单直接的“切角版”GTX780
在综合架构特性以及可制造性问题的影响之后,我们认为GeForce GTX 780的整体规模应当维持在12 SMX以下。要达到这一规模,NVIDIA需要关闭一定数量的GPC来达到目的。
对于NVIDIA来说,最简单务实的做法来自经典的“切角模式”,即通过直接关闭一部分功能单元的晶体管,来换取整体架构规模的缩减并控制功耗,进而以更高的频率来提供充分的性能。这种模式通常会选择芯片边缘的某组功能单元群组进行关闭,因此这种模式为我们带来了第一种GeForce GTX 780的形态模式。
GeForce GTX 780形态1:GK110直接关闭一组GPC
在第一种形态中,我们认为GeForce GTX 780将直接关闭位于芯片边缘的4组GPC,即GPC0/1/2/4中的某一组。经过关闭单元操作,GeForce GTX 780将会保留4 GPC/12 SMX/2304 ALU/192 Texture Array的最终规模。芯片基本特征完全承袭GK110,多边形处理能力从完整GK110的单周期5多边形降至同GK104/Fermi相同的单周期4多边形,几何处理能力、运算能力以及材质处理能力也将降为同频完整GK110的80%。
以“切角模式”关闭单元是NVIDIA最常见的限制GPU规模、控制功耗发热并提升良率的手段,这种方式简单直接,NVIDIA只需通过驱动、BIOS控制或者熔丝关闭之类物理手段即可达成,无需修改GPU当前的EDA方案,可以最大限度的保护研发及生产成本并达成目的。通过切角模式,GeForce GTX 780的有效规模下降了20%,这给提升频率提供了空间。在这种方案下,GeForce GTX 780可以在900MHz的频率上达到我们在前页预设的性能界限值。
直接关闭单元的方式虽然简单,但通常情况下无法做到彻底“封闭”单元区域,互联发热以及大芯片上更为明显的热密度不均匀问题也会影响芯片的表现,所以我们进一步设想了另一种更为复杂的关闭GPC来限定规模的方式。
5B计划
● B计划
我们所设想的第二种GeForce GTX 780同样关闭了一组GPC,但与前一版本关闭边缘4组GPC中任意一组的方式不同,该版本的GeForce GTX 780所关闭的GPC为GPC3,即芯片中位于中部区域,处在Thread Engine下方的那组GPC。
图片说明
与切角模式的常规版本相比,这一版本的GeForce GTX 780在规模、运算特性以及图形相关能力方面没有任何区别,从逻辑上来讲两者是完全等效的。但由于关闭单元位置的特殊性,这一版本的GeForce GTX 780将会面临前一版本并不突出甚至几乎完全不存在的EDA问题。
常规的NVIDIA架构一般都具有偶数个数的TPC/GPC结构,因此大多采用中心对称的包围式布局,但GK110的GPC总量为奇数,这导致其采用了非对称的半包围式布局,GPC3的位置不仅独立于其他GPC之外,而且需要更为复杂的垂直互联来完成同cache及其他单元的连接。因此如果选择关闭GPC3不仅需要启用与以往不同的关闭方式,还需要面对芯片内部互联模式以及芯片EDA方案的改变。
以结果而言,关闭GPC3可以获得高于关闭其他GPC所获得的功耗控制量,平衡芯片的热密度,这让该方案的GeForce GTX 780有机会运行在更高的频率上并提升性能,进而获得更好的性能功耗比表现。但该方案的整体操作风险比关闭其他单元更大,同时由于GPC3更加复杂的互联被整体关闭,其他GPC的互联可能会受到影响,NVIDIA可能会因此而重做整颗芯片的EDA方案,这将会进一步加大GeForce GTX 780的成本压力。
关闭GPC3的方案还引出了另一个令人期待的可能性——既然存在重置EDA的可能性,那么NVIDIA会不会干脆重新设计一款原生4GPC方案的芯片呢?
6“GK112”——诚意与成本之战
● “GK112”——诚意与成本之战
我们知道,NVIDIA在Kepler时代所强调的最大诉求在于对性能功耗比的追求。但在GK110近600平方毫米的芯片尺寸上“强调性能功耗比”,无论怎么进行操作都会显得有些无力。既然前面我们提到的关闭GPC3的方案可能会导致重置EDA的过程,而重置EDA跟重新布局一颗芯片基本上没差多少工作量和成本投入,NVIDIA为什么不干脆重置一颗尺寸更小的芯片呢?
原生4GPC的GeForce GTX 780重置EDA版
我们将重新布局的芯片命名为“GK112”,这一名称目前并不存在于已知的任何NVIDIA路线图当中。“GK112”的逻辑结构同前面两个GK110方案完全相同,均为4 GPC/12 SMX/2304 ALU/192 Texture Array,两者在同频性能上没有多少差异,但“GK112”的4 GPC为原生结构,它的整体规模及芯片面积较之GK110会有明显的下降,整体幅度甚至达到15%左右的等级,这将令其芯片布局更为规整和常规,同时令其面积回归至D线下方。根据过往的经验来看,位于D线下方的芯片相对“安全”且更容易把控,其良率、功耗、温度及频率均能获得更好的平衡,性能功耗比特性将更加突出,因此我们有理由相信采用这一方案的GeForce GTX 780将会是3种方案中良率最佳、可用频率最高同时性能最优异的选择。
彻底EDA重置之后的原生版核心虽然风险高,但可能重演GK104精彩
当然,对于“GK112”而言,诱惑与风险是并存的。尽管这一方案综合表现更为优异,逻辑结构的设计也不存在什么大问题,但重置EDA需要投入大量的成本和时间,这将会加重NVIDIA的资源投入负担以及芯片均摊成本。另外,NVIDIA从来没有在一代架构体系中同时准备过5款不同定位的架构方案,尽管Kepler存在各种各样令人猜测的余地,比如说“GK107”这个代号就很令人怀疑,而且被大多数人怀疑成原本定位为sweet spot级的GK104恰好是这个“GK112”方案规模的75%,但这个“GK112”这样的方案会让GK110变成了完全对应HPC领域应用,在即将到来的产品更新周期内几乎没有露脸可能的存在。除非NVIDIA打算将Kepler架构进一步松散化,并延长整个Kepler架构的寿命和发售周期,否则这样的架构在规律层面上是解释不通的。
“GK112”为我们勾勒了一个表现更为优异GeForce GTX 780,同时也为我们带来了另一种关于未来的远景——如果NVIDIA真的打算将Kepler架构进一步松散化,并延长整个Kepler架构的寿命和发售周期,除了“GK112”之外,NVIDIA还会做出怎样的GeForce GTX 780呢?
7“高频急速经典复刻典藏2013版”GTX780?
在各种各样的未来当中,相信大多数人都不太喜欢看到的关于GeForce GTX 780的可能性,应该莫过于“GK104再战30年”了。尽管GK104在2012年里为我们带来了一系列惊喜,不仅向整个业界展现了极佳的性能功耗比表现,而且其频率/性能延展性也向我们充分展示了GK104架构的性能潜力。但如果“新一代”旗舰还跟去年的旗舰长得一模一样,谁会没点想法呢?可惜的是,不管我们情不情愿,如果NVIDIA真的打算将Kepler架构松散化并延长整个架构的寿命和发售周期,这种可能性就不得不被考虑了。
GK104逻辑架构(与前页各图不同,并非与芯片布局对应)
GK104架构拥有4 GPC的宏观并行结构,8组SMX单元,1536个ALU以及128组Texture Array,其结构在过去一年中已经为大家所熟知,我们在这里不再重复,有兴趣的朋友可以回顾我们先前的GeForce GTX 680首测文章以及一系列关于其特性针对制作的GPU炼金试验室文章。由于当前的GK104架构已经完整凝固,如果NVIDIA继续以GK104架构的逻辑结构来打造GeForce GTX 780的话,我们预计它将会采用EDA重置、图形相关细节微调+高运行频率的方案来完成。
在实现手段上,EDA重置可以帮助NVIDIA完善GK104芯片的物理特征,包括优化互联结构、更高效使用晶体管并进一步缩减芯片面积等等。这一过程在GF100-GF110的过程中被证明是有效的,它将帮助GK104进一步提升良率降低成本,还可以进一步降低单位功耗并提升其工作频率。我们预计经过EDA重设之后的GK104将会拥有35亿晶体管/290平方毫米甚至更低的规模和芯片面积,同时默认运行频率可能达到甚至超过1.3GHz。
整体而言,这是一个与我们先前预测的AMD海岛架构可能性之一,也就是Venus32基本相当的解决方案,它们都是现有架构的微调版本,尽管存在引入改进材质特性等图形属性改进的可能,但逻辑结构在本质上变化不大,最主要的性能提升手段均为非常直接的频率。这种方案的实施风险和成本均极低,只要EDA过程切实达到目的,功耗及效率表现也不会比当前架构差,是一种省钱又实际的解决方案。另外,这需要双方达成某种程度的默契。
是的,不管是主动还是被动,这需要某种程度的……“默契”。
8决定命运的人是谁?
● 决定命运的人是谁?
GeForce GTX 780究竟会采用哪种方式,究竟是更高性能以及具备更好未来的各种GK110版本,还是改动更小但成本控制更为轻松的GK104复刻版,其实最终的决定要素并不完全在NVIDIA自身。
没错,决定GeForce GTX 780将以何种面目示人的最根本要素,是AMD的Venus。
我们设想中的“Venus40 II”逻辑架构示意图
我们今天所给出的4种GK110版本方案实际上遵循了成本/风险/性能正比例的原则,成本和风险越低的方案,其性能界限也越低。以我们最欣赏的“GK112”为例,它拥有最佳的性能空间和综合表现,但成本和风险也都十分高。能够让NVIDIA冒险实施这一方案的前提要素是什么?很显然,答案是一个十分给力的Venus架构。
竞争从来都是一个对应平衡的关系,就像作用力与反作用力一样。在存在反托拉斯法这一游戏规则的前提下,只有竞争的双方都投入全部的热情和能力,并争相做出更加卓越的进步时,竞争才会变得精彩激烈。如果竞争的一方出现了懈怠,另一方会因为游戏规则中对垄断的限制而马上作出调整并跟着懈怠。抛弃AMD的存在,独自去耗费大量成本开发性能精进的架构,对于现在的NVIDIA来说并没有什么好处,甚至可以说是自找麻烦。一个人的奔跑并不适合现在的环境,这一点对于Intel同样适用。
一个人的奔跑并不适合现在的环境,这一点对于Intel同样适用
有介于此,如果AMD的Venus架构革新极小,甚至最终真的以“Venus 32”这样的形态面市的话,“高频急速经典致敬复刻典藏2013版”GTX780可能就不再只是我们设想的一个玩笑了……而且更加不幸的是,对于AMD在未来将会遇到的困难、可能采取的应对措施以及这些措施所产生的结果也就是新架构的形态,NVIDIA知道的肯定比我们所知道的更多。所以GeForce GTX 780的命运实际上已经注定了,我们所能做的,其实应该仅仅是尝试着去理解这种命运的成因而已。
最强大的GeForce GTX 780——完整规格GK110芯片
对于商人而言,省钱、安全同时能够达到盈利目的的方案是最理想的方案,所以无论是“GK104复刻”的GTX780还是“换个名字而已”的HD8970,对NVIDIA和AMD来说都是最能省钱同时挣钱的方案。但对于整个图形业界的前进来说,这却是不健康的甚至可能是致命的方案。它不仅会进一步拖慢需求的增长,对市场产生不良的刺激并加剧各种与应用增长相关的恶性循环,还会挫伤人们对新产品的信心和期待感。
GeForce GTX 780究竟会以怎样的形态来到我们的面前,它能否在提供足够性能的同时为我们以及整个图形界带来更多惊喜,答案只能交给时间以及AMD来揭晓。无论等待着我们的究竟是什么,ZOL显卡频道都将与您同在。
9NVIDIA GeForce GTX 780详细参数
GeForce GTX 680独孤求败到何时?是先被Radeon HD 8900击败,还是被自己新生代GeForce GTX 780击败?答案我们不知道,但是通过前几日本站对Radeon HD 8900核心架构分析,想必用户对GeForce GTX 780的好奇度大增,为了满足用户的需求,今日推出NVIDIA下一代核心架构分析。
推荐经销商