● 拾阶而上
尽管从时间点上来看,Echelon架构并不是Maxwell的第一款产品,但从Echelon身上我们依旧能够看到诸多的Maxwell特性。可以预见,Maxwell将会是一个进一步强调吞吐的并行运算,同时拥有极高灵活度和通用性的架构。
Maxwell会将几乎全部的任务仲裁和分配管理任务交给融入GPU构架的通用处理器,也就是Project Denver设计的ARM CPU来完成,这种做法在确保任务分派能够及时完成的同时赋予了整个构架更大的灵活度和单元复用率,同时还给SM单元腾出了巨大的可扩展空间,这部分空间既可以被用来扩充ALU团簇的规模,亦可以给更大的Unified Cache提供安身之所。更大的吞吐能力,更多缓冲带来的良好单元复用率以及新仲裁机制带来的高线程效率会让Maxwell的绝对性能以及每瓦特性能达到NVIDIA架构发展史上最高的水平。而这两点,恰恰是一款优秀GPU所应该具备的最基本特质。
将这些特性集于Maxwell架构一身的,正是过去6年来NVIDIA历经4代构架所完成的阶梯式的发展体系和完整的经验积累过程。
Echelon架构细节
在第一级台阶中,G80的革新为GPU带来了图形及通用计算所需要的根本特性,也就是新的包含shared在内的寄存器溢出缓冲体系以及并行化的Thread吞吐及管理模式,这为GPU打开通用计算大门的同时,也将高单元复用率+高Shader效率的NVIDIA图形构架发展基线确定了下来。
在G80完成了基本特性的引入之后,接下来的GT200对资源的扩充让NVIDIA完成了Thread吞吐量以及吞吐管理模式的摸索,Atomic等操作模式的引入让NVIDIA在线程管理和效率提升方面获得了更多经验,而密度翻倍的Register则让NVIDIA获取了GPU完成双精度运算所需基本条件的重要数据,并最终令NVIDIA掌握了实现半速双精度浮点运算的方法。
第三级台阶上的Fermi所做的事情同样重要,利用GT200上获得的经验,它顺利的将体系的宏观并行化以及任务群的并行化处理提上了前台并以此提升了图形和运算过程的整体执行效率,开始了对Unified Cache这一更好的寄存器溢出缓冲的应用探索,并结合统一定址展开了CPU进驻GPU内部的准备工作。这些特性的引入不仅让纯数学层面的通用计算应用获得了更好的执行环境和效率,更为DirectX 11这样将图形运算与通用计算结合在一起的游戏应用提供了不错的执行环境。
接下来,在目前铺筑台阶的最高一层上,Kepler开始了整个计划中最关键同时也是最重要的一步——它将线程仲裁及管理工作从GPU内部逐步过渡到CPU,让NVIDIA得以提前适应特定任务处理过程从专用处理器向通用处理器转变的过程,为CPU的工作与GPU的工作连接成一个异构化的整体做好了准备。与此同时,Kepler也开始了对如何使用Logic controller所留下的空间的摸索工作。
这就是NVIDIA为我们以及他自己所铺筑的通往目标的阶梯,从G80开始,每一代NVIDIA的GPU架构都存在着一个需要完成的目标,这些目标之间彼此关联并且最终指向了一个明确的目的地,那就是Maxwell以及NVIDIA版本的CPU/GPU“融合”方案。
推荐经销商