业已存在的目标_NVIDIA GeForce GTX 780

首席编辑

继续后发制人？新开普勒GTX780架构展望

2012-12-19 05:00:00 [ 中关村在线原创 ] 作者：

顾杰

收藏文章阅读全文

新浪微博 QQ空间 QQ好友微信二维码

暂无评论

　　● 业已存在的目标

　　相对于AMD，NVIDIA的性能目标要更加明确一些。2012年11月初正式发布并出货的Tesla K20/K20X不仅标志着Kepler 2.0架构的成熟和凝固，同时也为GeForce GTX 780的架构/性能边界以及特性情况提供了重要的参考依据。尽管由于资料公布的不完全，我们目前还没有彻底掌握GK110架构的全部细节，但对于可能对GeForce GTX 780产生影响的基本面细节，NVIDIA公布的信息基本上已经足够。

继续后发制人？新开普勒GTX780架构展望
完整规格GK110架构

　　根据信息汇总，完整规格的GK110架构拥有5组宏观并行的GPC，这些GPC的结构经过了重设，每个GPC包含3组SMX单元。与之相对应的，GK104架构中每组GPC仅包含2组SMX单元。整个架构合计拥有15组SMX单元，2880个ALU。由于SMX单元的基础结构未被重设，我们认为GK110的基本缓冲体系、几何及图形特质并未发生改变，因此完整GK110架构的图形版本将拥有单周期5多边形的输出能力（Fermi及Kepler 1.0为4），15组PolyMorph Engine以及240组Texture Array。目前而言，PolyMorph Engine及Texture Array均存在改进的余地，但不会从根本上对性能带来巨大的影响。

　　从逻辑结构的层面出发，GK110架构较之GK104架构的不同除了重设的GPC之外，还有Dynamic Parallelism及Hyper-Q特性的引入。

Dynamic Parallelism特性

　　在GK110架构中，NVIDIA在传统的二级仲裁机制CWD（CUDA Work Distributor，CUDA分配器）之外引入了全新的GMU（Grid Management Unit，Grid管理单元），GMU可以对CWD收到的Grid进行启停管理、回收、判断、挂起以及重排序等操作，令其以更加灵活的方式在必要时进入执行单元，这避免了Grid像过去那样以缺乏排序的顺序模式被送入SM，而且一旦进入SM之后就只能等到全部执行结束才能出来。GMU的引入不仅提升了GK110中SMX单元的执行灵活度和单元复用率，还为动态片上创建Kernel提供了条件，所以NVIDIA引入了全新的Dynamic Parallelism，允许GPU根据需要直接对Kernel的结果进行判断并创建新的后续Kernel，这与传统的Kernel执行完毕之后由CPU进行回收判断并创建新的Kernel有了很大的不同，Dynamic Parallelism非常明显的提升了体系的Kernel密度，减轻了与CPU频繁通讯所带来的等待周期，对于低负载高密集任务中单元复用率改善有不小的帮助。

　　除了Dynamic Parallelism之外，NVIDIA还引入了Hyper-Q特性，允许最多32个CPU同时访问GPU并发送不同的Kernel，结合Femi时代就已经存在的并行Kernel以及Dynamic Parallelism，Hyper-Q进一步提升了GPU在面对低负载多任务时的效率。

Hyper-Q

　　如果没有Dynamic Parallelism和Hyper-Q，GPU一次只能与1个CPU进行通信并获得任务，在执行有关联性的Kernel串时还必须每完成一组Kernel就同CPU通信一次，提交任务结果并等待CPU进行判断及发放新的任务，这造成了许多不必要的等待周期。Dynamic Parallelism和Hyper-Q的出现弥合了这些周期，提升了整个体系对任务的管理及分派效率，让GPU处在了更高效的任务切换和执行过程中，提升了整个体系的单元复用状态，因此对提升GPU的效率及性能功耗比有十分积极的意义，它们的出现也表明了NVIDIA继续强调性能功耗比特性的决心和努力方向。

　　由于Dynamic Parallelism和Hyper-Q均属于任务管理模式的改进，可以提高包括图形任务在内的各种任务的执行效率以及整个体系的单元复用率，所以我们认为这些特性在GeForce GTX 780中均会得到保留，最终与我们见面的产品在特性层面上将同当前已经发布的Tesla保持一致，架构的基本形态也将承袭GK110的绝大部分特征。性能方面，我们决定采用HD8900预测中出现过的目标，以1.2T Flops的双精度浮点运算能力作为预设性能界限。由于GK110本身具备71亿晶体管的庞大规模，芯片面积已经贴近甚至可能已经小幅超越了NVIDIA在DirectX 11时代的582平方毫米的D线（什么是D线？它会导致怎样的问题？），如果要继续强调性能功耗比特性并触及性能界限，NVIDIA必须限制GeForce GTX 780的规模以降低功耗表现，甚至可能会改变该芯片的最终形态，并将之打造成一款更小规模的GK110。而这些可能的方案，就是我们今天预测和展望的重点。

向作者提问标签：显示芯片