● 再读GK110的宏观并行体系
NVIDIA于Fermi架构中首次引入了宏观并行结构设计,它将若干组ALU团簇绑定为一个GPC,并辅以完整的几何处理及光栅化流水线,这让每个GPC因此成了与传统GPU同等级的存在。在执行符合DirectX 11特征的程序时,一级任务管理机制只需将Kernel并行的发放给不同的GPC,即可达成整个架构的并行kernel处理过程。因此这种设计不仅可以比较直接的为架构带来更好的几何和光栅化处理能力,同时还可以提升任务的执行效率。
与去年发布的GK104不同,NVIDIA在GK110架构中使用了新的宏观并行结构。GK104的8组SMX单元被两两分组结合成一个GPC,整个架构的8组SMX单元被划分成了4 GPC并行的形式。而GK110则是将15组SMX单元以三组为单位结合成一个GPC,整个架构被划分成了5 GPC并行的形式。
完整规格GK110架构图
由于NVIDIA采用了Setup以及Rasterizer同GPC绑定的方案,因此GK110架构可以实现单周期输出5多边形,在同频下拥有了比GK104多20%的多边形输出能力以及光栅化处理能力。
宏观并行度的进一步提升有助于体系在处理并行Kernel时的效率,但从外表上来看GK110对于宏观并行度的提升与其运算单元(SMX/ALU)规模的提升并不成比例,单个GPC的规模较之GK104提升了50%,这样的做法给人一种整个架构开始偏重于吞吐而非强调任务效率以及单元复用率的感觉。这是否意味着NVIDIA打算放弃坚持了多年的既有设计思路,开始放弃效率并转向提升架构的吞吐能力了呢?
事实并非如此,因为NVIDIA在GK110中为我们带来了另外两个重要的特性——Dynamic Parallelism和Hyper-Q,这两个特性不仅极大地提升了整个架构的任务效率/密集度,同时将单元复用率以及整个Kepler架构的意义提升到了一个全新的高度。
推荐经销商