● 4x4x4,并行结构再次升级
在Maxwell架构的一系列重要改进当中,首先要被提及的就是GPU并行结构的改进。
NVIDIA于Fermi架构中首次引入了宏观并行结构设计,它将若干组ALU团簇绑定为一个GPC,并辅以完整的几何处理及光栅化流水线,这让每个GPC因此成了与传统GPU同等级的存在。在接下来的Kepler架构当中,NVIDIA使用了新的宏观并行结构,GK110将15组SMX单元以三组为单位结合成一个GPC,整个架构被划分成了5 GPC并行的形式。但从本质上来讲,Kepler架构的宏观并行度与Fermi并无太大差异,他们均遵循了GPC-SMX-ALU的二阶三级原则,Fermi最大为4x4结构,而Kepler最大则为5x3结构。
完整的GK104架构
在Maxwell架构当中,NVIDIA改变了ALU团簇的绑定方式,在GPC-ALU之间添加了SMM和SM两级,这改变了新架构的宏观并行结构和等级。现在的Maxwell架构拥有4 GPC的宏观并行结构,每GPC下辖4组SMM单元,每组SMM下辖4组SM单元,每组SM单元包含32个ALU。整个架构的宏观并行结构也因此而变成了GPC-SMM-SM-ALU的三阶四级原则,因此GM204的宏观并行结构从Fermi/Kepler的4x4/5x3变成了4x4x4。
在当前的GM204架构中,NVIDIA的主要精力集中在了cache体系以及前后端新比例的平衡层面,我们一直期待的针对宏观并行度变化而出现的更大规模的前端改进并未到来,NVIDIA的第一级仲裁管理机制依旧是GTE(Giga Thread Engine)而非LOC(Latency Processor),扁平化的结构并未在GM204当中实现。以测试而言,并没有证据显示当前的GTE在新的三阶四级并行架构当中存在管理效率问题。尽管如此,我们仍旧坚持对LOC或类似结构以及GPU架构扁平化在未来会出现的判断,我们会对此保持关注。
NVIDIA采用的Setup以及Rasterizer同GPC绑定的方案在Maxwell当中没有变化,因此GM204架构可以实现单周期输出4多边形,在同频下拥有了和先辈们相当的多边形泵出能力,但光栅化处理能力由于新技术的加入而实现了部分场合的提升。
推荐经销商