4x4x4,并行结构再次升级_索泰 GTX 980-4GD5极速版HA

首席编辑

GPU能耗比记录刷新 GTX980/970首发测试

2014-09-19 10:30:00 [ 中关村在线原创 ] 作者：

顾杰

收藏文章阅读全文

新浪微博 QQ空间 QQ好友微信二维码

暂无评论

● 4x4x4，并行结构再次升级

在Maxwell架构的一系列重要改进当中，首先要被提及的就是GPU并行结构的改进。

NVIDIA于Fermi架构中首次引入了宏观并行结构设计，它将若干组ALU团簇绑定为一个GPC，并辅以完整的几何处理及光栅化流水线，这让每个GPC因此成了与传统GPU同等级的存在。在接下来的Kepler架构当中，NVIDIA使用了新的宏观并行结构，GK110将15组SMX单元以三组为单位结合成一个GPC，整个架构被划分成了5 GPC并行的形式。但从本质上来讲，Kepler架构的宏观并行度与Fermi并无太大差异，他们均遵循了GPC-SMX-ALU的二阶三级原则，Fermi最大为4x4结构，而Kepler最大则为5x3结构。

少数派报告 GTX660Ti/660图形架构猜想
完整的GK104架构

在Maxwell架构当中，NVIDIA改变了ALU团簇的绑定方式，在GPC-ALU之间添加了SMM和SM两级，这改变了新架构的宏观并行结构和等级。现在的Maxwell架构拥有4 GPC的宏观并行结构，每GPC下辖4组SMM单元，每组SMM下辖4组SM单元，每组SM单元包含32个ALU。整个架构的宏观并行结构也因此而变成了GPC-SMM-SM-ALU的三阶四级原则，因此GM204的宏观并行结构从Fermi/Kepler的4x4/5x3变成了4x4x4。

完整规格GK110架构图

在当前的GM204架构中，NVIDIA的主要精力集中在了cache体系以及前后端新比例的平衡层面，我们一直期待的针对宏观并行度变化而出现的更大规模的前端改进并未到来，NVIDIA的第一级仲裁管理机制依旧是GTE（Giga Thread Engine）而非LOC（Latency Processor），扁平化的结构并未在GM204当中实现。以测试而言，并没有证据显示当前的GTE在新的三阶四级并行架构当中存在管理效率问题。尽管如此，我们仍旧坚持对LOC或类似结构以及GPU架构扁平化在未来会出现的判断，我们会对此保持关注。

完整规格GM204架构图