扩展并行的下级仲裁管理机制_七彩虹 iGame 750 烈焰战神U-Twin-1GD5

编辑

Maxwell震撼登场 GTX750Ti/750首发测试

2014-02-18 22:00:00 [ 中关村在线原创 ] 作者：

陈虹安

收藏文章阅读全文

新浪微博 QQ空间 QQ好友微信二维码

暂无评论

● 扩展并行的下级仲裁管理机制

我们曾经多次强调过，在整个Kepler构架当中，产生影响最为深远的改进来自任务调度以及仲裁过程的巨大变化。果如我们所言，Maxwell架构最核心的改进直接获益于该项改进，那就是SMM架构的任务仲裁机制。

通常来讲，可重复性较低且需要运算过程的判断性工作并不适合固定单元来执行，更加灵活的具有可编程性的通用单元来完成这类工作会比较得心应手。而那些具有较高可重复性，过程相对固定且基本具备可预期性的控制类工作，则更加适合具有特定针对性功能的电路来完成。如果我们以可编程的通用处理单元来完成判断性工作，让控制工作更多地被特定功能电路所执行，就可以达到最高效率的利用不同单元，以最低的能耗来完成最多工作的目的。

垫背者的帝国坟场 PS4平台意义深度解析
Kepler构架与Fermi构架执行Scheduling过程的差异

正是在这种思想的指导下，Kepler完成了“送出去，请进来”的改进，NVIDIA把一部分Scheduling过程从本地“送出去”，也就是转移到了CPU中以运算的形式来完成，同时通过引入GMU单元以及添加Dynamic Parallelism特性来降低CPU控制对任务的介入和影响，将控制工作更多地“请进来”，亦即移动到本地的GMU完成。这种执行位置和执行对象的互换扭转了过去“满拧”的局面，将适合通用处理单元的工作从GPU中拿出来交给了通用处理单元，也将不适合通用处理单元完成的工作交还给了GPU中的固定单元来完成，从而达到了各种单元均可以以更合适的功耗完成更多工作的目的。

Pre-Scheduling过程变化（图片修改自后藤弘茂先生博客）

Kepler的这项改进不仅保障了流水线的执行效率，同时也完成了相当关键的工作——对下级仲裁管理机制的“瘦身”和“减负”，Kepler架构SMX单元当中的下级仲裁管理机制不仅打破了整体性，所占资源比例明显下降，效率也并未因此而变低，这为Maxwell提供了良好的基础。

传统的NVIDIA下级仲裁机制对任务的管理过程

在Maxwell架构的SMM单元中，NVIDIA进一步延伸了仲裁机制瘦身的成果，它将SMX单元中的scheduler/dispatch拆解成了并行的四等份“子仲裁机制”，每组新的仲裁机制虽然比原先缩小了75%，但其所面对的ALU数量却也进一步下降了83.3%，每组scheduler/dispatch所面对的ALU从48个下降到了32个，所以这种拆解实际上提升了任务管理机制的等效规模，让每一个ALU都获得了比过去更多的管理资源。

SMM单元中新的下级仲裁管理机制