● “这是计划的一部分”
LOC单元是一个拥有完整处理器ISA的通用处理器单元,基于OoO(Out of Order,乱序执行)模式,其内部包含完整的Register、多级I/D Cache、队列管理器、Integer ALU/FPU以及Load/Store等通用处理器架构组成部分,可以执行包括运算以及逻辑控制在内的各种泛用性应用任务。
LOC单元架构图
通过公布的IC结构,我们基本上可以认定LOC就是一枚标准的ARM处理器,也就是NVIDIA目前正在进行中的Project Denver(丹佛计划,NVIDIA独立研发的首个ARM处理器核心)。按照NVIDIA公布的数据,LOC可以以平均2nJ(纳焦耳,10的负9次方焦耳)的能耗来完成一个25pJ(皮焦耳,10的负12次方焦耳)能耗的FMUL操作的Scheduling过程。
Echelon架构将会把通用处理器直接纳入到GPU运算构架当中,并让其充当Scheduler这样的任务仲裁分配机制,而Echelon架构前置的Kepler构架则开始将Pre-Scheduling过程交给通用处理器进行处理。现在你还觉得这是一个临时性的只为解决特定问题而产生的决定么?
没错,Kepler中所谓黑科技的全新Scheduling过程以及SMX结构的设计初衷,实际上都是对Echelon架构的提前预演。为了能够尽早适应任务仲裁机制从专用处理器向通用处理器的过渡,更好的完成NVIDIA版本的CPU/GPU“融合”过程,NVIDIA在Kepler上便开始了对使用通用处理器来处理Scheduling过程的探索以及经验积累。事实上不仅仅是Kepler,从Tesla构架的G80开始,NVIDIA就已经在一步步地利用过去的构架来实现“未来的目标”了。
什么?五年多以前的G80竟然会与未来的Echelon架构有联系?NVIDIA版本的“融合”又是怎么回事?要获得这些问题的答案,我们不妨先来回忆一下NVIDIA自G80开始一路走来所经历过的事情,来看看它到底都干了些什么吧。
推荐经销商