热点推荐
ZOL首页 > 显卡 > 评测 > 1000元以上 >

问题的关键:到底是多少加多少?

上错花轿嫁对郎 CrossFireX超高效率揭秘

CBSi中国·ZOL 作者:中关村在线 顾杰 责任编辑:林光楠 【原创】 2011年04月30日 05:00 评论

  ● 问题的关键:到底是多少加多少?

  明白了Barts以及Cayman的抢占式多线程工作环节,我们就等于剥开了真相外面最后的一层茧,接下来,我们将直接面对事情的本质,为什么Barts和Cayman的CrossFireX效率能够超过单卡的100%。

  答案其实就在眼前——因为Barts和Cayman构架的单卡在单独面对任务时所表现出来的性能,根本就不是单卡应有性能的100%。我们所面对的问题其实根本不是1+1为什么大于1X2,而是1+1大于多少X2。


上错花轿嫁对郎 crossfire超高效率解析

Barts及Cayman构架显卡

  无论4D+1D VLIW的Barts还是4D VLIW的Cayman,其设计思路均传承自AMD的R600构架,Barts和Cayman的设计基础是建立在强调吞吐量以及粗犷操作的模式之上的,这种思路不仅反映到了VLIW CORE的设计细节上,更深深的影响了任务仲裁机制也就是UTDP的设计理念。UTDP的设计在面对传统的大面积4D shader吞吐时可以表现出高效的管理能力,但当所要处理的shader过于灵活的时候,UTDP以及单级抢占式多线程管理的弊端就显现出来了。

上错花轿嫁对郎 crossfire超高效率解析
SSAO是典型的灵活shader应用

  首先,UTDP所要管理的运算资源过多。Cayman构架拥有1408/1536个ALU,Barts构架也拥有800/960/1120个ALU,如此庞大的运算资源仅使用2个运行在800~900MHz上的UTDP进行单级管理,复杂多变的灵活线程进入ALU的时机以及整个VLIW CORE的线程密度很难达到一个比较理想的状态。

上错花轿嫁对郎 crossfire超高效率揭秘
Cayman构架细部

  其次,两个UTDP的虽然可以进行交错抢占式线程块吞吐,但任务队列只有一个,无论Cayman还是Barts构架同一周期都只允许一个UTDP单元进行线程块吞吐。如果此时两个UTDP都处在空闲或者满载状态,交错抢占式吞吐对效率的提升不仅无法被发挥出来,这种延迟还将随着线程队列的延长而累积起来,这将进一步影响后续的VLIW CORE得到的线程密度。

上错花轿嫁对郎 crossfire超高效率解析
Cayman的双几何及UTDP引擎

  最后,如果多个线程导致VLIW CORE的寄存器和缓存资源出现溢出,执行单元将会把这些线程发还UTDP进行线程块合并,在《谁是微软忠实随从 A/N统一架构历史回顾》及《忠实微软是否有用 A/N统一构架细节分析中我们不难发现,对于Barts以及Cayman构架这种访问及操作路径和缓存资源均极端不足的构架来说,寄存器溢出基本上就意味着无后手可用,只能将线程发还给UTDP进行wavefront合并。与此同时,如果某线程未通过Adjacent-Instruction Dependencies检查,这些线程也将被押后最少64个周期并再次寻找依赖性达到要求的位置重新打包。这些重复和多次打包的要求对于本已负担沉重的UTDP无疑是雪上加霜的。

上错花轿嫁对郎 crossfire超高效率解析
RV870简单且匮乏的操作路径及手段

  在这些客观因素的影响下,Barts以及Cayman的单卡在面对任务时,是很难跑出全部性能的,大量的单元会因为线程密度不足带来的延迟而处在闲置状态。 要解决这种问题其实倒也不难,只要降低UTDP的负担,让其能够更加平顺的吞吐和控制合适长度的线程队列,或者管理更少的ALU资源就行了。伴随着单位线程管理强度的下降,Barts和Cayman构架可以获得更高的性能提升幅度。

  CrossFireX的操作,刚好对应了这种需求。

上错花轿嫁对郎 crossfire超高效率解析
CrossFireX连接结构

  我们前面的文章已经提到过,CrossFireX通过对画面的分割,实际上完成了对像素线程队列的分割,被分配到每个GPU中的像素线程队列仅有正常单卡处理时的一半左右,原先由2个UTDP处理的任务总量现在被平摊到了4个甚至更多的UTDP单元中共同完成,这极大地缩短了UTDP所要面对的线程队列长度,大幅削减的线程负担让UTDP可以更加从容的完成吞吐,并且有更多的周期来处理合并线程等其他琐事。更加合理高效的线程管理在时间和空间上提升了整个VLIW CORE的运算密度,这使得每一颗GPU都拥有了比单独处理任务时更高的性能表现。

上错花轿嫁对郎 crossfire超高效率解析
CrossFireX对画面的拆分

  这就是一切的真相,我们并不否认驱动优化的意义,但实际上CrossFireX的出现确实是“无意间”改善了Barts及Cayman构架先天设计的缺陷,只有在CrossFireX的状态下的Barts和Cayman才能够发挥出应有的性能水平。这个时候的1+1,才能得到正确的结果。所谓超过100%加速比的现象,不是火星科技,也不是极致优化所带来的锐意精进的结果,它只不过是由于单卡面对任务时性能无法得到发挥所导致起点过低而产生的错觉罢了。

上一页 1 ...5 6 7 8 9 下一页
频道热词:华硕主板  Intel  AMD  
视觉焦点
AMD Radeon HD 6970
  • 商家报价:
  • 厂商品牌:AMD
  • ZOL评分:0
  • 网友口碑:0
  • 查看详细>>
    显卡评测热点
    排行 文章标题