ZOL首页 > 显卡 > 评测 > 600-1000 >

GF106延续Fermi架构传承GF104体系

双敏无极2 GTS450 DDR5大牛版

明星编辑

NV首款不减配显卡千元悍将GTS450首测

CBSi中国·ZOL 作者：中关村在线林光楠 责任编辑：林光楠【原创】 2010年09月13日 12:00 评论

在本页阅读全文（共32页）

GF106延续Fermi架构传承GF104体系

GF100、GF104和GF106都是基于Fermi架构打造，不过在规格矩阵上为了适应不同成本、定位的产品，进行了合理化的调整。例如GF100拥有超过30亿的晶体管、原生具备512个流处理器，而GF104拥有接近20亿的晶体管、原生384个流处理器。

而GF106核心具备11.7亿晶体管、192个流处理器、128bit显存控制器，这些规格细心的用户能够发现正好是GF104的一半，难道二者有着相对更加紧密的关系？

NV首款不减配显卡千元悍将GTS450首测
GF100/GF104/GF106市场定位

根据NVIDIA针对GF100、GF104和GF106的定位为除了一个较为形象的比喻，GF100拥有最猛火力的重装战士，而GF104是具备杀伤力武器的机动战士。而GF106被定义为“Sniper”（狙击手），拥有一击毙命的本事，足见NVIDIA对这款产品的厚望。

GF100和GF104核心架构图

GF106核心架构图

通过上面GF100、GF104和GF106的核心架构图，我们发现虽然在整体架构上三者保持了Fermi的完整性，例如GPC→SM→CUDA Core由广到微的等级结构，例如独立的Polymorph Engine和Raster Engine的设计等。

而且从GF104和GF106架构图中不难看出，就GPC、SM、CUDA Cores、MC控制器而言，GF106正好均为GF104的一半。

GF100 SM vs. GF104/GF106 SM
Graphics Core	Graphics Core	GF100	GF104/GF106
SM	CUDA Cores	32	48
	Warp Scheduler	2	2
	Dispatch Unit	2	4
	SFU	4	8
	LD/ST	16 个	16 个
	INT Unit	32	48
	FP Unit	FP32：32 FP64：16	FP32：48 FP64：24
	Texture Unit	4	8

不过在微架构上，例如SM的CUDA Core等功能模块的组成，GF106延续了GF104的设计，即每组SM中包含48个CUDA Core、8个SFU和8个纹理单元等改良设计。相比拥有庞大规格的GF100而言，GF104的微架构的优化能够弥补先天规格不足的弊端，所以GF106传承了GF104微架构体系设计。

● GF106核心SM模块的设计优势

GF106由于传承了GF104的SM微架构设计，原因很简单，从基于GF104核心打造的GeForce GTX 460性能表现就能看出，这种微架构的调整换来了在3D性能上更突出的表现，而GF106产品针对的用户群体更加明确，针对主流消费者用户设计，自然这类占绝对大比例的用户对产品的体验主要集中在3D效能体验，所以有了GF106这样的设计。

当然这样并不是否定GF100核心SM微架构设计的不合理，毕竟GF100针对的用户群体是最高端的，同时还要兼顾通用计算方面的性能，所以才会有了GF100核心SM微架构设计。与其说NVIDIA针对不同用户群设计不同的定位的核心，不如说NVIDIA针对不同用户群设计了不同SM微架构的核心。

GF100 SM架构图

GF104/GF106 SM架构图

GF106的一个SM中现在拥有48个CUDA Core，每个CUDA Core由两个Dispatch Port、Operand Collector、Result Queue以及INT整型数单元与FP浮点数单元构成。其中GF106的ALU和FPU均继承了GF100中CUDA Core的优良特性，例如ALI可以支持64bit精度指令运算，还有比较、布尔和移位等指令计算，值得一提的是Fermi架构的ALU通过改进现已完整支持32bit整数算法。同时FPU支持IEEE 754-2008标准，这一切一切的改变和支持都为Fermi架构在GPU通用计算上打下坚实基础。

当然，在CUDA Core的优化上可以大幅提升GPU运算能力，但是没有良好的缓存设计及读写机制也无法发挥GPU的能力。在GF106的每个SM中与GF100一样，都包含LD/ST Cache、L1 Cache、Uniform Cache和Texture Cache。其中GF106拥有12KB的L1纹理缓存之外，还拥有真正意义的L1 Cache和L2 Cche可读写缓存。就每组SM而言，每组SM拥有8个纹理单元共享12KB的L1纹理缓存，32个CUDA Core使用16KB L1缓存搭配48KB共享缓存或48KB L1缓存搭配16KB共享缓存两种组合，最后还有768KB超大L2缓存。

我们可以看到GF106每个SM中CUDA Core数量和Texture Unit数量均有大幅增加，这都会增加SM的3D计算能力，从而让用户在游戏体验上获得更好的效果。不过相反每个CUDA Core和Texture Unit分得的各类Cache有所减少，这应该是NVIDIA GPU架构工程师针对主流用户使用需求的前提下，在性能、晶体管平衡取舍上得出的最佳比例。