● GTX400系列产品新特性
如果说DirectX 10是微软为了提供更多特效同时大幅度改进GPU架构所设计的一套图形API,那最新问世的DirectX 11就是对DirectX 10的完美补充。在全新的DirectX 11世界中,我们看到了更加合理的图形渲染方式和更真实的3D渲染。而这些特效的支持,离不开一块性能优秀的显卡做支持。
AMD用最快速度将产品推向市场,虽然它所设计的DirectX 11产品特性并不十分突出,但是它完全符合新一代技术对于硬件的要求。而一心要做图形业界Intel的NVIDIA这次选择了设计一款完美的产品,它重新设计架构,大幅度增强了GPU的几何处理能力。我们在之前已经对Fermi架构Geforce GTX400系列的首发产品GTX470和GTX480进行了深度测试,带领玩家了解了GTX400系列显卡在DirectX 11游戏。
GF100 GPU基于图形处理团簇(翻译为GPC),可扩展流阵列多处理器(SM)和内存控制器(MC)。一个完整GF100实现四个GPC,16个SM和6个内存控制器。通过对GPC的开启和关闭,对SM和内存控制器不同的配置,可以划分出满足不同价位的产品。所以我们也可以称GF100为一个4 GPC核心的GPU。
Fermi架构GF100功能单元分布
图中我们可以看到GF100的总线接口、GigaThread线程调度器、四个完整的GPC单元、六个内存控制器、六个ROP簇和768KB二级缓存。每个GPC单元包含四个多边形引擎。六个ROP簇紧邻二级缓存。
GF104这款核心在NVIDIA首款支持DirectX 11的GPU核心GF100之后发布,在性能和发热方面达到业界公认的最佳平衡。GF100核心上市以来虽在效能上取得一定幅度的领先,但也受到许多批评,中端市场向来是兵家必争之地,所以NVIDIA对新GF104核心想必是寄予厚望。
GF104的一个SM中现在拥有48个CUDA Core,每个CUDA Core由两个Dispatch Port、Operand Collector、Result Queue以及INT整型数单元与FP浮点数单元构成。其中GF104的ALU和FPU均继承了GF100中CUDA Core的优良特性,例如ALI可以支持64bit精度指令运算,还有比较、布尔和移位等指令计算,值得一提的是Fermi架构的ALU通过改进现已完整支持32bit整数算法。同时FPU支持IEEE 754-2008标准,这一切一切的改变和支持都为Fermi架构在GPU通用计算上打下坚实基础。
GF106这款GPU拥有出色的DX9/10、GTX 400系列级别的DirectX 11游戏效能及热门的3D Vision支持FULL HD分辨率。
从上面的架构图我们可以看到GF104保留了Fermi架构的精髓,特别是完整的多形体引擎和可读写的二级缓存都在其中,同时这款架构在晶体管数量极其有限的情况下增加了TUM单元数量。在GTX460首测文章中,我们可以看到这款GF104芯片拥有的56个TMU单元已经大幅度提升了芯片的纹理处理能力。
通过NVIDIA Inspector软件识别我们能够了解到,两款GeForce GTX 460拥有相同的336个流处理器和相同的675MHz/1800MHz/2300MHz频率,此外二者还拥有相同的2个GPC数量、7个SM数量和56个纹理单元数量等。
两 款 GeForce GTX 460 具 体 规 格 对 比 | |||
Graphics Card | Graphics Card | GeForce GTX 460 768MB |
GeForce GTX 460 1024MB |
Price | Price(China) | ¥1299 | ¥1499 |
Processing Units | Graphics Processing Clusters | 2 | 2 |
Streaming Multiprocessors | 7 | 7 | |
CUDA Cores | 336 | 336 | |
Texture Units | 56 | 56 | |
Clock Speeds | ROP Units | 24 | 32 |
Graphica Clock (Fixed Function Units) |
675 Mhz | 675 Mhz | |
Pocessor Clock (CUDA Cores) |
1350 MHz | 1350 Mhz | |
Memory Clock (Clock rate / Data rate) |
900 Mhz / 3600 MHz | 900 Mhz / 3600 MHz | |
Memory | L2 Cache Size | 384 KB | 512 KB |
Total Video Memory | 768 MB GDDR5 | 1024 MB GDDR5 | |
Mempry Interface | 192-bit | 256-bit | |
Fillrate | Total Memory Bandwidth | 86.4 GB/s | 115.2 GB/s |
Texture Filltering Rate (Bilinear) |
37.8 Giga Texels/sec | 37.8 Giga Texels/sec | |
Fabrication Process | 40 nm | 40 nm | |
Transistor Count | 1.95 billion | 1.95 billion | |
Physical & Thermal | Connectors | 2 * Dual-Link DVI-I 1 * Mini HDMI |
2 * Dual-Link DVI-I 1 * Mini HDMI |
Form Factor | Dual Slot | Dual Slot | |
Power Connectors | 2 * 6-pin | 2 * 6-pin | |
Recommended Power Supply | 450 Watts | 450 Watts | |
Thermal Design Power (TDP) |
150 Watts | 160 Watts | |
Thermal Threshold | 104°C | 104°C |
而两个版本的不同主要集中在本地显存相关的参数上,例如1GB版本拥有256bit显存位宽、32个光栅处理器、512KB的L2缓存和115.2GB/s内存带宽;而768MB版本则拥有192bit显存位宽、28个光栅处理器、384KB的L2缓存和86.4GB/s内存带宽。