【分页导航】
■GeForce GTX 200架构优化
与上一代NVIDIA图形核心相比,GTX200做了许多调整,以高端产品GTX280为例,将TPC(线程处理器簇)数量从8个扩充至10个,而且在每个TPC内部,SM(多核流处理器)从2个增加到3个,并依然采取8核心设计。如此一来,GTX280核心的流处理器数量就是240个,几乎是G80核心的两倍。除了规格上的扩充之外,在底层结构方面也有变化,GTX280核心的每个SM可最多执行线程数提升至1024条。
GeForce GTX 280的最大线程数量可以达到24576个(1024线程/TPA x 3TPA/TPC x 8T PCs=24576)。相对G80/G92核心,性能提升达到2.5倍。在增加可执行线程数提升的同时,NVIDIA还将每个SM中的指令寄存器容量从16K提升到32K。指令寄存器用于存储SM即将执行的上千条指令,容量增大意味着可以存储更多的指令、超长的指令或是各种复杂的混合式指令,这对于提高整体性能的好处是显而易见的,当前以及不久之后的大型DX10游戏,将会采用越来越大的混合指令,如果指令寄存器不够大的话很可能造成队列过长或指令溢出等情况,这就是采用32K指令寄存器的意义所在。
纹理单元部分,GTX200的每个TPC内部拥有8个TF(纹理单元),这样总共就是80个纹理单元,并且GTX200的纹理过滤单元和寻址单元的数量是相等的。
GeForce GTX 200 GPU架构当中,TPA核心内建一个双精度64bit浮点算术单元,达成全部30个双精度64bit处理核心。GeForce GTX 200中的专用流处理核心可以得到全速的双精度乘法运算(MAD),并且乘法运算使用线程处理器中的MAD单元,每个线程处理器可以进行三个浮点运算,将原始的顶点单元属性值,进行像素属性值的转换。GeForce GTX 260的双精度运算能力为24(TPA)×3(MAD+MUL)×1250MHz=90GFLOPS。纹理单元减少到64个以后,纹理填充率为576MHz(核心频率)×64=36.9 GigaTexels/s,少了一组TPC之后,GeForce GTX 260的流处理器变成了192个,因此GeForce GTX 260的浮点运算能力(单精度)为192SP×3(MAD+MUL)×1250MHz=720GFLOPS。







