您的位置 首页 > 装修房产

【sm总线控制器是什么】性能、功能的爆炸式翻倍增长——GeForce RTX 30系Ampere架构GPU核心深入解读

2020年9月,全新的NVIDIA GeForce RTX 30系列显卡发布,这个系列显卡的首发产品有三款,分别是GeForce RTX 3090、GeForce RTX 3080和GeForce RTX 3070。新显卡全部采用了三星8nm制造工艺和新的Ampere架构,创始人版本则拥有全新设计的外观和散热系统。NVIDIA宣称全新的显卡带来了更多的高级功能、更强大的性能和更超值的价格。由于新的RTX 30系列整体表现超出玩家预期,并且定价相对更为合理,很快就引发了市场聚焦式的关注。为了更清楚地向大家介绍全新的RTX 30系列显卡,本文将从多个方面、多个角度为大家带来针对Ampere核心的架构、产品及技术上的深入分析和介绍。

为方便写作和读者阅读思维连贯性,后文可能采用部分缩写,说明如下:
安培核心:代指NVIDIA Ampere架构的GPU核心
图灵核心:代指NVIDIA Turing架构的GPU核心
RTX 30:代指NVIDIA新一代基于Ampere架构的GeForce RTX 30系显卡。
RTX 20:代指NVIDIA上一代基于Turing架构的GeForce RTX 20系显卡。

GA10X:指以GA102、GA104等代表的新一代安培架构的RTX 30系GPU核心。

除非特别说明,否则本文所指的安培核心、安培架构皆指代面向图形计算的GA10X,而并非面向计算的GA100(A100产品)。

RTX 30系列产品综合概述

性价比卓越

RTX 30系列首发产品有三款,也就是前文介绍的GeForce RTX 3090、GeForce RTX 3080和GeForce RTX 3070。其中最先上市的是RTX 3080,国内上市时间为9月17日,价格为5499元起。随后是RTX 3090,上市时间为9月24日,国内定价11999元起。最晚上市的是RTX 3070,上市时间是10月15日,国内定价仅为3899元起。

NVIDIA公布了RTX 30系列的三款显卡,图为RTX 3080和RTX 3070的基本参数和价格。

RTX 3090显卡,NVIDIA创造了一个词“BFGPU”来专门形容它。

RTX 30系列显卡目前只发布了三款,从右到左分别是RTX 3090、RTX 3080和RTX 3070。

NVIDIA宣称RTX 30系列的性能功耗比是前代产品的1.9倍

从产品上市时间和定价来来看,NVIDIA在市场宣传上希望将上市热潮尽可能拉长,从9月初发布到10月15日RTX 3070上市,这一个月多的时间内都持续保持产品热度和关注度。在价格方面,RTX 3090的定价过万,注定是部分顶级玩家的“爱物”。但是令人惊讶的是RTX 3080和RTX 3070,5499元和3899元的价格大大超出之前人们的预计,考虑到新产品性能及其强大,这样的定价瞬间凸显了产品性价比,甚至导致现有RTX 2080系列价格的波动和“一夜腰斩”,令人唏嘘。

规格“翻倍”

我们先看看目前已知的部分RTX 30系列的参数,并对比了RTX 20系列最高端的RTX 2080 Ti。从参数对比来看,RTX 30系列最显著的变化便是在于换用了三星的8nm工艺,同时CUDA核心的数量大幅度增长,单精度计算性能、张量核心性能暴增。另外,RTX 30系列的功耗也显著增加,顶级的RTX 3090和高端的RTX 3080在TDP功耗上均突破了300W,难怪NVIDIA建议玩家为RTX 3090、RTX 3080配备750W以上的电源。

散热优秀

RTX30系列创始人版本显卡最大的亮点就是外观设计了,中央的“X”型金属条搭配非对称风扇,看起来极具科技感。NVIDIA在发布会上也详细解释了这个设计。

一个典型的机箱散热结构。

RTX 30系列显卡的创始人版本采用了独特的散热设计方案。

RTX 2080和RTX 3080显卡PCB对比图,注意RTX 3080 PCB尾部的V型开口。

RTX 3080的结构图和空气流向示意。

RTX 3080和RTX 2080在散热效能上的对比。

▲即使是TDP功耗更高的RTX 3090显卡,这套散热系统依旧能轻松应付,不过RTX 3090显卡尺寸更长,更厚。
NVIDIA认为,一个典型的机箱内部散热方式是在机箱正向放置时,左上部排出热空气、右下部进入冷空气,从而形成一个循环。传统的显卡散热器比如RTX 2080Ti,虽然能够比较好地解决GPU散热问题,但是它厚重、不透风的背板设计阻碍了机箱内部风道的顺畅运行。为了解决这个问题,在RTX 30系列创始人版本上,NVIDIA改用了小型PCB设计,PCB尾部采用了V型构造,搭配热管、均热板等,为散热风扇留出一个可以“吹透”散热片的位置,从而使得热量散发方向可以和机箱内部风道方向相同,从而大大提高了整个显卡的散热效率。


在采用了新的散热设计后,RTX 30系列的散热效率相比同等功耗的RTX 20系列有了显著进步。在TDP散热相同都定义为350W的情况下,RTX 3090的散热器相比采用传统散热器的RTX TITAN,要么相同功耗温度降低高达30℃,要么相同温度噪声降低20dbA。在TDP定义都为320W的情况下,RTX 3080的散热器相比采用传统散热器的RTX 2080,要么相同功耗温度降低高达20℃,要么相同温度噪声降低10dbA。总的来看,NVIDIA的新散热器设计还是非常有效的。

8nm工艺立功

RTX 30系列在工艺上采用的是三星的8nm工艺。和之前NVIDIA在顶级产品上偏爱台积电的工艺不同的是,Ampere显卡所使用的制程工艺的确有点出乎大众预料。

RTX 30系列采用的是三星之前发布的8nm工艺,实际上是10nm LPE工艺的改进版本。

三星8nm工艺对比10nm工艺和7nm工艺。

和台积电、英特尔有所不同的是,三星更喜欢以商业化的方式来命名制程节点,比如8nm工艺,实际上并不存在于全代工艺的排序中。业内比较公认的全代工艺分别是90nm、65nm、45nm、32nm、22nm、14nm/16nm、10nm、7nm。先普及一个知识点,每次新一代全代工艺相比上一代全代工艺,其典型数值的差距几乎都是1.414倍附近,也就是2的平方根。

出现这样的原因是因为每次全代工艺的进步,都希望相同晶体管数量的制造面积只有上代的一半,在这种情况下,新工艺的典型线宽就是老工艺的1。比如上一代芯片面积是长宽为10毫米的正方形、100平方毫米,那么下一代工艺制造的同一个芯片面积应该是50平方毫米,长宽分别是7.07,恰好比上一代产品小了1.414倍。


三星8nm工艺在实际的工艺代次上是属于10nm工艺的改进版本,属于典型的半代工艺。其存在两个版本,分别是8nm LPP和8nm LPU。其中,8nm LPP推出时间比较早,相比10nm工艺,8nm工艺在三个重要的参数鳍间距、门间距和M1分别是10nm工艺的1倍、0.94倍和0.92倍。在高度单元方面,三星8nmLPP工艺有高密度和超高密度两种配置,其中前者和10nm工艺相当,超高密度配置情况下,8nm LPP相比10nm LPP能够缩减15%的逻辑面积。

另外三星还推出了8nm LPU((Low Power Ultimate)工艺,主要面向更高的时钟频率和更高的晶体管密度的用户。但是三星没有给出更多有关8nm LPU的数据,可能和三星之前宣布的高密度库有关。NVIDIA本次RTX 30系列显卡,有可能选择的是三星8nm工艺的LPU版本,但是目前没有更多消息可供证明。


在采用了三星8nm工艺后,相比上代同为面向图形的TU102,GA102的晶体管数量增加了大约50%,但是整体芯片面积却降低了17%。RTX 30系列GPU所使用的8nm工艺的晶体管密度为4458万/mm2,之前RTX 20系列使用12nm FFN工艺的晶体管密度为2467万/mm2,新工艺的晶体管密度是之前工艺的1.8倍。不过相比台积电的7nm工艺制造的GA100芯片的540亿晶体管和826平方毫米以及6537万/mm2的晶体管密度,三星8nm工艺还是差了大约31%。


另一个有关工艺的数据是频率和功耗。对频率和功耗的设定,主要看厂商对性能的要求。目前的设定下,RTX 3080的频率达到了1715MHz,TDP功耗320W,RTX 3090更高一些,TDP功耗350W。相比RTX 20系,新的RTX 30系产品的功耗有显著上升。出现这样的原因也不难猜测,极有可能是NVIDIA不愿意在频率以及性能方面妥协,并且本来之前RTX 20系列显卡的功耗就不算高,还有很大的空间可以增加,因此就出现了我们目前看到的RTX 30系列产品的功耗和频率数据。


NVIDIA为什么选择三星8nm?目前并没有正式的官方回应。业内的一些猜测无非是台积电7nm价格较高、产能不足等,三星的8nm工艺报价可能比台积电7nm低了大约30%以上(似乎和晶体管密度差距相当?),更适合打造高性价比产品。当然这些原因都有道理,不过NVIDIA本次在产品价格上大幅度降低入门级产品价格门槛,可能在这些原因之外,还有一些大环境和经济因素的考虑,当然这些都是题外话,在这里就不展开赘述了。

性能飞跃式地增长,RTX 30系列GPU架构解读

RTX 30系列GPU在架构上最大的变化是改用了全新的安培(Ampere)架构。有关安培架构的内容,本刊在之前的《来自540亿晶体管的力量——全新NVIDIA安培架构和A100 GPU深入解读》一文中已经做出了比较详细的解读。不过,之前NVIDIA在发布A100 GPU的时候,无论是GPU本身还是架构设计都更偏向于计算,在面向图形应用时,偏向计算的架构显然是无法适应图形计算的需求的,因此NVIDIA在同为安培架构、面向不同计算场合的芯片设计上,采用了针对性的改进。可以这样理解,目前我们看到的RTX 30系列显卡,采用的是面向图形的安培架构,它和面向计算的安培架构有一定的相似之处,但是侧重点完全不同。

GA102和GA104的宏观架构

目前RTX 3080和RTX 3090采用的都是GA102芯片,其中RTX 3080为GA102-200-K1-A1,“K1”和“A1”两位数据一般用于版本区别和较小型号的差异,前两位“GA102-200”表明芯片的定位。从NVIDIA的惯例来看,GA102-200芯片一般是GA102芯片定位相对低端的版本,被屏蔽的模块较多。相比之下,定位更高端的RTX 3090的芯片型号为GA102-300-A1,相比GA102-200屏蔽了更少的部分。
NVIDIA也给出了完整版本GA102芯片的信息。根据这些内容显示,GA102芯片前端设计PCIe 4.0总线控制器和常见的极线程分发器(GigaThread Engine),数据通过这两个端口进入GPC中。GA102内部一共包含了7个GPC,每个GPC内部包含6个TPC,一共拥有42个TPC。每个TPC包含2个SM模块和一个PolyMorph Engine(几何处理引擎,用于曲面细分计算),也就是84个SM模块和42个PolyMorph Engine。

在安培架构上,NVIDIA定义一个SM模块内拥有等效128个CUDA核心或者流处理器,那么完整版本的GA102就包含了等效10752个CUDA核心。显存控制器方面,GA102拥有12组显存控制器,每组32bit,组成了384bit的规格,后端还包括用于全局连接的高速Hub和4通道NVLink总线。
值得注意的是,GA102内部还有168个FP64单元(每个SM内有2个),但是在宏观架构图中并未显示。FP64的计算性能是FP32单元的1/64。在这里加入少量FP64单元的目的主要是考虑到部分程序中有少量FP64计算任务,以及张量核心也有部分FP64数据需要计算。当然,相比A100 GPU中庞大的FP64规模,这里的FP64单元仅仅是为满足基本计算需求而设定。

GA102芯片裸片图。

RTX 3080的宏观架构简图。

GA102的完整宏观架构简图,仅供参考。

安培架构的三大核心特性,分别是全新的SM、全新的RT核心和全新的Tensor Core张量核心。

继续向下深入探讨的话,安培核心的SM,除了包含等效128个CUDA核心外,还包含4个第三代Tensor Core张量核心、256KB的寄存器、4个纹理单元、1个第二代光线追踪核心以及128KB的L1/共享缓存。另外核心内部还为每个显存控制器配备了512KB的L2缓存,总计6144KB。
再来看GA104。RTX 3070使用的芯片代号是GA104-300-A1,按照惯例,NVIDIA会使用GXXX-400作为比较接近完整版芯片的产品代号。根据NVIDIA数据,GA104的完整版本有6个GPC、24个TCP和48个SM,等效6144个CUDA核心。GA104-300-A1则屏蔽了1个TPC,最终只包含了6个GPC、23个TCP和46个SM,以及等效5888个CUDA核心,所以RTX 3070 SUPER或RTX 3070 Ti理论上应该是有空间的。
总的来说,从宏观架构来看,安培架构和之前的图灵架构存在非常相似的地方,这也是NVIDIA使用多年的、GPC-TPC-SM-CUDA核心四级层级的继承和发展。在架构命名上,之前NVIDIA在安培架构的A100 Tenore Core GPU发布会上,曾经提到过面向图形的安培架构,当时的回答是两者都采用一样的架构设计而成。事实是,今天我们看到的面向图形的安培架构和面向计算的安培架构其差别之大甚至接近两代GPU的架构差异。虽然部分技术可能来源相同,但由于最终目标不同,因此两者的差异依旧鲜明。
接下来,让我们深度安培架构的各个方面,包括SM流式多处理器、RT光线追踪核心、Tesnor Core张量核心以及GDDR6X显存、RTX IO等深入观察,看看这个全新的架构究竟包含了怎样的细节设计。

SM模块解析

SM(Streaming Multi-processer,流式多处理器模块)模块一直是NVIDIA GPU的计算核心。在之前面向计算的A100上,SM模块的基本配置情况是1个完整的SM模块包含了64个INT 32单元、64个FP32单元(也就是CUDA核心)以及32个FP64单元、4个第三代张量核心,分别针对传统的数据处理、双精度计算和AI计算三种任务。不过,在新的GA10X核心的安培架构上,由于计算任务的变化,和A100的SM模块相比,GA10X的SM模块也有了巨大的变化。

面向图形的安培架构的SM模块,注意FP32+INT32的设计。

图灵架构的SM模块。

面向计算的安培架构的SM模块,注意FP64单元。

NVIDIA从RTX 20系列开始,就将图形计算部分划分为三个类型,那就是传统图形数据计算、光线追踪计算和AI计算。在图灵架构上,这三个部分使用的分别是图灵架构SM、第一代RT Core以及第二代Tensor Core,后两者都是NVIDIA的独家方案。在新的面向图形计算的安培架构中,这三个计算任务依旧被完整地保留了下来,并共同组成了全新的安培SM模块。
面向图形的安培SM模块的基本配置和之前的图灵架构在宏观结构上是基本相同的。整个SM中都包含了4个计算单元,128KB的L1缓存和共享内存以及4个纹理单元、RT核心等。其主要变化发生在计算单元内部。
在之前的图灵SM模块的单个计算单元配置上(4个SM计算单元组成一个SM模块),每个SM模块中的计算单元拥有1个warp调度单元和1个派遣单元,16384×32bit寄存器、16个FP32内核和16个INT32内核,2个张量核心以及后端的LD/ST单元、特殊功能单元(Special Function Unit,简称SFU)等。
在新的GA10X安培SM的计算单元内部,依旧配置了1个warp调度单元和1个派遣单元、16384×32bit寄存器和后端LD/ST、SFU单元,但是在计算的部分却包含了1组16个可自由执行FP32和INT32计算的双功能计算单元(ALU)——它们既可以完成FP32计算,又可以完成INT32计算,另外还包含了1组16个FP32计算单元和1个新的第三代张量核心。
由于SM设计的变化,因此安培架构相比图灵架构显示出巨大的功能性和性能导向差异。最典型的就是CUDA核心的数量方面,NVIDIA一直以来都将1个FP32单元作为1个CUDA核心来计数和宣传,但是在本次使用了INT32和FP32双功能设计、并额外增加了FP32单元后,可宣传的CUDA核心数量就大大增加了。比如同为4个SM计算单元组成的SM模块,GA10X安培架构拥有等效128个CUDA核心、面向计算的A1xx安培架构拥有64个CUDA核心,图灵架构也拥有64个CUDA核心,这也是NVIDIA宣传GA10X安培架构SM模块2倍于图灵架构的数字计量来源。
但是,这并不意味着安培架构在FP32计算性能上随时都能保证达到图灵架构的2倍,毕竟安培架构的每个SM模块中只有64个“纯粹”的FP32单元,其余64个是双功能单元。这意味着当计算任务的数据格式以混合INT和FP格式占据这些单元时,安培架构的SM模块每周期所呈现的FP计算能力就会根据计算任务而变化,最极端情况下会降低至和图灵架构相同(假设INT32占据了所有64个双功能单元),或者呈现图灵架构的2倍(全部都是FP32计算)。
考虑到目前复杂的图形计算任务,采用FP32+INT32混组核心的设计的优势是能够带来每晶体管性能的显著提升。毕竟计算任务并不会老老实实地按照设计规范出现。举例来说,一个计算任务中包含了20个INT计算和80个FP计算时,在图灵架构下,20个INT计算任务在1个时钟周期内就可以完成,但是80个FP计算就需要2个周期才能完成。其中部分INT32核心在此时就会被闲置,每晶体管性能就会降低。换到安培架构,20个INT计算任务会分配20个双功能核心的INT32功能完成(剩余48个双功能核心),其余80个计算任务中的64个可以交给固定FP32核心,另外16个可以交给双功能核心的FP32功能完成。那么,1个周期就可以完成所有的计算任务,效率自然能得到大幅度提升。
总的来看,在计算任务全部都是FP32的情况下,新的安培架构的1个SM可以视同拥有128个FP32计算单元、4个第三代张量核心和1个RT核心。因此,NVIDIA特别提到,现代游戏工作负载具有广泛的处理需求,许多工作负载混合使用FP32算术指令(例如FFMA、浮点加法FADD、浮点乘法FMUL等),以及许多更简单的整数指令,例如用于寻址和获取数据算法,或者用于处理结果等。

因此,在图灵架构上,NVIDIA增加了新的计算路径后,大幅度提升了这类算法的自由度和工作效能,从而带来了不错的性能优势。在安培架构上,这样的设计被强化了,浮点计算可以根据需求选择任何一组计算单元(计算路径),根据Shader指令和应用程序设计的不同,性能将有所变化,具体取决于指令的应用方式。比如光线追踪降噪计算全部都是FP指令,能够充分利用新的双功能计算单元和传统的FP32单元,显著提升性能。
此外,在L1缓存部分,安培架构的SM L1共享缓存应用下的带宽相比图灵架构翻倍,安培架构的SM共享缓存带宽为每时钟周期128 bytes,而图灵架构为每时钟周期64 bytes。这样一来,RTX 3080的总L1带宽为219 GB/s,RTX 2080 SUPER仅有116 GB/s。
容量方面,安培架构的SM缓存容量从之前的96KB提升到了128KB,容量增大了33%,这有助于存放更多的数据在L1缓存中,减少数据不断地从外部存储调用的频率,能提高性能并降低功耗。完整的GA102包含10752 KB的L1缓存,对比TU102为6912 KB。此外,NVIDIA还给出了L1和共享缓存的容量配置表,L1和共享缓存的可配置方案如下:
●128 KB L1 + 0 KB共享内存
●120 KB L1 + 8 KB共享内存
●112 KB L1 + 16 KB共享内存
●96 KB L1 + 32 KB共享内存
●64 KB L1 + 64 KB共享内存
●28 KB L1 + 100 KB共享内存
NVIDIA特别提到,对于图形工作负载和异步计算,GA102将分配64 KB L1数据纹理缓存(相比之下图灵架构仅能分配32KB)、48 KB共享内存和16 KB保留用于各种图形管线操作。

光线追踪模块

在之前的图灵架构上,NVIDIA引入了光线追踪模块(下简称为“RT模块”)。RT模块的主要作用是针对光线追踪计算中最耗费时间的加速边界体积层次(BVH)遍历和光线/三角形(基元)交叉测试(光线投射)过程进行加速,将整个光线追踪计算的时间降低至可接受的范围内。

光线追踪过程简介和硬件实现方法介绍。

NVIDIA在RTX显卡的RT核心上的实现方法。

有关光线追踪计算的基本情况,我们在2018年的《生而为光——NVIDIA“图灵”架构解析》一文中有非常详细的介绍,因此本文仅作简单回顾性介绍,有需要的读者可以翻看之前的内容。
光线追踪计算的过程,是通过图像平面中的每个像素从相机(观察者的眼睛)射出一条或者多条光线,然后测试光线是否和场景中的任何基元相交。由于光线和基元在场景中的碰撞检测非常重要,因此一种流行的算法就是使用基于树的加速结构,其中包含了多个分层排列的边界框,边界框包围或者围绕着不同数量的场景几何体,大的边界框可能包含了较小的边界框,较小的边界框内再包含实际的场景物体。这种分层排列的边界框被称为边界体积层次结构,或者BVH。BVH通常被列成具有多个级别的树形结构,每个级别都有一个或者多个节点,从顶层的单根节点开始,向下流入不同级别的多个后代节点。
简单来说,BVH的运作过程,就像将场景中的物体分为很多组,每组用边界确定范围。当光线撞击到边界时再判断穿入后是否和下一个组继续碰撞,直到最终撞到基元,完成光线/三角形交叉测试(光线投射)。当光线没有碰撞任何边界时,则结束此次追踪过程。
在没有专用的加速硬件时,完成一次BVH遍历和光线投射,需要不断地通过着色器来循环处理光线的BVH过程,每个光线需要数千个指令来测试BVH中的边界框交点,直到最终击中基元并且交叉处的颜色有助于最终像素的颜色确定(如果没有击中,则可以使用背景颜色替换)。这样一来,GPU将不断地重复光线追踪的遍历过程,在遍历结束之前无法对GPU进行实时操作。因此对传统的流处理器/CUDA核心来说,由于其工作模式一般都是单指令多数据流SIMD或者单指令多线程SIMT,虽然能够执行光线追踪计算,但是面对多个出发点、多种情况的光线追踪碰撞检测和交叉测试等,速度很慢,效率很低。这也是我们用GTX 1080 Ti等显卡在游戏中开启实时光追效果后,帧率下降幅度甚至达到500%或更高程度的主要原因。
光线追踪计算更适合多指令多数据流形式的计算,因此需要专门的MIMD执行单元。此外,在硬件计算上最好也能够为其进行优化。在这种情况下,NVIDIA设计了专门的BVH遍历计算器以及三角形交叉测试单元,能够以极高的效率完成整个场景的光线追踪计算,这就是图灵核心上开始出现的RT模块中包含的RT Core。而在新的安培架构上,NVIDIA又对RT模块的性能进行了增强。NVIDIA的数据表明,新安培架构的光线追踪模块的性能是之前图灵架构的2倍左右。NVIDIA没有详细描述如何提高了性能,但是我们推测可能是增加了处理模块的规模、优化了部分内部流程后,带来了性能的提升。
另外,同时运行计算和图形任务(Simultaneous Compute and Graphics,简称为SCG,通常称为异步计算)是现代GPU架构的一个重要功能,能够显著提升GPU工作效率。比如游戏中的典型场景越来越多地将图形功能与依赖异步计算操作结合在一起,这样可以提高GPU利用率并增强视觉质量。随着实时光线跟踪的引入,计算工作负载的使用范围进一步扩大。

现在,面向图形的安培架构GPU加入了新的增强异步计算效能的功能。该功能允许在每个安培架构GPU的SM中同时处理光线追踪计算和图形计算,或光线追踪计算和数学计算工作负载。在这种情况下,安培架构的SM可以同时处理两个计算工作负载,并且不限于像以前的GPU那样只能同时进行数学计算和图形处理(光线追踪计算需要等待),从而使基于计算的降噪算法等方案可以与光线追踪计算可以同时运行,极大地提高了代码执行效能。
除了上述性能提升外,NVIDIA在安培架构的光线追踪模块中还带来了比较重要的技术创新,那就是光线追踪动态模糊加速。动态模糊是一种非常流行且重要的计算机图形效果,可用于电影、游戏和许多不同类型的专业渲染应用程序中。动态模糊的本质和胶片摄影相关,因为胶片摄影时,图像不是立即创建的,而是通过将胶片在有限的时间段内曝光来创建的。这意味着目标物体在胶片快门时间内的高速移动将带来模糊的曝光效果。对GPU来说,要创建类似效果,必须模拟相机和胶片工作流程。动态模糊对于电影是非常重要的,它能够避免画面出现断续卡顿的效果,对游戏来说亦是如此。

RTX 30系列上新加入的动态模糊光线追踪模块。

动态模糊光线追踪的计算方法简介。

现代GPU动态模糊是线上有多种手段,这些技术既可以用于电影中的离线高质量渲染,也可以用于游戏等实时应用。高质量的模糊效果通常需要在某个时间间隔内渲染和混合多个帧,还需要后处理进一步改善结果,因此对算力要求极高。在游戏中,一般使用比较简化的算法,或者技巧用于实现实时动态模糊,但这些比较简化的算法会带来缺乏真实感的动态模糊,比如图像可能不自然、肮脏、嘈杂或有鬼影现象,或者动态模糊效果可能在反射和半透明材质中完全消失。因此,人们需要使用更为真实的模拟来实现动态模糊,比如光线追踪。在使用了光线追踪之后,动态模糊可以看起来更准确和逼真,而不会出现不需要的伪影,但是在GPU上渲染也可能需要很长时间,因此需要硬件加速来快速实现这个结果。
目前有多种算法可以结合光线追踪实现动态模糊。一种流行的算法是将许多带有时间戳的光线随机发射到场景中。具有动态模糊功能的BVH会针对在一段时间内移动的几何图形返回光线的命中信息,该几何图形的采样点是光线相关的时间函数。然后将这些样本着色并合并以创建最终的模糊效果。NVIDIA自2017年推出OptiX 5.0以来,就已经能够支持这项技术。
在动态模糊计算方面,之前的图灵架构可以很好地加速运动相机类型的运动模糊,它能够在一定时间间隔内将多束光线射入场景,光线追踪核心可以加速BVH遍历,执行光线和三角形相交测试并返回结果以创建模糊效果。但是,图灵架构在遇到BVH信息随对象移动而变化的情况下,就很难在给定的时间间隔内对移动的几何体执行运动模糊计算了。现在,新的安培架构的光线追踪核心通过加入新的加速功能,和经过修改的BVH配合使用,可以显着加速运动的几何形状的动态模糊计算。

新的动态模糊光线追踪带来了最高8倍性能提升。

RTX 30系列显卡上的动态模糊光线追踪实现方法和具体结果。

NVIDIA给出了2个对比图用于解释这个过程。首先来看单个光线的计算过程。在单光线的基础的光线追踪计算中,光线是仅仅方向的函数,通过跟踪给定的目标体积边界,解决了三角形相交问题,从而能够输出光线的追踪采样值。在加入了动态模糊后,单个光线的计算将拥有2个变量,分别是方向和时间,同样是通过跟踪给定的目标体积边界,然后查找此时物体运动的时间,求解位置有关的时间函数f(time)后,得到物体在此时的位置,再解决三角形相交问题,最终再输出光线的追踪采样值。
在实际的计算中,光线计算会以多方向的形式进行输出,在没有动态模糊的情况下,不同光线匹配不同的方向,通过和单光线计算一样的方式,输出多个结果,碰撞测试,返回结果,完成光线追踪采样。在加入了动态模糊后,每个入射光线将被分配一个时间戳,这样一来多光线、多方向和多个时间组成了复杂的计算阵列,此时需要同时计算物体在不同时间戳f(time)的位置后,再进行后续计算。比如图中橙色光线尝试在不同的时间点与橙色三角形相交,绿色和蓝色光线分别尝试与绿色和蓝色三角形相交,如果命中则报告位置和结果。

根据NVIDIA的介绍,安培架构中加入的全新“Interpolate Triangle Position unit(内插三角形位置单元)”能够在BVH过程中,基于对象运动现有位置和动态方向插入新的三角形,以便光线可以在时间戳指定的时间内,在对象空间中的期望位置处与插入的三角形相交。这个新单元可以进行精确的光线追踪运动模糊渲染,其渲染速度比图灵架构的光线追踪单元快8倍。当然,最终的结果输出将采用滤波计算后的结果,结果是一个模糊的状态,正如图中显示的那样。
总的来说,为了完成动态模糊下的光线追踪计算,NVIDIA加入了有关位置和时间函数的计算,同时硬件部分还需要新加入有关时间位置计算的单元,最终在安培架构的光线追踪单元中,NVIDIA实现了BVH、边界框计算、位置(时间)计算、三角形相交、命中返回五个单元的协同工作,相比之前图灵架构的RT核心,新增了内插三角形位置单元,进一步提升了执行效率。

Tensor Core张量核心

NVIDIA在GPU上的一大创举就是引入了张量核心(Tensor Core)。在之前的Volta架构中,张量核心的引入为AI计算带来了极高的效率,这是NVIDIA的第一代张量核心。图灵架构中,NVIDIA又对张量核心进行了微调,可以看作是第二代张量核心。目前在安培架构中启用的是第三代张量核心。在我们之前介绍NVIDIA A100 GPU的文章中,我们也详细介绍过第三代张量核心的优势。简要来说,第三代张量核心主要特点是支持了更多的数据格式,大幅度加强了在稀疏矩阵计算时的效能,比如在原始矩阵具有稀疏性时,第三代张量核心的速度可达到第一代伏特架构的20倍等。另外,新的第三代张量核心还加入了对BF16等数据格式的支持,

面向图形的安培架构也加入了第三代张量计算核心,专门为稀疏矩阵优化。

相比GA100这类面向计算的架构,面向图形的架构对张量核心性能做了一定削减。

但是,可能是考虑到应用场合和对专业显卡可能存在市场干扰等原因,NVIDIA在面向图形计算的GA10X安培架构中削弱了第三代张量核心的性能。NVIDIA的数据显示,GA100和GA102每个SM模块中都拥有4个张量核心,但是在FP16 FMA操作时,GA100在密集数据时计算速度为256、具有稀疏性的矩阵计算速度为512。GA102在这种情况下的性能只有A100的一半,分别是128和256。因此,整个SM计算FP16 FMA数据的速度在GA100上就是密集数据为1024、稀疏数据翻倍至2048,但在GA102上只有512和1024了。

其中密集数据计算时,GA102的性能和TU102(TU102在任何情况下计算FP16 FMA都是512)是一样的,在这里,面向图形的安培架构还是展现出了优化过的对稀疏矩阵的计算优势,但是远远不如GA100这种专门面向计算的专业芯片。
在新工艺、架构的支持下,NVIDIA的数据宣称面向图形的安培架构的产品带来了相对于图灵架构产品1.9倍的性能功耗比,并且噪声和温度方面也有一定下降。当然,这里还需要考虑散热设计的原因,我们在后文还有更详细的解释。

Tips:安培架构的游戏渲染优势

在了解了RTX 30系列在SM核心、RT核心和张量核心的设计方面的内容后,不妨来看看NVIDIA有关RTX GPU在游戏渲染方面的介绍。

▲面向图形的安培架构相比图灵架构,在性能功耗比、温度、噪声方面都具有不错的优势。

▲利用RT Core计算光追效果,相比Shader计算在性能和效率上有质的变化。图中可以看到在单纯Shader、Shader+RT Core以及Shader+RT Core+Tensor Core三种情况下,在图灵显卡中渲染一帧光追效果游戏画面的所需时间。这也意味着,最下方的渲染方式游戏fps大约在80fps左右,而最上方的单纯Shader渲染光追游戏时,fps大约在20fps或更低。

RTX 3080的架构更新,效率更高,渲染时间进一步缩短至11ms。

这张图再次证明专用核心带来的计算优势是非常显著的。

不同代次显卡在不同计算任务下的性能情况。

NVIDIA认为,未来游戏发展的趋势是,对游戏的一帧画面渲染,将涉及光线追踪计算、传统像素计算以及AI计算。这三个部分的计算都会耗费一定时间。NVIDIA的例子显示,如果纯粹使用像素计算的方式完成一帧游戏画面的话,需要51ms,在加入了专用光线追踪计算模块后,光线追踪模块和像素模块各司其职,画面计算时间降低至20ms,在使用了DLSS技术并且启用了张量核心进行AI加速后,游戏画面计算时间更是直接降低至12ms。
对比安培架构和图灵架构的话,以RTX 2080 SUPER和RTX 3080作为对比对象,同样一帧画面渲染,RTX 2080在开启了光线追踪计算和像素计算的情况下,总时间是19ms,但是RTX 3080的架构更新,效率更高,时间更是进一步缩短至11ms。
另外,NVIDIA还给出了有关RTX 3080在仅使用像素渲染、使用像素渲染+光线追踪计算、使用像素渲染+光线追踪计算+张量核心、使用三者并发渲染时计算一帧游戏画面的耗费时间情况,总时间从37ms降低到11ms、7.5ms,在并发渲染的情况下更是只有6.7ms,换算成帧数就是149帧,这显示了不同核心加速计算模块对性能巨大提升。

GDDR6X显存登场

NVIDIA在显存应用方面是比较谨慎的,对HBM这类高性能、高价格的显存,往往不会使用在消费级显卡上。在消费级显卡上,NVIDIA更偏向于技术定制,之前的GDDR5X就是这样的产品。在新的面向图形计算的安培架构上,考虑到成本问题,NVIDIA自然也不会选择昂贵的HBM2,而是又拉上美光,研发定制了带宽堪比HBM2的GDDR6X存储颗粒。

不同代次的显存规格对比。

GDDR6X和GDDR6的“眼图”对比。

根据美光的官方描述,目前的GDDR6显存的一部分技术来源于GDDR5X,GDDR5X重要的改变在于通过加倍数据预取值,极大地缓解了高带宽下内部内存阵列时的钟频率的压力。比如GDDR5的预取值是8bit,GDDR5X可选16bit。在单次读取和传输的数据翻倍情况下,要达到相同的带宽,GDDR5X的运行频率只需要GDDR5的一半,这就为进一步提升GDDR5X的频率留下了充足的空间。相应地,GDDR6采用了同样的办法,将每pin的传输单元提升到了16Gb/s。不过,此时GDDR6又遇到了新的问题,虽然加倍预取值缓解了内存阵列的内部的频率压力,但是不断增加的芯片外部信号速度,带来了高速I/O和时钟频率方面的压力,整体带宽再度遇到瓶颈。
美光特别提到,在GDDR6的每个数据针脚传输带宽提升至16Gb/s时,留给每次数据传输和确认的时间窗口只有62.5皮秒了(皮秒ps是非常小的时间计数单位,它和纳秒ns、微秒μs、毫秒ms以及秒s的换算关系是:1000ps=1ns,1000ns=1us、1000us=1ms,1000ms=1s,也就是说,1皮秒约等于一万亿分之一秒)。因此,在如此窄的时间窗口内,要保持数据传输的完整性和稳定性本来就很不容易,如果继续提升数据传输速度(带宽)那么将带来很多严重的后果,包括辅助电路复杂性的提升、功耗的增加以及系统稳定性的降低。
在这种情况下,美光和NVIDIA合作提出了GDDR6X方案,其主要内容是采用pam4编码替代现有的pam2编码。

这里的pam2和pam4一点也不难理解,如果熟悉NAND颗粒的读者应该知道SLC和MLC之间的差异。SLC只有2个电压状态,MLC有4个,所以可以一次传输更多数据。在这里,pam2一次正是传输1个数据,也就是我们常常看见厂商展示内存、显存时候的“眼图”,上下沿拉得越开表明数据传输越可靠稳定。pam4是一种全新的编码模式,它类似于MLC,拥有4个电压值,可以一次传递2位数据。换句话来说,当数据传输针脚工作在同样的频率下时,pam4传输到数据量是pam2的2倍,这样一来,GDDR6X在维持现有的数据传输速度下的时间窗口也就翻倍了,整个传输稳定性和可靠性都大幅度提升。
由于采用了pam4编码,在兼容性方面,为了保持数据粒度兼容,GDDR6X降低了预取值,将预取值设置为8,配合pam4编码,实际上每次依旧能等效GDDR6的16bit预取值,同时大幅度降低了I/O接口的压力。也为下一步的GDDR7(如果存在)进一步提升有效传输带宽等留下了充足的空间。
在改用了pam4编码后,GDDR6X在I/O方面的压力骤减,因此可以继续提升数据读取速度。目前GDDR6X有2种规格,分别是每个数据传输针脚速度为19Gb/s或者21Gb/s,未来美光还将推出速度大于21Gb/s的更高规格产品。
目前,在RTX 3080上,搭配19Gb/s的GDDR6X颗粒和320bit显存位宽,RTX 3080的显存带宽达到了760GB/s,在RTX 3090上,如果以已知的384bit显存位宽、采用19.5Gb/s的GDDR6X颗粒来计算的话,RTX 3090的显存带宽将达到936GB/s,如果未来NVIDIA更新至21Gb/s的GDDR6X颗粒的话,那么显存带宽将达到1008GB/s,虽然相比A100 GPU的1555GB/s还是存在巨大差距,但是考虑到民用显卡TB级别的带宽之前只有AMD采用HBM2显存的Vega能够达到,GDDR6X的潜力真的令人咋舌。

RTX IO技术详解

RTX IO是NVIDIA在安培GPU上引入的新技术。但是目前这这项技术与微软还有千丝万缕的联系,也有说法是源自微软的XBOX Series X。微软在XBOX Series X中引入了名为Xbox Velocity Architecture一整套架构技术,用于加快游戏数据的处理速度。其中包含了一个名为DirectStorage的技术,顾名思义,这个技术就是用于“直接”存储。说起“直接”,那一定有“简介”,在DirectStorage技术出现之前,游戏数据的读取和存储都是依靠“间接”的方式完成的。NVIDIA对这一点给出了比较详细的解释,我们一起来看一下。

目前游戏越来越大,对系统压力也越来越大。

传统的数据存储模式,可见要多次经过PCIe总线控制器。

RTX IO技术,显卡直接读取硬盘的游戏数据并自主解压缩。

RTX IO技术的性能对比示意。

目前的游戏体积变得越来越大,比如早期的《孤岛危机》的容量只有10GB以内,但是现在很多游戏的体积超过100GB,多出来的内容除了游戏本体外,大部分都是需要显卡处理的高精度贴图,以及需要CPU处理的高清晰多声道音频文件等。在游戏数据文件变得越来越大后,微软和游戏厂商给出的解决方案是将游戏数据分段,只加载当前场景需要的内容。这样做能够有效降低一次性所需要读写的数据和所需要的存储空间,但是大量的随机和持续读写带来了CPU和IO部分更大的压力。典型的案例是,一些大体积游戏甚至能够为存储IO带来超过10K Ops的读写压力,此时的CPU也由于大量的数据需要解压缩而经常满负荷运转。
另外,现有的数据通道流向也存在一定问题。在游戏数据读取时,CPU将数据通过PCIe控制器,从磁盘中通过数据读取、写入多个循环后,将解压缩数据写入系统主内存(Bounce Buffer)中,然后再将这些解压缩的数据,从系统主内存(Bounce Buffer)中经过PCIe控制器,最后交给GPU,进入GPU的显存。在这个过程中,CPU是数据调配的核心,PCIe控制器是数据中转核心,数据移动的方向是“磁盘—CPU-内存-CPU—GPU-显存”,绕了一个圈。除了系统架构的原因,另一个核心问题在于,CPU需要不断的控制数据传输流程并对数据进行解压缩处理。
那么,DirectStorage的“Direct”直接在哪里呢?这个技术的特点在于,将原本由CPU操作的数据解压缩交由GPU完成,数据在符合设定条件的前提下,可以经过CPU指令后,不再需要CPU解压缩和主内存中转,直接由GPU读取、解压缩并存放在GPU显存中。这样一来,系统中CPU的负荷就大幅度降低了,NVIDIA的数据显示这样的操作能够提高100倍数据吞吐能力、降低20倍CPU负载,并且整个数据解压缩时间也大幅度降低。

更详细的例子显示,在科比条件下,24核心CPU搭配PCIe 4.0 接口的NVMe SSD,需要5秒钟完成的数据解压缩,在GPU上只需要1.5秒。如果是传统的HD硬盘,未压缩状态下需要60秒,压缩状态下需要36秒。NVIDIA在这里没有给出目前常见的4核心、8核心CPU搭配PCIe3.0 NVMe SSD的数据,但估计会远远高于5秒。目前NVIDIA采用的RTX IO技术要求用户使用NVMe SSD、最新的DirectX API以及RTX 30系列GPU,另外还需要游戏本身支持。

另外还需要提及的是,类似DirectStorage的技术,在很早之前的CUDA 4.0中,NVIDIA就有过技术雏形。当时的技术内容包括GPU Direct 2.0、Unified Virtual Addressing和Thrust。其中Unified Virtual Addressing用于在CPU和GPU之间建立连续的内存空间来执行数据读取,Thrust用于并行应用端口连接,GPU Direct 2.0则用于多个GPU不经过CPU直接分享数据,这些技术的提出,使得GPU在数据处理和自主能力上有更大的空间,甚至可以在很大程度上摆脱CPU的控制。现在RTX IO和DirectStorage的出现,给了GPU更多灵活的空间。数据都可以自主处理和使用了,未来发生更多的事情,也不是不可以进一步想象了,比如,RTX GPU+ARM CPU?

HDMI 2.1、8K HDR和AV1解码

目前发布的RTX 30系列显卡开始通过GeForce Experience软件支持8K分辨率、30Hz的视频捕捉,并且支持HDR效果。为了播放这类视频,RTX 30系列显卡提供了HDMI 2.1规格的输出接口支持。HDMI 2.1规格的接口能够实现8K HDR 60Hz视频的输出播放,这类视频至少需要71.66Gbps的带宽,这在之前的HDMI 2.0b或者DisplayPort 1.4a的接口上都是难以实现的,因为前者的带宽仅为18.1Gbps,后者也只有32.4Gbps,单条线缆是不可能满足数据传输需求的。

AVI硬解码也是为了迎接8K HDR视频的到来。

RTX 30系列显卡是全球首个支持HDMI 2.1规格的产品。

8K游戏将带来前所未有的画质体验,也带来前所未有的技术挑战。

另外,RTX 30系列显卡目前提供对AV1格式的解码支持,AV1是一种全新的、免费的、开放的、极高压缩率的视频编解码技术,其开发和维护组织是Alliance for Open Media (AOMedia)。AV1编解码技术的优势在于,如果播放8K视频并使用H.264编码模式的话,那么需要的带宽最起码是140Mbps,而AV1可以将带宽需求降低至少一半,不过AV1的问题在于解码算法压力较大,CPU可能很难负荷。
RTX 30系列GPU支持AV1格式硬解码,配合相应的软件,能够实现最高8K HDR 60Hz的视频解码,并大幅度降低CPU占用率。NVIDIA数据显示,在播放AV1 8K视频时,采用Core i9 9900K解码时,CPU占用率高达85%,同时视频播放帧率只有28帧。在采用RTX 30系列的硬解码技术后,CPU占用率仅为4%,视频帧率也高达60帧,表现完美。
RTX 30系列的AV1解码包含下列内容:
●支持AV1的0级别配置方案,支持单色或4:2:0,8格式,支持8/10bit解码
●最高支持6.0级(不包括大型图块)
●支持的最大分辨率为8192x8192,支持的最小分辨率为128x128。
●支持直方图收集,胶片颗粒合成和子样本图(SSM)。
●提供最大8K、60Hz硬件解码
●支持的路径包括DX9,DX11和DX12
除了上述内容外,RTX 30系列显卡还能够提供MPEG-2,VC-1,H.264(AVCHD), H.265(HEVC),VP8,VP9和AV1等格式的硬件解码功能。硬件编码方面,RTX 30系列显卡现在完全支持H.264格式的4K编码或者HEVC的8K编码,极大地方便了视频捕捉用户。

更好玩的RTX 30系

在拥有了如此强大的硬件基础之后,NVIDIA还提出了一些全新的技术,其中一些专属于RTX 30系列,也有一些技术在比较老的RTX 20系列显卡上也可以实现。下面我们一起来梳理一下。

8K DLSS的加入,使得8K游戏在性能压力上大幅度降低。

8K DLSS的画质更为出色。

部分支持8K DLSS的游戏,表现出了出色的性能提升幅度。

首先是DLSS。目前在RTX 30系列上有关DLSS的升级最令人瞩目的是DLSS可以支持到8K分辨率了。NVIDIA的数据显示8K分辨率的DLSS画面的原始分辨率仅为2K,通过9倍的AI分辨率增强,最终可以输出8K的画面。令人惊喜的是,DLSS 8K的性能表现和原生8K分辨率相比,在某些场景下帧率甚至高了数倍,然而两者画质是基本相当的。

有关DLSS技术,它的确是一个非常出色的应用场景。DLSS通过高分辨率渲染的画面建立从低分辨率到高分辨率画面缩放的AI优化模型,然后在实际计算中使用低分辨率渲染搭配AI模型智能缩放,的确在部分游戏中能够带来不错的画面效果,同时还节约了大量性能。不过DLSS的问题也在于需要对游戏针对性的优化和适配,否则极其容易出现纹理模糊、锯齿增多、细节丢失、画面效果不增反减等情况。

NVIDIA推出了全新的实时全局光线追踪照明技术,介于应用和API之间。

RTXGI能够为玩家带来的优势。

RTXGI效果对比。

RTXGI的一些技术优势。

RTXGI的基本工作原理。

RTXGI的性能情况。

RTXGI面向开发者的优势。

除了玩家们喜闻乐见的DLSS外,NVIDIA还推出了全新的实时全局光线追踪照明技术,全称是Real Time Ray Trace Global Illumination,简称RTXGI。这项技术是建立在DirectX的光线追踪API和采用实时光线追踪游戏之间的一个中间层,主要目的是降低开发者难度。开发者不用深入了解RTX系列显卡的优势和DirectX API的细节,只要会使用RTXGI就可以开发、使用光线追踪特性。NVIDIA宣称,新的RTXGI相比之前的光照技术,修复了有关光泄露问题、速度甚至还比SOVGI还要快。此外,NVIDIA还解释了有关RTXGI的一些技术原理和性能方面的情况。

性能方面,NVIDIA认为采用RTXGI的性能和屏幕分辨率无关,要得到比较好的光照效果则需要250K~400K的光线采样,在RTX 3080上,400K个采样的完成时间是0.5ms内,在RTX 2080上则需要1秒,并且采样数量和全局照明更新的延迟相关,采样越多,算里要求越高但是延迟更低,采样越少算力要求越低但是延迟越高。但是无论如何,这类计算的总帧时间低于2ms。如果开发者使用RTXGI,那么将得到可自由调整的间接照明解决方案,并且对每帧的影响很小,另外光线质量高且无须降噪,这能够加速开发者进行内容创作,比如无须烘焙,计算速度非常快,整个开发可以快速迭代至可用。(由于在首发评测解禁时间内,NVIDIA没能更新Studio Driver,因此关于新一代RTX 30系显卡在Studio创作创意性能上的表现,我们将在后续测试中为大家展现)

▲通过NVIDIA视频直播方面的优化,带来了包括语音降噪、自动去背景、自动识别人脸等功能。

NVIDIA在视频直播的语音、音频和视频方面的改进。

第三个值得一提的技术是NVIDIA利用AI加速,在视频直播方面的改进。目前NVIDIA在视频直播方面推出了利用GPU张量核心辅助完成的语音降噪功能并得到了好评。现在NVIDIA推出了名为Broadcast的一整套视频直播解决方案,包括语音降噪、自动去背景、自动识别人脸等。这些功能的推出,使得很多用户能够更为自由地在任何环境中进行直播。不过NVIDIA提出,目前自动去背景技术依旧在研发过程中,可能存在一些问题,未来NVIDIA还会不断地发布更为成熟的版本。
第四则是面对电子竞技的优化技术。对电竞选手而言,更低的延迟和更快速的画面显示是非常重要的,NVIDIA的数据显示电竞选手在120ms以内就能给出反应,要求系统延迟低于12ms,普通玩家这两个数据为150ms和45ms。NVIDIA在这方面做出了一些研究,包括不同画面延迟下的画面显示情况、射击分布区域、目标精度等。最终结果显示,更低的延迟会带来更好的设计效果,比如以60FPS、100ms为基准,考察延迟在120FPS的54.7ms、240FPS的34.5ms以及360FPS的20ms时的情况,发现在这三种情况下,枪械射击命中概率分别提升28%、33%和37%,并且延迟越低,射击命中时间越短。

普通游戏玩家和电竞选手在反应时间上的差异。

更低的延迟会带来更好的游戏效果。

不同延迟值下的武器命中范围。

▲NVIDIA提出了名为Reflex的一整套解决方案,希望能够为电竞玩家和一些专业用户提供最低延迟的解决方案。

不同游戏使用Reflex的效果对比。

即使采用高画质,Reflex也能够显著降低延迟。

NVIDIA推出了最高刷新率可达360Hz的电竞显示器,支持G-SYNC技术。

鉴于此,NVIDIA提出了名为Reflex的一整套解决方案,希望能够为电竞玩家和一些专业用户提供最低延迟的解决方案,其中的核心技术是通过降低CPU压力、减少渲染队列数据、提高GPU频率来实现更低的延迟。NVIDIA还给出了数据对比在Reflex开启的情况下,能够提供的最低延迟时间,比如游戏DESTINY2,开启和关闭Reflex技术的延迟分别是50和75,堡垒之夜这两个数据分别是35和53,可见Reflex在游戏延迟降低方面的游戏。另外,在游戏设置方面,目前很多电竞玩家都希望将游戏设置为最低画质从而降低CPU压力来获取低延迟,但是这样做同时会导致画质降低,整体游戏性得到了损害。Reflex技术可以再不降低画质的情况下,尽可能降低游戏延迟,提高了画面效果和游戏性。
除了上述内容外,为了提供更好的电竞环境,NVIDIA还联合华硕、宏碁、罗技、微星、戴尔外星人等厂商,推出了低延迟的鼠标和显示器等,其中显示器的最高刷新率可达360Hz,配合G-SYNC、DLSS和Reflex等技术,能够为玩家带来最为出色的游戏效果。

跨时代,未来两年看安培

看完对NVIDIA Ampere架构及核心的完全解析,我相信很多玩家会和我们一样有这样的想法:这又将迎来游戏显卡市场上的新一轮革新浪潮!是的,如果说革命性的第一代RTX显卡——图灵,引导了PC游戏的光追+144fps新视界以及RTX Studio创意创作革命的话,那么作为第二代RTX显卡出现的安培,必然会借着更强悍的性能和更优秀的光追游戏体验,彻底铺开PC游戏的光追道路和RTX Studio的大众化普及。如果说图灵显卡普及了1080p@144fps的电竞新标准,那么我们更希望安培显卡能够带来4K@60fps取代1080p@60fps游戏的新成果,从而推动PC游戏走向全新的体验。
而从目前NVIDIA发布的三款安培核心显卡来看,无论是性能还是价格,它们都毫无疑问地占据了各自市场定位的制高点,新一代的显卡战争又是NVIDIA走在了最前面,未来的两年,我们认为安培应该也会像图灵一样,成为市场的标杆和领航者,将PC游戏与创意创作行业,带到一个全新的高度。拭目以待!

关于作者: luda

无忧经验小编鲁达,内容侵删请Email至wohenlihai#qq.com(#改为@)

热门推荐