本内容来源于@什么值得买APP,观点仅代表作者本人 |作者:gaojie20
前言
▲1984年上映,由詹姆斯·卡梅隆导演,阿诺·施瓦辛格主演的《终结者》豆瓣评分高达8.2分,其中故事背景中的天网是人类于20世纪后期创造的以计算机为基础的人工智能防御系统。之后自我意识觉醒,视全人类为威胁。电影剧情中,公元2029年,经过核毁灭的地球已由电脑“天网”统治,人类几乎被消灭殆尽。一个叫约翰·康纳的军事领袖召集幸存者一起对抗天网,组建了反抗军组织。
▲其续集于2003年上映的《终结者3》片中显示,天网的算力是60TFLOP/s,也就是每秒60万亿次浮点运算。
▲其续集于2003年上映的《终结者3》片中显示,天网的算力是60TFLOP/s,也就是每秒60万次F浮点运算
▲而在2022年的今天,英伟达最新发布的Ada Lovelace架构新旗舰RTX 4090在3.15 GHz频率下算力可以达到100TFLOP,所有也有网友调侃:看起来无所不能的天网,算力只相当于0.6张RTX 4090显卡。值得寻味的是《终结者》电影上映时间是1984年,而世界上第一块显卡发明于1981年,还是8位ISA显卡。时间催化科技落地再击穿曾经电影中的科幻数据,究竟是剧本预设太保守,还是科技进步太迅速呢?
NVIDIA Turing GPU 架构于 2018 年推出,由TSMC 12nm工艺制造,开创了 3D 图形和 GPU 加速计算的未来。图灵在 PC 游戏、专业图形应用程序和深度学习推理的效率和性能方面取得了重大进步。使用新的基于硬件的加速器,Turing 融合了光栅化、实时光线追踪、人工智能和模拟,以在 PC 游戏中实现令人难以置信的真实感和电影品质的互动体验。
▲两年后的 2020 年,由Samsung 8nm 8N工艺制造的NVIDIA Ampere 架构整合了更强大的 RT 核心和Tensor核心,以及一种新颖的 SM 结构,与 Turing GPU 相比,该结构可提供 2 倍 FP32 时钟对时钟的性能。这些创新使得 Ampere 架构在传统光栅图形中的运行速度比 Turing 快 1.7 倍,在光线追踪中的运行速度高达 2 倍。
▲2022年新的 NVIDIA Ada Lovelace GPU 架构以数学家 Ada Lovelace 命名,他被认为是世界上第一位计算机程序员,因为使用了 TSMC 5nm 4N工艺制造,其构架规模远远超过了 Turing 和 Ampere GPU。几何复杂性的增加和照明的创新使图形看起来比以往任何时候都更加逼真。 与之前的 NVIDIA Ampere GPU 架构相比,Ada 在光栅化游戏中的速度高达 2 倍,在光线追踪游戏中的速度高达 4 倍。
Ada 图形架构预示着第三代 NVIDIA RTX 技术,通过利用实时光线追踪来提高游戏视觉效果的真实性,而无需绘制纯光线追踪 3D 图形所需的大量计算能力。这是通过将传统的光栅图形与光线追踪元素(例如反射、照明和全局照明等)混合来完成的。第 3 代 RTX 预示着新的更高 IPC “Ada” CUDA 核心、第 3 代 RT 核心、第 4 代 Tensor 核心和新的光流处理器(Optical Flow Processor),该组件在不涉及 GPU 主图形的情况下在生成新帧中起关键作用渲染管道。
NVIDIA Ada GPU 完整架构
▲完整的 AD102 GPU 包括 12 个图形处理集群 (GPC)、72 个纹理处理集群 (TPC)、144 个流处理器 (SM) 和一个 384 位显存接口以及12 个 32 位显存控制器。此外还包括 288 个 FP64 内核(每个 SM 2 个),上图中未显示。 FP64 TFLOP 率是 FP32 操作的 TFLOP 率的 1/64。包含少量的 FP64 内核以确保任何具有 FP64 代码的程序都能正确运行,其中还包括FP64 Tensor Core 代码。
完整的 AD102 GPU 使用了12个GPC单元构成,每个GPC的SM为12个共144个SM,所以可以计算出:
144(SM)*128(CUDA内核)=18432(CUDA内核)
144(SM)*1(RT核心)=144(RT核心)
144(SM)*4(Tensor核心)=576(Tensor核心)
144(SM)*4(TMUs纹理单元)=576(TMUs纹理单元)
12(GPC)*16(ROPs光栅单元)=192(ROPs光栅单元)
12(显存控制器)*32bit(位宽)=384bit(显存位宽)
和上一代第一款首发产品RTX 3090一样,RTX 4090不是完整版核心,而是配备了这一代的第一款 Ada Lovelace GPU: AD102-300-A1。
NVIDIA AD102-300-A1 GPU架构
▲尽管这张旗舰卡中使用的芯片并不是完整的核心,AD102依然拥有128 个流式多处理器 (SM) ,包含16384 个 CUDA 内核。
RTX 4090的AD102-300-A1核心
▲RTX 4090使用了11个GPC单元构成,9个GPC的SM为12个,2个GPC的SM为10个,共144个SM。所以可以计算出:
128(SM)*128(CUDA内核)=16384(CUDA内核)
128(SM)*1(RT核心)=128(RT核心)
128(SM)*4(Tensor核心)=512(Tensor核心)
128(SM)*4(TMUs纹理单元)=512(TMUs纹理单元)
11(GPC)*16(ROPs光栅单元)=176(ROPs光栅单元)
12(显存控制器)*32bit(位宽)=384bit(显存位宽)
Ada的图形处理集群 (GPC)
▲Ada的图形处理集群 (GPC)包含1个光栅引擎,6 个 TPC、12 个 SM 和 16 个 ROP。
GPC 是所有 AD10x Ada 系列 GPU 中占主导地位的高级硬件模块,所有关键图形处理单元都位于 GPC 中。每个 GPC 包括一个专用的光栅引擎、两个光栅操作 (ROP) 分区,每个分区包含八个单独的 ROP 单元和六个 TPC。每个 TPC 包括一个 PolyMorph 引擎和两个 SM。
AD10x GPU 中的每个 SM 包含 128 个 CUDA 核心、1个 Ada 第三代 RT 核心、4个 Ada 第四代Tensor 核心、四个纹理单元、一个 256 KB 寄存器和 128 KB 的 L1/共享缓存。
Ampere 架构的第2代RT Core
▲Ampere 架构的第2代RT Core图中,BVH 遍历由 Box Intersection Engine (左侧)加速,光线-三角形相交测试由 Box Intersection Engine 加速 三角形相交引擎 (右侧)。通过两者为光线追踪功能提供专用资源,从而解放SM单元,使其腾出时间来执行其他像素、顶点和计算着色任务。在使用综合基准测试以及真实游戏和应用程序进行测试时,Turing 和 Ampere GPU 中的 RT Core 已被证明是迄今为止处理 RT 工作负载的性能最高的引擎。
Ada 架构的第3代RT Core
▲Ada 架构的第3代RT Core,在继承了第2代的两个功能单元之外,新增了Opacity Micromap Engine (左下)和 Displaced Micro-Mesh Engine (右下)这两个专用单元。
叶子或火焰等复杂形状通常使用纹理中的 alpha 通道来表示透明度和不透明度的级别
▲在 Ada 的 RT Core 之前,开发人员可以通过将某些内容标记为不透明来将它们合并到光线追踪场景中。当叶子被光线击中时,将调用着色器来确定如何处理相交,即使光线只是简单地表征为命中或未命中。这会产生很大的计算资源开销。具体来说,当光线扭曲投射到非透明对象时,单个光线查询可能需要多次着色器调用才能解析,而其他光线会立即终止。结果是资源开销大以及效率低下。
为了有效处理此类内容,NVIDIA 工程师在 Ada 的 RT Core 中添加了 Opacity Micromap Engine。不透明微图是微三角形的虚拟网格,每个微三角形都具有不透明状态,RT Core 使用该状态直接解析与非透明三角形的光线交叉点。具体而言,交叉点的重心坐标用于处理相应的微三角形的不透明度状态。不透明状态可以是不透明的、透明的或未知的。如果不透明,则记录并返回命中。如果透明,则忽略交叉点并继续搜索交叉点。如果未知,则将控制权返回给 SM,调用着色器(“anyhit”)以编程方式解决交集。
新的Opacity Micromap Engine处理不透明度蒙版时,将其划分为规则的三角形网格,用于报告光线/三角形交点的重心坐标。这些网格的大小可以是1到1600万个微三角形,每个微三角形有1-2bit。
▲考虑使用两个三角形和一个 alpha 纹理描述的详细枫叶(参见子图 (a))。 不透明蒙版应用于由 2 个三角形组成的枫叶。Opacity Micromap Engine评估叶子并确定哪些部分是不透明的、透明的或未知的,对应叶子的不透明区域,最后红色和蓝色对应混合不透明区域(未知)。在上面的示例中,Opacity Micromap Engine将微型三角形的 30 个标记为透明,41 个标记为不透明,57 个标记为未知。这意味着超过一半的叶子被完全表征,并且超过一半的与这些三角形相交的光线要么错过了叶子,要么明确地与叶子的内部相交。结果是,Ada RT Core 无需调用任何着色器代码即可完全表征这些光线,同时保留原始 Alpha 纹理的完整分辨率和保真度。不过当处于未知状态时,GPU会将控制权返回给SM着色器进行解析。
▲与 Ampere 相比,Ada 的 Opacity Micromap Engine 与不透明蒙版减少了SM着色器工作负载,通常投射在 alpha通道中的测试几何体上的阴影光线会看到最大的收益。 Ada 的不透明蒙版支持可以显著增加场景中详细几何图形的数量和保真度,从而提高真实感。借助这项新功能,它将 alpha 遍历速度提高了 2 倍。开发人员可以非常快速地将不透明度值分配给不规则形状的物体(如蕨类植物和栅栏)或半透明的物品(如火焰或烟雾),从而允许 Ada RT Core 直接对对 alpha 测试纹理进行光线追踪,而不是依赖 GPU 的 SM着色器单元。大幅提升对 alpha 测试纹理进行光线追踪的速度。
▲集成到 Ada RT Core 中的第2个新硬件单元是 Displaced Micro-Mesh Engine,旨在减少处理具有高水平几何细节的复杂对象时传统上所需的 BVH 构建时间和存储要求。有了这个新功能,NVIDIA开发了一种新的位移微网格原语来进行光线追踪。 当需要额外的几何细节时,Displaced Micro-Mesh Engine可以根据需要动态生成额外的微三角形。与传统渲染这些复杂对象相比,Displaced Micro-Mesh Engine将 BVH 构建时间缩短了 10 倍,同时将 BVH 存储需求降低了 20 倍。
Ada 流处理器 (SM)
▲与之前的Ampere一样,Ada SM 分为四个分区,每个分区包含一个 64 KB 寄存器、一个 L0 指令缓存、一个 warp 调度程序、一个调度单元,16 个专门用于处理 FP32 操作的 CUDA 内核(每个时钟最多 16 个 FP32 操作),16 个可以处理 FP32 或 INT32 操作的 CUDA 内核(每个时钟 16 个 FP32 操作或每个时钟 16 个 INT32 操作),一个 Ada 第4代Tensor 核心、四个加载/存储单元和一个执行先验和图形插值指令的特殊功能单元 (SFU)。
Ada SM 包含 128 KB 的 1 级缓存。该缓存采用统一架构,可根据工作负载配置为 L1 数据缓存或共享内存。完整的AD102 GPU 包含 18432 KB 的 L1 缓存,而Ampere构架中完整的GA102 仅有 10752 KB。
与 Ampere 相比,Ada 的 2 级缓存进行了彻底改造。 AD102 配备了 98304 KB 的二级缓存,比 GA102 中的 6144 KB 提高了 16 倍。这会让所有应用程序都受益,而诸如光线追踪之类的复杂操作最为受益。
▲Ada GPU升级的第4代Tensor 核心为现有 FP16、BF16、TF32 和 INT8 格式提供双倍的吞吐量,其第4代Tensor 核心引入了对新 FP8 的支持。与 FP16 相比,FP8 的数据存储需求减半,吞吐量翻倍。借助新的 FP8 格式,GeForce RTX 4090 可为 AI 推理工作负载提供 1.3 PetaFLOPS 的性能。
▲NVIDIA DLSS 3 是 AI 驱动图形领域的革命性突破,可大幅提升性能。DLSS 3 由 GeForce RTX 40 系列 GPU 所搭载的全新第四代 Tensor Core 和光流加速器提供支持,可利用 AI 创造更多高质量帧。
▲基于 Ada 架构的全新显卡配备了支持 AV1 编码的全新第八代 NVIDIA 编码器 (NVENC),可为主播、广播爱好者和视频通话用户带来更多新的尝试和体验。该技术的效率比 H.264 高 40%,这有助于主播在保持直播推流比特率不变的情况下,将画面分辨率从 1080p 提高到 1440p,且画质依然稳定。
开箱
▲ PNY是一家美商公司,中文名:必恩威,成立于 1985 年,是致力于消费和商业级电子制造的全球技术领导者。PNY 拥有 30 多年为全球消费者、B2B 和 OEM 提供服务的经验。产品在北美、拉丁美洲、欧洲和亚洲的 50 多个国家和地区设有 20 家公司,在全球主要零售店、电子零售店、批发商和分销商处销售。产品组合包括种类繁多的 USB 闪存驱动器、闪存卡、PC 内存升级、固态驱动器、NVIDIA® 显卡和 HP 闪存产品。凭借面向移动、数字成像、计算和游戏解决方案的产品。
其实我对PNY的了解,还是因为在北美的bestbuy海淘Quadro专业显卡,PNY在北美是Quadro和Tesla的独家代理商,这个定位非常类似中国的丽台,2020年开始销售的Geforce RTX 3000系列消费级显示卡基本和国内丽台销售的外形是非常类似的,因为都是Palit代工出品,2021年底开始独立研发生产显示卡,那么RTX 4000就是PNY独立研发生产显示卡的开山之作。
▲而XLR8 Gaming系列就是PNY所规划的游戏系列产品,当然PNY GeForce RTX 4090 24GB OC XLR8 Gaming Verto EPIC-X RGB™ TF就是PNY目前出品的消费级旗舰显卡。
▲包装正面
▲包装背面
▲包装侧面
▲同比其他品牌的RTX3090包装盒,PNY的包装体积要小不少
▲开箱
▲原封本体
▲原封标签
▲这是静电袋的标签,和盒子上的标签以及显卡上的标签,配合成三码合一。其中D43724是PNY独有的工厂码。
▲附件全家福
▲1组 16-Pin 转 四组 8-Pin的供电排线,官方称之为PCIe5 12VHPWR Adapter。
▲这种带有NVIDIA标的4 x 8P转12VHPWR的线其实我不建议使用,因为这种线材全部是由NVIDIA配送的套料,每一家都是一样的,因为前期有报道NVIDIA这批转接线有严重的焊接方式的质量问题,容易导致显卡与转接线的12VHPWR位烧熔,所以这里我极力建议大家不要使用这条线,具体分析我会放在文章结尾部分。
▲附赠的一组显卡支撑架,官方命名为:VGA Support Kits,来自联力代工制造。
▲安装方式如上图
▲显卡正面使用了三个100mm双滚珠环型风扇
▲与传统90mm风扇相比增加了40%以上的风量,风压提高55%。
▲显卡背面使用了冲压成型铝制金属背板
▲显卡背板的一块做了镂空设计,方便风扇将热风吹至机箱内部。
▲显卡顶部设计了一组XLR8的ARGB灯效
▲由于这次的RTX 4090各家都采用了短PCB设计,所以16PIN供电设计在短PCB的一侧上方,覆盖上全长度的散热器,就会显得外接供电貌似设计在显卡的中间部分。
▲显卡底部
▲显卡的厚度是71.1mm,标准的3.5槽厚度。接口部分为3x DisplayPort 1.4, 1x HDMI 2.1
▲显卡前部可以看出使用了4热管穿Fin。
▲这张显卡的体积控制在331.8 x 136.8 x 71.1mm,长度比公版的创始者310mm略长,但是短于其他AIC的同型号产品。
▲显卡体积的兼容性对比
拆解
▲我直接对这张显卡进行了拆解
▲冲压全铝背板
▲散热器本体
▲散热使用了8根热管
▲接触底座使用了Vapor-Chamber真空腔均热板设计。
▲PCB正面
▲PCB背面
PNY的这张卡的PCB是公版PG139-SKU330
▲这张显卡全部的MOSFET使用都是OnSemi NCP302150 DrMOS,分别用于GPU和显存供电;额定电流均为50A 。
▲GPU核心的PMW芯片是uPI uP9512U 。
▲该控制器管理14 相GPU核心供电。
▲显存供电PMW芯片是UPI uP9512R
▲该控制器管理3相显存供电。
▲GDDR6X 内存芯片由美光制造,型号为 D8BZC,解码为 MT61K512M32KPA-21:U。它们被指定以 1313 MHz(21 Gbps 有效)运行。
▲GPU核心是AD102-300-A1
▲HOLTEK HT32F52352芯片控制灯效以及风扇转速。
▲GSTEK GS9216是一颗12A降压芯片。
▲UPI US5650Q是一颗四通道电压电流监控芯片,监测PCB上四颗SHUNT RESISTOR,2颗R002和1颗R005在12VHWPR附近, 1颗R005在金手指附近。
这个供电的思路看下来,感觉PNY的设计比较关注默认效能稳定性,没有大量的堆料供应超频需求。设计方案和Palit类似。
既然都是PG139-SU330公版参考设计,为什么各家的PCB有明显的不同,包括电源的相数以及供电的方案。其实来自igor'sLAB的主编Igor Wallossek早就发表过他的意见,在Ada设计之初,NVIDIA考虑的仍然是使用SAMSUNG 8N制程,所以给与板卡厂商的散热以及电路设计参考指南都是以600W散热规模以及供电规模呈现的,因为整个产品的规划确实需要几个月时间,但是AMD的NAVI 31确定下来使用TSMC 5-6nm混合工艺制造后,NVIDIA估计是不淡定了,立即改变Ada的制程,直接转投TSMC 5nm改良版4N,确实TSMC 4N面对AMD确定的TSMC 5-6nm混合制程是存在优势的,同时由于一些市场战略问题,NVIDIA并没有向板卡厂商透露工艺变更事宜,直到AD102出来,NVIDIA通知板卡厂商RTX 4090的TGP和散热设计为450W才得到确认。
ASUS ROG Strix GeForce RTX 4090 OC
▲这时候板卡厂商更换方案已经来不及了,于是就用600W的电路设计+散热方案直接推出了RTX 4090的产品,可以理解成PG139-SU330公版参考设计的600W加强版。
NVIDIA Geforce RTX 4090 Founders Edition
▲其实对于NVIDIA自己的FE版本也是早早设计好了600W的电路PCB,就是PG139-SU330公版的600W变种加强版,但是上市时候使用了450W的散热模块,原先计划的三风扇FE散热方案可以移交到RTX 4090Ti上去了。
Palit GeForce RTX 4090 GameRock OC
▲在投片TSMC 4N之后NVIDIA在市场方面向板卡厂商出售方案的时候就完全转向了450W的PG139-SU330公版设计,包括供电套料都一并提供,并极力要求厂商这样去做,原因就是在面对未来的NAVI-31的时候,NVIDIA希望表现的是一个比对方优秀的能耗比,而不是一个多烧了33%TGP功耗性能多出5%的产品,诸如Palit抑或PNY就是属于后期被NVIDIA规划为450W产品线的主推厂商。
所以这一代产品,PG139-SU330公版参考设计是600W版本还是450W版本,完全取决于NVIDIA介入生产设计的时间线,在转投TSMC 4N之前,都是600W方案,在投了TSMC 4N之后都是450W方案。
那么是不是600W版本的PCB以及散热设计就会强很多呢?这取决于板卡厂商的惯性思维,因为SAMSUNG 8N制程Ampere的GPU核心提供给厂商的时候是存在分级的,分为30%的BIN0,60%的BIN1,10%的BIN2。这是由三星的良率问题决定,所以产生了BIN2这样的Sorting GPU核心,优秀的核心会提供给核心AIC装备,比如御三家这些,所以御三家的旗舰版会比下游厂家的核心在同样电压下BOOST到更高更夸张的频率,这让超公版PCB和散热设计变得非常有价值。但是TSMC 4N却不提供所谓的Sorting GPU核心,这次只有BIN1,没有BIN0和BIN2,每一家拿到的核心体制都基本一致,没有特别优秀的也没有特别差的,这就让想做超公版的厂家特别头疼,因此,大家看评测所了解的600W满载的效能也并没有特别多的效能提升,能耗比完全没有优势。
测试平台
电源适配
▲为了尽可能稳定有效的完成测试任务,电源这次使用了Seasonic Prime TX-1600
▲Seasonic Prime TX-1600包装
▲80PLUS钛金认证,电源原生支持两个PCIe5 12VHPWR供电接口。
▲开箱
▲附件全家福
▲线材包1
▲线材包2
▲PCIe5 12VHPWR供电线
▲PCIe5 12VHPWR供电接口部分
▲海韵的PCIe5 12VHPWR供电线直接定义为600W输出。
▲电源本体背面
▲电源本体正面
▲电源本体侧面
▲电源模组接口
▲45°视角
京东
Seasonic 海韵 PRIME-TX 钛金牌(94%) 全模组ATX电源 电脑电源 1600W3599元实时价格8小时前已更新去购买
测试平台
【CPU】: AMD Ryzen 7 5800X
【主板】: ASRock X570S PG Riptide
【内存】: Lexar THOR DDR4-3600 16GB X2(White)
【硬盘】: LEXAR NM800 1TB M.2 PCIe Gen 4X4 SSD
【显卡】: PNY RTX 4090 OC XLR8 Gaming Verto
【散热】: Thermalright Forzen Magic 240 ARGB
【机箱】: SilverStone RM42-502
【电源】: Seasonic TX-1600
【系统】: Windows 11 x64 WorkStation 21H2
【系统】: Ubuntu 18.04.6 x64
▲视角1
▲点亮的光效
基本情况
▲GPUZ默认参数
▲闲时,使用HWINFO对GPU功耗、GPU热点温度、GPU温度以及显存结温进行了监控,可以发现:
功耗=14.834W,
GPU热点温度=45.8°C
GPU温度=36.9°C
显存结温=40°C
▲我们进行3DMARK Speed Way的压力测试,本测试一共20轮,我们在第17轮开始统计,榨出当前最高的TGP和温度并使用HWinfo监控。
▲运行3DMARK Speed Way压力测试是因为要一直处于GPU 100%满载状态:
功耗=443.946W,
GPU热点温度=79.9°C
GPU温度=70.3°C
显存结温=80°C
这基本是目前现有手段能榨出的最大表现力。
▲回到HWINFO监控页面去复盘,了解一下这张卡的一些特性:
关于GPU功耗,最低9.133W,最高445.763W,基本说明这张卡的功耗区间,看起来被锁450W TGP。
GPU频率在待机时候稳定在210MHz,满载时候达到2820MHz。
显存频率在待机时候稳定在101.3MHz,满载时候达到2625.5MHz。
GPU过热限制=84°C,说明整个显卡的散热设计是为了把GPU温度压制在84°C以内。
GPU风扇1是三颗风扇中的左右两颗并联,待机基本不转,测试时候转速最大达到1713RPM,但这只是风扇全速转速的49%。
GPU风扇2是三颗风扇中的中间一颗,在待机时候基本不转,测试时候转速最大达到1721RPM,但这只是风扇全速转速的49%。
▲想让风扇全速,使用PNY的VelocityX软件就可以做到。
▲将风扇这里的自动关闭,转速拉到100%即可达到最大转速3086RPM。
下面看一下超频效果,
▲超频之前跑了一个3DMARK TIME SPY EXTREME测试,GPU分数19472
▲随后我直接将GPU核心加了200MHz,
▲进行3DMARK TIME SPY EXTREME测试,GPU分数19912
▲HWINFO监控数据的GPU功耗依然牢牢被锁在450W以内。
▲比较一下两个测试,差异主要是CPU核心频率boost从2790MHz越迁到2985MHz,实际功耗没有增加,温度也没有增加。所以也不用动辄对boost核心频率达到3000MHz的600W超级公版垂涎三尺,其实哪怕450W TGP的RTX 4090往上随便拉个200-250核心频率就随意可以达到3000MHz的boost核心频率。
▲这说明这次的AD102-300-A1核心在不增加功耗的情况下是留有一定余量的性能可以压榨的,但是空间不大,200-250MHz,一旦超过这个范围,就需要BIOS破除Maximum Power Limit 450W的限制。
▲关于RGB特效,VelocityX提供了多种选择,下面展示几张我拍摄的灯光效果。
视频
▲基本情况部分测试到此结束。
对比测试
▲从左往右,依次是PNY RTX 4090 Verto、影驰RTX 3090 Ti星耀以及七彩虹RTX 3090火神
▲三款产品同比
▲厚度上PNY RTX 4090略厚,长度和影驰RTX 3090 Ti星耀基本一致。
DLSS3 测试
▲NVIDIA GeForce RTX 40系列显卡的一大变化就是新增了对DLSS 3技术的支持,DLSS 3在前代DLSS2的基础上,通过(OFA)光流加速推断下一帧生成的目标画面,使传统CUDA算力得到极大的节省,让GPU在应对高分辨率实时渲染游戏时可以更加游刃有余,与不使用DLSS相比,理论上游戏性能的提升可高达4倍。
▲DLSS 3由于Frame Generation的加入,它的理论帧数性能能达到原先DLSS 2的双倍,这使得GeForce RTX 40系显卡能够以更小的压力用4K分辨率高画质运行所有支持DLSS 3的游戏,同时距离流畅体验8K游戏也更进一步。
▲目前有超过35款游戏和应用宣布即将支持DLSS3。
DLSS3 测试-Cyberpunk 2077
《Cyberpunk 2077》DLSS3设置
▲DLSS 3的相关测试使用《Cyberpunk 2077》完成,虽然选择游戏自带的BENCHMARK进行测试,但由于DLSS 3应用了新技术,当下游戏自带的帧数记录功能并不能精准地记录下开启DLSS 3之后的游戏帧数。因此在DLSS 3游戏中,虽然使用游戏自带的BENCHMARK进行测试,但实际帧数以NVIDIA的FrameView工具为准。
▲开启光追测试,我们可以发现,开启DLSS 2之后的游戏性能帧数已经相当可观,然而当开启DLSS 3之后,游戏性能在DLSS 2的基础上又提升了一大截,与关闭DLSS相比,在4K分辨率下开启DLSS 3质量可以带来170%的性能提升,2K分辨率下可以带来145%的性能提升。
DLSS对比测试
DLSS对比测试-FAR CRY 6
DLSS对比测试-Shadow of the Tomb Raider
生产力测试
生产力测试环节使用了Puget Systems的三个测试脚本进行测试:
生产力测试-Adobe After Effects 22.4
▲本测试以Adobe After Effects 22.4为测试载体
▲以PugetBench for After Effects 0.95.2为工具基准进行测试
本测试涉及到了许多不同的项目,其中包括一个专用的“GPU 压力”测试,该测试旨在往 GPU 上施加尽可能多的负载,同时仍保持在某人在现实世界中可能实际执行的范围内。 在 After Effects 等应用程序中查看 GPU 性能通常是检查 GPU 承受重负载的极端情况的情况,因此通过每个 GPU 的 After Effects 基准测试中看到的整体性能开始,GPU 分数是根据“GPU Stress”组合的性能计算得出的,该组合旨在将尽可能多的负载置于 GPU 上,同时最大限度地减少 CPU 作为瓶颈,可以很好地显示 After Effects 中不同 GPU 之间的最大性能增量。
GPU分数的基准是以NVIDIA GeForce RTX 3080 10GB为100分参考基准。
NVIDIA GeForce RTX 3080 10GB
GPU分数:100
▲测试数据汇总
生产力测试-Adobe Premiere Pro 22.6.1
▲本测试以Adobe Premiere Pro 222.6.1为测试载体
▲以PugetBench for Premiere Pro 0.95.3为工具基准进行测试。
这个基准测试通过4K和8K分辨率以及29.97和59.94 FPS的各种编解码器来研究实时回放和导出性能。对于GPU测试使用专用的“重载GPU效果”单独向GPU施加尽量多的压力,使其超出普通Premiere Pro用户的工作范围来进行测试。
测试的剪辑素材 FPS)素材分辨率以及编码器包含:4K H.264 150mbps 8-bit FPS)、4K ProRes 422、4K RED、8K RED、8K H.265 100Mbps。
对于每种类型的测试素材,进行四种测试:
标准 - 两个 59.94FPS 片段串联,应用 Lumetri Color 效果
2x Forward - 四个 59.94FPS 剪辑,在 119.88FPS 序列中将 Lumetri 颜色设置为 200% 速度,以模拟以 2 倍速度播放时的性能。
4x Forward - 8 个 59.94FPS 剪辑,在 239.76FPS 序列中将 Lumetri 颜色设置为 400% 的速度,以模拟以 4 倍速度播放时的性能。
MultiCam - 在多机位序列中跨四六个轨道的多个剪辑。在“多相机”显示模式下测试播放。
这些测试都用于全回放分辨率的实时回放性能测试。
标准测试还使用“Youtube 2160p 4K 超高清”预设(H.264、4K、40mbps)以及导出到 4K ProRes 422HQ 8-bpc 来测试其导出性能。
关于GPU有一个“Heavy GPU Effects”测试,使用:
串联的 Twp ProRes 422 剪辑,每个剪辑之间有交叉溶解
高级效果:Lumetri Color、Ultra Key、Sharpen、Gaussian Blur、Basic 3D、Directional Blur 和 VR Digital Glitch。
极致效果:Lumetri Color、Ultra Key、Sharpen、Gaussian Blur、Basic 3D、Directional Blur、VR Digital Glitch 和 VR De-Noise。
通过导出到 ProRes 422HQ 来衡量性能。
GPU 分数基准是以NVIDIA GeForce RTX 3080 10GB为100分参考基准:
NVIDIA GeForce RTX 3080 10GB
GPU分数:100
▲测试数据汇总
生产力测试-DaVinci Resolve Studio 18.0.2
▲本测试以BlackMagic DaVinci Resolve Studio 18.0.2为测试载体,以PugetBench for DaVinci Resolve 0.92.3为工具基准进行测试。
本基准测试主要使用各种编解码器以 4K 和 8K(仅限扩展预设)分辨率、OpenFX 以及 Fusion 中的性能进行渲染。
测试的剪辑素材 FPS)素材溯源自以下两家自媒体提供的样片:包含以下分辨率和编解码器:
4K H.264 150mbps 8-bit、4K ProRes 422、4K RED、8K RED以及8K H.265 100mbps
GPU 效果部分侧重于 OpenFX 和降噪,包含以下效果:
Temporal NR x3 - 2 Frames Better
Temporal NR - 2 Frames Better
Film Grain
Spatial NR - Better
Lens Blur x5
Lens Flare
Optical Flow - 50% Enhanced Better
Face Refinement
▲测试数据汇总
最后需要说明的是,本次测试的剪辑素材来自以下两家自媒体:
▲4K和8K RED剪辑视频来自老莱的工作室,这些剪辑也已转码以创建H.265和ProRes 422剪辑。Linus Media Group是老莱的公司,在YouTube上提供了流行的 LinusTips和 TechLinked频道。
▲Neil Purcell是伦敦著名的照明摄影师,在广播电视领域拥有超过25年的经验。从事各种各样的作品;从戏剧到木偶,现场新闻和事实,儿童节目,灯光娱乐,真人秀,外部广播,重大体育赛事,音乐演唱会,流行视频,企业电影和商业广告。图中Neil Purcell(灯光摄影师/摄影操作员)正在以他的松下 GH5 拍摄 4K H.264 素材。本次测试使用的4K H.264素材来源于他的剪辑作品。
深度学习
RTX 4090 具有576个第4代Tensor核心 ,RTX 3090 Ti 具有336个第3代Tensor核心,RTX 3090 具有328个第3代Tensor核心,理论上RTX 4090的Tensor核心不仅有数量上的优势而且有迭代的优势。这对深度学习来说是个非常大的利好。不过RTX 4090实在太新了可能需要点时间才能让深度学习的周边支持跟上,正好CUDA Toolkit 11.8赶着发布了,所以直接使用了NVIDIA的NGC 容器系统进行测试。
▲测试系统
Ubuntu 22.04 Linux
NVIDIA Enroot 3.4
来自NVIDIA NGC 的容器化应用程序
TensorFlow 1.15.5 ML/AI 框架标签:nvcr.io/nvidia/tensorflow:22.09-tf1-py3
PyTorch 1.13.0a0 ML/AI 框架标签:nvcr.io/nvidia/pytorc
深度学习-TensorFlow ResNet50
▲ TensorFlow 1.15.5版本是 NVIDIA 维护的 ,能提供更好的性能。基准是训练 100 Step的 ResNet 50 卷积神经网络 (CNN)。结果是以每秒处理的图象数来决定。精度可选择FP32 和 FP16 。每秒处理的图象数越多说明性能越好。
命令行:
CUDA_VISIBLE_DEVICES=0 python re --layers=50 --batch_size=128 --precision=fp16
CUDA_VISIBLE_DEVICES=0 python re --layers=50 --batch_size=128 --precision=fp32
▲测试数据汇总
深度学习-PyTorch Transformer
▲基准测试使用 PyTorch 1.13 在带有 CUDA 的 Wikitext-2 的神经网络上对Transformer 模型进行 6 epoch 的训练,完成时间越短,说明性能越好。
命令行:
time CUDA_VISIBLE_DEVICES=0 python main.py --cuda --epochs 6 --model Transformer --lr 5 --batch_size 640
▲测试数据汇总
值得注意的是PyTorch和TensorFlow的迭代支持很快,一些优化一定会持续跟进Ada构架进行优化的,所以预留了未来可期许的深度学习性能提升空间。
硬件兼容性
其实我对测试平台不太追新,最主要的问题就是怕不兼容,结果还是遇到了不兼容的情况,最后得到了解决:
测试平台我选用的是ASRock X570S PG Riptide主板以及AMD Ryzen 7 5800X,没有选用INTEL 12和13代平台以及AMD Ryzen 7000系列平台最主要的原因是因为有部分的测试在Ubuntu 18.04.6 LTS下进去,对于Linux平台而言,支持如上新平台发挥效能需要更新内核到5.17-5.22以上,存在一些未知且不可预测的可能性,求稳所以使用了成熟的平台。
▲ASRock X570S PG Riptide包装
▲ASRock X570S PG Riptide附件一览
▲ASRock X570S PG Riptide本体
▲安装AMD Ryzen 7 5800X,散热器选用的是Thermalright Forzen Magic 240 ARGB。
▲ Thermalright Forzen Magic 240 ARGB包装
▲Thermalright Forzen Magic 240 ARGB本体1
▲Thermalright Forzen Magic 240 ARGB本体2
▲SSD选择的比较稳健的LEXAR NM800 1TB M.2 PCIe Gen 4X4 ,为了提高兼容性选用了主流的IG5236主控+美光B47R NAND。
▲SSD本体正面
▲SSD本体背面
▲安装设备在M.2-1 CPU PCIe Lane槽位。
▲CrystalDiskMark 8.0.24的持续读写使用QD32T1的默认设置,随机读写使用QD32T16的条件,可以非常接近官标所标识的UP TO的最大值:
Sequential Read [持续读取](Q=32,T=1) : 7459 MB/s 超越官标
Sequential Write [持续写入](Q=32,T=1) : 5738 MB/s 接近官标
Random Read 4KiB [4K随机读取](Q=32,T=16) : 399K IOPS 接近官标
Random Write 4KiB[4K随机写入] (Q=32,T=16) : 1013K IOPS 远超官标
评估了下,基本可以认为达到了官标的性能。
内存选择的是Lexar THOR DDR4-3600 16GB X2(White)
▲DRAM本体正面
▲DRAM摆拍2
▲上机
▲安装内存在DIMM 2和DIMM 4。
▲上机用台风看了下,美光F-Die,颗粒编号D8CJV,美光里的内部编号为MT40A2G8SA-062E:F,原生DDR4-3200的颗粒,SPD里有DDR4-3600 18-22-22-42 1.35V的XMP参数以及DDR4-3200 22-22-22-52 1.2V的JEDEC参数。
▲机箱选用的是一款工作站机箱SilverStone RM42-502
▲这是一款可以通过导轨直接上机柜的RACK机箱
▲支持240-280水冷。打开前门可以看到兼容水冷的风扇进风位
▲SilverStone RM42-502的特点是可以通过附件里面的转换件变成塔式工作站机箱
▲SilverStone RM42-502的塔式形态--开门
▲SilverStone RM42-502的塔式形态--关门,前门钥匙是工作站机箱的标配。
▲组装好硬件
问题一
▲第一件事情发现点不亮。。。。。。如图所示显示器无显示,但是机器运行则一切正常。
▲ASRock X570S PG Riptide这种上市一年多的成熟产品竟然必须需要更新2022年10月22日最新2.20版本BIOS才可以支持RTX 4090,所以当发现点不亮RTX 4090的时候不用慌,先去用别的显卡点亮系统升级一个最新的BIOS。
问题二
▲第二个问题,要清楚SilverStone RM42-502是一个支持ETAX双路主板的工作站服务器机箱,不仅宽大且做工精良。
▲规格是430mm (W) x 176mm (H) x 468mm (D),宽度是430mm。
▲就这个规格的机箱,在安装了前置240水冷之后,塞进去331mm长度的PNY GeForce RTX 4090 24GB OC XLR8也已经比较紧凑了,机箱在不安装前置水冷情况下允许安装的显卡最大长度为426mm,一般普通水冷排厚度为27mm,12025规格水冷风扇厚度为25mm,安装完水冷仅剩下374mm的长度空间,依然足够装下目前在售的任意品牌型号的RTX 4090!如果你正在为找一款适合RTX 4090的做工精良的工作站机箱而烦恼,如果你能够接受无ARGB的机箱内环境的话,SilverStone RM42-502绝对是您正确的选择!
但是市面上大多数的ATX机箱显卡限制长度都在350mm以内,这意味着,如果你购买RTX 4090显示卡,显卡的长度决定了你是否需要更换一个更大的机箱。所以这时候长度更短的RTX 4090的机箱兼容适配性当然是更强的。
问题三
▲第三个问题,如果使用了Seasonic TX-1600原配的12VHPWR线材进行安装,如果发生过度弯曲,还是有可能发生以下情况:
▲因为过度弯曲发生的线材接头脱落情况,
▲PCI-SIG组织早就通报了因为12VHPWR的线材因为太硬太粗的原因在过度弯曲的时候造成接头松动甚至脱落,和显卡12VHPWR接头部分发生电阻值过高,发热严重最终造成12VHPWR烧毁的问题。
现在问题来了,机箱的能盖上侧板能容纳的最大显卡高度为156mm,而显卡本身的高度为136.8mm,如果要盖上侧板,就必须在19mm的空间内进行12VHPWR线材弯折,这其实还是有风险。对于海韵电源而言,其实还有终极解决方案来解决这个问题。
▲海韵为解决弯曲问题出品了一款新的12VHPWR模组线,符合PCIe 5.0供电标准,兼容ATX 3.0,使用16AWG高规格线径,耐高电流合金铜端子,可支持高达600W功率输出。电源直连显卡供电,可降低转接带来的故障风险,为玩家带来更安全稳定的供电方案。另外,该模组线采用了新的模组线材,压纹工艺如编织质感,比一般的模组线更柔软,更有利于玩家走线。
▲海韵这款12VHPWR模组线适配于其PRIME和FOCUS系列850W及以上型号,可选黑色或白色,但与其他品牌并不适配。如果玩家使用的是国行在保的海韵电源,每个电源SN可免费申请一次,得到这款12VHPWR模组线。
▲1000W及以上的海韵电源需提供RTX 40系列显卡的购买凭证,850W及以上的海韵电源需提供RTX 3090 Ti显卡的购买凭证,另外玩家需要提供一张电源与显卡的合照(电源SN清晰可见),默认发黑色,白色需备注。玩家可将相关资料发送到官方邮箱cn.support@免费申请,邮费自理,以顺丰到付寄出。
问题四
▲第四个问题,第一批次NVIDIA配给显卡生产商的1组 16-Pin转4组 8-Pin的供电排线,官方称之为PCIe5 12VHPWR Adapter,存在严重质量问题。igor'sLAB 发表了一项关于 Nvidia 12VHPWR 适配器的研究,不建议使用此适配器!
▲reddit有个帖子专门持续汇报发生的转接线烧毁显卡供电接口事件,且持续更新。到2022年10月30日为止因NVIDIA配送的16-Pin转4组 8-Pin的12VHPWR线材烧毁显卡接口事件为12例,均为TGP大于550W的RTX 4090。目前无法确定NVIDIA要求近期发行的RTX 4090新版TGP功耗锁定为450W是否与此有关。
▲NVIDIA配送的16-Pin转4组 8-Pin的12VHPWR线材总共有 4 根 14AWG 粗线分布在总共 6 个触点上,两条外部引线分别焊接到一个引脚上,中间的两条引线分别焊接到两个引脚上。
▲焊料底座是仅 0.2mm的薄铜底座,每根进线宽度为 2 mm,因此中间连接的每对宽度为4mm。
▲将一根甚至两根14AWG 电线焊接到它上面是活动的,弯曲情况下非常容易造成脱落。
▲目前上市的大多数的RTX 4090都是在600W TGP下运行,在这电流强度下,因为弯曲导致的不稳定且活动的焊接触点引脚电阻值上升,迅速烧毁显示卡以及转接线的12VHPWR接口部分。
▲因为早期的RTX 3090Ti配送的1组12-Pin转3组 8-Pin的供电排线使用了相同的设计,可能是因为450W TGP功耗输入电流较低并未报告烧毁RTX 3090Ti的情况,但是这次有用户害怕使用RTX 4090配送的16-Pin转4组 8-Pin的12VHPWR线材,转而使用RTX 3090Ti配送的12-Pin转3组 8-Pin的12VHPWR线材,一样发生了烧毁情况。目前的报告是两例。顺带说一下PNY GeForce RTX 4090 24GB OC XLR8 Gaming Verto EPIC-X RGB™ TF目前是和RTX 3090Ti一样的450W TGP功耗设计。
总结
因为手里没有其他的RTX 4090显示卡,所以同类比测试是无法进行的,本次评测主要对上代的旗舰级显示卡做了明确的性能比对。
基于DLSS3游戏用途的玩家是非常值得升级RTX 4090的,而对于普通DLSS游戏用户而言,需求没有那么强烈,生产力环节诸如Adobe AR PR类的软件而言,升级理由并不充分,而对于达芬奇用户来说就非常值得升级,深度学习方面是绝对值得升级的,但是周边支持的完善可能需要点时间。
截至发文,RTX 4090的价格从首发12999奔着16000去了,京东缺货,天猫缺货,倒不是商家囤货居奇,是因为9成的大厂订单都直送美国了,这就造成中国目前的缺货真空期,自然水涨船高。
至于PNY这张RTX 4090显示卡,性能中规中矩,因为Maximum Power Limit 被锁定在450W,所以在不能动电压的情况下超频所获得性能有限在2-3%附近,其长度适中且不浮夸的散热规模令人印象深刻,因为能保证兼容适配大多数的普通机箱,同时性能也足够压制450W TDP,49%的自动风扇控制可以最大程度保证满载运行时候的静音效果,如果不破解Maximum Power Limit 其实也用不到100%的手动风扇设置。VelocityX软件的使用理念比较简约,简单暴力比较适合快速上手,ARGB的光效加持也起到了画龙点睛的效果。
那么问题来了,这张卡的潜在客户群体在哪里?这张卡适合对稳定度有一定要求,且对机箱电源的兼容适配要求比较高的用户,换句话说,在不想更换更高功率电源和更大规模机箱的前提下,客户有一个850W的电源,一个普通ATX的机箱,如果你要塞进去RTX 4090,除了NVIDIA创始者版本,PNY RTX 4090 OC XLR8 Gaming Verto就是最佳的选择了。当然前提是你需要有一个适合RTX 4090的电源以及弯折不会烧毁的12VHPWR线材。
作者声明本文无利益相关,欢迎值友理性交流,和谐讨论~