过去两年的显示卡市场,可以说是历经波折,疫情造成全球供应链吃紧,货本来就不多,NVIDIA首发RTX 30系列显卡没多久就缺货,再来随即经历矿潮,不但缺而且价格搞的跟房地产一样飞涨,直到今年价格终于回落了,供货也日渐充足,但此时RTX 40系列显示卡也要来了,我们就在这样的风风雨雨中,迎接新一代的显卡。
   
这次NVIDIA的RTX 40系列显示卡采用了全新的Ada Lovelace架构,简称为Ada架构,这次的命名来自于英国的一位数学家Ada Lovelace,他也普遍被认为是世界上第一位电脑程序的设计师。
 
之前的发布会上公布了RTX 4080以及4090显卡,官方宣称比前代快上2-4倍,今天我们就来测试NVIDIA所推出的GeForce RTX 4090,看看这张性能怪兽到底表现如何。
 
这里我先整理出RTX40系列的三大重点:
 
1、采用台积电4nm制程,晶体管密度以及能耗比上都有着大幅的提升
 
2、采用第三代的Ray Tracing Core光线追踪核心,并加入了两种全新的处理单元,
分别是OMM(Opacity Micromap)以及DMM(Displaced Micro-Mesh),让光线追踪的运算效率相较前代翻倍,搭配SER(Shader Execution Reordering)调度系统,让SM单元以及RT Core能更有效率的协调工作。
 
3、采用第四代的Tensor Core,支持全新的DLSS 3.0,通过在GPU中加入了全新的光流加速器,让DLSS 3.0的性能相较2.0提升了两倍。
 
综合以上3点,让这次的RTX 40系列显示卡有着大幅的性能提升,可以达到前代的翻倍,整体来说在硬件及技术上都有亮点。
   
下面我们来详细了解下这次的RTX40显卡。首先是制程的部分,NVIDIA总算又回归台积电的怀抱,RTX 40系列显卡用上目前最先进的4nm制程,虽然它跟5nm是属于同一个节点,但性能还是要比5nm再强上13%左右。
   
光追方面,NVIDIA这几年一直极力的发展光线追踪,不单是游戏上可以获得更精良的真实画面,光追更重要的意义还在于生产力上,你能通过特定的RT Core加速单元去提升光追渲染的效率,更快速的去模拟出接近真实的光线路径。
 
第一款支持光追的游戏是战地风云5,那时候每个像素会动用到39次的光追计算,而到了近年推出的赛博朋克2077,每个像素动用到的光追计算已经突破600次了,面对如此大量的计算需求,NVIDIA一直在想方设法的提升硬体对于光追的运算性能。
 
这次Ada架构配备了第三代的RT Core,拥有两倍的光线三角交叉(Ray-Triangle intersection)传输量,以及两个全新的光追硬件单位,Opacity Micromap Engine(OMM)不透明微图引擎可以直接对物体进行Alpha几何测试,并且显著的分担基于着色器的工作量,所以开发人员可以借助这项硬件技术对像是叶子边缘或是火焰等等这些有半透明样貌的物体进行详细分析,通过RT-Core对他们进行直接、并且更有效率的光线追踪。
 
而Displaced Micro-Mesh Engine(DMM)置换微网引擎,在建构3D图像的过程中,以前会需要去记录下每个三角形的座标,所以当物体细节越多的时候,往往会产生很大的数据量,并且对硬件的运算效能也相当严苛,而通过DMM,它不是记录每个座标,而是透过记录一个三角形,搭配向量的方式,可以大幅的减少数据量,有点类似资料压缩的概念,但是他却又能大幅节省运算能耗以及VRAM空间,所以透过DMM引擎,能将建构BVH(Bounding volume hierarchy)的速度提升10倍。
   
除此之外AdaDA也加入了SER,着色器执行重新排序技术。光追一直是出了名的难平行处理,一道光打在不同角度的物品平面上上,会产生各个方向的反弹,对于这些繁杂的负载导致GPU必须动用不同的线程来处理不同的著色器,而造成运算效率低下。而通过SER技术,他可以即时重新安排着色工作负载。光是这项技术的加入,官方宣称说光追的运算效率就可以提升2-3倍,并且带来整体25%的游戏性能提升。
 
接下来是DLSS的部分。这项技术的出现让我们得以在游戏中用更少的运算资源来获得更多的帧率提升,这其中是归功于Tensor Core的AI运算,透过深度学习让硬件预先去模拟游戏画面,再通过超采样将低解析度画面放大成高解析度。
   
这次的AdaDA架构,配备第四代的Tensor Core,而其中最重要的是加入了光流加速器(Optical Flow Accelerator),搭配动态向量引擎,AI能去预判游戏中每个像素的运动轨迹,并且不需要额外的渲染就能产生一个完整的画面,更好理解的说法就是「补帧」,但这个补帧不是通过接合前后帧做生成,而是通过现有的画面,搭配运动轨迹来预知下一帧的画面,搭配原先就有的超解析度技术,这次的DLSS 3.0将会带来4倍的游戏性能提升。
   
此外这次的RTX 40系列显卡在编解码规格上也有了更新,支持了AV1编码功能,并且它搭载了双编码器,NVIDIA通过这个双编码器可以在影像输出的过程中协同运作,一个画面可以分成上下两个部分,分别由双编码器去做渲染,并且再将上下画面做合成,这样一来就可以使图形处理速度翻倍,对于很多视频创作者来说,这项功能将会带来更高的生产效率。
 
接着我们来看下这次RTX 4090的规格,刚看到规格参数的时候真的很令人傻眼,作为RTX 3090的下一代,你涨价贵100美金就算了,但这功耗是怎么回事?RTX 4090比RTX 3090整整上升了100W,直接跟RTX 3090Ti齐平,不过先别急着开喷,看完评测再说。
   
RTX 4090核心是AD102,后缀型号是300-A1,配备128组SM单元,16384个CUDA,是完整AD102的88.88888%。完整的AD102会留给更高阶的RTX 4090Ti以及RTX 6000 Ada。
 
单从CUDA数来看,这代的RTX 4090就极其恐怖,受惠于先进制程的淫威之下,其晶体管密度真的是大跃进,直接增长了64%。核心频率部分,RTX 4090也是上到2.5GHz,RTX 3090也才不过1.7GHz,搭配72MB的L2大缓存,其实这次Ada架构在硬体规格上提升是非常巨大的。
 
而现在的问题就是这些强大的规格提升,对比高出100W的功耗以及贵100美元的价格,平衡下来到底哪边胜出?下面就是大家最关心的实测环节了。
 
先来做个烤机机测试。
   
RTX 4090在Furmark的压力测试下,功耗吃满可达450W,整机平台功耗更是接近600W大关,单看功耗的话,它就是一张RTX 3090 Ti,电源建议为850W,不过考虑到90级别卡通常都会搭高端的CPU,所以我个人会建议还是直上1000W比较保险。

 
温度方面,满载状态下温度保持在73度,相对于它的功耗来说这个温度完全在可接受范围。
   
首先是我们最熟悉的3D Mark,在DX 11环境的FSU中,RTX 4090对比RTX 3090领先了96%,比RTX 3090 Ti强上74%。
   
DX12环境的TSE中,RTX 4090也领先RTX 3090 85%,比RTX 3090 Ti高67%。
 
这样对比下来,RTX 4090性能基本达到RTX 3090的翻倍,这要比RTX 2080对上RTX 3080时的幅度更大,功耗跟当时RTX 3080类似,对比前代同样上升了100W左右,所以这样看起来,倒是有种之前30系列显卡卡的影子,性能提升虽然巨大,但是同时也用了更多的功耗来换,不过实际的能耗表现如何,我们先别急着下定论,接着我们来看NVIDIA主打的光追和DLSS性能。
   
在Port Royal的光追测试中,RTX 4090有着86.5%的成长。
   
而针对光追硬件的DXR测试里,RTX 4090更是比RTX 3090跑出多达2.3倍的FPS,可以说从RTX 20系列到RTX 30系列光追性能翻倍,接着从RTX 30 系列到RTX 40系列又再次的翻倍,呈现指数成长的曲线。
   
在DLSS 2.0的测试中,RTX 4090的帧率表现明显高出一截,效果部分则是跟RTX 30系列显卡差不多,在开启DLSS之后FPS能够有翻倍的成长。
   
不过换作是DLSS 3.0的测试里,结果就有所不同了。这里RTX 30系列卡因为不支持DLSS 3.0,所以无法跑测试。而RTX 4090大家可以观察它的FPS增长,从原始的57帧,开启DLSS 3.0之后竟然是暴增到恐怖的169帧,直接是成长了整整3倍。而这不单单是在理论测试,就连后面的游戏实测中也能发现不错的效果。
 
2077光追+DLSS 3.0全开,4K帧率可以达到140FPS,就问你怕不怕?值得留意的是功耗部分,RTX 4090在跑CUDA测试的时候,实际公耗其实是不到300W,但RTX 3090却需要跑到350W,这意味着RTX 4090他只用RTX 3090不到9成的功耗,就跑出了比他翻倍的成绩,而且在游戏表现上也是如此。
   
首先是GPU的传统性能,也就是不开光追,也不蹭AI运算,我们单看这代Ada架构在物理运算上到底成长多少。在我测试的5款游戏中,分辨率统一设定在4K,特效全开。只能说RTX 4090是强到没朋友,对比RTX 3090基本都是50%的增长起步,尤其是地平线5更是跑出高达66%的表现,即便在4K特效全开的高压环境下,都没能让RTX 4090吃满功耗,甚至最变态的是其中四款游戏,功耗竟然还比RTX 3090低,这未免也太不科学了吧。这就是我前面所说的,先别对RTX 4090的能耗下定论指的就是这个。当我们实际拿它来打游戏时,它不但比RTX 30系列卡强之外,竟然还更省电,新架构搭配台积电真的是太猛了。
   
这里我用2077 4K光追全开来进行测试,RTX 4090和RTX 3090在开启光追后,性能同样都减损了30%左右,这里两者倒是没有明显的差距,不过RTX 4090的帧率还是比较高,能耗表现也更好一些。
 
接下来是DLSS测试,目前第一批支持DLSS 3.0的游戏有赛博朋克2077、逆水寒、微软模拟飞行等。
   
赛博朋克在开启DLSS平衡模式下,RTX 4090出现了2.6倍的帧率提升,比起RTX 3090的2倍要多出0.6倍,平均150帧的2077都足以喂饱4K 144的电竞屏了,如果是性能档位下,更是会有多达3倍的帧率提升。
 
总结:RTX4090性能测试 RTX4090比3090提升多少?
 
总结一个字就是“强“,虽然功耗确实上升了,也贵了100刀,但是它所提供的性能以及能耗都完全掩盖不了它目前在市场上的强势性,NVIDIA确实是充分利用制程优势,加上大量的导入新技术,实现比RTX 3090多两倍以上的性能提升,同时却有更优异的能耗,即便老黄说摩尔定律在GPU上已经难以实现,但依靠着NVIDIA的软实力,同样是让我们看到不亚于摩尔定律的表现。
 
不过希望gpu厂家不要再继续上调硬件功耗了,以前的硬件出厂功耗比较保守,可以留给玩家们超频探索的空间,但现在的硬件是原厂先帮你超到冒烟后再拿出来给你,性能强是没错,但留给玩家的探索空间越来越少了,并且功耗也提升了。这次Ada架构,确实拥有更优异的能耗,并且在高功耗的区间上,还有更宽广的性能延伸空间,这也是为什么NVIDIA这次会上调RTX 4090的功耗,毕竟到450W,也还不足以达到明显的边际效应,所以调高一些功耗来换取性能,是很常见的作法。但是当硬件继续往这个方向发展,之后的60、70级别卡要突破200、300W的功耗也不是不可能,即便你的能耗再优异,但周边的花费成本无疑是会提高的,以前5000块就能配到一台性能不错的电脑,现在同样价钱买个显卡都差不多了。