影驰geforce rtx 4070 星曜oc(真核弹降临影驰)
前言
GeForce RTX 4090显卡已经上市有一段时间了,想必大家对它的性能表现已经了然于心,而包括公版和非公版在内的RTX 4090的设计都相当“规矩”,现在有张显卡摆脱了限制,在规格、配置以及外观方面都做到了顶尖水平!用料也是极致豪华,就为了给极客玩家带来极致体验。
没错,它就是影驰GeForce RTX 4090 HOF OC LAB Plus显卡,隶属于名人堂系列,该系列被广大玩家称之为“旗舰中的旗舰”,专为追求极致性能的玩家量身打造,自从HOF系列显卡推出以来,就不断有超频发烧友及爱好者利用这些显卡刷新世界超频纪录,至今影驰GeForce RTX 4090 HOF OC LAB Plus显卡已经拥有20项超频纪录的美誉。
今天我们也有幸上手这张真正的卡皇,下面就给大家送上它的详细评测。
下文“影驰GeForce RTX 4090 HOF OC LAB Plus”简称为“影驰RTX 4090 HOF OC”
外观赏析
第一次收到影驰RTX 4090 HOF OC显卡的时候还是有些震惊的,毕竟超规格的外包装盒从里到位都显露出这是一种“奢侈品”的感觉,不愧是旗舰之名的显卡定位。
拆开后,影驰RTX 4090 HOF OC显卡仍然采用我们熟悉的家族式的白色涂装,正面一改之前的钻石切割工艺,而是换成了更具特色的机甲风,还戴上了尊贵的象征——皇冠。这样的设计不仅拥有丰富的视觉层次感,同时还彰显出顶级显卡才具备的高贵气质。
这张影驰RTX 4090 HOF OC显卡不止视觉上看起来巨大,体积方面更是重量级,足足有2.7kg重,完全就是一个巨无霸般的存在。
一众显卡厂商也是深知这次RTX 4090的重量,因此在包装盒内也配备了全金属通用显卡支撑杆套件,能够彻底杜绝显卡变形,给予显卡有效保护。
正面抢眼的除了皇冠灯件外,就属三把巨大的散热风扇了,它们都大到快要撑破显卡外壳了,左右两边的是112mm的静霜风霜,中间的则是92mm,三大特大的散热风扇组成了显卡不可或缺的主动散热部分。
将镜头拉近,每个散热风扇都配有11片专属的静霜叶片,并且扇叶表面明显经过特殊优化处理,表面有磨砂质感,这样做的目的是保证显卡进风量,高效散热保证性能释放。
显卡的背面更加惊艳,同样是全白设计,不过在设计上加入了些小巧思,整个背板被大面积的“HOF” Logo覆盖,并且还配有名人堂特有的皇冠,无不彰显其高贵地位。
高强度的压铸金属背板比一般的金属背板更有助巩固显卡不易变型,而且还可以提升散热效能,加上背板末端设有开孔设计,有效加强风扇气流,影驰RTX 4090 HOF OC显卡在高频运作下仍能稳定耐用。
并且背板上的HOF皇冠Logo标志还是一个RGB灯件,在显卡接通电源后能够亮起,与其他硬件同步灯效后,RGB效果更是炸裂。
既然说到RGB,前面提到的可拆式皇冠灯件其实也支持ARGB灯效,其背后藏有一个5V ARGB接口,神光同步功能信手捏来。
当它与正面融为一体时,一个璀璨夺目的皇冠跃然纸上,时刻提醒你手上正在使用的影驰RTX 4090 HOF OC显卡是尊贵的象征,是性能的象征。
玩家也可通过影驰官方的魔盘Xtreme Tuner工具自定义灯光效果,多种灯效配合这个显眼的皇冠设计别有一番韵味,打造专属于你的高颜值显卡。
皇冠灯件除了可以展示炫酷的RGB灯效,还自带检测功能,黄灯表示显卡外接供电异常,而红灯则表示主板异常,玩家排障更直观。
皇冠灯件其实是可拆式设计,即使你的显卡不是竖装放置,它也可以拆卸后独立放置在显卡顶部,一样能够让你360°欣赏它的美。
卸下皇冠灯件后,隐藏在其之下的“Hall Of Fame”慢慢显现,影驰几乎在你看得到的地方都安排了RGB灯效,采用海景房装机,你将大饱眼福,时刻感受惊艳众人的ARGB。
你以为这就是玩灯的极限了吗,影驰RTX 4090 HOF OC显卡还有HOF PANEL III多功能外置全彩显示系统,其本质是一个LED显示屏,使用新版的HOF Ai软件,你可以在这块显示屏上监控显卡状态,展示图片,播放视频,应有尽有。
通体白色的设计与魅力四射的RGB灯效相结合,放在白色的侧透机箱内恰到好处,既给玩家带来了视觉盛宴,又没有过分高调,更像是一位优雅的武林高手,在小小的机箱内满血输出。
显卡的顶部和底部都配有大面积的鳍片出风口,鳍片的厚度也是相当“离谱”,不过这样豪华的堆料有利于内部空气的快速流动,降低显卡核心温度。
显卡供电用的是全新的12VHPWR供电接口,使用一根12VHPWR的电源线就可达到供电需求。不过影驰RTX 4090 HOF OC配备了两个12VHPWR供电接口,最大能够给这张显卡提供1200W的供电能力,带666W的最大TDP完全足够了。
供电接口的附近可以看到一个小按钮,这其实是影驰RTX 4090 HOF OC的BIOS切换按钮,用户通过Dual BIOS拨动开关就能选择不同的工作模式。左侧还有ARGB的接口,新的Aurora Sync Pro功能能够让名人堂RTX 40系列显卡与支持5V ARGB外接扩展功能的主板实现灯效同步。
显卡底部还可以看到显卡的PCIe金手指,标准的PCIe 4.0 x 16速率,它可以为显卡提供更快的传输速度。
视频输出接口方面配备了3个DP1.4a和1个HDMI2.1,支持4屏显示或最高8K@60Hz的超清输出。视频输出接口还专门采用镀金处理,不仅抗氧化性能更强,还能让视频讯号传输更清晰。
IO挡板上还有一个小按钮,其实这是名人堂RTX 40系列显卡才具有的Hyper Boost一键加速功能,用户只需要通过功能按键就能实现Hyper Boost功能一键开启,提高显卡散热器效能以及提升GPU超频能力,同时按键上配备了状态指示灯,开启一键加速功能,按键亮绿灯,关闭功能时则无灯光。
另外从这个角度也可以看出影驰RTX 4090 HOF OC显卡惊人的厚度,足足有77mm,已经超越4槽厚度了,妥妥的性能巨兽。
影驰RTX 4090 HOF OC可谓是相当“厚实”,那它的内部一定也是堆料十足,我们拆开来一探究竟,卸下影驰RTX 4090 HOF OC金属背板上的螺丝后就可以分离散热系统和PCB。
首先映入眼帘的是一张纯白的PCB板,名人堂专属定制,14层OC工艺加持。整体设计合理,安排规整,单从PCB上的接口、供电、核心、显存等细节就可以看出这一定是大厂出品的品质。
PCB的背面相比正面就要简洁很多了,不过还是排布了密密麻麻的的电容,影驰为这张RTX 4090可以说是煞费苦心,疯狂堆料。
核心背部电容位置使用了四个POSCAP(导电聚合物钽电容)代替四组MLCC(一组10个MLCC),整体电气性能更强。
PCB的正中央就是本次的主角——AD-102-300-A1核心,影驰RTX 4090 HOC OC显卡的心脏,别看它小小的一颗,但其实它集成了763亿个晶体管,相比RTX 3090 Ti足足多了2.7倍,称它是地表最强卡皇都不足为过。
核心的周边则是12颗GDDR6X显存,来自美光科技,型号为2RU47 D8BZC,单颗显存容量2GB,12颗组成24GB超大显存。并且这几颗显存的速率可是满血的,显存速率为21Gbps。
影驰RTX 4090 HOF OC在供电MOSFET上也是堆料到了极致,供电总相数达到了32相之多,其中28相为核心供电,4相为显存供电,这个规格基本上在一众RTX 4090中也是Top 1的存在。
无论是核心供电还是显存供电,影驰RTX 4090 HOF OC全部采用英飞凌的DrMOS芯片,型号为TDA21472,持续输出电流可达70A。
不同于其他显卡的设计,影驰RTX 4090 HOF OC采用全新的方案,PWM芯片也来自英飞凌,型号是XDPE1A2G7B,不过目前还查询不到相关信息。
附近还有一颗uS5650Q,它主要负责管理显存供电部分。与上面的PWM芯片通力合作,为显卡提供充足动力。
在核心周围还能看到两颗BIOS控制芯片,型号为IS25WP016,分别控制这款显卡的P-Mode与S-Mode。
想要有666W的TDP,单一12VHPWR供电接口是不够的,影驰RTX 4090 HOF OC有两个12VHPWR接口,每个接口都能提供600W的供电能力,双口完全能够支撑其这张卡皇。
在两个供电接口的后方,还有4颗R22电容坐镇,为显卡电源输入提供稳定安全的保障。
当然供电不止12VHPWR接口一处,PCIe也是供电之一,影驰RTX 4090 HOF OC的PCIe接口为标准的PCIe 4.0 x16,值得注意的是使用前一定要在主板打开Resizable BAR功能,这张显卡的性能才能完全释放。
奢华至极的不止供电,连视频输出接口也是镀金设计,抗氧化能力极强,经久耐用,还可以有效提升信号传输品质。
继续拆解散热系统,首先见到的便是大面积的液冷均热板,面积达到了95mm*88mm,如此规格的配置能够迅速吸收GPU产生的热量,并将热量迅速均匀传递到热管,让AD102核心时刻保持冷静。
影驰在均热板上为显存、电感、MOS管接触的地方用上了高系数的导热垫辅助散热。就连核心处也是厚厚的一层硅脂,可见这个散热系统真的是下足了功夫,堆足了料。
不仅仅正面的均热板有散热,金属背板上同样安排了导热垫,配合金属导热性强的特性,影驰 RTX 4090 HOF OC的散热效能可以说是拉满了。
整个散热器除了正面的液冷均热板外,其他地方被大面积的导流型鳍片覆盖,并且还在部分地方安排了不少加强件,用于保护鳍片不变形。
散热鳍片下隐藏着4根Φ8mm 5根Φ6mm的镀镍复合热管,9热管的配置用于压制AD102核心绰绰有余。
所有热管在散热鳍片下蜿蜒曲折,最终贯穿整个散热器,并且统统采用回流焊接工艺,有利于保证散热系统的高效导热。
三把专属的静霜散热风扇是整个散热系统的主动散热来源,肩负着加速空气流动,快速带离热量的作用,20mm的厚度设计让散热效能显著提升,这也是为什么这张显卡在烤机时能够做到低温的原因所在
拆解后细看,每把散热风扇上有11片静霜扇叶,升级优化后不仅进风量更大,还支持智能启停功能,让显卡随时随地能够全力输出。
总的来说,影驰 RTX 4090 HOF OC完全称得上堆料豪华,极致散热。旗舰级的AD102核心配上如此规格的硬件,明显是为超频预留了更多余量,这也是名人堂HOF系列显卡的“头号招牌”。
测试平台介绍
见识过影驰RTX 4090 HOF的堆料设计后,就该进入实测环节了,老样子,我们先介绍一下此次的测试平台。我们请出了目前最强的游戏硬件,CPU用的是最新的Intel Core i9-13900KS,华硕的Z790 Hero主板搭配4根16GB的金士顿DDR5-6000高频内存。
散热方面也是下足了功夫,用的是鑫谷冰封360冰山版水冷散热器,只有这个规格的散热器才有可能驯服13900KS这颗可以超频到6.0GHz的性能怪兽。
既然影驰RTX 4090 HOF是一块纯白色的显卡,那装机自然离不开时下最流行的白色主题海景房,机箱上我们选用了昆仑御风机箱白色版。其拥有出色的功能支持与惊艳众人的颜值,非常适合DIY玩家。
昆仑御风机箱的风道设计不错,因此我们在其前后还加装了多把鑫谷冰霜12散热风扇,不仅能够给散热添砖加瓦,在颜值方面也是给白色主题装机添彩。
有了强悍的硬件,显示设备也不能拖后腿,显示器我们采用了爱攻&保时捷联名PD32M电竞显示器,其搭载了目前顶级的4K 144Hz面板,可以完美体验到RTX 4090带来的丝滑4K 144Hz游戏体验。
理论性能测试
正式测试前,我们先在GPU-Z中对影驰RTX 4090 HOF OC进行一个简单的了解。从图中可以看到这款显卡的基准频率为2235MHz,Boost频率为2625MHz,远远高于公版FE的2520MHz,这也是其能够位列“名人堂”的底气。
另外从GPU-Z中我们还可以了解到这款显卡的功耗和温度设定,眼尖的玩家可能已经发现了,影驰RTX 4090 HOF OC的默认TGP设定为550W,这已经比普通的RTX 4090的最大TGP还要高了,并且这款显卡支持解锁功耗至666W,温度墙也能放宽至88℃,这显然是为冲击超频做足了准备。
接下来我们一起玩一下全世界最好玩的游戏《3DMark》,从3DMark的理论性能来看,影驰RTX 4090 HOF OC对比上代RTX 3090 Ti完全是碾压般的存在,首先是代表DX11的Fire Strike测试,性能提升在70%左右。而在代表DX12的Time Spy测试中,RTX 4090与RTX 3090Ti也是拉出了远远的差距,Time Spy Extreme直接突破两万分大关,这让笔者很好奇它的游戏表现。
3DMark中的理论性能提升已经足够“离谱”,AIDA64的GPGPU理论性能测试中,影驰RTX 4090 HOF OC的表现更令人惊喜,整体性能相比RTX 3090 Ti提升了92%以上,近乎翻倍的性能可谓惊人。不少项目甚至有2倍甚至3倍的飞跃,这才是一张卡皇应有的表现。
游戏性能测试
想必买的起这张卡的玩家都是标配4K分辨率的显示器吧,不过照例我们还是看看1080P与2K分辨率下这张显卡的表现,不得不说卡皇之所以为卡皇就是因为超强的性能释放,影驰RTX 4090 HOF OC显卡在两个分辨率下,大部分游戏都在200 FPS以上,这已经不是入门电竞的水平了,而是专业电竞的表现,现在3A也能用电竞的水准游玩,完全不敢想象。
4K分辨率才是这款显卡的主战场,从实测结果中可以看出,有着“显卡杀手”之称的《赛博朋克2077》中,影驰RTX 4090 HOF OC显卡在DLSS 2下已经能够做到77 FPS,更不用说性能更强的DLSS 3,而RTX 3090 Ti仅有48 FPS,属实有点不够看。而在《光明记忆:无限》中,即使是高画质加复杂光追的苛刻条件下,这代显卡的表现依旧强势,87 FPS的成绩领先前代近70%。
既然都是地表最强游戏显卡了,不试试8K分辨率怎么行,在8K游戏测试方面,影驰RTX 4090 HOF OC显卡能够将大部分游戏跑到60 FPS以上,像一些优化好的游戏,例如《极限竞速:地平线5》甚至能有85 FPS左右,想想8K超高画质驰骋在墨西哥是一种怎样的视觉享受。
总的来说,用RTX 4090已经能够满足部分游戏运行在8K画质下的需求,相较于RTX 3090 Ti几乎是翻倍的提升,如果游戏厂商优化到位,8K电竞指日可待。
DLSS 3性能测试
提到RTX 40系显卡就不得不提DLSS 3这个黑科技了,它无疑是这代显卡升级的重点,相比DLSS 2,DLSS 3不仅可以实现画质于帧数的双向提升,还新增帧生成功能,实现游戏帧数翻倍,老黄在发布会上更是直言“DLSS 3让游戏性能翻倍”!
3DMark DLSS 3理论性能测试
3DMark中新增了DLSS 3性能测试,实测下来有DLSS 3的加持下,影驰RTX 4090 HOF OC显卡相比RTX 3090 Ti真的实现了性能的翻倍,在4K分辨率下,不开DLSS 3仅能勉强维持在60 FPS附近,一旦开启DLSS 3后,性能直接提升三倍,已经可以满足4K@144Hz的电竞需求。
8K分辨率下更是离谱,不开DLSS 3只可以13 FPS,测试过程卡成PPT,而开启DLSS 3后,帧数暴涨80 FPS,逼近百帧,相较上代提升3倍有多,似乎已经可以开始期待8K@120Hz甚至8K@144Hz了。
游戏实测
光说不练假把式,现在《赛博朋克2077》也更新了DLSS 3,所以我们也在第一时间测试了DLSS 3与DLSS 2下的区别,实测下来可以看到4K分辨率下,有了DLSS 3的加持后,游戏帧数能够进一步提升,并且提升幅度还不小。
2K或1080P的情况下提升幅度更加明显,几乎是近百帧的性能差距。不得不说DLSS 3是一个划时代的技术,体验下来真的非常棒,它能让低端卡玩游戏变快,高端卡变得更快。
在另一款支持DLSS 3的《F1 22》中也是如此,在4K画质下开启全高特效,有了DLSS 3的加成,影驰RTX 4090 HOF能够跑到175帧,若只使用DLSS 2,则帧数只有133帧左右,相当于DLSS 3这个黑科技给游戏带来了32%的游戏性能提升,相当不错。
总的来说,影驰RTX 4090 HOF OC显卡不开启DLSS功能的游戏性能已经足够了,开启DLSS 3后,无论是质量档还是性能档,其游戏流畅度都高于120 FPS,对于一款赛车游戏来说,这流畅度是真再爽不过了。
当然不少玩家可能担心DLSS 3会有降画质的问题,这里我们也截取了DLSS 3各个档位下的游戏实际画面,可以看到无论是哪个档次,游戏画质均没有明显影响,甚至因为DLSS 3是通过AI进行超分渲染,因此在文字等细节纹理上会比原生画质更加清晰。
DLSS 3-F1 22-DLSS-Balance
DLSS 3-F1 22-DLSS-Perfoemance
DLSS 3-F1 22-DLSS-Quality
DLSS 3-F1 22-DLSS-SuperPerfoemance
DLSS 3-F1 22-TAA
Unreal Engine 5 Lyra DLSS3测试
最后我们还测试了利用Unreal Engine 5引擎打造的Lyra DEMO,此DEMO除了能够支持最新的DLSS3技术外,还带上了NVIDIA Reflex。笔者这里上传了两个图片给大家看看Lyra DEMO里的DLSS3开启与关闭的画质对比,游戏流畅度自然是DLSS3开启后提升较为明显的,达到192 FPS,而PCL延迟也进一步降低到了50ms的水平。
Unreal-Engine-5-Lyra-DLSS3-OFF
Unreal-Engine-5-Lyra-DLSS3-ON
视频内容创作性能测试
测完了游戏,必不可少的还有创作生产力测试,这里我们选择PugetBench、PCMark 10、等多款常见的测试软件,来测试影驰RTX 4090 HOF OC显卡在日常办公、视频内容生产等方面的性能表现。
首先我们来看看PCMark10 Extended项目上各显卡的性能表现如何,可以看到影驰RTX 4090 HOF OC显卡在各个项目均完成了对前代卡皇RTX 3090 Ti的超越,这与我们上面的实测相符。
影驰RTX 4090 HOF OC显卡在更快的显存、更强的性能加持下,跑Pugetbench的Pr项目确实比前代卡皇快了很多,有大约30%的性能提升,换用新显卡对剪视频、预览、导出等操作均有帮助;Ae项目没有Pr进步那么大,但总归于是新显卡,还是有一定性能提升的。
要说提升最大的要属达芬奇了,作为首批支持AV1编解码的剪辑软件,占尽优势,同一项目下,架构革新后的影驰RTX 4090 HOF OC有着更快的渲染时间,原本RTX 3090 Ti需要几十秒才能完成的操作,现在仅用17秒!如果你习惯用达芬奇进行创作,那换用影驰RTX 4090 HOF OC显卡将大幅提升你的工作效率。
专业内容创作性能测试
另一个提升可感的行业就是3D渲染了,Blender与OctanceBench测试中影驰RTX 4090 HOF OC显卡的性能表现同样给力,相比前代RTX 3090 Ti有95%以上的性能提升。翻译成人话就是你用影驰RTX 4090 HOF OC显卡渲染一个相同的项目,它的耗时只需要前代显卡的一半!
即使是在SPEX的专业领域测试中,影驰RTX 4090 HOF OC显卡也没让人失望,有了更快的显存和全新的架构加持后,可以说完全打通了AD102核心的任督二脉,比起上代旗舰来说,65%的性能提升相当惊人,这个成绩也比其他RTX 4090 显卡高了近10%。
总的来说,40系显卡这一代光追单元的增强,对于支持光追加速的3D渲染软件是很有利的,多款渲染软件相比上代卡皇的提升都接近2倍,因此对于从事这些相关工作的用户,影驰RTX 4090 HOF OC这款显卡还是值得考虑的。
双编码器专项测试
RTX 40系显卡还有一个重磅升级点就是支持最新的AV1编解码,这次影驰RTX 4090 HOF OC LAB Plus换上了最新的双NVENC编码器,作为第八代NVENC编码器,其编解码性能相比前代有了质的飞跃。
最新的RTX 4090显卡支持AV1编码,而RTX 3090 Ti仅支持AV1解码,二者差距相当明显,新的AV1编码技术能够在占用相同空间情况下,提供更加快速的视频编码和更高质量的流媒体传输性能,并且目前许多主流媒体也逐步支持AV1编码,像达芬奇、万兴喵影、剪映等软件均已支持AV1编码。
我们使用NVIDIA提供的8K片源与工程文件进行测试,同样的素材下AV1编码相比H.265编码所需时间更短,而即使同为H.265格式导出,影驰RTX 4090 HOFOC LAB Plus的导出时长也比前作快了70%以上。
另外我们来看看H.265格式与AV1格式下的画质区别,从肉眼来看,其实画质几乎完全一样,这样也意味着AV1可以用更小的空间占用量实现与H.265同等规格的画质表现,总的来说,无论是导出速度、空间占用还是画质表现,它都完胜H.265。
超频体验
在拆解部分我们看到影驰给这张RTX 4090 HOF OC显卡安排了超规格的供电模组与散热装置,并且TDP给到了最高的666W,可见超频就是它的最强杀招,那笔者自然是不可能错过这个绝佳的机会,下面一同看看这款显卡的超频潜力究竟有多大吧。
我们使用影驰官方提供的XTREME TUNER魔盘工具对显卡进行超频,这款工具不仅可以解锁GPU核心的电压限制、功耗限制等,还可以自由调节风扇转速,实测这款显卡的散热配置明显是超规格的,因此风扇转速还可以进一步下探,超低的风扇噪音还你舒适的使用体验。
在解锁了功耗与温度墙后,我们先小试牛刀,将GPU核心频率先提升至3090MHz,此时显卡在运行Time Spy时已经超过了4W分大关,并且功耗也突破了550W,要知道这是其他RTX 4090都达不到的地步。并且在测试过程中温度始终没有突破60℃,明显这是高规格的散热系统起到了作用。
有了前面的尝试后,我们稳步提升,笔者最后成功将影驰 RTX 4090 HOF OC的GPU核心频率提升了235MHz,显存频率提升了1000MHz,最终影驰 RTX 4090 HOF OC在3DMark中能够稳定运行在3150MHz下,这还只是在风冷状态下,如果是水冷,那它还能再高一些,此时Time Spy测试得分40459,相比默频状态的38155分提高2000多分,超频潜力可见一斑。
功耗与散热
前文中我们提到,影驰RTX 4090 HOF OC显卡采用了非常优秀的散热设计,那么这款显卡在散热性能测试中的实际表现如何呢?
在使用Furmark烤机15分钟后,这款显卡的GPU温度稳定在65.5℃,这样的成绩比起上代的RTX 3090 Ti可以说是质的飞跃,如果跟其他RTX 4090比起来,那也是妥妥的第一梯队,可见其散热效率的确非常高。
再聊聊内部的发热大户——GDDR6X显存,笔者原以为显存温度也会较高,但没想到有高系数导热垫直触均热板后,显存温度只比核心高了0.5℃,果然旗舰级的显卡散热都不是盖的,用这套散热系统压制AD102核心已经绰绰有余了。
我们也横向对比了一下影驰RTX 4090 HOF OC显卡与上代卡皇的功耗,从功耗来看,解锁了功耗墙的影驰RTX 4090 HOF OC的确惊人,不过相比其前代卡皇,它的功耗可以说是相当保守了,不少项目测试下来,功耗都没有上代那么高,但性能提升却是实打实的强。
不得不说老黄的Ada Lovelace架构和TSMC的4N工艺确实有点东西,妥妥的吊打前代显卡,让RTX 40系列显卡的每瓦性能实打实的提升到了一个新高度。
评测总结
这次能够上手这张影驰 GeForce RTX 4090 HOF OC LAB Plus显卡还是相当幸运的。全新Ada Lovelace架构、TSMC 4N定制工艺、DLSS 3等数不胜数的黑科技聚集于一身,让这张显卡无论是游戏性能还是专业生产力都遥遥领先RTX 3090 Ti,不愧为地表最强游戏显卡。
而影驰 GeForce RTX 4090 HOF OC LAB Plus显卡本身更是极致奢华的代表,无论是性能、颜值、还是配置都是当今最强的RTX 4090之一。因此对于游戏玩家来说,游戏帧数、散热表现都是旗舰中的旗舰;除此之外它的双12VHPWR供电以及32相的豪华供电规模则为硬核的超频玩家提供了绝佳的舞台,风冷下轻松超3.1GHz,完美诠释了顶级非公应有的表现。
一身白衣加身的影驰 GeForce RTX 4090 HOF OC LAB Plus也是赚足了眼球,光是皇冠灯件就彰显了这张显卡的高端定位。纯白色的设计配上极具个性的棱角线条,奢华而优雅的外观无疑是颜值党的最佳选择。
总的来说,如果你想见识一下顶尖的RTX 4090显卡,那影驰 GeForce RTX 4090 HOF OC LAB Plus就是你的不二之选。最高666W的功耗能够完全榨干AD102核心,两倍于前代卡皇的性能表现,毫无疑问,它就是目前地表的性能王者,几乎没有对手能与之抗衡。现在影驰 GeForce RTX 4090 HOF OC LAB Plus已经上市,售价19999元,各大电商平台均已开售,感兴趣的话可以去了解一下。
Ada Lovelace架构讲解
Turing、Ampere上两代架构核心均以人物来命名,前者是计算机科学之父——艾伦·麦席森·图灵;后者则是“电学中的牛顿”——安德烈·玛丽·安培,电流的国际单位安培就是以其姓氏命名。那Ada Lovelace定非凡人,度娘一下果然,这是 人称“数字女王”的阿达·洛芙莱斯,编写了历史上首款电脑程序,是被世界公认的第一位计算机程序员,果真是一代比一代还要更牛。PS:她的父亲是《唐璜》的作者,诗人拜伦喔。
从Turing架构开始,NVIDIA首次在显卡中加入了加速光线追踪的RT Core单元,以及面向AI推理的Tensor Core单元,这革命性的创新使实时光线追踪成为可能。而Ampere架构则是全面的架构改进,在加入新一代的二代RT Core和三代Tensor Core基础上,还有着更先进的SM单元设计,这样显卡工作效率那是翻倍的提升。而来到Ada Lovelace架构,同时是以效率提升为大前提,自然是引入了最新的第三代 RT Cores与第四代 Tensor Cores单元,同时加入众多新颖的黑科技,从执行效率来说Ada Lovelace架构是上代Ampere架构的2倍以上,甚至光线追踪能力更是达到了恐怖的4倍性能。
在讲述核心架构前,我们先了解几个关键词:GeForce RTX 4090、Ada Lovelace、TSMC 4N、608mm²、760亿个晶体管、2倍性能功耗比。
大家带着几个关键字来看上面的【显卡规格参数对比】表格,就可以更容易读懂上述表格了。最新一代的桌面显卡GeForce RTX 40系列均采用全新的Ada Lovelace架构核心, GeForce RTX 4090的核心是 AD102,目前Ada Lovelace架构核心中最为强大的,具有760亿个晶体管、16384个CUDA核心和24 GB高速美光GDDR6X显存。
得益于NVIDIA与台积电深度合作的TSMC 4N制程工艺,GeForce RTX 4090核心面积仅是608mm²(上代RTX 3090 Ti 628mm²),在更小的核心面积下却能塞下多达760亿个晶体管,比上一代的Ampere架构多出了约70%晶体管数量。
值得注意的是,制程工艺的提升不单能拥有更多的晶体管,其核心频率更是能跑得很高,GeForce RTX 4090 Boost频率就已经达到了2520MHz,这样在核心频率与高规格的双向保证下实现了比上代显卡高达2倍的性能功耗比。
从GTC2022秋季大会中,其实我们就已经发现了,目前GeForce RTX 4090显卡中配备的AD102-300核心其实并非完整的AD102核心。完整的AD102核心应该包括了12 个GPC (图形处理集群)、72 个TPC (纹理处理集群)、144 个SM (流式多处理器) 和⼀个带有 12 个 32Bit显存控制器的 384 Bit显存位宽。
再来看上面的GeForce RTX 4090架构图,和完整版本的AD102核心对比起来就很容易看出差别。首先,GeForce RTX 4090核心代号为AD102-300,其拥有9个完整规格的GPC (图形处理集群,每个内建6个TPC),与2个非完整的GPC (图形处理集群,每个内建5个TPC),共组成了64个TPC ,那么SM单元自然就是128个了。至于显存位宽方向那是相当的完整——384Bit。
如果你还是不太懂,这里笔者就逐一为了Ada Lovelace架构显卡的构成。
刚才我们已经说到,一个完整的Ada Lovelace架构AD102核心内部拥有12个GPC,而每个完整的GPC中包含了一个专用的Raster Engine(光栅化引擎),两组ROPs共16个ROP(光栅化处理单元),以及6个TPC与12个SM单元。
全新的SM流式多处理器
Ada Lovelace架构中最大的亮点之一:全新的SM流式多处理器,每个SM包含了128个CUDA核心、1个第三代的RT Cores,4个第四代 Tensor Cores(张量核心)、4个Texture Units(纹理单元)、256 KB Register File(寄存器堆),以及128 KB L1 数据缓存/共享内存子系统,于是这一个全新的SM单元有着超过上一代2倍之的性能表现。
过去的Turing架构INT32 计算单元与FP32数量是一致的,而两者相加才组成了64个CUDA核心。但是Ampere架构开始,左侧的计算单元实现了FP32 INT32的计算单元并发执行,也就是说CUDA核心数量翻倍到了128个。
再来看看Ada Lovelace架构的SM,FP32/INT32的计算单元组合,同样实现了每个SM内含128个CUDA的设计,看似提升不大,但是当你了解到GeForce RTX 4090拥有128个SM,16384个CUDA核心,那你也就应该明白达82.6 TFLOPS的着色器能力是如何实现的了,比上一代的RTX 3090 Ti显卡的40 TFLOPS,还真是提升了两倍有多。
另外缓存方面Ada Lovelace架构也进行了大规格的提升,首先每个SM单元中单独配上了128 KB的缓存,这样RTX 4090显卡中就实现了163MB L1/共享内存。其次核心的二级缓存进行进行了重新的设计,并且完整AD102核心是96MB二级缓存,而RTX 4090显卡拥有72MB二级缓存,也可能是因此Ada Lovelace架构核心对显存位宽的依赖性并不高。
技术讲解:第三代RT Cores与第四代Tensor Cores
以为刚才的CUDA数量与超大L2缓存就已经很猛了,实现上Ada Lovelace架构最大的提升还是在第三代 RT Cores与第四代 Tensor Cores身上。
第三代 RT Cores
RT Cores用于光线追踪加速,第三代 RT Cores 的有效光线追踪计算能力达到 191 TFLOPS,是上一代产品 2.8 倍。
在Ampere架构中,第二代RT Cores支持边界交叉测试(Box Intersection testing)和三角形交叉测试(Triangle Intersection testing),用于加速BVH遍历和执行射线三角交叉测试计算,虽然光线追踪处理能力已经比初代的Turing架构核心更高效,但是随着环境和物体的几何复杂性持续增加,传统的处理方式很难再以更高效率、正确反应出的现实世界中的光线,尤其是光的运动准确性。
所以在第三代 RT Cores增加了两个重要硬件单元:Opacity Micromap Engine与Displaced Micro-Meshes Engine引擎。Opacity Micromap Engine,主要是用于alpha通道的加速,可以将 alpha 测试几何体的光线追踪速度提高2倍。
在传统光栅渲染中,开发人员使用一些 Alpha 通道的素材来实现更高效的画面渲染,例如 Alpha 通道的叶子或火焰等复杂形状的物体。但在光线追踪时代,这传统的做法会为光线追踪带为不少无效的计算,例如运动性的光线多次通过一块叶子,光线每击中一次叶子,都会调用一次着色器来确定如何处理相交,这时就会做成严重的执行成本与时间等待成本。
而Opacity Micromap Engine用于直接解析具有非不透明度光线交集的不透明度状态
三角形。根据Alpha 通道的不透明,透明与未知等三个不同的块状态进行处理:透明则直接忽略继续找下一个,不透明块则记录并告之命中,而未知的则交给着色器来确定如何处理,这样GPU很大部分都不需要进行着色器的调试处理,能够实现更为高效的性能。
Displaced Micro-Meshes Engine
如果说Opacity Micromap Engine加速的是面处理,那么Displaced Micro-Meshes Engine就是几何曲面细节的加速器。如上图所示,在Ada Lovelace架构中,通过1个基底三角形 位移地图,就可以创建出一个高度详细的几何网格,所需要资源占用比二代RT Cores更低,效率也更高。
通过NVIDIA给出的创建14:1珊瑚蟹例子来说事,这里我们需要需要1.7万个微网格、160万个微三角形,在Ada Lovelace架构中BVH创建速度可加快7.6倍,存储空间缩小8.1倍。Displaced Micro-Meshes Engine起到了关键性的作用,其将一个几何物体根据不同细节分成密度不一的微网络处理,红色密度超高,细节处理越为复杂 。相应的低密度微网络区域则可以释放更多的资源与存储空间,这样Displaced Micro-Meshes Engine就可以帮助BVH加速过程,减少构建时间和存储成本。
同时Ada Lovelace架构SM中新增了着色器执行重排序(Shader Execution Reordering,SER),这是由于光线追踪不再只有强光或者阴影渲染处理,未来将会更多的是在光线的运动性,这样光线就会变得越来越复杂,想要第三代 RT Cores与第四代 Tensor Cores有着更高的执行效率,那就得为他们来安排一位管家。而着色器执行重排序(SER)就是为了能够即时重新安排着色器负载来提高执行效率,为光线追踪提供2倍的加速,也能更好地利用 GPU 资源。不过目前仍未有实例,想实现这个功能,还得游戏与开发工具的支持才行。
第四代 Tensor Cores
Tensor Cores是专门为执行张量/矩阵运算而设计的专用执行单元,这些运算是深度学习中使用的核心计算功能。第四代 Tensor Cores 新增 FP8 引擎,具有高达 1.32 petaflops 的张量处理性能,超过上一代 的 5 倍。
技术讲解:DLSS 3
或者说第四代 Tensor Cores太硬核你不会知道是啥?提升意义在哪?但是Tensor Cores最经典的应用DLSS你肯定会知道,这一次Ada Lovelace架构支持NVIDIA最新的DLSS3技术。
之前我们也聊过DLSS技术,其设计之初是为了弥补光线追踪技术后的性能损失,具体的表现为开启光线追踪技术后游戏帧数大幅度的下降,甚至很难保证游戏流畅的运行。于是DLSS使用低分辨率内容作为输入并运用AI技术输出高分辨率帧,从而提升光线追踪的性能。
在DLSS3中包含了三项技术:DLSS 帧生成、DLSS 超分辨率(也称为 DLSS 2)和 NVIDIA Reflex。你可以理解为DLSS3是在DLSS2的基础上,新增了DLSS 帧生成技术;而后两技术中,DLSS 超分辨率只需要GeForce RTX显卡都能使用上,NVIDIA Reflex则是GeForce 900 系列以后的显卡都用使用上。
想实现DLSS 帧生成可不简单,这需要配合上Ada Lovelace架构的GeForce RTX 40系列显卡才行。DLSS 帧生成技术原理是:利用 AI 技术生成更多帧,以此提升性能。DLSS 会借助 GeForce RTX 40 系列 GPU 所搭载的全新光流加速器分析连续帧和运动数据,进而创建其他高质量帧,同时不会影响图像质量和响应速度。
从Ampere架构开始,NVIDIA显卡就已经支持了光流加速器,而Ada Lovelace架构的光流加速器升级到了第二代,其提供了高达300 TeraOPS (TOPS) ,比安培架构的初代光流加速器(Optical Flow Acceleration,OFA)快 2 倍以上。为了实现DLSS帧生成,OFA扮演了重要的角色,其配合上新的运行⽮量分析算法在DLSS3技术框架内实现精确和高性能的帧生成能力。
另外,由于DLSS 帧生成是在GPU上作为后处理执行的,那么即使在游戏受到CPU性能限制的时候,我们同样能够从中获得更好的游戏性能提升。尤其是那种物理计算密集型的游戏或大型场景游戏,DLSS2均可以让GeForce RTX 40系列显卡以高达两倍于CPU可计算的性能来渲染游戏。
最后由于DLSS 3是建立在DLSS 2基础之上的,游戏开发者可以在已支持DLSS 2或NVIDIA Streamline的现有游戏中快速集成该功能,所以DLSS 3已在游戏生态得到广泛应用,目前已有超过35款游戏和应用即将支持该技术。
阅读小亮点:NVIDIA Reflex
NVIDIA Reflex也是DLSS3其中的一环,它可以使GPU和CPU同步,确保最佳响应速度和低系统延迟。
想要实现端对端的最低延迟,你需要确保游戏、显示器以及鼠标三者都同时支持并开启了Reflex 技术。
当GeForce RTX 40 系列显卡和 NVIDIA Reflex搭配上后,直接达到1440p分辨率360 FPS的体验,这着实是性能有点强劲了。
在GTC2022大会时已经透露将会还有4 款 1440p 分辨率的新型 G-SYNC 电竞显示器将要发布,包括采用mini-LED技术的AOC AG274QGM – AGON PRO Mini LED、MSI MEG 271Q Mini LED 和 ViewSonic XG272G-2K Mini LED三款显示器刷新率均为300Hz,而最猛的是ASUS ROG Swift 360 Hz PG27AQN ,刷新率直接来到了360Hz。
但唯一一个问题就在于,部分显示器厂商认为此类产品受众人群较少,会降低此类显示器的产能,甚至产品就已经被内部PASS掉,所以1440p360Hz是很美好,但现实也是相当的骨感。
技术讲解:双NVIDIA编码器(NVENC)
GeForce RTX 40 系列显卡还有一个全新的升级,那就是双编码器NVENC。第八代的NVENC双编码器不仅支持H.264与H.265,还支持开放式视频编码格式 AV1。
而由于AV1是一种免版税的视频编码格式,上游软件厂商与下游戏的配套端都在大力推广此编码格式,我们也会看到越来越多的硬件与软件支持AV1格式,包括剪映专业版、DaVinci Resolve、以及 Adobe Premiere Pro 较为流行的 Voukoder 插件均支持,且均可通过编码预设使用双编码器,这样我们等待视频导出的时间缩短将近一半。
不单是视频制作软件,AV1格式也将会是主播、游戏直播UP主们的新宠儿,在保证画面最高质量的情况下,AV1 编码器可将效率提高 40%,同时显卡的占用也更低。包括OBS Studio一一代软件中也会增加AV1格式的支持。另外我们还能通过 GeForce Experience 和 OBS Studio 录制高达 8K60 的内容,这样我们做游戏录制也会变得更为轻松。
包括我们之后测试时使用的游戏内录视频都是支持AV1格式,同时双编码器NVENC在资源占用和适配上做得越来越好。
免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。