AMD在RDNA 4绘图架构改善AI运算加速器,并添加支持更多数据类型,以及通过软件优化提升运算性能,也带来以机器学习为基础的FSR 4升频技术。

回到系列文章目录:AMD发布RDNA 4绘图架构与Radeon RX 9070系列显卡,支持全新ML加持FSR 4升频功能

笔者在先前《AMD RDNA 4绘图架构说明》一文中提到RDNA 4架构的硬件设计改进,其中的第3代AI加速器(矩阵运算加速器)同样支持Wave Matrix Multiply Accumulate指令集,并添加FP8与BF8(E4M3、E5M2)等数据类型,以及添加支持结构稀疏性(Structured Sparsity,可提升1倍峰值性能)。

与前代RDNA 3相比,RDNA 4的每组运算单元(CU)在FP64、FP32数据类型的基本运算性能相同,但在FP16有2倍性能表现,INT8、INT4则达到4倍,若再搭配结构稀疏性则可分别提高到4倍、8倍,提升相当显著。

另一方面AMD也持续改善AI运算环境的框架,通过对模型的优化来提高整体运算性能,并简化部署模型的工作流程。

RDNA 4除了延续支持FP64、FP32、FP16、BF16、INT8、INT4等数据类型的AI运算之外,还添加FP8与BF8等数据类型,以及添加支持结构稀疏性,提升各种运算条件下的峰值性能。

RDNA 3/4之每组CU能够提供的基本运算量(Ops per CU)对照表。

从图表可以清楚看出,RDNA 4的AI运算在不同数据类型搭配结构稀疏性最高可以达到RDNA 3峰值性能之8倍。

在进行Stable Diffusion XL、Stable Diffusion 3、Flash Stable Diffusion 3、FLUX.1等模型的AI图像生成运算时,RDNA 4架构能通过Microsoft Olive框架与优化的ONNX框架加速运算性能。

AMD也在FSR 4(FidelityFX Super Resolution 4)升频功能导入机器学习(Machine Learning,AI运算的一个分枝)类型的模型,能够在提升游戏FPS性能的同时,改善升频后的画质表现。不过AMD资深副总裁暨GPU技术与工程研发王启尚在Radeon RX 9000系列显卡发布会说明,FSR 4的模型采用FP8数据类型,然而RDNA 3/3.5以及先前的显示架构并不支持FP8,代表只有采用RDNA 4架构的有Radeon 9000系列显卡才能使用这项功能。

值得注意的是AMD在FSR 3.1导入可升级式API,能够降低已支持FSR 3.1的游戏可以升级至FSR 4的开发门槛,读者可以参考AMD提供的FSR 4游戏兼容清单,并在AMD Software Adrenalin Edition驱动程序中打开FSR 4升频功能。

另一方面,AMD也推出强化画质的AFMF 2.1画格生成(AMD Fluid Motion Frames)功能,它以先前推出的AFMF 2为基础,能在所有使用DirectX 11、DirectX 12、OpenGL、Vulkan等绘图API的游戏强制打开画格生成,提升游戏的FPS性能表现。

另一方面,AMD也在AMD Software中通过HYPR-RX集成多种改善游戏性能与延迟的技术,让玩家只需打开HYPR-RX,就能自动套用多种技术为游戏性能优化,简化设置的操作流程。

FSR 4升频技术以机器学习为基础,能够进一步改善升频后的画质。值得注意的是它能通过FSR 3.1的可升级式API直接套用于现有游戏。

AMD利用搭载自家Instinct加速器的服务器训练FSR 4的机器学习模型,并将模型部署到玩家的计算机,通过RDNA 4架构的显卡进行推论运算,但需注意的是FSR 4的模型采用FP8数据类型,代表只有Radeon 9000系列显卡才能使用。

AMD特别说明FSR 4架构的“一条龙”生产流程,通过Zen与XDNA架构的处理器、神经处理器(NPU)开发程序,然后通过EPYC服务器级处理器与Instinct加速器训练模型,最后在RDNA 4架构的显卡进行推论运算。

根据AMDW提供的数据,FSR 4搭配画格生成功能最高可以带来3.7倍于原生FPS的性能表现。

受益于更强大的机器学习模型,FSR 4能够提供更细致的图像品质,请注意建筑物的尖塔部分。

历代FSR与显卡的兼容性列表。其中FSR 3的升频功能需要Radeon RX 590以上之显卡,而画格生成需要Radeon RX 5000系列以上。FSR 4的升频与画格生成皆需要Radeon RX 9000系列以上。

AMD通过HYPR-RX简化玩家设置流程,可以“一键打开”FSR、Anti-Lag、Boost、RSR、AFMA等多种升频、优化功能。

Anti-Lag能够降低游戏操作延迟,通过更敏捷的反应速度提高玩家在游戏中的竞技优势。

AFMA 2.1可以对几乎所有游戏强制打开画格生成功能,并兼容于Radeon RX 6000系列之后的显卡,以及Ryzen AI 300系列处理器之内置显示芯片。

AFMF 2.1较先前AFMF 2改善了图像品质,能够改善鬼影、精细材质、混叠等细节。

其中改善鬼影的效果最为明显,可以看到AFMF 2(上)的车轮相当模糊,AFMF 2.1(下)则较为清晰。

通过HYPR-RX与AFMA 2.1能为游戏带来最多3倍于原生状态的FPS性能。

AMD的FSR 4与竞争对手NVIDIA的DLSS 4相比,缺少了最多能让FPS性能提升4倍的多重画格生成功能,但却能以同时打开FSR与AFMF等2种画格生成的方式达到接近的成效。