- NVFP4 将 E2M1 与双重缩放(每个微块 FP8 和每个张量 FP32)相结合,以将量化误差降低 88%。
- 在 Blackwell,FP4 每 GPU 可实现高达 20 PFLOPS,在实际情况下性能比 FP8 提高 3 倍,同时准确度下降极小。
- 内存骤降(最多 8 倍),每个令牌的能量下降最多 50 倍,推理成本下降近 90%。
- 该生态系统已经支持 FP4(TensorRT、vLLM、HF),并且基础设施通过 NVLink 5、液体冷却和 120 kW 机架不断发展。
随着 NVFP4 的到来,围绕 AI 精度格式的讨论加速了,这是有充分理由的: 减少比特数而不损失质量 彻底改变了推理的经济性。在本指南中,您将了解什么是 NVFP4,它与 FP8 和 BF16 有何不同,以及为什么大型(以及规模较小的)公司(从数据中心到台式电脑)都已开始采用它。
除了营销炒作之外,还有确凿的数据: 每个代币的能量减少高达 50 倍、每秒创纪录的令牌流,以及在不影响准确率的情况下内存骤降到极低的水平。尽管如此,我们仍然有必要将新闻标题与实际情况区分开来,因为影响取决于硬件、数值缩放以及每个模型的量化和优化方式。
什么是 NVFP4,它如何改进 FP8 和 BF16?
NVFP4 是 NVIDIA 提出的 超低精度 专为人工智能推理而设计。它用 E2M1(1 个符号位、2 个指数位和 1 个尾数位)表示数字,并添加了一个关键要素: 两个层次的扩展 与更简单的近似相比,这大大减少了量化误差。
这个两级方案结合了 FP8 E4M3 尺度应用于微块 FP32 中的全局张量缩放的 16 个值。得益于这种组合, 错误率降低 88% 比 MXFP4 等更基本的 2 的幂解决方案更佳,用如此少的位数增强数值稳定性。
相比之下,FP8(E4M3 或 E5M2)与 FP16/BF16 相比已经削减了相当多的成本,但是 NVFP4 更进一步 进一步减少内存和功耗。BF16 保持与 FP32 类似的动态范围,但尾数位数更少,非常适合训练和梯度稳定性至关重要的环境,但对于大规模推理而言,经过良好扩展的 4 位发挥着重要作用。
实际结果:在适应良好的工作量下, NVFP4 保持非常接近的精度 到更高的格式,但速度和效率却有显著的飞跃。这一切都取决于量化、校准和原生硬件支持。

Blackwell 架构:NVFP4 背后的力量
Blackwell 的到来是 NVFP4 腾飞的催化剂。GPU B200集成了208.000亿个晶体管 采用双芯片设计,通过对软件透明的 10 TB/s NV-HBI 接口链接,确保统一的行为。
MGI 第五代 Tensor Core 原生支持 NVFP4 硬件加速扩展,最高可达 FP4 中的 20 PetaFLOPS该架构还结合了靠近计算单元的张量内存(TMEM),限制了数据移动的能量成本并提高了持续性能。
对于消费而言,该系列 GeForce RTX 50 它继承了 FP4 的功能,AI 性能高达 4.000 TOPS,并将图像生成(例如 FLUX)加速高达 与FP8相比为3,9倍 在特定场景中,证明 4 位推理不仅仅是数据中心的事情。
在更大的一端,Blackwell Ultra (B300/GB300) 提高了标准 288GB HBM3E,性能提升 1,5 倍 比 B200,在 NVL72 配置中达到触摸 每个系统 1,1 exaFLOPS 在密集的 FP4 中。这为在更少的机器上服务具有数千亿参数的模型奠定了基础。
指标:更多令牌、更少功耗、内存可控
生产数据和基准测试数据描绘了一致的图像。在 DeepSeek-R1 671B 上, B200 升级至 FP4 后性能提升三倍 与 H200 中的 FP8 相比,DGX B200 系统超过了 30.000 个代币/秒. 准确度几乎没有受到影响:从 FP8 量化到 FP4 时,MMLU 从 90,8% 下降到 90,7%。
在记忆中,数字是压倒性的。像法学硕士这样的 Llama 3.1 405B 从 FP32 中的 140 GB 增加到 FP4 中的 17,5 GB,减少了 8 倍,可以在更少的 GPU 上处理大量模型。在图像生成中,FLUX 配置可以从 FP16 中的 51,4 GB 到 FP4 中的 9,9 GB 视觉障碍最小,并适应适度的 VRAM。
MLPerf v5.0 支持以下举措: Llama 2 70B折叠 与去年相比,最佳成绩提高了 3,3 倍。在能源领域,代币
从 H100 到 在 B200 中,10 J 降至 0,4 J B300 中已经有 0,2 J,即 效率提高 50 倍从商业角度来看,预计 2024-2025 年推理成本将下降近 90%。
在用户端,图像和文本模型 NVFP4 利用每美元更多代币,据报道,与其他方案相比,其性能提高了 40%,这与较小的内存占用和易于服务大型模型的特点完美结合。
采用:云、公司和现实案例
云提供商引领 FP4 的采用。 Lambda Labs 提供搭载 FP4 的 HGX B200 集群 在一键部署和 CoreWeave 记录中 800 个代币/秒 在配备 200 GB GPU 的 Llama 3.1 405B 中。并非全是 NVIDIA 的: Meta、OpenAI 和微软 他们使用 AMD Instinct MI300X 进行推理, MI350 将提供原生 FP4 支持。
在银行业, 摩根大通 评估 FP4 的风险和替代分析;在医疗保健领域,它们已被 + 30%速度 同 -50% 内存在制造业中,可以在资源有限的设备上实现实时决策,从而打开以前没有空间的大门。
软件伴随该步骤。 TensorRT 模型优化器 提供完整的 FP4 量化管道;框架包括 法学硕士 整合对 NVFP4 的早期支持;以及 拥抱脸 托管预量化的 FP4 检查点(DeepSeek-R1、Llama 3.1、FLUX)以加速生产部署。
对于计算强度较低的团队,可以使用无需 QAT 的方法 SVD量化 其准确度接近量化训练;如果追求最大准确度, FP4 中的 QAT 只要对流程进行微调,它就能在 Nemotron 4 等系列中保留甚至改进 BF16。
基础设施:电力、冷却和新的数据中心法规
精度过低需要重新绘制数据中心。系统 GB200 NVL72 每机架功耗 120 kW 可容纳 72 个 GPU,超出了大多数现有数据中心的容量。即便如此,NVL72 取代九架 HGX H100 并需要一个 节能83% 进行相同的有效计算。
每个 GPU 的 TDP 约为 1.000 W, refrigeraciónlíquida 直接芯片安装并非可选。所有热点处的冷板均允许使用 冷却液温度为 45 ºC 和冷却塔,避免使用昂贵的冷水机组。解决方案包括 超微 DLC-2 每个机架可容纳 96 个 B200,最多 250 kW 热容量。
在基础软件中,需要驱动程序 CUDA 已更新TensorRT-LLM 支持 FP4 并配备专用量化工具。使用模型优化器进行后量化可加速生产部署,同时 量化训练 最大程度地保持质量。
从中期来看,为机架准备的 CPD 将会激增。 50-120千瓦,采用下一代冷却和能源管理解决方案。软件成熟度将继续提高, 无缝集成和管道 自动量化。
网络和可扩展性:NVLink 5、交换机和光子学
互连结构是性能的另一半。第五代 NVLink 带宽加倍 并允许您加入 576 GPU。每个有效链接提供〜每个方向 50 GB/s;每个 GPU 有 18 个链接,总带宽达到 ~1,8 TB / s,比PCIe Gen5高出14倍以上。
交换者 英伟达 NVLink 贡献高达 130 TB / s 每个 NVL72 域,对于模型规模的并行性至关重要。此外,协议支持 尖锐 对于分层缩减,它可以加速关键集体操作中像 FP8 这样的精度。
NVIDIA 也在推进网络 Quantum-X800 InfiniBand y Spectrum-X800 以太网,交换机系列包括 128 至 512 个 800G 端口,以及高密度 200G 选项,并集成液体冷却以维持性能。
连接器 NVIDIA 光子学,集成到交换机ASIC封装中的光学引擎取代了传统的可插拔收发器,从而推动了高达 3,5倍效率,弹性提高 10 倍,部署速度提高 1,3 倍,为高密度光纤数据中心铺平了道路。
软件和平台生态系统:Dynamo、AI-Q、Mission Control、NIM 和 OVX
为了挤压Blackwell,NVIDIA推出了几款关键产品。 发电机 是一个开源推理平台,旨在通过 NVLink 在 GPU 之间扩展单个查询,性能提升高达 推理负载为 30 倍 与 DeepSeek R1 一样强大,并且无需更换硬件即可使 Hopper 的吞吐量翻倍。
人工智能 (加上 AgentIQ)提出了一个开放的多代理框架,该框架集成了企业数据、外部工具和其他代理,从而促进了能够实现以下功能的复合系统: 关于文本、图像和视频的原因,并集成到 CrewAI、LangGraph 或 Azure AI Agent Service 等框架中。
在业务层, 任务控制 实现 AI 数据中心端到端编排的自动化,并在训练和推理之间无缝切换, 利用率提高 5 倍 和就业复苏 速度快 10 倍此外,Base Command Manager 现可免费为每个系统最多八个加速器提供服务。
拉皮拉 英伟达NIM 增加了企业级的生成式 AI 微服务。 卵巢切除系统 它们面向生成式人工智能和密集型图形,并附带一个程序 存储验证 与 DDN、Dell PowerScale、NetApp、Pure Storage 或 WEKA 合作,以保证生产的吞吐量和扩展性。
专业产品:RTX Pro Blackwell、DGX Station 和 DGX Spark
新家庭 RTX Pro 布莱克威尔 更新专业系列,最多 96 GB记忆体 在 Pro 6000 及以上版本中 4.000 TOPS AI、第四代 RT 核心以及配备 FP4 的第五代 Tensor 核心。服务器版新增 vGPU 和 MIG 将 GPU 分成多个独立的实例。
在实际案例中, 光线追踪 5 倍 与 RTX A6000(Foster + Partners)相比,医疗重建方面提升高达 2 倍(GE HealthCare),VR 方面显著改进(Rivian)和 3倍生产力 拥有法学硕士 (SoftServe) 学位。皮克斯指出,其 3,3% 的制作素材现在可在单个 GPU 的 70 GB 内存中完成。
DGX站 已更新至 GB300 Grace Blackwell Ultra, 784GB统一内存 并 AI FP4 中的 20 PFLOPS,更多的连接 800 Gb / s的 使用 ConnectX-8。对于开发人员和学生来说, DGX Spark 配备 GB10 芯片和 128 GB 统一内存 ~1.000 TOPS AI 和 SmartNIC ConnectX‑7,使进入生态系统的成本更低。
机架中的百亿亿次级计算和定制超级吊舱
系统 DGX GB200 NVL72 从 32 翻倍到 72 GPU 并将内存从~19,5 TB 增加到~30 TB在计算方面,飞跃是惊人的:从 127 公积金 a 1,4 FP4 中的 EF (~11×),从 127 PF 到 FP8 中的 720 PF (~5,6×),全部采用全水冷底盘。
上面, DGX超级POD 总共 8 个 GB200 NVL72 系统 11,5 exaFLOPS FP4 每个系统配备 36 GB200 SuperChips,性能提升高达 30× 与大型 LLM 推理中的 H100 相比,它被设计为适用于万亿参数量级模型的“AI 工厂”。
在 Grace-Blackwell 平台上, GB200 通过 C2C 将两个 B200 与共享 Grace CPU 连接起来,并可扩展至 576 个 GPU,速度为 1,8 TB/s 使用 NVLink 5,组装适合最苛刻的 AI 工作负载的大规模并行环境。
现代量化:以 4 位保存智能
FP4 的成功源于 硬件和软件NVIDIA 双缩放调整张量值分布,Transformer 引擎分析 超过1.000次操作 动态优化尺度,使像 DeepSeek-R1 这样的模型能够实现 98,1%的准确度 在 FP4 和一些测试中, 超越FP8基线.
在训练后, SmoothQuant y 加权平均质量 已经能够将 Falcon 180B 大小的模型装入单个 GPU。如果您需要保持最佳性能, QAT模拟FP4 在微调过程中,它有助于调整重量分布。Nemotron 4 等系列产品表现出 FP4 无损 由 QAT 提供,达到或超过 BF16。
对于复杂的病例,管理 非典型值 避免激活崩溃,以及 混合精度 在关键操作中提升位。结果:FP4 在密集架构中可行,并且在 专家组合,同时又不牺牲产量的精度。
路线图和可用性
展望未来, 薇拉·鲁宾一代 指向 50 PFLOPS FP4 GPU密集型, ConnectX‑9、NVLink‑6 和内存 HBM4 (+1,6 倍带宽)。CPU-GPU 互连也将增加到 约 1,8 TB/秒,而 Rubin Ultra 将再次提高标准 100 PFLOPS FP4 y 1 TB HBM4e.
在 AMD 方面,架构 cDNA 4 为 Matrix Cores 提供支持 FP4 和 FP6与上一代相比,性能提高了一倍,并增加了稀疏性以进一步加速,这在混合专家模型中尤其有趣。
最直接的限制不是技术上的,而是 硬件供应:2025 年 B200/B300 的大部分产量将用于超大规模生产。尽管如此,对每代币成本和能源效率的影响正在导致 真正的民主化,通过内存和每瓦计算能力的飞跃,为小型组织带来尖端功能。