NVFP4:它是什麼以及它在 AI 方面如何勝過 FP8 和 BF16。

最後更新: 十月8 2025
作者: 艾薩克
  • NVFP4 將 E2M1 與雙重縮放(每個微塊 FP8 和每個張量 FP32)結合,以將量化誤差降低 88%。
  • 在 Blackwell,FP4 每 GPU 可達到高達 20 PFLOPS,在實際情況下效能比 FP8 提高 3 倍,同時準確度下降極小。
  • 記憶體驟降(最多 8 倍),每個令牌的能量下降最多 50 倍,推理成本下降近 90%。
  • 該生態系統已經支援 FP4(TensorRT、vLLM、HF),基礎設施透過 NVLink 5、液體冷卻和 120 kW 機架不斷發展。

NVFP4 格式與 AI 精準度

隨著 NVFP4 的到來,圍繞 AI 精度格式的討論加速了,這是有充分理由的: 減少比特數而不損失質量 徹底改變了推理的經濟性。在本指南中,您將了解什麼是 NVFP4,它與 FP8 和 BF16 有何不同,以及為什麼大型(以及規模較小的)公司(從資料中心到桌上型電腦)都已開始採用它。

除了行銷炒作之外,還有確鑿的數據: 每個代幣的能量減少高達 50 倍、每秒鐘創紀錄的令牌流,以及在不影響準確率的情況下記憶體驟降到極低的水平。儘管如此,我們仍然有必要將新聞標題與實際情況區分開來,因為影響取決於硬體、數值縮放以及每個模型的量化和最佳化方式。

什麼是 NVFP4 以及它如何改進 FP8 和 BF16?

NVFP4 是 NVIDIA 提出的 超低精度 專為人工智慧推理而設計。它以 E2M1(1 個符號位、2 個指數位和 1 個尾數位)表示數字,並添加了一個關鍵要素: 兩個層面的擴展 與更簡單的近似相比,這大大減少了量化誤差。

這個兩級方案結合了 FP8 E4M3 尺度應用於微塊 FP32 中的全域張量縮放的 16 個值。得益於這種組合, 錯誤率降低 88% 比 MXFP4 等更基本的 2 的冪解決方案更佳,用如此少的位數來增強數值穩定性。

相比之下,FP8(E4M3 或 E5M2)與 FP16/BF16 相比已經削減了相當多的成本,但是 NVFP4 更進一步 進一步減少記憶體和功耗。 BF16 保持與 FP32 類似的動態範圍,但尾數位數較少,非常適合訓練和梯度穩定性至關重要的環境,但對於大規模推理而言,經過良好擴展的 4 位發揮著重要作用。

實際結果:在適應良好的工作量下, NVFP4 保持非常接近的精度 到更高的格式,但速度和效率卻有顯著的飛躍。這一切都取決於量化、校準和原生硬體支援。

Blackwell 架構與 NVFP4

Blackwell 架構:NVFP4 背後的力量

Blackwell 的到來是 NVFP4 起飛的催化劑。 GPU B200整合了208.000億個電晶體 採用雙晶片設計,透過對軟體透明的 10 TB/s NV-HBI 介面鏈接,確保統一的行為。

很多 第五代 Tensor Core 原生支援 NVFP4 硬體加速擴展,最高可達 FP4 中的 20 PetaFLOPS該架構還結合了靠近計算單元的張量記憶體(TMEM),限制了資料移動的能量成本並提高了持續性能。

對於消費而言,該系列 GeForce RTX 50 它繼承了 FP4 的功能,AI 性能高達 4.000 TOPS,並將影像生成(例如 FLUX)加速高達 與FP8相比為3,9倍 在特定場景中,證明 4 位元推理不僅僅是資料中心的事情。

  AMD Magnus、Robin、Orion 和 Canis:定義下一代遊戲機的秘密晶片

在更大的一端,Blackwell Ultra (B300/GB300) 提高了標準 288GB HBM3E,效能提升 1,5 倍 比 B200,在 NVL72 配置中達到觸控 每個系統 1,1 exaFLOPS 在密集的 FP4 中。這為在更少的機器上服務具有數千億參數的模型奠定了基礎。

指標:更多令牌、更少功耗、記憶體可控

生產數據和基準測試數據描繪了一致的圖像。在 DeepSeek-R1 671B 上, B200 升級至 FP4 後效能提升三倍 與 H200 中的 FP8 相比,DGX B200 系統超過了 30.000 令牌/秒. 準確度幾乎沒有受到影響:從 FP8 量化到 FP4 時,MMLU 從 90,8% 下降到 90,7%。

在記憶中,數字是壓倒性的。像法學碩士這樣的 Llama 3.1 405B 從 FP32 中的 140 GB 增加到 FP4 中的 17,5 GB,減少了 8 倍,可以在更少的 GPU 上處理大量模型。在影像生成中,FLUX 配置可以從 FP16 中的 51,4 GB 到 FP4 中的 9,9 GB 視覺障礙最小,並適應適度的 VRAM。

MLPerf v5.0 支持以下措施: Llama 2 70B折疊 與去年相比,最佳成績提高了 3,3 倍。在能源領域,代幣
從 H100 到 在 B200 中,10 J 降至 0,4 J B300 中已經有 0,2 J,即 效率提高 50 倍從商業角度來看,預計 2024-2025 年推理成本將下降近 90%。

在用戶端,圖像和文字模型 NVFP4 利用每美元更多代幣,據報道,與其他方案相比,其性能提高了 40%,這與較小的內存佔用和易於服務大型模型的特點完美結合。

採用:雲端、公司與現實案例

雲端供應商引領 FP4 的採用。 Lambda Labs 提供搭載 FP4 的 HGX B200 集群 在一鍵部署和 CoreWeave 記錄中 800 令牌/秒 在配備 200 GB GPU 的 Llama 3.1 405B 中。並非全是 NVIDIA 的: Meta、OpenAI 和微軟 他們使用 AMD Instinct MI300X 進行推理, MI350 將提供原生 FP4 支援。

在銀行業, 摩根大通 評估 FP4 的風險和替代分析;在醫療保健領域,它們已被 +30% 速度-50% 內存在製造業中,可以在資源有限的設備上實現即時決策,從而打開以前沒有空間的大門。

軟體伴隨該步驟。 TensorRT 模型優化器 提供完整的 FP4 量化管道;框架包括 法學碩士 整合對 NVFP4 的早期支持;以及 擁抱臉 託管預量化的 FP4 檢查點(DeepSeek-R1、Llama 3.1、FLUX)以加速生產部署。

對於計算強度較低的團隊,可以使用無需 QAT 的方法 SVD量化 其準確度接近量化訓練;如果追求最大準確度, FP4 中的 QAT 只要對流程進行微調,它就能在 Nemotron 4 等系列中保留甚至改進 BF16。

基礎設施:電力、冷卻和新的資料中心法規

超低精度需要重新繪製資料中心。系統 GB200 NVL72 每機架功耗 120 kW 可容納 72 個 GPU,超出了大多數現有資料中心的容量。即便如此,NVL72 取代九架 HGX H100 並需要一個 節能83% 進行相同的有效計算。

每個 GPU 的 TDP 約為 1.000 W, 液體製冷 直接晶片安裝並非可選。所有熱點處的冷板均允許使用 冷卻液溫度為 45 ºC 和冷卻塔,避免使用昂貴的冷水機組。解決方案包括 超微 DLC-2 每個機架可容納 96 個 B200,最多 250千瓦 熱容量。

  最佳伺服器處理器

在基礎軟體中,需要驅動程式 CUDA 已更新TensorRT-LLM 支援 FP4 並配備專用量化工具。使用模型優化器進行後量化可加速生產部署,同時 量化訓練 最大程度地保持品質。

從中期來看,為機架準備的 CPD 將會激增。 50-120千瓦,採用下一代冷卻和能源管理解決方案。軟體成熟度將持續提高, 無縫整合和管道 自動量化。

網路和可擴展性:NVLink 5、交換器和光子學

互連結構是效能的另一半。第五代 NVLink 頻寬加倍 並允許您加入 576 GPU. 每個有效連結提供~每個方向 50 GB/s;每個 GPU 有 18 個鏈接,總頻寬達到 ~1,8 TB / s,比PCIe Gen5高出14倍以上。

開關 NVIDIA NVLink 貢獻鋼彈 130 TB / s 每個 NVL72 域,對於模型規模的並行性至關重要。此外,協議支持 SHARP 對於分層縮減,它可以加速關鍵集體操作中像 FP8 這樣的精確度。

NVIDIA 也在推動網絡 Quantum-X800 InfiniBand y Spectrum-X800 乙太網,交換器系列包括 128 至 512 個 800G 端口,以及高密度 200G 選項,並整合液體冷卻以維持性能。

NVIDIA 光子學,整合到交換器ASIC封裝中的光學引擎取代了傳統的可插拔收發器,從而推動了高達 3,5倍效率,彈性提高 10 倍,部署速度提高 1,3 倍,為高密度光纖資料中心鋪平了道路。

軟體和平台生態系統:Dynamo、AI-Q、Mission Control、NIM 和 OVX

為了擠壓Blackwell,NVIDIA推出了幾款關鍵產品。 發電機 是一個開源推理平台,旨在透過 NVLink 在 GPU 之間擴展單一查詢,效能提升高達 推理負荷為 30 倍 與 DeepSeek R1 一樣強大,並且無需更換硬體即可使 Hopper 的吞吐量翻倍。

人工智慧 (加上 AgentIQ)提出了一個開放的多代理框架,該框架整合了企業資料、外部工具和其他代理,從而促進了能夠實現以下功能的複合系統: 關於文字、圖像和影片的原因,並整合到 CrewAI、LangGraph 或 Azure AI Agent Service 等框架中。

在業務層, 任務控制 實現 AI 資料中心端到端編排的自動化,並在訓練和推理之間無縫切換, 利用率提高 5 倍 和就業復甦 速度快 10 倍此外,Base Command Manager 現可免費為每個系統最多八個加速器提供服務。

電池 英偉達NIM 增加了企業級的生成式 AI 微服務。 卵巢切除系統 它們面向生成式人工智慧和密集型圖形,並附帶一個程序 儲存驗證 與 DDN、Dell PowerScale、NetApp、Pure Storage 或 WEKA 合作,以確保生產的吞吐量和擴展性。

專業產品:RTX Pro Blackwell、DGX Station 和 DGX Spark

新家庭 RTX Pro 布萊克威爾 更新專業系列,最多 96 GB記憶體 在 Pro 6000 以上版本中 4.000 TOPS AI、第四代 RT 核心以及配備 FP4 的第五代 Tensor 核心。伺服器版新增 vGPU 和 MIG 將 GPU 分成多個獨立的執行個體。

在實際案例中, 光線追蹤 5 倍 與 RTX A6000 (Foster + Partners) 相比,醫療重建方面提升高達 2 倍 (GE HealthCare),VR 方面顯著改善 (Rivian) 和 3倍生產力 擁有法學碩士 (SoftServe) 學位。皮克斯指出,其 3,3% 的製作素材現在可在單一 GPU 的 70 GB 記憶體中完成。

  英特爾 Xe3:關於英特爾新 iGPU 我們所知的一切

DGX站 已更新至 GB300 Grace Blackwell Ultra, 784GB統一內存 而且 AI FP4 中的 20 PFLOPS,更多的連接 800 Gb / s 使用 ConnectX-8。對於開發人員和學生來說, DGX Spark 配備 GB10 晶片和 128 GB 統一內存 ~1.000 TOPS AI 和 SmartNIC ConnectX‑7,使進入生態系統的成本更低。

機架中的百億億次級計算和客製化超級吊艙

系統 DGX GB200 NVL72 從 32 翻倍到 72 GPU 並將記憶體從~19,5 TB 增加到~30結核病在計算方面,飛躍是驚人的:從 127 公積金 a 1,4 FP4 中的 EF (~11×),從 127 PF 到 FP8 中的 720 PF (~5,6×),全部採用全水冷底盤。

上面, DGX超級POD 共 8 個 GB200 NVL72 系統 11,5 exaFLOPS FP4 每個系統配備 36 GB200 SuperChips,效能提升高達 30× 與大型 LLM 推理中的 H100 相比,它被設計為適用於萬億參數量級模型的“AI 工廠”。

在 Grace-Blackwell 平台上, GB200 透過 C2C 將兩個 B200 與共享 Grace CPU 連接起來,並可擴展至 576 個 GPU,速度為 1,8 TB/s 使用 NVLink 5,組裝適合最嚴苛的 AI 工作負載的大規模平行環境。

現代量化:以 4 位元保存智能

FP4 的成功源自於 硬件和軟件NVIDIA 雙重縮放調整張量值分佈,Transformer 引擎分析 超過 1.000 例手術 動態最佳化尺度,使像 DeepSeek-R1 這樣的模型能夠實現 98,1%的準確度 在 FP4 和一些測試中, 超越FP8基線.

在訓練後, SmoothQuant y 加權平均質量 已經能夠將 Falcon 180B 大小的模型裝入單一 GPU。如果您需要保持最佳效能, QAT模擬FP4 在微調過程中,它有助於調整重量分佈。 Nemotron 4 等系列產品表現出 FP4 無損 由 QAT 提供,達到或超過 BF16。

對於複雜的病例,管理 非典型值 避免啟動崩潰,以及 混合精度 在關鍵操作中提升位元。結果:FP4 在密集架構中可行,並且在 專家組合,同時又不犧牲產量的精度。

路線圖和可用性

展望未來, 薇拉·魯賓一代 瞄準 50 PFLOPS FP4 GPU密集型, ConnectX‑9、NVLink‑6 和內存 HBM4 (+1,6 倍頻寬)。 CPU-GPU 互連也會增加到 約 1,8 TB/秒,而 Rubin Ultra 將再次提高標準 100 PFLOPS FP4 y 1 TB HBM4e.

在 AMD 方面,架構 互補DNA 4 為 Matrix Cores 提供支持 FP4 和 FP6與上一代相比,性能提高了一倍,並增加了稀疏性以進一步加速,這在混合專家模型中尤其有趣。

最直接的限制不是技術上的,而是 硬體供應:2025 年 B200/B300 的大部分產量將用於超大規模生產。儘管如此,對每代幣成本和能源效率的影響正在導致 真正的民主化,透過記憶體和每瓦運算能力的飛躍,為小型組織帶來尖端功能。

NVIDIA Blackwell Ultra GB300
相關文章:
NVIDIA Blackwell Ultra GB300:架構、記憶體與 NVLink 5