- NVFP4 は E2M1 とデュアル スケーリング (マイクロブロックあたり FP8、テンソルあたり FP32) を組み合わせて、量子化誤差を 88% 削減します。
- Blackwell では、FP4 は GPU あたり最大 20 PFLOPS を達成し、実際のケースでは FP8 よりも 3 倍優れたパフォーマンスを実現し、精度の低下は最小限に抑えられています。
- メモリは最大 8 倍まで減少し、トークンあたりのエネルギーは最大 50 倍まで低下し、推論コストはほぼ 90% 低下します。
- エコシステムはすでに FP4 (TensorRT、vLLM、HF) をサポートしており、インフラストラクチャは NVLink 5、液体冷却、120 kW ラックによって進化しています。
AI における精度フォーマットに関する議論は、NVFP4 の登場により加速しましたが、それには理由があります。 品質を損なうことなくビット数を削減 推論の経済性を根本的に変革します。このガイドでは、NVFP4とは何か、FP8やBF16との違い、そしてデータセンターからデスクトップPCまで、大企業(そしてそれほど大きくない企業も)が既にNVFP4を採用している理由を学びます。
マーケティングの誇大宣伝の裏には確かなデータがあります。 トークンあたりのエネルギーは最大50倍に削減されます記録的な毎秒トークンフロー、そして精度を損なうことなくメモリを数分の一にまで削減するなど、様々な状況が存在します。しかし、その影響はハードウェア、数値スケーリング、そして各モデルの量子化と最適化方法によって異なるため、見出しと現実的な状況を区別することは重要です。
NVFP4 とは何ですか? FP8 や BF16 と比べてどのように改善されていますか?
NVFP4はNVIDIAの提案である 超低精度 AI推論用に設計されています。E2M1(符号ビット1、指数ビット2、仮数ビット1)で数値を表現し、以下の重要な要素を追加します。 2段階のスケーリング これにより、より単純な近似に比べて量子化誤差が大幅に減少します。
この2段階のスキームは、 FP8 E4M3スケールをマイクロブロックに適用 FP32でグローバルテンソルスケーリングを使用した16個の値。この組み合わせにより、 エラーが88%減少 MXFP4 のようなより基本的な 2 の累乗ソリューションよりも、少ないビット数で数値安定性を強化します。
対照的に、FP8(E4M3またはE5M2)はFP16/BF16と比較してすでにかなりコストを削減していますが、 NVFP4はさらに一歩前進 メモリと消費電力をさらに削減します。BF16は、仮数部のビット数が少ないため、FP32と同様のダイナミックレンジを維持しており、勾配の安定性が重要なトレーニングや環境に最適です。しかし、大規模な推論では、適切にスケーリングされた4ビットが大きな違いを生み出します。
実際の結果は、適切に適応された作業負荷において、 NVFP4は非常に近い精度を維持している より高次のフォーマットにも対応しますが、速度と効率は飛躍的に向上します。すべては量子化、キャリブレーション、そしてネイティブハードウェアのサポートに依存します。

ブラックウェル・アーキテクチャー:NVFP4を支える力
ブラックウェルの登場はNVFP4の飛躍のきっかけとなった。GPU B200は208.000億個のトランジスタを集積している デュアルチップ設計で、ソフトウェアに対して透過的な 10 TB/秒の NV-HBI インターフェイスを介してリンクされ、統一された動作を保証します。
たくさん 第5世代Tensorコア ハードウェアアクセラレーションによるスケーリングでNVFP4をネイティブサポートし、最大 FP4で20ペタフロップスこのアーキテクチャには、コンピューティング ユニットの近くにテンソル メモリ (TMEM) も組み込まれているため、データ移動のエネルギー コストが制限され、持続的なパフォーマンスが向上します。
消費のために、シリーズ GeForce RTX 50 FP4の機能を継承し、AI性能は最大4.000TOPSに達し、画像生成(FLUXなど)を最大で FP8と比較して3,9倍 特定のシナリオでは、4 ビット推論がデータ センターだけのものではないことが実証されています。
大型のブラックウェルウルトラ(B300/GB300)は、 288GB HBM3Eと1,5倍のパフォーマンス B200よりもNVL72構成でタッチ システムあたり1,1エクサフロップス 高密度FP4で。これにより、数千億のパラメータを持つモデルをより少ないマシンで提供するための基盤が築かれます。
メトリクス: トークンの増加、消費電力の削減、メモリの制御
生産データとベンチマークデータは一貫した結果を示しています。DeepSeek-R1 671Bでは、 B200のFP4へのジャンプでパフォーマンスが3倍に H200のFP8と比較して、DGX B200システムは 30.000 トークン/秒精度はほとんど低下しません。FP8 から FP4 に量子化すると、MMLU は 90,8% から 90,7% に低下します。
記憶にある限り、その数字は圧倒的だ。法学修士のような Llama 3.1 405B は FP32 の 140 GB から FP4 の 17,5 GB に増加8倍の削減により、より少ないGPUで大規模なモデルを提供できるようになります。画像生成では、FLUX構成は FP16の51,4 GBからFP4の9,9 GBへ 視覚障害が最小限で、適度な VRAM に適応します。
MLPerf v5.0は、この動きをサポートしています。 ラマ2 70B 折りたたみ 前年と比較して、最高の結果は3,3倍に改善しました。エネルギー分野では、トークン
H100から B200では10Jが0,4Jに低下 B300ではすでに0,2 J、つまり 最大50倍の効率ビジネス用語に置き換えると、2024年から2025年にかけて推論コストが90%近く低下すると予想されます。
ユーザー側では、画像とテキストモデルが NVFP4は1ドルあたりのトークン数を増やす他の方法と比べて最大 40% の改善が報告されており、これはメモリ フットプリントの縮小と大規模モデルの容易な提供と相まって優れた結果をもたらします。
導入:クラウド、企業、そして実例
クラウドプロバイダーが FP4 の採用を主導しています。 Lambda LabsはFP4を搭載したHGX B200クラスターを提供 1-Click展開で、CoreWeaveは記録します 800 トークン/秒 Llama 3.1 405B、GB200 GPU搭載。NVIDIAのおかげだけではない。 Meta、OpenAI、Microsoft 推論にはAMD Instinct MI300Xを使用し、 MI350 ネイティブ FP4 サポートが付属します。
銀行業界では、 JPモルガン FP4をリスクと代替分析のために評価します。医療の分野では、 速度+30% とともに メモリ-50%また、製造業では、リソースが限られたデバイス上でリアルタイムの意思決定が可能になり、これまでは不可能だった領域に新たな可能性が開かれます。
ソフトウェアはステップに付随します。 TensorRT モデルオプティマイザー 完全なFP4量子化パイプラインを提供する。 vLLM NVFP4の早期サポートを統合し、 ハグ顔 事前に量子化された FP4 チェックポイント (DeepSeek-R1、Llama 3.1、FLUX) をホストして、本番環境への展開を加速します。
計算負荷の低いチームには、QATを使わない方法があります。 SVDQuant 量子化されたトレーニングに近い精度で、最大の精度が求められる場合、 FP4のQAT プロセスが微調整されていれば、Nemotron 4 などのファミリーの BF16 を維持または改善することができます。
インフラストラクチャ: 電力、冷却、および新しいデータセンター規制
超低精度ではデータセンターの再描画が必要となる。システム GB200 NVL72はラックあたり120kWを消費します 72基のGPUを搭載できるこのシステムは、既存のデータセンターの容量をはるかに超えています。それでも、NVL72 9台のHGX H100を置き換える そして、 83%少ないエネルギー 同じ有効計算を行います。
GPUあたりのTDPが約1.000Wの場合、 refrigeraciónlíquida チップの直接設置はオプションではありません。すべてのホットスポットにコールドプレートを配置することで、 45℃の冷却剤 高価なチラーを回避し、冷却塔を設置できます。 スーパーマイクロ DLC-2 ラックあたり96台のB200を搭載し、 250 kW 熱容量の。
ベースソフトウェアではドライバーが必要 CUDAが更新されましたFP4サポートと専用の量子化ツールを備えたTensorRT-LLM。モデルオプティマイザーによる後量子化により、本番環境への展開が加速され、 量子化によるトレーニング 品質保持を最大化します。
中期的に見ると、ラック用に準備された CPD が急増するでしょう。 50-120キロワット次世代の冷却およびエネルギー管理ソリューションを備えたソフトウェアの成熟度は、 シームレスな統合とパイプライン 自動量子化。
ネットワークとスケーラビリティ: NVLink 5、スイッチ、フォトニクス
インターコネクトファブリックはパフォーマンスのもう半分を担います。第5世代の NVLinkは帯域幅を2倍にする 最大で 576 GPUそれぞれの有効なリンクは〜を提供します50 GB/秒(片方向); GPUあたり18リンクの場合、総帯域幅は〜1,8 TB /秒PCIe Gen5 の 14 倍以上です。
スイッチ NVIDIA NVリンク 最大 130 TB /秒 モデル規模の並列処理に不可欠なNVL72ドメインごとに、プロトコルサポートが提供されます。 シャープ 階層的縮約の場合、重要な集合演算で FP8 のような精度を高速化します。
NVIDIAはネットワークにも力を入れており、 Quantum-X800 インフィニバンド y Spectrum-X800 イーサネット128 ~ 512 個の 800G ポートを備えたスイッチ ファミリに加え、高密度の 200G オプションと、パフォーマンスを維持するための統合液体冷却を備えています。
とともに NVIDIAフォトニクススイッチASICパッケージに統合された光エンジンは、従来のプラグ可能なトランシーバーに取って代わり、最大 3,5倍の効率、10 倍の回復力と 1,3 倍の導入速度を実現し、高密度光データ センターへの道を開きます。
ソフトウェアとプラットフォームのエコシステム: Dynamo、AI-Q、Mission Control、NIM、OVX
ブラックウェルを圧迫するために、NVIDIA はいくつかの重要な要素を導入しました。 ダイナモ NVLinkを介してGPU間で単一のクエリをスケーリングするように設計されたオープンソースの推論プラットフォームであり、最大 推論付きで30倍の負荷 DeepSeek R1 と同等の性能を備え、ハードウェアを変更することなく Hopper のスループットを 2 倍にします。
AI-Q (プラスAgentIQ)は、企業データ、外部ツール、その他のエージェントを統合し、複合システムを容易にするオープンなマルチエージェントフレームワークを提案しています。 テキスト、画像、ビデオに関する理由CrewAI、LangGraph、Azure AI Agent Service などのフレームワークに統合されています。
運用層では、 ミッションコントロール AIデータセンターのエンドツーエンドのオーケストレーションを自動化し、トレーニングと推論をシームレスに切り替えます。 利用率が5倍に 雇用回復 10倍高速さらに、Base Command Manager は、システムごとに最大 8 つのアクセラレータまで無料で利用できるようになりました。
ラピラ NVIDIA NIM エンタープライズ対応の生成AIマイクロサービスを追加します。 OVXシステム これらは生成AIと集中的なグラフィックスを指向しており、 ストレージ検証 DDN、Dell PowerScale、NetApp、Pure Storage、または WEKA と連携して、本番環境でのスループットとスケーリングを保証します。
プロフェッショナル向け製品: RTX Pro Blackwell、DGX Station、DGX Spark
新しい家族 RTX Pro ブラックウェル プロフェッショナルラインを最大 96 GBのメモリ Pro 6000以上 4.000トップス AI、第4世代RTコア、FP4搭載の第5世代Tensorコアを搭載。サーバー版では、 vGPUとMIG GPU を複数の独立したインスタンスに分割します。
実際の事例では、 レイトレーシングで5倍 RTX A6000(Foster + Partners)と比較して、医療再構成では最大2倍(GE HealthCare)、VRでは顕著な改善(Rivian) 生産性3倍 LLM(SoftServe)を使用。Pixarは、現在、制作映像の3,3%が単一のGPUの70GB以内に収まっていると指摘しています。
DGXステーション GB300 Grace Blackwell Ultraにアップデートされました。 784GBユニファイドメモリ そしてアップ AI FP4で20PFLOPS、より多くの接続性 800 Gb / s ConnectX-8を搭載。開発者や学生にとって、 DGXスパーク GB10チップと128GBの統合メモリを搭載し、 約1.000トップス AIとSmartNIC ConnectX-7の統合により、エコシステムへの参入がより安価になります。
ラックとカスタムスーパーポッド内のエクサスケール
システム DGX GB200 NVL72 32から2倍 72 GPU メモリを約19,5 TBから30 TB計算においては、その飛躍は目覚ましい。 127PF a FP4で1,4 EF (約11倍)、127PFから FP8で720 PF (~5,6×)、すべて完全水冷シャーシに収められています。
上記は、 DGX スーパーポッド 合計8台のGB200 NVL72システム 11,5エクサフロップス FP4 システムあたり36個のGB200スーパーチップを搭載し、最大 30× 大規模 LLM 推論における H100 と比較すると、1 兆個のパラメータのオーダーのモデル向けの「AI ファクトリー」として設計されています。
グレース・ブラックウェルのプラットフォームでは、 GB200 C2C経由で2つのB200を共有Grace CPUに接続し、最大 1,8 TB/秒の 576 個の GPU NVLink 5 を使用して、最も要求の厳しい AI ワークロードに適した超並列環境を構築します。
現代の量子化:4ビットで知能を維持する
FP4の成功は、 ハードウェアとソフトウェアNVIDIAデュアルスケーリングはテンソル値の分布に合わせて調整し、Transformerエンジンは分析します。 1.000以上の手術 スケールを動的に最適化することで、DeepSeek-R1のようなモデルが 98,1%の精度 FP4では、いくつかのテストでは、 FP8ベースラインを超える.
研修後、 スムースクオント y AWQ Falcon 180Bサイズのモデルを単一のGPUに搭載することが可能になりました。最大限のパフォーマンスを維持する必要がある場合は、 FP4をエミュレートするQAT 微調整の際に、重量配分を調整するのに役立ちます。Nemotron 4などのファミリーでは、 FP4ロスレス QAT では BF16 以上になります。
複雑な症例では、 非定型値 活性化の崩壊を回避し、 混合精度 重要な演算でビット数を増やす。その結果、FP4は高密度アーキテクチャでも、 専門家の混合生産性を犠牲にしない精度を実現。
ロードマップと可用性
今後、 ヴェラ・ルビン世代 目指す 50PFLOPS FP4 GPU密度が高く、 コネクトX-9、NVLink-6およびメモリ HBM4 (帯域幅1,6倍)。CPU-GPU相互接続も 約1,8 TB/秒、そしてルビンウルトラは再び基準を引き上げます 100PFLOPS FP4 y 1 TBのHBM4e.
AMD側では、アーキテクチャ CDNA4 マトリックスコアをサポート FP4とFP6、前世代に比べてパフォーマンスが 2 倍になり、スパース性を追加してさらに加速します。これは、Mixture of Experts モデルで特に興味深いものです。
最も差し迫った制限は技術的なものではなく、 ハードウェア供給2025年のB200/B300生産の多くはハイパースケーラー向けです。しかし、トークンあたりのコストとエネルギー効率への影響により、 真の民主化メモリとワットあたりの計算能力の飛躍的な向上により、小規模組織に最先端の機能を提供します。