- NVFP4 kombiniert E2M1 mit doppelter Skalierung (FP8 pro Mikroblock und FP32 pro Tensor), um den Quantisierungsfehler um 88 % zu reduzieren.
- Bei Blackwell erreicht FP4 bis zu 20 PFLOPS pro GPU und in realen Fällen eine dreimal bessere Leistung als FP8, bei minimalen Genauigkeitseinbußen.
- Der Speicherbedarf sinkt drastisch (bis zu 8x), der Energieverbrauch pro Token um bis zu 50x und die Inferenzkosten um fast 90 %.
- Das Ökosystem unterstützt bereits FP4 (TensorRT, vLLM, HF) und die Infrastruktur wird mit NVLink 5, Flüssigkeitskühlung und 120-kW-Racks erweitert.
Die Diskussion über Präzisionsformate in der KI hat mit der Einführung von NVFP4 an Fahrt aufgenommen, und das aus gutem Grund: Bits reduzieren, ohne an Qualität zu verlieren verändert die Ökonomie der Inferenz radikal. In diesem Leitfaden erfahren Sie, was NVFP4 ist, wie es sich von FP8 und BF16 unterscheidet und warum große (und nicht so große) Unternehmen es bereits einsetzen, von Rechenzentren bis hin zu Desktop-PCs.
Jenseits des Marketing-Hypes gibt es solide Daten: Energie pro Token wird bis zu 50 Mal gekürzt, rekordverdächtige Token-Flows pro Sekunde und ein auf einen Bruchteil reduzierter Speicher, ohne dass die Genauigkeit darunter leidet. Dennoch lohnt es sich, Schlagzeilen von der praktischen Realität zu trennen, da die Auswirkungen von der Hardware, der numerischen Skalierung und der Quantisierung und Optimierung jedes Modells abhängen.
Was ist NVFP4 und welche Verbesserung bietet es gegenüber FP8 und BF16?
NVFP4 ist NVIDIAs Vorschlag für eine ultraniedrige Präzision Entwickelt für KI-Inferenz. Es stellt Zahlen mit E2M1 dar (1 Vorzeichenbit, 2 Exponentenbits und 1 Mantissenbit) und fügt eine wichtige Komponente hinzu: Skalierung in zwei Ebenen wodurch der Quantisierungsfehler im Vergleich zu einfacheren Näherungen drastisch reduziert wird.
Dieses zweistufige System kombiniert einen Faktor von FP8 E4M3-Skala auf Mikroblöcke angewendet von 16 Werten mit globaler Tensorskalierung in FP32. Dank dieser Kombination kann ein 88 % weniger Fehler als einfachere Zweierpotenzlösungen wie MXFP4, wodurch die numerische Stabilität mit so wenigen Bits verstärkt wird.
Im Gegensatz dazu reduziert FP8 (E4M3 oder E5M2) die Kosten im Vergleich zu FP16/BF16 bereits erheblich, aber NVFP4 geht noch einen Schritt weiter Dies reduziert Speicher und Stromverbrauch weiter. BF16 behält einen ähnlichen Dynamikbereich wie FP32 bei, mit weniger Bits in der Mantisse, ideal für Training und Umgebungen, in denen Gradientenstabilität entscheidend ist. Bei massiver Inferenz machen die gut skalierten 4 Bit jedoch einen Unterschied.
Die praktische Konsequenz: Bei gut angepasster Arbeitsbelastung NVFP4 behält eine sehr hohe Genauigkeit bei in höhere Formate, aber mit bemerkenswerten Sprüngen in Geschwindigkeit und Effizienz. Alles hängt von Quantisierung, Kalibrierung und nativer Hardwareunterstützung ab.

Blackwell Architecture: Die Kraft hinter NVFP4
Die Ankunft von Blackwell war der Katalysator für den Start von NVFP4. Die GPU B200 integriert 208.000 Milliarden Transistoren in einem Dual-Chip-Design, verbunden über eine 10 TB/s NV-HBI-Schnittstelle, die für die Software transparent ist und ein einheitliches Verhalten gewährleistet.
Die Tensor-Kerne der fünften Generation unterstützt nativ NVFP4 mit hardwarebeschleunigter Skalierung und erreicht bis zu 20 PetaFLOPS im RP4Die Architektur umfasst außerdem einen Tensorspeicher in der Nähe der Recheneinheiten (TMEM), wodurch der Energieaufwand für die Datenbewegung begrenzt und die anhaltende Leistung erhöht wird.
Zum Verzehr ist die Serie GeForce RTX 50 Es übernimmt die FP4-Funktionen mit einer KI-Leistung von bis zu 4.000 TOPS und beschleunigt die Bilderzeugung (z. B. FLUX) um bis zu 3,9-mal so viel wie im 8. RP in bestimmten Szenarien, was zeigt, dass 4-Bit-Inferenz nicht nur eine Sache von Rechenzentren ist.
Am größeren Ende setzt Blackwell Ultra (B300/GB300) neue Maßstäbe mit 288 GB HBM3E und 1,5-mal mehr Leistung als B200, erreicht in NVL72-Konfigurationen bis zu berühren 1,1 ExaFLOPS pro System im dichten FP4. Dies legt den Grundstein für die Bereitstellung von Modellen mit Hunderten von Milliarden Parametern auf weniger Maschinen.
Kennzahlen: Mehr Token, weniger Watt und Speicher unter Kontrolle
Produktions- und Benchmarkdaten zeichnen ein einheitliches Bild. Auf DeepSeek-R1 671B Der Sprung auf FP4 in B200 verdreifacht die Leistung im Vergleich zu FP8 in H200, wobei DGX B200-Systeme die 30.000 Token/sDie Genauigkeit leidet kaum: MMLU sinkt von 90,8 % auf 90,7 % beim Quantisieren von FP8 auf FP4.
Im Gedächtnis sind die Zahlen überwältigend. Ein LLM wie Llama 3.1 405B erhöht sich von 140 GB in FP32 auf 17,5 GB in FP4, eine 8-fache Reduzierung, die es ermöglicht, große Modelle auf weniger GPUs bereitzustellen. Bei der Bildgenerierung kann eine FLUX-Konfiguration von 51,4 GB in FP16 bis 9,9 GB in FP4 mit minimaler Sehbehinderung und Anpassung an bescheidenen VRAM.
MLPerf v5.0 unterstützt den Umzug: Der durchschnittliche Durchsatz von Lama 2 70B gefaltet im Vergleich zum Vorjahr und die besten Ergebnisse verbesserten sich um das 3,3-fache. Im Energiebereich ist der Token
von H100 bis 10 J sinkt auf 0,4 J in B200 bereits 0,2 J in B300, d.h. bis zu 50x mehr EffizienzIn geschäftlicher Hinsicht wird erwartet, dass die Inferenzkosten im Zeitraum 2024–2025 um fast 90 % sinken werden.
Auf der Benutzerseite werden die Bild- und Textmodelle mit NVFP4 nutzt mehr Token pro Dollar, mit Berichten über eine Verbesserung von bis zu 40 % gegenüber Alternativen, was sich gut mit dem geringeren Speicherbedarf und der einfachen Bereitstellung großer Modelle kombinieren lässt.
Einführung: Clouds, Unternehmen und Fälle aus der Praxis
Cloud-Anbieter sind führend bei der Einführung von FP4. Lambda Labs bietet HGX B200-Cluster mit FP4 an in 1-Click-Bereitstellungen und CoreWeave-Datensätzen 800 Token/s in Llama 3.1 405B mit GB200 GPU. Es ist nicht alles NVIDIA: Meta, OpenAI und Microsoft Sie verwenden AMD Instinct MI300X in Inferenz und MI350 wird mit nativer FP4-Unterstützung geliefert.
Im Bankwesen JPMorgan evaluiert FP4 hinsichtlich der Risiko- und Alternativenanalyse; im Gesundheitswesen wurden sie gesehen +30 % Geschwindigkeit mit -50 % Speicher, und in der Fertigung werden Echtzeitentscheidungen auf Geräten mit begrenzten Ressourcen ermöglicht, wodurch Türen geöffnet werden, wo vorher kein Platz war.
Die Software begleitet den Schritt. TensorRT-Modelloptimierer bietet vollständige FP4-Quantisierungspipelines; Frameworks wie vLLM frühzeitige Unterstützung für NVFP4 integrieren; und Gesicht umarmen hostet vorquantisierte FP4-Checkpoints (DeepSeek-R1, Llama 3.1, FLUX), um Produktionsbereitstellungen zu beschleunigen.
Für weniger rechenintensive Teams gibt es QAT-lose Möglichkeiten mit SVDQuant mit einer Genauigkeit nahe dem quantisierten Training; wenn maximale Genauigkeit angestrebt wird, QAT im RP4 Es behält BF16 in Familien wie Nemotron 4 bei oder verbessert es sogar, vorausgesetzt, der Prozess wird fein abgestimmt.
Infrastruktur: Stromversorgung, Kühlung und neue Rechenzentrumsvorschriften
Ultraniedrige Präzision erfordert eine Neuplanung des Rechenzentrums. Ein System GB200 NVL72 verbraucht 120 kW pro Rack für 72 GPUs, was über der Kapazität der meisten bestehenden Rechenzentren liegt. Trotzdem ist ein NVL72 ersetzt neun HGX H100 und benötigen einen 83% weniger Energie für die gleiche effektive Berechnung.
Mit einer TDP von ~1.000 W pro GPU ist die kühlschrank líquida Die direkte Chipinstallation ist nicht optional. Kühlplatten an allen Hotspots ermöglichen die Verwendung Kühlmittel bei 45 ºC und Kühltürmen, wodurch teure Kältemaschinen vermieden werden. Lösungen wie Supermicro DLC-2 Sie erreichen 96 B200 pro Rack und bis zu 250 kW der Wärmekapazität.
In der Basissoftware werden Treiber benötigt CUDA aktualisiert, TensorRT-LLM mit FP4-Unterstützung und speziellen Quantisierungstools. Die Nachquantisierung mit Model Optimizer beschleunigt die Produktionsbereitstellung, während Training mit Quantisierung maximiert die Qualitätserhaltung.
Mittelfristig wird die Zahl der für Racks vorbereiteten CPDs stark ansteigen. 50-120 kW , mit Kühl- und Energiemanagementlösungen der nächsten Generation. Die Softwarereife wird sich weiter verbessern mit nahtlose Integrationen und Pipelines automatisierte Quantisierung.
Vernetzung und Skalierbarkeit: NVLink 5, Switches und Photonik
Die andere Hälfte der Leistung wird durch das Interconnect Fabric gewährleistet. Die 5. Generation von NVLink verdoppelt die Bandbreite und ermöglicht Ihnen den Beitritt zu bis zu 576-GPU. Jeder effektive Link bietet ~50 GB/s pro Richtung; mit 18 Links pro GPU erreicht die Gesamtbandbreite ~1,8 TB / s, mehr als 14× als PCIe Gen5.
Der Schalter NVIDIA NV-Link trägt bis zu 130 TB / s pro NVL72-Domäne, was für die Parallelität im Modellmaßstab unerlässlich ist. Darüber hinaus SCHARF Bei hierarchischen Reduktionen beschleunigt es Präzisionen wie FP8 in kritischen kollektiven Operationen.
NVIDIA drängt auch in die Vernetzung mit Quantum-X800 InfiniBand y Spectrum-X800 Ethernet, mit Switch-Familien von 128 bis 512 800G-Ports, plus hochdichten 200G-Optionen und integrierter Flüssigkeitskühlung zur Aufrechterhaltung der Leistung.
Mit NVIDIA Photonics, optische Engines, die in das Switch-ASIC-Paket integriert sind, ersetzen herkömmliche steckbare Transceiver und ermöglichen bis zu 3,5-fache Effizienz, 10-mal mehr Ausfallsicherheit und 1,3-mal schnellere Bereitstellungen, die den Weg für optische Rechenzentren mit hoher Dichte ebnen.
Software- und Plattform-Ökosystem: Dynamo, AI-Q, Mission Control, NIM und OVX
Um Blackwell unter Druck zu setzen, hat NVIDIA mehrere Schlüsselelemente eingeführt. Dynamo ist eine Open-Source-Inferenzplattform, die entwickelt wurde, um eine einzelne Abfrage zwischen GPUs über NVLink zu skalieren, mit Verbesserungen von bis zu 30x in Ladungen mit Begründung intensiv wie DeepSeek R1 und Verdoppelung des Durchsatzes auf Hopper ohne Änderung der Hardware.
AI-Q (plus AgentIQ) bietet ein offenes Multi-Agenten-Framework, das Unternehmensdaten, externe Tools und andere Agenten integriert und so zusammengesetzte Systeme ermöglicht, die in der Lage sind, Grund für Text, Bilder und Videos, mit Integrationen in Frameworks wie CrewAI, LangGraph oder Azure AI Agent Service.
Auf der Betriebsebene Mission Control Automatisiert die End-to-End-Orchestrierung von KI-Rechenzentren mit nahtlosem Wechsel zwischen Training und Inferenz. 5x mehr Auslastung und die Wiederherstellung der Arbeitsplätze 10x schnellerDarüber hinaus ist Base Command Manager jetzt kostenlos für bis zu acht Beschleuniger pro System verfügbar.
Die Batterie NVIDIA NIM fügt unternehmensreife generative KI-Microservices hinzu. OVX-Systeme Sie sind auf generative KI und intensive Grafiken ausgerichtet, begleitet von einem Programm von Speichervalidierung mit DDN, Dell PowerScale, NetApp, Pure Storage oder WEKA, um Durchsatz und Skalierung in der Produktion zu gewährleisten.
Professionelle Produkte: RTX Pro Blackwell, DGX Station und DGX Spark
die neue Familie RTX Pro Blackwell Aktualisieren Sie die Professional-Linie mit bis zu 96 GB Speicher im Pro 6000 und höher 4.000 TOPS KI, RT-Kerne der 4. Generation und Tensor-Kerne der 5. Generation mit FP4. In der Server Edition fügt es hinzu vGPU und MIG um eine GPU in mehrere isolierte Instanzen aufzuteilen.
In echten Fällen wurden sie gemeldet 5× beim Raytracing vs. RTX A6000 (Foster + Partners), bis zu 2x in der medizinischen Rekonstruktion (GE HealthCare), bemerkenswerte Verbesserungen in VR (Rivian) und Dreifache Produktivität mit LLM (SoftServe). Pixar weist darauf hin, dass 3,3 % seines Produktionsmaterials jetzt auf 70 GB einer einzelnen GPU passen.
DGX Station wird mit GB300 Grace Blackwell Ultra aktualisiert, 784 GB Unified Memory und 20 PFLOPS im AI FP4, mehr Konnektivität von 800 Gb / s mit ConnectX-8. Für Entwickler und Studenten, DGX Spark mit GB10-Chip und 128 GB Unified Memory bietet ~1.000 HÖCHSTENS von KI und SmartNIC ConnectX‑7, wodurch der Einstieg in das Ökosystem günstiger wird.
Exascale im Rack und benutzerdefinierte Superpods
das System DGX GB200 NVL72 verdoppelt sich von 32 auf 72-GPU und erhöht den Speicher von ~19,5 TB auf ~30 TB. In der Berechnung ist der Sprung spektakulär: von 127 PF a 1,4 EF im RP4 (~11×) und von 127 PF bis 720 PF im FP8 (~5,6×), alles in einem vollständig wassergekühlten Gehäuse.
Oben, die DGX SuperPOD mit insgesamt 8 GB200 NVL72-Systemen 11,5 ExaFLOPS FP4 und 36 GB200 SuperChips pro System, mit Verbesserungen von bis zu 30 × im Vergleich zu H100 bei der großen LLM-Inferenz, konzipiert als „KI-Fabrik“, die auf Modelle in der Größenordnung von einer Billion Parametern ausgerichtet ist.
Auf der Grace-Blackwell-Plattform GB200 verbindet zwei B200 mit einer gemeinsamen Grace-CPU über C2C und skaliert bis zu 576 GPUs mit 1,8 TB/s mithilfe von NVLink 5 werden massiv parallele Umgebungen zusammengestellt, die für die anspruchsvollsten KI-Workloads geeignet sind.
Moderne Quantisierung: Intelligenz bei 4 Bit bewahren
Der Erfolg des RP4 beruht auf der Kombination Hardware und SoftwareNVIDIA Dual Scaling passt sich der Verteilung der Tensorwerte an und die Transformer Engine analysiert mehr als 1.000 Operationen zur dynamischen Optimierung von Skalen, wodurch Modelle wie DeepSeek‑R1 98,1% genau in FP4 und in einigen Tests über dem RP8-Basiswert liegen.
Nach dem Training GlatteQuant y AWQ haben es möglich gemacht, Modelle in der Größe eines Falcon 180B auf einer einzigen GPU unterzubringen. Wenn Sie maximale Leistung erhalten möchten, QAT emuliert FP4 Bei der Feinabstimmung hilft es, die Gewichtsverteilung anzupassen. Familien wie Nemotron 4 zeigen FP4 verlustfrei von QAT, bei oder über BF16.
Bei komplizierten Fällen ist die Behandlung von Atypische Werte vermeidet Aktivierungszusammenbrüche und Strategien für gemischte Präzision Bits in kritischen Operationen erhöhen. Das Ergebnis: FP4 ist in dichten Architekturen und auch in Mischung aus Experten, mit einer Präzision, die die Produktion nicht beeinträchtigt.
Roadmap und Verfügbarkeit
Mit Blick auf die Zukunft Vera Rubin Generation zeigen auf 50 PFLOPS FP4 GPU-dicht, mit ConnectX‑9, NVLink‑6 und Speicher HBM4 (+1,6x Bandbreite). Die CPU-GPU-Verbindung wird ebenfalls auf ~1,8 TB/sund Rubin Ultra wird die Messlatte erneut höher legen, um 100 PFLOPS FP4 y 1 TB HBM4e.
Auf der AMD-Seite ist die Architektur CDNA 4 versorgt Matrix-Kerne mit Unterstützung für RP4 und RP6, wodurch die Leistung im Vergleich zur vorherigen Generation verdoppelt wird und durch zusätzliche Spärlichkeit noch mehr beschleunigt wird, was besonders bei Mixture of Experts-Modellen interessant ist.
Die unmittelbarste Einschränkung ist nicht technischer Natur, sondern Hardwareversorgung: Ein Großteil der B200/B300-Produktion im Jahr 2025 ist für Hyperscaler vorgesehen. Dennoch führen die Auswirkungen auf die Kosten pro Token und die Energieeffizienz zu einer echte Demokratisierung, und bietet kleinen Unternehmen dank großer Speicher- und Rechenleistung pro Watt modernste Funktionen.