- NVFP4 kombinerar E2M1 med dubbel skalning (FP8 per mikroblock och FP32 per tensor) för att minska kvantiseringsfelet med 88 %.
- Hos Blackwell uppnår FP4 upp till 20 PFLOPS per GPU och 3 gånger bättre prestanda än FP8 i verkliga fall, med minimala noggrannhetsförluster.
- Minnet sjunker kraftigt (upp till 8x), energiförbrukningen per token minskar med upp till 50x och inferenskostnaderna sjunker med nästan 90 %.
- Ekosystemet stöder redan FP4 (TensorRT, vLLM, HF) och infrastrukturen utvecklas med NVLink 5, vätskekylning och 120 kW-rack.
Diskussionen kring precisionsformat inom AI har accelererat med ankomsten av NVFP4, och det av goda skäl: minska bitar utan att förlora kvalitet förändrar radikalt inferensens ekonomi. I den här guiden får du lära dig vad NVFP4 är, hur det skiljer sig från FP8 och BF16, och varför stora (och inte så stora) företag redan använder det, från datacenter till stationära datorer.
Utöver marknadsföringshypen finns det gedigen data: Energi per token kapad upp till 50 gånger, rekordstora tokenflöden per sekund och minne som rasar till en bråkdel utan att förstöra noggrannheten. Ändå är det värt att skilja rubriker från praktisk verklighet, eftersom effekten beror på hårdvaran, numerisk skalning och hur varje modell kvantiseras och optimeras.
Vad är NVFP4 och hur förbättras det jämfört med FP8 och BF16?
NVFP4 är NVIDIAs förslag för en ultralåg precision Utformad för AI-inferens. Den representerar tal med E2M1 (1 teckenbit, 2 exponentbitar och 1 mantissabit) och lägger till en viktig ingrediens: skalning i två nivåer vilket drastiskt minskar kvantiseringsfelet jämfört med enklare approximationer.
Detta tvånivåsystem kombinerar en faktor av FP8 E4M3-skala tillämpad på mikroblock av 16 värden med global tensorskalning i FP32. Tack vare denna kombination, en 88 % färre fel än mer grundläggande tvåpotenslösningar som MXFP4, vilket förstärker numerisk stabilitet med så få bitar.
Däremot minskar FP8 (E4M3 eller E5M2) redan avsevärt kostnaderna jämfört med FP16/BF16, men NVFP4 går ett steg längre vilket ytterligare minskar minne och strömförbrukning. BF16 bibehåller ett liknande dynamiskt omfång som FP32 med färre bitar i mantissan, perfekt för träning och miljöer där gradientstabilitet är avgörande, men för massiv inferens gör den välskalade 4-bitarsfunktionen skillnad.
Den praktiska konsekvensen: i väl anpassade arbetsbelastningar, NVFP4 bibehåller mycket hög noggrannhet till högre format, men med anmärkningsvärda språng i hastighet och effektivitet. Allt beror på kvantisering, kalibrering och inbyggt hårdvarustöd.

Blackwell-arkitektur: Muskeln bakom NVFP4
Ankomsten av Blackwell har varit katalysatorn för NVFP4:s framfart. GPU:n B200 integrerar 208.000 miljarder transistorer i en dubbelchipsdesign, länkad via ett 10 TB/s NV-HBI-gränssnitt som är transparent för programvara, vilket säkerställer enhetligt beteende.
mycket Femte generationens Tensorkärnor stödja NVFP4 direkt med hårdvaruaccelererad skalning, upp till 20 PetaFLOPS i FP4Arkitekturen innehåller även tensorminne nära beräkningsenheterna (TMEM), vilket begränsar energikostnaden för dataförflyttning och ökar hållbar prestanda.
För konsumtion, serien GeForce RTX 50 Den ärver FP4-funktioner med AI-prestanda på upp till 4 000 TOPS och accelererar bildgenerering (t.ex. FLUX) med upp till 3,9 gånger jämfört med FP8 i specifika scenarier, vilket visar att 4-bitars inferens inte bara är en sak för datacenter.
I den större änden höjer Blackwell Ultra (B300/GB300) ribban med 288 GB HBM3E och 1,5 gånger mer prestanda än B200, och når i NVL72-konfigurationer för att röra 1,1 exaFLOPS per system i tät FP4. Detta lägger grunden för att leverera modeller med hundratals miljarder parametrar på färre maskiner.
Mätvärden: Fler tokens, mindre watt och minne under kontroll
Produktions- och riktmärkesdata ger en enhetlig bild. På DeepSeek-R1 671B, Hoppet till fjärde ramprogrammet i B200 tredubblar prestandan jämfört med FP8 i H200, där DGX B200-system överträffar 30.000 tokens/sNoggrannheten blir knappt lidande: MMLU sjunker från 90,8 % till 90,7 % vid kvantisering från FP8 till FP4.
I minnet är siffrorna överväldigande. En jurist som Llama 3.1 405B ökar från 140 GB i FP32 till 17,5 GB i FP4, en 8x reduktion som gör det möjligt att servera massiva modeller på färre GPU:er. Vid bildgenerering kan en FLUX-konfiguration sjunka från 51,4 GB i FP16 till 9,9 GB i FP4 med minimal synnedsättning och anpassning till blygsamt VRAM.
MLPerf v5.0 stöder flytten: den genomsnittliga genomströmningen för Llama 2 70B hopfälld jämfört med föregående år och de bästa resultaten förbättrades med 3,3 gånger. Inom energi var token
från H100 till 10 J sjunker till 0,4 J i B200 redan 0,2 J i B300, d.v.s. upp till 50 gånger mer effektivitetÖversatt till affärsmässiga termer förväntas inferenskostnaderna minska med nästan 90 % under 2024–2025.
I användaränden modelleras bilden och texten med NVFP4 utnyttjar fler tokens per dollar, med rapporter om upp till 40 % förbättring jämfört med alternativ, något som kombineras väl med det mindre minnesbehovet och enkelheten att hantera stora modeller.
Implementering: moln, företag och verkliga fall
Molnleverantörer leder implementeringen av FP4. Lambda Labs erbjuder HGX B200-kluster med FP4 i 1-Click-distributioner och CoreWeave-poster 800 tokens/s i Llama 3.1 405B med GB200 GPU. Det är inte bara NVIDIA: Meta, OpenAI och Microsoft De använder AMD Instinct MI300X för inferens och MI350 kommer att anlända med inbyggt FP4-stöd.
Inom banksektorn, JPMorgan utvärderar FP4 för risk- och alternativanalys; inom sjukvården har de observerats +30 % hastighet med -50 % minne, och inom tillverkning möjliggörs realtidsbeslut på enheter med begränsade resurser, vilket öppnar dörrar där det inte fanns plats tidigare.
Programvaran följer med i steget. TensorRT-modelloptimerare tillhandahåller fullständiga kvantiseringspipelines för FP4; ramverk som vLLM integrera tidigt stöd för NVFP4; och Kramande ansikte är värd för förkvantiserade FP4-kontrollpunkter (DeepSeek-R1, Llama 3.1, FLUX) för att påskynda produktionsdistributioner.
För mindre beräkningsintensiva team finns det QAT-fria sätt att använda SVDQuant med en noggrannhet nära kvantiserad träning; om maximal noggrannhet eftersträvas, QAT i FP4 Den behåller eller till och med förbättrar BF16 i familjer som Nemotron 4, förutsatt att processen finjusteras.
Infrastruktur: ström, kylning och nya datacenterregler
Ultralåg precision kräver omritning av datacentret. Ett system GB200 NVL72 förbrukar 120 kW per rack för 72 GPU:er, vilket överstiger kapaciteten hos de flesta befintliga datacenter. Ändå är en NVL72 ersätter nio HGX H100 och kräver en 83% mindre energi för samma effektiva beräkning.
Med en TDP på ~1 000 W per GPU, kylskåp líquida Direkt chipinstallation är inte valfritt. Kalla plattor på alla heta punkter möjliggör användning kylvätska vid 45 ºC och kyltorn, vilket undviker dyra kylaggregat. Lösningar som Supermicro DLC-2 De når 96 B200 per rack och upp till 250 kW av termisk kapacitet.
I grundprogramvaran behövs drivrutiner CUDA uppdaterad, TensorRT-LLM med FP4-stöd och specialiserade kvantiseringsverktyg. Efterkvantisering med Model Optimizer accelererar produktionsdistributionen, medan träning med kvantisering maximerar kvalitetsbevarandet.
På medellång sikt kommer fortbildning förberedd för rack att öka. 50-120 kW, med nästa generations kyl- och energihanteringslösningar. Programvarans mognad kommer att fortsätta att förbättras med sömlösa integrationer och pipelines automatiserad kvantisering.
Nätverk och skalbarhet: NVLink 5, switchar och fotonik
Sammankopplingsstrukturen är den andra halvan av prestanda. Den 5:e generationen av NVLink fördubblar bandbredden och låter dig ansluta dig upp till 576 GPUVarje effektiv länk erbjuder ~50 GB/s per riktningmed 18 länkar per GPU når den sammanlagda bandbredden ~1,8 TB / s, mer än 14× än PCIe Gen5.
Växeln NVIDIA NVLink bidrar med upp till 130 TB / s per NVL72-domän, avgörande för parallellism i modellskala. Dessutom protokollstöd SKARP För hierarkiska reduktioner accelererar det precisioner som FP8 i kritiska kollektiva operationer.
NVIDIA satsar också på nätverk med Quantum-X800 InfiniBand y Spectrum-X800 Ethernet, med switchfamiljer från 128 till 512 800G-portar, plus högdensitets 200G-alternativ och integrerad vätskekylning för att bibehålla prestandan.
med NVIDIA fotonik, optiska motorer integrerade i switch-ASIC-paketet ersätter traditionella pluggbara transceivrar, vilket främjar upp till 3,5× effektivitet, 10 gånger mer motståndskraft och 1,3 gånger snabbare implementeringar, vilket banar väg för optiska datacenter med hög densitet.
Programvara och plattformsekosystem: Dynamo, AI-Q, Mission Control, NIM och OVX
För att pressa Blackwell har NVIDIA introducerat flera viktiga delar. dynamo är en öppen källkodsplattform för inferens som är utformad för att skala en enda fråga mellan GPU:er via NVLink, med förbättringar på upp till 30x i laddningar med resonemang lika intensiv som DeepSeek R1 och fördubblar genomströmningen på Hopper utan att byta hårdvara.
AI-Q (plus AgentIQ) föreslår ett öppet ramverk för flera agenter som integrerar företagsdata, externa verktyg och andra agenter, vilket underlättar sammansatta system som kan anledning om text, bilder och videor, med integrationer i ramverk som CrewAI, LangGraph eller Azure AI Agent Service.
På det operativa lagret, Mission Control Automatiserar heltäckande orkestrering av AI-datacenter, med sömlös växling mellan träning och inferens, 5 gånger mer utnyttjande och återhämtning av jobbet 10 gånger snabbareDessutom är Base Command Manager nu tillgängligt utan kostnad för upp till åtta acceleratorer per system.
Batteriet NVIDIA NIM lägger till företagsklara generativa AI-mikrotjänster. För sin del, OVX-system De är inriktade på generativ AI och intensiv grafik, åtföljda av ett program med lagringsvalidering med DDN, Dell PowerScale, NetApp, Pure Storage eller WEKA för att garantera genomströmning och skalning i produktionen.
Professionella produkter: RTX Pro Blackwell, DGX Station och DGX Spark
den nya familjen RTX Pro Blackwell Uppdatera den professionella linjen med upp till 96 GB minne i Pro 6000 och uppåt 4.000 TOPS AI, 4:e generationens RT-kärnor och 5:e generationens Tensor-kärnor med FP4. I Server Edition lägger den till vGPU och MIG att dela upp en GPU i flera isolerade instanser.
I verkliga fall har de rapporterats 5× strålspårning jämfört med RTX A6000 (Foster + Partners), upp till 2x inom medicinsk rekonstruktion (GE HealthCare), märkbara förbättringar inom VR (Rivian) och 3x produktivitet med LLM (SoftServe). Pixar påpekar att 3,3 % av deras produktionsmaterial nu får plats inom 70 GB av en enda GPU.
DGX Station är uppdaterad med GB300 Grace Blackwell Ultra, 784 GB enhetligt minne och uppåt 20 PFLOPS i AI FP4, mer uppkoppling av 800 Gb / s med ConnectX-8. För utvecklare och studenter, DGX Spark med GB10-chip och 128 GB enhetligt minne ~1 000 TOPPAR av AI och SmartNIC ConnectX‑7, vilket gör det billigare att komma in i ekosystemet.
Exascale i ett rack och anpassade superpods
Systemet DGX GB200 NVL72 fördubblas från 32 till 72 GPU och ökar minnet från ~19,5 TB till ~30 TBI beräkningar är hoppet spektakulärt: från 127 PF a 1,4 EF i FP4 (~11×), och från 127 PF till 720 PF i FP8 (~5,6×), allt i ett helt vattenkylt chassi.
Ovan, den DGX SuperPOD med totalt 8 GB200 NVL72-system 11,5 exaFLOPS FP4 och 36 GB200 SuperChips per system, med förbättringar på upp till 30 × jämfört med H100 i stor LLM-inferens, utformad som en "AI-fabrik" anpassad för modeller i storleksordningen en biljon parametrar.
På Grace-Blackwell-plattformen, den GB200 länkar två B200:er med en delad Grace-processor via C2C och skalar upp till 576 GPU:er vid 1,8 TB/s med hjälp av NVLink 5, som sätter ihop massivt parallella miljöer lämpliga för de mest krävande AI-arbetsbelastningarna.
Modern kvantisering: Bevarande av intelligens vid 4 bitar
Framgången för FP4 kommer från att kombinera hårdvara och mjukvaraNVIDIAs dubbelskalning anpassar sig till fördelningen av tensorvärden och Transformer-motorn analyserar mer än 1.000 operationer för att dynamiskt optimera skalor, vilket gör det möjligt för modeller som DeepSeek-R1 att uppnå 98,1% noggrannhet i FP4 och, i vissa tester, överstiga baslinjen för åttonde ramprogrammet.
Efter träningen, SmoothQuant y AWQ har gjort det möjligt att montera modeller i storleken av en Falcon 180B på en enda GPU. Om du behöver bibehålla maximal prestanda, QAT emulerar FP4 Under finjustering hjälper det till att anpassa viktfördelningar. Familjer som Nemotron 4 visar FP4 förlustfri med QAT, på eller över BF16.
För komplicerade fall, hantering av Atypiska värderingar undviker aktiveringskollapser, och strategier för blandad precision höja bitar i kritiska operationer. Resultatet: FP4 är gångbart i täta arkitekturer och även i Blandning av experter, med en precision som inte offrar produktionen.
Färdplan och tillgänglighet
Framöver, den Vera Rubin-generationen sikta på 50 PFLOPS FP4 GPU-tät, med ConnectX‑9, NVLink‑6 och minne HBM4 (+1,6x bandbredd). CPU-GPU-sammankopplingen kommer också att öka till ~1,8 TB/s, och Rubin Ultra kommer att höja ribban igen för att 100 PFLOPS FP4 y 1 TB HBM4e.
På AMD-sidan, arkitekturen CDNA 4 driver Matrix Cores med stöd för FP4 och FP6, vilket fördubblar prestandan jämfört med föregående generation och lägger till gleshet för att accelerera ytterligare, något som är särskilt intressant i Mixture of Experts-modeller.
Den mest omedelbara begränsningen är inte teknisk utan hårdvaruförsörjningMycket av B200/B300-produktionen 2025 är avsedd för hyperscalers. Ändå orsakar effekten på kostnaden per token och energieffektivitet en verklig demokratisering, vilket ger små organisationer banbrytande funktioner tack vare förbättringar i minne och beräkningsförmåga per watt.