NVFP4: Hva det er og hvordan det overgår FP8 og BF16 i AI.

Siste oppdatering: 8 oktober 2025
Forfatter: Isaac
  • NVFP4 kombinerer E2M1 med dobbel skalering (FP8 per mikroblokk og FP32 per tensor) for å redusere kvantiseringsfeilen med 88 %.
  • Hos Blackwell oppnår FP4 opptil 20 PFLOPS per GPU og 3 ganger bedre ytelse enn FP8 i virkelige tilfeller, med minimale nøyaktighetsfall.
  • Minnebruken faller kraftig (opptil 8 ganger), energiforbruket per token faller med opptil 50 ganger, og inferenskostnadene faller med nesten 90 %.
  • Økosystemet støtter allerede FP4 (TensorRT, vLLM, HF), og infrastrukturen utvikles med NVLink 5, væskekjøling og 120 kW-rack.

NVFP4-format og AI-nøyaktigheter

Samtalen rundt presisjonsformater i AI har akselerert med ankomsten av NVFP4, og med god grunn: redusere biter uten å miste kvalitet endrer radikalt økonomien bak inferens. I denne veiledningen lærer du hva NVFP4 er, hvordan det skiller seg fra FP8 og BF16, og hvorfor store (og ikke fullt så store) selskaper allerede tar det i bruk, fra datasentre til stasjonære PC-er.

Utover markedsføringshypen finnes det solide data: Energi per token kuttet opptil 50 ganger, rekordstore tokenflyter per sekund, og minne som faller til en brøkdel uten at nøyaktigheten ødelegges. Likevel er det verdt å skille overskrifter fra praktisk virkelighet, fordi virkningen avhenger av maskinvaren, numerisk skalering og hvordan hver modell kvantiseres og optimaliseres.

Hva er NVFP4, og hvordan forbedres det i forhold til FP8 og BF16?

NVFP4 er NVIDIAs forslag til en ultralav presisjon Utviklet for AI-inferens. Den representerer tall med E2M1 (1 fortegnsbit, 2 eksponentbit og 1 mantissebit) og legger til en nøkkelingrediens: skalering i to nivåer noe som reduserer kvantiseringsfeilen drastisk sammenlignet med enklere tilnærminger.

Denne to-nivåordningen kombinerer en faktor på FP8 E4M3-skala brukt på mikroblokker av 16 verdier med global tensorskalering i FP32. Takket være denne kombinasjonen, en 88 % færre feil enn mer grunnleggende potens-av-to-løsninger som MXFP4, som forsterker numerisk stabilitet med så få bits.

I motsetning til dette kutter FP8 (E4M3 eller E5M2) allerede ganske mye kostnader sammenlignet med FP16/BF16, men NVFP4 går et skritt videre noe som reduserer minne og strømforbruk ytterligere. BF16 opprettholder et lignende dynamisk område som FP32 med færre bits i mantissen, ideelt for trening og miljøer der gradientstabilitet er nøkkelen, men for massiv inferens utgjør den velskalerte 4-biten en forskjell.

Den praktiske konsekvensen: i godt tilpassede arbeidsmengder, NVFP4 opprettholder svært god nøyaktighet til høyere formater, men med bemerkelsesverdige sprang i hastighet og effektivitet. Alt avhenger av kvantisering, kalibrering og innebygd maskinvarestøtte.

Blackwell-arkitektur og NVFP4

Blackwell-arkitektur: Kraften bak NVFP4

Ankomsten av Blackwell har vært katalysatoren for NVFP4s gjennomslag. GPU-en B200 integrerer 208.000 milliarder transistorer i et design med to brikkeenheter, koblet sammen via et 10 TB/s NV-HBI-grensesnitt som er transparent for programvare, noe som sikrer enhetlig oppførsel.

den Femte generasjons Tensor-kjerner støtter NVFP4 innebygd med maskinvareakselerert skalering, som når opp til 20 PetaFLOPS i FP4Arkitekturen inkluderer også tensorminne nær beregningsenhetene (TMEM), noe som begrenser energikostnadene ved dataflyt og øker vedvarende ytelse.

For forbruk, serien GeForce RTX 50 Den arver FP4-funksjoner med AI-ytelse på opptil 4.000 TOPS og akselererer bildegenerering (f.eks. FLUX) med opptil 3,9 ganger sammenlignet med FP8 i spesifikke scenarier, og demonstrere at 4-bits inferens ikke bare er en datasentergreie.

  Feynman og TSMC A16: Flyttet som kan endre spillet

I den større enden hever Blackwell Ultra (B300/GB300) standarden med 288 GB HBM3E og 1,5 ganger mer ytelse enn B200, og rekker i NVL72-konfigurasjoner for å berøre 1,1 exaFLOPS per system i tett FP4. Dette legger grunnlaget for å servere modeller med hundrevis av milliarder parametere på færre maskiner.

Målinger: Flere tokens, mindre watt og minne under kontroll

Produksjons- og referansedata tegner et konsistent bilde. På DeepSeek-R1 671B, Hoppet til FP4 i B200 tredobler ytelsen sammenlignet med FP8 i H200, med DGX B200-systemer som overgår 30.000 tokens/sNøyaktigheten lider knapt: MMLU faller fra 90,8 % til 90,7 % ved kvantisering fra FP8 til FP4.

I minnet er tallene overveldende. En LLM-lignende Llama 3.1 405B øker fra 140 GB i FP32 til 17,5 GB i FP4, en 8x reduksjon som tillater servering av massive modeller på færre GPU-er. I bildegenerering kan en FLUX-konfigurasjon falle fra 51,4 GB i FP16 til 9,9 GB i FP4 med minimal synshemming og tilpasning til moderat VRAM.

MLPerf v5.0 støtter flyttingen: gjennomsnittlig gjennomstrømning av Llama 2 70B brettet sammenlignet med året før, og de beste resultatene forbedret seg med 3,3 ganger. Innen energi var tokenen
fra H100 til 10 J faller til 0,4 J i B200 allerede 0,2 J i B300, dvs. opptil 50 ganger mer effektivitetOversatt til forretningsmessige termer forventes det å bli nesten 90 % fall i inferenskostnader i løpet av 2024–2025.

På brukersiden modelleres bildet og teksten med NVFP4 utnytter flere tokens per dollar, med rapporter om opptil 40 % forbedring i forhold til alternativer, noe som kombineres godt med det mindre minnefotavtrykket og hvor enkelt det er å betjene store modeller.

Adopsjon: skyer, selskaper og virkelige caser

Skyleverandører leder an i adopsjonen av FP4. Lambda Labs tilbyr HGX B200-klynger med FP4 i 1-klikks-distribusjoner og CoreWeave-poster 800 tokens/s i Llama 3.1 405B med GB200 GPU. Det er ikke bare NVIDIA: Meta, OpenAI og Microsoft De bruker AMD Instinct MI300X i inferens og MI350 vil komme med innebygd FP4-støtte.

I bankvirksomhet, JPMorgan evaluerer FP4 for risiko- og alternativanalyse; i helsevesenet har de blitt sett +30 % hastighet med -50 % minne, og i produksjonsindustrien muliggjøres sanntidsbeslutninger på enheter med begrensede ressurser, noe som åpner dører der det ikke var plass før.

Programvaren følger med trinnet. TensorRT-modelloptimaliserer tilbyr komplette kvantiseringsrørledninger for FP4; rammeverk som vLLM integrere tidlig støtte for NVFP4; og Klemme ansiktet er vert for forhåndskvantiserte FP4-sjekkpunkter (DeepSeek-R1, Llama 3.1, FLUX) for å akselerere produksjonsdistribusjoner.

For mindre dataintensive team finnes det QAT-frie måter å bruke SVDQuant med nøyaktighet nær kvantisert trening; hvis maksimal nøyaktighet er ønsket, vil QAT i FP4 Den beholder eller til og med forbedrer BF16 i familier som Nemotron 4, forutsatt at prosessen finjusteres.

Infrastruktur: strøm, kjøling og nye forskrifter for datasentre

Ultralav presisjon krever at datasenteret tegnes på nytt. Et system GB200 NVL72 bruker 120 kW per rack for 72 GPU-er, over kapasiteten til de fleste eksisterende datasentre. Likevel er en NVL72 erstatter ni HGX H100-er og krever en 83% mindre energi for samme effektive beregning.

Med en TDP på ​​~1.000 W per GPU, kjøleskap líquida Direkte brikkeinstallasjon er ikke valgfritt. Kalde plater på alle varme punkter muliggjør bruk kjølevæske ved 45 ºC og kjøletårn, og dermed unngå dyre kjølere. Løsninger som Supermicro DLC-2 De når 96 B200 per stativ og opptil 250 kW av termisk kapasitet.

  Ny AMD Ryzen 9000X3D: To nye Granite Ridge-modeller med 192 MB L3-cache lekket

I basisprogramvaren trengs drivere CUDA oppdatert, TensorRT-LLM med FP4-støtte og spesialiserte kvantiseringsverktøy. Etterkvantisering med Model Optimizer akselererer produksjonsdistribusjonen, samtidig som trening med kvantisering maksimerer kvalitetsbevaring.

På mellomlang sikt vil det bli en økning i antall etterutdanningsprogrammer klargjort for stativer. 50-120 kW, med neste generasjons kjøle- og energistyringsløsninger. Programvaremodenheten vil fortsette å forbedres med sømløse integrasjoner og pipelines automatisert kvantisering.

Nettverk og skalerbarhet: NVLink 5, svitsjer og fotonikk

Sammenkoblingsstrukturen er den andre halvdelen av ytelsen. 5. generasjon av NVLink dobler båndbredden og lar deg bli med opptil 576 GPUHver effektiv lenke tilbyr ~50 GB/s per retning; med 18 lenker per GPU når den samlede båndbredden ~1,8 TB / s, mer enn 14× enn PCIe Gen5.

Bryteren NVIDIA NVLink bidrar med opptil 130 TB / s per NVL72-domene, essensielt for parallellisme på modellskala. I tillegg støtter protokollen SHARP For hierarkiske reduksjoner akselererer det presisjoner som FP8 i kritiske kollektive operasjoner.

NVIDIA jobber også med nettverksbygging med Quantum-X800 InfiniBand y Spectrum-X800 Ethernet, med svitsjfamilier som spenner fra 128 til 512 800G-porter, pluss 200G-alternativer med høy tetthet og integrert væskekjøling for å opprettholde ytelsen.

med NVIDIA Photonics, optiske motorer integrert i svitsj-ASIC-pakken erstatter tradisjonelle pluggbare transceivere, og fremmer opptil 3,5× effektivitet, 10 ganger mer robusthet og 1,3 ganger raskere utrullinger, noe som baner vei for optiske datasentre med høy tetthet.

Programvare- og plattformøkosystem: Dynamo, AI-Q, Mission Control, NIM og OVX

For å presse Blackwell har NVIDIA introdusert flere viktige elementer. Dynamo er en åpen kildekode-inferensplattform designet for å skalere en enkelt spørring mellom GPU-er via NVLink, med forbedringer på opptil 30 ganger i lass med resonnement like intens som DeepSeek R1 og dobling av gjennomstrømning på Hopper uten å bytte maskinvare.

AI-Q (pluss AgentIQ) foreslår et åpent rammeverk for flere agenter som integrerer bedriftsdata, eksterne verktøy og andre agenter, og legger til rette for sammensatte systemer som er i stand til begrunnelse om tekst, bilder og videoer, med integrasjoner i rammeverk som CrewAI, LangGraph eller Azure AI Agent Service.

På det operative laget, Mission Control Automatiserer ende-til-ende-orkestrering av AI-datasentre, med sømløs veksling mellom trening og inferens, 5 ganger mer utnyttelse og jobbgjenoppretting 10 ganger raskereI tillegg er Base Command Manager nå tilgjengelig uten kostnad for opptil åtte akseleratorer per system.

Batteriet NVIDIA NIM legger til bedriftsklare generative AI-mikrotjenester. På sin side, OVX-systemer De er orientert mot generativ AI og intensiv grafikk, ledsaget av et program med lagringsvalidering med DDN, Dell PowerScale, NetApp, Pure Storage eller WEKA for å garantere gjennomstrømning og skalering i produksjonen.

Profesjonelle produkter: RTX Pro Blackwell, DGX Station og DGX Spark

den nye familien RTX Pro Blackwell Oppdater den profesjonelle linjen med opptil 96 GB minne i Pro 6000 og oppover 4.000 TOPS AI, 4. generasjons RT-kjerner og 5. generasjons Tensor-kjerner med FP4. I Server Edition legger den til vGPU og MIG å dele en GPU inn i flere isolerte instanser.

I virkelige tilfeller har de blitt rapportert 5× i strålesporing vs RTX A6000 (Foster + Partners), opptil 2 ganger i medisinsk rekonstruksjon (GE HealthCare), bemerkelsesverdige forbedringer i VR (Rivian) og 3x produktivitet med LLM (SoftServe). Pixar påpeker at 3,3 % av produksjonsopptakene deres nå får plass innenfor 70 GB av et enkelt GPU.

  Alle nøklene til prosessoren i den neste Samsung Galaxy S26

DGX stasjon er oppdatert med GB300 Grace Blackwell Ultra, 784 GB enhetlig minne og oppe 20 PFLOPS i AI FP4, mer tilkobling av 800 Gb / s med ConnectX-8. For utviklere og studenter, DGX Spark med GB10-brikke og 128 GB enhetlig minne ~1.000 TOPP av AI og SmartNIC ConnectX‑7, noe som gjør det billigere å bli en del av økosystemet.

Exascale i et rack og tilpassede superpods

Systemet DGX GB200 NVL72 dobler fra 32 til 72 GPU og øker minnet fra ~19,5 TB til ~30 TBI beregninger er hoppet spektakulært: fra 127 PF a 1,4 EF i FP4 (~11×), og fra 127 PF til 720 PF i FP8 (~5,6×), alt i et fullstendig vannkjølt kabinett.

Over, den DGX SuperPOD med totalt 8 GB200 NVL72-systemer 11,5 exaFLOPS FP4 og 36 GB200 SuperChips per system, med forbedringer på opptil 30 × sammenlignet med H100 i stor LLM-inferens, designet som en «AI-fabrikk» rettet mot modeller i størrelsesorden en billion parametere.

På Grace-Blackwell-plattformen, den GB200 kobler to B200-er med en delt Grace CPU via C2C, og skalerer opp til 576 GPU-er med 1,8 TB/s ved hjelp av NVLink 5, og setter sammen massivt parallelle miljøer som er egnet for de mest krevende AI-arbeidsbelastningene.

Moderne kvantisering: Bevaring av intelligens ved 4 bits

Suksessen til FP4 kommer fra å kombinere maskinvare og programvareNVIDIA dobbel skalering justerer seg etter fordelingen av tensorverdier, og Transformer-motoren analyserer mer enn 1.000 operasjoner å dynamisk optimalisere skalaer, slik at modeller som DeepSeek-R1 kan oppnå 98,1% nøyaktighet i FP4 og, i noen tester, overskride FP8-grunnlinjen.

Etter trening, SmoothQuant y AWQ har gjort det mulig å få plass til modeller på størrelse med en Falcon 180B på én GPU. Hvis du trenger å bevare maksimal ytelse, er QAT-emulering av FP4 Under finjustering hjelper det med å tilpasse vektfordelingen. Familier som Nemotron 4 viser FP4 tapsfri med QAT, på eller over BF16.

For kompliserte tilfeller, håndtering av Atypiske verdier unngår aktiveringskollapser, og strategier for blandet presisjon heve biter i kritiske operasjoner. Resultatet: FP4 er levedyktig i tette arkitekturer og også i Blanding av eksperter, med en presisjon som ikke ofrer produksjonen.

Veikart og tilgjengelighet

Ser vi fremover, den Vera Rubin-generasjonen peke på 50 PFLOPS FP4 GPU-tett, med ConnectX‑9, NVLink‑6 og minne HBM4 (+1,6x båndbredde). CPU-GPU-forbindelsen vil også øke til ~1,8 TB/s, og Rubin Ultra vil heve standarden igjen til 100 PFLOPS FP4 y 1 TB HBM4e.

På AMD-siden, arkitekturen CDNA 4 driver Matrix Cores med støtte for FP4 og FP6, dobler ytelsen sammenlignet med forrige generasjon og legger til sparsity for å akselerere ytterligere, noe som er spesielt interessant i Mixture of Experts-modeller.

Den mest umiddelbare begrensningen er ikke teknisk, men maskinvareforsyningMye av B200/B300-produksjonen i 2025 er forpliktet til hyperskalere. Likevel forårsaker effekten på kostnad per token og energieffektivitet en reell demokratisering, som bringer banebrytende funksjoner til små organisasjoner takket være fremskritt i minne og beregning per watt.

nvidia blackwell ultra gb300
Relatert artikkel:
NVIDIA Blackwell Ultra GB300: Arkitektur, minne og NVLink 5