NVFP4: Hvad det er, og hvordan det overgår FP8 og BF16 i AI.

Sidste ændring: 8 oktober 2025
Forfatter: Isaac
  • NVFP4 kombinerer E2M1 med dobbelt skalering (FP8 pr. mikroblok og FP32 pr. tensor) for at reducere kvantiseringsfejlen med 88 %.
  • Hos Blackwell opnår FP4 op til 20 PFLOPS pr. GPU og 3 gange bedre ydeevne end FP8 i virkelige tilfælde, med minimale nøjagtighedsfald.
  • Hukommelsen styrtdykker (op til 8x), energiforbruget pr. token falder med op til 50x, og inferensomkostningerne falder med næsten 90%.
  • Økosystemet understøtter allerede FP4 (TensorRT, vLLM, HF), og infrastrukturen forbedres med NVLink 5, væskekøling og 120 kW racks.

NVFP4-format og AI-nøjagtigheder

Samtalen om præcisionsformater i AI er taget til med ankomsten af ​​NVFP4, og med god grund: reducere bits uden at miste kvalitet ændrer radikalt inferensøkonomien. I denne guide lærer du, hvad NVFP4 er, hvordan det adskiller sig fra FP8 og BF16, og hvorfor store (og ikke så store) virksomheder allerede bruger det, fra datacentre til stationære pc'er.

Ud over marketinghypen er der solide data: Energi pr. token klippet op til 50 gange, rekordstore token-flows pr. sekund, og hukommelse der styrtdykker til en brøkdel uden at ødelægge nøjagtigheden. Alligevel er det værd at adskille overskrifter fra den praktiske virkelighed, fordi effekten afhænger af hardwaren, den numeriske skalering og hvordan hver model kvantiseres og optimeres.

Hvad er NVFP4, og hvordan forbedres det i forhold til FP8 og BF16?

NVFP4 er NVIDIAs forslag til en ultralav præcision Designet til AI-inferens. Den repræsenterer tal med E2M1 (1 fortegnsbit, 2 eksponentbit og 1 mantissebit) og tilføjer en nøgleingrediens: skalering i to niveauer hvilket drastisk reducerer kvantiseringsfejlen sammenlignet med simplere tilnærmelser.

Denne to-niveau-ordning kombinerer en faktor på FP8 E4M3-skala anvendt på mikroblokke af 16 værdier med global tensorskalering i FP32. Takket være denne kombination, en 88% færre fejl end mere basale potens-af-to-løsninger som MXFP4, hvilket forstærker numerisk stabilitet med så få bits.

I modsætning hertil reducerer FP8 (E4M3 eller E5M2) allerede en del omkostninger sammenlignet med FP16/BF16, men NVFP4 går et skridt videre hvilket yderligere reducerer hukommelse og strømforbrug. BF16 opretholder et lignende dynamisk område som FP32 med færre bits i mantissen, ideelt til træning og miljøer, hvor gradientstabilitet er afgørende, men til massiv inferens gør den velskalerede 4-bit en forskel.

Den praktiske konsekvens: i veltilpassede arbejdsbyrder, NVFP4 opretholder meget nøje nøjagtighed til højere formater, men med bemærkelsesværdige spring i hastighed og effektivitet. Det hele afhænger af kvantisering, kalibrering og native hardwareunderstøttelse.

Blackwell-arkitektur og NVFP4

Blackwell-arkitektur: Musklen bag NVFP4

Ankomsten af ​​Blackwell har været katalysatoren for NVFP4's fremgang. GPU'en B200 integrerer 208.000 milliarder transistorer i et dual-chip design, forbundet via en 10 TB/s NV-HBI-grænseflade, der er transparent for software, hvilket sikrer ensartet adfærd.

masse Femte generations Tensor-kerner understøtter NVFP4 nativt med hardwareaccelereret skalering, der når op til 20 PetaFLOPS i FP4Arkitekturen inkorporerer også tensorhukommelse tæt på computerenhederne (TMEM), hvilket begrænser energiomkostningerne ved dataflytning og øger den vedvarende ydeevne.

Til forbrug, serien GeForce RTX 50 Den arver FP4-funktioner med AI-ydeevne på op til 4.000 TOPS og accelererer billedgenerering (f.eks. FLUX) med op til 3,9 gange sammenlignet med FP8 i specifikke scenarier, hvilket demonstrerer, at 4-bit inferens ikke kun er en datacenterting.

  AMD Magnus, Robin, Orion og Canis: De hemmelige chips, der vil definere den næste generation af konsoller

I den større ende hæver Blackwell Ultra (B300/GB300) barren med 288 GB HBM3E og 1,5 gange mere ydeevne end B200, der rækker ud i NVL72-konfigurationer for at røre 1,1 exaFLOPS pr. system i tæt FP4. Dette lægger grunden til at servere modeller med hundredvis af milliarder parametre på færre maskiner.

Målinger: Flere tokens, færre watt og hukommelse under kontrol

Produktions- og benchmarkdata tegner et ensartet billede. På DeepSeek-R1 671B, Springet til FP4 i B200 tredobler præstationen sammenlignet med FP8 i H200, hvor DGX B200-systemer overstiger 30.000 tokens/sNøjagtigheden lider næppe: MMLU falder fra 90,8% til 90,7% ved kvantisering fra FP8 til FP4.

I hukommelsen er tallene overvældende. En LLM som Llama 3.1 405B øges fra 140 GB i FP32 til 17,5 GB i FP4, en 8x reduktion, der gør det muligt at servere massive modeller på færre GPU'er. Ved billedgenerering kan en FLUX-konfiguration falde fra 51,4 GB i FP16 til 9,9 GB i FP4 med minimal synshandicap og tilpasning til beskeden VRAM.

MLPerf v5.0 understøtter flytningen: den gennemsnitlige gennemløbshastighed på Llama 2 70B foldet sammenlignet med det foregående år, og de bedste resultater forbedredes med 3,3 gange. Inden for energi var tokenen
fra H100 til 10 J falder til 0,4 J i B200 allerede 0,2 J i B300, dvs. op til 50 gange mere effektivitetOversat til forretningsmæssige termer forventes der et fald på næsten 90 % i inferensomkostninger i løbet af 2024-2025.

I brugerens ende modelleres billedet og teksten med NVFP4 udnytter flere tokens pr. dollar, med rapporter om op til 40% forbedring i forhold til alternativer, noget der kombineres godt med det mindre hukommelsesfodaftryk og den nemme betjening af store modeller.

Adoption: clouds, virksomheder og cases fra det virkelige liv

Cloud-udbydere fører an i implementeringen af ​​FP4. Lambda Labs tilbyder HGX B200-klynger med FP4 i 1-Click-implementeringer og CoreWeave-poster 800 tokens/s i Llama 3.1 405B med GB200 GPU. Det er ikke kun NVIDIA: Meta, OpenAI og Microsoft De bruger AMD Instinct MI300X til inferens og MI350 vil ankomme med native FP4-understøttelse.

I bankvæsenet, JPMorgan evaluerer FP4 for risiko- og alternativanalyse; inden for sundhedsvæsenet er de blevet set +30% hastighed med -50% hukommelse, og i produktionen muliggøres beslutninger i realtid på enheder med begrænsede ressourcer, hvilket åbner døre, hvor der ikke var plads før.

Softwaren ledsager trinnet. TensorRT-modeloptimering leverer komplette FP4-kvantiseringspipelines; frameworks som f.eks. vLLM integrere tidlig understøttelse af NVFP4; og Knusende ansigt er vært for prækvantificerede FP4-kontrolpunkter (DeepSeek-R1, Llama 3.1, FLUX) for at accelerere produktionsimplementeringer.

For mindre computerintensive teams er der QAT-frie måder at bruge SVDQuant med en nøjagtighed tæt på kvantiseret træning; hvis maksimal nøjagtighed søges, vil QAT i FP4 Den bevarer eller endda forbedrer BF16 i familier som Nemotron 4, forudsat at processen finjusteres.

Infrastruktur: strøm, køling og nye datacenterregler

Ultralav præcision kræver en ny tegning af datacentret. Et system GB200 NVL72 forbruger 120 kW pr. rack til 72 GPU'er, hvilket er over kapaciteten i de fleste eksisterende datacentre. Alligevel er en NVL72 erstatter ni HGX H100'ere og kræver en 83% mindre energi for den samme effektive beregning.

Med en TDP på ​​~1.000 W pr. GPU, køleskab líquida Direkte chipinstallation er ikke valgfri. Kolde plader på alle hotspots muliggør brug kølevæske ved 45 ºC og køletårne, hvilket undgår dyre køleanlæg. Løsninger som f.eks. Supermicro DLC-2 De når 96 B200 pr. stativ og op til 250 kW af termisk kapacitet.

  De bedste processorer til servere

I basissoftwaren er drivere nødvendige CUDA opdateret, TensorRT-LLM med FP4-understøttelse og specialiserede kvantiseringsværktøjer. Efterkvantisering med Model Optimizer accelererer produktionsimplementering, mens træning med kvantisering maksimerer kvalitetsbevarelse.

På mellemlang sigt vil antallet af CPD'er, der er forberedt til racks, spredes. 50-120 kW, med næste generations køle- og energistyringsløsninger. Softwaremodenheden vil fortsætte med at forbedres med sømløse integrationer og pipelines automatiseret kvantisering.

Netværk og skalerbarhed: NVLink 5, switche og fotonik

Sammenkoblingsstrukturen er den anden halvdel af ydeevne. 5. generation af NVLink fordobler båndbredden og giver dig mulighed for at tilmelde dig op til 576 GPUHvert effektivt link tilbyder ~50 GB/s pr. retningmed 18 links pr. GPU når den samlede båndbredde ~1,8 TB / s, mere end 14 gange end PCIe Gen5.

Kontakten NVIDIA NVLink bidrager med op til 130 TB / s pr. NVL72-domæne, essentielt for parallelisme på modelskala. Derudover understøttes protokol SHARP For hierarkiske reduktioner accelererer det præcisioner som FP8 i kritiske kollektive operationer.

NVIDIA arbejder også på netværk med Quantum-X800 InfiniBand y Spectrum-X800 Ethernet, med switchfamilier, der spænder fra 128 til 512 800G-porte, plus 200G-muligheder med høj densitet og integreret væskekøling for at opretholde ydeevnen.

med NVIDIA Photonics, optiske motorer integreret i switch ASIC-pakken erstatter traditionelle pluggbare transceivere og fremmer op til 3,5× effektivitet, 10 gange mere robusthed og 1,3 gange hurtigere implementeringer, hvilket baner vejen for optiske datacentre med høj tæthed.

Software- og platformøkosystem: Dynamo, AI-Q, Mission Control, NIM og OVX

For at presse Blackwell har NVIDIA introduceret flere nøgleelementer. Dynamo er en open source-inferensplatform designet til at skalere en enkelt forespørgsel mellem GPU'er via NVLink, med forbedringer på op til 30x i læs med argumentation intens som DeepSeek R1 og fordobling af gennemløbshastigheden på Hopper uden at ændre hardware.

AI-Q (plus AgentIQ) foreslår et åbent multi-agent framework, der integrerer virksomhedsdata, eksterne værktøjer og andre agenter, hvilket muliggør sammensatte systemer, der er i stand til grund om tekst, billeder og videoer, med integrationer i frameworks som CrewAI, LangGraph eller Azure AI Agent Service.

På det operationelle lag, Mission Control Automatiserer end-to-end-orkestrering af AI-datacentre med problemfri skift mellem træning og inferens. 5 gange mere udnyttelse og jobgenopretning 10 gange hurtigereDerudover er Base Command Manager nu tilgængelig uden omkostninger for op til otte acceleratorer pr. system.

Batteriet NVIDIA NIM tilføjer virksomhedsklare generative AI-mikrotjenester. For sin del, OVX-systemer De er orienteret mod generativ AI og intensiv grafik, ledsaget af et program af lagringsvalidering med DDN, Dell PowerScale, NetApp, Pure Storage eller WEKA for at garantere gennemløb og skalering i produktionen.

Professionelle produkter: RTX Pro Blackwell, DGX Station og DGX Spark

den nye familie RTX Pro Blackwell Opdater den professionelle linje med op til 96 GB hukommelse i Pro 6000 og opefter 4.000 TOPS AI, 4. generations RT-kerner og 5. generations Tensor-kerner med FP4. I Server Edition tilføjer det vGPU og MIG at opdele en GPU i flere isolerede instanser.

I virkelige tilfælde er de blevet rapporteret 5× i strålesporing vs. RTX A6000 (Foster + Partners), op til 2x i medicinsk rekonstruktion (GE HealthCare), bemærkelsesværdige forbedringer i VR (Rivian) og 3x produktivitet med LLM (SoftServe). Pixar påpeger, at 3,3% af deres produktionsoptagelser nu kan rumme inden for 70 GB af en enkelt GPU.

  Intel Xe3: Alt vi ved om Intels nye iGPU

DGX Station er opdateret med GB300 Grace Blackwell Ultra, 784 GB samlet hukommelse og op 20 PFLOPS i AI FP4, mere tilslutningsmuligheder 800 Gb / s med ConnectX-8. For udviklere og studerende, DGX Spark med GB10-chip og 128 GB samlet hukommelse ~1.000 TOPPER af AI og SmartNIC ConnectX‑7, hvilket gør det billigere at komme ind i økosystemet.

Exascale i et rack og brugerdefinerede superpods

Systemet DGX GB200 NVL72 fordobles fra 32 til 72 GPU og øger hukommelsen fra ~19,5 TB til ~30 TBI beregninger er springet spektakulært: fra 127 PF a 1,4 EF i FP4 (~11×), og fra 127 PF til 720 PF i FP8 (~5,6×), alt sammen i et fuldt vandkølet kabinet.

Ovenfor, den DGX SuperPOD med i alt 8 GB200 NVL72-systemer 11,5 exaFLOPS FP4 og 36 GB200 SuperChips pr. system, med forbedringer på op til 30 × sammenlignet med H100 i stor LLM-inferens, designet som en "AI-fabrik" gearet til modeller i størrelsesordenen en billion parametre.

På Grace-Blackwell-platformen, den GB200 forbinder to B200'ere med en delt Grace CPU via C2C og skalerer op til 576 GPU'er ved 1,8 TB/s Ved hjælp af NVLink 5 sammensættes massivt parallelle miljøer, der er egnede til de mest krævende AI-arbejdsbelastninger.

Moderne kvantisering: Bevarelse af intelligens ved 4 bits

FP4's succes kommer fra at kombinere hardware og softwareNVIDIA dobbeltskalering justerer fordelingen af ​​tensorværdier, og Transformer-motoren analyserer mere end 1.000 operationer at dynamisk optimere skalaer, så modeller som DeepSeek-R1 kan opnå 98,1% nøjagtige i FP4 og i nogle tests, overskride FP8-grundlinjen.

Efter træning, SmoothQuant y AWQ har gjort det muligt at montere modeller på størrelse med en Falcon 180B på en enkelt GPU. Hvis du har brug for at bevare maksimal ydeevne, er QAT-emulering af FP4 Under finjustering hjælper det med at tilpasse vægtfordelingen. Familier som Nemotron 4 viser FP4 tabsfri ved QAT, på eller over BF16.

Ved komplicerede tilfælde, håndtering af Atypiske værdier undgår aktiveringskollaps, og strategier til blandet præcision hæve bits i kritiske operationer. Resultatet: FP4 er levedygtig i tætte arkitekturer og også i Blanding af eksperter, med en præcision der ikke går på kompromis med produktionen.

Køreplan og tilgængelighed

Når man ser fremad, Vera Rubin-generationen sigte mod 50 PFLOPS FP4 GPU-tæt, med ConnectX‑9, NVLink‑6 og hukommelse HBM4 (+1,6x båndbredde). CPU-GPU-forbindelsen vil også øges til ~1,8 TB/s, og Rubin Ultra vil hæve barren igen til 100 PFLOPS FP4 y 1 TB HBM4e.

På AMD-siden, arkitekturen CDNA 4 driver Matrix Cores med understøttelse af FP4 og FP6, hvilket fordobler ydeevnen i forhold til den forrige generation og tilføjer sparsity for at accelerere yderligere, noget særligt interessant i Mixture of Experts-modeller.

Den mest umiddelbare begrænsning er ikke teknisk, men hardwareforsyningMeget af B200/B300-produktionen i 2025 er dedikeret til hyperscalere. Alligevel forårsager effekten på omkostningerne pr. token og energieffektiviteten en reel demokratisering, hvilket bringer banebrydende funktioner til små organisationer takket være fremskridt inden for hukommelse og beregning pr. watt.

nvidia blackwell ultra gb300
relateret artikel:
NVIDIA Blackwell Ultra GB300: Arkitektur, hukommelse og NVLink 5