- NVFP4 kombinuje E2M1 sa dvostrukim skaliranjem (FP8 po mikrobloku i FP32 po tenzoru) kako bi se smanjila greška kvantizacije za 88%.
- U Blackwellu, FP4 postiže do 20 PFLOPS-a po GPU-u i 3x bolje performanse od FP8 u stvarnim slučajevima, uz minimalan pad tačnosti.
- Memorija naglo opada (do 8x), energija po tokenu pada do 50x, a troškovi inferencije padaju za skoro 90%.
- Ekosistem već podržava FP4 (TensorRT, vLLM, HF), a infrastruktura je unapređena sa NVLink 5, tečnim hlađenjem i 120 kW rackovima.
Razgovor o preciznim formatima u umjetnoj inteligenciji ubrzao se dolaskom NVFP4, i to s dobrim razlogom: smanjite bitove bez gubitka kvalitete radikalno mijenja ekonomiju zaključivanja. U ovom vodiču ćete saznati šta je NVFP4, kako se razlikuje od FP8 i BF16 i zašto ga velike (i ne tako velike) kompanije već usvajaju, od podatkovnih centara do desktop računara.
Osim marketinške pompe, postoje i čvrsti podaci: Energija po žetonu smanjena do 50 puta, rekordni protok tokena u sekundi i memorija koja se smanjuje na djelić bez narušavanja tačnosti. Ipak, vrijedi odvojiti naslove od praktične stvarnosti, jer uticaj zavisi od hardvera, numeričkog skaliranja i načina na koji je svaki model kvantizovan i optimizovan.
Šta je NVFP4 i kako je bolji od FP8 i BF16?
NVFP4 je NVIDIA-in prijedlog za ultra niska preciznost Dizajniran za zaključivanje pomoću umjetne inteligencije. Predstavlja brojeve sa E2M1 (1 bit predznaka, 2 bita eksponenta i 1 bit mantise) i dodaje ključni sastojak: skaliranje u dva nivoa što drastično smanjuje grešku kvantizacije u poređenju sa jednostavnijim aproksimacijama.
Ova dvoetažna shema kombinuje faktor FP8 E4M3 skala primijenjena na mikroblokove od 16 vrijednosti s globalnim skaliranjem tenzora u FP32. Zahvaljujući ovoj kombinaciji, a 88% manje grešaka nego osnovnija rješenja s potencom dva poput MXFP4, pojačavajući numeričku stabilnost s tako malo bitova.
Nasuprot tome, FP8 (E4M3 ili E5M2) već znatno smanjuje troškove u poređenju sa FP16/BF16, ali NVFP4 ide korak dalje dodatno smanjujući memoriju i potrošnju energije. BF16 održava sličan dinamički raspon kao FP32 s manje bitova u mantisi, idealno za obuku i okruženja gdje je stabilnost gradijenta ključna, ali za masovno zaključivanje, dobro skalirani 4-bitni opseg pravi razliku.
Praktična posljedica: kod dobro prilagođenih radnih opterećenja, NVFP4 održava vrlo visoku tačnost na više formate, ali sa izuzetnim skokovima u brzini i efikasnosti. Sve zavisi od kvantizacije, kalibracije i izvorne hardverske podrške.

Blackwell Architecture: Mišić iza NVFP4
Dolazak Blackwella bio je katalizator za uzlet NVFP4. GPU B200 integriše 208.000 milijardi tranzistora u dizajnu s dva čipa, povezan putem 10 TB/s NV-HBI sučelja koje je transparentno za softver, osiguravajući ujednačeno ponašanje.
u Tenzorske jezgre pete generacije izvorno podržava NVFP4 sa hardverski ubrzanim skaliranjem, dosežući do 20 PetaFLOPS-a u FP4Arhitektura također uključuje tenzorsku memoriju blizu računskih jedinica (TMEM), ograničavajući troškove energije za kretanje podataka i povećavajući održive performanse.
Za konzumaciju, serija GeForce RTX 50 Nasljeđuje FP4 mogućnosti s AI performansama do 4.000 TOPS i ubrzava generiranje slika (npr. FLUX) do... 3,9 puta više u poređenju sa FP8 u specifičnim scenarijima, demonstrirajući da 4-bitno zaključivanje nije samo stvar podatkovnih centara.
U širem smislu, Blackwell Ultra (B300/GB300) podiže ljestvicu... 288GB HBM3E i 1,5x više performansi nego B200, dosežući u NVL72 konfiguracijama za dodir 1,1 exaFLOPS-a po sistemu u gustom FP4. Ovo postavlja temelje za posluživanje modela sa stotinama milijardi parametara na manjem broju mašina.
Metrike: Više tokena, manje vati i memorija pod kontrolom
Podaci o proizvodnji i benchmarking podacima daju konzistentnu sliku. Na DeepSeek-R1 671B, Prelazak na FP4 u B200 utrostručuje performanse u poređenju sa FP8 u H200, pri čemu DGX B200 sistemi premašuju 30.000 tokena/sTačnost jedva da pati: MMLU pada sa 90,8% na 90,7% prilikom kvantizacije od FP8 do FP4.
U sjećanju, brojke su ogromni. LLM kao Llama 3.1 405B se povećava sa 140 GB u FP32 na 17,5 GB u FP4, smanjenje od 8 puta koje omogućava posluživanje masivnih modela na manjem broju GPU-ova. Prilikom generiranja slika, FLUX konfiguracija može pasti sa 51,4 GB u FP16 do 9,9 GB u FP4 sa minimalnim oštećenjem vida i prilagođavanjem skromnom VRAM-u.
MLPerf v5.0 podržava premještanje: prosječni protok Lama 2 70B presavijena u poređenju s prethodnom godinom, a najbolji rezultati su se poboljšali 3,3 puta. U energetici, token
od H100 do 10 J pada na 0,4 J u B200 već 0,2 J u B300, tj. do 50x veća efikasnostPrevedeno u poslovne termine, očekuje se pad troškova zaključivanja od gotovo 90% tokom 2024-2025.
Na strani korisnika, modeli slike i teksta sa NVFP4 koristi više tokena po dolaru, sa izvještajima o poboljšanju do 40% u odnosu na alternative, nešto što se dobro kombinuje sa manjim memorijskim otiskom i lakoćom posluživanja velikih modela.
Usvajanje: oblaci, kompanije i slučajevi iz stvarnog života
Pružatelji usluga u oblaku predvode usvajanje FP4. Lambda Labs nudi HGX B200 klastere sa FP4 u implementacijama jednim klikom i CoreWeave zapisima 800 tokena/s u Llama 3.1 405B sa GB200 GPU-om. Nije sve NVIDIA: Meta, OpenAI i Microsoft Oni koriste AMD Instinct MI300X u zaključivanju i MI350 stići će s izvornom podrškom za FP4.
U bankarstvu, JPMorgan procjenjuje FP4 za analizu rizika i alternativa; u zdravstvu su viđeni +30% brzine con -50% memorije, a u proizvodnji, odluke u realnom vremenu su omogućene na uređajima sa ograničenim resursima, otvarajući vrata tamo gdje prije nije bilo mjesta.
Softver prati taj korak. Optimizator modela TensorRT pruža potpune FP4 kvantizacijske cjevovode; okvire kao što su vLLM integrirati ranu podršku za NVFP4; i Zagrljeno lice sadrži prethodno kvantizirane FP4 kontrolne tačke (DeepSeek-R1, Llama 3.1, FLUX) kako bi se ubrzalo raspoređivanje u produkciji.
Za timove koji koriste manje računarske resurse, postoje načini korištenja bez QAT-a. SVDQuant sa tačnošću bliskom kvantizovanom obučavanju; ako se traži maksimalna tačnost, QAT u FP4 Zadržava ili čak poboljšava BF16 u porodicama kao što je Nemotron 4, pod uslovom da je proces fino podešen.
Infrastruktura: napajanje, hlađenje i novi propisi za podatkovne centre
Ultra-niska preciznost zahtijeva ponovno iscrtavanje podatkovnog centra. Sistem GB200 NVL72 troši 120 kW po racku za 72 GPU-a, što je iznad kapaciteta većine postojećih podatkovnih centara. Uprkos tome, NVL72 zamjenjuje devet HGX H100 i zahtijeva 83% manje energije za isti efektivni proračun.
Sa TDP-om od ~1.000 W po GPU-u, tečno hlađenje Direktna ugradnja čipa nije opcionalna. Hladne ploče na svim vrućim tačkama omogućavaju upotrebu rashladna tečnost na 45 ºC i rashladne tornjeve, izbjegavajući skupe hladnjake. Rješenja kao što su Supermicro DLC-2 Dostižu 96 B200 po racku i do 250 kW termalnog kapaciteta.
U osnovnom softveru potrebni su drajveri CUDA ažurirana, TensorRT-LLM sa podrškom za FP4 i specijalizovanim alatima za kvantizaciju. Postkvantizacija sa Model Optimizer-om ubrzava implementaciju u produkciji, dok trening s kvantizacijom maksimizira zadržavanje kvalitete.
Gledajući srednjoročno, broj CPD-ova pripremljenih za regale će se umnožiti. 50-120 kW, sa rješenjima za hlađenje i upravljanje energijom sljedeće generacije. Zrelost softvera će se nastaviti poboljšavati sa besprijekorne integracije i cjevovodi automatska kvantizacija.
Umrežavanje i skalabilnost: NVLink 5, prekidači i fotonika
Međusobno povezana tkanina je druga polovina performansi. Peta generacija NVLink udvostručuje propusnost i omogućava vam da se pridružite do 576 GPUSvaki efektivni link nudi ~50 GB/s po smjeru; sa 18 linkova po GPU-u, ukupna propusnost dostiže ~1,8 TB / s, više od 14× nego PCIe Gen5.
El conmutador NVIDIA NVLink doprinosi do 130 TB / s po NVL72 domenu, što je neophodno za paralelizam na nivou modela. Pored toga, podrška za protokol SHARP Za hijerarhijske redukcije ubrzava preciznost poput FP8 u kritičnim kolektivnim operacijama.
NVIDIA također gura u umrežavanje sa Quantum-X800 InfiniBand y Spectrum-X800 Ethernet, s porodicama prekidača u rasponu od 128 do 512 800G portova, plus opcijama visoke gustoće od 200G i integriranim tekućim hlađenjem za održavanje performansi.
con NVIDIA PhotonicsOptički mehanizmi integrirani u ASIC paket prekidača zamjenjuju tradicionalne priključne primopredajnike, promovirajući do 3,5× efikasnost, 10 puta veća otpornost i 1,3 puta brže implementacije, otvarajući put optičkim podatkovnim centrima visoke gustoće.
Softverski i platformski ekosistem: Dynamo, AI-Q, Mission Control, NIM i OVX
Kako bi nadmašila Blackwell, NVIDIA je predstavila nekoliko ključnih dijelova. Dinamo je platforma za inferenciju otvorenog koda dizajnirana za skaliranje jednog upita između GPU-ova putem NVLink-a, s poboljšanjima do 30x u opterećenjima s obrazloženjem intenzivan kao DeepSeek R1 i udvostručavanje propusnosti na Hopperu bez promjene hardvera.
AI-Q (plus AgentIQ) predlaže otvoreni multi-agentski okvir koji integriše poslovne podatke, eksterne alate i druge agente, olakšavajući kompozitne sisteme sposobne za razlog u vezi s tekstom, slikama i videozapisima, s integracijama u okvire kao što su CrewAI, LangGraph ili Azure AI Agent Service.
Na operativnom sloju, Kontrola misije Automatizira end-to-end orkestraciju AI podatkovnih centara, s besprijekornim prebacivanjem između obuke i zaključivanja, 5 puta veća iskorištenost i oporavak od posla 10 puta bržeOsim toga, Base Command Manager je sada dostupan besplatno za do osam akceleratora po sistemu.
Baterija NVIDIA NIM dodaje generativne AI mikroservise spremne za preduzeća. Sa svoje strane, OVX sistemi Orijentisani su ka generativnoj umjetnoj inteligenciji i intenzivnoj grafici, uz program validacija skladištenja sa DDN-om, Dell PowerScale-om, NetApp-om, Pure Storage-om ili WEKA-om kako bi se garantovao protok i skaliranje u produkciji.
Profesionalni proizvodi: RTX Pro Blackwell, DGX Station i DGX Spark
nova porodica RTX Pro Blackwell Ažurirajte profesionalnu liniju sa do 96 GB memorije u Pro 6000 i novijim verzijama 4.000 TOPS AI, RT jezgre 4. generacije i Tensor jezgre 5. generacije sa FP4. U Server izdanju dodaje vGPU i MIG podijeliti GPU na više izoliranih instanci.
U stvarnim slučajevima, prijavljeni su 5× u praćenju zraka u odnosu na RTX A6000 (Foster + Partners), do 2x u medicinskoj rekonstrukciji (GE HealthCare), značajna poboljšanja u VR-u (Rivian) i 3x veća produktivnost sa LLM (SoftServe). Pixar ističe da 3,3% njihovog produkcijskog materijala sada stane u 70 GB jednog GPU-a.
DGX stanica ažuriran je sa GB300 Grace Blackwell Ultra, Objedinjena memorija od 784 GB i više 20 PFLOPS-a u AI FP4, više povezanosti 800 Gb / s sa ConnectX-8. Za programere i studente, DGX Spark sa GB10 čipom i 128 GB objedinjene memorije nudi ~1.000 NAJVIŠIH AI-a i SmartNIC ConnectX‑7, što čini ulazak u ekosistem jeftinijim.
Exascale u racku i prilagođeni superpodovi
Sistem DGX GB200 NVL72 parovi od 32 do 72 GPU i povećava memoriju sa ~19,5 TB na ~30 TBU računanju, skok je spektakularan: od 127 PF a 1,4 EF u FP4 (~11×), i od 127 PF do 720 PF u FP8 (~5,6×), sve u potpuno vodeno hlađenom kućištu.
Iznad, DGX SuperPOD sa ukupno 8 GB200 NVL72 sistema 11,5 exaFLOPS-a FP4 i 36 GB200 SuperChipova po sistemu, sa poboljšanjima do 30 × u poređenju sa H100 u velikom LLM zaključivanju, dizajniranom kao "fabrika vještačke inteligencije" prilagođena modelima reda veličine trilion parametara.
Na platformi Grace-Blackwell, GB200 povezuje dva B200 sa zajedničkim Grace CPU-om putem C2C-a i skalira se do 576 GPU-a pri 1,8 TB/s koristeći NVLink 5, sastavljajući masovno paralelna okruženja pogodna za najzahtjevnija AI opterećenja.
Moderna kvantizacija: Očuvanje inteligencije na 4 bita
Uspjeh FP4 dolazi od kombinovanja hardvera i softveraNVIDIA dvostruko skaliranje se prilagođava distribuciji tenzorskih vrijednosti, a Transformer engine analizira više od 1.000 operacija dinamički optimizirati skale, omogućavajući modelima poput DeepSeek‑R1 da postignu Tačnost 98,1% u FP4 i, u nekim testovima, premašiti osnovnu liniju FP8.
U periodu nakon obuke, SmoothQuant y AWQ omogućili su da se modeli veličine Falcona 180B smjeste na jednu grafičku karticu. Ako trebate sačuvati maksimalne performanse, QAT emulira FP4 Tokom finog podešavanja, pomaže u prilagođavanju raspodjele težine. Porodice poput Nemotrona 4 pokazuju FP4 bez gubitaka po QAT-u, na ili iznad BF16.
Za komplikovane slučajeve, upravljanje Atipične vrijednosti izbjegava kolapse aktivacije i strategije za mješovita preciznost povećavaju broj bitova u kritičnim operacijama. Rezultat: FP4 je održiv u gustim arhitekturama, a također i u Mješavina stručnjaka, s preciznošću koja ne žrtvuje proizvodnju.
Plan puta i dostupnost
Gledajući unaprijed, Generacija Vere Rubin ukazati na 50 PFLOPS-a FP4 Gustoća GPU-a, sa ConnectX‑9, NVLink‑6 i memorija HBM4 (+1,6x propusni opseg). Međusobna veza CPU-GPU će se također povećati na ~1,8 TB/s, a Rubin Ultra će ponovo podići ljestvicu na 100 PFLOPS-a FP4 y 1 TB HBM4e memorije.
Sa AMD strane, arhitektura CDNA 4 pokreće Matrix Cores s podrškom za FP4 i FP6, udvostručujući performanse u poređenju s prethodnom generacijom i dodajući rijetkost za još veće ubrzanje, nešto posebno zanimljivo kod modela Mixture of Experts.
Najneposrednije ograničenje nije tehničke prirode, već snabdijevanje hardveromVeliki dio proizvodnje B200/B300 za 2025. godinu namijenjen je hiperskalerima. Ipak, utjecaj na cijenu po tokenu i energetsku efikasnost uzrokuje... prava demokratizacija, donoseći najsavremenije mogućnosti malim organizacijama zahvaljujući skokovima u memoriji i računarstvu po vatu.