NVFP4: Kas tas ir un kā tas pārspēj FP8 un BF16 mākslīgā intelekta jomā.

Pēdējā atjaunošana: 8 oktobris 2025
Autors: Isaac
  • NVFP4 apvieno E2M1 ar divkāršu mērogošanu (FP8 uz mikrobloku un FP32 uz tenzoru), lai samazinātu kvantēšanas kļūdu par 88%.
  • Blackwell uzņēmumā FP4 sasniedz līdz pat 20 PFLOPS uz vienu GPU un 3 reizes labāku veiktspēju nekā FP8 reālos gadījumos, ar minimāliem precizitātes kritumiem.
  • Atmiņas apjoms strauji samazinās (līdz pat 8 reizēm), enerģija uz vienu marķieri samazinās līdz pat 50 reizēm, un secinājumu izmaksas samazinās gandrīz par 90%.
  • Ekosistēma jau atbalsta FP4 (TensorRT, vLLM, HF), un infrastruktūra tiek attīstīta ar NVLink 5, šķidruma dzesēšanu un 120 kW plauktiem.

NVFP4 formāts un AI precizitāte

Sarunas par precīziem formātiem mākslīgajā intelektā ir paātrinājušās līdz ar NVFP4 parādīšanos, un tam ir labs iemesls: samaziniet bitus, nezaudējot kvalitāti radikāli maina secinājumu ekonomisko pamatojumu. Šajā rokasgrāmatā jūs uzzināsiet, kas ir NVFP4, kā tas atšķiras no FP8 un BF16, un kāpēc lieli (un ne tik lieli) uzņēmumi to jau izmanto, sākot no datu centriem līdz pat galddatoriem.

Papildus mārketinga ažiotāžai ir arī pārliecinoši dati: Enerģijas patēriņš uz vienu žetonu, kas sagriezts līdz pat 50 reizēm, rekordliels marķieru plūsmu skaits sekundē un atmiņas samazināšanās līdz niecīgai daļai, nemazinot precizitāti. Tomēr ir vērts nodalīt virsrakstus no praktiskās realitātes, jo ietekme ir atkarīga no aparatūras, skaitliskās mērogošanas un katra modeļa kvantizācijas un optimizācijas veida.

Kas ir NVFP4 un kā tas uzlabojas, salīdzinot ar FP8 un BF16?

NVFP4 ir NVIDIA priekšlikums par īpaši zema precizitāte Izstrādāts mākslīgā intelekta secinājumiem. Tas attēlo skaitļus ar E2M1 (1 zīmes bits, 2 eksponenta biti un 1 mantisas bits) un pievieno galveno sastāvdaļu: mērogošana divos līmeņos kas ievērojami samazina kvantēšanas kļūdu salīdzinājumā ar vienkāršākām aproksimācijām.

Šī divu līmeņu shēma apvieno koeficientu FP8 E4M3 mērogs, kas piemērots mikroblokiem no 16 vērtībām ar globālu tenzoru mērogošanu FP32. Pateicoties šai kombinācijai, a Par 88% mazāk kļūdu nekā vienkāršāki divu jaudas risinājumi, piemēram, MXFP4, pastiprinot skaitlisko stabilitāti ar tik nelielu bitu skaitu.

Turpretī FP8 (E4M3 vai E5M2) jau tagad ievērojami samazina izmaksas salīdzinājumā ar FP16/BF16, taču NVFP4 iet soli tālāk vēl vairāk samazinot atmiņas un jaudas patēriņu. BF16 saglabā līdzīgu dinamisko diapazonu kā FP32 ar mazāku bitu skaitu mantisā, kas ir ideāli piemērots apmācībai un vidēm, kur gradienta stabilitāte ir galvenā, bet masīvas secināšanas nolūkos labi mērogotais 4 bitu diapazons rada atšķirību.

Praktiskās sekas: labi pielāgotās darba slodzēs NVFP4 saglabā ļoti labu precizitāti uz augstākiem formātiem, taču ar ievērojamiem ātruma un efektivitātes lēcieniem. Viss ir atkarīgs no kvantizācijas, kalibrēšanas un vietējā aparatūras atbalsta.

Blackwell Architecture un NVFP4

Blackwell arhitektūra: NVFP4 pamatā esošie muskuļi

Blackwell ierašanās ir bijusi katalizators NVFP4 uzplaukumam. GPU B200 integrē 208.000 miljardus tranzistoru divu mikroshēmu konstrukcijā, kas savienota ar 10 TB/s NV-HBI saskarni, kas ir caurspīdīga programmatūrai, nodrošinot vienotu darbību.

L Piektās paaudzes tenzora kodoli dabiski atbalsta NVFP4 ar aparatūras paātrinātu mērogošanu, sasniedzot līdz pat 20 PetaFLOPS 4. pamatprogrammāArhitektūra ietver arī tenzoru atmiņu tuvu skaitļošanas vienībām (TMEM), ierobežojot datu pārvietošanas enerģijas izmaksas un palielinot ilgtspējīgu veiktspēju.

Patēriņam sērija GeForce RTX 50 Tas manto FP4 iespējas ar AI veiktspēju līdz pat 4.000 TOPS un paātrina attēlu ģenerēšanu (piemēram, FLUX) līdz pat 3,9 reizes salīdzinājumā ar 8. FP konkrētos scenārijos, pierādot, ka 4 bitu secinājumi nav tikai datu centra lieta.

  Amlogic S905X2: funkcijas, specifikācijas un cenas

Lielākajā galā Blackwell Ultra (B300/GB300) paceļ latiņu ar 288 GB HBM3E un 1,5 reizes lielāka veiktspēja nekā B200, sniedzoties NVL72 konfigurācijās, lai pieskartos 1,1 eksaFLOPS katrā sistēmā blīvā 4. FP. Tas liek pamatus modeļu ar simtiem miljardu parametru apkalpošanai uz mazāka skaita iekārtām.

Metrika: vairāk žetonu, mazāk vatu un kontrolēta atmiņa

Ražošanas un salīdzinošās veiktspējas dati sniedz konsekventu priekšstatu. DeepSeek-R1 671B gadījumā Pāreja uz FP4 B200 modelī trīskāršo veiktspēju salīdzinājumā ar 8. FP2 programmā “H200”, kur DGX B200 sistēmas pārsniedz 30.000 žetoni/sPrecizitāte gandrīz necieš: kvantizējot no FP8 uz FP4, MMLU samazinās no 90,8 % līdz 90,7 %.

Atmiņā skaitļi ir milzīgi. LLM, piemēram Llama 3.1 405B palielinās no 140 GB FP32 līdz 17,5 GB FP4, 8 reižu samazinājums, kas ļauj apkalpot masīvus modeļus ar mazāku grafisko procesoru skaitu. Attēlu ģenerēšanā FLUX konfigurācija var samazināties no 51,4 GB FP16 versijā līdz 9,9 GB FP4 versijā ar minimāliem redzes traucējumiem un pielāgojoties pieticīgai VRAM atmiņai.

MLPerf v5.0 atbalsta pārvietošanu: vidējā caurlaidspēja Lama 2 70B salocīts salīdzinājumā ar iepriekšējo gadu, un labākie rezultāti uzlabojās 3,3 reizes. Enerģijas jomā žetons
no H100 līdz 10 J samazinās līdz 0,4 J B200 gadījumā jau 0,2 J B300, t.i. līdz pat 50 reizēm lielāka efektivitāteUzņēmējdarbības izteiksmē paredzams, ka secinājumu izmaksas laika posmā no 2024. līdz 2025. gadam samazināsies par gandrīz 90 %.

Lietotāja pusē attēlu un teksta modeļi ar NVFP4 izmanto vairāk žetonu uz vienu dolāru, ar ziņojumiem par līdz pat 40% uzlabojumu salīdzinājumā ar alternatīvām, kas labi apvieno mazāku atmiņas patēriņu un lielu modeļu apkalpošanas vienkāršību.

Pieņemšana: mākoņi, uzņēmumi un reālās dzīves piemēri

Mākoņpakalpojumu sniedzēji ir FP4 ieviešanas līderi. Lambda Labs piedāvā HGX B200 klasterus ar FP4 1 klikšķa izvietojumos un CoreWeave ierakstos 800 žetoni/s Llama 3.1 405B ar GB200 GPU. Tas nav tikai NVIDIA: Meta, OpenAI un Microsoft Viņi secinājumos izmanto AMD Instinct MI300X. MI350 būs pieejams ar vietējo FP4 atbalstu.

Banku sektorā JPMorgan izvērtē 4. pamatprogrammu risku un alternatīvu analīzei; veselības aprūpē tie ir novēroti +30% ātrums ar -50% atmiņas, un ražošanā reāllaika lēmumi ir iespējoti ierīcēs ar ierobežotiem resursiem, atverot durvis tur, kur iepriekš nebija vietas.

Programmatūra ir pievienota solim. TensorRT modeļa optimizētājs nodrošina pilnus FP4 kvantēšanas cauruļvadus; tādus ietvarus kā vLLM integrēt agrīnu atbalstu NVFP4; un Apskāviena seja satur iepriekš kvantizētus FP4 kontrolpunktus (DeepSeek-R1, Llama 3.1, FLUX), lai paātrinātu ražošanas ieviešanu.

Komandām, kurām nepieciešama mazāka skaitļošanas jauda, ​​ir pieejamas metodes bez QAT izmantošanas. SVDQuant ar precizitāti, kas ir tuvu kvantizētai apmācībai; ja tiek meklēta maksimāla precizitāte, QAT 4. pamatprogrammā Tas saglabā vai pat uzlabo BF16 tādās saimēs kā Nemotron 4, ja process tiek precīzi noregulēts.

Infrastruktūra: elektroenerģijas padeve, dzesēšana un jauni datu centru noteikumi

Īpaši zema precizitāte prasa datu centra pārzīmēšanu. Sistēma GB200 NVL72 patērē 120 kW uz vienu statīvu 72 GPU, kas pārsniedz vairuma esošo datu centru ietilpību. Pat ja tā, NVL72 aizstāj deviņus HGX H100 un prasa Par 83% mazāk enerģijas par to pašu efektīvo aprēķinu.

Ar TDP ~1.000 W uz vienu GPU, šķidruma dzesēšana Tieša mikroshēmas uzstādīšana nav obligāta. Aukstās plāksnes visos karstajos punktos ļauj izmantot Dzesēšanas šķidrums 45 °C temperatūrā un dzesēšanas torņus, izvairoties no dārgiem dzesētājiem. Risinājumi, piemēram, Supermicro DLC-2 Tie sasniedz 96 B200 uz plauktu un līdz pat 250 kW siltumietilpības.

  Ligzda AM5 salīdzinājumā ar LGA 1700

Bāzes programmatūrā ir nepieciešami draiveri CUDA atjaunināts, TensorRT-LLM ar FP4 atbalstu un specializētiem kvantēšanas rīkiem. Pēckvantēšana ar Model Optimizer paātrina ražošanas ieviešanu, savukārt apmācība ar kvantizāciju maksimāli palielina kvalitātes saglabāšanu.

Raugoties vidējā termiņā, pieaugs tādu profesionālās pilnveides programmu (CPD) skaits, kas paredzētas lietošanai plauktos. 50-120 kW, ar nākamās paaudzes dzesēšanas un enerģijas pārvaldības risinājumiem. Programmatūras briedums turpinās uzlaboties, nemanāmas integrācijas un cauruļvadi automatizēta kvantēšana.

Tīklošana un mērogojamība: NVLink 5, slēdži un fotonika

Savienojošais audums ir otra puse no veiktspējas. 5. paaudze NVLink dubulto joslas platumu un ļauj jums pievienoties līdz pat 576 GPUKatra efektīvā saite piedāvā ~50 GB/s katrā virzienā; ar 18 saitēm uz GPU kopējais joslas platums sasniedz ~1,8 TB / s, vairāk nekā 14 reizes nekā PCIe Gen5.

El conmutador NVIDIA NVLink veicina līdz pat 130 TB / s katrā NVL72 domēnā, kas ir būtiski modeļa mēroga paralēlismam. Turklāt protokolu atbalsts SHARP hierarhisku redukcijas gadījumā tas paātrina precizitāti, piemēram, FP8, kritiskās kolektīvās darbībās.

NVIDIA arī ievieš tīklus ar Quantum-X800 InfiniBand y Spectrum-X800 Ethernet, ar slēdžu saimēm, sākot no 128 līdz 512 800G pieslēgvietām, kā arī augsta blīvuma 200G opcijām un integrētu šķidruma dzesēšanu veiktspējas uzturēšanai.

ar NVIDIA fotonika, slēdža ASIC korpusā integrētie optiskie dzinēji aizstāj tradicionālos pieslēdzamos raidītājus, veicinot līdz pat 3,5x efektivitāte, 10 reizes lielāka noturība un 1,3 reizes ātrāka izvietošana, kas paver ceļu augsta blīvuma optisko datu centriem.

Programmatūras un platformas ekosistēma: Dynamo, AI-Q, Mission Control, NIM un OVX

Lai saspiestu Blackwell, NVIDIA ir ieviesusi vairākus galvenos elementus. dinamo ir atvērtā pirmkoda secinājumu platforma, kas paredzēta viena vaicājuma mērogošanai starp GPU, izmantojot NVLink, ar uzlabojumiem līdz pat 30x apjomā ar pamatojumu intensīva kā DeepSeek R1 un dubultojot Hopper caurlaidspēju, nemainot aparatūru.

AI-Q (plus AgentIQ) piedāvā atvērtu daudzaģentu ietvaru, kas integrē uzņēmuma datus, ārējos rīkus un citus aģentus, atvieglojot saliktu sistēmu darbību, kas spēj iemesls tekstam, attēliem un videoklipiem, ar integrācijām tādās platformās kā CrewAI, LangGraph vai Azure AI Agent Service.

Operacionālajā slānī Mission Control Automatizē AI datu centru pilnīgu orķestrēšanu, nodrošinot nemanāmu pārslēgšanos starp apmācību un secinājumiem, 5 reizes lielāka izmantošana un darba atgūšana 10 reizes ātrākTurklāt Base Command Manager tagad ir pieejams bez maksas līdz pat astoņiem paātrinātājiem katrā sistēmā.

Akumulators NVIDIA NIM pievieno uzņēmumiem gatavus ģeneratīvos mākslīgā intelekta mikropakalpojumus. Savukārt OVX sistēmas Tie ir orientēti uz ģeneratīvu mākslīgo intelektu un intensīvu grafiku, ko papildina programma krātuves validācija ar DDN, Dell PowerScale, NetApp, Pure Storage vai WEKA, lai garantētu caurlaidspēju un mērogojamību ražošanā.

Profesionālie produkti: RTX Pro Blackwell, DGX Station un DGX Spark

jaunā ģimene RTX Pro Blekvela Atjauniniet profesionālo līniju līdz pat 96 GB atmiņas Pro 6000 un jaunākās versijās 4.000 TOPS Mākslīgais intelekts, 4. paaudzes RT kodoli un 5. paaudzes Tenzora kodoli ar FP4. Servera versijā tas pievieno vGPU un MIG sadalīt GPU vairākās izolētās instancēs.

Reālos gadījumos par tiem ir ziņots 5× staru izsekošanā salīdzinājumā ar RTX A6000 (Foster + Partners), līdz pat 2 reizēm medicīniskajā rekonstrukcijā (GE HealthCare), ievērojami uzlabojumi VR (Rivian) un 3x produktivitāte ar LLM (SoftServe). Pixar norāda, ka 3,3% no tā ražošanas videoieraksta tagad ietilpst 70 GB viena GPU ietvaros.

  SMIC testē vietēji ražotu DUV litogrāfiju

DGX stacija ir atjaunināts ar GB300 Grace Blackwell Ultra, 784 GB vienotā atmiņa un 20 PFLOPS mākslīgā intelekta FP4 programmā, vairāk savienojamības 800 Gb / s ar ConnectX-8. Izstrādātājiem un studentiem, DGX Spark ar GB10 mikroshēmu un 128 GB vienotās atmiņas piedāvājumu ~1.000 TOPS mākslīgā intelekta un SmartNIC ConnectX‑7, padarot iekļūšanu ekosistēmā lētāku.

Eksaskala plauktā un pielāgotos superpodos

Sistēma DGX GB200 NVL72 dubultojas no 32 līdz 72 GPU un palielina atmiņu no ~19,5 TB līdz ~30 TBAprēķinos lēciens ir iespaidīgs: no 127 PF a 1,4 EF 4. pamatprogrammā (~11×) un no 127 PF līdz 720 PF 8. pamatprogrammā (~5,6×), viss pilnībā ar ūdeni dzesējamā šasijā.

Virs tā, DGX SuperPOD ar kopā 8 GB200 NVL72 sistēmām 11,5 eksaFLOPS FP4 un 36 GB200 SuperChips katrā sistēmā, ar uzlabojumiem līdz pat 30 × salīdzinājumā ar H100 lielos LLM secinājumos, kas izstrādāti kā “mākslīgā intelekta rūpnīca”, kas paredzēta modeļiem triljonu parametru apjomā.

Uz Greisas-Blekvelas platformas GB200 savieno divus B200 ar koplietojamu Grace centrālo procesoru, izmantojot C2C, un mērogojas līdz 576 grafiskie procesori ar ātrumu 1,8 TB/s izmantojot NVLink 5, veidojot masveidā paralēlas vides, kas ir piemērotas visprasīgākajām mākslīgā intelekta darba slodzēm.

Mūsdienu kvantēšana: intelekta saglabāšana 4 bitos

4. FP8 panākumi rodas, apvienojot aparatūra un programmatūraNVIDIA divkāršā mērogošana pielāgojas tenzoru vērtību sadalījumam, un Transformer dzinējs veic analīzes. vairāk nekā 1.000 operācijas lai dinamiski optimizētu mērogus, ļaujot tādiem modeļiem kā DeepSeek‑R1 sasniegt 98,1% precizitāte 4. FP4 un dažos testos pārsniegt 8. pamatprogrammas bāzes līmeni.

Pēcapmācības laikā SmoothQuant y AWQ ir ļāvuši vienā grafiskajā kartē (GPU) ievietot modeļus, kuru izmērs ir Falcon 180B. Ja nepieciešams saglabāt maksimālu veiktspēju, QAT, kas atdarina FP4 Precīzas regulēšanas laikā tas palīdz pielāgot svara sadalījumu. Tādas saimes kā Nemotron 4 rāda FP4 bezzudumu pēc QAT, BF16 vai augstāk.

Sarežģītos gadījumos, vadība Netipiskas vērtības izvairās no aktivācijas sabrukumiem un stratēģijas jaukta precizitāte paaugstināt bitus kritiskās operācijās. Rezultāts: FP4 ir dzīvotspējīga blīvās arhitektūrās un arī Ekspertu maisījumsar precizitāti, kas neupurē ražošanu.

Ceļvedis un pieejamība

Raugoties nākotnē, Veras Rubinas paaudze mērķis ir 50 PFLOPS FP4 GPU blīvs, ar ConnectX‑9, NVLink‑6 un atmiņa HBM4 (+1,6x joslas platums). Arī centrālā procesora un grafiskā procesora (CPU) starpsavienojums palielināsies līdz ~1,8 TB/s, un Rubin Ultra atkal pacels latiņu, lai 100 PFLOPS FP4 y 1 TB HBM4e.

AMD pusē arhitektūra CDNA 4 darbina Matrix kodolus ar atbalstu 4. un 6. pamatprogramma, divkāršojot veiktspēju salīdzinājumā ar iepriekšējo paaudzi un pievienojot retinājumu, lai vēl vairāk paātrinātos, kas ir īpaši interesanti Mixture of Experts modeļos.

Vistiešākais ierobežojums nav tehnisks, bet gan aparatūras piegādeLiela daļa no 2025. gada B200/B300 produkcijas ir paredzēta hiperskaleriem. Tomēr ietekme uz izmaksām par vienu žetonu un energoefektivitāti rada īsta demokratizācija, nodrošinot mazām organizācijām jaunākās iespējas, pateicoties ievērojamam atmiņas un skaitļošanas jaudas pieaugumam uz vatu.

Nvidia Blackwell Ultra GB300
Saistītais raksts:
NVIDIA Blackwell Ultra GB300: arhitektūra, atmiņa un NVLink 5