NVFP4: Mis see on ja kuidas see tehisintellekti vallas FP8-st ja BF16-st parem on.

Viimane uuendus: 8 oktoober 2025
Autor: Isaac
  • NVFP4 ühendab E2M1 kahekordse skaleerimisega (FP8 mikroploki kohta ja FP32 tensori kohta), et vähendada kvantimisviga 88%.
  • Blackwellis saavutab FP4 kuni 20 PFLOPSi GPU kohta ja reaalsetes olukordades 3 korda parema jõudluse kui FP8, minimaalse täpsuse langusega.
  • Mälu väheneb järsult (kuni 8 korda), energia tokeni kohta langeb kuni 50 korda ja järelduskulud langevad ligi 90%.
  • Ökosüsteem toetab juba FP4-d (TensorRT, vLLM, HF) ning infrastruktuur areneb NVLink 5, vedelikjahutuse ja 120 kW rackidega.

NVFP4 formaat ja tehisintellekti täpsus

Arutelu tehisintellekti täppisvormingute üle on NVFP4 tulekuga kiirenenud ja see on mõistetav: vähenda bitte ilma kvaliteeti kaotamata muudab radikaalselt järelduste ökonoomikat. Selles juhendis saate teada, mis on NVFP4, kuidas see erineb FP8-st ja BF16-st ning miks suured (ja mitte nii suured) ettevõtted seda juba kasutusele võtavad, alates andmekeskustest kuni lauaarvutiteni.

Lisaks turundushüpele on olemas ka kindlaid andmeid: Energiat žetooni kohta, mis lõigatakse kuni 50 korda, rekordilisi tokenvooge sekundis ja mälu vähenemist murdosa täpsust rikkumata. Sellegipoolest tasub pealkirjad praktilisest reaalsusest eraldada, sest mõju sõltub riistvarast, numbrilisest skaleerimisest ja sellest, kuidas iga mudelit kvantiseeritakse ja optimeeritakse.

Mis on NVFP4 ja kuidas see FP8 ja BF16-ga võrreldes parem on?

NVFP4 on NVIDIA ettepanek a ülimadal täpsus Loodud tehisintellekti järeldamiseks. See esitab numbreid E2M1-ga (1 märgibitt, 2 eksponendibitti ja 1 mantissibitt) ning lisab võtmekomponendi: kahetasandiline skaleerimine mis vähendab kvantimisviga drastiliselt võrreldes lihtsamate lähendustega.

See kahetasandiline skeem ühendab endas teguri Mikroplokkidele rakendatud FP8 E4M3 skaala 16 väärtusest globaalse tensorskaleerimisega FP32-s. Tänu sellele kombinatsioonile a 88% vähem vigu kui lihtsamad kahe astme lahendused nagu MXFP4, tugevdades numbrilist stabiilsust nii väheste bittidega.

Seevastu FP8 (E4M3 või E5M2) vähendab juba FP16/BF16-ga võrreldes üsna palju kulusid, kuid NVFP4 läheb sammu võrra edasi veelgi vähendades mälu ja energiatarbimist. BF16 säilitab FP32-ga sarnase dünaamilise ulatuse, kuid mantissas on vähem bitte, mis sobib ideaalselt treenimiseks ja keskkondadeks, kus gradiendi stabiilsus on võtmetähtsusega, kuid massiivse järelduse jaoks on hästi skaleeritud 4-bitisel väljundil oluline roll.

Praktiline tagajärg: hästi kohandatud töökoormuste korral NVFP4 säilitab väga hea täpsuse kõrgematesse vormingutesse, kuid märkimisväärsete kiiruse ja efektiivsuse hüpetega. Kõik sõltub kvantiseerimisest, kalibreerimisest ja natiivsest riistvaratoest.

Blackwelli arhitektuur ja NVFP4

Blackwelli arhitektuur: NVFP4 taga peituv lihas

Blackwelli saabumine on olnud NVFP4 stardi katalüsaatoriks. GPU B200 integreerib 208.000 miljardit transistorit kahekiibilise disainiga, ühendatud 10 TB/s NV-HBI liidese kaudu, mis on tarkvara jaoks läbipaistev, tagades ühtse käitumise.

osa Viienda põlvkonna tensorsüdamikud toetab natiivselt NVFP4-d riistvarakiirendusega skaleerimisega, ulatudes kuni 20 PetaFLOP-i neljandas raamprogrammisArhitektuur hõlmab ka arvutusüksuste lähedal asuvat tensormälu (TMEM), mis piirab andmete liikumise energiakulu ja suurendab püsivat jõudlust.

Tarbimiseks, sari GeForce RTX 50 See pärib FP4 võimalused tehisintellekti jõudlusega kuni 4.000 TOPS-i ja kiirendab piltide genereerimist (nt FLUX) kuni 3,9 korda võrreldes kaheksanda raamprogrammiga konkreetsetes stsenaariumides, näidates, et 4-bitine järeldus ei ole ainult andmekeskuse asi.

  AMD Magnus, Robin, Orion ja Canis: salajased kiibid, mis määratlevad järgmise põlvkonna konsoolid

Suuremas otsas tõstab Blackwell Ultra (B300/GB300) lati uuele tasemele 288 GB HBM3E ja 1,5 korda suurem jõudlus kui B200, ulatudes NVL72 konfiguratsioonides puudutamiseni 1,1 eksaflopsi süsteemi kohta tihedas neljandas raamprogrammis. See loob aluse sadade miljardite parameetritega mudelite teenindamiseks vähematel masinatel.

Mõõdikud: rohkem märke, vähem vatte ja kontrolli all olev mälu

Tootmis- ja võrdlusandmed annavad ühtse pildi. DeepSeek-R1 671B puhul... Hüpe neljandale raamprogrammile B200-s kolmekordistab jõudlust võrreldes kaheksanda raamprogrammiga H200-s, kus DGX B200 süsteemid ületasid 30.000 märgi/sTäpsus vaevu kannatab: MMLU langeb FP8-lt FP4-le kvantiseerimisel 90,8%-lt 90,7%-le.

Mälu järgi on numbrid tohutud. Õigusteaduse magistrikraad nagu Llama 3.1 405B maht suureneb FP32-s 140 GB-lt FP4-s 17,5 GB-ni, 8-kordne vähendus, mis võimaldab massiivsete mudelite teenindamist vähemal hulgal GPU-del. Kujutise genereerimisel võib FLUX-konfiguratsioon langeda 51,4 GB FP16-s kuni 9,9 GB FP4-s minimaalse nägemispuudega ja kohandub tagasihoidliku videomäluga.

MLPerf v5.0 toetab teisaldamist: keskmine läbilaskevõime Lama 2 70B kokkupandud võrreldes eelmise aastaga ja parimad tulemused paranesid 3,3 korda. Energia valdkonnas on žetoon
alates H100 kuni 10 J langeb B200-s 0,4 J-ni juba 0,2 J B300-s, s.t. kuni 50 korda suurem efektiivsusÄriterminoloogiasse ümber panduna eeldatakse järelduskulude langust aastatel 2024–2025 peaaegu 90%.

Kasutaja poolel on pildi ja teksti mudelid koos NVFP4 kasutab dollari kohta rohkem tokeneid, kus on teatatud kuni 40% paranemisest võrreldes alternatiividega, mis sobib hästi kokku väiksema mälukasutuse ja suurte mudelite teenindamise lihtsusega.

Kasutuselevõtt: pilved, ettevõtted ja reaalsed juhtumid

Pilveteenuse pakkujad on neljanda raamprogrammi kasutuselevõtu eesotsas. Lambda Labs pakub HGX B200 klastreid FP4-ga ühe klõpsuga juurutustes ja CoreWeave'i kirjetes 800 märgi/s Llama 3.1 405B-s koos GB200 GPU-ga. See pole ainult NVIDIA: Meta, OpenAI ja Microsoft Nad kasutavad järeldustes AMD Instinct MI300X-i MI350 saabub koos natiivse FP4 toega.

Panganduses JPMorgan hindab 4. raamprogrammi riski- ja alternatiivanalüüsi; tervishoius on neid nähtud +30% kiirust koos -50% mäluja tootmises on reaalajas otsuseid võimalik langetada piiratud ressurssidega seadmetel, avades uksi seal, kus varem ruumi polnud.

Tarkvara on sammuga kaasas. TensorRT mudeli optimeerija pakub täielikke FP4 kvantiseerimiskanaleid; raamistikke nagu vLLM integreerida varajane tugi NVFP4 jaoks ja Kallistav nägu majutab eelkvantiseeritud FP4 kontrollpunkte (DeepSeek-R1, Llama 3.1, FLUX), et kiirendada tootmiskeskkonna juurutamist.

Vähem arvutusmahukate meeskondade jaoks on olemas QAT-vabad viisid, mis kasutavad SVDQuant kvantiseeritud treeningule lähedase täpsusega; kui taotletakse maksimaalset täpsust, siis QAT neljandas raamprogrammis See säilitab või isegi parandab BF16-d sellistes perekondades nagu Nemotron 4, eeldusel, et protsessi peenhäälestatakse.

Taristu: toide, jahutus ja uued andmekeskuste eeskirjad

Ülimadala täpsuse saavutamiseks on vaja andmekeskust ümber joonistada. Süsteem GB200 NVL72 tarbib 120 kW riiuli kohta 72 GPU jaoks, mis ületab enamiku olemasolevate andmekeskuste võimsust. Sellegipoolest on NVL72 asendab üheksa HGX H100 ja nõuab 83% vähem energiat sama efektiivse arvutuse jaoks.

TDP-ga ~1.000 W graafikakaardi kohta vedel jahutus Kiibi otsene paigaldamine pole valikuline. Külmad plaadid kõikides kuumades kohtades võimaldavad kasutamist jahutusvedelik temperatuuril 45 °C ja jahutustornid, vältides kalleid jahuteid. Lahendused, näiteks Supermicro DLC-2 Nende hind on 96 B200 riiuli kohta ja kuni 250 kW soojusmahtuvusest.

  Parimad protsessorid serveritele

Baastarkvaras on vaja draivereid CUDA on uuendatud, TensorRT-LLM FP4 toega ja spetsiaalsete kvantimistööriistadega. Järelkvantimine Model Optimizeriga kiirendab tootmiskeskkonna juurutamist, samal ajal kui kvantiseerimisega treenimine maksimeerib kvaliteedi säilitamist.

Keskpikas perspektiivis kasvab pidevalt riiulitele ettevalmistatud täiendkoolituste arv. 50-120 kW, järgmise põlvkonna jahutus- ja energiahalduslahendustega. Tarkvara küpsus paraneb jätkuvalt koos sujuvad integratsioonid ja torujuhtmed automatiseeritud kvantiseerimine.

Võrgustamine ja skaleeritavus: NVLink 5, lülitid ja fotoonika

Ühenduskangas on jõudluse teine ​​pool. 5. põlvkond NVLink kahekordistab ribalaiust ja võimaldab teil liituda kuni 576 GPUIga efektiivne link pakub ~50 GB/s suuna kohta; 18 lingi korral GPU kohta ulatub ribalaiuse kogumaht ~1,8 TB / s, rohkem kui 14 korda kui PCIe Gen5.

Lüliti NVIDIA NVLink panustab kuni 130 TB / s NVL72 domeeni kohta, mis on mudeli skaala paralleelsuse jaoks hädavajalik. Lisaks protokolli tugi SHARP hierarhiliste vähenduste puhul kiirendab see kriitiliste kollektiivsete toimingute täpsust nagu FP8.

NVIDIA tungib ka võrgustumise valdkonda Quantum-X800 InfiniBand y Spectrum-X800 Ethernet, mille lülitite seeriad ulatuvad 128 kuni 512 800G pordini, lisaks suure tihedusega 200G valikud ja integreeritud vedelikjahutus jõudluse säilitamiseks.

koos NVIDIA fotoonika, lüliti ASIC-pakendisse integreeritud optilised mootorid asendavad traditsioonilisi pistikühendusega transiivereid ja suurendavad kuni 3,5-kordne efektiivsus, 10 korda suurem vastupidavus ja 1,3 korda kiiremad juurutused, sillutades teed suure tihedusega optilistele andmekeskustele.

Tarkvara ja platvormi ökosüsteem: Dynamo, AI-Q, Mission Control, NIM ja OVX

Blackwelli pigistamiseks on NVIDIA tutvustanud mitut olulist osa. dünamo on avatud lähtekoodiga järeldusplatvorm, mis on loodud ühe päringu skaleerimiseks GPU-de vahel NVLinki kaudu, kuni ... täiustustega 30x koorma arutluskäikudega sama intensiivne kui DeepSeek R1 ja kahekordistab Hopperi läbilaskevõimet ilma riistvara muutmata.

AI-Q (lisaks AgentIQ-le) pakub avatud mitme agendi raamistikku, mis integreerib ettevõtte andmeid, väliseid tööriistu ja teisi agente, hõlbustades liitsüsteemide loomist, mis on võimelised teksti, piltide ja videote kohta käiv põhjendus, integratsioonidega selliste raamistikega nagu CrewAI, LangGraph või Azure AI Agent Service.

Operatiivsel kihil Mission kontroll Automatiseerib tehisintellekti andmekeskuste otsast lõpuni korraldamist, võimaldades sujuvat ümberlülitumist treenimise ja järeldamise vahel. 5 korda suurem kasutusiga ja töökohtade taastamine 10 korda kiiremLisaks on Base Command Manager nüüd tasuta saadaval kuni kaheksa kiirendi jaoks süsteemi kohta.

Aku NVIDIA NIM lisab ettevõtte jaoks valmis genereerivaid tehisintellekti mikroteenuseid. Omalt poolt OVX-süsteemid Need on orienteeritud generatiivsele tehisintellektile ja intensiivsele graafikale, millega kaasneb programm salvestusruumi valideerimine DDN-i, Dell PowerScale'i, NetAppi, Pure Storage'i või WEKA-ga, et tagada läbilaskevõime ja skaleerimine tootmises.

Professionaalsed tooted: RTX Pro Blackwell, DGX Station ja DGX Spark

uus perekond RTX Pro Blackwell Uuenda professionaalset tootesarja kuni 96 GB mälu Pro 6000 ja uuemate mudelite puhul 4.000 TOPS Tehisintellekt, 4. põlvkonna RT-tuumad ja 5. põlvkonna Tensor-tuumad koos FP4-ga. Serveri versioonis lisab see vGPU ja MIG GPU jagamiseks mitmeks isoleeritud eksemplariks.

Tegelikel juhtudel on neist teatatud 5× kiirte jälgimises vs RTX A6000 (Foster + Partners), kuni 2x meditsiinilises rekonstrueerimises (GE HealthCare), märkimisväärsed edusammud VR-is (Rivian) ja 3x tootlikkus koos LLM-iga (SoftServe). Pixar juhib tähelepanu sellele, et 3,3% nende tootmismaterjalist mahub nüüd ühe GPU 70 GB piiresse.

  Intel Xe3: kõik, mida me teame Inteli uue iGPU kohta

DGX jaam on uuendatud GB300 Grace Blackwell Ultraga, 784 GB ühtne mälu ja üles 20 PFLOPSi tehisintellekti FP4-s, rohkem ühenduvust 800 Gb / s ConnectX-8 abil. Arendajatele ja õpilastele DGX Spark GB10 kiibiga ja 128 GB ühendatud mäluga ~1.000 TOPSi tehisintellekti ja SmartNIC ConnectX‑7 abil, mis muudab ökosüsteemi sisenemise odavamaks.

Exascale riiulis ja kohandatud superpoodides

Süsteem DGX GB200 NVL72 kahekordistab 32-lt 72 GPU ja suurendab mälu ~19,5 TB-lt ~30 TBArvutustes on hüpe tähelepanuväärne: alates 127 PF a 1,4 EF neljandas raamprogrammis (~11×) ja 127 PF-st kuni 720 PF kaheksandas raamprogrammis (~5,6×), kõik täielikult vesijahutusega šassiis.

Ülalpool DGX SuperPOD kokku 8 GB200 NVL72 süsteemiga 11,5 eksaFLOPS FP4 ja 36 GB200 SuperChipi süsteemi kohta, täiustustega kuni 30 × võrreldes H100-ga suures LLM-järelduses, mis on loodud triljoni parameetri suurusjärgus mudelite jaoks mõeldud „tehisintellekti tehasena“.

Grace-Blackwelli platvormil GB200 ühendab kaks B200-d jagatud Grace'i protsessoriga C2C kaudu ja skaleerub kuni 576 graafikaprotsessorit kiirusel 1,8 TB/s Kasutades NVLink 5, luuakse massiliselt paralleelseid keskkondi, mis sobivad kõige nõudlikumate tehisintellekti töökoormuste jaoks.

Kaasaegne kvantiseerimine: intelligentsuse säilitamine 4 bitil

Neljanda raamprogrammi edu tuleneb järgmiste tegurite ühendamisest: riistvara ja tarkvaraNVIDIA kahekordne skaleerimine kohandub tensorväärtuste jaotusega ja Transformer mootor analüüsib. rohkem kui 1.000 operatsiooni dünaamiliselt optimeerida skaalasid, võimaldades sellistel mudelitel nagu DeepSeek‑R1 saavutada 98,1% täpne 4. raamprogrammis ja mõnedes testides ületada 8. raamprogrammi baastaseme.

Pärast koolitust SmoothQuant y AWQ on võimaldanud mahutada Falcon 180B suuruseid mudeleid ühele graafikaprotsessorile. Kui teil on vaja säilitada maksimaalne jõudlus, siis QAT emuleerib FP4-d Peenhäälestamise ajal aitab see kaalujaotust kohandada. Perekonnad nagu Nemotron 4 näitavad FP4 kadudeta QAT poolt, BF16-l või kõrgemal.

Keeruliste juhtumite korral toimub Ebatüüpilised väärtused väldib aktivatsiooni kokkuvarisemisi ja strateegiaid segatud täpsus kriitilistes operatsioonides bittide tõstmine. Tulemus: FP4 on elujõuline nii tihedates arhitektuurides kui ka Ekspertide segutäpsusega, mis ei ohverda tootmist.

Tegevuskava ja kättesaadavus

Tulevikku vaadates Vera Rubini põlvkond osuta 50 PFLOPSi FP4 GPU-tihe, koos ConnectX‑9, NVLink‑6 ja mälu HBM4 (+1,6x ribalaius). Protsessori ja graafikakaardi vaheline ühendus suureneb samuti ~1,8 TB/sja Rubin Ultra tõstab lati taas kõrgemale 100 PFLOPSi FP4 y 1 TB HBM4e-d.

AMD poolelt arhitektuur CDNA 4 annab jõudu Matrix Cores'ile, mis toetab 4. ja 6. raamprogramm, kahekordistades jõudlust eelmise põlvkonnaga võrreldes ja lisades hõredust veelgi kiirenduseks, mis on eriti huvitav Mixture of Experts mudelites.

Kõige otsesem piirang pole tehniline, vaid riistvara tarnimineSuur osa 2025. aasta B200/B300 toodangust on ette nähtud hüperskaleerijatele. Sellegipoolest põhjustab mõju žetooni maksumusele ja energiatõhususele tõeline demokratiseerimine, tuues väikestele organisatsioonidele tipptasemel võimalused tänu mälu ja arvutusvõimsuse hüpetele vati kohta.

Nvidia Blackwell Ultra GB300
Seotud artikkel:
NVIDIA Blackwell Ultra GB300: arhitektuur, mälu ja NVLink 5