NVFP4: Çfarë është dhe si i tejkalon FP8 dhe BF16 në IA.

Përditësimi i fundit: 8 tetor 2025
Author: Isaac
  • NVFP4 kombinon E2M1 me shkallëzim të dyfishtë (FP8 për mikrobllok dhe FP32 për tensor) për të zvogëluar gabimin e kuantizimit me 88%.
  • Te Blackwell, FP4 arrin deri në 20 PFLOPS për GPU dhe performancë 3 herë më të mirë se FP8 në raste reale, me rënie minimale të saktësisë.
  • Kujtesa bie ndjeshëm (deri në 8 herë), energjia për token bie deri në 50 herë dhe kostot e nxjerrjes së përfundimeve bien me gati 90%.
  • Ekosistemi tashmë mbështet FP4 (TensorRT, vLLM, HF) dhe infrastruktura përparon me NVLink 5, ftohje me lëng dhe rafte 120 kW.

Formati NVFP4 dhe saktësitë e IA-së

Biseda rreth formateve precize në IA është përshpejtuar me mbërritjen e NVFP4, dhe për një arsye të mirë: zvogëloni bitët pa humbur cilësinë ndryshon rrënjësisht ekonominë e inferencës. Në këtë udhëzues, do të mësoni se çfarë është NVFP4, si ndryshon nga FP8 dhe BF16, dhe pse kompanitë e mëdha (dhe jo aq të mëdha) tashmë po e përvetësojnë atë, nga qendrat e të dhënave deri te PC-të desktop.

Përtej entuziazmit të marketingut, ka të dhëna të forta: Energjia për token ulet deri në 50 herë, flukse rekord të tokenëve për sekondë dhe rënie të ndjeshme të memories në një fraksion pa shkatërruar saktësinë. Megjithatë, ia vlen të ndahen titujt kryesorë nga realiteti praktik, sepse ndikimi varet nga hardueri, shkallëzimi numerik dhe mënyra se si kuantizohet dhe optimizohet secili model.

Çfarë është NVFP4 dhe si përmirësohet në krahasim me FP8 dhe BF16?

NVFP4 është propozimi i NVIDIA-s për një saktësi ultra të ulët I projektuar për nxjerrjen e përfundimeve me anë të inteligjencës artificiale. Ai përfaqëson numrat me E2M1 (1 bit shenje, 2 bit eksponenti dhe 1 bit mantisa) dhe shton një përbërës kyç: shkallëzim në dy nivele gjë që e zvogëlon në mënyrë drastike gabimin e kuantizimit krahasuar me përafrimet më të thjeshta.

Kjo skemë me dy nivele kombinon një faktor të Shkalla FP8 E4M3 e aplikuar në mikroblloqe prej 16 vlerash me shkallëzim global të tensorit në FP32. Falë këtij kombinimi, një 88% më pak gabime sesa zgjidhje më bazike të fuqisë së dyshit si MXFP4, duke përforcuar stabilitetin numerik me kaq pak bit.

Në të kundërt, FP8 (E4M3 ose E5M2) tashmë ul mjaft kostot krahasuar me FP16/BF16, por NVFP4 shkon një hap më tej duke reduktuar më tej memorien dhe fuqinë. BF16 ruan një diapazon dinamik të ngjashëm me FP32 me më pak bit në mantissa, ideal për stërvitje dhe mjedise ku stabiliteti i gradientit është thelbësor, por për përfundime masive, 4-biti i shkallëzuar mirë po bën diferencën.

Pasoja praktike: në ngarkesa pune të përshtatura mirë, NVFP4 ruan saktësi shumë të lartë në formate më të larta, por me hapa të jashtëzakonshëm në shpejtësi dhe efikasitet. E gjitha varet nga kuantizimi, kalibrimi dhe mbështetja e harduerit vendas.

Arkitektura Blackwell dhe NVFP4

Arkitektura Blackwell: Forca Mbi NVFP4

Ardhja e Blackwell ka qenë katalizatori për ngritjen e NVFP4. GPU-ja B200 integron 208.000 miliardë tranzistorë në një dizajn me dy çipa, të lidhur përmes një ndërfaqeje NV-HBI 10 TB/s që është transparente ndaj softuerit, duke siguruar sjellje të unifikuar.

L Bërthamat Tensor të Gjeneratës së Pestë mbështesin në mënyrë native NVFP4 me shkallëzim të përshpejtuar nga hardueri, duke arritur deri në 20 PetaFLOPS në FP4Arkitektura gjithashtu përfshin memorie tensorike afër njësive llogaritëse (TMEM), duke kufizuar koston e energjisë së lëvizjes së të dhënave dhe duke rritur performancën e qëndrueshme.

Për konsum, seria GeForce RTX 50 Trashëgon aftësitë e FP4 me performancë të IA-së deri në 4.000 TOPS dhe përshpejton gjenerimin e imazheve (p.sh., FLUX) deri në 3,9 herë krahasuar me FP8 në skenarë specifikë, duke demonstruar se përfundimi 4-bit nuk është vetëm një çështje e qendrës së të dhënave.

  VRM dhe PWM dixhitale kundrejt analogut: një udhëzues i plotë dhe praktik

Në skajin më të madh, Blackwell Ultra (B300/GB300) e ngre standardin me 288GB HBM3E dhe 1,5 herë më shumë performancë sesa B200, duke arritur në konfigurimet NVL72 për të prekur 1,1 exaFLOPS për sistem në FP4 të dendur. Kjo hedh themelet për shërbimin e modeleve me qindra miliarda parametra në më pak makina.

Metrika: Më shumë tokena, më pak vat dhe memorie nën kontroll

Të dhënat e prodhimit dhe të krahasimit japin një pamje të qëndrueshme. Në DeepSeek-R1 671B, Kalimi në FP4 në B200 trefishon performancën krahasuar me FP8 në H200, me sistemet DGX B200 që tejkalojnë 30.000 tokena/sSaktësia mezi vuan: MMLU bie nga 90,8% në 90,7% kur kuantizohet nga FP8 në FP4.

Në kujtesë, numrat janë dërrmues. Një LLM si Llama 3.1 405B rritet nga 140 GB në FP32 në 17,5 GB në FP4, një reduktim 8x që lejon shërbimin e modeleve masive në më pak GPU. Në gjenerimin e imazheve, një konfigurim FLUX mund të bjerë nga 51,4 GB në FP16 deri në 9,9 GB në FP4 me dëmtim minimal të shikimit dhe duke u përshtatur me VRAM modest.

MLPerf v5.0 mbështet lëvizjen: rendimentin mesatar të Llama 2 70B e palosur krahasuar me vitin e kaluar dhe rezultatet më të mira u përmirësuan 3,3 herë. Në energji, tokeni
nga H100 në 10 J bie në 0,4 J në B200 tashmë 0,2 J në B300, d.m.th. deri në 50 herë më shumë efikasitetPërkthyer në terma biznesi, pritet të ketë rënie prej gati 90% të kostove të nxjerrjes së përfundimeve gjatë gjithë periudhës 2024-2025.

Nga ana e përdoruesit, imazhi dhe teksti modelohen me NVFP4 shfrytëzon më shumë tokena për dollar, me raportime për përmirësim deri në 40% krahasuar me alternativat, diçka që kombinohet mirë me gjurmën më të vogël të memories dhe lehtësinë e shërbimit të modeleve të mëdha.

Adoptimi: cloud-et, kompanitë dhe rastet e jetës reale

Ofruesit e cloud-it udhëheqin miratimin e FP4. Lambda Labs ofron grupe HGX B200 me FP4 në vendosjet me 1 klikim dhe regjistrimet CoreWeave 800 tokena/s në Llama 3.1 405B me GPU GB200. Nuk është gjithçka NVIDIA: Meta, OpenAI dhe Microsoft Ata përdorin AMD Instinct MI300X në përfundime dhe MI350 do të vijë me mbështetjen native të FP4.

Në bankë, JPMorgan vlerëson FP4 për analizën e rrezikut dhe alternativave; në kujdesin shëndetësor ato janë parë +30% shpejtësi me -50% memorie, dhe në prodhim, vendimet në kohë reale mundësohen në pajisje me burime të kufizuara, duke hapur dyer aty ku më parë nuk kishte vend.

Softueri shoqëron hapin. Optimizuesi i Modelit TensorRT ofron tubacione të plota kuantizimi FP4; korniza të tilla si vLLM integroni mbështetje të hershme për NVFP4; dhe Përqafimi i fytyrës pret pika kontrolli të para-kuantifikuara FP4 (DeepSeek-R1, Llama 3.1, FLUX) për të përshpejtuar vendosjet e prodhimit.

Për ekipet që kërkojnë më pak punë kompjuterike, ekzistojnë mënyra pa QAT duke përdorur SVDQuant me saktësi afër stërvitjes së kuantizuar; nëse kërkohet saktësi maksimale, QAT në FP4 Ai ruan ose madje përmirëson BF16 në familje të tilla si Nemotron 4, me kusht që procesi të jetë i rregulluar mirë.

Infrastruktura: energjia, ftohja dhe rregulloret e reja të qendrës së të dhënave

Preciziteti ultra i ulët kërkon rivizatimin e qendrës së të dhënave. Një sistem GB200 NVL72 konsumon 120 kW për rack për 72 GPU, mbi kapacitetin e shumicës së qendrave ekzistuese të të dhënave. Megjithatë, një NVL72 zëvendëson nëntë HGX H100 dhe kërkon një 83% më pak energji për të njëjtën llogaritje efektive.

Me një TDP prej ~1.000 W për GPU, ftohje e lengshme Instalimi i drejtpërdrejtë i çipit nuk është opsional. Pllakat e ftohta në të gjitha pikat e nxehta lejojnë përdorimin. ftohës në 45 ºC dhe kullat e ftohjes, duke shmangur ftohësit e shtrenjtë. Zgjidhje të tilla si Supermicro DLC-2 Ato arrijnë 96 B200 për raft dhe deri në 250 kW të kapacitetit termik.

  AMD SERDES kundrejt Sea-of-Wires D2D për Zen 6: Çfarë dimë ne

Në softuerin bazë, nevojiten drajverë. CUDA u përditësua, TensorRT-LLM me mbështetje FP4 dhe mjete të specializuara kuantizimi. Post-kuantizimi me Model Optimizer përshpejton vendosjen e prodhimit, ndërsa trajnim me kuantizim maksimizon ruajtjen e cilësisë.

Në planin afatmesëm, CPD-të e përgatitura për rafte do të shumohen. 50-120 kW, me zgjidhje të gjeneratës së ardhshme për ftohje dhe menaxhim të energjisë. Pjekuria e softuerit do të vazhdojë të përmirësohet me integrime dhe kanale të pandërprera kuantizim i automatizuar.

Rrjetëzimi dhe shkallëzueshmëria: NVLink 5, ndërprerësit dhe fotonika

Pëlhura e ndërlidhjes është gjysma tjetër e performancës. Gjenerata e 5-të e NVLink dyfishon gjerësinë e brezit dhe ju lejon të bashkoheni deri në 576 GPUÇdo lidhje efektive ofron ~50 GB/s për drejtim; me 18 lidhje për GPU, gjerësia e përgjithshme e brezit arrin ~1,8 TB / s, më shumë se 14 herë se PCIe Gen5.

El conmutador NVIDIA NVLink kontribuon deri në 130 TB / s për domenin NVL72, thelbësor për paralelizmin në shkallë modeli. Përveç kësaj, mbështetja e protokollit SHARP Për reduktimet hierarkike përshpejton precizitete si FP8 në operacionet kritike kolektive.

NVIDIA po përpiqet gjithashtu të krijojë rrjete me Quantum-X800 InfiniBand y Spectrum-X800 Ethernet, me familje switch-ash që variojnë nga 128 deri në 512 porta 800G, plus opsione me dendësi të lartë 200G dhe ftohje të integruar me lëng për të ruajtur performancën.

me NVIDIA Photonics, motorët optikë të integruar në paketën ASIC të ndërprerësit zëvendësojnë marrës-transmetuesit tradicionalë të kyçshëm, duke promovuar deri në Efikasitet 3,5×, 10 herë më shumë qëndrueshmëri dhe 1,3 herë më shumë vendosje më të shpejta, duke hapur rrugën për qendra të të dhënave optike me dendësi të lartë.

Ekosistemi i softuerëve dhe platformave: Dynamo, AI-Q, Mission Control, NIM dhe OVX

Për të shtrydhur Blackwell-in, NVIDIA ka prezantuar disa pjesë kyçe. dinamo është një platformë inference me burim të hapur e projektuar për të shkallëzuar një pyetje të vetme midis GPU-ve nëpërmjet NVLink, me përmirësime deri në 30 herë më shumë me arsyetim intensiv si DeepSeek R1 dhe dyfishim i rendimentit në Hopper pa ndryshuar harduerin.

AI-Q (plus AgentIQ) propozon një strukturë të hapur me shumë agjentë që integron të dhënat e ndërmarrjes, mjetet e jashtme dhe agjentë të tjerë, duke lehtësuar sistemet e përbëra të afta për arsyetim rreth tekstit, imazheve dhe videove, me integrime në korniza të tilla si CrewAI, LangGraph ose Azure AI Agent Service.

Në shtresën operative, Kontrolli i Misionit Automatizon orkestrimin nga fillimi në fund të qendrave të të dhënave të IA-së, me ndërrim të pandërprerë midis trajnimit dhe nxjerrjes së përfundimeve, 5 herë më shumë përdorim dhe rikuperimi i punës 10 herë më i shpejtëPër më tepër, Base Command Manager tani është i disponueshëm pa pagesë për deri në tetë përshpejtues për sistem.

Bateria NVIDIA NIM shton mikroshërbime gjenerative të IA-së të gatshme për ndërmarrje. Nga ana e saj, Sistemet OVX Ato janë të orientuara drejt inteligjencës artificiale gjeneruese dhe grafikës intensive, të shoqëruara nga një program i validimi i ruajtjes me DDN, Dell PowerScale, NetApp, Pure Storage ose WEKA për të garantuar rendimentin dhe shkallëzimin në prodhim.

Produkte profesionale: RTX Pro Blackwell, DGX Station dhe DGX Spark

familjen e re RTX Pro Blackwell Përditësoni linjën profesionale me deri në 96 GB memorje në Pro 6000 e lart 4.000 TOPS IA, bërthamat RT të gjeneratës së 4-t dhe bërthamat Tensor të gjeneratës së 5-t me FP4. Në Server Edition, shton vGPU dhe MIG për të ndarë një GPU në disa raste të izoluara.

Në raste reale, ato janë raportuar 5× në gjurmimin e rrezeve krahasuar me RTX A6000 (Foster + Partners), deri në 2 herë në rindërtimin mjekësor (GE HealthCare), përmirësime të dukshme në VR (Rivian) dhe Produktivitet 3 herë më i lartë me LLM (SoftServe). Pixar thekson se 3,3% e pamjeve të saj të prodhimit tani përshtaten brenda 70 GB të një GPU të vetme.

  Pjesët e një mikroprocesori dhe funksionet e tyre

Stacioni DGX është përditësuar me GB300 Grace Blackwell Ultra, 784 GB memorie e unifikuar dhe lart 20 PFLOPS në AI FP4, më shumë lidhshmëri e 800 Gb / s me ConnectX-8. Për zhvilluesit dhe studentët, DGX Spark me çip GB10 dhe 128 GB memorie të unifikuar ofron ~1.000 MAJË të IA-së dhe SmartNIC ConnectX‑7, duke e bërë hyrjen në ekosistem më të lirë.

Eksaskalë në një raft dhe superpodë të personalizuar

Sistemi DGX GB200 NVL72 dyfishohet nga 32 në 72 GPU dhe rrit memorien nga ~19,5 TB në ~30 TBNë llogaritje, kërcimi është spektakolar: nga 127 PF a 1,4 EF në FP4 (~11×), dhe nga 127 PF në 720 PF në FP8 (~5,6×), të gjitha në një shasi të ftohur plotësisht me ujë.

Sipër, DGX SuperPOD me 8 sisteme GB200 NVL72 gjithsej 11,5 exaFLOPS FP4 dhe 36 GB200 SuperChips për sistem, me përmirësime deri në 30 × krahasuar me H100 në inferencën e madhe LLM, e projektuar si një "fabrikë e inteligjencës artificiale" e orientuar për modele me rendin e një trilioni parametrash.

Në platformën Grace-Blackwell, GB200 lidh dy B200 me një CPU Grace të përbashkët nëpërmjet C2C dhe shkallëzohet deri në 576 GPU me 1,8 TB/s duke përdorur NVLink 5, duke krijuar mjedise masivisht paralele të përshtatshme për ngarkesat më të kërkuara të punës së IA-së.

Kuantizimi Modern: Ruajtja e Inteligjencës në 4 Bit

Suksesi i FP4 vjen nga kombinimi hardware dhe softwareShkallëzimi i dyfishtë i NVIDIA-s përshtatet me shpërndarjen e vlerave të tensorit dhe motori Transformer analizon më shumë se 1.000 operacione për të optimizuar dinamikisht shkallët, duke lejuar modele si DeepSeek-R1 të arrijnë Saktësi 98,1% në FP4 dhe, në disa teste, tejkalojnë nivelin bazë të FP8-së.

Në fazën pas trajnimit, SmoothQuant y AWQ kanë bërë të mundur montimin e modeleve me madhësinë e një Falcon 180B në një GPU të vetme. Nëse keni nevojë të ruani performancën maksimale, QAT që imiton FP4 Gjatë rregullimit të imët, ndihmon në përshtatjen e shpërndarjeve të peshës. Familje të tilla si Nemotron 4 tregojnë FP4 pa humbje nga QAT, në ose mbi BF16.

Për raste të ndërlikuara, menaxhimi i Vlerat atipike shmang rëniet e aktivizimit dhe strategjitë për saktësi e përzier ngre bit në operacione kritike. Rezultati: FP4 është i zbatueshëm në arkitektura të dendura dhe gjithashtu në Përzierje e ekspertëve, me një precizion që nuk sakrifikon prodhimin.

Plani i veprimit dhe disponueshmëria

Duke parë përpara, Gjenerata e Vera Rubin tregojnë për 50 PFLOPS FP4 GPU-të dendura, me ConnectX‑9, NVLink‑6 dhe memoria HBM4 (+1,6x gjerësia e brezit). Ndërlidhja CPU-GPU do të rritet gjithashtu në ~1,8 TB/s, dhe Rubin Ultra do ta ngrejë përsëri standardin në 100 PFLOPS FP4 y 1 TB HBM4e.

Nga ana e AMD-së, arkitektura cADN 4 fuqizon Bërthamat e Matricës me mbështetje për FP4 dhe FP6, duke dyfishuar performancën krahasuar me gjeneratën e mëparshme dhe duke shtuar rrallësi për të përshpejtuar edhe më tej, diçka veçanërisht interesante në modelet Mixture of Experts.

Kufizimi më i menjëhershëm nuk është teknik, por furnizim me pajisjePjesa më e madhe e prodhimit të B200/B300 të vitit 2025 është e dedikuar për hipershkallëzuesit. Megjithatë, ndikimi në koston për token dhe efikasitetin e energjisë po shkakton një demokratizim i vërtetë, duke sjellë aftësi të përparuara në organizatat e vogla falë përparimeve në memorie dhe llogaritje për vat.

Nvidia Blackwell Ultra GB300
Artikuj të ngjashëm:
NVIDIA Blackwell Ultra GB300: Arkitektura, Memoria dhe NVLink 5