NVFP4: Co to je a jak v oblasti umělé inteligence překonává FP8 a BF16.

Poslední aktualizace: 8 října 2025
Autor: Isaac
  • NVFP4 kombinuje E2M1 s duálním škálováním (FP8 na mikroblok a FP32 na tenzor) pro snížení chyby kvantizace o 88 %.
  • U Blackwellu dosahuje FP4 v reálných případech až 20 PFLOPS na GPU a 3x lepšího výkonu než FP8 s minimálním poklesem přesnosti.
  • Paměť prudce klesá (až 8x), energie na token klesá až 50x a náklady na inferenci klesají téměř o 90 %.
  • Ekosystém již podporuje FP4 (TensorRT, vLLM, HF) a infrastruktura se vylepšuje díky NVLink 5, kapalinovému chlazení a 120kW rackům.

Formát NVFP4 a přesnosti umělé inteligence

Diskuse o přesných formátech v umělé inteligenci se s příchodem NVFP4 zrychlila, a to z dobrého důvodu: snížit počet bitů bez ztráty kvality radikálně mění ekonomiku inference. V této příručce se dozvíte, co je NVFP4, jak se liší od FP8 a BF16 a proč jej již zavádějí velké (i ne tak velké) společnosti, od datových center až po stolní počítače.

Kromě marketingového humbuku existují i ​​solidní data: Energie na žeton snížena až 50krát, rekordní toky tokenů za sekundu a paměť prudce klesající na zlomek, aniž by se tím snížila přesnost. Přesto stojí za to oddělit titulky od praktické reality, protože dopad závisí na hardwaru, numerickém škálování a na tom, jak je každý model kvantován a optimalizován.

Co je NVFP4 a jak se vylepšuje oproti FP8 a BF16?

NVFP4 je návrh společnosti NVIDIA pro ultranízká přesnost Navrženo pro inferenci s využitím umělé inteligence. Reprezentuje čísla pomocí E2M1 (1 bit znaménka, 2 bity exponentu a 1 bit mantisy) a přidává klíčovou ingredienci: škálování ve dvou úrovních což drasticky snižuje chybu kvantování ve srovnání s jednoduššími aproximacemi.

Toto dvouúrovňové schéma kombinuje faktor Měřítko FP8 E4M3 aplikované na mikrobloky 16 hodnot s globálním tenzorovým škálováním v FP32. Díky této kombinaci O 88 % méně chyb než základnější řešení s mocninou dvou, jako je MXFP4, posilující numerickou stabilitu s tak malým počtem bitů.

Naproti tomu FP8 (E4M3 nebo E5M2) již ve srovnání s FP16/BF16 značně snižuje náklady, ale NVFP4 jde ještě o krok dál další snížení paměti a spotřeby energie. BF16 si zachovává podobný dynamický rozsah jako FP32 s menším počtem bitů v mantise, což je ideální pro trénování a prostředí, kde je klíčová stabilita gradientu, ale pro masivní inferenci hraje roli dobře škálovaná 4bitová konfigurace.

Praktický důsledek: při dobře přizpůsobených pracovních zátěžích, NVFP4 si udržuje velmi přesnou přesnost do vyšších formátů, ale s pozoruhodným nárůstem rychlosti a efektivity. Vše závisí na kvantizaci, kalibraci a nativní hardwarové podpoře.

Blackwell Architecture a NVFP4

Blackwell Architecture: Sval za NVFP4

Příchod Blackwella byl katalyzátorem pro vzestup NVFP4. GPU B200 integruje 208.000 miliard tranzistorů v duálním čipovém provedení, propojeném přes 10 TB/s NV-HBI rozhraní, které je transparentní pro software, a zajišťuje tak jednotné chování.

L Tenzorová jádra páté generace nativně podporují NVFP4 s hardwarově akcelerovaným škálováním, dosahující až 20 PetaFLOPSů v FP4Architektura také zahrnuje tenzorovou paměť blízko výpočetních jednotek (TMEM), což omezuje energetické náklady na přesun dat a zvyšuje trvalý výkon.

Pro spotřebu, série GeForce RTX 50 Zdědí funkce FP4 s výkonem umělé inteligence až 4 000 TOPS a zrychluje generování obrazu (např. FLUX) až o ... 3,9krát ve srovnání s 8. rámcovým programem v konkrétních scénářích demonstrující, že 4bitová inference není jen záležitostí datových center.

  AMD Magnus, Robin, Orion a Canis: Tajné čipy, které budou definovat novou generaci konzolí

V širším měřítku Blackwell Ultra (B300/GB300) zvyšuje laťku... 288GB HBM3E a 1,5x vyšší výkon než B200, dosahující v konfiguracích NVL72 pro dotyk 1,1 exaFLOPS na systém v hustém FP4. To pokládá základy pro obsluhu modelů se stovkami miliard parametrů na menším počtu počítačů.

Metriky: Více tokenů, méně wattů a paměť pod kontrolou

Data z produkce a benchmarků vykreslují konzistentní obraz. Na DeepSeek-R1 671B, Přechod na FP4 v B200 ztrojnásobuje výkon ve srovnání s 8. rámcovým programem v H200, přičemž systémy DGX B200 překračují 30.000 tokenů/sPřesnost sotva trpí: MMLU klesá z 90,8 % na 90,7 % při kvantizaci z FP8 na FP4.

V paměti jsou čísla ohromující. LLM jako Llama 3.1 405B se zvyšuje ze 140 GB v FP32 na 17,5 GB v FP4, což je 8násobné snížení, které umožňuje obsluhovat masivní modely na menším počtu GPU. Při generování obrázků může konfigurace FLUX klesnout z 51,4 GB v FP16 až 9,9 GB v FP4 s minimálním zrakovým postižením a adaptací na skromnou obrazovou paměť (VRAM).

MLPerf v5.0 podporuje tento krok: průměrná propustnost Lama 2 70B složená ve srovnání s předchozím rokem a nejlepší výsledky se zlepšily 3,3krát. V energetice token
od H100 do 10 J klesne na 0,4 J v B200 již 0,2 J v B300, tj. až 50x vyšší účinnostPřevedeno do obchodní terminologie se očekává, že v letech 2024–2025 dojde k téměř 90% poklesu nákladů na inference.

Na straně uživatele, obrazové a textové modely s NVFP4 využívá více tokenů na dolar, s hlášeními až 40% zlepšení oproti alternativám, což se dobře kombinuje s menší paměťovou náročností a snadnou obsluhou velkých modelů.

Adopce: cloudy, firmy a případy z reálného života

Poskytovatelé cloudových služeb jsou v čele zavádění 4. rámcového programu. Lambda Labs nabízí clustery HGX B200 s FP4 v nasazeních jedním kliknutím a záznamech CoreWeave 800 tokenů/s v Llama 3.1 405B s grafickou kartou GB200. Není to jen o NVIDIA: Meta, OpenAI a Microsoft Používají AMD Instinct MI300X v inferenci a MI350 dorazí s nativní podporou FP4.

V bankovnictví, JPMorgan hodnotí 4. RP z hlediska analýzy rizik a alternativ; ve zdravotnictví byly pozorovány +30% rychlost s -50% pamětia ve výrobě jsou na zařízeních s omezenými zdroji umožněna rozhodnutí v reálném čase, což otevírá dveře tam, kde dříve nebyl prostor.

Software tento krok doprovází. Optimalizátor modelů TensorRT poskytuje kompletní kvantizační kanály FP4; frameworky jako například vLLM integrovat včasnou podporu pro NVFP4; a Objímání obličeje hostuje předkvantizované kontrolní body FP4 (DeepSeek-R1, Llama 3.1, FLUX) pro urychlení nasazení v produkčním prostředí.

Pro méně výpočetně náročné týmy existují způsoby bez QAT (Quality Attachment - optimalizace pro analýzu dat) SVDQuant s přesností blízkou kvantovanému trénování; pokud je usilováno o maximální přesnost, QAT v 4. rámcovém programu V rodinách, jako je Nemotron 4, si zachovává nebo dokonce vylepšuje BF16, za předpokladu, že je proces doladěn.

Infrastruktura: napájení, chlazení a nové předpisy pro datová centra

Ultranízká přesnost vyžaduje překreslení datového centra. Systém GB200 NVL72 spotřebovává 120 kW na stojan pro 72 GPU, což je nad kapacitou většiny stávajících datových center. I tak NVL72 nahrazuje devět HGX H100 a vyžaduje a O 83% méně energie pro stejný efektivní výpočet.

S TDP ~1 000 W na GPU, kapalné chlazení Přímá instalace čipu není volitelná. Studené desky na všech horkých místech umožňují použití chladicí kapalina při 45 °C a chladicí věže, čímž se vyhnete drahým chladičům. Řešení jako například Supermicro DLC-2 Dosahují 96 B200 na stojan a až 250 kW tepelné kapacity.

  Nejlepší procesory pro servery

V základním softwaru jsou potřeba ovladače CUDA aktualizována, TensorRT-LLM s podporou FP4 a specializovanými kvantizačními nástroji. Postkvantizace s Model Optimizerem urychluje nasazení v produkčním prostředí a zároveň trénink s kvantizací maximalizuje zachování kvality.

Ve střednědobém horizontu se počet CPD připravených pro regály bude rozrůstat. 50-120 kW, s řešeními pro chlazení a správu energie nové generace. Vyspělost softwaru se bude i nadále zlepšovat s bezproblémové integrace a pipeline automatizovaná kvantizace.

Síťování a škálovatelnost: NVLink 5, přepínače a fotonika

Propojovací tkanina je druhou polovinou výkonu. 5. generace NVLink zdvojnásobuje šířku pásma a umožňuje vám připojit se až 576 GPUKaždý efektivní odkaz nabízí ~50 GB/s na směr; s 18 linkami na GPU dosahuje celková šířka pásma ~1,8 TB / s, více než 14× než PCIe Gen5.

El conmutador NVIDIA NVLink přispívá až 130 TB / s na doménu NVL72, což je nezbytné pro paralelismus v modelovém měřítku. Kromě toho podpora protokolů OSTRÝ Pro hierarchické redukce urychluje přesnosti jako FP8 v kritických kolektivních operacích.

NVIDIA se také zaměřuje na síťové technologie. Quantum-X800 InfiniBand y Spectrum-X800 Ethernet, s řadami přepínačů od 128 do 512 portů 800G, plus možnostmi s vysokou hustotou 200G a integrovaným kapalinovým chlazením pro udržení výkonu.

s NVIDIA PhotonicsOptické moduly integrované do pouzdra ASIC přepínače nahrazují tradiční zásuvné transceivery a podporují až... 3,5× účinnost, 10x větší odolnost a 1,3x rychlejší nasazení, což připravuje cestu pro optická datová centra s vysokou hustotou.

Softwarový a platformní ekosystém: Dynamo, AI-Q, Mission Control, NIM a OVX

Aby NVIDIA dokázala Blackwella překonat, představila několik klíčových prvků. Dynamo je open source inferenční platforma navržená pro škálování jednoho dotazu mezi GPU prostřednictvím NVLink s vylepšeními až 30x v zátěži s odůvodněním intenzivnější jako DeepSeek R1 a zdvojnásobující propustnost na Hopperu bez změny hardwaru.

AI-Q (plus AgentIQ) navrhuje otevřený multiagentní rámec, který integruje podniková data, externí nástroje a další agenty a usnadňuje tak kompozitní systémy schopné důvod ohledně textu, obrázků a videí, s integracemi do frameworků, jako jsou CrewAI, LangGraph nebo Azure AI Agent Service.

Na operační vrstvě, Mission Control Automatizuje komplexní orchestraci datových center s umělou inteligencí s plynulým přepínáním mezi trénováním a inferencí. 5x vyšší využití a obnovení pracovních míst 10x rychlejšíBase Command Manager je nyní navíc k dispozici zdarma až pro osm akcelerátorů na systém.

Baterie NVIDIA NIM přidává generativní mikroslužby umělé inteligence připravené pro podniky. Systémy OVX Jsou orientovány na generativní umělou inteligenci a náročnou grafiku, doprovázené programem ověření úložiště s DDN, Dell PowerScale, NetApp, Pure Storage nebo WEKA pro zajištění propustnosti a škálování v produkčním prostředí.

Profesionální produkty: RTX Pro Blackwell, DGX Station a DGX Spark

Nová rodina RTX Pro Blackwell Aktualizujte profesionální řadu až o 96 GB paměti v Pro 6000 a novějších verzích 4.000 TOPS AI, RT jádra 4. generace a Tensor jádra 5. generace s FP4. V Server Edition přidává vGPU a MIG rozdělit GPU na více izolovaných instancí.

V reálných případech byly hlášeny 5× ve sledování paprsků v porovnání s RTX A6000 (Foster + Partners), až 2x v lékařské rekonstrukci (GE HealthCare), výrazná vylepšení ve VR (Rivian) a 3x vyšší produktivita s LLM (SoftServe). Pixar uvádí, že 3,3 % jeho produkčního záznamu se nyní vejde do 70 GB na jedné grafické kartě.

  Intel Xe3: Vše, co víme o novém iGPU od Intelu

Stanice DGX je aktualizován o GB300 Grace Blackwell Ultra, Jednotná paměť 784 GB a nahoru 20 PFLOPS v AI FP4, větší konektivita 800 Gb / s s ConnectX-8. Pro vývojáře a studenty, DGX Spark s čipem GB10 a 128 GB unifikované paměti nabízí ~1 000 NEJVYŠŠÍCH umělé inteligence a SmartNIC ConnectX‑7, což zlevňuje vstup do ekosystému.

Exascale v racku a zakázkové superpody

Systém DGX GB200 NVL72 čtyřhry z 32 na 72 GPU a zvyšuje paměť z ~19,5 TB na ~30 TBVe výpočtech je skok úchvatný: z 127 PF a 1,4 EF v 4. rámcovém programu (~11×) a od 127 PF do 720 PF v 8. FP (~5,6×), to vše v plně vodou chlazeném šasi.

Nahoře, DGX SuperPOD s celkem 8 systémy GB200 NVL72 11,5 exaFLOPS FP4 a 36 GB200 SuperChips na systém s vylepšeními až 30 × ve srovnání s H100 ve velké inferenci LLM, navržené jako „továrna umělé inteligence“ zaměřená na modely s řádově bilionem parametrů.

Na platformě Grace-Blackwell, GB200 propojuje dva B200 se sdíleným procesorem Grace prostřednictvím C2C ​​a škáluje se až 576 GPU s rychlostí 1,8 TB/s s využitím NVLink 5, sestavování masivně paralelních prostředí vhodných pro nejnáročnější úlohy umělé inteligence.

Moderní kvantizace: Zachování inteligence na 4 bitech

Úspěch 4. rámcového programu pramení z kombinace hardware a softwareDuální škálování NVIDIA se přizpůsobuje rozložení hodnot tenzoru a analýze enginu Transformer. více než 1.000 operací dynamicky optimalizovat škálování, což umožňuje modelům jako DeepSeek‑R1 dosáhnout 98,1% přesnost v FP4 a v některých testech překročit základní linii 8. RP.

Po tréninku, SmoothQuant y AWQ umožnily umístit modely o velikosti Falconu 180B na jednu grafickou kartu. Pokud potřebujete zachovat maximální výkon, QAT emulující FP4 Během jemného doladění pomáhá přizpůsobit rozložení hmotnosti. Ukazují to rodiny motorů, jako je Nemotron 4. Bezztrátový FP4 pomocí QAT, na úrovni BF16 nebo vyšší.

U složitých případů je třeba zvládnout Atypické hodnoty zabraňuje kolapsům aktivace a strategie pro smíšená přesnost zvyšovat počet bitů v kritických operacích. Výsledek: FP4 je životaschopný v hustých architekturách a také v Směs expertů, s přesností, která neohrožuje produkci.

Plán a dostupnost

S výhledem do budoucna se Generace Very Rubinové zaměřit se na 50 PFLOPS FP4 hustě využívající GPU, s ConnectX‑9, NVLink‑6 a paměť HBM4 (+1,6x šířka pásma). Propojení CPU-GPU se také zvýší na ~1,8 TB/sa Rubin Ultra opět zvýší laťku 100 PFLOPS FP4 y 1 TB HBM4e.

Na straně AMD, architektura cDNA 4 podporuje Matrix Cores 4. a 6. rámcový program, což zdvojnásobuje výkon ve srovnání s předchozí generací a přidává řídkost pro ještě větší zrychlení, což je obzvláště zajímavé u modelů Mixture of Experts.

Nejbezprostřednější omezení není technické, ale dodávka hardwaruVelká část produkce B200/B300 v roce 2025 je určena pro hyperscalery. Dopad na cenu za token a energetickou účinnost však způsobuje… skutečná demokratizace, což přináší malým organizacím špičkové funkce díky skokům v paměti a výpočetním výkonu na watt.

nvidia blackwell ultra gb300
Související článek:
NVIDIA Blackwell Ultra GB300: Architektura, paměť a NVLink 5