- Pinagsasama ng NVFP4 ang E2M1 na may dual scaling (FP8 bawat microblock at FP32 bawat tensor) upang mabawasan ang error sa quantization ng 88%.
- Sa Blackwell, nakakamit ng FP4 ang hanggang 20 PFLOPS bawat GPU at 3x na mas mahusay na performance kaysa sa FP8 sa mga totoong kaso, na may kaunting pagbaba ng katumpakan.
- Bumaba ang memorya (hanggang 8x), bumababa ang enerhiya sa bawat token nang hanggang 50x, at bumaba ng halos 90% ang mga gastos sa inference.
- Sinusuportahan na ng ecosystem ang FP4 (TensorRT, vLLM, HF) at umuunlad ang imprastraktura gamit ang NVLink 5, liquid cooling, at 120 kW rack.
Ang pag-uusap tungkol sa mga katumpakang format sa AI ay bumilis sa pagdating ng NVFP4, at sa magandang dahilan: bawasan ang mga bit nang hindi nawawala ang kalidad radikal na nagbabago sa ekonomiya ng hinuha. Sa gabay na ito, malalaman mo kung ano ang NVFP4, kung paano ito naiiba sa FP8 at BF16, at kung bakit ginagamit na ito ng malalaking (at hindi masyadong malalaking) kumpanya, mula sa mga data center hanggang sa mga desktop PC.
Higit pa sa hype sa marketing, mayroong solidong data: Ang enerhiya sa bawat token ay pinutol ng hanggang 50 beses, ang record-breaking na token ay dumadaloy sa bawat segundo, at ang memorya ay bumababa sa isang fraction nang hindi sinisira ang katumpakan. Gayunpaman, sulit na ihiwalay ang mga headline mula sa praktikal na katotohanan, dahil ang epekto ay nakasalalay sa hardware, numerical scaling, at kung paano binibilang at na-optimize ang bawat modelo.
Ano ang NVFP4 at paano ito bumubuti sa FP8 at BF16?
Ang NVFP4 ay ang panukala ng NVIDIA para sa isang napakababang katumpakan Idinisenyo para sa AI inference. Kinakatawan nito ang mga numerong may E2M1 (1 sign bit, 2 exponent bits, at 1 mantissa bit) at nagdaragdag ng pangunahing sangkap: scaling sa dalawang antas na lubhang binabawasan ang error sa quantization kumpara sa mas simpleng mga pagtatantya.
Pinagsasama ng dalawang antas na pamamaraan na ito ang isang kadahilanan ng Inilapat ang FP8 E4M3 scale sa mga microblock ng 16 na halaga na may global tensor scaling sa FP32. Salamat sa kumbinasyong ito, a 88% mas kaunting error kaysa sa higit pang mga pangunahing power-of-two na solusyon tulad ng MXFP4, na nagpapatibay sa katatagan ng numero na may kakaunting bit.
Sa kaibahan, ang FP8 (E4M3 o E5M2) ay nakakabawas na ng kaunting gastos kumpara sa FP16/BF16, ngunit Ang NVFP4 ay nagpapatuloy ng isang hakbang karagdagang pagbabawas ng memorya at kapangyarihan. Ang BF16 ay nagpapanatili ng isang katulad na dynamic na hanay sa FP32 na may mas kaunting mga bit sa mantissa, perpekto para sa pagsasanay at mga kapaligiran kung saan ang gradient stability ay susi, ngunit para sa napakalaking inference, ang well-scaled na 4-bit ay gumagawa ng isang pagkakaiba.
Ang praktikal na kahihinatnan: sa mahusay na inangkop na mga workload, Ang NVFP4 ay nagpapanatili ng napakalapit na katumpakan sa mas matataas na mga format, ngunit may kapansin-pansing paglukso sa bilis at kahusayan. Ang lahat ay nakasalalay sa quantization, pagkakalibrate, at suporta sa katutubong hardware.

Arkitektura ng Blackwell: Ang Muscle Behind NVFP4
Ang pagdating ng Blackwell ay naging dahilan para sa pag-alis ng NVFP4. Ang GPU Pinagsasama ng B200 ang 208.000 bilyong transistor sa isang dual-chip na disenyo, na naka-link sa pamamagitan ng 10 TB/s NV-HBI interface na transparent sa software, na tinitiyak ang pinag-isang gawi.
Los Ikalimang henerasyong Tensor Cores katutubong sumusuporta sa NVFP4 gamit ang hardware-accelerated scaling, na umaabot hanggang sa 20 PetaFLOPS sa FP4Ang arkitektura ay nagsasama rin ng tensor memory na malapit sa mga compute unit (TMEM), na nililimitahan ang halaga ng enerhiya ng paggalaw ng data at pinapataas ang matagal na pagganap.
Para sa pagkonsumo, ang serye GeForce RTX 50 Namana nito ang mga kakayahan ng FP4 na may AI performance na hanggang 4.000 TOPS at pinapabilis ang pagbuo ng imahe (hal., FLUX) nang hanggang 3,9 beses kumpara sa FP8 sa mga partikular na sitwasyon, nagpapakita na ang 4-bit na inference ay hindi lamang isang bagay sa data center.
Sa mas malaking dulo, itinataas ng Blackwell Ultra (B300/GB300) ang bar gamit ang 288GB HBM3E at 1,5x na mas maraming performance kaysa sa B200, na umaabot sa mga configuration ng NVL72 na hawakan 1,1 exaFLOPS bawat system sa siksik na FP4. Naglalatag ito ng batayan para sa paghahatid ng mga modelo na may daan-daang bilyong parameter sa mas kaunting mga makina.
Mga Sukatan: Mas maraming token, mas kaunting watts, at memory na nasa ilalim ng kontrol
Ang data ng produksyon at benchmark ay nagpinta ng pare-parehong larawan. Sa DeepSeek-R1 671B, Ang pagtalon sa FP4 sa B200 ay triple performance kumpara sa FP8 sa H200, na may DGX B200 system na lumalampas sa 30.000 token/s. Halos hindi nahihirapan ang katumpakan: Bumababa ang MMLU mula 90,8% hanggang 90,7% kapag nag-quantize mula FP8 hanggang FP4.
Sa memorya, ang mga numero ay napakalaki. Isang katulad ng LLM Ang Llama 3.1 405B ay tumataas mula 140 GB sa FP32 hanggang 17,5 GB sa FP4, isang 8x na pagbawas na nagbibigay-daan sa paghahatid ng malalaking modelo sa mas kaunting GPU. Sa pagbuo ng larawan, maaaring bumaba ang isang FLUX configuration mula sa 51,4 GB sa FP16 hanggang 9,9 GB sa FP4 na may kaunting kapansanan sa paningin at umaangkop sa katamtamang VRAM.
Sinusuportahan ng MLPerf v5.0 ang paglipat: ang average na throughput ng Llama 2 70B nakatiklop kumpara sa nakaraang taon at ang pinakamahusay na mga resulta ay bumuti ng 3,3x. Sa enerhiya, ang token
mula H100 hanggang Ang 10 J ay bumaba sa 0,4 J sa B200 0,2 J na sa B300, i.e. hanggang sa 50x na higit na kahusayanIsinalin sa mga terminong pangnegosyo, inaasahang magkakaroon ng halos 90% na pagbaba sa mga halaga ng hinuha sa buong 2024-2025.
Sa dulo ng user, ang larawan at text na mga modelo ay may Ang NVFP4 ay gumagamit ng higit pang mga token bawat dolyar, na may mga ulat ng hanggang 40% na pagpapabuti sa mga alternatibo, isang bagay na mahusay na pinagsama sa mas maliit na memory footprint at kadalian ng paghahatid ng malalaking modelo.
Pag-ampon: mga ulap, kumpanya at totoong buhay na mga kaso
Pinamunuan ng mga cloud provider ang pag-aampon ng FP4. Nag-aalok ang Lambda Labs ng mga cluster ng HGX B200 na may FP4 sa 1-Click deployment, at mga tala ng CoreWeave 800 token/s sa Llama 3.1 405B na may GB200 GPU. Hindi lahat ng NVIDIA: Meta, OpenAI at Microsoft Gumagamit sila ng AMD Instinct MI300X sa hinuha at MI350 ay darating na may katutubong suporta sa FP4.
Sa pagbabangko, JPMorgan sinusuri ang FP4 para sa panganib at alternatibong pagsusuri; sa pangangalagang pangkalusugan sila ay nakita + 30% na bilis sa -50% memorya, at sa pagmamanupaktura, pinapagana ang mga real-time na desisyon sa mga device na may limitadong mapagkukunan, na nagbubukas ng mga pinto kung saan walang puwang noon.
Kasama ng software ang hakbang. TensorRT Model Optimizer nagbibigay ng buong FP4 quantization pipelines; mga balangkas tulad ng vLLM isama ang maagang suporta para sa NVFP4; at Nakayakap sa Mukha nagho-host ng mga pre-quantized na FP4 checkpoints (DeepSeek-R1, Llama 3.1, FLUX) para mapabilis ang mga deployment ng produksyon.
Para sa mga hindi gaanong compute-intensive na team, may mga QAT-less na paraan na ginagamit SVDQuant may katumpakan malapit sa quantized na pagsasanay; kung ang pinakamataas na katumpakan ay hinahangad, ang QAT sa FP4 Ito ay nagpapanatili o kahit na nagpapabuti sa BF16 sa mga pamilya tulad ng Nemotron 4, sa kondisyon na ang proseso ay maayos.
Imprastraktura: kapangyarihan, pagpapalamig, at mga bagong regulasyon sa data center
Ang napakababang katumpakan ay nangangailangan ng muling pagguhit ng data center. Isang sistema Ang GB200 NVL72 ay kumokonsumo ng 120 kW bawat rack para sa 72 GPU, higit sa kapasidad ng karamihan sa mga kasalukuyang data center. Gayunpaman, isang NVL72 pinapalitan ang siyam na HGX H100 at nangangailangan ng a 83% mas kaunting enerhiya para sa parehong epektibong pagkalkula.
Sa TDP na ~1.000 W bawat GPU, ang likidong pagpapalamig Ang direktang pag-install ng chip ay hindi opsyonal. Ang mga malamig na plato sa lahat ng mga hot spot ay nagbibigay-daan para sa paggamit coolant sa 45 ºC at mga cooling tower, pag-iwas sa mga mamahaling chiller. Mga solusyon tulad ng Supermicro DLC-2 Naabot nila ang 96 B200 bawat rack at hanggang 250 kW ng thermal capacity.
Sa base software, kailangan ang mga driver Na-update ang CUDA, TensorRT-LLM na may suporta sa FP4 at mga espesyal na tool sa quantization. Ang post-quantization sa Model Optimizer ay nagpapabilis sa pag-deploy ng produksyon, habang pagsasanay na may quantization pinapalaki ang kalidad ng pagpapanatili.
Kung titingnan sa katamtamang termino, dadami ang mga CPD na inihanda para sa mga rack. 50-120kW, na may mga susunod na henerasyong solusyon sa pagpapalamig at pamamahala ng enerhiya. Ang maturity ng software ay patuloy na mapapabuti sa walang putol na pagsasama at pipeline awtomatikong quantization.
Networking at scalability: NVLink 5, switch, at photonics
Ang interconnect na tela ay ang iba pang kalahati ng pagganap. Ang ika-5 henerasyon ng Dinodoble ng NVLink ang bandwidth at pinapayagan kang sumali hanggang sa 576 GPU. Ang bawat epektibong link ay nag-aalok ng ~50 GB/s bawat direksyon; na may 18 link sa bawat GPU, ang pinagsama-samang bandwidth ay umaabot sa ~1,8 TB / s, higit sa 14× kaysa sa PCIe Gen5.
El conmutador NVIDIA NVLink nag-aambag hanggang sa 130 TB / s bawat domain ng NVL72, mahalaga para sa paralelismo sa scale ng modelo. Bilang karagdagan, suporta sa protocol SHARP para sa mga hierarchical reductions, pinapabilis nito ang mga katumpakan tulad ng FP8 sa mga kritikal na kolektibong operasyon.
Ang NVIDIA ay nagtutulak din sa networking sa Quantum-X800 InfiniBand y Spectrum-X800 Ethernet, na may mga switch family na mula 128 hanggang 512 800G port, kasama ang high-density na 200G na opsyon, at pinagsamang liquid cooling upang mapanatili ang performance.
may NVIDIA Photonics, pinapalitan ng mga optical engine na isinama sa switch ASIC package ang mga tradisyonal na pluggable transceiver, na nagpo-promote ng hanggang 3,5x na kahusayan, 10x na mas resiliency at 1,3x na mas mabilis na pag-deploy, na nagbibigay daan para sa mga high-density optical data center.
Software at platform ecosystem: Dynamo, AI-Q, Mission Control, NIM, at OVX
Upang pisilin ang Blackwell, ipinakilala ng NVIDIA ang ilang mahahalagang piraso. Dynamo ay isang open source inference platform na idinisenyo upang sukatin ang isang query sa pagitan ng mga GPU sa pamamagitan ng NVLink, na may mga pagpapahusay na hanggang sa 30x sa load na may pangangatwiran matindi bilang DeepSeek R1 at pagdodoble ng throughput sa Hopper nang hindi binabago ang hardware.
AI-Q (plus AgentIQ) ay nagmumungkahi ng isang bukas na multi-agent na balangkas na nagsasama ng data ng enterprise, mga panlabas na tool at iba pang ahente, na nagpapadali sa mga composite system na may kakayahang dahilan tungkol sa teksto, mga larawan at mga video, na may mga integrasyon sa mga framework gaya ng CrewAI, LangGraph, o Azure AI Agent Service.
Sa layer ng pagpapatakbo, Control ng Mission Nag-o-automate ng end-to-end na orkestrasyon ng mga AI data center, na may tuluy-tuloy na paglipat sa pagitan ng pagsasanay at inference, 5x pang utilization at pagbawi sa trabaho 10x na mas mabilisBilang karagdagan, ang Base Command Manager ay magagamit na ngayon nang walang bayad para sa hanggang walong accelerators bawat system.
Ang baterya NVIDIA NIM nagdaragdag ng mga enterprise-ready generative AI microservices. Sa bahagi nito, Mga sistema ng OVX Ang mga ito ay nakatuon sa generative AI at intensive graphics, na sinamahan ng isang programa ng pagpapatunay ng imbakan gamit ang DDN, Dell PowerScale, NetApp, Pure Storage o WEKA para magarantiya ang throughput at scaling sa produksyon.
Mga propesyonal na produkto: RTX Pro Blackwell, DGX Station at DGX Spark
Ang bagong pamilya RTX Pro Blackwell I-update ang propesyonal na linya nang hanggang sa 96 GB ng memorya sa Pro 6000 at mas mataas 4.000 TOPS AI, 4th Gen RT Cores, at 5th Gen Tensor Cores na may FP4. Sa Server Edition, idinagdag nito vGPU at MIG upang hatiin ang isang GPU sa maraming nakahiwalay na pagkakataon.
Sa totoong mga kaso, naiulat ang mga ito 5× sa ray tracing vs RTX A6000 (Foster + Partners), hanggang 2x sa medical reconstruction (GE HealthCare), kapansin-pansing pagpapahusay sa VR (Rivian) at 3x pagiging produktibo gamit ang LLM (SoftServe). Itinuturo ng Pixar na 3,3% ng production footage nito ay kasya na ngayon sa loob ng 70 GB ng isang GPU.
Istasyon ng DGX ay na-update sa GB300 Grace Blackwell Ultra, Pinagsamang memorya ng 784GB at pataas 20 PFLOPS sa AI FP4, higit pang koneksyon ng 800 Gb / s gamit ang ConnectX-8. Para sa mga developer at mag-aaral, DGX Spark na may GB10 chip at 128 GB ng pinag-isang alok ng memorya ~1.000 TOPS ng AI at SmartNIC ConnectX‑7, na ginagawang mas mura ang pagpasok sa ecosystem.
Exascale sa isang rack at mga custom na superpod
Ang system DGX GB200 NVL72 doble mula 32 hanggang 72 GPU at pinapataas ang memorya mula ~19,5 TB hanggang ~30 TB. Sa pagkalkula, ang pagtalon ay kamangha-manghang: mula sa 127 PF a 1,4 EF sa FP4 (~11×), at mula 127 PF hanggang 720 PF sa FP8 (~5,6×), lahat sa isang chassis na ganap na pinalamig ng tubig.
Sa itaas, ang DGX SuperPOD na may kabuuang 8 GB200 NVL72 system 11,5 exaFLOPS FP4 at 36 GB200 SuperChips bawat system, na may mga pagpapahusay na hanggang sa 30 × kumpara sa H100 sa malaking LLM inference, na idinisenyo bilang isang "AI factory" na nakatuon para sa mga modelo sa pagkakasunud-sunod ng isang trilyong parameter.
Sa platform ng Grace-Blackwell, ang GB200 nag-uugnay ng dalawang B200 sa isang nakabahaging Grace CPU sa pamamagitan ng C2C, at umabot sa 576 GPU sa 1,8 TB/s gamit ang NVLink 5, nag-iipon ng mga napakalaking parallel na kapaligiran na angkop para sa pinaka-hinihingi na mga karga ng trabaho ng AI.
Modern Quantization: Pagpapanatili ng Intelligence sa 4 Bits
Ang tagumpay ng FP4 ay nagmumula sa pagsasama-sama hardware at software. Ang dual scaling ng NVIDIA ay nag-aayos sa pamamahagi ng mga halaga ng tensor at sinusuri ng Transformer engine higit sa 1.000 mga operasyon upang dynamic na i-optimize ang mga scale, na nagbibigay-daan sa mga modelo tulad ng DeepSeek‑R1 na makamit 98,1% kawastuhan sa FP4 at, sa ilang pagsubok, lumampas sa baseline ng FP8.
Sa post-training, SmoothQuant y AWQ ginawang posible na magkasya ang mga modelo sa laki ng Falcon 180B sa isang GPU. Kung kailangan mong panatilihin ang maximum na pagganap, ang QAT na tumutulad sa FP4 Sa panahon ng fine-tuning, nakakatulong ito na iakma ang mga distribusyon ng timbang. Ang mga pamilya tulad ng Nemotron 4 ay palabas Walang pagkawala ng FP4 ng QAT, sa o higit pa sa BF16.
Para sa mga kumplikadong kaso, pamamahala ng Mga hindi tipikal na halaga iniiwasan ang mga pagbagsak ng activation, at mga diskarte para sa halo-halong katumpakan itaas ang mga bit sa mga kritikal na operasyon. Ang resulta: Ang FP4 ay mabubuhay sa mga makakapal na arkitektura at gayundin sa Pinaghalo ng mga Eksperto, na may katumpakan na hindi nagsasakripisyo ng produksyon.
Roadmap at availability
Pagtingin sa unahan, ang henerasyon ng Vera Rubin layunin sa 50 PFLOPS FP4 GPU-siksik, na may ConnectX‑9, NVLink‑6 at memorya HBM4 (+1,6x bandwidth). Ang CPU-GPU interconnect ay tataas din sa ~1,8 TB/s, at muling itataas ni Rubin Ultra ang bar sa 100 PFLOPS FP4 y 1 TB ng HBM4e.
Sa gilid ng AMD, ang arkitektura cDNA 4 pinapagana ang Matrix Cores na may suporta para sa FP4 at FP6, pagdodoble ng performance kumpara sa nakaraang henerasyon at pagdaragdag ng sparsity upang mas mapabilis pa, isang bagay na partikular na kawili-wili sa mga modelo ng Mixture of Experts.
Ang pinakamadaling limitasyon ay hindi teknikal ngunit suplay ng hardware: Karamihan sa produksyon ng 2025 B200/B300 ay nakatuon sa mga hyperscaler. Gayunpaman, ang epekto sa cost per token at kahusayan sa enerhiya ay nagdudulot ng a tunay na demokratisasyon, na nagdadala ng mga makabagong kakayahan sa maliliit na organisasyon salamat sa mga paglukso sa memorya at pagkalkula ng bawat watt.