- NVFP4 menggabungkan E2M1 dengan penskalaan ganda (FP8 per mikroblok dan FP32 per tensor) untuk mengurangi kesalahan kuantisasi sebesar 88%.
- Di Blackwell, FP4 mencapai hingga 20 PFLOPS per GPU dan kinerja 3x lebih baik daripada FP8 dalam kasus dunia nyata, dengan penurunan akurasi minimal.
- Memori menurun drastis (hingga 8x), energi per token turun hingga 50x, dan biaya inferensi turun hampir 90%.
- Ekosistem sudah mendukung FP4 (TensorRT, vLLM, HF) dan infrastruktur maju dengan NVLink 5, pendinginan cair, dan rak 120 kW.

Percakapan seputar format presisi dalam AI telah dipercepat dengan hadirnya NVFP4, dan ada alasan kuat untuk hal ini: mengurangi bit tanpa kehilangan kualitas Mengubah secara radikal ilmu ekonomi inferensi. Dalam panduan ini, Anda akan mempelajari apa itu NVFP4, perbedaannya dengan FP8 dan BF16, serta mengapa perusahaan besar (dan kecil) sudah mengadopsinya, mulai dari pusat data hingga PC desktop.
Di luar promosi pemasaran yang berlebihan, ada data yang solid: Energi per token dipotong hingga 50 kali, aliran token per detik yang memecahkan rekor, dan memori yang menurun drastis tanpa mengurangi akurasi. Namun, penting untuk memisahkan berita utama dari kenyataan praktis, karena dampaknya bergantung pada perangkat keras, penskalaan numerik, dan bagaimana setiap model dikuantisasi dan dioptimalkan.
Apa itu NVFP4 dan bagaimana cara meningkatkannya pada FP8 dan BF16?
NVFP4 adalah proposal NVIDIA untuk presisi sangat rendah Dirancang untuk inferensi AI. Ini merepresentasikan angka dengan E2M1 (1 bit tanda, 2 bit eksponen, dan 1 bit mantissa) dan menambahkan komponen utama: penskalaan dalam dua tingkat yang secara drastis mengurangi kesalahan kuantisasi dibandingkan dengan perkiraan yang lebih sederhana.
Skema dua tingkat ini menggabungkan faktor Skala FP8 E4M3 diterapkan pada mikroblok dari 16 nilai dengan penskalaan tensor global di FP32. Berkat kombinasi ini, 88% lebih sedikit kesalahan daripada solusi pangkat dua yang lebih mendasar seperti MXFP4, yang memperkuat stabilitas numerik dengan bit yang sangat sedikit.
Sebaliknya, FP8 (E4M3 atau E5M2) sudah memangkas cukup banyak biaya dibandingkan dengan FP16/BF16, tetapi NVFP4 melangkah lebih jauh Semakin mengurangi memori dan daya. BF16 mempertahankan rentang dinamis yang serupa dengan FP32 dengan bit yang lebih sedikit dalam mantissa, ideal untuk pelatihan dan lingkungan di mana stabilitas gradien menjadi kunci, tetapi untuk inferensi masif, 4-bit yang berskala baik memberikan perbedaan.
Konsekuensi praktisnya: dalam beban kerja yang disesuaikan dengan baik, NVFP4 mempertahankan akurasi yang sangat dekat ke format yang lebih tinggi, tetapi dengan peningkatan kecepatan dan efisiensi yang signifikan. Semuanya bergantung pada kuantisasi, kalibrasi, dan dukungan perangkat keras bawaan.

Arsitektur Blackwell: Kekuatan di Balik NVFP4
Kedatangan Blackwell telah menjadi katalis bagi peluncuran NVFP4. GPU B200 mengintegrasikan 208.000 miliar transistor dalam desain chip ganda, dihubungkan melalui antarmuka NV-HBI 10 TB/s yang transparan terhadap perangkat lunak, memastikan perilaku terpadu.
Los Inti Tensor Generasi Kelima secara asli mendukung NVFP4 dengan penskalaan yang dipercepat perangkat keras, mencapai hingga 20 PetaFLOPS di FP4Arsitektur ini juga menggabungkan memori tensor dekat dengan unit komputasi (TMEM), membatasi biaya energi pergerakan data dan meningkatkan kinerja berkelanjutan.
Untuk konsumsi, seri GeForce RTX 50 Ini mewarisi kemampuan FP4 dengan kinerja AI hingga 4.000 TOPS dan mempercepat pembuatan gambar (misalnya, FLUX) hingga 3,9 kali dibandingkan dengan FP8 dalam skenario tertentu, menunjukkan bahwa inferensi 4-bit bukan hanya hal yang terjadi di pusat data.
Di ujung yang lebih besar, Blackwell Ultra (B300/GB300) menaikkan standar dengan 288GB HBM3E dan performa 1,5x lebih baik dari B200, mencapai konfigurasi NVL72 untuk menyentuh 1,1 exaFLOPS per sistem dalam FP4 yang padat. Hal ini meletakkan dasar untuk melayani model dengan ratusan miliar parameter pada mesin yang lebih sedikit.
Metrik: Lebih banyak token, lebih sedikit watt, dan memori terkendali
Data produksi dan benchmark menunjukkan gambaran yang konsisten. Pada DeepSeek-R1 671B, Lonjakan ke FP4 di B200 melipatgandakan performa dibandingkan dengan FP8 di H200, dengan sistem DGX B200 melebihi 30.000 token/detikAkurasi hampir tidak berkurang: MMLU turun dari 90,8% menjadi 90,7% saat mengkuantisasi dari FP8 ke FP4.
Dalam ingatan, jumlahnya sangat banyak. LLM seperti Llama 3.1 405B meningkat dari 140 GB di FP32 menjadi 17,5 GB di FP4, pengurangan 8x yang memungkinkan penyajian model masif dengan GPU yang lebih sedikit. Dalam pembuatan gambar, konfigurasi FLUX dapat diturunkan dari 51,4 GB di FP16 hingga 9,9 GB di FP4 dengan gangguan penglihatan minimal dan beradaptasi dengan VRAM sederhana.
MLPerf v5.0 mendukung perpindahan: throughput rata-rata Llama 2 70B terlipat dibandingkan dengan tahun sebelumnya dan hasil terbaik meningkat 3,3x. Dalam energi, token
dari H100 ke 10 J turun menjadi 0,4 J di B200 sudah 0,2 J di B300, yaitu hingga 50x lebih efisienJika diterjemahkan ke dalam istilah bisnis, diperkirakan akan ada penurunan hampir 90% dalam biaya inferensi sepanjang tahun 2024-2025.
Di sisi pengguna, model gambar dan teks dengan NVFP4 memanfaatkan lebih banyak token per dolar, dengan laporan peningkatan hingga 40% dibandingkan alternatif lainnya, sesuatu yang dipadukan dengan baik dengan jejak memori yang lebih kecil dan kemudahan dalam menyajikan model yang besar.
Adopsi: cloud, perusahaan, dan kasus nyata
Penyedia cloud memimpin adopsi FP4. Lambda Labs menawarkan cluster HGX B200 dengan FP4 dalam penerapan 1-Klik, dan rekaman CoreWeave 800 token/detik di Llama 3.1 405B dengan GPU GB200. Tidak semuanya NVIDIA: Meta, OpenAI dan Microsoft Mereka menggunakan AMD Instinct MI300X dalam inferensi dan MI350 akan hadir dengan dukungan FP4 asli.
Dalam perbankan, JPMorgan mengevaluasi FP4 untuk analisis risiko dan alternatif; dalam perawatan kesehatan mereka telah terlihat +30% kecepatan dengan -50% memori, dan dalam manufaktur, keputusan waktu nyata dimungkinkan pada perangkat dengan sumber daya terbatas, membuka pintu yang sebelumnya tidak ada ruangnya.
Perangkat lunak menyertai langkah tersebut. Pengoptimal Model TensorRT menyediakan jalur kuantisasi FP4 penuh; kerangka kerja seperti vLLM mengintegrasikan dukungan awal untuk NVFP4; dan Wajah Memeluk menyelenggarakan titik pemeriksaan FP4 pra-kuantisasi (DeepSeek-R1, Llama 3.1, FLUX) untuk mempercepat penerapan produksi.
Untuk tim yang tidak terlalu intensif komputasi, ada cara tanpa QAT yang menggunakan SVDQuant dengan akurasi yang mendekati pelatihan terkuantisasi; jika akurasi maksimum dicari, QAT di FP4 Ia mempertahankan atau bahkan meningkatkan BF16 dalam keluarga seperti Nemotron 4, asalkan prosesnya disempurnakan.
Infrastruktur: daya, pendinginan, dan peraturan pusat data baru
Presisi yang sangat rendah membutuhkan penggambaran ulang pusat data. Sebuah sistem GB200 NVL72 mengonsumsi 120 kW per rak untuk 72 GPU, melebihi kapasitas sebagian besar pusat data yang ada. Meski begitu, NVL72 menggantikan sembilan HGX H100 dan membutuhkan 83% lebih hemat energi untuk perhitungan efektif yang sama.
Dengan TDP ~1.000 W per GPU, pendinginan cair Pemasangan chip langsung tidak opsional. Pelat dingin di semua titik panas memungkinkan penggunaan pendingin pada suhu 45 ºC dan menara pendingin, menghindari penggunaan pendingin yang mahal. Solusi seperti Supermikro DLC-2 Mereka mencapai 96 B200 per rak dan hingga 250 kW kapasitas termal.
Dalam perangkat lunak dasar, driver diperlukan CUDA diperbaruiTensorRT-LLM dengan dukungan FP4 dan alat kuantisasi khusus. Pasca-kuantisasi dengan Model Optimizer mempercepat penerapan produksi, sementara pelatihan dengan kuantisasi memaksimalkan retensi kualitas.
Dalam jangka menengah, CPD yang disiapkan untuk rak akan menjamur. 50-120 kW, dengan solusi pendinginan dan manajemen energi generasi berikutnya. Kematangan perangkat lunak akan terus meningkat seiring integrasi dan jalur pipa yang mulus kuantisasi otomatis.
Jaringan dan skalabilitas: NVLink 5, switch, dan fotonik
Jaringan interkoneksi adalah separuh lainnya dari kinerja. Generasi ke-5 NVLink menggandakan bandwidth dan memungkinkan Anda untuk bergabung hingga GPU 576Setiap tautan efektif menawarkan ~50 GB/s per arah; dengan 18 tautan per GPU, bandwidth agregat mencapai ~1,8 TB / s, lebih dari 14× dari PCIe Gen5.
El conmutador NVIDIA NVLink berkontribusi hingga 130 TB / s per domain NVL72, penting untuk paralelisme skala model. Selain itu, dukungan protokol TAJAM untuk reduksi hierarkis, ia mempercepat presisi seperti FP8 dalam operasi kolektif kritis.
NVIDIA juga mendorong jaringan dengan InfiniBand Quantum-X800 y Spektrum-X800 Ethernet, dengan keluarga sakelar mulai dari 128 hingga 512 port 800G, ditambah opsi 200G berdensitas tinggi, dan pendinginan cair terintegrasi untuk mempertahankan kinerja.
dengan NVIDIA Fotonik, mesin optik yang terintegrasi ke dalam paket ASIC switch menggantikan transceiver pluggable tradisional, mempromosikan hingga Efisiensi 3,5×, ketahanan 10x lebih baik dan penerapan 1,3x lebih cepat, membuka jalan bagi pusat data optik berdensitas tinggi.
Ekosistem perangkat lunak dan platform: Dynamo, AI-Q, Mission Control, NIM, dan OVX
Untuk menekan Blackwell, NVIDIA telah memperkenalkan beberapa bagian kunci. Dinamo adalah platform inferensi sumber terbuka yang dirancang untuk menskalakan satu kueri antara GPU melalui NVLink, dengan peningkatan hingga 30x dalam beban dengan penalaran sekuat DeepSeek R1 dan menggandakan throughput pada Hopper tanpa mengubah perangkat keras.
AI-Q (plus AgentIQ) mengusulkan kerangka kerja multi-agen terbuka yang mengintegrasikan data perusahaan, alat eksternal dan agen lainnya, memfasilitasi sistem komposit yang mampu alasan tentang teks, gambar, dan video, dengan integrasi ke dalam kerangka kerja seperti CrewAI, LangGraph, atau Azure AI Agent Service.
Pada lapisan operasional, Mission Control Mengotomatiskan orkestrasi ujung ke ujung pusat data AI, dengan peralihan yang mulus antara pelatihan dan inferensi, Pemanfaatan 5x lebih banyak dan pemulihan pekerjaan 10x lebih cepatSelain itu, Base Command Manager sekarang tersedia tanpa biaya hingga delapan akselerator per sistem.
Baterai NVIDIA NIM menambahkan layanan mikro AI generatif yang siap untuk perusahaan. Sementara itu, Sistem OVX Mereka berorientasi pada AI generatif dan grafis intensif, disertai dengan program validasi penyimpanan dengan DDN, Dell PowerScale, NetApp, Pure Storage atau WEKA untuk menjamin throughput dan skalabilitas dalam produksi.
Produk profesional: RTX Pro Blackwell, DGX Station dan DGX Spark
keluarga baru RTX Pro Blackwell Perbarui lini profesional hingga Memori 96 GB di Pro 6000 dan lebih tinggi 4.000 TOPS AI, RT Core Generasi ke-4, dan Tensor Core Generasi ke-5 dengan FP4. Di Server Edition, ditambahkan vGPU dan MIG untuk membagi GPU menjadi beberapa instansi yang terisolasi.
Dalam kasus nyata, hal ini telah dilaporkan 5× dalam penelusuran sinar vs RTX A6000 (Foster + Partners), hingga 2x dalam rekonstruksi medis (GE HealthCare), peningkatan penting dalam VR (Rivian) dan Produktivitas 3x dengan LLM (SoftServe). Pixar menunjukkan bahwa 3,3% rekaman produksinya kini muat dalam 70 GB dari satu GPU.
Stasiun DGX diperbarui dengan GB300 Grace Blackwell Ultra, Memori terpadu 784GB dan ke atas 20 PFLOPS di AI FP4, lebih banyak konektivitas 800 Gb / dtk dengan ConnectX-8. Untuk pengembang dan pelajar, DGX percikan dengan chip GB10 dan memori terpadu 128 GB menawarkan ~1.000 PUNCAK AI dan SmartNIC ConnectX‑7, membuat akses ke ekosistem menjadi lebih murah.
Exascale dalam rak dan superpod khusus
Sistem DGX GB200 NVL72 ganda dari 32 ke GPU 72 dan meningkatkan memori dari ~19,5 TB menjadi ~30 TBDalam komputasi, lompatannya spektakuler: dari 127 PF a 1,4 EF di FP4 (~11×), dan dari 127 PF hingga 720 PF di FP8 (~5,6×), semuanya dalam sasis berpendingin air penuh.
Di atas, DGX SuperPOD dengan total 8 sistem GB200 NVL72 11,5 exaFLOPS FP4 dan 36 GB200 SuperChips per sistem, dengan peningkatan hingga 30 × dibandingkan dengan H100 dalam inferensi LLM besar, yang dirancang sebagai “pabrik AI” yang ditujukan untuk model dengan urutan satu triliun parameter.
Di platform Grace-Blackwell, GB200 menghubungkan dua B200 dengan CPU Grace bersama melalui C2C, dan meningkatkan skala hingga 576 GPU pada 1,8 TB/s menggunakan NVLink 5, merakit lingkungan paralel besar-besaran yang cocok untuk beban kerja AI yang paling menuntut.
Kuantisasi Modern: Mempertahankan Kecerdasan pada 4 Bit
Keberhasilan FP4 berasal dari penggabungan perangkat keras dan perangkat lunak. Penskalaan ganda NVIDIA menyesuaikan dengan distribusi nilai tensor dan mesin Transformer menganalisis lebih dari 1.000 operasi untuk mengoptimalkan skala secara dinamis, memungkinkan model seperti DeepSeek‑R1 untuk mencapai Akurasi 98,1% di FP4 dan, dalam beberapa tes, melampaui garis dasar FP8.
Dalam pasca pelatihan, Kuantitas Halus y AWQ memungkinkan untuk memasang model seukuran Falcon 180B ke dalam satu GPU. Jika Anda perlu mempertahankan performa maksimal, QAT meniru FP4 Selama penyempurnaan, ini membantu menyesuaikan distribusi bobot. Keluarga seperti Nemotron 4 menunjukkan FP4 tanpa kehilangan dengan QAT, pada atau di atas BF16.
Untuk kasus yang rumit, manajemen Nilai atipikal menghindari keruntuhan aktivasi, dan strategi untuk presisi campuran meningkatkan bit dalam operasi kritis. Hasilnya: FP4 layak dalam arsitektur padat dan juga dalam Campuran Ahli, dengan presisi yang tidak mengorbankan produksi.
Peta jalan dan ketersediaan
Melihat ke depan, Generasi Vera Rubin bertujuan 50 PFLOPS FP4 Padat GPU, dengan Hubungkan X‑9, NVLink‑6 dan memori HBM4 (+1,6x bandwidth). Interkoneksi CPU-GPU juga akan meningkat menjadi ~1,8 TB/detik, dan Rubin Ultra akan meningkatkan standar lagi untuk 100 PFLOPS FP4 y 1 TB HBM4e.
Di sisi AMD, arsitekturnya CDNA4 memberi daya pada Matrix Core dengan dukungan untuk FP4 dan FP6, menggandakan kinerja dibandingkan dengan generasi sebelumnya dan menambahkan kelangkaan untuk berakselerasi lebih jauh, sesuatu yang sangat menarik dalam model Mixture of Experts.
Keterbatasan yang paling mendesak bukanlah keterbatasan teknis, tetapi pasokan perangkat kerasSebagian besar produksi B200/B300 pada tahun 2025 dialokasikan untuk hyperscaler. Namun, dampaknya terhadap biaya per token dan efisiensi energi menyebabkan demokratisasi sejati, menghadirkan kemampuan mutakhir bagi organisasi kecil berkat lompatan dalam memori dan komputasi per watt.