- NVFP4 поєднує E2M1 з подвійним масштабуванням (FP8 на мікроблок та FP32 на тензор) для зменшення похибки квантування на 88%.
- У Blackwell FP4 досягає до 20 PFLOPS на графічний процесор та втричі кращої продуктивності, ніж FP8, у реальних випадках з мінімальним падінням точності.
- Обсяг пам'яті різко падає (до 8 разів), енергія на токен падає до 50 разів, а вартість виводу падають майже на 90%.
- Екосистема вже підтримує FP4 (TensorRT, vLLM, HF), а інфраструктура вдосконалюється завдяки NVLink 5, рідинному охолодженню та стійкам потужністю 120 кВт.
Розмова про прецизійні формати в штучному інтелекті прискорилася з появою NVFP4, і не без підстав: зменшити кількість біт без втрати якості радикально змінює економіку логічного висновку. У цьому посібнику ви дізнаєтеся, що таке NVFP4, чим він відрізняється від FP8 та BF16, і чому великі (і не дуже великі) компанії вже впроваджують його, від центрів обробки даних до настільних ПК.
Окрім маркетингового ажіотажу, є й вагомі дані: Енергія на жетон зменшується до 50 разів, рекордні потоки токенів за секунду та падіння обсягу пам'яті до дрібки без втрати точності. Тим не менш, варто відокремити заголовки від практичної реальності, оскільки вплив залежить від апаратного забезпечення, числового масштабування та того, як кожна модель квантується та оптимізується.
Що таке NVFP4 і чим він покращує FP8 та BF16?
NVFP4 – це пропозиція NVIDIA для наднизька точність Розроблено для штучного виводу. Він представляє числа за допомогою E2M1 (1 біт знака, 2 біти експоненти та 1 біт мантиси) та додає ключовий інгредієнт: масштабування у двох рівнях що різко зменшує похибку квантування порівняно з простішими наближеннями.
Ця дворівнева схема поєднує в собі фактор Шкала FP8 E4M3, застосована до мікроблоків з 16 значень з глобальним тензорним масштабуванням у FP32. Завдяки цій комбінації, a На 88% менше помилок ніж більш прості рішення на основі степеня двох, такі як MXFP4, що підсилюють числову стабільність за допомогою такої невеликої кількості бітів.
На відміну від цього, FP8 (E4M3 або E5M2) вже значно зменшує витрати порівняно з FP16/BF16, але NVFP4 йде ще далі ще більше зменшуючи обсяг пам'яті та енергоспоживання. BF16 підтримує динамічний діапазон, подібний до FP32, з меншою кількістю бітів у мантисі, що ідеально підходить для навчання та середовищ, де стабільність градієнта є ключовою, але для масивного виводу добре масштабований 4-бітний розряд має вирішальне значення.
Практичний наслідок: за умови добре адаптованих робочих навантажень, NVFP4 підтримує дуже точну точність до вищих форматів, але зі значним зростанням швидкості та ефективності. Все залежить від квантування, калібрування та вбудованої апаратної підтримки.

Blackwell Architecture: сила, що стоїть за NVFP4
Прихід Блеквелла став каталізатором злету NVFP4. Графічний процесор B200 інтегрує 208.000 мільярдів транзисторів у двочіповій конструкції, підключеній через інтерфейс NV-HBI зі швидкістю 10 ТБ/с, прозорий для програмного забезпечення, що забезпечує уніфіковану роботу.
L Тензорні ядра п'ятого покоління вбудована підтримка NVFP4 з апаратно-прискореним масштабуванням, що сягає до 20 петафлопсів у FP4Архітектура також включає тензорну пам'ять, розташовану поблизу обчислювальних блоків (TMEM), що обмежує енерговитрати на переміщення даних та підвищує стабільну продуктивність.
Для споживання, серія GeForce RTX 50 Він успадковує можливості FP4 з продуктивністю штучного інтелекту до 4.000 TOPS та прискорює генерацію зображень (наприклад, FLUX) до... у 3,9 рази порівняно з 8-ю рамковою програмою у конкретних сценаріях, демонструючи, що 4-бітний висновок не є лише проблемою центрів обробки даних.
У більшому сенсі, Blackwell Ultra (B300/GB300) піднімає планку завдяки... 288 ГБ HBM3E та в 1,5 раза вища продуктивність ніж B200, досягаючи в конфігураціях NVL72 дотику 1,1 екзафлопс на систему у щільному FP4. Це закладає основу для обслуговування моделей із сотнями мільярдів параметрів на меншій кількості машин.
Метрики: більше токенів, менше ват та пам'ять під контролем
Дані виробництва та бенчмаркинг малюють узгоджену картину. На DeepSeek-R1 671B, Перехід до FP4 у B200 потроює продуктивність порівняно з FP8 у H200, при цьому системи DGX B200 перевищують 30.000 токенів/сТочність майже не страждає: MMLU падає з 90,8% до 90,7% при квантуванні від FP8 до FP4.
У пам'яті цифри вражають. LLM, як Об'єм пам'яті Llama 3.1 405B збільшено зі 140 ГБ у FP32 до 17,5 ГБ у FP4., 8-кратне зменшення, що дозволяє обслуговувати масивні моделі на меншій кількості графічних процесорів. Під час генерації зображень конфігурація FLUX може знизитися з від 51,4 ГБ у FP16 до 9,9 ГБ у FP4 з мінімальними порушеннями зору та адаптацією до скромного обсягу відеопам'яті.
MLPerf v5.0 підтримує перехід: середня пропускна здатність Лама 2 70B складена порівняно з попереднім роком, а найкращі результати покращилися у 3,3 рази. В енергетиці токен
від H100 до 10 Дж падає до 0,4 Дж у B200 вже 0,2 Дж у B300, тобто до 50 разів вища ефективністьУ перекладі на бізнес-терміни, очікується, що протягом 2024-2025 років витрати на логічний висновок знизяться майже на 90%.
З боку користувача, моделі зображень та тексту з NVFP4 використовує більше токенів на долар, зі звітами про покращення до 40% порівняно з альтернативами, що добре поєднується з меншим обсягом пам'яті та легкістю обслуговування великих моделей.
Впровадження: хмари, компанії та реальні випадки
Постачальники хмарних послуг очолюють впровадження FP4. Lambda Labs пропонує кластери HGX B200 з FP4 у розгортаннях в один клік та записах CoreWeave 800 токенів/с у Llama 3.1 405B з графічним процесором GB200. Це не все від NVIDIA: Мета, OpenAI та Microsoft Вони використовують AMD Instinct MI300X для виведення та MI350 буде оснащено вбудованою підтримкою FP4.
У банківській справі, JPMorgan оцінює FP4 для аналізу ризиків та альтернатив; у сфері охорони здоров'я їх спостерігали +30% швидкості з -50% пам'яті, а у виробництві рішення в режимі реального часу приймаються на пристроях з обмеженими ресурсами, відкриваючи можливості там, де раніше місця не було.
Програмне забезпечення супроводжує цей крок. Оптимізатор моделі TensorRT забезпечує повні конвеєри квантування FP4; такі фреймворки, як vLLM інтегрувати ранню підтримку для NVFP4; та Обіймати обличчя розміщує попередньо квантовані контрольні точки FP4 (DeepSeek-R1, Llama 3.1, FLUX) для пришвидшення розгортання у виробничому середовищі.
Для команд з меншою обчислювальною потужністю існують способи без QAT (Quality Attachment - підхід до оцінки якості) SVDQuant з точністю, близькою до квантованого навчання; якщо прагнеться максимальної точності, то QAT у FP4 Він зберігає або навіть покращує BF16 у таких сімействах, як Nemotron 4, за умови точного налаштування процесу.
Інфраструктура: живлення, охолодження та нові правила для центрів обробки даних
Наднизька точність вимагає перемальовування центру обробки даних. Система GB200 NVL72 споживає 120 кВт на стійку для 72 графічних процесорів, що перевищує потужність більшості існуючих центрів обробки даних. Навіть попри це, NVL72 замінює дев'ять HGX H100 і вимагає a 83% менше енергії для того ж ефективного розрахунку.
З TDP ~1.000 Вт на графічний процесор, охолодження рідини Пряме встановлення чіпа не є необов'язковим. Холодні пластини у всіх гарячих точках дозволяють використовувати охолоджувальна рідина при 45 ºC та градирні, уникаючи дорогих чилерів. Такі рішення, як Supermicro DLC-2 Вони досягають 96 B200 на стійку і до 250 кВт теплової ємності.
У базовому програмному забезпеченні потрібні драйвери CUDA оновлено, TensorRT-LLM з підтримкою FP4 та спеціалізованими інструментами квантування. Пост-квантування за допомогою Model Optimizer прискорює розгортання у виробничому середовищі, водночас навчання з квантуванням максимізує збереження якості.
Заглядаючи в середньострокову перспективу, кількість CPD, підготовлених до встановлення на стелажі, зростатиме. 50-120 кВт, з рішеннями для охолодження та управління енергією наступного покоління. Зрілість програмного забезпечення продовжуватиме покращуватися з безшовні інтеграції та конвеєри автоматизоване квантування.
Мережева взаємодія та масштабованість: NVLink 5, комутатори та фотоніка
З’єднувальна структура – це інша половина продуктивності. 5-те покоління NVLink подвоює пропускну здатність і дозволяє вам приєднатися до GPU 576Кожне ефективне посилання пропонує ~50 Гбіт/с на напрямок; з 18 посиланнями на графічний процесор, сукупна пропускна здатність досягає ~1,8 TB / с, що більш ніж у 14 разів більше, ніж PCIe Gen5.
El conmutador NVIDIA NVLink сприяє до 130 TB / с для кожного домену NVL72, що є важливим для паралелізму в масштабі моделі. Крім того, підтримка протоколу ШАРП Для ієрархічних скорочень він прискорює точність, подібну до FP8, у критичних колективних операціях.
NVIDIA також просувається в мережевому середовищі з Quantum-X800 InfiniBand y Spectrum-X800 Ethernet, з сімействами комутаторів від 128 до 512 портів 800G, а також опціями високої щільності 200G та вбудованим рідинним охолодженням для підтримки продуктивності.
з NVIDIA Photonics, оптичні механізми, інтегровані в корпус ASIC комутатора, замінюють традиційні підключаються трансивери, сприяючи розвитку до 3,5-кратна ефективність, у 10 разів вища стійкість та в 1,3 раза швидше розгортання, що відкриває шлях для оптичних центрів обробки даних високої щільності.
Програмна та платформна екосистема: Dynamo, AI-Q, Mission Control, NIM та OVX
Щоб стиснути Blackwell, NVIDIA представила кілька ключових компонентів. Динамо це платформа логічного виводу з відкритим кодом, розроблена для масштабування одного запиту між графічними процесорами через NVLink, з покращеннями до 30x завантажено з обґрунтуванням інтенсивніший, як DeepSeek R1, та подвоюють пропускну здатність на Hopper без зміни обладнання.
Штучний інтелект (AI-Q) (плюс AgentIQ) пропонує відкриту мультиагентну платформу, яка інтегрує корпоративні дані, зовнішні інструменти та інші агенти, сприяючи створенню композитних систем, здатних причина щодо тексту, зображень та відео, з інтеграціями в такі фреймворки, як CrewAI, LangGraph або Azure AI Agent Service.
На операційному рівні, Управління польотами Автоматизує комплексну оркестрацію центрів обробки даних зі штучним інтелектом, забезпечуючи безперешкодне перемикання між навчанням та логічним висновком. у 5 разів більше використання та відновлення робочих місць у 10 разів швидшеКрім того, Base Command Manager тепер доступний безкоштовно для восьми акселераторів на систему.
Акумулятор NVIDIA NIM додає генеративні мікросервіси штучного інтелекту, готові для використання на підприємствах. Зі свого боку, Системи OVX Вони орієнтовані на генеративний штучний інтелект та інтенсивну графіку, що супроводжується програмою перевірка сховища з DDN, Dell PowerScale, NetApp, Pure Storage або WEKA для гарантування пропускної здатності та масштабування у виробничому середовищі.
Професійні продукти: RTX Pro Blackwell, DGX Station та DGX Spark
Нова сім'я RTX Pro Блеквелл Оновіть професійну лінійку, додавши до 96 Гб пам'яті у Pro 6000 та новіших версіях 4.000 TOPS Штучний інтелект, RT-ядра 4-го покоління та тензорні ядра 5-го покоління з FP4. У серверній версії додано віртуальний графічний процесор (vGPU) та MIG розділити графічний процесор на кілька ізольованих екземплярів.
У реальних випадках про них повідомлялося 5× у трасуванні променів порівняно з RTX A6000 (Foster + Partners), до 2 разів у медичній реконструкції (GE HealthCare), помітні покращення у VR (Rivian) та 3-кратна продуктивність з LLM (SoftServe). Pixar зазначає, що 3,3% її виробничого матеріалу тепер поміщається в межах 70 ГБ одного графічного процесора.
Станція DGX оновлено GB300 Grace Blackwell Ultra, 784 Гб уніфікованої пам'яті і вище 20 PFLOPS у FP4 штучного інтелекту, більше можливостей для зв'язку 800 Гб / с з ConnectX-8. Для розробників та студентів, DGX Spark з чіпом GB10 та 128 ГБ уніфікованої пам'яті пропонує ~1.000 ТОПІВ штучного інтелекту та SmartNIC ConnectX‑7, що робить вхід в екосистему дешевшим.
Ексафлопс у стійці та кастомні суперподи
Система DGX GB200 NVL72 подвоюється з 32 до GPU 72 та збільшує обсяг пам'яті з ~19,5 ТБ до ~30 ТБУ обчисленнях стрибок вражає: від 127 ПФ a 1,4 EF у FP4 (~11×), та від 127 PF до 720 PF у FP8 (~5,6×), і все це в повністю водяному охолоджуваному шасі.
Вище, DGX SuperPod з 8 системами GB200 NVL72 загалом 11,5 екзафлопс FP4 та 36 ГБ200 SuperChips на систему, з покращеннями до 30 × порівняно з H100 у великому виведенні LLM, розробленому як «фабрика штучного інтелекту», орієнтована на моделі порядку трильйона параметрів.
На платформі Грейс-Блеквелл, GB200 з'єднує два B200 зі спільним процесором Grace через C2C та масштабується до 576 графічних процесорів зі швидкістю 1,8 ТБ/с використовуючи NVLink 5, збираючи масово паралельні середовища, що підходять для найвимогливіших робочих навантажень штучного інтелекту.
Сучасне квантування: збереження інтелекту на рівні 4 бітів
Успіх FP4 полягає в поєднанні апаратне та програмне забезпеченняПодвійне масштабування NVIDIA підлаштовується під розподіл значень тензора та аналіз движка Transformer. більше 1.000 операцій динамічно оптимізувати масштаби, що дозволяє таким моделям, як DeepSeek‑R1, досягати Точність 98,1% у FP4 та, в деяких тестах, перевищити базовий рівень 8-ї рамкової програми.
У період після тренування, SmoothQuant y AWQ зробили можливим розміщення моделей розміром з Falcon 180B на одному графічному процесорі. Якщо вам потрібно зберегти максимальну продуктивність, QAT, що емулює FP4 Під час точного налаштування це допомагає адаптувати розподіл ваги. Такі сімейства, як Nemotron 4, демонструють FP4 без втрат за допомогою QAT, на рівні BF16 або вище.
У складних випадках лікування Нетипові значення уникає колапсів активації та стратегій для змішана точність підвищувати кількість бітів у критичних операціях. Результат: FP4 життєздатний у щільних архітектурах, а також у Суміш експертів, з точністю, яка не впливає на виробництво.
Дорожня карта та доступність
Заглядаючи вперед, Покоління Віри Рубін вказує на 50 PFLOPS FP4 Щільно навантажений графічним процесором, з ConnectX‑9, NVLink‑6 та пам’ять HBM4 (+1,6x пропускна здатність). З’єднання між процесором і графічним процесором також збільшиться до ~1,8 ТБ/с, і Rubin Ultra знову підніме планку 100 PFLOPS FP4 y 1 ТБ HBM4e.
З боку AMD, архітектура кДНК 4 забезпечує Matrix Cores з підтримкою для FP4 та FP6, що подвоює продуктивність порівняно з попереднім поколінням та додає розрідженість для ще більшого прискорення, що особливо цікаво в моделях Mixture of Experts.
Найбільш нагальне обмеження не технічне, а постачання обладнанняЗначна частина виробництва B200/B300 у 2025 році буде спрямована на гіперскейлерів. Тим не менш, вплив на вартість токена та енергоефективність спричиняє справжня демократизація, що забезпечує передові можливості малим організаціям завдяки стрибкам у пам'яті та обчисленнях на ват.