NVFP4: Что это такое и чем оно превосходит FP8 и BF16 в области искусственного интеллекта.

Последнее обновление: 8 октября 2025
Автор: Исаак
  • NVFP4 объединяет E2M1 с двойным масштабированием (FP8 на микроблок и FP32 на тензор) для снижения ошибки квантования на 88%.
  • В Блэквелле FP4 достигает производительности до 20 PFLOPS на графический процессор и в 3 раза превосходит FP8 в реальных случаях при минимальном падении точности.
  • Объем памяти резко сокращается (до 8 раз), энергия, затрачиваемая на токен, падает до 50 раз, а затраты на вывод снижаются почти на 90%.
  • Экосистема уже поддерживает FP4 (TensorRT, vLLM, HF), а инфраструктура развивается с помощью NVLink 5, жидкостного охлаждения и стоек мощностью 120 кВт.

Формат NVFP4 и точность ИИ

Разговор о точных форматах в ИИ активизировался с появлением NVFP4, и на то есть веские причины: уменьшить биты без потери качества радикально меняет экономику вывода. В этом руководстве вы узнаете, что такое NVFP4, чем он отличается от FP8 и BF16 и почему крупные (и не очень) компании уже внедряют его — от центров обработки данных до настольных ПК.

За маркетинговой шумихой скрываются надежные данные: Энергия на токен сокращается до 50 раз, рекордное количество потоков токенов в секунду и резкое сокращение объёма памяти до доли секунды без ущерба для точности. Тем не менее, стоит отделять заголовки от практической реальности, поскольку последствия зависят от аппаратного обеспечения, численного масштабирования и того, как каждая модель квантуется и оптимизируется.

Что такое NVFP4 и чем он лучше FP8 и BF16?

NVFP4 — это предложение NVIDIA для сверхнизкая точность Разработан для вывода ИИ. Он представляет числа в формате E2M1 (1 знаковый бит, 2 бита экспоненты и 1 бит мантиссы) и добавляет ключевой компонент: масштабирование в двух уровнях что радикально снижает ошибку квантования по сравнению с более простыми приближениями.

Эта двухуровневая схема объединяет фактор Масштаб FP8 E4M3, примененный к микроблокам 16 значений с глобальным тензорным масштабированием в FP32. Благодаря этой комбинации, На 88% меньше ошибок чем более базовые решения на основе степеней двойки, такие как MXFP4, усиливающие численную стабильность при столь небольшом количестве бит.

Напротив, FP8 (E4M3 или E5M2) уже значительно сокращает стоимость по сравнению с FP16/BF16, но NVFP4 делает еще один шаг вперед Дополнительное сокращение памяти и энергопотребления. BF16 поддерживает динамический диапазон, аналогичный FP32, с меньшим количеством бит в мантиссе, что идеально подходит для обучения и сред, где стабильность градиента имеет решающее значение, но для массивного вывода хорошо масштабируемые 4 бита имеют решающее значение.

Практические последствия: при хорошо адаптированных рабочих нагрузках, NVFP4 обеспечивает очень близкую точность в более высокие форматы, но с заметным ростом скорости и эффективности. Всё зависит от квантования, калибровки и аппаратной поддержки.

Архитектура Blackwell и NVFP4

Архитектура Blackwell: сила NVFP4

Появление Блэквелла стало катализатором взлета NVFP4. Графический процессор B200 объединяет 208.000 миллиардов транзисторов в двухчиповой конструкции, соединенной через интерфейс NV-HBI со скоростью 10 ТБ/с, который прозрачен для программного обеспечения, обеспечивая единообразное поведение.

Тензорные ядра пятого поколения встроенная поддержка NVFP4 с аппаратным ускорением масштабирования, достигающая 20 петафлопс в FP4Архитектура также включает в себя тензорную память, расположенную рядом с вычислительными блоками (TMEM), что ограничивает затраты энергии на перемещение данных и повышает стабильную производительность.

Для потребления серия GeForce RTX 50 Он наследует возможности FP4 с производительностью ИИ до 4.000 TOPS и ускоряет генерацию изображений (например, FLUX) до в 3,9 раза по сравнению с FP8 в конкретных сценариях, демонстрируя, что 4-битный вывод актуален не только для центров обработки данных.

  Лучшие процессоры для ноутбуков

В более широком диапазоне Blackwell Ultra (B300/GB300) поднимает планку 288 ГБ HBM3E и в 1,5 раза большая производительность чем B200, достигая в конфигурациях NVL72 до касания 1,1 эксафлопс на систему в плотном FP4. Это закладывает основу для обслуживания моделей с сотнями миллиардов параметров на меньшем количестве машин.

Показатели: больше токенов, меньше ватт и память под контролем

Данные о добыче и эталонных данных рисуют целостную картину. На DeepSeek-R1 671B, Переход на FP4 в B200 утроил производительность по сравнению с FP8 в H200, с системами DGX B200, превосходящими 30.000 токенов/сТочность практически не страдает: MMLU падает с 90,8% до 90,7% при квантовании от FP8 до FP4.

В памяти цифры ошеломляют. Степень магистра права, например, Llama 3.1 405B увеличивается со 140 ГБ в FP32 до 17,5 ГБ в FP4, что позволяет обрабатывать массивные модели на меньшем количестве видеокарт. При генерации изображений конфигурация FLUX может быть отключена 51,4 ГБ в FP16 до 9,9 ГБ в FP4 с минимальными нарушениями зрения и адаптацией к небольшому объему видеопамяти.

MLPerf v5.0 поддерживает ход: средняя пропускная способность Llama 2 70B сложенный По сравнению с предыдущим годом, лучшие результаты улучшились в 3,3 раза. В энергетике токен
от H100 до 10 Дж снижается до 0,4 Дж в B200 уже 0,2 Дж в B300, т.е. до 50 раз больше эффективностиВ переводе на деловой язык ожидается, что в 2024–2025 годах затраты на вывод сократятся почти на 90%.

На стороне пользователя модели изображений и текста с NVFP4 использует больше токенов за доллар, при этом сообщается об улучшении до 40% по сравнению с альтернативами, что хорошо сочетается с меньшим объемом памяти и простотой обслуживания больших моделей.

Внедрение: облака, компании и реальные кейсы

Поставщики облачных услуг лидируют во внедрении FP4. Lambda Labs предлагает кластеры HGX B200 с FP4 в развертываниях в один клик и записях CoreWeave 800 токенов/с в Llama 3.1 405B с видеокартой GB200. И это не только NVIDIA: Мета, OpenAI и Microsoft Они используют AMD Instinct MI300X для вывода и MI350 поступит с собственной поддержкой FP4.

В банковском деле, JPMorgan оценивает FP4 для анализа риска и альтернатив; в здравоохранении они были замечены + 30% скорости c -50% памяти, а в производстве решения в режиме реального времени принимаются на устройствах с ограниченными ресурсами, открывая двери там, где раньше не было места.

Программное обеспечение сопровождает этот шаг. Оптимизатор моделей TensorRT обеспечивает полные конвейеры квантования FP4; такие фреймворки, как vLLM интегрировать раннюю поддержку NVFP4; и Обнимая лицо размещает предварительно квантованные контрольные точки FP4 (DeepSeek-R1, Llama 3.1, FLUX) для ускорения развертывания производства.

Для команд с меньшим объемом вычислений существуют способы без использования QAT. SVDQuant с точностью, близкой к квантованному обучению; если требуется максимальная точность, QAT в FP4 Он сохраняет или даже превосходит BF16 в таких семействах, как Nemotron 4, при условии точной настройки процесса.

Инфраструктура: электроснабжение, охлаждение и новые правила для центров обработки данных

Сверхнизкая точность требует перерисовки центра обработки данных. Система GB200 NVL72 потребляет 120 кВт на стойку для 72 графических процессоров, что превышает возможности большинства существующих центров обработки данных. Тем не менее, NVL72 заменяет девять HGX H100 y requiere un На 83% меньше энергии для того же эффективного расчета.

С TDP ~1.000 Вт на графический процессор, Холодильник с жидкостью Прямая установка чипа не является обязательной. Наличие охлаждающих пластин во всех горячих точках позволяет использовать охлаждающая жидкость при 45 ºC и градирни, избегая дорогостоящих охладителей. Такие решения, как Supermicro DLC-2 Они достигают 96 B200 на стойку и до 250 кВт теплоемкости.

  Что такое ISP (процессор обработки сигналов изображений): функции, типы и примеры

В базовом программном обеспечении необходимы драйвера CUDA обновлена, TensorRT-LLM с поддержкой FP4 и специализированными инструментами квантования. Постквантование с помощью Model Optimizer ускоряет развертывание в производстве, а обучение с квантизацией максимизирует сохранение качества.

В среднесрочной перспективе ожидается увеличение числа CPD, подготовленных для установки на стойках. 50-120 кВт, с решениями для охлаждения и управления энергопотреблением нового поколения. Уровень зрелости программного обеспечения будет продолжать расти с бесшовные интеграции и трубопроводы автоматизированное квантование.

Сетевые технологии и масштабируемость: NVLink 5, коммутаторы и фотоника

Межсоединительная матрица — это вторая половина производительности. 5-е поколение NVLink удваивает пропускную способность и позволяет вам присоединиться к 576 GPUКаждая эффективная ссылка предлагает ~50 ГБ/с в каждом направлении; при 18 соединениях на GPU общая пропускная способность достигает ~1,8 TB / s, более чем в 14 раз больше, чем PCIe Gen5.

Эль-конмутадор NVIDIA НВЛинк вносит вклад до 130 TB / s на домен NVL72, необходимый для параллелизма в масштабе модели. Кроме того, поддержка протокола SHARP для иерархических сокращений он ускоряет точность, такую ​​как FP8, в критических коллективных операциях.

NVIDIA также продвигает сетевые технологии Quantum-X800 InfiniBand y Спектр-X800 Ethernet, с семействами коммутаторов, имеющими от 128 до 512 портов 800G, а также высокоплотными опциями 200G и встроенным жидкостным охлаждением для поддержания производительности.

В лице NVIDIA Фотоникаоптические двигатели, интегрированные в корпус коммутатора ASIC, заменяют традиционные подключаемые приемопередатчики, повышая производительность до 3,5-кратная эффективность, в 10 раз более высокая отказоустойчивость и в 1,3 раза более быстрое развертывание, что открывает путь для оптических центров обработки данных высокой плотности.

Экосистема программного обеспечения и платформ: Dynamo, AI-Q, Mission Control, NIM и OVX

Чтобы довести Blackwell до совершенства, NVIDIA внедрила несколько ключевых элементов. динамо — это платформа вывода с открытым исходным кодом, предназначенная для масштабирования одного запроса между графическими процессорами через NVLink, с улучшениями до 30x в нагрузках с рассуждениями интенсивный, как DeepSeek R1, и удвоение пропускной способности на Hopper без замены оборудования.

AI-Q (плюс AgentIQ) предлагает открытую многоагентную структуру, которая объединяет корпоративные данные, внешние инструменты и другие агенты, способные создавать составные системы рассуждение о тексте, изображениях и видеос интеграцией в такие фреймворки, как CrewAI, LangGraph или Azure AI Agent Service.

На операционном уровне, Mission Control Автоматизирует сквозную организацию центров обработки данных ИИ с плавным переключением между обучением и выводом. в 5 раз больше использования и восстановление работы в 10 раз быстрееКроме того, Base Command Manager теперь доступен бесплатно для восьми ускорителей на систему.

Батарея NVIDIA НИМ добавляет готовые к использованию в корпоративном масштабе микросервисы генеративного ИИ. Со своей стороны, Системы OVX Они ориентированы на генеративный ИИ и интенсивную графику, сопровождаемую программой проверка хранения с DDN, Dell PowerScale, NetApp, Pure Storage или WEKA для гарантии пропускной способности и масштабирования в процессе производства.

Профессиональные продукты: RTX Pro Blackwell, DGX Station и DGX Spark

Новая семья RTX Pro Блэквелл Обновите профессиональную линейку до 96 ГБ памяти в Pro 6000 и выше 4.000 TOPS ИИ, RT-ядра 4-го поколения и тензорные ядра 5-го поколения с FP4. В Server Edition добавлены vGPU и MIG для разделения графического процессора на несколько изолированных экземпляров.

В реальных случаях они были зарегистрированы 5× в трассировке лучей по сравнению с RTX A6000 (Foster + Partners), до 2 раз в медицинской реконструкции (GE HealthCare), заметные улучшения в VR (Rivian) и 3-кратная производительность с LLM (SoftServe). Pixar отмечает, что 3,3% отснятого материала теперь помещается в 70 ГБ памяти одного графического процессора.

  Intel Nova Lake-S стремится к настоящему прорыву в области настольных вычислений

Станция DGX обновлен до GB300 Grace Blackwell Ultra, Единая память 784 ГБ и 20 ПФЛОПС в ИИ FP4, больше возможностей для подключения 800 Gb / s с ConnectX-8. Для разработчиков и студентов, DGX Spark с чипом GB10 и 128 ГБ унифицированной памяти предлагает ~1.000 ТОПОВ ИИ и SmartNIC ConnectX‑7, что делает вход в экосистему более дешевым.

Exascale в стойке и индивидуальные суперподы

Система DGX GB200 NVL72 удваивается с 32 до 72 GPU и увеличивает память с ~19,5 ТБ до ~30 ТБВ вычислениях скачок впечатляет: от 127 пф a 1,4 EF в FP4 (~11×), и от 127 PF до 720 PF в FP8 (~5,6×), все в корпусе с полным водяным охлаждением.

Выше, DGX СуперПОД с 8 системами GB200 NVL72 всего 11,5 эксафлопс FP4 и 36 GB200 SuperChips на систему с улучшениями до 30 × по сравнению с H100 в крупном выводе LLM, разработанном как «фабрика ИИ», ориентированная на модели с порядка триллиона параметров.

На платформе Грейс-Блэквелл, GB200 связывает два B200 с общим процессором Grace через C2C и масштабируется до 576 графических процессоров по 1,8 ТБ/с с использованием NVLink 5, сборка массивно-параллельных сред, подходящих для самых требовательных рабочих нагрузок ИИ.

Современная квантизация: сохранение интеллекта в 4 битах

Успех FP4 достигается за счет объединения аппаратное и программное обеспечение. Двойное масштабирование NVIDIA подстраивается под распределение значений тензора, а движок Transformer анализирует более 1.000 операций для динамической оптимизации масштабов, что позволяет таким моделям, как DeepSeek‑R1, достигать 98,1% точность в FP4 и в некоторых тестах превышает базовый уровень FP8.

После обучения, SmoothQuant y AWQ позволили разместить модели размером с Falcon 180B на одном графическом процессоре. Если вам нужно сохранить максимальную производительность, QAT эмулирует FP4 Во время тонкой настройки это помогает адаптировать распределение веса. Такие семейства, как Nemotron 4, демонстрируют FP4 без потерь по QAT, на уровне или выше BF16.

В сложных случаях управление Нетипичные значения позволяет избежать коллапсов активации и стратегий для смешанная точность Повышение разрядности в критических операциях. Результат: FP4 жизнеспособен в плотных архитектурах, а также в Смесь экспертов, с точностью, не приносящей ущерба производству.

Дорожная карта и доступность

Заглядывая вперед, Поколение Веры Рубин указать на 50 ПФЛОПС FP4 Плотный графический процессор, с ConnectX‑9, NVLink‑6 и память HBM4 (+1,6x пропускной способности). Пропускная способность центрального процессора и графического процессора также увеличится до ~1,8 ТБ/с, и «Рубин Ультра» снова поднимет планку 100 ПФЛОПС FP4 y 1 ТБ HBM4e.

Со стороны AMD архитектура кДНК 4 поддерживает ядра Matrix FP4 и FP6, удвоив производительность по сравнению с предыдущим поколением и добавив разреженность для еще большего ускорения, что особенно интересно в моделях Mixture of Experts.

Самое непосредственное ограничение не техническое, а поставка оборудования: Значительная часть производства B200/B300 2025 года будет направлена ​​на гиперскейлеры. Тем не менее, влияние на стоимость токена и энергоэффективность вызывает реальная демократизация, предоставляя малым организациям передовые возможности благодаря увеличению объема памяти и производительности вычислений на ватт.

nvidia blackwell ultra gb300
Теме статьи:
NVIDIA Blackwell Ultra GB300: архитектура, память и NVLink 5