NVFP4: O que é e como supera FP8 e BF16 em IA.

Última atualização: 8 outubro 2025
autor: Isaac
  • O NVFP4 combina E2M1 com escalonamento duplo (FP8 por microbloco e FP32 por tensor) para reduzir o erro de quantização em 88%.
  • Na Blackwell, o FP4 atinge até 20 PFLOPS por GPU e desempenho 3x melhor que o FP8 em casos reais, com quedas mínimas de precisão.
  • A memória cai (até 8x), a energia por token cai até 50x e os custos de inferência caem quase 90%.
  • O ecossistema já suporta FP4 (TensorRT, vLLM, HF) e a infraestrutura avança com NVLink 5, resfriamento líquido e racks de 120 kW.

Formato NVFP4 e precisões de IA

A conversa sobre formatos de precisão em IA se acelerou com a chegada do NVFP4, e por um bom motivo: reduzir bits sem perder qualidade muda radicalmente a economia da inferência. Neste guia, você aprenderá o que é NVFP4, como ele difere do FP8 e do BF16 e por que empresas grandes (e não tão grandes) já o estão adotando, de data centers a PCs desktop.

Além do marketing exagerado, há dados sólidos: Energia por token reduzida em até 50 vezes, fluxos de tokens por segundo recordes e memória caindo para uma fração sem comprometer a precisão. Ainda assim, vale a pena separar as manchetes da realidade prática, porque o impacto depende do hardware, da escala numérica e de como cada modelo é quantizado e otimizado.

O que é NVFP4 e como ele melhora o FP8 e o BF16?

NVFP4 é a proposta da NVIDIA para um precisão ultrabaixa Projetado para inferência de IA. Representa números com E2M1 (1 bit de sinal, 2 bits de expoente e 1 bit de mantissa) e adiciona um ingrediente-chave: escala em dois níveis o que reduz drasticamente o erro de quantização em comparação com aproximações mais simples.

Este esquema de dois níveis combina um fator de Escala FP8 E4M3 aplicada a microblocos de 16 valores com escala de tensor global em FP32. Graças a esta combinação, um 88% menos erros do que soluções mais básicas de potência de dois, como MXFP4, reforçando a estabilidade numérica com tão poucos bits.

Em contraste, o FP8 (E4M3 ou E5M2) já reduz bastante os custos em comparação com o FP16/BF16, mas O NVFP4 vai um passo além reduzindo ainda mais a memória e o consumo de energia. O BF16 mantém uma faixa dinâmica semelhante à do FP32 com menos bits na mantissa, ideal para treinamento e ambientes onde a estabilidade do gradiente é fundamental. No entanto, para inferências massivas, os 4 bits bem dimensionados fazem a diferença.

A consequência prática: em cargas de trabalho bem adaptadas, NVFP4 mantém uma precisão muito próxima para formatos mais altos, mas com saltos notáveis ​​em velocidade e eficiência. Tudo depende de quantização, calibração e suporte nativo de hardware.

Arquitetura Blackwell e NVFP4

Arquitetura Blackwell: A força por trás do NVFP4

A chegada da Blackwell foi o catalisador para a decolagem do NVFP4. A GPU B200 integra 208.000 bilhões de transistores em um design de chip duplo, vinculado por meio de uma interface NV-HBI de 10 TB/s que é transparente ao software, garantindo comportamento unificado.

Os Núcleos Tensores de Quinta Geração suporte nativo NVFP4 com escalonamento acelerado por hardware, alcançando até 20 PetaFLOPS no FP4A arquitetura também incorpora memória tensora próxima às unidades de computação (TMEM), limitando o custo de energia da movimentação de dados e aumentando o desempenho sustentado.

Para consumo, a série GeForce RTX 50 Ele herda os recursos do FP4 com desempenho de IA de até 4.000 TOPS e acelera a geração de imagens (por exemplo, FLUX) em até 3,9 vezes em comparação com FP8 em cenários específicos, demonstrando que a inferência de 4 bits não é algo exclusivo de data centers.

  O que significa Ti nas GPUs da Nvidia? Desvendando o Mistério da Nomenclatura

Na extremidade maior, o Blackwell Ultra (B300/GB300) eleva o padrão com 288 GB HBM3E e 1,5x mais desempenho do que B200, alcançando configurações NVL72 para tocar 1,1 exaFLOPS por sistema em FP4 denso. Isso estabelece as bases para servir modelos com centenas de bilhões de parâmetros em menos máquinas.

Métricas: Mais tokens, menos watts e memória sob controle

Os dados de produção e de referência apresentam um quadro consistente. No DeepSeek-R1 671B, O salto para o FP4 no desempenho de triplos B200 comparado ao FP8 em H200, com os sistemas DGX B200 excedendo o 30.000 fichas/s. A precisão quase não sofre: MMLU cai de 90,8% para 90,7% ao quantizar de FP8 para FP4.

Na memória, os números são impressionantes. Um LLM como O Llama 3.1 405B aumenta de 140 GB no FP32 para 17,5 GB no FP4, uma redução de 8x que permite servir modelos massivos em menos GPUs. Na geração de imagens, uma configuração FLUX pode cair de 51,4 GB no FP16 para 9,9 GB no FP4 com deficiência visual mínima e adaptando-se a VRAM modesta.

O MLPerf v5.0 suporta a mudança: a taxa de transferência média de Lhama 2 70B dobrado em relação ao ano anterior e os melhores resultados melhoraram 3,3x. Em energia, o token
de H100 para 10 J cai para 0,4 J em B200 já 0,2 J em B300, ou seja, até 50x mais eficiênciaTraduzindo em termos comerciais, espera-se que haja quedas de quase 90% nos custos de inferência ao longo de 2024-2025.

No lado do usuário, os modelos de imagem e texto com NVFP4 alavanca mais tokens por dólar, com relatos de até 40% de melhoria em relação às alternativas, algo que combina bem com o menor consumo de memória e a facilidade de atender modelos grandes.

Adoção: nuvens, empresas e casos reais

Os provedores de nuvem lideram a adoção do FP4. Lambda Labs oferece clusters HGX B200 com FP4 em implantações de 1 clique e registros CoreWeave 800 fichas/s no Llama 3.1 405B com GPU GB200. Nem tudo é NVIDIA: Meta, OpenAI e Microsoft Eles usam AMD Instinct MI300X em inferência e MI350 chegará com suporte nativo ao FP4.

No setor bancário, JPMorgan avalia o FP4 para análise de risco e alternativas; na área da saúde eles foram vistos + 30% de velocidade com -50% de memória, e na fabricação, decisões em tempo real são habilitadas em dispositivos com recursos limitados, abrindo portas onde antes não havia espaço.

O software acompanha o passo. Otimizador de modelo TensorRT fornece pipelines de quantização FP4 completos; estruturas como vLLM integrar suporte inicial para NVFP4; e Abraçando o rosto hospeda pontos de verificação FP4 pré-quantizados (DeepSeek-R1, Llama 3.1, FLUX) para acelerar implantações de produção.

Para equipes com menor uso intensivo de computação, existem maneiras sem QAT usando SVDQuant com precisão próxima ao treinamento quantizado; se for buscada a máxima precisão, o QAT no FP4 Ele mantém ou até mesmo melhora o BF16 em famílias como o Nemotron 4, desde que o processo seja ajustado.

Infraestrutura: energia, refrigeração e novas regulamentações para data centers

A precisão ultrabaixa requer o redesenho do data center. Um sistema GB200 NVL72 consome 120 kW por rack para 72 GPUs, acima da capacidade da maioria dos data centers existentes. Mesmo assim, um NVL72 substitui nove HGX H100s e requer um 83% menos energia para o mesmo cálculo efetivo.

Com um TDP de ~1.000 W por GPU, o refrigeração líquida A instalação direta do chip não é opcional. Placas frias em todos os pontos quentes permitem o uso refrigerante a 45 ºC e torres de resfriamento, evitando resfriadores caros. Soluções como Supermicro DLC-2 Eles chegam a 96 B200 por rack e até 250 kW de capacidade térmica.

  Trocar o processador do laptop: é possível? Como saber se você consegue

No software base, os drivers são necessários CUDA atualizadoTensorRT-LLM com suporte a FP4 e ferramentas de quantização especializadas. A pós-quantização com o Model Optimizer acelera a implantação da produção, enquanto treinamento com quantização maximiza a retenção de qualidade.

Olhando para o médio prazo, os CPDs preparados para racks irão proliferar. 50-120 kW, com soluções de refrigeração e gerenciamento de energia de última geração. A maturidade do software continuará a melhorar com integrações e pipelines perfeitos quantização automatizada.

Rede e escalabilidade: NVLink 5, switches e fotônica

O tecido de interconexão é a outra metade do desempenho. A 5ª geração de NVLink dobra largura de banda e permite que você se junte a até GPU 576. Cada link eficaz oferece ~50 GB/s por direção; com 18 links por GPU, a largura de banda agregada atinge ~1,8 TB / s, mais de 14× que PCIe Gen5.

O conversor NVIDIA NV Link contribui até 130 TB / s por domínio NVL72, essencial para o paralelismo em escala de modelo. Além disso, o suporte ao protocolo AFIADO para reduções hierárquicas, ele acelera precisões como FP8 em operações coletivas críticas.

A NVIDIA também está investindo em redes com Quantum-X800 InfiniBand y Ethernet Spectrum-X800, com famílias de switches que variam de 128 a 512 portas 800G, além de opções de alta densidade 200G e resfriamento líquido integrado para manter o desempenho.

Com Fotônica NVIDIA, os motores ópticos integrados ao pacote ASIC do switch substituem os transceptores plugáveis ​​tradicionais, promovendo até Eficiência de 3,5×, 10x mais resiliência e implantações 1,3x mais rápidas, abrindo caminho para data centers ópticos de alta densidade.

Ecossistema de software e plataforma: Dynamo, AI-Q, Mission Control, NIM e OVX

Para pressionar Blackwell, a NVIDIA introduziu várias peças-chave. Dínamo é uma plataforma de inferência de código aberto projetada para dimensionar uma única consulta entre GPUs via NVLink, com melhorias de até 30x em cargas com raciocínio tão intenso quanto o DeepSeek R1 e dobrando a taxa de transferência no Hopper sem alterar o hardware.

IA-Q (mais AgentIQ) propõe uma estrutura multiagente aberta que integra dados empresariais, ferramentas externas e outros agentes, facilitando sistemas compostos capazes de razão sobre texto, imagens e vídeos, com integrações em estruturas como CrewAI, LangGraph ou Azure AI Agent Service.

Na camada operacional, Controle da Missão Automatiza a orquestração de ponta a ponta de data centers de IA, com alternância perfeita entre treinamento e inferência, 5x mais utilização e recuperação de empregos 10x mais rápidoAlém disso, o Base Command Manager agora está disponível gratuitamente para até oito aceleradores por sistema.

La Pila NVIDIA NIM adiciona microsserviços de IA generativa prontos para empresas. Por sua vez, Sistemas OVX Eles são orientados para IA generativa e gráficos intensivos, acompanhados de um programa de validação de armazenamento com DDN, Dell PowerScale, NetApp, Pure Storage ou WEKA para garantir produtividade e dimensionamento na produção.

Produtos profissionais: RTX Pro Blackwell, DGX Station e DGX Spark

a nova familia RTX Pro Blackwell Atualize a linha profissional com até 96 GB de memória no Pro 6000 e superior 4.000 TOPS IA, núcleos RT de 4ª geração e núcleos Tensor de 5ª geração com FP4. Na edição de servidor, ele adiciona vGPU e MIG para dividir uma GPU em várias instâncias isoladas.

Em casos reais, eles foram relatados 5× em traçado de raios vs RTX A6000 (Foster + Partners), até 2x em reconstrução médica (GE HealthCare), melhorias notáveis ​​em VR (Rivian) e 3x produtividade com a LLM (SoftServe). A Pixar destaca que 3,3% de suas filmagens de produção agora cabem em 70 GB de uma única GPU.

  Partes de um microprocessador e suas funções

Estação DGX é atualizado com GB300 Grace Blackwell Ultra, 784 GB de memória unificada e a 20 PFLOPS no AI FP4, mais conectividade de 800 Gb / s com ConnectX-8. Para desenvolvedores e estudantes, DGX Faísca com chip GB10 e 128 GB de memória unificada oferece ~1.000 TOPS de IA e SmartNIC ConnectX‑7, tornando a entrada no ecossistema mais barata.

Exascale em um rack e superpods personalizados

O sistema DGX GB200 NVL72 dobra de 32 para GPU 72 e aumenta a memória de ~19,5 TB para ~30 TB. Na computação, o salto é espetacular: de 127 PF a 1,4 EF no FP4 (~11×), e de 127 PF para 720 PF em FP8 (~5,6×), tudo em um chassi totalmente refrigerado a água.

Acima, o DGX SuperPOD com 8 sistemas GB200 NVL72 no total 11,5 exaFLOPS FP4 e 36 GB200 SuperChips por sistema, com melhorias de até 30 × comparado ao H100 em grande inferência LLM, projetado como uma “fábrica de IA” voltada para modelos na ordem de um trilhão de parâmetros.

Na plataforma Grace-Blackwell, o GB200 conecta dois B200s com uma CPU Grace compartilhada via C2C e escala até 576 GPUs a 1,8 TB/s usando NVLink 5, montando ambientes massivamente paralelos adequados para as cargas de trabalho de IA mais exigentes.

Quantização Moderna: Preservando a Inteligência em 4 Bits

O sucesso do FP4 vem da combinação hardware e software. O dimensionamento duplo da NVIDIA se ajusta à distribuição dos valores do tensor e o mecanismo Transformer analisa mais de 1.000 operações para otimizar escalas dinamicamente, permitindo que modelos como o DeepSeek‑R1 alcancem 98,1% de precisão no FP4 e, em alguns testes, exceder a linha de base do FP8.

No pós-treinamento, SmoothQuant y AWQ tornaram possível encaixar modelos do tamanho de um Falcon 180B em uma única GPU. Se você precisa preservar o desempenho máximo, o QAT emulando FP4 Durante o ajuste fino, ajuda a adaptar a distribuição de peso. Famílias como o Nemotron 4 mostram FP4 sem perdas por QAT, em ou acima de BF16.

Para casos complicados, o gerenciamento de Valores atípicos evita colapsos de ativação e estratégias para precisão mista aumentar bits em operações críticas. O resultado: FP4 é viável em arquiteturas densas e também em Mistura de Especialistas, com uma precisão que não sacrifica a produção.

Roteiro e disponibilidade

Olhando para o futuro, o Geração Vera Rubin aponta para 50 PFLOPS FP4 Denso em GPU, com ConnectX‑9, NVLink‑6 e memória HBM4 (+1,6x largura de banda). A interconexão CPU-GPU também aumentará para ~1,8 TB/s, e Rubin Ultra elevará o nível novamente para 100 PFLOPS FP4 y 1 TB de HBM4e.

Do lado da AMD, a arquitetura ADN4 alimenta os núcleos da matriz com suporte para FP4 e FP6, dobrando o desempenho em comparação à geração anterior e adicionando dispersão para acelerar ainda mais, algo especialmente interessante nos modelos Mixture of Experts.

A limitação mais imediata não é técnica, mas fornecimento de hardwareGrande parte da produção de B200/B300 de 2025 será destinada a hiperescaladores. Ainda assim, o impacto no custo por token e na eficiência energética está causando uma democratização real, trazendo recursos de ponta para pequenas organizações graças aos avanços na memória e na computação por watt.

nvidia blackwell ultra gb300
Artigo relacionado:
NVIDIA Blackwell Ultra GB300: Arquitetura, Memória e NVLink 5