NVFP4 : qu'est-ce que c'est et comment surpasse-t-il FP8 et BF16 en IA.

Dernière mise à jour: 8 Octobre 2025
Auteur: Isaac
  • NVFP4 combine E2M1 avec une double mise à l'échelle (FP8 par microbloc et FP32 par tenseur) pour réduire l'erreur de quantification de 88 %.
  • Chez Blackwell, FP4 atteint jusqu'à 20 PFLOPS par GPU et des performances 3 fois supérieures à celles du FP8 dans les cas réels, avec des baisses de précision minimales.
  • La mémoire chute (jusqu'à 8x), l'énergie par jeton chute jusqu'à 50x et les coûts d'inférence chutent de près de 90 %.
  • L'écosystème prend déjà en charge FP4 (TensorRT, vLLM, HF) et l'infrastructure progresse avec NVLink 5, le refroidissement liquide et les racks de 120 kW.

Format NVFP4 et précisions de l'IA

La conversation autour des formats de précision dans l’IA s’est accélérée avec l’arrivée de NVFP4, et pour une bonne raison : réduire les bits sans perdre en qualité Cela modifie radicalement l'économie de l'inférence. Dans ce guide, vous découvrirez ce qu'est NVFP4, en quoi il diffère de FP8 et BF16, et pourquoi les grandes entreprises (et les plus petites) l'adoptent déjà, des centres de données aux ordinateurs de bureau.

Au-delà du battage publicitaire, il existe des données solides : Énergie par jeton coupée jusqu'à 50 fois, des flux de jetons records par seconde et une mémoire réduite à une fraction de seconde sans compromettre la précision. Il est néanmoins utile de distinguer les gros titres de la réalité pratique, car l'impact dépend du matériel, de l'échelle numérique et de la manière dont chaque modèle est quantifié et optimisé.

Qu'est-ce que NVFP4 et comment améliore-t-il FP8 et BF16 ?

NVFP4 est la proposition de NVIDIA pour un précision ultra-faible Conçu pour l'inférence par l'IA, il représente les nombres avec E2M1 (1 bit de signe, 2 bits d'exposant et 1 bit de mantisse) et ajoute un élément clé : mise à l'échelle à deux niveaux ce qui réduit considérablement l'erreur de quantification par rapport aux approximations plus simples.

Ce système à deux niveaux combine un facteur de Échelle FP8 E4M3 appliquée aux microblocs de 16 valeurs avec mise à l'échelle globale du tenseur dans FP32. Grâce à cette combinaison, un 88 % d'erreurs en moins que des solutions de puissance de deux plus basiques comme MXFP4, renforçant la stabilité numérique avec si peu de bits.

En revanche, le FP8 (E4M3 ou E5M2) réduit déjà considérablement les coûts par rapport au FP16/BF16, mais NVFP4 va encore plus loin réduisant encore la mémoire et la puissance. Le BF16 conserve une plage dynamique similaire à celle du FP32 avec moins de bits dans la mantisse, ce qui est idéal pour l'entraînement et les environnements où la stabilité du gradient est essentielle. Cependant, pour une inférence massive, le 4 bits bien dimensionné fait la différence.

La conséquence pratique : dans des charges de travail bien adaptées, NVFP4 maintient une précision très proche vers des formats supérieurs, mais avec des avancées remarquables en termes de vitesse et d'efficacité. Tout dépend de la quantification, de l'étalonnage et de la prise en charge matérielle native.

Architecture Blackwell et NVFP4

Architecture Blackwell : le muscle derrière NVFP4

L'arrivée de Blackwell a été le catalyseur du décollage du NVFP4. Le GPU Le B200 intègre 208.000 milliards de transistors dans une conception à double puce, reliée via une interface NV-HBI 10 To/s transparente au logiciel, garantissant un comportement unifié.

Les Cœurs Tensor de cinquième génération prend en charge nativement NVFP4 avec une mise à l'échelle accélérée par le matériel, atteignant jusqu'à 20 pétaflops en FP4L'architecture intègre également une mémoire tensorielle proche des unités de calcul (TMEM), limitant le coût énergétique du déplacement des données et augmentant les performances soutenues.

Pour la consommation, la série GeForce RTX 50 Il hérite des capacités FP4 avec des performances d'IA allant jusqu'à 4 000 TOPS et accélère la génération d'images (par exemple, FLUX) jusqu'à 3,9 fois par rapport au FP8 dans des scénarios spécifiques, démontrant que l'inférence 4 bits n'est pas seulement une affaire de centre de données.

  Analyse de l'architecture des processeurs Apple : M1, M2 et leurs variantes

À l'extrémité la plus large, Blackwell Ultra (B300/GB300) place la barre plus haut avec 288 Go HBM3E et 1,5 fois plus de performances que B200, atteignant dans les configurations NVL72 pour toucher 1,1 exaFLOPS par système dans un FP4 dense. Cela pose les bases pour fournir des modèles avec des centaines de milliards de paramètres sur un nombre réduit de machines.

Mesures : plus de jetons, moins de watts et une mémoire sous contrôle

Les données de production et de référence dressent un tableau cohérent. Sur DeepSeek-R1 671B, Le passage à la FP4 en B200 triple les performances par rapport au FP8 dans H200, avec les systèmes DGX B200 dépassant les 30.000 jetons/sLa précision n'en souffre pratiquement pas : le MMLU chute de 90,8 % à 90,7 % lors de la quantification de FP8 à FP4.

De mémoire, les chiffres sont accablants. Un LLM comme Llama 3.1 405B passe de 140 Go en FP32 à 17,5 Go en FP4, une réduction de 8x permettant de traiter des modèles massifs sur moins de GPU. En génération d'images, une configuration FLUX peut passer de 51,4 Go en FP16 à 9,9 Go en FP4 avec une déficience visuelle minimale et s'adaptant à une VRAM modeste.

MLPerf v5.0 prend en charge le déplacement : le débit moyen de Lama 2 70B plié par rapport à l'année précédente et les meilleurs résultats ont été multipliés par 3,3. Dans le secteur de l'énergie, le jeton
de H100 à 10 J chutent à 0,4 J dans B200 déjà 0,2 J dans B300, soit jusqu'à 50 fois plus d'efficacitéEn termes commerciaux, on s’attend à une baisse de près de 90 % des coûts d’inférence au cours de la période 2024-2025.

Du côté de l'utilisateur, les modèles d'image et de texte avec NVFP4 génère plus de jetons par dollar, avec des rapports d'amélioration allant jusqu'à 40 % par rapport aux alternatives, ce qui se combine bien avec l'empreinte mémoire plus petite et la facilité de traitement de grands modèles.

Adoption : clouds, entreprises et cas réels

Les fournisseurs de cloud sont à la pointe de l’adoption du FP4. Lambda Labs propose des clusters HGX B200 avec FP4 dans les déploiements en 1 clic et les enregistrements CoreWeave 800 jetons/s dans Llama 3.1 405B avec GPU GB200. Ce n'est pas que NVIDIA : Méta, OpenAI et Microsoft Ils utilisent AMD Instinct MI300X en inférence et MI350 arrivera avec le support natif FP4.

Dans le secteur bancaire, JPMorgan évalue le FP4 pour l'analyse des risques et des alternatives ; dans le domaine des soins de santé, ils ont été observés +30% de vitesse avec -50% de mémoire, et dans le secteur manufacturier, les décisions en temps réel sont prises sur des appareils aux ressources limitées, ouvrant des portes là où il n’y avait pas de place auparavant.

Le logiciel accompagne la démarche. Optimiseur de modèle TensorRT fournit des pipelines de quantification FP4 complets ; des cadres tels que vLLM intégrer un support précoce pour NVFP4 ; et Étreindre le visage héberge des points de contrôle FP4 pré-quantifiés (DeepSeek-R1, Llama 3.1, FLUX) pour accélérer les déploiements de production.

Pour les équipes moins gourmandes en calcul, il existe des méthodes sans QAT utilisant SVDQuant avec une précision proche de l'entraînement quantifié ; si une précision maximale est recherchée, le QAT en FP4 Il conserve voire améliore le BF16 dans des familles comme Nemotron 4, à condition que le procédé soit peaufiné.

Infrastructures : alimentation électrique, refroidissement et nouvelles réglementations sur les centres de données

Une précision ultra-faible nécessite de redessiner le centre de données. Un système GB200 NVL72 consomme 120 kW par rack pour 72 GPU, soit une capacité supérieure à celle de la plupart des centres de données existants. Malgré cela, un NVL72 remplace neuf HGX H100 et nécessite un 83% moins d'énergie pour le même calcul effectif.

Avec un TDP d'environ 1 000 W par GPU, le réfrigération líquida L'installation directe de la puce n'est pas facultative. Des plaques froides à tous les points chauds permettent l'utilisation liquide de refroidissement à 45 ºC et des tours de refroidissement, évitant ainsi les refroidisseurs coûteux. Des solutions telles que Supermicro DLC-2 Ils atteignent 96 B200 par rack et jusqu'à 250kW de capacité thermique.

  Les processeurs les plus avantageux de 2026

Dans le logiciel de base, des pilotes sont nécessaires CUDA mis à jourTensorRT-LLM avec prise en charge de FP4 et outils de quantification spécialisés. La post-quantification avec Model Optimizer accélère le déploiement en production, tout en formation avec quantification maximise la rétention de la qualité.

À moyen terme, les CPD préparés pour les racks vont proliférer. 50-120 kW, avec des solutions de refroidissement et de gestion de l'énergie de nouvelle génération. La maturité logicielle continuera de s'améliorer avec intégrations et pipelines transparents quantification automatisée.

Mise en réseau et évolutivité : NVLink 5, commutateurs et photonique

La structure d'interconnexion est l'autre moitié de la performance. La 5e génération de NVLink double la bande passante et vous permet de rejoindre jusqu'à GPU 576. Chaque lien efficace offre ~50 Go/s par direction; avec 18 liens par GPU, la bande passante globale atteint ~1,8 TB / s, plus de 14 fois supérieur à PCIe Gen5.

L'interrupteur Lien NVIDIA NV contribue jusqu'à 130 TB / s par domaine NVL72, essentiel au parallélisme à l'échelle du modèle. De plus, la prise en charge du protocole TRANCHANT pour les réductions hiérarchiques, il accélère les précisions comme FP8 dans les opérations collectives critiques.

NVIDIA se lance également dans la mise en réseau avec Quantum-X800 InfiniBand y Ethernet Spectrum-X800, avec des familles de commutateurs allant de 128 à 512 ports 800G, ainsi que des options 200G haute densité et un refroidissement liquide intégré pour maintenir les performances.

Avec NVIDIA Photonique, les moteurs optiques intégrés dans le boîtier ASIC du commutateur remplacent les émetteurs-récepteurs enfichables traditionnels, favorisant jusqu'à Efficacité 3,5×, 10 fois plus de résilience et des déploiements 1,3 fois plus rapides, ouvrant la voie aux centres de données optiques haute densité.

Écosystème de logiciels et de plateformes : Dynamo, AI-Q, Mission Control, NIM et OVX

Pour presser Blackwell, NVIDIA a introduit plusieurs éléments clés. dynamo est une plate-forme d'inférence open source conçue pour mettre à l'échelle une seule requête entre les GPU via NVLink, avec des améliorations allant jusqu'à 30x en charges avec raisonnement aussi intense que DeepSeek R1 et doublant le débit sur Hopper sans changer de matériel.

AI-Q (plus AgentIQ) propose un cadre multi-agent ouvert qui intègre les données d'entreprise, les outils externes et d'autres agents, facilitant ainsi les systèmes composites capables de raisonnement sur le texte, les images et les vidéos, avec des intégrations dans des frameworks tels que CrewAI, LangGraph ou Azure AI Agent Service.

Au niveau opérationnel, Centre de contrôle Automatise l'orchestration de bout en bout des centres de données d'IA, avec une commutation transparente entre la formation et l'inférence, 5x plus d'utilisation et la reprise de l'emploi 10 fois plus rapideDe plus, Base Command Manager est désormais disponible gratuitement pour un maximum de huit accélérateurs par système.

La pile NIM NVIDIA ajoute des microservices d'IA génératifs prêts à l'emploi. De son côté, Systèmes OVX Ils sont orientés vers l'IA générative et le graphisme intensif, accompagnés d'un programme de validation du stockage avec DDN, Dell PowerScale, NetApp, Pure Storage ou WEKA pour garantir le débit et la mise à l'échelle en production.

Produits professionnels : RTX Pro Blackwell, DGX Station et DGX Spark

La nouvelle famille RTX Pro Blackwell Mettez à jour la ligne professionnelle avec jusqu'à 96 Go de mémoire dans le Pro 6000 et plus 4.000 TOPS IA, cœurs RT de 4e génération et cœurs Tensor de 5e génération avec FP4. L'édition Serveur inclut vGPU et MIG pour diviser un GPU en plusieurs instances isolées.

Dans des cas réels, ils ont été signalés 5× en lancer de rayons vs RTX A6000 (Foster + Partners), jusqu'à 2x en reconstruction médicale (GE HealthCare), améliorations notables en VR (Rivian) et productivité 3x avec LLM (SoftServe). Pixar souligne que 3,3 % de ses séquences de production tiennent désormais dans 70 Go d'un seul GPU.

  Les meilleures cartes graphiques à 300 € (ou moins)

Station DGX est mis à jour avec GB300 Grace Blackwell Ultra, Mémoire unifiée de 784 Go et à 20 PFLOPS en IA FP4, plus de connectivité de 800 Gb / s avec ConnectX-8. Pour les développeurs et les étudiants, DGX Spark avec puce GB10 et 128 Go de mémoire unifiée ~1 000 MAX de l'IA et de SmartNIC ConnectX‑7, rendant l'entrée dans l'écosystème moins chère.

Exascale en rack et superpods personnalisés

Le système DGX GB200 NVL72 doubles de 32 à GPU 72 et augmente la mémoire de ~19,5 To à ~30 TB. En calcul, le saut est spectaculaire : de 127 PF a 1,4 EF en FP4 (~11×), et de 127 PF à 720 PF en FP8 (~5,6×), le tout dans un châssis entièrement refroidi par eau.

Ci-dessus, le DGX SuperPOD avec 8 systèmes GB200 NVL72 au total 11,5 exaFLOPS FP4 et 36 GB200 SuperChips par système, avec des améliorations allant jusqu'à 30 × comparé au H100 dans une grande inférence LLM, conçu comme une « usine d'IA » prête pour des modèles de l'ordre d'un billion de paramètres.

Sur la plateforme Grace-Blackwell, le GB200 relie deux B200 avec un processeur Grace partagé via C2C et évolue jusqu'à 576 GPU à 1,8 To/s en utilisant NVLink 5, assembler des environnements massivement parallèles adaptés aux charges de travail d'IA les plus exigeantes.

Quantification moderne : préserver l'intelligence à 4 bits

Le succès du FP4 vient de la combinaison matériel et logiciel. La double mise à l'échelle NVIDIA s'ajuste à la distribution des valeurs du tenseur et le moteur Transformer analyse plus de 1.000 opérations pour optimiser dynamiquement les échelles, permettant à des modèles comme DeepSeek-R1 d'atteindre 98,1% de précision dans le FP4 et, dans certains tests, dépasser la ligne de base du FP8.

En post-formation, SmoothQuant y AWQ ont permis d'intégrer des modèles de la taille d'un Falcon 180B sur un seul GPU. Si vous souhaitez préserver des performances maximales, QAT émulant FP4 Lors des réglages fins, il permet d'adapter la répartition des masses. Des familles comme Nemotron 4 montrent FP4 sans perte par QAT, à BF16 ou plus.

Pour les cas compliqués, prise en charge de Valeurs atypiques évite les effondrements d'activation et les stratégies pour précision mixte augmenter les bits dans les opérations critiques. Le résultat : FP4 est viable dans les architectures denses et également dans Mélange d'experts, avec une précision qui ne sacrifie pas la production.

Feuille de route et disponibilité

En regardant vers l'avenir, le Génération Vera Rubin pointer vers 50 PFLOPS FP4 Dense en GPU, avec ConnectX‑9, NVLink‑6 et mémoire HBM4 (+1,6x bande passante). L'interconnexion CPU-GPU augmentera également ~1,8 To/s, et Rubin Ultra placera à nouveau la barre plus haut pour 100 PFLOPS FP4 y 1 To de HBM4e.

Du côté d'AMD, l'architecture ADNc 4 alimente les cœurs Matrix avec prise en charge de FP4 et FP6, doublant les performances par rapport à la génération précédente et ajoutant de la parcimonie pour accélérer encore plus, quelque chose de particulièrement intéressant dans les modèles Mixture of Experts.

La limitation la plus immédiate n’est pas technique mais fourniture de matériel:Une grande partie de la production B200/B300 de 2025 est destinée aux hyperscalers. Cependant, l'impact sur le coût par jeton et l'efficacité énergétique entraîne une véritable démocratisation, apportant des capacités de pointe aux petites organisations grâce à des progrès en matière de mémoire et de calcul par watt.

Nvidia Blackwell Ultra GB300
Article connexe:
NVIDIA Blackwell Ultra GB300 : architecture, mémoire et NVLink 5