- Το NVFP4 συνδυάζει το E2M1 με διπλή κλιμάκωση (FP8 ανά μικρομπλοκ και FP32 ανά τανυστή) για να μειώσει το σφάλμα κβαντοποίησης κατά 88%.
- Στην Blackwell, το FP4 επιτυγχάνει έως και 20 PFLOPS ανά GPU και 3 φορές καλύτερη απόδοση από το FP8 σε πραγματικές περιπτώσεις, με ελάχιστες μειώσεις στην ακρίβεια.
- Η μνήμη μειώνεται κατακόρυφα (έως και 8 φορές), η ενέργεια ανά διακριτικό μειώνεται έως και 50 φορές και το κόστος εξαγωγής συμπερασμάτων μειώνεται σχεδόν κατά 90%.
- Το οικοσύστημα υποστηρίζει ήδη το FP4 (TensorRT, vLLM, HF) και η υποδομή εξελίσσεται με NVLink 5, υγρή ψύξη και rack 120 kW.

Η συζήτηση γύρω από τις ακριβείς μορφές στην Τεχνητή Νοημοσύνη έχει επιταχυνθεί με την άφιξη του NVFP4 και για καλό λόγο: μειώστε τα bits χωρίς να χάσετε την ποιότητα αλλάζει ριζικά τα οικονομικά της συμπερασματολογίας. Σε αυτόν τον οδηγό, θα μάθετε τι είναι το NVFP4, πώς διαφέρει από το FP8 και το BF16 και γιατί μεγάλες (και όχι τόσο μεγάλες) εταιρείες το υιοθετούν ήδη, από κέντρα δεδομένων έως επιτραπέζιους υπολογιστές.
Πέρα από την διαφημιστική εκστρατεία μάρκετινγκ, υπάρχουν αξιόπιστα δεδομένα: Η ενέργεια ανά κουπόνι μειώνεται έως και 50 φορές, ρεκόρ ροών token ανά δευτερόλεπτο και κατακόρυφη πτώση της μνήμης σε ένα κλάσμα χωρίς να διαταραχθεί η ακρίβεια. Ωστόσο, αξίζει να διαχωρίσουμε τους τίτλους από την πρακτική πραγματικότητα, επειδή ο αντίκτυπος εξαρτάται από το υλικό, την αριθμητική κλιμάκωση και τον τρόπο με τον οποίο κάθε μοντέλο κβαντίζεται και βελτιστοποιείται.
Τι είναι το NVFP4 και πώς βελτιώνεται σε σχέση με το FP8 και το BF16;
Το NVFP4 είναι η πρόταση της NVIDIA για ένα εξαιρετικά χαμηλή ακρίβεια Σχεδιασμένο για συμπερασματολογία με τεχνητή νοημοσύνη. Αναπαριστά αριθμούς με E2M1 (1 bit προσήμου, 2 bit εκθέτη και 1 bit mantissa) και προσθέτει ένα βασικό συστατικό: κλιμάκωση σε δύο επίπεδα γεγονός που μειώνει δραστικά το σφάλμα κβάντωσης σε σύγκριση με απλούστερες προσεγγίσεις.
Αυτό το διεπίπεδο σχήμα συνδυάζει έναν παράγοντα Κλίμακα FP8 E4M3 εφαρμοσμένη σε μικρομπλοκ 16 τιμών με καθολική κλιμάκωση τενσόρων στο FP32. Χάρη σε αυτόν τον συνδυασμό, ένα 88% λιγότερα σφάλματα από πιο βασικές λύσεις δύναμης του δύο όπως το MXFP4, ενισχύοντας την αριθμητική σταθερότητα με τόσο λίγα bit.
Αντιθέτως, το 8ο ΠΠ (E4M3 ή E5M2) ήδη μειώνει αρκετά το κόστος σε σύγκριση με το 16ο ΠΠ/16 του BF, αλλά Το NVFP4 πηγαίνει ένα βήμα παραπέρα μειώνοντας περαιτέρω τη μνήμη και την ισχύ. Το BF16 διατηρεί παρόμοιο δυναμικό εύρος με το FP32 με λιγότερα bit στη μαντίσα, ιδανικό για εκπαίδευση και περιβάλλοντα όπου η σταθερότητα της διαβάθμισης είναι το κλειδί, αλλά για μαζική εξαγωγή συμπερασμάτων, το καλά κλιμακωμένο 4-bit κάνει τη διαφορά.
Η πρακτική συνέπεια: σε καλά προσαρμοσμένα φόρτα εργασίας, Το NVFP4 διατηρεί πολύ υψηλή ακρίβεια σε υψηλότερες μορφές, αλλά με αξιοσημείωτα άλματα στην ταχύτητα και την αποτελεσματικότητα. Όλα εξαρτώνται από την κβαντοποίηση, τη βαθμονόμηση και την εγγενή υποστήριξη υλικού.

Αρχιτεκτονική Blackwell: Ο Μυϊκός ιστός πίσω από το NVFP4
Η άφιξη του Blackwell ήταν ο καταλύτης για την απογείωση του NVFP4. Η GPU Το B200 ενσωματώνει 208.000 δισεκατομμύρια τρανζίστορ σε σχεδιασμό διπλού τσιπ, συνδεδεμένο μέσω μιας διεπαφής NV-HBI 10 TB/s που είναι διαφανής στο λογισμικό, εξασφαλίζοντας ενιαία συμπεριφορά.
Ο Πυρήνες Tensor πέμπτης γενιάς εγγενής υποστήριξη NVFP4 με κλιμάκωση με επιτάχυνση υλικού, φτάνοντας έως και 20 PetaFLOPS στο FP4Η αρχιτεκτονική ενσωματώνει επίσης μνήμη τανυστήρα κοντά στις υπολογιστικές μονάδες (TMEM), περιορίζοντας το ενεργειακό κόστος της μετακίνησης δεδομένων και αυξάνοντας τη βιώσιμη απόδοση.
Για κατανάλωση, η σειρά GeForce RTX 50 Κληρονομεί δυνατότητες του FP4 με απόδοση AI έως και 4.000 TOPS και επιταχύνει τη δημιουργία εικόνων (π.χ., FLUX) έως και 3,9 φορές σε σύγκριση με το 8ο ΠΠ σε συγκεκριμένα σενάρια, αποδεικνύοντας ότι η συμπερασματολογία 4-bit δεν είναι απλώς θέμα κέντρου δεδομένων.
Στο μεγαλύτερο άκρο, η Blackwell Ultra (B300/GB300) ανεβάζει τον πήχη με 288GB HBM3E και 1,5 φορές περισσότερη απόδοση από το B200, φτάνοντας σε διαμορφώσεις NVL72 για να αγγίξει 1,1 exaFLOPS ανά σύστημα σε πυκνό FP4. Αυτό θέτει τις βάσεις για την εξυπηρέτηση μοντέλων με εκατοντάδες δισεκατομμύρια παραμέτρους σε λιγότερες μηχανές.
Μετρήσεις: Περισσότερα tokens, λιγότερα watt και μνήμη υπό έλεγχο
Τα δεδομένα παραγωγής και συγκριτικής αξιολόγησης δίνουν μια συνεπή εικόνα. Στο DeepSeek-R1 671B, Το άλμα στο FP4 στην B200 τριπλασιάζει την απόδοση σε σύγκριση με το 8ο ΠΠ στο 200ο έτος, με τα συστήματα DGX B200 να υπερβαίνουν το 30.000 μάρκες/δευτΗ ακρίβεια επηρεάζεται ελάχιστα: Το MMLU μειώνεται από 90,8% σε 90,7% κατά την κβάντωση από το FP8 στο FP4.
Στη μνήμη, οι αριθμοί είναι συντριπτικοί. Ένα LLM σαν... Το Llama 3.1 405B αυξάνεται από 140 GB στο FP32 σε 17,5 GB στο FP4, μια μείωση 8x που επιτρέπει την εξυπηρέτηση μαζικών μοντέλων σε λιγότερες GPU. Κατά τη δημιουργία εικόνων, μια διαμόρφωση FLUX μπορεί να μειωθεί από 51,4 GB στο FP16 έως 9,9 GB στο FP4 με ελάχιστη οπτική βλάβη και προσαρμογή σε μέτρια VRAM.
Το MLPerf v5.0 υποστηρίζει την κίνηση: η μέση απόδοση Λάμα 2 70B διπλωμένο σε σύγκριση με το προηγούμενο έτος και τα καλύτερα αποτελέσματα βελτιώθηκαν 3,3 φορές. Στην ενέργεια, το token
από H100 έως Τα 10 J μειώνονται στα 0,4 J στο B200 ήδη 0,2 J στο B300, δηλ. έως και 50 φορές μεγαλύτερη απόδοσηΣε επιχειρηματικούς όρους, αναμένεται να υπάρξουν μειώσεις σχεδόν 90% στο κόστος συμπερασμάτων καθ' όλη τη διάρκεια του 2024-2025.
Από την πλευρά του χρήστη, τα μοντέλα εικόνας και κειμένου με Το NVFP4 αξιοποιεί περισσότερα tokens ανά δολάριο, με αναφορές για βελτίωση έως και 40% σε σχέση με τις εναλλακτικές λύσεις, κάτι που συνδυάζεται καλά με το μικρότερο αποτύπωμα μνήμης και την ευκολία εξυπηρέτησης μεγάλων μοντέλων.
Υιοθέτηση: cloud, εταιρείες και πραγματικές περιπτώσεις
Οι πάροχοι cloud ηγούνται της υιοθέτησης του 4ου ΠΠ. Η Lambda Labs προσφέρει συστοιχίες HGX B200 με FP4 σε αναπτύξεις με 1 κλικ και σε εγγραφές CoreWeave 800 μάρκες/δευτ σε Llama 3.1 405B με GPU GB200. Δεν είναι όλα NVIDIA: Meta, OpenAI και Microsoft Χρησιμοποιούν το AMD Instinct MI300X για συμπερασματικούς υπολογισμούς και MI350 θα φτάσει με εγγενή υποστήριξη για το FP4.
Στις τραπεζικές εργασίες, JPMorgan αξιολογεί το FP4 για ανάλυση κινδύνου και εναλλακτικών λύσεων· στην υγειονομική περίθαλψη έχουν παρατηρηθεί +30% ταχύτητα με -50% μνήμηκαι στον τομέα της μεταποίησης, οι αποφάσεις σε πραγματικό χρόνο είναι δυνατές σε συσκευές με περιορισμένους πόρους, ανοίγοντας πόρτες όπου δεν υπήρχε χώρος πριν.
Το λογισμικό συνοδεύει το βήμα. Βελτιστοποιητής μοντέλων TensorRT παρέχει πλήρεις αγωγούς κβαντοποίησης FP4· πλαίσια όπως vLLM ενσωματώστε έγκαιρη υποστήριξη για το NVFP4· και Αγκαλιάζοντας το πρόσωπο φιλοξενεί προ-κβαντισμένα σημεία ελέγχου FP4 (DeepSeek-R1, Llama 3.1, FLUX) για την επιτάχυνση των αναπτύξεων παραγωγής.
Για ομάδες που απαιτούν λιγότερο υπολογιστική ισχύ, υπάρχουν τρόποι χωρίς QAT χρησιμοποιώντας SVDQuant με ακρίβεια κοντά στην κβαντισμένη εκπαίδευση· εάν επιδιώκεται η μέγιστη ακρίβεια, η QAT στο 4ο ΠΠ Διατηρεί ή ακόμη και βελτιώνει το BF16 σε οικογένειες όπως το Nemotron 4, υπό την προϋπόθεση ότι η διαδικασία έχει βελτιστοποιηθεί.
Υποδομές: ισχύς, ψύξη και νέοι κανονισμοί για κέντρα δεδομένων
Η εξαιρετικά χαμηλή ακρίβεια απαιτεί επανασχεδιασμό του κέντρου δεδομένων. Ένα σύστημα Το GB200 NVL72 καταναλώνει 120 kW ανά rack για 72 GPU, πάνω από τη χωρητικότητα των περισσότερων υπαρχόντων κέντρων δεδομένων. Ακόμα κι έτσι, ένα NVL72 αντικαθιστά εννέα HGX H100s y απαιτείται un 83% λιγότερη ενέργεια για τον ίδιο αποτελεσματικό υπολογισμό.
Με TDP ~1.000 W ανά GPU, το υγρή ψύξη Η άμεση εγκατάσταση τσιπ δεν είναι προαιρετική. Η χρήση ψυχρών πλακών σε όλα τα θερμά σημεία επιτρέπει την ψυκτικό στους 45 ºC και πύργους ψύξης, αποφεύγοντας ακριβά ψυκτικά συγκροτήματα. Λύσεις όπως Supermicro DLC-2 Φτάνουν τα 96 B200 ανά rack και έως 250 kW της θερμικής χωρητικότητας.
Στο βασικό λογισμικό, απαιτούνται προγράμματα οδήγησης Το CUDA ενημερώθηκε, TensorRT-LLM με υποστήριξη FP4 και εξειδικευμένα εργαλεία κβαντοποίησης. Η μετα-κβαντοποίηση με το Model Optimizer επιταχύνει την ανάπτυξη παραγωγής, ενώ εκπαίδευση με κβαντοποίηση μεγιστοποιεί τη διατήρηση της ποιότητας.
Μεσοπρόθεσμα, οι CPD που είναι προετοιμασμένοι για racks θα πολλαπλασιαστούν. 50-120 kW, με λύσεις ψύξης και διαχείρισης ενέργειας επόμενης γενιάς. Η ωριμότητα του λογισμικού θα συνεχίσει να βελτιώνεται με απρόσκοπτες ενσωματώσεις και αγωγοί αυτοματοποιημένη κβαντοποίηση.
Δικτύωση και επεκτασιμότητα: NVLink 5, διακόπτες και φωτονική
Το ύφασμα διασύνδεσης είναι το άλλο μισό της απόδοσης. Η 5η γενιά του Το NVLink διπλασιάζει το εύρος ζώνης και σας επιτρέπει να εγγραφείτε έως και 576 GPUΚάθε αποτελεσματικός σύνδεσμος προσφέρει ~50 GB/s ανά κατεύθυνση; με 18 συνδέσμους ανά GPU, το συνολικό εύρος ζώνης φτάνει τα ~1,8 TB / s, περισσότερο από 14 φορές από το PCIe Gen5.
Ο διακόπτης NVIDIA NVLink συμβάλλει έως και 130 TB / s ανά τομέα NVL72, απαραίτητο για παραλληλισμό σε κλίμακα μοντέλου. Επιπλέον, υποστήριξη πρωτοκόλλου SHARP Για ιεραρχικές μειώσεις, επιταχύνει τις ακριβείς διαδικασίες όπως το FP8 σε κρίσιμες συλλογικές λειτουργίες.
Η NVIDIA προωθεί επίσης τη δικτύωση με Quantum-X800 InfiniBand y Spectrum-X800 Ethernet, με οικογένειες μεταγωγέων που κυμαίνονται από 128 έως 512 θύρες 800G, καθώς και επιλογές υψηλής πυκνότητας 200G και ενσωματωμένη υγρή ψύξη για διατήρηση της απόδοσης.
με NVIDIA Φωτονική, οι οπτικοί κινητήρες που ενσωματώνονται στο πακέτο ASIC του διακόπτη αντικαθιστούν τους παραδοσιακούς πομποδέκτες με δυνατότητα σύνδεσης, προωθώντας έως και 3,5× απόδοση, 10 φορές μεγαλύτερη ανθεκτικότητα και 1,3 φορές ταχύτερες αναπτύξεις, ανοίγοντας τον δρόμο για κέντρα οπτικών δεδομένων υψηλής πυκνότητας.
Λογισμικό και οικοσύστημα πλατφόρμας: Dynamo, AI-Q, Mission Control, NIM και OVX
Για να πιέσει τον Blackwell, η NVIDIA παρουσίασε αρκετά βασικά κομμάτια. Δυναμό είναι μια πλατφόρμα συμπερασμάτων ανοιχτού κώδικα που έχει σχεδιαστεί για να κλιμακώνει ένα μόνο ερώτημα μεταξύ GPU μέσω NVLink, με βελτιώσεις έως και 30x σε φορτία με συλλογισμό έντονο όπως το DeepSeek R1 και διπλασιασμός της απόδοσης στο Hopper χωρίς αλλαγή υλικού.
AI-Q (συν το AgentIQ) προτείνει ένα ανοιχτό πλαίσιο πολλαπλών πρακτόρων που ενσωματώνει εταιρικά δεδομένα, εξωτερικά εργαλεία και άλλους πράκτορες, διευκολύνοντας τη δημιουργία σύνθετων συστημάτων ικανών για λόγος σχετικά με κείμενο, εικόνες και βίντεο, με ενσωματώσεις σε πλαίσια όπως το CrewAI, το LangGraph ή η υπηρεσία Azure AI Agent Service.
Στο λειτουργικό επίπεδο, Mission Control Αυτοματοποιεί την ολοκληρωμένη ενορχήστρωση των κέντρων δεδομένων τεχνητής νοημοσύνης, με απρόσκοπτη εναλλαγή μεταξύ εκπαίδευσης και συμπερασμάτων, 5 φορές περισσότερη χρήση και αποκατάσταση της εργασίας 10 φορές πιο γρήγοραΕπιπλέον, το Base Command Manager είναι πλέον διαθέσιμο δωρεάν για έως και οκτώ επιταχυντές ανά σύστημα.
Η μπαταρία NVIDIA NIM προσθέτει μικροϋπηρεσίες γενετικής τεχνητής νοημοσύνης έτοιμες για επιχειρήσεις. Από την πλευρά του, Συστήματα OVX Είναι προσανατολισμένα στην παραγωγική Τεχνητή Νοημοσύνη και τα εντατικά γραφικά, συνοδευόμενα από ένα πρόγραμμα επικύρωση αποθήκευσης με DDN, Dell PowerScale, NetApp, Pure Storage ή WEKA για να εγγυηθεί την απόδοση και την κλιμάκωση στην παραγωγή.
Επαγγελματικά προϊόντα: RTX Pro Blackwell, DGX Station και DGX Spark
η νέα οικογένεια RTX Pro Blackwell Ανανεώστε την επαγγελματική σας σειρά με έως και 96 GB μνήμης στο Pro 6000 και πάνω 4.000 TOPS Τεχνητή Νοημοσύνη, πυρήνες RT 4ης γενιάς και πυρήνες Tensor 5ης γενιάς με FP4. Στην έκδοση Server, προσθέτει vGPU και MIG για να διαιρέσετε μια GPU σε πολλαπλές μεμονωμένες μονάδες.
Σε πραγματικές περιπτώσεις, έχουν αναφερθεί 5× σε ανίχνευση ακτίνων σε σύγκριση με την RTX A6000 (Foster + Partners), έως και 2 φορές στην ιατρική ανακατασκευή (GE HealthCare), αξιοσημείωτες βελτιώσεις στην εικονική πραγματικότητα (Rivian) και 3 φορές μεγαλύτερη παραγωγικότητα με LLM (SoftServe). Η Pixar επισημαίνει ότι το 3,3% του υλικού παραγωγής της χωράει πλέον σε απόσταση 70 GB από μία μόνο GPU.
Σταθμός DGX έχει ενημερωθεί με το GB300 Grace Blackwell Ultra, Ενοποιημένη μνήμη 784 GB και επάνω 20 PFLOPS στο AI FP4, περισσότερη συνδεσιμότητα 800 Gb / s με το ConnectX-8. Για προγραμματιστές και φοιτητές, DGX Spark με τσιπ GB10 και 128 GB ενοποιημένης μνήμης ~1.000 ΚΟΡΥΦΕΣ της Τεχνητής Νοημοσύνης και του SmartNIC ConnectX‑7, καθιστώντας την είσοδο στο οικοσύστημα φθηνότερη.
Exascale σε rack και προσαρμοσμένα superpods
Το σύστημα DGX GB200 NVL72 διπλασιάζεται από 32 σε 72 GPU και αυξάνει τη μνήμη από ~19,5 TB σε ~30 TBΣτον υπολογισμό, το άλμα είναι θεαματικό: από 127 PF a 1,4 EF στο FP4 (~11×), και από 127 PF σε 720 PF στο 8ο FP (~5,6×), όλα σε ένα πλήρως υδρόψυκτο πλαίσιο.
Παραπάνω, το DGX SuperPOD με συνολικά 8 συστήματα GB200 NVL72 11,5 exaFLOPS FP4 και 36 GB200 SuperChips ανά σύστημα, με βελτιώσεις έως και 30 × σε σύγκριση με το H100 σε μεγάλη συμπερασματική προσέγγιση LLM, σχεδιασμένο ως «εργοστάσιο Τεχνητής Νοημοσύνης» έτοιμο για μοντέλα της τάξης του ενός τρισεκατομμυρίου παραμέτρων.
Στην πλατφόρμα Grace-Blackwell, το GB200 συνδέει δύο B200 με μια κοινόχρηστη CPU Grace μέσω C2C και κλιμακώνεται έως και 576 GPU στα 1,8 TB/s χρησιμοποιώντας το NVLink 5, συναρμολογώντας μαζικά παράλληλα περιβάλλοντα κατάλληλα για τα πιο απαιτητικά φόρτα εργασίας τεχνητής νοημοσύνης.
Σύγχρονη Κβαντοποίηση: Διατήρηση της Νοημοσύνης στα 4 Bit
Η επιτυχία του 4ου ΠΠ προέρχεται από τον συνδυασμό υλικού και λογισμικούΗ διπλή κλιμάκωση της NVIDIA προσαρμόζεται στην κατανομή των τιμών τανυστήρα και η μηχανή Transformer αναλύει περισσότερες από 1.000 επεμβάσεις για τη δυναμική βελτιστοποίηση των κλιμάκων, επιτρέποντας σε μοντέλα όπως το DeepSeek‑R1 να επιτύχουν 98,1% ακρίβεια στο FP4 και, σε ορισμένες δοκιμές, υπερβαίνει το βασικό πλαίσιο του 8ου ΠΠ.
Μετά την εκπαίδευση, SmoothQuant y AWQ έχουν καταστήσει δυνατή την τοποθέτηση μοντέλων μεγέθους Falcon 180B σε μία μόνο GPU. Εάν χρειάζεται να διατηρήσετε τη μέγιστη απόδοση, το QAT που μιμείται το FP4 Κατά τη διάρκεια της λεπτής ρύθμισης, βοηθά στην προσαρμογή των κατανομών βάρους. Οικογένειες όπως το Nemotron 4 δείχνουν FP4 χωρίς απώλειες από την QAT, στο BF16 ή πάνω.
Για περίπλοκες περιπτώσεις, η διαχείριση Άτυπες τιμές αποφεύγει τις καταρρεύσεις ενεργοποίησης και στρατηγικές για μικτή ακρίβεια ανασηκώνει bits σε κρίσιμες λειτουργίες. Το αποτέλεσμα: το FP4 είναι βιώσιμο σε πυκνές αρχιτεκτονικές και επίσης σε Μίγμα εμπειρογνωμόνων, με ακρίβεια που δεν θυσιάζει την παραγωγή.
Χάρτης πορείας και διαθεσιμότητα
Κοιτάζοντας μπροστά, το Η γενιά της Βέρα Ρούμπιν στοχεύουν 50 PFLOPS FP4 Πυκνό σε GPU, με ConnectX‑9, NVLink‑6 και μνήμη HBM4 (+1,6x εύρος ζώνης). Η διασύνδεση CPU-GPU θα αυξηθεί επίσης σε ~1,8 TB/δευτ.και ο Rubin Ultra θα ανεβάσει ξανά τον πήχη 100 PFLOPS FP4 y 1 TB HBM4e.
Από την πλευρά της AMD, η αρχιτεκτονική CDNA 4 τροφοδοτεί τους πυρήνες Matrix με υποστήριξη για 4ο και 6ο ΠΠ, διπλασιάζοντας την απόδοση σε σύγκριση με την προηγούμενη γενιά και προσθέτοντας αραιότητα για ακόμη μεγαλύτερη επιτάχυνση, κάτι ιδιαίτερα ενδιαφέρον στα μοντέλα Mixture of Experts.
Ο πιο άμεσος περιορισμός δεν είναι τεχνικός αλλά προμήθεια υλικούΜεγάλο μέρος της παραγωγής B200/B300 του 2025 προορίζεται για υπερ-επεκτάσεις. Ωστόσο, ο αντίκτυπος στο κόστος ανά διακριτικό και την ενεργειακή απόδοση προκαλεί πραγματική εκδημοκρατικοποίηση, προσφέροντας δυνατότητες αιχμής σε μικρούς οργανισμούς χάρη στα άλματα στη μνήμη και την υπολογιστική ισχύ ανά watt.