NVFP4: NVFP4 là gì và nó vượt trội hơn FP8 và BF16 như thế nào trong AI.

Cập nhật lần cuối: 8 Tháng Mười 2025
tác giả: Isaac
  • NVFP4 kết hợp E2M1 với khả năng mở rộng kép (FP8 trên mỗi khối vi mô và FP32 trên mỗi tenxơ) để giảm lỗi lượng tử hóa xuống 88%.
  • Tại Blackwell, FP4 đạt tới 20 PFLOPS trên mỗi GPU và hiệu suất tốt hơn 3 lần so với FP8 trong các trường hợp thực tế, với độ chính xác giảm tối thiểu.
  • Bộ nhớ giảm mạnh (lên đến 8 lần), năng lượng trên mỗi mã thông báo giảm tới 50 lần và chi phí suy luận giảm gần 90%.
  • Hệ sinh thái này hiện đã hỗ trợ FP4 (TensorRT, vLLM, HF) và cơ sở hạ tầng được cải tiến với NVLink 5, làm mát bằng chất lỏng và giá đỡ 120 kW.

Định dạng NVFP4 và độ chính xác của AI

Cuộc trò chuyện xung quanh các định dạng chính xác trong AI đã diễn ra nhanh hơn với sự ra đời của NVFP4 và có lý do chính đáng: giảm bit mà không làm giảm chất lượng thay đổi hoàn toàn nền kinh tế của suy luận. Trong hướng dẫn này, bạn sẽ tìm hiểu NVFP4 là gì, nó khác với FP8 và BF16 như thế nào, và tại sao các công ty lớn (và cả những công ty nhỏ) đã và đang áp dụng nó, từ trung tâm dữ liệu đến máy tính để bàn.

Ngoài những lời quảng cáo thổi phồng, còn có dữ liệu đáng tin cậy: Năng lượng cho mỗi mã thông báo được cắt tới 50 lần, lưu lượng token phá kỷ lục mỗi giây, và bộ nhớ giảm mạnh xuống một phần nhỏ mà không làm mất đi độ chính xác. Tuy nhiên, vẫn đáng để tách biệt tiêu đề với thực tế, bởi vì tác động phụ thuộc vào phần cứng, khả năng mở rộng số và cách mỗi mô hình được lượng tử hóa và tối ưu hóa.

NVFP4 là gì và nó cải thiện như thế nào so với FP8 và BF16?

NVFP4 là đề xuất của NVIDIA cho một độ chính xác cực thấp Được thiết kế cho suy luận AI. Nó biểu diễn các số bằng E2M1 (1 bit dấu, 2 bit mũ và 1 bit mantissa) và bổ sung một thành phần chính: mở rộng theo hai cấp độ giúp giảm đáng kể lỗi lượng tử hóa so với các phép tính gần đúng đơn giản hơn.

Sơ đồ hai cấp này kết hợp một yếu tố Tỷ lệ FP8 E4M3 được áp dụng cho các khối vi mô của 16 giá trị với tỷ lệ tenxơ toàn cục trong FP32. Nhờ sự kết hợp này, một Giảm 88% lỗi hơn các giải pháp lũy thừa cơ bản hơn như MXFP4, tăng cường tính ổn định số với rất ít bit.

Ngược lại, FP8 (E4M3 hoặc E5M2) đã cắt giảm khá nhiều chi phí so với FP16/BF16, nhưng NVFP4 tiến thêm một bước nữa tiếp tục giảm bộ nhớ và công suất. BF16 duy trì dải động tương tự FP32 với ít bit hơn trong mantissa, lý tưởng cho việc đào tạo và các môi trường mà tính ổn định của gradient là yếu tố then chốt, nhưng đối với suy luận hàng loạt, 4 bit được chia tỷ lệ tốt đang tạo ra sự khác biệt.

Hậu quả thực tế: trong khối lượng công việc được điều chỉnh tốt, NVFP4 duy trì độ chính xác rất gần lên các định dạng cao hơn, nhưng với tốc độ và hiệu suất vượt trội. Tất cả phụ thuộc vào lượng tử hóa, hiệu chuẩn và hỗ trợ phần cứng gốc.

Kiến trúc Blackwell và NVFP4

Kiến trúc Blackwell: Sức mạnh đằng sau NVFP4

Sự xuất hiện của Blackwell chính là chất xúc tác cho sự ra đời của NVFP4. GPU B200 tích hợp 208.000 tỷ bóng bán dẫn trong thiết kế chip kép, được liên kết thông qua giao diện NV-HBI 10 TB/giây, trong suốt với phần mềm, đảm bảo hành vi thống nhất.

Các Lõi Tensor thế hệ thứ năm hỗ trợ NVFP4 gốc với khả năng mở rộng được tăng tốc bằng phần cứng, đạt tới 20 PetaFLOPS trong FP4Kiến trúc này cũng kết hợp bộ nhớ tensor gần với các đơn vị tính toán (TMEM), hạn chế chi phí năng lượng khi di chuyển dữ liệu và tăng hiệu suất bền vững.

Đối với tiêu dùng, loạt GeForce RTX 50 Nó kế thừa khả năng FP4 với hiệu suất AI lên tới 4.000 TOPS và tăng tốc quá trình tạo hình ảnh (ví dụ: FLUX) lên tới 3,9 lần so với FP8 trong những tình huống cụ thể, chứng minh rằng suy luận 4 bit không chỉ là vấn đề của trung tâm dữ liệu.

  AMD Magnus, Robin, Orion và Canis: Những con chip bí mật sẽ định hình thế hệ máy chơi game tiếp theo

Ở đầu lớn hơn, Blackwell Ultra (B300/GB300) nâng cao tiêu chuẩn với 288GB HBM3E và hiệu suất cao hơn 1,5 lần hơn B200, đạt tới cấu hình NVL72 để chạm vào 1,1 exaFLOPS trên mỗi hệ thống trong FP4 dày đặc. Điều này đặt nền tảng cho việc phục vụ các mô hình với hàng trăm tỷ tham số trên ít máy hơn.

Số liệu: Nhiều mã thông báo hơn, ít watt hơn và bộ nhớ được kiểm soát

Dữ liệu sản xuất và dữ liệu chuẩn cho thấy một bức tranh nhất quán. Trên DeepSeek-R1 671B, Việc chuyển sang FP4 trong B200 giúp tăng gấp ba hiệu suất so với FP8 trong H200, với hệ thống DGX B200 vượt quá 30.000 token/giâyĐộ chính xác hầu như không bị ảnh hưởng: MMLU giảm từ 90,8% xuống 90,7% khi lượng tử hóa từ FP8 sang FP4.

Trong bộ nhớ, các con số rất áp đảo. Một LLM như Llama 3.1 405B tăng từ 140 GB trong FP32 lên 17,5 GB trong FP4, giảm 8 lần cho phép phục vụ các mô hình lớn trên ít GPU hơn. Trong quá trình tạo hình ảnh, cấu hình FLUX có thể giảm từ 51,4 GB trong FP16 đến 9,9 GB trong FP4 với suy giảm thị lực tối thiểu và thích ứng với VRAM khiêm tốn.

MLPerf v5.0 hỗ trợ di chuyển: thông lượng trung bình của Llama 2 70B gấp lại so với năm trước và kết quả tốt nhất đã cải thiện 3,3 lần. Trong năng lượng, mã thông báo
từ H100 đến 10 J giảm xuống 0,4 J trong B200 đã là 0,2 J trong B300, tức là hiệu quả cao hơn tới 50 lầnNếu dịch theo thuật ngữ kinh doanh, dự kiến ​​chi phí suy luận sẽ giảm gần 90% trong giai đoạn 2024-2025.

Ở phía người dùng, các mô hình hình ảnh và văn bản với NVFP4 tận dụng nhiều token hơn trên mỗi đô la, với báo cáo cải thiện lên đến 40% so với các giải pháp thay thế, điều này kết hợp tốt với dung lượng bộ nhớ nhỏ hơn và dễ dàng phục vụ các mô hình lớn.

Áp dụng: đám mây, công ty và các trường hợp thực tế

Các nhà cung cấp dịch vụ đám mây dẫn đầu việc áp dụng FP4. Lambda Labs cung cấp cụm HGX B200 với FP4 trong triển khai 1-Click và bản ghi CoreWeave 800 token/giây trong Llama 3.1 405B với GPU GB200. Không phải tất cả đều là NVIDIA: Meta, OpenAI và Microsoft Họ sử dụng AMD Instinct MI300X trong suy luận và MI350 sẽ có hỗ trợ FP4 gốc.

Trong ngân hàng, JPMorgan đánh giá FP4 để phân tích rủi ro và thay thế; trong chăm sóc sức khỏe, chúng đã được nhìn thấy +30% tốc độ với -50% bộ nhớvà trong sản xuất, các quyết định thời gian thực được thực hiện trên các thiết bị có nguồn lực hạn chế, mở ra những cánh cửa mà trước đây không có chỗ.

Phần mềm đi kèm theo bước này. Trình tối ưu hóa mô hình TensorRT cung cấp các đường ống lượng tử hóa FP4 đầy đủ; các khuôn khổ như vLLM tích hợp hỗ trợ sớm cho NVFP4; và Ôm mặt lưu trữ các điểm kiểm tra FP4 được lượng tử hóa trước (DeepSeek-R1, Llama 3.1, FLUX) để đẩy nhanh quá trình triển khai sản xuất.

Đối với các nhóm ít tính toán chuyên sâu hơn, có những cách sử dụng ít QAT hơn SVDQuant với độ chính xác gần với đào tạo lượng tử; nếu tìm kiếm độ chính xác tối đa, QAT trong FP4 Nó vẫn giữ nguyên hoặc thậm chí cải thiện BF16 trong các họ như Nemotron 4, với điều kiện là quá trình này được tinh chỉnh.

Cơ sở hạ tầng: điện, làm mát và các quy định mới về trung tâm dữ liệu

Độ chính xác cực thấp đòi hỏi phải vẽ lại trung tâm dữ liệu. Một hệ thống GB200 NVL72 tiêu thụ 120 kW mỗi giá đỡ cho 72 GPU, vượt quá khả năng của hầu hết các trung tâm dữ liệu hiện có. Mặc dù vậy, NVL72 thay thế chín chiếc HGX H100 và đòi hỏi một Giảm 83% năng lượng để có cùng một phép tính hiệu quả.

Với TDP khoảng 1.000 W cho mỗi GPU, coldración líquida Việc lắp chip trực tiếp không phải là tùy chọn. Các tấm lạnh tại tất cả các điểm nóng cho phép sử dụng chất làm mát ở 45 ºC và tháp giải nhiệt, tránh các máy làm lạnh đắt tiền. Các giải pháp như Supermicro DLC-2 Chúng đạt tới 96 B200 mỗi giá và lên tới 250 kw của công suất nhiệt.

  Bộ xử lý tốt nhất cho máy chủ

Trong phần mềm cơ sở, cần có trình điều khiển CUDA đã được cập nhậtTensorRT-LLM với hỗ trợ FP4 và các công cụ lượng tử hóa chuyên dụng. Hậu lượng tử hóa với Model Optimizer giúp đẩy nhanh quá trình triển khai sản xuất, đồng thời đào tạo với lượng tử hóa tối đa hóa khả năng lưu giữ chất lượng.

Nhìn về trung hạn, các CPD được chuẩn bị cho các cuộc triển lãm sẽ ngày càng tăng. 50-120 kW, với các giải pháp quản lý năng lượng và làm mát thế hệ tiếp theo. Độ hoàn thiện của phần mềm sẽ tiếp tục được cải thiện với tích hợp liền mạch và đường ống lượng tử hóa tự động.

Mạng và khả năng mở rộng: NVLink 5, bộ chuyển mạch và quang tử

Kết nối mạng là một nửa còn lại của hiệu suất. Thế hệ thứ 5 của NVLink tăng gấp đôi băng thông và cho phép bạn tham gia tới GPU 576. Mỗi liên kết hiệu quả cung cấp ~50 GB/giây mỗi hướng; với 18 liên kết trên mỗi GPU, băng thông tổng hợp đạt ~1,8 TB / giây, nhanh hơn PCIe Gen5 gấp 14 lần.

Công cụ chuyển đổi NVIDIA NVLink đóng góp lên đến 130 TB / giây theo miền NVL72, cần thiết cho tính song song ở quy mô mô hình. Ngoài ra, hỗ trợ giao thức NHỌN đối với việc giảm phân cấp, nó tăng tốc độ chính xác như FP8 trong các hoạt động tập thể quan trọng.

NVIDIA cũng đang đẩy mạnh vào mạng lưới với InfiniBand lượng tử-X800 y Ethernet Spectrum-X800, với các dòng sản phẩm chuyển mạch từ 128 đến 512 cổng 800G, cùng với các tùy chọn 200G mật độ cao và hệ thống làm mát bằng chất lỏng tích hợp để duy trì hiệu suất.

với NVIDIA Photonics, các động cơ quang học được tích hợp vào gói ASIC chuyển mạch thay thế các bộ thu phát cắm truyền thống, thúc đẩy lên đến Hiệu suất 3,5 lần, khả năng phục hồi cao hơn 10 lần và triển khai nhanh hơn 1,3 lần, mở đường cho các trung tâm dữ liệu quang học mật độ cao.

Hệ sinh thái phần mềm và nền tảng: Dynamo, AI-Q, Mission Control, NIM và OVX

Để cạnh tranh với Blackwell, NVIDIA đã giới thiệu một số thành phần quan trọng. Dynamo là một nền tảng suy luận nguồn mở được thiết kế để mở rộng một truy vấn duy nhất giữa các GPU thông qua NVLink, với những cải tiến lên tới 30x trong tải với lý luận mạnh mẽ như DeepSeek R1 và tăng gấp đôi thông lượng trên Hopper mà không cần thay đổi phần cứng.

AI-Q (cộng với AgentIQ) đề xuất một khuôn khổ đa tác nhân mở tích hợp dữ liệu doanh nghiệp, các công cụ bên ngoài và các tác nhân khác, tạo điều kiện cho các hệ thống tổng hợp có khả năng lý do về văn bản, hình ảnh và video, với sự tích hợp vào các khuôn khổ như CrewAI, LangGraph hoặc Azure AI Agent Service.

Ở tầng vận hành, Mission Control Tự động hóa việc phối hợp đầu cuối của các trung tâm dữ liệu AI, với khả năng chuyển đổi liền mạch giữa đào tạo và suy luận, Sử dụng nhiều hơn 5 lần và phục hồi việc làm Nhanh hơn 10 lầnNgoài ra, Base Command Manager hiện có sẵn miễn phí cho tối đa tám bộ tăng tốc trên mỗi hệ thống.

Cục pin NVIDIA NIM bổ sung các dịch vụ vi mô AI tạo sinh sẵn sàng cho doanh nghiệp. Về phần mình, Hệ thống OVX Chúng hướng tới AI tạo sinh và đồ họa chuyên sâu, kèm theo một chương trình xác thực lưu trữ với DDN, Dell PowerScale, NetApp, Pure Storage hoặc WEKA để đảm bảo thông lượng và khả năng mở rộng trong sản xuất.

Sản phẩm chuyên nghiệp: RTX Pro Blackwell, DGX Station và DGX Spark

gia đình mới RTX Pro Blackwell Cập nhật dòng sản phẩm chuyên nghiệp với tối đa Bộ nhớ 96 GB trong Pro 6000 trở lên ĐỒNG HỒ AI, Lõi RT thế hệ thứ 4 và Lõi Tensor thế hệ thứ 5 với FP4. Trong Phiên bản Máy chủ, nó bổ sung vGPU và MIG để chia GPU thành nhiều phiên bản riêng biệt.

Trong những trường hợp thực tế, chúng đã được báo cáo 5× trong dò tia so với RTX A6000 (Foster + Partners), tăng gấp đôi trong tái tạo y tế (GE HealthCare), cải tiến đáng chú ý trong VR (Rivian) và Năng suất gấp 3 lần với LLM (SoftServe). Pixar chỉ ra rằng 3,3% cảnh quay sản xuất của họ hiện nằm gọn trong 70 GB của một GPU duy nhất.

  Intel Xe3: Mọi thứ chúng ta biết về iGPU mới của Intel

Trạm DGX được cập nhật với GB300 Grace Blackwell Ultra, Bộ nhớ hợp nhất 784GB và lên 20 PFLOPS trong AI FP4, kết nối nhiều hơn 800 Gb / s với ConnectX-8. Dành cho các nhà phát triển và sinh viên, Tia lửa DGX với chip GB10 và bộ nhớ hợp nhất 128 GB cung cấp ~1.000 TOPS của AI và SmartNIC ConnectX‑7, giúp việc tham gia vào hệ sinh thái trở nên rẻ hơn.

Exascale trong giá đỡ và siêu chân đế tùy chỉnh

Hệ thống DGX GB200 NVL72 tăng gấp đôi từ 32 lên GPU 72 và tăng bộ nhớ từ ~19,5 TB lên ~30 TB. Trong tính toán, bước nhảy thật ngoạn mục: từ 127 PF a 1,4 EF trong FP4 (~11×), và từ 127 PF đến 720 PF trong FP8 (~5,6×), tất cả đều nằm trong khung máy được làm mát hoàn toàn bằng nước.

Phía trên, DGX SuperPOD với tổng cộng 8 hệ thống GB200 NVL72 11,5 exaFLOPS FP4 và 36 GB200 SuperChips cho mỗi hệ thống, với những cải tiến lên tới 30 × so với H100 trong suy luận LLM lớn, được thiết kế như một “nhà máy AI” hướng đến các mô hình có hàng nghìn tỷ tham số.

Trên nền tảng Grace-Blackwell, GB200 liên kết hai B200 với CPU Grace được chia sẻ thông qua C2C và mở rộng lên tới 576 GPU ở tốc độ 1,8 TB/giây sử dụng NVLink 5, lắp ráp các môi trường song song lớn phù hợp với khối lượng công việc AI đòi hỏi khắt khe nhất.

Lượng tử hóa hiện đại: Bảo toàn trí thông minh ở mức 4 bit

Sự thành công của FP4 đến từ việc kết hợp phần cứng và phần mềm. NVIDIA điều chỉnh tỷ lệ kép theo sự phân phối của các giá trị tenxơ và công cụ Transformer phân tích hơn 1.000 hoạt động để tối ưu hóa quy mô một cách năng động, cho phép các mô hình như DeepSeek‑R1 đạt được Độ chính xác 98,1% trong FP4 và trong một số thử nghiệm, vượt quá mức cơ sở FP8.

Trong quá trình đào tạo sau này, MượtQuant y AWQ đã giúp lắp các mô hình có kích thước bằng Falcon 180B vào một GPU duy nhất. Nếu bạn cần duy trì hiệu suất tối đa, QAT mô phỏng FP4 Trong quá trình tinh chỉnh, nó giúp điều chỉnh phân bổ trọng lượng. Các dòng sản phẩm như Nemotron 4 cho thấy FP4 không mất dữ liệu theo QAT, ở mức BF16 trở lên.

Đối với các trường hợp phức tạp, việc quản lý Giá trị không điển hình tránh sự sụp đổ kích hoạt và các chiến lược cho độ chính xác hỗn hợp nâng cao bit trong các hoạt động quan trọng. Kết quả: FP4 khả thi trong các kiến ​​trúc dày đặc và cũng trong Hỗn hợp các chuyên gia, với độ chính xác không ảnh hưởng đến năng suất.

Lộ trình và tính khả dụng

Nhìn về phía trước, Thế hệ Vera Rubin điểm đến 50 PFLOPS FP4 GPU dày đặc, với Kết nốiX‑9, NVLink‑6 và bộ nhớ HBM4 (+1,6 lần băng thông). Kết nối CPU-GPU cũng sẽ tăng lên ~1,8 TB/giâyvà Rubin Ultra sẽ lại nâng cao tiêu chuẩn 100 PFLOPS FP4 y 1 TB HBM4e.

Về phía AMD, kiến ​​trúc cDNA 4 cung cấp năng lượng cho Matrix Cores với sự hỗ trợ cho FP4 và FP6, tăng gấp đôi hiệu suất so với thế hệ trước và tăng thêm độ thưa thớt để tăng tốc hơn nữa, điều này đặc biệt thú vị trong các mô hình Mixture of Experts.

Hạn chế cấp bách nhất không phải là kỹ thuật mà là cung cấp phần cứng: Phần lớn sản lượng B200/B300 năm 2025 được giao cho các nhà khai thác siêu quy mô. Tuy nhiên, tác động đến chi phí trên mỗi token và hiệu quả năng lượng đang gây ra dân chủ hóa thực sựmang lại khả năng tiên tiến cho các tổ chức nhỏ nhờ bước tiến vượt bậc về bộ nhớ và khả năng tính toán trên mỗi watt.

nvidia blackwell ultra gb300
Bài viết liên quan:
NVIDIA Blackwell Ultra GB300: Kiến trúc, Bộ nhớ và NVLink 5