NVFP4: מה זה וכיצד הוא עולה על FP8 ו-BF16 בבינה מלאכותית.

העדכון אחרון: 8 2025 אוקטובר
מחבר: יצחק
  • NVFP4 משלב E2M1 עם קנה מידה כפול (FP8 לכל מיקרובלוק ו-FP32 לכל טנזור) כדי להפחית את שגיאת הכימות ב-88%.
  • בבלקוול, FP4 משיג עד 20 PFLOPS לכל GPU וביצועים טובים פי 3 מ-FP8 במקרים אמיתיים, עם ירידות דיוק מינימליות.
  • הזיכרון צונח (עד פי 8), צריכת האנרגיה לכל טוקן יורדת עד פי 50, ועלויות ההסקה יורדות בכמעט 90%.
  • המערכת האקולוגית כבר תומכת ב-FP4 (TensorRT, vLLM, HF) והתשתית מתקדמת עם NVLink 5, קירור נוזלי ומארזי 120 קילוואט.

פורמט NVFP4 ודיוקים של בינה מלאכותית

השיח סביב פורמטים מדויקים בבינה מלאכותית הואץ עם הגעתו של NVFP4, ובצדק: להפחית סיביות מבלי לאבד איכות משנה באופן קיצוני את הכלכלה של הסקה. במדריך זה, תלמדו מהו NVFP4, במה הוא שונה מ-FP8 ו-BF16, ומדוע חברות גדולות (ופחות גדולות) כבר מאמצות אותו, החל ממרכזי נתונים ועד למחשבים שולחניים.

מעבר להייפ השיווקי, יש נתונים מוצקים: אנרגיה לכל אסימון נחתכת עד פי 50, זרימות אסימונים שוברות שיאים לשנייה, וזיכרון שצונח לשבריר בלי לפגוע בדיוק. ובכל זאת, כדאי להפריד בין כותרות למציאות המעשית, כי ההשפעה תלויה בחומרה, בקנה מידה מספרי, ובאופן שבו כל מודל עובר כימות ואופטימיזציה.

מה זה NVFP4 וכיצד הוא משפר את FP8 ו-BF16?

NVFP4 היא ההצעה של NVIDIA עבור דיוק אולטרה-נמוך מיועד להסקת מסקנות באמצעות בינה מלאכותית. הוא מייצג מספרים עם E2M1 (ביט סימן אחד, 2 ביט אקספוננט וסיב מנטיסה אחד) ומוסיף מרכיב מפתח: קנה מידה בשתי רמות מה שמפחית באופן דרסטי את שגיאת הכימות בהשוואה לקירובים פשוטים יותר.

תוכנית דו-מפלסית זו משלבת גורם של קנה מידה FP8 E4M3 מוחל על מיקרובלוקים של 16 ערכים עם קנה מידה טנזורי גלובלי ב-FP32. הודות לשילוב זה, א 88% פחות שגיאות מאשר פתרונות בסיסיים יותר של כוח של שניים כמו MXFP4, המחזקים את היציבות הנומרית עם כל כך מעט ביטים.

לעומת זאת, FP8 (E4M3 או E5M2) כבר חוסך לא מעט בעלויות בהשוואה ל-FP16/BF16, אבל NVFP4 הולך צעד אחד קדימה מפחית עוד יותר את הזיכרון והצריכה החשמלית. BF16 שומר על טווח דינמי דומה לזה של FP32 עם פחות ביטים במנטיסה, אידיאלי לאימונים ולסביבות בהן יציבות גרדיאנט היא המפתח, אך עבור הסקה מסיבית, 4 הסיביות המותאמות היטב עושה את ההבדל.

התוצאה המעשית: בעומסי עבודה מותאמים היטב, NVFP4 שומר על דיוק קרוב מאוד לפורמטים גבוהים יותר, אך עם קפיצות ניכרות במהירות וביעילות. הכל תלוי בכימות, כיול ותמיכה בחומרה מובנית.

ארכיטקטורת בלקוול ו-NVFP4

ארכיטקטורת בלקוול: הכוח מאחורי NVFP4

הגעתו של בלקוול הייתה הזרז להמראה של NVFP4. ה-GPU B200 משלב 208.000 מיליארד טרנזיסטורים בתכנון כפול-שבב, המקושר דרך ממשק NV-HBI של 10 TB/s שהוא שקוף לתוכנה, מה שמבטיח התנהגות אחידה.

ل ליבות טנזור מהדור החמישי תמיכה טבעית ב-NVFP4 עם קנה מידה מואץ חומרה, המגיע עד ל- 20 פטה-פלופס ב-FP4הארכיטקטורה משלבת גם זיכרון טנזור קרוב ליחידות המחשוב (TMEM), מה שמגביל את עלות האנרגיה של תנועת נתונים ומשפר את הביצועים המתמשכים.

לצריכה, הסדרה ג 'א רץ הוא יורש יכולות FP4 עם ביצועי בינה מלאכותית של עד 4.000 TOPS ומאיץ את יצירת התמונה (למשל, FLUX) בעד פי 3,9 בהשוואה ל-FP8 בתרחישים ספציפיים, הוכחה שהסקה של 4 סיביות אינה רק עניין של מרכז נתונים.

  MSI Claw: Intel Core Ultra 7 258V או Ryzen Z2 Extreme?

בקצה הגדול יותר, Blackwell Ultra (B300/GB300) מעלה את הרף עם 288GB HBM3E וביצועים גבוהים פי 1,5 מאשר B200, מגיע בתצורות NVL72 כדי לגעת 1,1 exaFLOPS לכל מערכת ב-FP4 צפוף. זה מניח את היסודות להגשת מודלים עם מאות מיליארדי פרמטרים על פחות מכונות.

מדדים: יותר טוקנים, פחות וואט וזיכרון תחת שליטה

נתוני ייצור וביצועי ביצועים מציירים תמונה עקבית. ב-DeepSeek-R1 671B, הקפיצה ל-FP4 ב-B200 משלשת את הביצועים בהשוואה ל-FP8 ב-H200, כאשר מערכות DGX B200 עולות על ה- 30.000 אסימונים/שנייההדיוק בקושי נפגע: MMLU יורד מ-90,8% ל-90,7% בעת כימות מ-FP8 ל-FP4.

בזיכרון, המספרים מדהימים. תואר שני במשפטים כמו Llama 3.1 405B גדל מ-140 ג'יגה-בייט ב-FP32 ל-17,5 ג'יגה-בייט ב-FP4, הפחתה של פי 8 המאפשרת הצגת מודלים מסיביים על פחות מעבדים גרפיים. ביצירת תמונות, תצורת FLUX יכולה לרדת מ 51,4 ג'יגה-בייט ב-FP16 עד 9,9 ג'יגה-בייט ב-FP4 עם ליקוי ראייה מינימלי והתאמה ל-VRAM צנוע.

MLPerf גרסה 5.0 תומכת במעבר: התפוקה הממוצעת של לאמה 2 70B מקופלת בהשוואה לשנה הקודמת והתוצאות הטובות ביותר השתפרו פי 3,3. באנרגיה, האסימון
מ-H100 עד 10 ג'ול יורד ל-0,4 ג'ול ב-B200 כבר 0,2 ג'ול ב-B300, כלומר יעילות גבוהה עד פי 50בתרגום למונחים עסקיים, צפויות ירידות של כמעט 90% בעלויות ההסקה לאורך 2024-2025.

בצד המשתמש, התמונה והטקסט מעוצבים עם NVFP4 ממנף יותר אסימונים לכל דולר, עם דיווחים על שיפור של עד 40% לעומת חלופות, דבר שמשתלב היטב עם טביעת הרגל הקטנה יותר של הזיכרון וקלות השירות של דגמים גדולים.

אימוץ: עננים, חברות ומקרים אמיתיים

ספקי ענן מובילים את אימוץ FP4. מעבדות למבדה מציעות אשכולות HGX B200 עם FP4 בפריסות 1-Click ורשומות CoreWeave 800 אסימונים/שנייה ב-Llama 3.1 405B עם כרטיס מסך GB200. זה לא הכל NVIDIA: מטא, OpenAI ומיקרוסופט הם משתמשים ב-AMD Instinct MI300X לצורך הסקה ו... MI350 יגיע עם תמיכה מקורית ב-FP4.

בבנקאות, פי מורגן מעריך את FP4 לצורך ניתוח סיכונים וחלופות; בתחום הבריאות הם נצפו מהירות של +30% עם זיכרון של 50%, ובתחום הייצור, קבלת החלטות בזמן אמת מתאפשרת במכשירים עם משאבים מוגבלים, ופותחת דלתות במקומות שלא היה מקום קודם לכן.

התוכנה מלווה את השלב. אופטימיזציית מודל TensorRT מספק צינורות כימות מלאים של FP4; מסגרות כגון vLLM לשלב תמיכה מוקדמת עבור NVFP4; ו פנים מחבקות מארח נקודות ביקורת FP4 מכומתות מראש (DeepSeek-R1, Llama 3.1, FLUX) כדי להאיץ פריסות ייצור.

עבור צוותים בעלי פחות עתירות מחשוב, ישנן דרכים ללא QAT באמצעות SVDQuant עם דיוק קרוב לאימון כמותי; אם שואפים לדיוק מקסימלי, ה- QAT ב-FP4 הוא שומר או אפילו משפר את BF16 במשפחות כמו Nemotron 4, בתנאי שהתהליך מכוון עדין.

תשתית: חשמל, קירור ותקנות חדשות למרכזי נתונים

דיוק אולטרה-נמוך דורש שרטוט מחדש של מרכז הנתונים. מערכת GB200 NVL72 צורך 120 קילוואט לכל מתלה עבור 72 מעבדים גרפיים, מעל הקיבולת של רוב מרכזי הנתונים הקיימים. למרות זאת, NVL72 מחליף תשעה דגמי HGX H100 ודורש א 83% פחות אנרגיה עבור אותו חישוב אפקטיבי.

עם TDP של ~1.000 וואט לכל כרטיס מסך, ה- קירור נוזלי התקנה ישירה של שבב אינה אופציונלית. פלטות קרות בכל הנקודות החמות מאפשרות שימוש נוזל קירור בטמפרטורה של 45 מעלות צלזיוס ומגדלי קירור, תוך הימנעות מצ'ילרים יקרים. פתרונות כגון סופרמיקרו DLC-2 הם מגיעים ל-96 B200 לכל מתלה ועד 250 קילוואט של קיבולת תרמית.

  בתוך מעבדי AWS Graviton 3 של אמזון

בתוכנה הבסיסית, נדרשים דרייברים CUDA עודכןTensorRT-LLM עם תמיכה ב-FP4 וכלי כימות ייעודיים. כימות לאחר השימוש עם Model Optimizer מאיצה את פריסת הייצור, בעוד... אימון עם כימות ממקסם את שמירת האיכות.

במבט לטווח הבינוני, מספר ה- CPD המוכנים למדפים יתרחב. 50-120 קילוואט, עם פתרונות קירור וניהול אנרגיה מהדור הבא. בגרות התוכנה תמשיך להשתפר עם אינטגרציות וצנרת חלקות כימות אוטומטית.

רשתות וגמישות: NVLink 5, מתגים ופוטוניקה

מארג החיבורים הוא החצי השני של הביצועים. הדור החמישי של NVLink מכפיל את רוחב הפס ומאפשר לך להצטרף עד 576 GPUכל קישור יעיל מציע ~50 ג'יגה-בייט לשנייה לכל כיווןעם 18 קישורים לכל GPU, רוחב הפס הכולל מגיע ל~1,8 TB / s, יותר מ-14x מאשר PCIe Gen5.

המתג NVIDIA NVLink תורם עד 130 TB / s לכל תחום NVL72, חיוני למקבילות בקנה מידה של מודל. בנוסף, תמיכה בפרוטוקול חַד עבור צמצומים היררכיים זה מאיץ דיוקים כמו FP8 בפעולות קולקטיביות קריטיות.

גם NVIDIA דוחפת ליצירת רשתות עם Quantum-X800 InfiniBand y Spectrum-X800 Ethernet, עם משפחות מתגים הנעות בין 128 ל-512 יציאות של 800G, בנוסף לאפשרויות של 200G בצפיפות גבוהה, וקירור נוזלי משולב לשמירה על ביצועים.

עם פוטוניקס של NVIDIA, מנועים אופטיים המשולבים בחבילת ASIC של המתג מחליפים משדרי-מקלט מסורתיים הניתנים לחיבור, ומקדמים עד יעילות של פי 3,5, עמידות גבוהה פי 10 ופריסה מהירה פי 1,3, מה שסולל את הדרך למרכזי נתונים אופטיים בצפיפות גבוהה.

מערכת אקולוגית של תוכנה ופלטפורמות: Dynamo, AI-Q, בקרת משימה, NIM ו-OVX

כדי לסחוט את בלקוול, NVIDIA הציגה מספר חלקים מרכזיים. דִינָמוֹ היא פלטפורמת הסקה בקוד פתוח שנועדה להרחיב שאילתה אחת בין מעבדים גרפיים באמצעות NVLink, עם שיפורים של עד פי 30 בהעמסות עם נימוק אינטנסיבי כמו DeepSeek R1 והכפלת התפוקה ב-Hopper מבלי לשנות חומרה.

בינה מלאכותית-Q (בתוספת AgentIQ) מציעה מסגרת פתוחה מרובת סוכנים המשלבת נתוני ארגון, כלים חיצוניים וסוכנים אחרים, ומאפשרת מערכות מורכבות המסוגלות סיבה לגבי טקסט, תמונות וסרטונים, עם אינטגרציות לתוך מסגרות כגון CrewAI, LangGraph או Azure AI Agent Service.

בשכבה התפעולית, Mission Control אוטומציה של תזמור מקצה לקצה של מרכזי נתונים מבוססי בינה מלאכותית, עם מעבר חלק בין אימון להסקת מסקנות, ניצול פי 5 יותר ושחזור עבודה מהיר פי 10בנוסף, Base Command Manager זמין כעת ללא עלות עבור עד שמונה מאיצים לכל מערכת.

לה פילה NVIDIA NIM מוסיפה מיקרו-שירותים גנרטיביים של בינה מלאכותית מוכנים לארגונים. מצידה, מערכות OVX הם מכוונים לבינה מלאכותית יצירתית וגרפיקה אינטנסיבית, בליווי תוכנית של אימות אחסון עם DDN, Dell PowerScale, NetApp, Pure Storage או WEKA כדי להבטיח תפוקה וגמישות בייצור.

מוצרים מקצועיים: RTX Pro Blackwell, DGX Station ו-DGX Spark

המשפחה החדשה RTX Pro בלקוול עדכן את קו המקצועי עם עד זיכרון של 96 ג'יגה-בייט ב-Pro 6000 ומעלה 4.000 TOPS בינה מלאכותית, ליבות RT דור רביעי וליבות Tensor דור חמישי עם FP4. במהדורת השרת, זה מוסיף vGPU ו-MIG כדי לפצל GPU למספר מופעים מבודדים.

במקרים אמיתיים, דווח עליהם מעקב קרניים באורך 5× לעומת RTX A6000 (Foster + Partners), עד פי 2 בשחזור רפואי (GE HealthCare), שיפורים ניכרים במציאות מדומה (Rivian) ו- פרודוקטיביות פי 3 עם LLM (SoftServe). פיקסאר מציינת ש-3,3% מצילומי ההפקה שלה מתאימים כעת לנפח של עד 70 ג'יגה-בייט של כרטיס מסך יחיד.

  כל מה שאנחנו יודעים על Threadripper 9000: מחירים, דגמים ותכונות חדשות

תחנת DGX מעודכן עם GB300 גרייס בלקוול אולטרה, זיכרון מאוחד של 784GB ומעלה 20 PFLOPS ב-AI FP4, קישוריות רבה יותר של 800 GB / s עם ConnectX-8. למפתחים ולסטודנטים, DGX Spark עם שבב GB10 ו-128 ג'יגה-בייט של זיכרון מאוחד ~1.000 צמרות של בינה מלאכותית ו-SmartNIC ConnectX‑7, מה שהופך את הכניסה למערכת האקולוגית לזולה יותר.

אקססקייל במדף ובסופרפודים בהתאמה אישית

המערכת DGX GB200 NVL72 מכפיל מ-32 ל- 72 GPU ומגדיל את הזיכרון מ-~19,5 טרה-בייט ל-~30 TBבחישוב, הקפיצה מרהיבה: מ 127 PF a 1,4 EF ב-FP4 (~11×), ומ-127 PF ל- 720 PF ב-FP8 (~5,6×), והכל במארז מקורר במים לחלוטין.

למעלה, ה- DGX SuperPOD עם 8 מערכות GB200 NVL72 בסך הכל 11,5 exaFLOPS FP4 ו-36 GB200 SuperChips לכל מערכת, עם שיפורים של עד 30 × בהשוואה ל-H100 בהסקת LLM גדולה, שתוכננה כ"מפעל בינה מלאכותית" המיועד למודלים בסדר גודל של טריליון פרמטרים.

בפלטפורמת גרייס-בלקוול, ה- GB200 מחבר שני מעבדי B200 עם מעבד Grace משותף דרך C2C, ומגדיל את הנפח ל- 576 מעבדים גרפיים במהירות של 1,8 טרה-בייט לשנייה באמצעות NVLink 5, הרכבת סביבות מקבילות באופן מסיבי המתאימות לעומסי עבודה תובעניים ביותר של בינה מלאכותית.

קוונטיזציה מודרנית: שימור אינטליגנציה ב-4 ביטים

ההצלחה של FP4 נובעת משילוב חומרה ותוכנהקנה המידה הכפול של NVIDIA מתאים את עצמו לפיזור ערכי הטנזור ומנוע ה-Transformer מנתח אותו. יותר מ-1.000 פעולות כדי לייעל באופן דינמי קנה מידה, מה שמאפשר למודלים כמו DeepSeek‑R1 להשיג דיוק של 98,1% ב-FP4, ובכמה בדיקות, יעלה על קו הבסיס של FP8.

לאחר האימון, סמוטקוונט y AWQ אפשרו להתאים דגמים בגודל של Falcon 180B לכרטיס מסך יחיד. אם אתם צריכים לשמר ביצועים מקסימליים, ה- QAT מחקה את FP4 במהלך כוונון עדין, זה עוזר להתאים את חלוקת המשקל. משפחות כמו נמוטרון 4 מראות FP4 ללא אובדן נתונים לפי QAT, ב-BF16 ומעלה.

עבור מקרים מורכבים, ניהול של ערכים לא טיפוסיים מונע קריסות הפעלה, ואסטרטגיות עבור דיוק מעורב העלאת ביטים בפעולות קריטיות. התוצאה: FP4 בר-קיימא בארכיטקטורות צפופות וגם ב תערובת מומחים, עם דיוק שאינו פוגע בייצור.

מפת דרכים וזמינות

במבט קדימה, ה- דור ורה רובין מצביע על 50 PFLOPS FP4 צפוף ב-GPU, עם קונקט X‑9, NVLink‑6 וזיכרון HBM4 (רוחב פס של פי 1,6+). חיבור המעבד-כרטיס המסך יגדל גם הוא ל- ~1,8 טרה-בייט לשנייה, ורובין אולטרה יעלה שוב את הרף ל 100 PFLOPS FP4 y 1 טרה-בייט של HBM4e.

בצד של AMD, הארכיטקטורה CDNA 4 מפעיל את Matrix Cores עם תמיכה ב- FP4 ו-FP6, הכפלת ביצועים בהשוואה לדור הקודם והוספת דלילות כדי להאיץ עוד יותר, משהו מעניין במיוחד בדגמי Mixture of Experts.

המגבלה המיידית ביותר אינה טכנית אלא אספקת חומרהחלק ניכר מייצור ה-B200/B300 לשנת 2025 מיועד להיפר-סקיילרים. ובכל זאת, ההשפעה על העלות לכל טוקן ויעילות האנרגיה גורמת ל... דמוקרטיזציה אמיתית, ומביא יכולות מתקדמות לארגונים קטנים הודות לקפיצות בזיכרון ובחישוב לוואט.

nvidia blackwell ultra gb300
Artaculo relacionado:
NVIDIA Blackwell Ultra GB300: ארכיטקטורה, זיכרון ו-NVLink 5