NVFP4 คืออะไร และเหนือกว่า FP8 และ BF16 ในด้าน AI อย่างไร

การปรับปรุงครั้งล่าสุด: 8 2025 ตุลาคม
ผู้แต่ง: ไอแซก
  • NVFP4 รวม E2M1 เข้ากับการปรับขนาดแบบคู่ (FP8 ต่อไมโครบล็อกและ FP32 ต่อเทนเซอร์) เพื่อลดข้อผิดพลาดในการวัดปริมาณลง 88%
  • ที่ Blackwell FP4 ทำได้สูงถึง 20 PFLOPS ต่อ GPU และมีประสิทธิภาพดีกว่า FP8 ถึง 3 เท่าในกรณีการใช้งานจริง โดยมีความแม่นยำลดลงเพียงเล็กน้อย
  • หน่วยความจำลดลงฮวบฮาบ (สูงสุด 8 เท่า) พลังงานต่อโทเค็นลดลงสูงสุด 50 เท่า และต้นทุนการอนุมานลดลงเกือบ 90%
  • ระบบนิเวศน์รองรับ FP4 (TensorRT, vLLM, HF) แล้ว และโครงสร้างพื้นฐานที่ก้าวหน้าด้วย NVLink 5 ระบบระบายความร้อนด้วยของเหลว และแร็ค 120 kW

รูปแบบ NVFP4 และความแม่นยำของ AI

การสนทนาเกี่ยวกับรูปแบบความแม่นยำใน AI ได้รับการเร่งขึ้นด้วยการมาถึงของ NVFP4 และด้วยเหตุผลที่ดี: ลดบิตโดยไม่สูญเสียคุณภาพ เปลี่ยนแปลงเศรษฐศาสตร์ของการอนุมานอย่างสิ้นเชิง ในคู่มือนี้ คุณจะได้เรียนรู้ว่า NVFP4 คืออะไร แตกต่างจาก FP8 และ BF16 อย่างไร และเหตุใดบริษัทขนาดใหญ่ (และบริษัทขนาดเล็ก) จึงนำ NVFP4 มาใช้แล้ว ตั้งแต่ศูนย์ข้อมูลไปจนถึงคอมพิวเตอร์ตั้งโต๊ะ

นอกเหนือจากการโฆษณาเกินจริงแล้ว ยังมีข้อมูลที่ชัดเจนอีกด้วย: พลังงานต่อโทเค็นลดลงถึง 50 เท่า, โทเค็นโฟลว์ต่อวินาทีที่ทำลายสถิติ และหน่วยความจำที่ลดลงเหลือเพียงเสี้ยววินาทีโดยไม่ทำลายความแม่นยำ ถึงกระนั้น การแยกพาดหัวข่าวออกจากความเป็นจริงในทางปฏิบัติก็ยังคุ้มค่า เพราะผลกระทบขึ้นอยู่กับฮาร์ดแวร์ การปรับมาตราส่วนเชิงตัวเลข และวิธีการวัดปริมาณและเพิ่มประสิทธิภาพของแต่ละโมเดล

NVFP4 คืออะไร และปรับปรุงจาก FP8 และ BF16 ได้อย่างไร

NVFP4 คือข้อเสนอของ NVIDIA สำหรับ ความแม่นยำต่ำพิเศษ ออกแบบมาเพื่อการอนุมานด้วย AI แสดงตัวเลขด้วย E2M1 (บิตเครื่องหมาย 1 บิต, บิตเลขชี้กำลัง 2 บิต และบิตแมนทิสซา 1 บิต) และเพิ่มส่วนประกอบสำคัญ: การปรับขนาดในสองระดับ ซึ่งช่วยลดข้อผิดพลาดในการวัดปริมาณได้อย่างมากเมื่อเทียบกับการประมาณค่าแบบง่ายกว่า

โครงการสองระดับนี้รวมปัจจัยของ มาตราส่วน FP8 E4M3 นำไปใช้กับไมโครบล็อก ของค่า 16 ค่าที่มีการปรับขนาดเทนเซอร์ทั่วโลกใน FP32 ด้วยการรวมกันนี้ ข้อผิดพลาดน้อยลง 88% มากกว่าโซลูชันกำลังสองขั้นพื้นฐานเช่น MXFP4 ซึ่งช่วยเสริมเสถียรภาพเชิงตัวเลขด้วยบิตเพียงไม่กี่บิต

ในทางตรงกันข้าม FP8 (E4M3 หรือ E5M2) ลดต้นทุนได้ค่อนข้างมากเมื่อเทียบกับ FP16/BF16 แต่ NVFP4 ก้าวไปอีกขั้นหนึ่ง ลดหน่วยความจำและพลังงานลงอีก BF16 ยังคงรักษาช่วงไดนามิกที่ใกล้เคียงกับ FP32 โดยมีบิตในแมนทิสซาน้อยกว่า เหมาะอย่างยิ่งสำหรับการฝึกอบรมและสภาพแวดล้อมที่เสถียรภาพของการไล่ระดับเป็นสิ่งสำคัญ แต่สำหรับการอนุมานจำนวนมาก 4 บิตที่ปรับขนาดได้ดีก็สร้างความแตกต่าง

ผลในทางปฏิบัติ: ในปริมาณงานที่ปรับให้เหมาะสม NVFP4 รักษาความแม่นยำที่ใกล้เคียงมาก ไปสู่รูปแบบที่สูงกว่า แต่ด้วยความเร็วและประสิทธิภาพที่ก้าวกระโดดอย่างเห็นได้ชัด ทุกอย่างขึ้นอยู่กับการวัดปริมาณ การปรับเทียบ และการรองรับฮาร์ดแวร์ดั้งเดิม

สถาปัตยกรรม Blackwell และ NVFP4

สถาปัตยกรรม Blackwell: พลังเบื้องหลัง NVFP4

การมาถึงของ Blackwell ถือเป็นตัวเร่งปฏิกิริยาที่ทำให้ NVFP4 ได้รับความนิยม GPU B200 รวมทรานซิสเตอร์ 208.000 พันล้านตัว ในรูปแบบชิปคู่ เชื่อมโยงผ่านอินเทอร์เฟซ NV-HBI 10 TB/s ที่โปร่งใสต่อซอฟต์แวร์ ช่วยให้มั่นใจถึงพฤติกรรมที่เป็นหนึ่งเดียว

ลอส คอร์เทนเซอร์รุ่นที่ห้า รองรับ NVFP4 แบบดั้งเดิมด้วยการปรับขนาดที่เร่งด้วยฮาร์ดแวร์ ซึ่งสูงถึง 20 PetaFLOPS ใน FP4สถาปัตยกรรมยังรวมหน่วยความจำเทนเซอร์ไว้ใกล้กับหน่วยประมวลผล (TMEM) เพื่อจำกัดต้นทุนพลังงานในการเคลื่อนย้ายข้อมูลและเพิ่มประสิทธิภาพการทำงานที่ยั่งยืน

เพื่อการบริโภคซีรีส์ GeForce RTX 50 สืบทอดความสามารถของ FP4 ด้วยประสิทธิภาพ AI สูงถึง 4.000 TOPS และเร่งการสร้างภาพ (เช่น FLUX) ได้ถึง 3,9 เท่าเมื่อเทียบกับ FP8 ในสถานการณ์เฉพาะเจาะจง แสดงให้เห็นว่าการอนุมาน 4 บิตไม่ใช่แค่เรื่องของศูนย์ข้อมูลเท่านั้น

  การวิเคราะห์สถาปัตยกรรมของโปรเซสเซอร์ Apple: M1, M2 และรุ่นต่างๆ

ในระดับที่ใหญ่กว่า Blackwell Ultra (B300/GB300) ยกระดับมาตรฐานด้วย HBM3E 288GB และประสิทธิภาพเพิ่มขึ้น 1,5 เท่า มากกว่า B200 ไปถึงระดับ NVL72 ที่จะสัมผัสได้ 1,1 exaFLOPS ต่อระบบ ใน FP4 แบบหนาแน่น ซึ่งช่วยวางรากฐานสำหรับการให้บริการโมเดลที่มีพารามิเตอร์หลายแสนล้านรายการบนเครื่องจำนวนน้อยลง

เมตริก: โทเค็นมากขึ้น วัตต์น้อยลง และหน่วยความจำอยู่ภายใต้การควบคุม

ข้อมูลการผลิตและเกณฑ์มาตรฐานให้ภาพที่สอดคล้องกัน บน DeepSeek-R1 671B การก้าวกระโดดสู่ FP4 ใน B200 เพิ่มประสิทธิภาพสามเท่า เมื่อเทียบกับ FP8 ใน H200 โดยระบบ DGX B200 เกิน 30.000 โทเค็น/วินาทีความแม่นยำแทบไม่ลดลง: MMLU ลดลงจาก 90,8% เหลือ 90,7% เมื่อทำการหาปริมาณจาก FP8 เป็น FP4

ในความทรงจำ ตัวเลขเหล่านี้มีมากมายมหาศาล ปริญญานิติศาสตรมหาบัณฑิต (LLM) เช่น Llama 3.1 405B เพิ่มจาก 140 GB ใน FP32 เป็น 17,5 GB ใน FP4การลดลง 8 เท่าที่ช่วยให้สามารถให้บริการโมเดลขนาดใหญ่บน GPU น้อยลง ในการสร้างภาพ การกำหนดค่า FLUX สามารถลดลงจาก 51,4 GB ใน FP16 ถึง 9,9 GB ใน FP4 โดยมีความบกพร่องทางการมองเห็นน้อยที่สุดและปรับให้เข้ากับ VRAM ขนาดเล็ก

MLPerf v5.0 รองรับการเคลื่อนไหว: ปริมาณงานเฉลี่ยของ ลามะ 2 70B พับ เมื่อเทียบกับปีก่อนและผลลัพธ์ที่ดีที่สุดดีขึ้น 3,3 เท่า ในด้านพลังงาน โทเค็น
จาก H100 ถึง 10 J ลดลงเหลือ 0,4 J ใน B200 B300 มีอยู่แล้ว 0,2 J ประสิทธิภาพเพิ่มขึ้นถึง 50 เท่าเมื่อแปลในแง่ธุรกิจ คาดว่าต้นทุนการอนุมานจะลดลงเกือบ 90% ตลอดปี 2024-2025

ที่ฝั่งผู้ใช้จะมีรูปแบบภาพและข้อความด้วย NVFP4 ใช้ประโยชน์จากโทเค็นมากขึ้นต่อดอลลาร์โดยมีรายงานถึงการปรับปรุงที่ดีขึ้นถึง 40% เมื่อเทียบกับทางเลือกอื่นๆ ซึ่งเข้ากันได้ดีกับขนาดหน่วยความจำที่เล็กลงและความง่ายในการรองรับโมเดลขนาดใหญ่

การนำไปใช้: คลาวด์ บริษัท และกรณีศึกษาในชีวิตจริง

ผู้ให้บริการระบบคลาวด์เป็นผู้นำในการนำ FP4 มาใช้ Lambda Labs นำเสนอคลัสเตอร์ HGX B200 พร้อม FP4 ในการปรับใช้ 1 คลิก และบันทึก CoreWeave 800 โทเค็น/วินาที ใน Llama 3.1 405B พร้อม GPU GB200 ไม่ใช่แค่ NVIDIA ทั้งหมด: Meta, OpenAI และ Microsoft พวกเขาใช้ AMD Instinct MI300X ในการอนุมานและ MI350 จะมาพร้อมกับการรองรับ FP4 ดั้งเดิม

ในด้านธนาคาร JPMorgan ประเมิน FP4 สำหรับการวิเคราะห์ความเสี่ยงและทางเลือก ในระบบการดูแลสุขภาพ พวกเขาได้รับการตรวจ ความเร็ว +30% กับ หน่วยความจำ -50%และในการผลิต การตัดสินใจแบบเรียลไทม์จะเกิดขึ้นบนอุปกรณ์ที่มีทรัพยากรจำกัด โดยเปิดประตูที่ไม่มีพื้นที่ว่างมาก่อน

ซอฟต์แวร์มาพร้อมกับขั้นตอนนี้ ตัวเพิ่มประสิทธิภาพโมเดล TensorRT จัดให้มีกระบวนการวัดปริมาณ FP4 เต็มรูปแบบ กรอบงานเช่น วีแอลแอลเอ็ม บูรณาการการสนับสนุนเบื้องต้นสำหรับ NVFP4 และ กอดหน้า โฮสต์จุดตรวจสอบ FP4 ที่ถูกวัดปริมาณล่วงหน้า (DeepSeek-R1, Llama 3.1, FLUX) เพื่อเร่งการปรับใช้การผลิต

สำหรับทีมที่ใช้การประมวลผลน้อยลง มีวิธีการที่ไม่ต้องใช้ QAT อีกด้วย เอสวีดีควอนท์ ด้วยความแม่นยำที่ใกล้เคียงกับการฝึกอบรมเชิงปริมาณ หากต้องการความแม่นยำสูงสุด QAT ใน FP4 มันยังคงรักษาหรือแม้กระทั่งปรับปรุง BF16 ในตระกูลเช่น Nemotron 4 ไว้ได้ โดยขึ้นอยู่กับว่ากระบวนการนั้นได้รับการปรับแต่งอย่างไร

โครงสร้างพื้นฐาน: พลังงาน ระบบระบายความร้อน และกฎระเบียบศูนย์ข้อมูลใหม่

ความแม่นยำต่ำพิเศษจำเป็นต้องมีการวาดศูนย์ข้อมูลใหม่ ระบบ GB200 NVL72 กินไฟ 120 กิโลวัตต์ต่อชั้นวาง สำหรับ GPU จำนวน 72 ตัว ซึ่งสูงกว่าความจุของศูนย์ข้อมูลส่วนใหญ่ที่มีอยู่ อย่างไรก็ตาม NVL72 ทดแทน HGX H100 จำนวน 9 เครื่อง และต้องการ พลังงานน้อยลง 83% เพื่อการคำนวณที่มีประสิทธิภาพเท่ากัน

ด้วย TDP ประมาณ 1.000 วัตต์ต่อ GPU ตู้เย็นlíquida การติดตั้งชิปโดยตรงไม่ใช่ทางเลือก แผ่นเย็นที่จุดร้อนทั้งหมดช่วยให้ใช้งานได้ น้ำหล่อเย็นที่ 45 ºC และหอหล่อเย็น โดยหลีกเลี่ยงการใช้เครื่องทำความเย็นราคาแพง โซลูชัน เช่น ซูเปอร์ไมโคร ดีแอลซี-2 มีราคาสูงถึง 96 บาทต่อชั้น และสูงถึง 250 กิโลวัตต์ ของความจุความร้อน

  โปรเซสเซอร์ที่คุ้มค่าที่สุดในปี 2026

ในซอฟต์แวร์พื้นฐานจำเป็นต้องมีไดรเวอร์ CUDA อัปเดตแล้วTensorRT-LLM พร้อมรองรับ FP4 และเครื่องมือวิเคราะห์เชิงปริมาณเฉพาะทาง การวิเคราะห์เชิงปริมาณหลังการประมวลผลด้วย Model Optimizer ช่วยเร่งการใช้งานจริง ในขณะที่ การฝึกอบรมด้วยการวัดปริมาณ เพิ่มการรักษาคุณภาพให้สูงสุด

เมื่อมองในระยะกลาง CPD ที่เตรียมไว้สำหรับชั้นวางจะแพร่หลายมากขึ้น 50-120 กิโลวัตต์ด้วยโซลูชันการทำความเย็นและการจัดการพลังงานรุ่นใหม่ ความสมบูรณ์ของซอฟต์แวร์จะได้รับการพัฒนาอย่างต่อเนื่องด้วย การบูรณาการและท่อส่งที่ราบรื่น การวัดปริมาณแบบอัตโนมัติ

เครือข่ายและความสามารถในการปรับขนาด: NVLink 5, สวิตช์ และโฟโตนิกส์

โครงสร้างเชื่อมต่อเป็นอีกครึ่งหนึ่งของประสิทธิภาพ รุ่นที่ 5 ของ NVLink เพิ่มแบนด์วิดท์เป็นสองเท่า และช่วยให้คุณสามารถเข้าร่วมได้ 576 GPU. แต่ละลิงค์ที่มีประสิทธิภาพมี ~50 GB/s ต่อทิศทางด้วย 18 ลิงก์ต่อ GPU แบนด์วิดท์รวมจะถึง ~1,8 TB / sมากกว่า PCIe Gen5 ถึง 14 เท่า

เอล คอนมูทาดอร์ NVIDIA NVLink มีส่วนสนับสนุนถึง 130 TB / s ต่อโดเมน NVL72 ซึ่งจำเป็นสำหรับการประมวลผลแบบขนานในระดับโมเดล นอกจากนี้ การรองรับโปรโตคอล SHARP สำหรับการลดลำดับชั้นนั้นจะช่วยเร่งความแม่นยำ เช่น FP8 ในการดำเนินการรวมที่สำคัญ

NVIDIA ยังผลักดันด้านเครือข่ายด้วย Quantum-X800 InfiniBand y สเปกตรัม-X800 อีเธอร์เน็ตโดยมีกลุ่มสวิตช์ตั้งแต่พอร์ต 128 ถึง 512 พอร์ต 800G พร้อมด้วยตัวเลือกความหนาแน่นสูง 200G และระบบระบายความร้อนด้วยของเหลวแบบบูรณาการเพื่อรักษาประสิทธิภาพ

กับ NVIDIA โฟโตนิกส์เครื่องยนต์ออปติคัลที่รวมอยู่ในแพ็คเกจสวิตช์ ASIC เข้ามาแทนที่เครื่องรับส่งสัญญาณแบบเสียบปลั๊กแบบดั้งเดิม ส่งเสริมให้ใช้งานได้ถึง ประสิทธิภาพ 3,5 เท่ามีความยืดหยุ่นมากกว่า 10 เท่าและใช้งานได้เร็วขึ้น 1,3 เท่า ช่วยปูทางไปสู่ศูนย์ข้อมูลออปติคัลความหนาแน่นสูง

ระบบนิเวศซอฟต์แวร์และแพลตฟอร์ม: Dynamo, AI-Q, Mission Control, NIM และ OVX

เพื่อบีบ Blackwell ทาง NVIDIA ได้แนะนำชิ้นส่วนสำคัญหลายชิ้น ไดนาโม เป็นแพลตฟอร์มอนุมานโอเพ่นซอร์สที่ออกแบบมาเพื่อปรับขนาดแบบสอบถามเดี่ยวระหว่าง GPU ผ่าน NVLink โดยมีการปรับปรุงถึง 30x ในการโหลดพร้อมเหตุผล เข้มข้นเท่ากับ DeepSeek R1 และเพิ่มปริมาณงานเป็นสองเท่าบน Hopper โดยไม่ต้องเปลี่ยนฮาร์ดแวร์

เอไอ-คิว (รวมถึง AgentIQ) เสนอกรอบงานตัวแทนหลายตัวแบบเปิดที่บูรณาการข้อมูลองค์กร เครื่องมือภายนอก และตัวแทนอื่น ๆ อำนวยความสะดวกให้กับระบบแบบผสมที่มีความสามารถ เหตุผลเกี่ยวกับข้อความ รูปภาพ และวิดีโอด้วยการบูรณาการเข้ากับกรอบงานต่างๆ เช่น CrewAI, LangGraph หรือ Azure AI Agent Service

ที่ชั้นปฏิบัติการ ควบคุมภารกิจ ทำให้การประสานงานศูนย์ข้อมูล AI แบบครบวงจรเป็นไปโดยอัตโนมัติ พร้อมการสลับระหว่างการฝึกอบรมและการอนุมานอย่างราบรื่น ใช้งานได้มากกว่า 5 เท่า และการฟื้นฟูงาน เร็วขึ้น 10 เท่านอกจากนี้ Base Command Manager ยังเปิดให้ใช้งานได้ฟรีสำหรับตัวเร่งความเร็วสูงสุด 8 ตัวต่อระบบ

แบตเตอรี่ NVIDIA NIM เพิ่มไมโครเซอร์วิส AI เชิงสร้างสรรค์ที่พร้อมสำหรับองค์กร ในส่วนของมัน ระบบ OVX พวกมันมุ่งเน้นไปที่ AI เชิงสร้างสรรค์และกราฟิกที่เข้มข้น พร้อมด้วยโปรแกรม การตรวจสอบการจัดเก็บข้อมูล ด้วย DDN, Dell PowerScale, NetApp, Pure Storage หรือ WEKA เพื่อรับประกันปริมาณงานและการปรับขนาดในการผลิต

ผลิตภัณฑ์ระดับมืออาชีพ: RTX Pro Blackwell, DGX Station และ DGX Spark

ครอบครัวใหม่ RTX โปร แบล็คเวลล์ อัพเดทไลน์มืออาชีพด้วย หน่วยความจำ 96 GB ในรุ่น Pro 6000 ขึ้นไป 4.000 TOPS AI, RT Core รุ่นที่ 4 และ Tensor Core รุ่นที่ 5 พร้อม FP4 ใน Server Edition จะเพิ่ม vGPU และ MIG เพื่อแยก GPU ออกเป็นอินสแตนซ์แยกกันหลาย ๆ ตัว

ในกรณีจริงมีรายงานมาว่า การติดตามรังสี 5 เท่า เทียบกับ RTX A6000 (Foster + Partners) สูงถึง 2 เท่าในการสร้างใหม่ทางการแพทย์ (GE HealthCare) การปรับปรุงที่เห็นได้ชัดใน VR (Rivian) และ เพิ่มผลผลิต 3 เท่า ด้วย LLM (SoftServe) Pixar ชี้ให้เห็นว่าฟุตเทจการผลิต 3,3% มีขนาดภายใน 70 GB ของ GPU ตัวเดียว

  การ์ดจอที่ดีที่สุดราคา 300 ยูโร (หรือต่ำกว่า)

สถานี DGX ได้รับการอัปเดตด้วย GB300 Grace Blackwell Ultra หน่วยความจำแบบรวม 784GB และเพื่อ 20 PFLOPS ใน AI FP4, การเชื่อมต่อที่มากขึ้นของ 800 Gb / s ด้วย ConnectX-8 สำหรับนักพัฒนาและนักศึกษา ดีจีเอ็กซ์ สปาร์ค พร้อมชิป GB10 และหน่วยความจำรวม 128 GB ~1.000 ท็อป ของ AI และ SmartNIC ConnectX‑7 ทำให้การเข้าสู่ระบบนิเวศมีค่าใช้จ่ายถูกกว่า

Exascale ในชั้นวางและ superpod แบบกำหนดเอง

ระบบ ดีจีเอ็กซ์ จีบี200 เอ็นวีแอล72 สองเท่าจาก 32 ถึง 72 GPU และเพิ่มหน่วยความจำจาก ~19,5 TB เป็น ~วัณโรค 30ในการคำนวณ การกระโดดนั้นน่าทึ่งมาก: จาก 127 พีเอฟ a 1,4 EF ใน FP4 (~11×) และจาก 127 PF ถึง 720 PF ใน FP8 (~5,6×) ทั้งหมดอยู่ในแชสซีระบายความร้อนด้วยน้ำอย่างสมบูรณ์

ข้างบนนั้น ดีจีเอ็กซ์ ซุปเปอร์พอด พร้อมระบบ GB200 NVL72 ทั้งหมด 8 ระบบ 11,5 เอ็กซาฟล็อปส์ FP4 และ 36 GB200 SuperChips ต่อระบบ พร้อมการปรับปรุงสูงสุดถึง 30 × เมื่อเทียบกับ H100 ในการอนุมาน LLM ขนาดใหญ่ ได้รับการออกแบบให้เป็น "โรงงาน AI" ที่ออกแบบมาสำหรับโมเดลที่มีพารามิเตอร์ลำดับล้านล้านพารามิเตอร์

บนแพลตฟอร์ม Grace-Blackwell GB200 เชื่อมโยง B200 สองตัวกับ CPU Grace ที่ใช้ร่วมกันผ่าน C2C และปรับขนาดได้ถึง GPU 576 ตัวที่ความเร็ว 1,8 TB/วินาที โดยใช้ NVLink 5 ในการสร้างสภาพแวดล้อมแบบขนานจำนวนมากที่เหมาะกับเวิร์กโหลด AI ที่ต้องการมากที่สุด

การวิเคราะห์เชิงปริมาณสมัยใหม่: การรักษาความฉลาดที่ 4 บิต

ความสำเร็จของ FP4 มาจากการผสมผสาน ฮาร์ดแวร์และซอฟต์แวร์การปรับขนาดแบบคู่ของ NVIDIA ปรับตามการกระจายค่าเทนเซอร์และการวิเคราะห์เอนจิน Transformer มากกว่า 1.000 ปฏิบัติการ เพื่อเพิ่มประสิทธิภาพการปรับขนาดแบบไดนามิก ช่วยให้โมเดลเช่น DeepSeek‑R1 บรรลุผลสำเร็จ ความแม่นยำ 98,1% ใน FP4 และในการทดสอบบางส่วน เกินค่าพื้นฐาน FP8.

ในช่วงหลังการฝึกอบรม สมูทควอนท์ y สวพ.FMXNUMX ทำให้สามารถติดตั้งโมเดลขนาดเท่า Falcon 180B ลงใน GPU ตัวเดียวได้ หากคุณต้องการรักษาประสิทธิภาพสูงสุด QAT จำลอง FP4 ในระหว่างการปรับแต่งอย่างละเอียด จะช่วยปรับการกระจายน้ำหนัก ตระกูลต่างๆ เช่น Nemotron 4 แสดง FP4 แบบไม่สูญเสียข้อมูล โดย QAT ที่หรือสูงกว่า BF16

สำหรับกรณีที่ซับซ้อน การจัดการ ค่าผิดปกติ หลีกเลี่ยงการล่มสลายของการเปิดใช้งานและกลยุทธ์สำหรับ ความแม่นยำแบบผสม เพิ่มบิตในการดำเนินการที่สำคัญ ผลลัพธ์: FP4 สามารถใช้งานได้ในสถาปัตยกรรมหนาแน่นและใน การผสมผสานของผู้เชี่ยวชาญด้วยความแม่นยำที่ไม่เสียสละผลผลิต

แผนงานและความพร้อมใช้งาน

มองไปข้างหน้า เจเนอเรชั่นของเวรา รูบิน มุ่งที่ 50 PFLOPS FP4 GPU หนาแน่นด้วย คอนเนคท์เอ็กซ์-9, NVLink‑6 และหน่วยความจำ HBM4 (+1,6x แบนด์วิดท์) การเชื่อมต่อ CPU-GPU จะเพิ่มขึ้นเป็น ~1,8 เทราไบต์/วินาทีและ Rubin Ultra จะยกระดับมาตรฐานอีกครั้ง 100 PFLOPS FP4 y HBM4e ขนาด 1 TB.

ทางด้าน AMD สถาปัตยกรรม CDNA4 ขับเคลื่อน Matrix Cores ด้วยการสนับสนุนสำหรับ FP4 และ FP6ประสิทธิภาพที่เพิ่มขึ้นเป็นสองเท่าเมื่อเทียบกับรุ่นก่อนหน้าและเพิ่มความเบาบางเพื่อเร่งความเร็วได้มากยิ่งขึ้น ซึ่งเป็นสิ่งที่น่าสนใจเป็นพิเศษในรุ่น Mixture of Experts

ข้อจำกัดเร่งด่วนที่สุดไม่ใช่เรื่องทางเทคนิคแต่ การจัดหาฮาร์ดแวร์:การผลิต B200/B300 ในปี 2025 ส่วนใหญ่ถูกจัดสรรให้กับบริษัทไฮเปอร์สเกลเลอร์ อย่างไรก็ตาม ผลกระทบต่อต้นทุนต่อโทเค็นและประสิทธิภาพด้านพลังงานกำลังก่อให้เกิด ประชาธิปไตยที่แท้จริงนำเสนอความสามารถอันล้ำสมัยให้กับองค์กรขนาดเล็กด้วยความก้าวหน้าด้านหน่วยความจำและการประมวลผลต่อวัตต์

Nvidia Blackwell Ultra GB300
บทความที่เกี่ยวข้อง:
NVIDIA Blackwell Ultra GB300: สถาปัตยกรรม หน่วยความจำ และ NVLink 5