- يتم تقييم LLMs بشكل أفضل من خلال الرموز في الثانية: حيث يحدد الإدخال والإخراج زمن الوصول.
- توفر Databricks نقاط النهاية بواسطة TPS والتوسع التلقائي؛ وتعمل MLPerf على توحيد المقاييس.
- معايير جديدة (DeepSeek-R1، Whisper، Llama 3.1-8B) تعزز TTFT/TPOT.
إذا كنت تعمل مع نماذج اللغة، فأنت سمعت مصطلح "عدد الرموز في الثانية" ألف مرة، ولكن نادرًا ما يُشرح بالتفصيل معناه في بيئات العمل الواقعية، والأهم من ذلك، كيف يقيسه MLPerf. في هذه المقالة، نشرح بوضوح ماهية الرموز، وأهمية مقياس عدد الرموز في الثانية في الاستدلال، وكيف تستخدمه منصات مثل Databricks ومقياس MLPerf لتحديد الحجم والمقارنة والتوسع. بالإضافة إلى ذلك، فإننا ندرج أرقامًا محددة من الشركات المصنعة والسحب وتوقعات الأداء الأرضي..
المشكلة ليست بسيطة: لقد قامت الصناعة بتوحيد عدد الرموز في الثانية لتقييم أداء LLM في مراكز البيانات وعلى الحافة. لقد أصبح MLPerf، مجموعة MLCommons التي تمت مراجعتها من قبل النظراء، بمثابة المعيار لمقارنة الأجهزة والبرامج.بالتوازي مع ذلك، تُجهّز شركات تشغيل مثل Databricks بالفعل نقاط نهاية نماذجها مباشرةً بناءً على نطاق الرموز في الثانية. دعونا نُفصّل كل هذا، مع ذكر الأرقام وحالات الاستخدام.
ما هو الرمز ولماذا هو مهم في LLM؟
لا تقوم نماذج اللغة بمعالجة الحروف أو الكلمات الفردية كما هي؛ بل تعمل بوحدات تسمى الرموز. يبلغ طول الرمز عادة حوالي 4 أحرف، أو في المتوسط 0,75 كلمة.تختلف هذه النسبة حسب اللغة ومُجزئ النموذج، ولكنها تعمل كمرجع سريع: يتحرك نص مكون من 10 كلمات حوالي 13 إلى 14 رمزًا.
تعتمد التجزئة الدقيقة على النموذج: يستخدم كل برنامج ماجستير في القانون رمزًا مميزًا خاصًا به ويقسم الكلمات إلى رموز كاملة أو كلمات فرعيةتتيح لك الأدوات الإلكترونية رؤية كيفية قيام لاما، على سبيل المثال، بترميز عبارة معينة. يؤثر هذا التباين، الذي يبدو تفصيلاً صغيراً، على زمن الوصول وتكاليف الحوسبة.
عندما نتحدث عن معدل التوليد، فإنه عادة ما يتم التعبير عنه من حيث الرموز في الثانية، وليس الكلمات في الثانية. يؤدي هذا إلى توحيد المقياس عبر اللغات، وأطوال السياق، وأنماط الإخراج.، ويسمح بحساب تكلفة الاستدلال والقدرة المطلوبة بدقة.
لماذا يتم قياس الأداء بالرموز في الثانية وليس بالـRPS؟
تُركز خدمات واجهة برمجة التطبيقات (API) التقليدية على طلبات RPS (الطلبات في الثانية). أما في LLM، فيُقصّر هذا النهج: يمكن أن يستغرق الطلبان أوقاتًا مختلفة جدًا اعتمادًا على رموز الإدخال ورموز الإخراجوهذا يعني أن الحمولة الفعلية تأتي في شكل رموز، وليس في "عدد المكالمات".
هناك مصدران رئيسيان للتباين. أولًا، طول سياق الإدخال: قد يحتوي الموجه القصير على عدد قليل من الرموز، ولكن المستند الملخص قد يتضخم إلى مئات أو آلاف الرموز.من ناحية أخرى، طول الناتج: عادةً ما ينتج التلخيص عددًا أقل من الرموز؛ حيث يؤدي إنشاء مقال طويل أو وصف طويل إلى زيادة الوقت، لأن فك تشفير الناتج هو الجزء الأكثر تكلفة.
لذلك، لتوسيع نطاق نقطة نهاية الاستدلال بشكل واقعي، من المفيد التفكير من حيث الرموز. على سبيل المثال، تقوم Databricks بتزويد نقاط نهاية الخدمة الخاصة بها بمجموعة من الرموز في الثانية وتصدر الفواتير كل ساعة بناءً على التوسع.بهذه الطريقة، يمكنك محاذاة السعة مع الحمل الفعلي دون أن يتم خداعك بواسطة RPS الذي لا يخبرك بالقصة كاملة.
كيف يقيس Databricks وMLPerf عدد الرموز في الثانية
يأخذ Databricks حمولة تمثيلية من RAGs كمرجع ويلخصها: 2048 رمز إدخال و 256 رمز إخراجإنه يجمع بين المرحلتين (الملء المسبق وفك التشفير)، وبشكل افتراضي، يعمل على تحسين التوازن بين الإنتاجية والزمن الكامن لأحجام الدفعات التي تبلغ 1 لكل طلب، مما يحاكي طلبات متزامنة متعددة.
باستخدام هذه القاعدة، تُقرأ الأرقام على هذا النحو: إذا قمت بتكوين نقطة نهاية عند 2304 رمزًا في الثانية (2048 + 256)، يستغرق الطلب بهذه الأحجام ثانية تقريبًاإذا قمت بتعيينه على 5600 رمز في الثانية، ينخفض الطلب نفسه إلى حوالي 0,5 ثانية ويمكنك معالجة طلبين مماثلين في الثانية.
عندما يتغير حجم العمل لديك، سيتغير زمن الوصول. إن إنشاء المزيد من رموز الإخراج يعاقب أكثر من زيادة رموز الإدخال.إذا كنت تقوم باستنتاج الدفعة، فاحسب متوسط عدد رموز الإدخال والإخراج لمجموعة البيانات الخاصة بك وقارنها بالمعيار السابق لتقدير الأوقات.
أمثلة عملية: مع 1000 صف، ومتوسط 3000 رمز إدخال و500 رمز إخراج، ومعدل إنتاجية محدد يبلغ 3500 رمز في الثانية، سيستغرق الأمر منك أكثر من 1000 ثانية لأن متوسطاتك تتجاوز المرجع. إذا كان متوسطك ١٥٠٠ إدخال و١٠٠ إخراج مع تجهيز ١٦٠٠ رمز في الثانية، سوف تنخفض إلى أقل من 1000 ثانية في المجموع لتلك الصفوف الـ 1000.
التوسع التلقائي عند الطلب وحساب التوسع الفعلي
يتضمن تقديم نموذج Databricks التوسع التلقائي السريع الذي زيادة أو تقليل الموارد بناءً على الطلب على الرموز في الثانيةيتوسع النظام في كتل السعة، ولا تُفرض رسوم على السعة الإضافية إلا عند استخدامها. في الاختبارات التي تتضمن طلبات متوازية أكثر، يزداد معدل الإنتاج المُجهّز حتى يستقر عند حوالي 8000 رمز في الثانية عند تشبع الموارد، مما يزيد من زمن انتظار الانتظار.
إذا لاحظت عددًا أقل من الرموز في الثانية مما قمت بتحديده، فتحقق من أمرين: التزامن المُجهز الذي يعكس مقاييس نقطة النهاية وحجم النطاق الترددي الأدنى تم تكوينه. باستخدام هذه البيانات، يتم تقدير التوسع الفعلي باستخدام الصيغة: التزامن المُجهز × الحد الأدنى لحجم النطاق الترددي / 4.
مثال ملموس: مع أقصى قدر من التزامن يبلغ 8 وحجم شريط أدنى يبلغ 850 رمزًا في الثانية، الحد الفعال سيكون 1700 رمزًا في الثانية (8 × 850 / 4). فهم هذه العملية الحسابية يمنع المفاجآت ويساعدك على ضبط إعداداتك بدقة لتتوافق مع مستويات مستوى الاستجابة لديك.
استدلال MLPerf: ما هو وما الذي يقيسه اليوم
MLPerf، الذي طورته MLCommons، هو مجموعة مفتوحة وموحدة لقياس أداء الذكاء الاصطناعي في مركز البيانات والحافة، من الرؤية إلى LLM. ويهدف المشروع إلى مقارنة المنصات بطريقة عادلة وقابلة للتكرار لتعزيز كفاءة النظام البيئي.في السنوات الأخيرة، تحول التركيز بشكل واضح نحو GenAI وبرامج الماجستير في القانون الكبيرة.
في الإصدار الخامس، تم تعزيز Llama 2 70B باعتباره المعيار النجمي، مما أدى إلى إزاحة ResNet50، و تحسنت مقاييس الرموز في الثانية بما يصل إلى 3,3x في أفضل الأحوال في عام واحدمع أداء متوسط أعلى بخمس مرات بفضل تحسينات الأجهزة والبرامج. كما أظهر وجود وحدات معالجة مركزية مثل Intel Xeon 5 في النتائج الرسمية أن هناك مجال للحلول العامة الفعالة في سيناريوهات معينة.
لقد حققت النسخة 5.1 من MLPerf Inference قفزة أخرى إلى الأمام: حيث تضمنت ثلاثة معايير رئيسية جديدة، الاستدلال باستخدام DeepSeek-R1، وتحويل الكلام إلى نص باستخدام Whisper Large v3 وLLM صغير يعتمد على Llama 3.1 8Bوبشكل عام، أفاد الكونسورتيوم عن 27 مشاركًا، ووصل إلى مرحلة مهمة تتمثل في 90.000 ألف نتيجة، وضيق نطاق مقاييس زمن الوصول في السيناريوهات التفاعلية.
المقاييس والأهداف في المعايير الجديدة
يُظهر معيار الاستدلال باستخدام DeepSeek‑R1، وهو نموذج MoE مكون من 671B معلمة، أن تنتج هذه النماذج سلاسل طويلة من التفكير قبل الإجابةيدعم مخرجات تصل إلى 20.000 رمز، بمتوسط 3880 رمز لكل مخرج في مجموعة البيانات، وهو الأكبر حتى الآن في الاستدلال.
تقيس القواعد معدل الإنتاج في الوضع غير المتصل بالإنترنت ووضع الخادم مع وجود حدود صارمة: الوقت المستغرق للوصول إلى الرمز الأول هو ثانيتان وزمن الوصول لكل رمز هو 2 مللي ثانية عند p80ويهدف هذا إلى تحقيق التوازن بين ميزانية "التفكير" والاستجابة اللازمة لنشرها.
يحل معيار LLM الصغير مع Llama 3.1‑8B محل GPT‑J 6B كبوابة. يدعم سياقات تصل إلى 128.000 رمز ويقيّم التلخيص على CNN-DailyMail باستخدام 778 رمز إدخال و73 رمز إخراج. يتم التحقق من الدقة باستخدام ROUGE، وفي حالة التقسيم المغلق، يلزم مطابقة 99% من معيار دقة عالي.
في مقاييس زمن الوصول، يتم استخدام مؤشرين: TTFT (الوقت المستغرق حتى الرمز الأول) وTPOT (الوقت لكل رمز خارج). على الخادم، يتم ملاحظة 2 ثانية من TTFT و100 مللي ثانية من TPOT. (حوالي 480 جزء في المليون)، وفي السيناريو التفاعلي الجديد يتم ضغطه إلى 0,5 ثانية و30 مللي ثانية على التوالي (حوالي 1600 جزء في المليون) لحالات مثل الدردشة أو الترميز أو الأدوات الإبداعية.
أبرز مؤشرات الأداء حسب الشركة المصنعة والمشغل
- تقدمت NVIDIA مرة أخرى، هذه المرة باستخدام Blackwell Ultra على نظام GB300 NVL72، مسجلة سجل في التفكير مع زيادة الإنتاجية بنسبة 45 بالمائة في DeepSeek‑R1 مقارنة بـ GB200 NVL72، حيث وصل إلى 5842 رمزًا في الثانية لكل وحدة معالجة رسومية غير متصلة بالإنترنت و2907 على الخادم، مع تحسينات تصل إلى 5x مقارنة بـ Hopper غير الموثوق.
- في معيار Llama 3.1 405B التفاعلي الجديد، طبقت NVIDIA خدمة منفصلة مع دينامو، فصل السياق والتوليد على وحدات معالجة الرسوميات المختلفة ونقل KV Cache عبر NVLink، مما يحقق إنتاجية أكبر بمقدار 1,5 مرة لكل وحدة معالجة رسوميات مقارنة بالخدمة التقليدية على Blackwell وأكثر من 5 مرات أكثر من الأنظمة التي تحتوي على Hopper.
- بالنسبة للنماذج الأصغر حجمًا، أفادت NVIDIA أكثر من 18.000 رمز في الثانية لكل وحدة معالجة رسومية على Llama 3.1 8B غير متصل بالإنترنت و5667 رمزًا في الثانية لكل وحدة معالجة رسومية في Whisper، مما يحافظ على ريادة وحدة معالجة الرسوميات في جميع السيناريوهات (غير المتصلة بالإنترنت، والخادم، والتفاعلية).
- قامت AMD بتوسيع حضورها مع الشحنة الأولى من وحدة معالجة الرسوميات Instinct MI355X، والتي أصبحت الآن ضمن نطاق 2‑70B. لقد أظهرت توسعًا متعدد العقد وزيادة بمقدار 2,7x في الرموز في الثانية على MI325X في FP8في التقسيم المفتوح، تم تطبيق التقليم المنظم على Llama 3.1‑405B (FP4)، زيادة الإنتاجية بنسبة 82 بالمائة مع نموذج تم تقليمه بعمق بنسبة 21 بالمائة وبنسبة 90 بالمائة مع نموذج أكثر دقة بنسبة 33 بالمائة، مع الحفاظ على الدقة.
- كما أطلقت أيضًا شحنات Llama 2‑70B Interactive، وMixtral‑8×7B، وStable Diffusion XL، وقدمت نتائج MI300X/MI325X المختلطة: عند التوسع إلى 4 عقد، حقق MI355X إنتاجية أكبر بمقدار 3,4 مرة من MI300X، تمتد إلى 8 عقد مع قابلية التوسع الجيدة.
- أعلنت شركة HPE، التي جمعت بين ProLiant وCray، عن 14 نتيجةً في المركز الأول. برزت DL1a Gen380 في DLRM وLlama 12‑3.1B (خادم) بين أنظمة PCIe ذات 8 وحدات معالجة رسومية؛ بينما برز DL8 Gen385 أداء وحدة معالجة الرسومات (GPU) أفضل في Whisper مع H200 NVL؛ وحقق Cray XD670 (8× H200) ستة مراكز أولى في RetinaNet وLlama 3.1‑8B وMixtral وWhisper، بالإضافة إلى المراكز الأولى مع RTX Pro 6000 Blackwell SE وGH200 NVL2 في DLRM.
- كانت CoreWeave أول سحابة تُبلغ عن نتائج مع GB300، مما أدى إلى تقديم 6005 رمزًا في الثانية لكل وحدة معالجة رسومية في DeepSeek‑R1 العمل دون اتصال بالإنترنت وإظهار التنسيق والتوسع باستخدام Slurm على Kubernetes والجدولة المدركة للطوبولوجيا للحصول على أقصى استفادة من NVLink.
- قامت شركة Dell بشحن 12 نظامًا مزودًا بمسرعات AMD وNVIDIA، وتألقت في LLaMA 2 70B Interactive مع PowerEdge XE9680L وB200، خادم LLaMA 3.1‑8B على XE9685L+B200، SDXL على XE9685L وWhisper على XE9680L، مما يوضح التنوع من الصورة إلى الصوت من خلال LLM.
- وأكدت شركة إنتل أنها لا تزال الوحيد الذي يرسل النتائج باستخدام وحدات المعالجة المركزية الخاصة بالخادم وأظهرت أن معالج Xeon 6 المزود بأنوية P يُحسّن الأداء بمقدار 1,9 مرة مقارنةً بمعالجات Xeon من الجيل الخامس عبر خمسة معايير، مما يُعزز دوره في الاستدلال متعدد الأغراض. كما طرحت الشركة محطات عمل مزودة بثمانية وحدات معالجة رسومات Arc Pro B5، مع ذاكرة VRAM سعة 8 جيجابايت لخدمة Llama60‑192B لمستخدمين متعددين، وبرامج تشغيل وأطر عمل مُجمّعة لتبسيط نشر وحدات معالجة الرسومات المتعددة.
- من بين المُدمجين والشركاء، ASUSTeK تحسين زمن الوصول والإنتاجية باستخدام التكميم والنوى والمكدسأظهرت شركة Broadcom عملية محاكاة VCF مع الحد الأدنى من النفقات العامة مقارنة بالأجهزة العادية على أحمال عمل متعددة (Whisper، SDXL، Llama 3.1-405B، Llama2-70B، RGAT، RetinaNet)؛ وقامت شركة Cisco بتوسيع نطاقها بشكل خطي تقريبًا باستخدام UCS C885A M8 (8× H200 SXM) وUCS C845A M8 (8× H200 NVL أو L40S)، بدعم من شبكات One G200.
- قامت KRAI، باستخدام واجهة برمجة تطبيقات OpenAI والنفقات العامة الواقعية، بمقارنة SGLang وvLLM مع Llama3.1‑70B: 31.391 رمزًا في الثانية دون اتصال بالإنترنت باستخدام SGLang 0.4.9 و26.319 مع vLLM 0.9.2 على خادم واحد مع 8x H200؛ ومع التكميم الديناميكي وصل إلى 27.697 مع SGLang و30.893 مع vLLM، وعلى العقد المتعددة ارتفع إلى 87.334 رمزًا في الثانية على ثلاثة خوادم.
- أظهرت Lambda، باستخدام 8x B200 180 GB SXM، تحسينات في الإنتاجية تصل إلى 7 بالمائة في SDXL و15 بالمائة في Llama 3.1‑405B مقارنة بالجولة السابقة، وتقدم مجموعات من 16 إلى 1536 وحدة معالجة رسومية مع Kubernetes أو Slurm المُدارة.
- تألقت MiTAC بسلسلة G8825Z5 في معرض LLaMA 2 70B التفاعلي مع 18.846,1 رمزًا في الثانية وحققت نتائج جيدة في Server وMixtral؛ حيث حصلت Nebius على شهادة أداء افتراضي تكاد تكون مساوية للمعدن العاري في GB200 NVL72 وHGX B200 وHGX H200، مع 596,11 رمزًا في الثانية على الخادم و855,82 رمزًا في وضع عدم الاتصال على Llama 3.1‑405B مع 4 وحدات معالجة رسومية GB200.
- أظهرت شركة Red Hat أن vLLM هو وقت تشغيل مدعوم على خادم AI Inference Server الخاص بها، مع نوى CUTLASS لـ FP8 وFlashAttention‑3 بالإضافة إلى محرك vLLM v1 المحسّن، يعمل Llama‑3.1‑8B في H100 وL40S بنسبة تكلفة إلى أداء رائعة.
- حققت شركة Supermicro نتائج رائدة مع وحدة معالجة الرسومات HGX‑B200 8‑GPU (الهواء والسائل) مع كل من وحدات المعالجة المركزية Intel وAMD، مما يسلط الضوء على Llama 3.1‑8B و Llama 2‑70B على الخادم/غير متصل/تفاعلي و Whisper؛ في التعاون، أظهرت مقياسًا ممتازًا مع 32× H100‑SXM والبدائل مع MI325X.
- ظهرت Vultr لأول مرة مع Supermicro AS‑8126GS‑TNMR و8x MI325X، مما يؤكد الأداء التنافسي كوحدة معالجة رسومية سحابية؛ GATEOverflow تعزيز إمكانية التكرار باستخدام MLCFlow على RTX 4090 ووحدات المعالجة المركزية AMD/Intel؛ شحنت Giga Computing أنظمة EPYC+MI8X وXeon+HGX B325 المبردة بالهواء 200U؛ غطت QCT تكوينات Xeon 6 مع H200 NVL (4 وحدات معالجة رسومية) و8× منصات H200 SXM5 مع NVLink وGPUDirect Storage، بالإضافة إلى 8× أنظمة MI325X.
حظيت الأوساط الأكاديمية أيضًا بفرصة ثمينة. جامعة فلوريدا، مع جهاز DGX B200 SuperPOD المدمج مع HiPerGator، كانت أول مؤسسة تقدم نتائج الاستدلال تلبية زمن وصول الخادم في ظل التقسيم المغلق، باستخدام Apptainer بدون Docker/Sudo، والتوافق مع SLURM متعدد المستخدمين. على النقيض من ذلك، إرسال واحد على جهاز MacBook Pro M1، مع ONNX Runtime وCoreML على وحدة معالجة الرسومات والمحرك العصبي، تجاوزت دقة الهدف في فئة الحافة وأظهرت أنه يمكن تقييم الاستدلال النوعي على الأجهزة الاستهلاكية.
السرعة التي يدركها المستخدمون والحدود العملية
لا يتم قياس تجربة المستخدم من خلال المعايير فحسب؛ بل في الحياة اليومية أيضًا، يأتي الشعور بالسيولة عندما تتجاوز عتبة معينة من الرموز في الثانيةعلق أحد المستخدمين بأن الحد الأقصى للمحادثة هو 4 رموز في الثانية، وبالنسبة لكتابة القصة، فهو حوالي 10 رموز في الثانية؛ أما تحت ذلك، فيشعر التفاعل بالبطء.
إذا حاولت تشغيل نظام إدارة قواعد البيانات (LLM) محليًا، فهناك ثلاث حقائق. على وحدة المعالجة المركزية لسطح المكتب، من الطبيعي أن تتحرك بمعدل 1-2 رمز في الثانية، غير ممكن للإجابات الطويلة. مع بطاقة رسومات ألعاب متطورة، يمكنك الحصول على ما يقارب 5 رموز في الثانية. مع بطاقة NVIDIA H100، نعم، نحن نتحدث بالفعل عن 60 رمزًا في الثانية. لكنها أجهزة مركز البيانات، وليست أجهزة سطح المكتب.
ماذا يحدث في السحابة؟ يتفوق أقوى مزودي الخدمات على هذه الأرقام بفضل أجهزتهم المتخصصة ومجموعات الاستدلال المُحسّنة. تم الإبلاغ عن متوسطات تبلغ حوالي 119 رمزًا في الثانية على ChatGPT‑4 و168 على Gemini.بينما تُعالج نماذج مفتوحة المصدر شائعة الاستخدام، مثل DeepSeek، حوالي ٢١ رمزًا في الثانية. وإذا حوّلنا هذا إلى كلمات، فإن ١١٩ رمزًا في الثانية تُعادل حوالي ٩٠ كلمة في الثانية.
الاستنتاج العملي: بالنسبة لمعظم المستخدمين، من الممكن تشغيل الذكاء الاصطناعي على الكمبيوتر، لكنه غير عملي بسبب البطءللعمل بسرعات مريحة وبفترات زمنية قصيرة، تظل الخدمات المُدارة هي الخيار المعقول.
كيفية تحديد حجم نقطة النهاية الخاصة بك حسب TPS وما الذي يمكن توقعه من زمن الوصول
خطوات عملية لتحديد الحجم. أولاً، حدد حالة استخدامك: متوسط عدد رموز الإدخال والإخراج، وتوزيع الطول، والتزامن المتوقعثانيًا، قم بإجراء اختبار تحميل باستخدام مجموعة بيانات تمثيلية، تتضمن TTFT والرموز لكل ثانية مستدامة لكل طلب.
بعد ذلك، قم بمحاذاة التكوين مع نمطك. إذا كان عبء العمل لديك يشبه مرجع Databricks (2048 مدخل، 256 مخرج)، اختر نطاقًا من الرموز في الثانية بحيث يقع الطلب ضمن ميزانية زمن الوصول المطلوبةتذكر أن تكرار الناتج عادة ما يكلف أكثر من تكرار المدخلات، وأن التزامن الفعال يعتمد على التوسع التلقائي الفعلي.
راقب وعدّل. راقب المقاييس التزامن المُجهز، والطوابير، وTTFT وTPOTوقارنها بأهداف مستوى الخدمة (SLOs) لديك. إذا كانت لديك سعة محدودة، فسّع النطاق؛ وإذا كانت لديك موارد زائدة، فقللها واضبط الكتل لتوفير المال. ستساعدك صيغة التدرج الحقيقية على فهم سبب ضعف أداء نقطة النهاية كما هو مُهيأ إذا لم تُنشئ عددًا كافيًا من النسخ المتماثلة.
أخيرًا، انتبه للسيناريو. في وضع روبوت الدردشة التفاعلي، الهدف هو TTFT بمعدل 0,5 ثانية و30 مللي ثانية لكل رمز سيمنحك هذا تجربة مستخدم مميزة. في وضع الخادم، يُعدّ كلٌّ من ثانيتين و2 مللي ثانية لكل رمز مرجعيًا مناسبًا، وفي وضع عدم الاتصال، يسعى النظام إلى تحقيق أقصى إنتاجية مع الحفاظ على الدقة المطلوبة وفقًا لمعيار الأداء.
عند النظر إلى اتجاهات MLPerf، يكون المتجه واضحًا: مزيد من السياق، ومزيد من الرموز، وتقنيات كفاءة أفضل —الخدمة غير المجزأة، وFP4/FP8، والتقليم المنظم، والنوى المخصصة، وجدولة ذاكرة التخزين المؤقت KV— تدفع سقف الرمز إلى الأعلى بالسنة الثانية على التوالي، سواء لكل شريحة أو لكل نظام.
الصورة الشاملة التي رسمتها Databricks وMLPerf متسقة: إن التفكير من حيث الرموز في الثانية الواحدة هو الطريقة الصحيحة للتفكير في التكلفة والزمن وقابلية التوسع في LLM.بفضل معيار تمثيلي جيد، ومقاييس TTFT/TPOT، والتوسع التلقائي المُعاير جيدًا، من الممكن تقديم استجابات سريعة ومستقرة دون زيادة حجم البنية الأساسية.
