Jaký je počet tokenů za sekundu měřený MLPerfem a jak se používá v LLM?

Poslední aktualizace: 16 září 2025
Autor: Isaac
  • LLM se nejlépe vyhodnocují v tokenech za sekundu: vstup a výstup určují latenci.
  • Databricks zřizuje koncové body pomocí TPS a automatického škálování; MLPerf standardizuje metriky.
  • Nové benchmarky (DeepSeek-R1, Whisper, Llama 3.1-8B) posilují TTFT/TPOT.

tokeny za sekundu MLPerf

Pokud pracujete s jazykovými modely, slyšeli jste termín „tokeny za sekundu“ už tisíckrát, ale jen zřídka je podrobně vysvětleno, co znamená v reálném prostředí a především jak ho MLPerf měří. V tomto článku jasně vysvětlíme, co tokeny jsou, proč je metrika tokenů za sekundu tak důležitá v inferenci a jak ji platformy jako Databricks a benchmark MLPerf používají k určení velikosti, porovnání a škálování. Kromě toho uvádíme konkrétní údaje od výrobců a očekávání ohledně výkonu od cloudů až po pozemní systémy..

Problém není malicherný: odvětví standardizovalo počet tokenů za sekundu pro vyhodnocení výkonu LLM v datových centrech a na okraji sítě. MLPerf, recenzovaný balík MLCommons, se stal měřítkem pro porovnávání hardwaru a softwaru.Souběžně s tím operátoři jako Databricks již zřizují své koncové body modelu přímo na základě rozsahu tokenů za sekundu. Pojďme si to vše rozebrat s čísly a případy užití.

Co je token a proč je v LLM důležitý?

Jazykové modely nezpracovávají jednotlivá písmena nebo slova tak, jak jsou; pracují s jednotkami zvanými tokeny. Token má obvykle délku asi 4 znaků, neboli v průměru 0,75 slova.Tento poměr se liší v závislosti na jazyce a tokenizátoru modelu, ale slouží jako rychlá reference: desetislovný text se pohybuje kolem 10–13 tokenů.

Přesná segmentace závisí na modelu: Každý LLM používá svůj vlastní tokenizátor a dělí slova na celé tokeny nebo podslova.Online nástroje vám například umožňují vidět, jak Llama tokenuje konkrétní frázi. Tato variabilita, která se zdá být malým detailem, ovlivňuje latenci a výpočetní náklady.

Když se mluví o rychlosti generování, obvykle se vyjadřuje v počtu tokenů za sekundu, nikoli slov za sekundu. Tím se metrika homogenizuje napříč jazyky, délkami kontextů a styly výstupu.a umožňuje přesně vypočítat náklady na odvození a požadovanou kapacitu.

Proč měřit výkon v tokenech za sekundu a ne v RPS?

Tradiční API služby se zaměřují na RPS (počet požadavků za sekundu). V LLM tento přístup selhává: Dva požadavky mohou trvat velmi odlišně dlouho v závislosti na vstupních a výstupních tokenech.To znamená, že skutečné užitečné zatížení je v tokenech, nikoli v „počtu volání“.

Existují dva klíčové zdroje variability. Zaprvé, délka vstupního kontextu: Krátká výzva může mít jen několik tokenů, ale souhrnný dokument se může rozrůst na stovky nebo tisíce.Na druhou stranu délka výstupu: shrnování obvykle produkuje méně tokenů; generování dlouhého článku nebo popisu prodlužuje čas, protože dekódování výstupu je nejdražší částí.

Proto je pro realistické škálování inferenčního koncového bodu užitečné uvažovat z hlediska tokenů. Například databricks zřizuje pro své obsluhované koncové body rozsah tokenů za sekundu a účtuje hodinově na základě škálování.Tímto způsobem můžete sladit kapacitu se skutečným zatížením, aniž byste se nechali zmást RPS, který nevypovídá celý příběh.

Jak Databricks a MLPerf měří počet tokenů za sekundu

Co je Nvidia Rubin CPX?

Databricks bere jako referenci reprezentativní množství RAG a shrnuje: 2048 vstupních tokenů a 256 výstupních tokenůKombinuje obě fáze (předvyplňování a dekódování) a ve výchozím nastavení optimalizuje rovnováhu mezi propustností a latencí pro dávky o velikosti 1 požadavku, čímž simuluje více souběžných požadavků.

S tímto pravidlem čísla vypadají takto: pokud nakonfigurujete koncový bod na 2304 tokenů za sekundu (2048 + 256), Požadavek s těmito velikostmi trvá asi sekunduPokud nastavíte rychlost na 5600 tokenů za sekundu, doba zpracování stejného požadavku klesne na přibližně 0,5 s a můžete zpracovat dva podobné požadavky za sekundu.

Když se změní vaše pracovní vytížení, změní se i latence. Generování většího počtu výstupních tokenů penalizuje více než zvyšování počtu vstupních tokenů.Pokud provádíte dávkovou inferenci, vypočítejte průměrný počet vstupních a výstupních tokenů pro vaši datovou sadu a porovnejte jej s předchozím benchmarkem pro odhad časů.

Praktické příklady: s 1000 řádky, průměrně 3000 vstupními a 500 výstupními tokeny a zřízenou propustností 3500 tokenů za sekundu, zabere vám to více než 1000 sekund protože vaše průměry překračují referenční hodnotu. Pokud místo toho průměrujete 1500 vstupů a 100 výstupů s rychlostí zřizování 1600 tokenů za sekundu, klesneš pod 1000 sekund celkem pro těchto 1000 řádků.

  NVIDIA RTX 4070 Ti vs. RTX 4080: Srovnání

Automatické škálování na vyžádání a výpočet skutečného škálování

Obsluha modelů datacihel zahrnuje rychlé automatické škálování, které Zvyšování nebo snižování zdrojů na základě poptávky po tokenech za sekunduSystém se škáluje v blocích kapacity a dodatečná kapacita se účtuje pouze při jejím využití. V testech s větším počtem paralelních požadavků se zřizovaná propustnost zvyšuje, dokud se při nasycení zdrojů nestabilizuje na přibližně 8000 XNUMX tokenech za sekundu, což zvyšuje latenci řazení do fronty.

Pokud si všimnete menšího počtu žetonů za sekundu, než jste označili, zkontrolujte dvě věci: Zajištěná souběžnost odrážející metriky koncových bodů a minimální velikost šířky pásma nakonfigurováno. S těmito daty se skutečné škálování odhaduje pomocí vzorce: zřízená souběžnost × minimální velikost šířky pásma / 4.

Konkrétní příklad: s maximální souběžností 8 a minimální velikostí proužku 850 tokenů za sekundu, Efektivní limit by byl 1700 tokenů za sekundu. (8 × 850 / 4). Pochopení tohoto výpočtu předchází překvapením a pomáhá vám doladit nastavení podle vašich SLO latence.

MLPerf Inference: Co to je a co měří dnes

MLPerf, vyvinutý společností MLCommons, je otevřená a standardizovaná sada pro měření výkonu umělé inteligence v datových centrech a na okraji sítě, od počítačového vidění až po LLM. Jeho cílem je porovnávat platformy spravedlivým a reprodukovatelným způsobem s cílem podpořit efektivitu ekosystému.V posledních letech se pozornost jasně přesunula směrem ke GenAI a rozsáhlým LLM.

V pátém vydání se Llama 2 70B upevnila jako hvězdný benchmark a nahradila ResNet50. Metriky tokenů za sekundu se v nejlepším případě zlepšily až 3,3krát za jeden rok., s mediánem výkonu 5krát vyšším díky optimalizaci hardwaru a softwaru. Přítomnost procesorů jako Intel Xeon 6 v oficiálních výsledcích také prokázala, že V určitých scénářích existuje prostor pro efektivní univerzální řešení.

Verze 5.1 MLPerf Inference udělala další krok vpřed: zahrnula tři nové klíčové benchmarky, uvažování s DeepSeek-R1, převod řeči na text s Whisper Large v3 a malý LLM založený na Llama 3.1 8BCelkově konsorcium nahlásilo 27 účastníků, dosáhlo milníku 90.000 XNUMX výsledků a zúžilo metriky latence v interaktivních scénářích.

Metriky a cíle v nových benchmarkech

Srovnávací test uvažování s DeepSeek‑R1, MoE s parametry 671B, ukazuje, že Tyto modely produkují dlouhé řetězce uvažování, než dojdou k odpovědi.Podporuje výstupy až 20.000 3880 tokenů s průměrem XNUMX XNUMX tokenů na výstup v datové sadě, což je dosud největší počet v oblasti inference.

Pravidla měří propustnost v offline režimu a v serverovém režimu s přísnými limity: Doba do prvního tokenu 2 sekundy a latence na token 80 ms na p99Cílem je vyvážit „promyšlený“ rozpočet s reakcí nezbytnou k jeho nasazení.

Malý benchmark LLM s Llama 3.1‑8B nahrazuje GPT‑J 6B jako bránu. Podporuje kontexty až 128.000 XNUMX tokenů a vyhodnocuje sumarizaci na CNN‑DailyMail se 778 vstupními tokeny a 73 výstupními tokeny. Přesnost je ověřena pomocí ROUGE a v uzavřeném dělení musí odpovídat 99 procentům vysoce přesného benchmarku.

V metrikách latence se používají dva ukazatele: TTFT (time to first token - čas do prvního tokenu) a TPOT (time per token out - čas na odeslání tokenu). Na serveru jsou zaznamenány 2 s TTFT a 100 ms TPOT. (kolem 480 ppm) a v novém interaktivním scénáři je zkrácena na 0,5 s, respektive 30 ms (kolem 1600 ppm) pro případy, jako je chat, kódování nebo kreativní nástroje.

Nejdůležitější informace o výkonu podle výrobce a provozovatele

  • NVIDIA opět vedla, tentokrát s Blackwell Ultra na systému GB300 NVL72, která skórovala Rekord v uvažování s o 45 procent vyšší propustností DeepSeek‑R1 než GB200 NVL72, s dosažením 5842 tokenů za sekundu na GPU offline a 2907 na serveru, což představuje téměř 5násobné zlepšení ve srovnání s neověřeným Hopperem.
  • V novém interaktivním benchmarku Llama 3.1 405B společnost NVIDIA použila rozdělené podávání s Dynamem, oddělením kontextu a generování na různých GPU a přenosem KV Cache přes NVLink, čímž se dosahuje 1,5× vyšší propustnosti na GPU než u tradičního obsluhování na Blackwellu a více než 5× vyšší než u systémů s Hopperem.
  • U menších modelů NVIDIA uvedla Více než 18.000 3.1 tokenů za sekundu na GPU na Llama 8 XNUMXB offline a 5667 tokenů za sekundu na GPU ve Whisperu, což zachovává vedoucí postavení v oblasti GPU ve všech scénářích (offline, serverových a interaktivních).
  • Společnost AMD rozšířila svou působnost první dodávkou grafické karty Instinct MI355X, která se nyní pohybuje v rozmezí 2‑70B. V 2,7. FP ukázalo škálování na více uzlů a 325násobný nárůst tokenů za sekundu oproti MI8X.V otevřeném dělení byl na Llama 3.1‑405B (FP4) aplikován strukturovaný prořez. zvýšení propustnosti o 82 procent s modelem s 21% hloubkovou prořezaností a o 90 procent s modelem s 33% jemnějším vyladěním, zachování přesnosti.
  • Také debutovaly dodávky modelů Llama 2‑70B Interactive, Mixtral‑8×7B a Stable Diffusion XL a prezentovaly smíšené výsledky MI300X/MI325X: Při škálování na 4 uzly dosáhl MI355X 3,4x vyšší propustnosti než MI300X., s možností rozšíření na 8 uzlů s dobrou škálovatelností.
  • Společnost HPE, která spojila ProLiant a Cray, vykázala 14 výsledků na prvním místě. DL1a Gen380 vynikal v kategorii DLRM a Llama 12‑3.1B (Server) mezi 8GPU PCIe systémy; DL8 Gen385 zaznamenal lepší výkon GPU ve Whisperu s H200 NVL; a Cray XD670 (8× H200) získal šest prvních míst v testech RetinaNet, Llama 3.1‑8B, Mixtral a Whisper a navíc první místa s výsledky RTX Pro 6000 Blackwell SE a GH200 NVL2 v DLRM.
  • CoreWeave byl prvním cloudem, který oznámil výsledky s GB300, a to… 6005 tokenů za sekundu na GPU v DeepSeek‑R1 offline a demonstrace orchestrace a škálování pomocí Slurm na Kubernetes a plánování s ohledem na topologii pro maximální využití NVLinku.
  • Společnost Dell dodala 12 systémů s akcelerátory AMD a NVIDIA, které se v LLaMA 2 70B Interactive s procesory PowerEdge XE9680L a B200 zaskvěly. Server LLaMA 3.1‑8B na XE9685L+B200, SDXL na XE9685L a Whisper na XE9680L, což demonstruje všestrannost od obrazu po hlas prostřednictvím LLM.
  • Intel zdůraznil, že zůstává jediný, který odesílá výsledky se serverovými CPU a ukázala, že Xeon 6 s P-jádry se v pěti benchmarkech zlepšuje o 1,9× oproti 5. generaci Xeon, čímž upevňuje svou roli v oblasti univerzální inference. Společnost také představila pracovní stanice s 8 grafickými procesory Arc Pro B60 se 192 GB paměti VRAM pro obsluhu Llama2‑70B více uživateli a dodávané ovladače a frameworky pro zjednodušení nasazení více grafických procesorů.
  • Mezi integrátory a partnery patří ASUSTeK Optimalizovaná latence a propustnost s kvantizací, jádry a zásobníkemBroadcom demonstroval virtualizaci VCF s minimálními režijními náklady oproti holému železu na více pracovních zátěžích (Whisper, SDXL, Llama 3.1-405B, Llama2-70B, RGAT, RetinaNet); Cisco škálovalo téměř lineárně s UCS C885A M8 (8× H200 SXM) a UCS C845A M8 (8× H200 NVL nebo L40S), podporovanými sítěmi One G200.
  • KRAI s využitím OpenAI API a realistických režijních nákladů porovnal SGLang a vLLM s Llama3.1‑70B: 31.391 0.4.9 tokenů za sekundu offline s verzí SGLang XNUMX a 26.319 0.9.2 s vLLM 8 na jednom serveru s 200x H27.697; s dynamickou kvantizací dosáhl 30.893 87.334 s SGLang a XNUMX XNUMX s vLLM a na více uzlech se škáloval až na XNUMX XNUMX tokenů za sekundu na třech serverech.
  • Lambda s 8x B200 180 GB SXM vykázala zlepšení propustnosti až 7 procent v SDXL a 15 procent v Llama 3.1‑405B ve srovnání s předchozím kolem a nabízí clustery od 16 do 1536 GPU se spravovanými Kubernetes nebo Slurm.
  • MiTAC se svou řadou G8825Z5 zazářil na veletrhu LLaMA 2 70B Interactive. 18.846,1 žetonů za sekundu a dobré výsledky v Serveru a Mixtralu; Nebius certifikoval svůj virtualizovaný výkon téměř srovnatelný s holým železem v GB200 NVL72, HGX B200 a HGX H200, s 596,11 tokenů za sekundu na serveru a 855,82 tokenů offline na Llama 3.1‑405B se 4 grafickými kartami GB200.
  • Red Hat demonstroval vLLM jako podporovaný běhový modul na svém serveru AI Inference Server. Jádra CUTLASS pro FP8 a FlashAttention‑3 plus vylepšený motor vLLM v1 pohání modely Llama‑3.1‑8B v modelech H100 a L40S s vynikajícím poměrem ceny a výkonu.
  • Společnost Supermicro dosáhla s grafickou kartou HGX‑B200 8‑GPU (vzduch a kapalina) s procesory Intel i AMD předních výsledků, což zdůrazňuje... Llama 3.1‑8B a Llama 2‑70B na serveru/offline/interaktivně a Whisper; ve spolupráci s 32× H100‑SXM a alternativami s MI325X vykazoval vynikající škálování.
  • Vultr debutoval s grafickými kartami Supermicro AS‑8126GS‑TNMR a 8x MI325X, což potvrzuje konkurenceschopný výkon jako cloudová grafická karta; GATEOverflow zvýšená reprodukovatelnost s MLCFlow na RTX 4090 a procesorech AMD/Intel; Giga Computing dodala 8U vzduchem chlazené systémy EPYC+MI325X a Xeon+HGX B200; QCT zahrnovala konfigurace Xeon 6 s H200 NVL (4 GPU) a 8× platformy H200 SXM5 s NVLink a GPUDirect Storage, kromě 8× systémů MI325X.
  GAAFET: Co je náhradou za FinFETy?

Akademická sféra také zažila svůj chvíle. Floridská univerzita se svým DGX B200 SuperPOD integrovaným s HiPerGatorem, byla první institucí, která předložila výsledky inference Splnění latence serveru při uzavřeném dělení, použití Apptaineru bez Dockeru/Sudo a začlenění do víceuživatelského SLURMu. Na opačném konci, jedno odeslání na M1 MacBook Pro, s ONNX Runtime a CoreML na GPU a neuronovým enginem, překonal cílovou přesnost v kategorii hran a prokázal, že inferenci kvality lze vyhodnotit na spotřebitelském hardwaru.

Rychlost vnímaná uživateli a praktické limity

Uživatelská zkušenost se neměří pouze v benchmarkech; v každodenním životě Pocit plynulosti nastává, když překročíte určitou hranici žetonů za sekundu.Jeden uživatel poznamenal, že jejich limit pro konverzaci je 4 tokeny za sekundu a pro psaní příběhů je to kolem 10 tokenů za sekundu; pod touto hodnotou se interakce zdá pomalá.

Pokud se pokusíte spustit LLM lokálně, existují tři skutečnosti. Na stolním procesoru, Je normální pohybovat se rychlostí 1–2 žetonů za sekundu, neproveditelné pro dlouhé odpovědi. S high-end herní GPU se můžete dostat k téměř 5 tokenům za sekundu. S NVIDIA H100 ano, už mluvíme o 60 tokenech za sekundu, ale je to hardware pro datová centra, ne hardware pro stolní počítače.

Co se děje v cloudu? Nejvýkonnější poskytovatelé tato čísla překonávají díky specializovanému hardwaru a optimalizovaným inferenčním zásobníkům. Na ChatGPT‑119 bylo hlášeno průměrně kolem 4 tokenů za sekundu a na Gemini 168., zatímco populární open source modely jako DeepSeek se pohybují kolem 21 tokenů za sekundu. Pokud to převedete na slova, 119 tokenů za sekundu je zhruba 90 slov za sekundu.

  Stejnosměrný a střídavý proud: rozdíly a který je lepší

Provozní závěr: pro většinu uživatelů, Spuštění umělé inteligence na počítači je možné, ale nepraktické kvůli pomalosti.Pro práci s pohodlnou rychlostí a nízkou latencí zůstávají spravované služby rozumnou volbou.

Jak dimenzovat koncový bod podle TPS a co očekávat od latence

Praktické kroky pro dimenzování. Nejprve si nastíněte svůj případ použití: Průměrný počet vstupních a výstupních tokenů, rozdělení délek a očekávaná souběžnostZa druhé, spusťte zátěžový test s reprezentativní datovou sadou, zahrnující TTFT a počet tokenů za sekundu udržovaných na požadavek.

Dále zarovnejte konfiguraci se svým vzorem. Pokud se vaše úloha podobá referenčnímu souboru Databricks (2048 vstupů, 256 výstupů), Vyberte rozsah tokenů za sekundu tak, aby požadavek spadal do požadovaného rozpočtu latence.Nezapomeňte, že duplikace výstupu obvykle stojí více než duplikace vstupu a že efektivní souběžnost závisí na skutečném automatickém škálování.

Monitorujte a upravujte. Sledujte metriky. zřizovaná souběžnost, fronty, TTFT a TPOTa porovnejte je s vašimi SLO. Pokud máte nedostatek kapacity, rozšiřte rozsah; pokud máte nadbytečné zdroje, snižte jej a upravte bloky, abyste ušetřili. Skutečný vzorec pro škálování vám pomůže pochopit, proč koncový bod nefunguje podle konfigurace, pokud nevytvořil dostatek replik.

A konečně, mějte na paměti scénář. V interaktivním režimu ve stylu chatbota, Cílem je dosáhnout TTFT 0,5 s a 30 ms na token Díky tomu získáte prémiový uživatelský zážitek. V serverovém režimu jsou rozumné hodnoty 2 s a 100 ms na token a offline se snaží o maximální propustnost a zároveň zachovává přesnost požadovanou benchmarkem.

Při pohledu na trendy MLPerf je vektor jasný: Více kontextu, více tokenů a techniky pro zvýšení efektivity —dezagregované obsluhování, FP4/FP8, strukturované prořezávání, vlastní jádra, plánování KV mezipaměti — posouvají strop tokenů nahoru druhý rok za rokem, a to jak na čip, tak na systém.

Celkový obraz vykreslený pomocí Databricks a MLPerf je konzistentní: Uvažovat o nákladech, latenci a škálovatelnosti v LLM je správný způsob, jak uvažovat o počtu tokenů za sekundu.S dobrým reprezentativním benchmarkem, metrikami TTFT/TPOT a dobře kalibrovaným automatickým škálováním je možné poskytovat rychlé a stabilní odezvy bez předimenzování infrastruktury.

nvidia blackwell ultra gb300
Související článek:
NVIDIA Blackwell Ultra GB300: Architektura, paměť a NVLink 5