Koliko tokena u sekundi mjeri MLPerf i kako se koriste u LLM-u?

Posljednje ažuriranje: 16 September of 2025
Autor: Isaac
  • LLM-ovi se najbolje evaluiraju u tokenima po sekundi: ulaz i izlaz određuju latenciju.
  • Databricks obezbjeđuje krajnje tačke putem TPS-a i automatskog skaliranja; MLPerf standardizuje metrike.
  • Novi benchmarkovi (DeepSeek-R1, Whisper, Llama 3.1-8B) poboljšavaju TTFT/TPOT.

tokena po sekundi MLPerf

Ako radite s jezičkim modelima, čuli ste termin "tokeni u sekundi" hiljadu puta, ali rijetko se detaljno objašnjava šta on znači u stvarnim okruženjima i, prije svega, kako ga MLPerf mjeri. U ovom članku jasno objašnjavamo šta su tokeni, zašto je metrika tokena u sekundi toliko važna u zaključivanju i kako je platforme poput Databricksa i MLPerf benchmarka koriste za određivanje veličine, poređenje i skaliranje. Osim toga, uključujemo konkretne brojke od proizvođača i očekivanja performansi od oblaka do zemlje..

Problem nije mali: industrija je standardizirala broj tokena u sekundi za procjenu performansi LLM-a u podatkovnim centrima i na rubu mreže. MLPerf, recenzirani MLCommons paket, postao je mjerilo za poređenje hardvera i softvera.Paralelno s tim, operateri poput Databricksa već direktno osiguravaju krajnje tačke svojih modela na osnovu raspona tokena u sekundi. Hajde da sve ovo analiziramo, s brojkama i slučajevima upotrebe.

Šta je token i zašto je važan u LLM-u?

Jezički modeli ne obrađuju pojedinačna slova ili riječi onakvi kakvi jesu; oni rade s jedinicama koje se nazivaju tokeni. Token je obično dug oko 4 znaka, ili u prosjeku 0,75 riječi.Ovaj odnos varira u zavisnosti od jezika i tokenizatora modela, ali služi kao brza referenca: tekst od 10 riječi kreće se oko 13-14 tokena.

Tačna segmentacija zavisi od modela: Svaki LLM koristi svoj vlastiti tokenizer i dijeli riječi na potpune tokene ili podriječi.Online alati vam omogućavaju da vidite, na primjer, kako Llama tokenizira određenu frazu. Ova varijabilnost, koja se čini kao mali detalj, utiče na latenciju i troškove računarstva.

Kada se govori o brzini generiranja, ona se obično izražava u broju tokena u sekundi, a ne riječima u sekundi. Ovo homogenizuje metriku među jezicima, dužinama konteksta i stilovima izlaza., i omogućava precizno izračunavanje troškova zaključivanja i potrebnog kapaciteta.

Zašto mjeriti performanse u tokenima po sekundi, a ne u RPS-u?

Tradicionalne API usluge fokusiraju se na RPS (broj zahtjeva u sekundi). U LLM-u, taj pristup nije dovoljan: Dva zahtjeva mogu trajati vrlo različito vrijeme ovisno o ulaznim i izlaznim tokenima.To jest, stvarni korisni teret dolazi u tokenima, a ne u "broju poziva".

Postoje dva ključna izvora varijabilnosti. Prvo, dužina ulaznog konteksta: Kratak upit može imati samo nekoliko tokena, ali sažetak dokumenta može narasti na stotine ili hiljade.S druge strane, dužina izlaza: sumiranje obično proizvodi manje tokena; generiranje dugog članka ili opisa povećava vrijeme, jer je dekodiranje izlaza najskuplji dio.

Stoga, da bi se realno skalirala krajnja tačka zaključivanja, korisno je razmišljati u smislu tokena. Na primjer, Databricks svojim Serving endpoint-ovima dodjeljuje niz tokena po sekundi i naplaćuje po satu na osnovu skaliranja.Na ovaj način možete uskladiti kapacitet sa stvarnim opterećenjem bez da vas zavara RPS koji ne govori cijelu priču.

Kako Databricks i MLPerf mjere broj tokena u sekundi

Šta je Nvidia Rubin CPX?

Databricks uzima reprezentativni broj RAG-ova kao referencu i sažima: 2048 ulaznih tokena i 256 izlaznih tokenaKombinuje obje faze (prethodno popunjavanje i dekodiranje) i, prema zadanim postavkama, optimizuje ravnotežu između propusnosti i latencije za veličine serija od 1 po zahtjevu, simulirajući više istovremenih zahtjeva.

S tim pravilom, brojevi izgledaju ovako: ako konfigurirate krajnju tačku na 2304 tokena u sekundi (2048 + 256), Zahtjev s tim veličinama traje otprilike sekunduAko ga postavite na 5600 tokena u sekundi, isti zahtjev pada na oko 0,5 s i možete obraditi dva slična zahtjeva u sekundi.

Kada se vaše radno opterećenje promijeni, promijenit će se i latencija. Generisanje više izlaznih tokena kažnjava više nego povećanje ulaznih tokena.Ako radite grupno zaključivanje, izračunajte prosječan broj ulaznih i izlaznih tokena za vaš skup podataka i uporedite ga s prethodnim mjerilom kako biste procijenili vremena.

Praktični primjeri: sa 1000 redova, prosječno 3000 ulaznih i 500 izlaznih tokena i predviđenim protokom od 3500 tokena u sekundi, Trebat će vam više od 1000 sekundi jer vaši prosjeci premašuju referentnu vrijednost. Ako umjesto toga u prosjeku imate 1500 ulaza i 100 izlaza sa 1600 tokena u sekundi, ići ćeš ispod 1000 sekundi ukupno za tih 1000 redova.

  AVX-512: sve prednosti i mane

Automatsko skaliranje na zahtjev i izračun stvarnog skaliranja

Posluživanje modela podataka pomoću Databricks uključuje brzo automatsko skaliranje koje Povećajte ili smanjite resurse na osnovu potražnje za tokenima po sekundiSistem se skalira u blokovima kapaciteta, a dodatni kapacitet se naplaćuje samo kada se koristi. U testovima s više paralelnih zahtjeva, osigurani protok se povećava dok se ne stabilizira na oko 8000 tokena u sekundi kada su resursi zasićeni, što povećava latenciju čekanja.

Ako primijetite manje žetona u sekundi nego što ste označili, provjerite dvije stvari: Obezbijeđena konkurentnost koja odražava metrike krajnjih tačaka i minimalnu veličinu propusnog opsega konfigurirano. S ovim podacima, stvarno skaliranje se procjenjuje pomoću formule: osigurana konkurentnost × minimalna veličina propusnog opsega / 4.

Konkretan primjer: sa maksimalnom konkurentnošću od 8 i minimalnom veličinom pruge od 850 tokena u sekundi, Efektivni limit bi bio 1700 tokena u sekundi. (8 × 850 / 4). Razumijevanje ovog izračuna sprječava iznenađenja i pomaže vam da precizno podesite postavke prema vašim SLO-ovima latencije.

MLPerf inferencija: Šta je to i šta danas mjeri

MLPerf, koji je razvio MLCommons, otvoreni je i standardizirani paket za mjerenje performansi umjetne inteligencije u podatkovnim centrima i na rubu mreže, od vizualnog pristupa do LLM-a. Njegov cilj je upoređivanje platformi na pravedan i ponovljiv način kako bi se podstakla efikasnost ekosistema.Posljednjih godina, fokus se očito pomjerio prema GenAI-u i velikim LLM-ovima.

U petom izdanju, Llama 2 70B je učvršćena kao glavni benchmark, istiskujući ResNet50, i Metrike tokena po sekundi su se u najboljem slučaju poboljšale do 3,3 puta u jednoj godini., sa srednjim performansama 5 puta većim zahvaljujući optimizacijama hardvera i softvera. Prisustvo CPU-ova poput Intel Xeon 6 u zvaničnim rezultatima takođe je pokazalo da U određenim scenarijima postoji prostor za efikasna generalistička rješenja.

Verzija 5.1 MLPerf Inference-a napravila je još jedan korak naprijed: uključila je tri nova ključna kriterija, zaključivanje pomoću DeepSeek-R1, pretvaranje govora u tekst pomoću Whisper Large v3 i mali LLM zasnovan na Llama 3.1 8BSveukupno, konzorcij je prijavio 27 učesnika, dostigao prekretnicu od 90.000 rezultata i suzio metrike latencije u interaktivnim scenarijima.

Metrike i ciljevi u novim mjerilima

Referentni test zaključivanja sa DeepSeek‑R1, MoE od 671B parametara, pokazuje da Ovi modeli proizvode duge lance zaključivanja prije odgovoraPodržava izlaze do 20.000 tokena, sa prosjekom od 3880 tokena po izlazu u skupu podataka, što je najveći broj do sada u zaključivanju.

Pravila mjere propusnost u offline režimu i serverskom režimu sa strogim ograničenjima: Vrijeme do prvog tokena od 2 sekunde i latencija po tokenu od 80 ms na p99Ovo nastoji uravnotežiti "razmišljajući" budžet sa brzinom reakcije potrebnom za njegovu primjenu.

Mali LLM benchmark sa Llama 3.1‑8B zamjenjuje GPT‑J 6B kao gateway. Podržava kontekste do 128.000 tokena i procjenjuje sumiranje na CNN-DailyMailu sa 778 ulaznih tokena i 73 izlazna tokena. Tačnost se provjerava pomoću ROUGE-a i, u zatvorenoj podjeli, potrebno je da se podudara sa 99 posto referentne vrijednosti visoke tačnosti.

U metrikama latencije koriste se dva indikatora: TTFT (vrijeme do prvog tokena) i TPOT (vrijeme po tokenu). Na serveru su zabilježene 2 s TTFT-a i 100 ms TPOT-a. (oko 480 ppm), a u novom interaktivnom scenariju je smanjeno na 0,5 s i 30 ms respektivno (oko 1600 ppm) za slučajeve kao što su chat, kodiranje ili kreativni alati.

Najvažnije performanse proizvođača i operatera

  • NVIDIA je ponovo predvodila, ovaj put sa Blackwell Ultra na GB300 NVL72 sistemu, postigavši ​​rezultate Rekord u logičkom zaključivanju sa 45 posto većim protokom DeepSeek‑R1 u odnosu na GB200 NVL72, dostigavši ​​5842 tokena u sekundi po GPU-u van mreže i 2907 na serveru, sa poboljšanjima blizu 5x u poređenju sa neprovjerenim Hopperom.
  • U novom interaktivnom Llama 3.1 405B benchmarku, NVIDIA je primijenila razdvojeno serviranje s Dynamom, odvajajući kontekst i generiranje na različitim GPU-ovima i prenoseći KV keš memoriju preko NVLink-a, postižući 1,5× veći protok po GPU-u u odnosu na tradicionalno posluživanje na Blackwell-u i više od 5× veći od sistema sa Hopperom.
  • Za manje modele, NVIDIA je izvijestila Preko 18.000 tokena u sekundi po GPU-u na Llama 3.1 8B van mreže i 5667 tokena u sekundi po GPU-u u Whisperu, održavajući vodeću poziciju GPU-a u svim scenarijima (offline, server i interaktivno).
  • AMD je proširio svoje prisustvo prvom isporukom Instinct MI355X GPU-a, koji je sada u rasponu od 2‑70B. Pokazalo je skaliranje na više čvorova i povećanje tokena u sekundi od 2,7 puta u odnosu na MI325X u FP8.U otvorenoj diviziji, strukturirano orezivanje je primijenjeno na Llama 3.1‑405B (FP4). povećanje propusnosti za 82 posto s modelom smanjene dubine za 21 posto i za 90 posto s modelom preciznije podešenim za 33 posto, održavajući preciznost.
  • Također je premijerno predstavljene isporuke Llama 2‑70B Interactive, Mixtral‑8×7B i Stable Diffusion XL, te su predstavljeni mješoviti rezultati za MI300X/MI325X: Pri skaliranju na 4 čvora, MI355X je postigao 3,4 puta veći protok od MI300X., proširujući se na 8 čvorova s ​​dobrom skalabilnošću.
  • HPE, koji je kombinovao ProLiant i Cray, prijavio je 14 rezultata koji su se plasirali na prvo mjesto. DL1a Gen380 se istakao u DLRM i Llama 12‑3.1B (Server) među 8-GPU PCIe sistemima; DL8 Gen385 označene bolje performanse GPU-a u Whisperu sa H200 NVL; a Cray XD670 (8× H200) je postigao šest prvih mjesta u RetinaNet, Llama 3.1‑8B, Mixtral i Whisper, plus prva mjesta sa RTX Pro 6000 Blackwell SE i GH200 NVL2 rezultatima u DLRM.
  • CoreWeave je bio prvi oblak koji je objavio rezultate sa GB300, isporučujući 6005 tokena u sekundi po GPU-u u DeepSeek‑R1 van mreže i demonstracija orkestracije i skaliranja sa Slurmom na Kubernetes-u i raspoređivanja svjesnog topologije kako bi se izvuklo maksimum iz NVLink-a.
  • Dell je isporučio 12 sistema sa AMD i NVIDIA akceleratorima, blistajući u LLaMA 2 70B Interactive sa PowerEdge XE9680L i B200, LLaMA 3.1‑8B server na XE9685L+B200, SDXL na XE9685L i Whisper na XE9680L, demonstrirajući svestranost od slike do glasa putem LLM-a.
  • Intel je naglasio da ostaje jedini koji šalje rezultate sa serverskim CPU-ima i pokazao je da Xeon 6 sa P-jezgrama poboljšava performanse za 1,9 puta u odnosu na Xeon 5. generacije u pet benchmark testova, učvršćujući svoju ulogu u generalnom zaključivanju. Također je predstavio radne stanice sa 8 Arc Pro B60 GPU-ova, sa 192 GB VRAM-a za opsluživanje Llama2‑70B više korisnika, te u paketu drajvera i okvira za pojednostavljenje implementacije više GPU-ova.
  • Među integratorima i partnerima, ASUSTeK Optimizovana latencija i propusnost sa kvantizacijom, kernelima i stekomBroadcom je demonstrirao VCF virtualizaciju s minimalnim opterećenjem u odnosu na bare metal na višestrukim radnim opterećenjima (Whisper, SDXL, Llama 3.1-405B, Llama2-70B, RGAT, RetinaNet); Cisco je skalirao gotovo linearno s UCS C885A M8 (8× H200 SXM) i UCS C845A M8 (8× H200 NVL ili L40S), podržanim One G200 mrežama.
  • KRAI je, koristeći OpenAI API i realne opće troškove, uporedio SGLang i vLLM sa Llama3.1‑70B: 31.391 tokena po sekundi van mreže sa SGLang 0.4.9 i 26.319 sa vLLM 0.9.2 na jednom serveru sa 8x H200; sa dinamičkom kvantizacijom dostigao je 27.697 sa SGLang i 30.893 sa vLLM, a na više čvorova skalirao je do 87.334 tokena u sekundi na tri servera.
  • Lambda, sa 8x B200 180 GB SXM, pokazala je poboljšanja propusnosti do 7 posto u SDXL i 15 posto u Llama 3.1‑405B u poređenju s prethodnom rundom, i nudi klastere od 16 do 1536 GPU-a sa upravljanim Kubernetes-om ili Slurm-om.
  • MiTAC, sa svojom G8825Z5 serijom, zablistao je na LLaMA 2 70B Interactive sajmu. 18.846,1 tokena u sekundi i dobri rezultati u Serveru i Mixtralu; Nebius je certificirao svoje virtualizirane performanse gotovo na nivou bare metala u GB200 NVL72, HGX B200 i HGX H200, sa 596,11 tokena u sekundi na serveru i 855,82 tokena van mreže na Llama 3.1‑405B sa 4 GB200 GPU-a.
  • Red Hat je demonstrirao vLLM kao podržano okruženje za izvršavanje na svom AI Inference Serveru, sa CUTLASS kerneli za FP8 i FlashAttention‑3 plus poboljšani vLLM v1 motor, pokreće Llama‑3.1‑8B u H100 i L40S s odličnim omjerom cijene i performansi.
  • Supermicro je ostvario vodeće rezultate sa HGX‑B200 8‑GPU (vazduh i tečnost) sa Intel i AMD CPU-ima, ističući... Llama 3.1‑8B i Llama 2‑70B na serveru/offline/interaktivno i Whisper; u saradnji, pokazao je odlično skaliranje sa 32× H100‑SXM i alternativama sa MI325X.
  • Vultr je debitovao sa Supermicro AS‑8126GS‑TNMR i 8x MI325X, sertifikujući konkurentne performanse kao Cloud GPU; GATEOverflow poboljšana reproducibilnost sa MLCFlow-om na RTX 4090 i AMD/Intel CPU-ima; Giga Computing je isporučivao 8U EPYC+MI325X i Xeon+HGX B200 sisteme sa vazdušnim hlađenjem; QCT je pokrivao Xeon 6 konfiguracije sa H200 NVL (4 GPU-a) i 8× H200 SXM5 platforme sa NVLink i GPUDirect Storage, pored 8× MI325X sistema.
  Elektromigracija: Šta je to i zašto može oštetiti vaš CPU

Akademska zajednica je također imala svoj trenutak. Univerzitet Floride, sa svojim DGX B200 SuperPOD-om integriranim sa HiPerGatorom, bila je prva institucija koja je dostavila rezultate zaključivanja Ispunjavanje latencija servera pod zatvorenim particioniranjem, korištenje Apptainera bez Dockera/Sudoa i uklapanje u višekorisnički SLURM. Na suprotnoj krajnosti, jednokratno podnošenje na M1 MacBook Pro, sa ONNX Runtime-om i CoreML-om na GPU-u i Neural Engine-u, nadmašio je ciljanu tačnost u kategoriji rubnih podataka i pokazao da se zaključivanje o kvalitetu može procijeniti na potrošačkom hardveru.

Brzina koju percipiraju korisnici i praktična ograničenja

Korisničko iskustvo se ne mjeri samo u benchmarkovima; u svakodnevnom životu, Osjećaj fluidnosti nastaje kada pređete određeni prag tokena u sekundi.Jedan korisnik je komentirao da je njihov limit za razgovor 4 tokena u sekundi, a za pisanje priča oko 10 tokena u sekundi; ispod toga, interakcija se čini sporom.

Ako pokušate pokrenuti LLM lokalno, postoje tri realnosti. Na desktop procesoru, Normalno je kretanje od 1-2 žetona u sekundi, neizvodljivo za duge odgovore. Sa vrhunskim GPU-om za igranje, možete dobiti blizu 5 tokena u sekundi. Sa NVIDIA H100, da, već govorimo o 60 tokena u sekundi, ali to je hardver za podatkovne centre, a ne hardver za desktop računare.

Šta se dešava u oblaku? Najmoćniji provajderi nadmašuju ove brojke zahvaljujući specijaliziranom hardveru i optimiziranim inferencijskim stekovima. Prosjek od oko 119 tokena u sekundi prijavljen je na ChatGPT‑4 i 168 na Gemini., dok popularni modeli otvorenog koda poput DeepSeeka obrađuju oko 21 tokena u sekundi. Ako to pretvorite u riječi, 119 tokena u sekundi je oko 90 riječi u sekundi.

  Izazov isporuke energije u procesorima

Operativni zaključak: za većinu korisnika, Pokretanje vještačke inteligencije na računaru je moguće, ali nepraktično zbog sporosti.Za rad na ugodnim brzinama i s malim latencijama, upravljane usluge ostaju razumna opcija.

Kako odrediti veličinu krajnje tačke prema TPS-u i šta očekivati ​​od latencije

Praktični koraci za određivanje veličine. Prvo, skicirajte svoj slučaj upotrebe: Prosječan broj ulaznih i izlaznih tokena, distribucija dužine i očekivana konkurentnostDrugo, pokrenite test opterećenja s reprezentativnim skupom podataka, uključujući TTFT i broj tokena u sekundi koji se održavaju po zahtjevu.

Zatim, uskladite konfiguraciju sa svojim uzorkom. Ako vaše radno opterećenje podsjeća na referencu Databricks (2048 ulaza, 256 izlaza), Odaberite raspon tokena po sekundi tako da zahtjev bude unutar željenog budžeta latencijeImajte na umu da dupliranje izlaza obično košta više od dupliranja ulaza i da efektivna konkurentnost zavisi od stvarnog automatskog skaliranja.

Pratite i prilagođavajte. Pratite metrike obezbjeđena konkurentnost, redovi čekanja, TTFT i TPOT, i uporedite to sa svojim SLO-ovima. Ako vam nedostaje kapaciteta, proširite raspon; ako imate višak resursa, smanjite ga i prilagodite blokove da biste uštedjeli. Formula za stvarno skaliranje će vam pomoći da shvatite zašto krajnja tačka ne radi kako je konfigurisano ako nije kreirala dovoljno replika.

Konačno, budite svjesni scenarija. U interaktivnom načinu rada u stilu chatbota, Cilj je TTFT od 0,5 sekundi i 30 ms po tokenu. Ovo će vam pružiti vrhunsko korisničko iskustvo. U serverskom režimu, 2 s i 100 ms po tokenu su razumne smjernice, a van mreže, traži se maksimalni protok uz održavanje tačnosti koju zahtijeva benchmark.

Gledajući MLPerf trendove, vektor je jasan: Više konteksta, više tokena i bolje tehnike efikasnosti —dezagregirano posluživanje, FP4/FP8, strukturirano orezivanje, prilagođeni kerneli, raspoređivanje KV keša — podižu plafon tokena za drugu godinu u odnosu na prethodnu, i po čipu i po sistemu.

Ukupna slika koju su nacrtali Databricks i MLPerf je konzistentna: Razmišljanje u smislu tokena po sekundi je ispravan način rasuđivanja o troškovima, latenciji i skalabilnosti u LLM-u.Sa dobrim reprezentativnim benchmarkom, TTFT/TPOT metrikama i dobro kalibriranim automatskim skaliranjem, moguće je isporučiti brze i stabilne odgovore bez prevelikog obima infrastrukture.

Nvidia Blackwell Ultra GB300
Povezani članak:
NVIDIA Blackwell Ultra GB300: Arhitektura, memorija i NVLink 5