- LLM-ove je najbolje procijeniti u tokenima po sekundi: ulaz i izlaz određuju latenciju.
- Databricks osigurava krajnje točke putem TPS-a i automatskog skaliranja; MLPerf standardizira metrike.
- Novi benchmarkovi (DeepSeek-R1, Whisper, Llama 3.1-8B) pojačavaju TTFT/TPOT.

Ako radite s jezičnim modelima, tisuću ste puta čuli izraz "tokeni u sekundi", ali rijetko se detaljno objašnjava što znači u stvarnim okruženjima i, prije svega, kako ga MLPerf mjeri. U ovom članku jasno objašnjavamo što su tokeni, zašto je metrika tokena u sekundi toliko važna u zaključivanju i kako je platforme poput Databricksa i MLPerf mjerila koriste za određivanje veličine, usporedbu i skaliranje. Osim toga, uključujemo specifične brojke proizvođača i očekivanja performansi od oblaka do zemlje..
Problem nije mali: industrija je standardizirala broj tokena u sekundi za procjenu performansi LLM-a u podatkovnim centrima i na rubu mreže. MLPerf, recenzirani paket MLCommons, postao je mjerilo za usporedbu hardvera i softvera.Paralelno s tim, operateri poput Databricksa već izravno osiguravaju krajnje točke svojih modela na temelju raspona tokena u sekundi. Razložimo sve to, s brojkama i slučajevima upotrebe.
Što je token i zašto je važan u LLM-u?
Jezični modeli ne obrađuju pojedinačna slova ili riječi onakvi kakvi jesu; rade s jedinicama koje se nazivaju tokeni. Token je obično dug oko 4 znaka ili u prosjeku 0,75 riječi.Ovaj omjer varira ovisno o jeziku i tokenizatoru modela, ali služi kao brza referenca: tekst od 10 riječi kreće se oko 13-14 tokena.
Točna segmentacija ovisi o modelu: Svaki LLM koristi vlastiti tokenizator i dijeli riječi na potpune tokene ili podriječi.Online alati vam omogućuju da vidite, na primjer, kako Llama tokenizira određenu frazu. Ova varijabilnost, koja se čini kao mali detalj, utječe na latenciju i računalne troškove.
Kada se govori o brzini generiranja, obično se izražava u broju tokena u sekundi, a ne riječima u sekundi. Ovo homogenizira metriku među jezicima, duljinama konteksta i stilovima izlaza., i omogućuje točno izračunavanje troškova zaključivanja i potrebnog kapaciteta.
Zašto mjeriti performanse u tokenima po sekundi, a ne u RPS-u?
Tradicionalne API usluge fokusiraju se na RPS (zahtjeve u sekundi). U LLM-u taj pristup nije dovoljan: Dva zahtjeva mogu trajati vrlo različito vrijeme ovisno o ulaznim i izlaznim tokenima.To jest, stvarni korisni teret dolazi u tokenima, a ne u "broju poziva".
Postoje dva ključna izvora varijabilnosti. Prvo, duljina ulaznog konteksta: Kratki upit može imati samo nekoliko tokena, ali sažetak dokumenta može narasti na stotine ili tisuće.S druge strane, duljina izlaza: sažimanje obično proizvodi manje tokena; generiranje dugog članka ili opisa povećava vrijeme, jer je dekodiranje izlaza najskuplji dio.
Stoga je, kako bi se realno skalirala krajnja točka zaključivanja, korisno razmišljati u smislu tokena. Databricks, na primjer, svojim poslužujućim krajnjim točkama dodjeljuje niz tokena po sekundi i naplaćuje po satu na temelju skaliranja.Na ovaj način možete uskladiti kapacitet sa stvarnim opterećenjem bez da vas zavara RPS koji ne govori cijelu priču.
Kako Databricks i MLPerf mjere tokene u sekundi
Databricks uzima reprezentativni broj RAG-ova kao referencu i sažima: 2048 ulaznih tokena i 256 izlaznih tokenaKombinira obje faze (predispunu i dekodiranje) i, prema zadanim postavkama, optimizira ravnotežu između propusnosti i latencije za veličine serija od 1 po zahtjevu, simulirajući više istodobnih zahtjeva.
S tim pravilom, brojke glase ovako: ako konfigurirate krajnju točku na 2304 tokena u sekundi (2048 + 256), Zahtjev s tim veličinama traje otprilike sekunduAko ga postavite na 5600 tokena u sekundi, isti zahtjev pada na oko 0,5 s i možete obraditi dva slična zahtjeva u sekundi.
Kada se promijeni vaše radno opterećenje, promijenit će se i latencija. Generiranje više izlaznih tokena kažnjava više nego povećanje ulaznih tokena.Ako radite serijsko zaključivanje, izračunajte prosječan broj ulaznih i izlaznih tokena za svoj skup podataka i usporedite ga s prethodnim mjerilom kako biste procijenili vremena.
Praktični primjeri: s 1000 redaka, prosječno 3000 ulaznih i 500 izlaznih tokena te osiguranom propusnošću od 3500 tokena u sekundi, Trebat će vam više od 1000 sekundi jer vaši prosjeci premašuju referencu. Ako umjesto toga u prosjeku imate 1500 ulaza i 100 izlaza s opskrbom od 1600 tokena u sekundi, ići ćeš ispod 1000 sekundi ukupno za tih 1000 redaka.
Automatsko skaliranje na zahtjev i izračun stvarnog skaliranja
Posluživanje modela Databricks uključuje brzo automatsko skaliranje koje Povećanje ili smanjenje resursa na temelju potražnje za tokenima po sekundiSustav se skalira u blokovima kapaciteta, a dodatni kapacitet se naplaćuje samo kada se koristi. U testovima s više paralelnih zahtjeva, osigurana propusnost se povećava dok se ne stabilizira na oko 8000 tokena u sekundi kada su resursi zasićeni, povećavajući latenciju čekanja.
Ako primijetite manje žetona u sekundi nego što ste označili, provjerite dvije stvari: Osigurana istodobnost koja odražava metrike krajnjih točaka i minimalnu veličinu propusnosti konfigurirano. S ovim podacima, stvarno skaliranje se procjenjuje pomoću formule: osigurana konkurentnost × minimalna veličina propusnosti / 4.
Konkretan primjer: s maksimalnom konkurentnošću od 8 i minimalnom veličinom pruge od 850 tokena u sekundi, Efektivno ograničenje bi bilo 1700 tokena u sekundi (8 × 850 / 4). Razumijevanje ovog izračuna sprječava iznenađenja i pomaže vam da precizno prilagodite postavke svojim SLO-ovima latencije.
MLPerf inferencija: Što je to i što danas mjeri
MLPerf, koji je razvio MLCommons, otvoreni je i standardizirani paket za mjerenje performansi umjetne inteligencije u podatkovnim centrima i na rubu mreže, od vizualnog pristupa do LLM-a. Njegov je cilj usporediti platforme na pravedan i ponovljiv način kako bi se potaknula učinkovitost ekosustava.Posljednjih godina fokus se očito pomaknuo prema GenAI-u i velikim LLM-ovima.
U petom izdanju, Llama 2 70B je učvršćena kao zvjezdani benchmark, istiskujući ResNet50, i Mjerni podaci o tokenima u sekundi poboljšani su do 3,3 puta u najboljem slučaju u jednoj godini., s medijanom performansi 5 puta većom zahvaljujući optimizacijama hardvera i softvera. Prisutnost CPU-a poput Intel Xeon 6 u službenim rezultatima također je pokazala da U određenim scenarijima postoji prostor za učinkovita generalistička rješenja.
Verzija 5.1 MLPerf Inference napravila je još jedan korak naprijed: uključila je tri nova ključna mjerila, zaključivanje s DeepSeek-R1, pretvaranje govora u tekst s Whisper Large v3 i mali LLM temeljen na Llama 3.1 8BKonzorcij je ukupno prijavio 27 sudionika, dosegao prekretnicu od 90.000 XNUMX rezultata i suzio metrike latencije u interaktivnim scenarijima.
Metrike i ciljevi u novim mjerilima
Mjerilo zaključivanja s DeepSeek‑R1, MoE od 671B parametara, pokazuje da Ovi modeli proizvode duge lance zaključivanja prije odgovoraPodržava izlaze do 20.000 tokena, s prosjekom od 3880 tokena po izlazu u skupu podataka, što je do sada najveći broj u zaključivanju.
Pravila mjere propusnost u izvanmrežnom načinu rada i načinu rada poslužitelja sa strogim ograničenjima: Vrijeme do prvog žetona od 2 sekunde i latencija po žetonu od 80 ms na str. 99Time se nastoji uravnotežiti „promišljeni“ proračun s odgovornošću potrebnom za njegovu provedbu.
Mali LLM benchmark s Llama 3.1‑8B zamjenjuje GPT‑J 6B kao pristupnik. Podržava kontekste do 128.000 tokena i procjenjuje sažimanje na CNN-DailyMailu sa 778 ulaznih tokena i 73 izlazna tokena. Točnost se provjerava pomoću ROUGE-a i, u zatvorenoj diviziji, potrebno je da se podudara s 99 posto referentne vrijednosti visoke točnosti.
U metrikama latencije koriste se dva pokazatelja: TTFT (vrijeme do prvog tokena) i TPOT (vrijeme po tokenu). Na poslužitelju su zabilježene 2 s TTFT-a i 100 ms TPOT-a. (oko 480 ppm), a u novom interaktivnom scenariju je stisnuto na 0,5 s odnosno 30 ms (oko 1600 ppm) za slučajeve kao što su chat, kodiranje ili kreativni alati.
Istaknute performanse proizvođača i operatera
- NVIDIA je ponovno vodila, ovaj put s Blackwell Ultra na GB300 NVL72 sustavu, postigavši Rekord u logičkom zaključivanju s 45 posto većom propusnošću DeepSeek‑R1 od GB200 NVL72, dosegnuvši 5842 tokena u sekundi po GPU-u izvan mreže i 2907 na poslužitelju, s poboljšanjima gotovo 5 puta u usporedbi s neprovjerenim Hopperom.
- U novom interaktivnom Llama 3.1 405B benchmarku, NVIDIA je primijenila razdvojeno posluživanje s Dynamom, odvajajući kontekst i generiranje na različitim GPU-ima i prenoseći KV predmemoriju preko NVLinka, postižući 1,5× veći protok po GPU-u od tradicionalnog posluživanja na Blackwellu i više od 5× veći od sustava s Hopperom.
- Za manje modele, NVIDIA je izvijestila Preko 18.000 tokena u sekundi po GPU-u na Llama 3.1 8B izvan mreže i 5667 tokena u sekundi po GPU-u u Whisperu, održavajući vodstvo GPU-a u svim scenarijima (offline, server i interaktivno).
- AMD je proširio svoju prisutnost prvom isporukom Instinct MI355X GPU-a, koji je sada u rasponu od 2‑70B. Pokazalo je skaliranje na više čvorova i 2,7x povećanje tokena u sekundi u odnosu na MI325X u FP8.U otvorenoj diviziji, strukturirano orezivanje primijenjeno je na Llama 3.1‑405B (FP4), povećanje propusnosti za 82 posto s modelom s 21 posto smanjenom dubinom i za 90 posto s modelom s 33 posto preciznije podešenim modelom, održavajući preciznost.
- Također je premijerno predstavljena isporuka Llama 2‑70B Interactive, Mixtral‑8×7B i Stable Diffusion XL, te su predstavljeni mješoviti rezultati za MI300X/MI325X: Pri skaliranju na 4 čvora, MI355X je postigao 3,4 puta veći protok od MI300X-a., proširujući se na 8 čvorova s dobrom skalabilnošću.
- HPE, koji kombinira ProLiant i Cray, izvijestio je o 14 rezultata koji su se plasirali na prvo mjesto. DL1a Gen380 istaknuo se u DLRM i Llama 12‑3.1B (Server) među 8-GPU PCIe sustavima; DL8 Gen385 označene bolje performanse GPU-a u Whisperu s H200 NVL; a Cray XD670 (8× H200) postigao je šest prvih mjesta u RetinaNetu, Llama 3.1‑8B, Mixtralu i Whisperu, plus prva mjesta s RTX Pro 6000 Blackwell SE i GH200 NVL2 rezultatima u DLRM-u.
- CoreWeave je bio prvi oblak koji je objavio rezultate s GB300, isporučujući 6005 tokena u sekundi po GPU-u u DeepSeek‑R1 izvan mreže i demonstracija orkestracije i skaliranja sa Slurmom na Kubernetesu i raspoređivanja svjesnog topologije kako bi se maksimalno iskoristio NVLink.
- Dell je isporučio 12 sustava s AMD i NVIDIA akceleratorima, zablistavši u LLaMA 2 70B Interactive s PowerEdge XE9680L i B200, LLaMA 3.1‑8B poslužitelj na XE9685L+B200, SDXL na XE9685L i Whisper na XE9680L, demonstrirajući svestranost od slike do glasa putem LLM-a.
- Intel je naglasio da ostaje jedini koji šalje rezultate sa serverskim CPU-ima i pokazao je da Xeon 6 s P-jezgrama poboljšava 1,9× u odnosu na Xeon 5. generacije u pet benchmarkova, učvršćujući svoju ulogu u zaključivanju opće namjene. Također je predstavio radne stanice s 8 Arc Pro B60 GPU-a, sa 192 GB VRAM-a za posluživanje Llama2‑70B više korisnika, te u paketu upravljačke programe i okvire za pojednostavljenje implementacije više GPU-ova.
- Među integratorima i partnerima, ASUSTeK Optimizirana latencija i propusnost s kvantizacijom, kernelima i stogomBroadcom je demonstrirao VCF virtualizaciju s minimalnim opterećenjem u odnosu na bare metal na više opterećenja (Whisper, SDXL, Llama 3.1-405B, Llama2-70B, RGAT, RetinaNet); Cisco je skalirao gotovo linearno s UCS C885A M8 (8× H200 SXM) i UCS C845A M8 (8× H200 NVL ili L40S), podržanim One G200 mrežama.
- KRAI je, koristeći OpenAI API i realne opće troškove, usporedio SGLang i vLLM s Llama3.1‑70B: 31.391 tokena u sekundi izvan mreže sa SGLang 0.4.9 i 26.319 s vLLM 0.9.2 na jednom poslužitelju s 8x H200; s dinamičkom kvantizacijom dosegao je 27.697 sa SGLangom i 30.893 s vLLMom, a na više čvorova skalirao je do 87.334 tokena u sekundi na tri poslužitelja.
- Lambda, s 8x B200 180 GB SXM, pokazala je poboljšanja propusnosti do 7 posto u SDXL i 15 posto u Llama 3.1‑405B u usporedbi s prethodnim krugom i nudi klastere od 16 do 1536 GPU-a s upravljanim Kubernetesom ili Slurmom.
- MiTAC je sa svojom serijom G8825Z5 zablistao na LLaMA 2 70B Interactive sajmu... 18.846,1 tokena u sekundi i dobri rezultati u Serveru i Mixtralu; Nebius je certificirao svoje virtualizirane performanse gotovo na razini s bare metalom u GB200 NVL72, HGX B200 i HGX H200, s 596,11 tokena u sekundi na poslužitelju i 855,82 tokena izvan mreže na Llama 3.1‑405B s 4 GB200 GPU-ima.
- Red Hat je demonstrirao vLLM kao podržano okruženje za izvođenje na svom AI Inference Serveru, s CUTLASS kerneli za FP8 i FlashAttention‑3 plus poboljšani vLLM v1 motor, pokreće Llama‑3.1‑8B u H100 i L40S s odličnim omjerom cijene i performansi.
- Supermicro je ostvario vodeće rezultate s HGX‑B200 8‑GPU (zrak i tekućina) s Intelovim i AMD CPU-ima, ističući... Llama 3.1‑8B i Llama 2‑70B na serveru/izvan mreže/interaktivno i Whisper; u suradnjama je pokazao izvrsno skaliranje s 32× H100‑SXM i alternativama s MI325X.
- Vultr je debitirao sa Supermicro AS‑8126GS‑TNMR i 8x MI325X, certificirajući konkurentne performanse kao Cloud GPU; GATEOverflow poboljšana ponovljivost s MLCFlowom na RTX 4090 i AMD/Intel CPU-ima; Giga Computing je isporučio 8U zrakom hlađene EPYC+MI325X i Xeon+HGX B200 sustave; QCT je pokrio Xeon 6 konfiguracije s H200 NVL (4 GPU-a) i 8× H200 SXM5 platforme s NVLinkom i GPUDirect Storageom, uz 8× MI325X sustave.
Akademska zajednica je također imala svoj trenutak. Sveučilište Florida, sa svojim DGX B200 SuperPOD-om integriranim s HiPerGatorom, bila je prva institucija koja je predala rezultate zaključivanja Ispunjavanje latencija servera pod zatvorenim particioniranjem, korištenje Apptainera bez Dockera/Suda i uklapanje u višekorisnički SLURM. Na suprotnoj krajnosti, jednokratno slanje na M1 MacBook Pro, s ONNX Runtimeom i CoreML-om na GPU-u i Neural Engineu, nadmašio je ciljanu točnost u rubnoj kategoriji i pokazao da se zaključivanje kvalitete može procijeniti na potrošačkoj hardverskoj opremi.
Brzina koju percipiraju korisnici i praktična ograničenja
Korisničko iskustvo se ne mjeri samo u mjerilima; u svakodnevnom životu, Osjećaj fluidnosti javlja se kada prijeđete određeni prag tokena u sekundi.Jedan je korisnik komentirao da im je ograničenje za razgovor 4 tokena u sekundi, a za pisanje priča oko 10 tokena u sekundi; ispod toga interakcija se čini sporom.
Ako pokušate pokrenuti LLM lokalno, postoje tri realnosti. Na procesoru stolnog računala, Normalno je kretati se brzinom od 1-2 žetona u sekundi, neizvedivo za duge odgovore. S vrhunskim igraćim GPU-om možete dobiti gotovo 5 tokena u sekundi. S NVIDIA H100, da, već govorimo o 60 tokena u sekundi, ali to je hardver za podatkovne centre, a ne hardver za stolna računala.
Što se događa u oblaku? Najmoćniji pružatelji usluga nadmašuju ove brojke zahvaljujući specijaliziranom hardveru i optimiziranim inferencijskim stekovima. Prosjek od oko 119 tokena u sekundi zabilježen je na ChatGPT‑4 i 168 na Gemini., dok popularni modeli otvorenog koda poput DeepSeeka iznose oko 21 tokena u sekundi. Ako to pretvorite u riječi, 119 tokena u sekundi je oko 90 riječi u sekundi.
Operativni zaključak: za većinu korisnika, Pokretanje umjetne inteligencije na računalu je moguće, ali nepraktično zbog sporosti.Za rad ugodnim brzinama i s malim latencijama, upravljane usluge ostaju razumna opcija.
Kako odrediti veličinu krajnje točke prema TPS-u i što očekivati od latencije
Praktični koraci za određivanje veličine. Prvo, opišite svoj slučaj upotrebe: Prosječan broj ulaznih i izlaznih tokena, raspodjela duljine i očekivana konkurentnostDrugo, pokrenite test opterećenja s reprezentativnim skupom podataka, uključujući TTFT i tokene u sekundi podržane po zahtjevu.
Zatim uskladite konfiguraciju sa svojim uzorkom. Ako vaše radno opterećenje nalikuje referenci Databricks (2048 ulaza, 256 izlaza), Odaberite raspon tokena po sekundi tako da zahtjev bude unutar željenog proračuna latencijeImajte na umu da dupliciranje izlaza obično košta više od dupliciranja ulaza i da efektivna konkurentnost ovisi o stvarnom automatskom skaliranju.
Pratite i prilagođavajte. Pratite metrike omogućena konkurentnost, redovi čekanja, TTFT i TPOTi usporedite ga sa svojim SLO-ovima. Ako vam nedostaje kapaciteta, proširite raspon; ako imate višak resursa, smanjite ga i prilagodite blokove kako biste uštedjeli. Formula za stvarno skaliranje pomoći će vam da shvatite zašto krajnja točka ne radi kako je konfigurirano ako nije stvorila dovoljno replika.
Konačno, budite svjesni scenarija. U interaktivnom načinu rada u stilu chatbota, cilj je TTFT od 0,5 s i 30 ms po tokenu To će vam pružiti vrhunsko korisničko iskustvo. U načinu rada poslužitelja, 2 s i 100 ms po tokenu su razumne smjernice, a izvan mreže traži maksimalnu propusnost uz održavanje točnosti koju zahtijeva benchmark.
Gledajući MLPerf trendove, vektor je jasan: Više konteksta, više tokena i bolje tehnike učinkovitosti —dezagregirano posluživanje, FP4/FP8, strukturirano obrezivanje, prilagođene jezgre, raspoređivanje KV predmemorije — povećavaju gornju granicu tokena za drugu godinu u odnosu na prethodnu, i po čipu i po sustavu.
Ukupna slika koju su nacrtali Databricks i MLPerf je konzistentna: Razmišljanje u smislu tokena po sekundi je ispravan način rasuđivanja o troškovima, latenciji i skalabilnosti u LLM-u.S dobrim reprezentativnim benchmarkom, TTFT/TPOT metrikama i dobro kalibriranim automatskim skaliranjem, moguće je isporučiti brze i stabilne odgovore bez prevelikog dimenzioniranja infrastrukture.
