- LLM-je je najbolje ovrednotiti v žetonih na sekundo: vhod in izhod določata zakasnitev.
- Podatkovne opeke zagotavljajo končne točke s TPS in samodejnim skaliranjem; MLPerf standardizira metrike.
- Novi merila uspešnosti (DeepSeek-R1, Whisper, Llama 3.1-8B) krepijo TTFT/TPOT.

Če delate z jezikovnimi modeli, ste izraz »žetoni na sekundo« že slišali tisočkrat, vendar je le redko podrobno razloženo, kaj pomeni v resničnih okoljih in predvsem, kako ga MLPerf meri. V tem članku jasno pojasnjujemo, kaj so žetoni, zakaj je metrika žetonov na sekundo tako pomembna pri sklepanju in kako jo platforme, kot sta Databricks in merilo MLPerf, uporabljajo za določanje velikosti, primerjavo in skaliranje. Poleg tega vključujemo specifične številke proizvajalcev in pričakovanja glede zmogljivosti od oblakov do tal..
Težava ni majhna: industrija ima standardizirane žetone na sekundo za oceno učinkovitosti LLM v podatkovnih centrih in na robu omrežja. MLPerf, strokovno pregledani paket MLCommons, je postal merilo za primerjavo strojne in programske opreme.Vzporedno operaterji, kot je Databricks, že neposredno zagotavljajo svoje končne točke modela na podlagi obsega žetonov na sekundo. Poglejmo si vse to podrobneje s številkami in primeri uporabe.
Kaj je žeton in zakaj je pomemben v LLM?
Jezikovni modeli ne obdelujejo posameznih črk ali besed takih, kot so; delujejo z enotami, imenovanimi žetoni. Žeton je običajno dolg približno 4 znake ali v povprečju 0,75 besede.To razmerje se razlikuje glede na jezik in tokenizator modela, vendar služi kot hitra referenca: 10-besedno besedilo se giblje okoli 13–14 žetonov.
Natančna segmentacija je odvisna od modela: Vsak LLM uporablja svoj tokenizator in besede deli na celotne žetone ali podbesede.Spletna orodja vam omogočajo, da na primer vidite, kako Llama tokenizira določeno besedno zvezo. Ta spremenljivost, ki se zdi majhna podrobnost, vpliva na zakasnitev in stroške računanja.
Ko govorimo o hitrosti generiranja, jo običajno izražamo v žetonih na sekundo in ne v besedah na sekundo. To homogenizira metriko med jeziki, dolžinami kontekstov in slogi izhoda.in omogoča natančen izračun stroškov sklepanja in potrebne zmogljivosti.
Zakaj meriti zmogljivost v žetonih na sekundo in ne v RPS?
Tradicionalne storitve API se osredotočajo na RPS (zahteve na sekundo). V LLM ta pristop ne uspeva: Dve zahtevi lahko trajata zelo različno, odvisno od vhodnih in izhodnih žetonov.To pomeni, da dejanski koristni tovor prihaja v žetonih, ne v "številu klicev".
Obstajata dva ključna vira variabilnosti. Prvič, dolžina vhodnega konteksta: Kratek poziv ima lahko le nekaj žetonov, dokument s povzetkom pa lahko naraste na stotine ali tisoče.Po drugi strani pa dolžina izhoda: povzemanje običajno ustvari manj žetonov; ustvarjanje dolgega članka ali opisa poveča čas, ker je dekodiranje izhoda najdražji del.
Zato je za realistično skaliranje končne točke sklepanja koristno razmišljati v smislu žetonov. Databricks na primer svojim strežnim končnim točkam dodeli vrsto žetonov na sekundo in zaračunava uro glede na skaliranje.Na ta način lahko uskladite zmogljivost z dejansko obremenitvijo, ne da bi vas zavedel RPS, ki ne pove celotne zgodbe.
Kako Databricks in MLPerf merita žetone na sekundo
Databricks vzame reprezentativno količino RAG-ov kot referenco in povzema: 2048 vhodnih žetonov in 256 izhodnih žetonovZdružuje obe fazi (predhodno izpolnjevanje in dekodiranje) in privzeto optimizira ravnovesje med prepustnostjo in zakasnitvijo za velikosti paketov 1 na zahtevo, s čimer simulira več sočasnih zahtev.
S tem pravilom se številke glasijo takole: če konfigurirate končno točko na 2304 žetone na sekundo (2048 + 256), Zahteva s temi velikostmi traja približno sekundoČe nastavite na 5600 žetonov na sekundo, se čas obdelave iste zahteve skrajša na približno 0,5 sekunde in lahko obdelate dve podobni zahtevi na sekundo.
Ko se vaša delovna obremenitev spremeni, se bo spremenila tudi latenca. Ustvarjanje več izhodnih žetonov kaznuje bolj kot povečanje vhodnih žetonov.Če izvajate paketno sklepanje, izračunajte povprečno število vhodnih in izhodnih žetonov za vaš nabor podatkov in ga primerjajte s prejšnjim primerjalnim testom, da ocenite čase.
Praktični primeri: s 1000 vrsticami, povprečno 3000 vhodnimi in 500 izhodnimi žetoni ter zagotovljeno prepustnostjo 3500 žetonov na sekundo, Vzelo vam bo več kot 1000 sekund ker vaša povprečja presegajo referenčno vrednost. Če namesto tega v povprečju vnesete 1500 in iznesete 100 žetonov na sekundo, šli boste pod 1000 sekund skupaj za teh 1000 vrstic.
Samodejno skaliranje na zahtevo in izračun dejanskega skaliranja
Storitve modelov Databricks vključujejo hitro samodejno skaliranje, ki Povečaj ali zmanjšaj vire glede na povpraševanje po žetonih na sekundoSistem se skalira v blokih zmogljivosti, dodatna zmogljivost pa se zaračunava le, ko je porabljena. V testih z več vzporednimi zahtevami se dodeljena prepustnost povečuje, dokler se ne stabilizira na približno 8000 žetonih na sekundo, ko so viri nasičeni, kar povečuje zakasnitev čakalne vrste.
Če opazite manj žetonov na sekundo, kot ste označili, preverite dve stvari: Zagotovljena sočasnost, ki odraža metrike končnih točk in minimalno velikost pasovne širine konfigurirano. S temi podatki se dejansko skaliranje oceni z uporabo formule: zagotovljena sočasnost × minimalna velikost pasovne širine / 4.
Konkreten primer: z največjo sočasnostjo 8 in najmanjšo velikostjo črte 850 žetonov na sekundo, Učinkovita omejitev bi bila 1700 žetonov na sekundo. (8 × 850 / 4). Razumevanje tega izračuna preprečuje presenečenja in vam pomaga natančno prilagoditi nastavitve vašim SLO-jem zakasnitve.
Sklepanje MLPerf: Kaj je to in kaj meri danes
MLPerf, ki ga je razvilo podjetje MLCommons, je odprt in standardiziran paket za merjenje učinkovitosti umetne inteligence v podatkovnih centrih in na robu omrežja, od vida do LLM. Njegov cilj je primerjati platforme na pošten in ponovljiv način, da bi spodbudili učinkovitost ekosistema.V zadnjih izdajah se je poudarek očitno preusmeril na GenAI in velike LLM-je.
V peti izdaji je bil Llama 2 70B utrjen kot vodilni merilo, ki je izpodrinil ResNet50, in Meritve žetonov na sekundo so se v najboljšem primeru v enem letu izboljšale do 3,3-krat., s petkrat višjo mediano zmogljivosti zaradi optimizacij strojne in programske opreme. Prisotnost procesorjev, kot je Intel Xeon 5, v uradnih rezultatih je prav tako pokazala, da V določenih scenarijih je prostor za učinkovite splošne rešitve.
Različica 5.1 MLPerf Inference je naredila še en korak naprej: vključila je tri nove ključne primerjalne vrednosti, sklepanje z DeepSeek-R1, pretvorba govora v besedilo s Whisper Large v3 in majhen LLM, ki temelji na Llama 3.1 8BKonzorcij je poročal o 27 udeležencih, dosegel mejnik 90.000 rezultatov in zožil meritve latence v interaktivnih scenarijih.
Metrike in cilji v novih merilih uspešnosti
Primerjalna analiza sklepanja z DeepSeek‑R1, MoE s parametri 671B, kaže, da Ti modeli ustvarjajo dolge verige sklepanja, preden pridejo do odgovora.Podpira izhode do 20.000 žetonov, s povprečjem 3880 žetonov na izhod v naboru podatkov, kar je največ doslej v sklepanju.
Pravila merijo prepustnost v načinu brez povezave in načinu strežnika s strogimi omejitvami: Čas do prvega žetona 2 sekundi in zakasnitev na žeton 80 ms na str. 99S tem se poskuša uravnotežiti »razmišljajoči« proračun z odzivnostjo, potrebno za njegovo uporabo.
Majhen primerjalni test LLM z Llama 3.1‑8B nadomešča GPT‑J 6B kot prehod. Podpira kontekste do 128.000 žetonov in ovrednoti povzetek na CNN-DailyMail s 778 vhodnimi žetoni in 73 izhodnimi žetoni. Natančnost je potrjena z ROUGE in mora v zaprti delitvi doseči 99 odstotkov visokonatančnega merila.
Pri metrikah latence se uporabljata dva kazalnika: TTFT (čas do prvega žetona) in TPOT (čas na žeton). Na strežniku sta zabeleženi 2 sekundi TTFT in 100 ms TPOT. (okoli 480 ppm), v novem interaktivnem scenariju pa je stisnjen na 0,5 s oziroma 30 ms (okoli 1600 ppm) za primere, kot so klepet, kodiranje ali ustvarjalna orodja.
Poudarki zmogljivosti po proizvajalcu in upravljavcu
- NVIDIA je znova vodila, tokrat z Blackwell Ultra na sistemu GB300 NVL72, ki je dosegel Rekord v sklepanju s 45 odstotki večjo prepustnostjo DeepSeek‑R1 kot GB200 NVL72, pri čemer je dosegel 5842 žetonov na sekundo na GPU brez povezave in 2907 na strežniku, kar je skoraj 5-kratno izboljšanje v primerjavi z nepreverjenim Hopperjem.
- V novem interaktivnem merilu Llama 3.1 405B je NVIDIA uporabila ločeno serviranje z Dynamom, ločevanje konteksta in generiranja na različnih grafičnih procesorjih in prenos predpomnilnika KV prek NVLinka, s čimer je dosežena 1,5-krat večja prepustnost na grafični procesor kot tradicionalno streženje na Blackwellu in več kot 5-krat večja kot sistemi s Hopperjem.
- Za manjše modele je NVIDIA poročala Več kot 18.000 žetonov na sekundo na GPU na Llama 3.1 8B brez povezave in 5667 žetonov na sekundo na grafični procesor v Whisperju, kar ohranja vodilno vlogo grafičnih procesorjev v vseh scenarijih (brez povezave, na strežniku in v interakciji).
- AMD je razširil svojo prisotnost s prvo pošiljko grafičnega procesorja Instinct MI355X, ki je zdaj v razponu 2‑70B. V FP2,7 je pokazal večvozliščno skaliranje in 325-kratno povečanje žetonov na sekundo v primerjavi z MI8X.Pri odprti delitvi je bila na sorti Llama 3.1‑405B (FP4) uporabljena strukturirana rez. povečanje pretočnosti za 82 odstotkov z 21-odstotno obrezanim modelom in za 90 odstotkov z 33-odstotno natančneje uglašenim modelom, ohranjanje natančnosti.
- Prav tako so bile predstavljene pošiljke Llama 2‑70B Interactive, Mixtral‑8×7B in Stable Diffusion XL ter mešani rezultati MI300X/MI325X: Pri skaliranju na 4 vozlišča je MI355X dosegel 3,4-krat večjo prepustnost kot MI300X., ki se razteza na 8 vozlišč z dobro skalabilnostjo.
- HPE, ki združuje ProLiant in Cray, je poročal o 14 rezultatih, ki so se uvrstili na prvo mesto. DL1a Gen380 je izstopal v DLRM in Llama 12‑3.1B (strežnik) med 8-GPU PCIe sistemi; DL8 Gen385 izboljšala zmogljivost grafičnega procesorja v Whisperju s H200 NVL; Cray XD670 (8× H200) pa je dosegel šest prvih mest v testih RetinaNet, Llama 3.1‑8B, Mixtral in Whisper, poleg tega pa je bil prvi z rezultati RTX Pro 6000 Blackwell SE in GH200 NVL2 v DLRM.
- CoreWeave je bil prvi oblak, ki je poročal o rezultatih z GB300, ki je zagotovil 6005 žetonov na sekundo na grafični procesor v DeepSeek‑R1 brez povezave in demonstracija orkestracije in skaliranja s Slurmom na Kubernetes ter razporejanjem glede na topologijo, da bi kar najbolje izkoristili NVLink.
- Dell je dobavil 12 sistemov z AMD in NVIDIA pospeševalniki, ki so se izkazali v LLaMA 2 70B Interactive s PowerEdge XE9680L in B200, Strežnik LLaMA 3.1‑8B na XE9685L+B200, SDXL na XE9685L in Whisper na XE9680L, kar dokazuje vsestranskost od slike do glasu prek LLM.
- Intel je poudaril, da ostaja edini, ki pošilja rezultate s strežniškimi procesorji in pokazala, da se Xeon 6 z jedri P v petih primerjalnih testih za 1,9-krat izboljša v primerjavi s 5. generacijo Xeona, s čimer je utrdil svojo vlogo pri splošnem sklepanju. Predstavil je tudi delovne postaje z 8 grafičnimi procesorji Arc Pro B60 s 192 GB VRAM-a za delovanje Llama2‑70B več uporabnikom ter priložil gonilnike in ogrodja za poenostavitev uvajanja več grafičnih procesorjev.
- Med integratorji in partnerji je ASUSTeK Optimizirana latenca in prepustnost s kvantizacijo, jedri in skladom; Broadcom je demonstriral virtualizacijo VCF z minimalnimi stroški v primerjavi z golim kovinskim ogrodjem pri več delovnih obremenitvah (Whisper, SDXL, Llama 3.1-405B, Llama2-70B, RGAT, RetinaNet); Cisco je skoraj linearno skaliral z UCS C885A M8 (8× H200 SXM) in UCS C845A M8 (8× H200 NVL ali L40S), ki ju podpirajo omrežja One G200.
- KRAI je z uporabo OpenAI API-ja in realističnih stroškov primerjal SGLang in vLLM z Llama3.1‑70B: 31.391 žetonov na sekundo brez povezave s SGLang 0.4.9 in 26.319 z vLLM 0.9.2 na enem samem strežniku z 8x H200; z dinamično kvantizacijo je dosegel 27.697 z SGLang in 30.893 z vLLM, na večvozliščnem sistemu pa se je povečal na 87.334 žetonov na sekundo na treh strežnikih.
- Lambda z 8x B200 180 GB SXM je pokazala izboljšave prepustnosti do 7 odstotkov v SDXL in 15 odstotkov v Llama 3.1‑405B v primerjavi s prejšnjim krogom in ponuja gruče od 16 do 1536 grafičnih procesorjev z upravljanim Kubernetes ali Slurmom.
- MiTAC je s svojo serijo G8825Z5 blestel na LLaMA 2 70B Interactive z 18.846,1 žetonov na sekundo in dobri rezultati v Serverju in Mixtralu; Nebius je potrdil, da je njegova virtualizirana zmogljivost skoraj na ravni golega kovina v GB200 NVL72, HGX B200 in HGX H200, z 596,11 žetonov na sekundo na strežniku in 855,82 žetonov brez povezave na Llama 3.1‑405B s 4 GB200 grafičnimi procesorji.
- Red Hat je na svojem strežniku za sklepanje umetne inteligence predstavil vLLM kot podprto izvajalno okolje. Jedra CUTLASS za FP8 in FlashAttention‑3 poleg izboljšanega motorja vLLM v1 poganja Llama‑3.1‑8B v H100 in L40S z odličnim razmerjem med ceno in zmogljivostjo.
- Supermicro je dosegel vodilne rezultate z 200-GPU-jem HGX-B8 (zrak in tekočina) z Intelovimi in AMD-jevimi procesorji, kar poudarja Llama 3.1‑8B in Llama 2‑70B na strežniku/brez povezave/interaktivno in Whisper; v sodelovanjih je pokazal odlično skaliranje s 32× H100‑SXM in alternativami z MI325X.
- Vultr je debitiral s Supermicro AS‑8126GS‑TNMR in 8x MI325X, kar potrjuje konkurenčno zmogljivost kot grafični procesor v oblaku; GATEOverflow izboljšana ponovljivost z MLCFlow na RTX 4090 in procesorjih AMD/Intel; Giga Computing je dobavil 8U zračno hlajene sisteme EPYC+MI325X in Xeon+HGX B200; QCT je pokrival konfiguracije Xeon 6 z H200 NVL (4 grafične procesorje) in 8× H200 SXM5 platformami z NVLink in GPUDirect Storage, poleg 8× sistemov MI325X.
Tudi akademski svet je imel svoj trenutek. Univerza na Floridi je s svojim DGX B200 SuperPOD, integriranim s HiPerGatorjem, je bila prva institucija, ki je predložila rezultate sklepanja Zakasnitve strežnika pri zaprtem particioniranju, uporaba Apptainerja brez Dockerja/Suda in prilagajanje večuporabniškemu SLURM-u. Nasprotno pa ena sama oddaja na M1 MacBook Pro, z ONNX Runtime in CoreML na grafičnem procesorju in nevronskem mehanizmu, je presegel ciljno natančnost v kategoriji robov in dokazal, da je mogoče sklepanje o kakovosti oceniti na potrošniški strojni opremi.
Hitrost, ki jo zaznavajo uporabniki, in praktične omejitve
Uporabniška izkušnja se ne meri le z merili uspešnosti; v vsakdanjem življenju Občutek pretočnosti se pojavi, ko presežete določen prag žetonov na sekundo.En uporabnik je komentiral, da je njihova omejitev za pogovor 4 žetone na sekundo, za pisanje zgodb pa približno 10 žetonov na sekundo; pod tem številom se interakcija zdi počasna.
Če poskušate zagnati LLM lokalno, obstajajo tri realnosti. Na namiznem procesorju, Normalno je premikanje 1–2 žetona na sekundo, neizvedljivo za dolge odgovore. Z vrhunskim igralnim grafičnim procesorjem lahko dosežete skoraj 5 žetonov na sekundo. Z NVIDIA H100, da, že govorimo o 60 žetonih na sekundo, ampak gre za strojno opremo podatkovnih centrov, ne za namizno strojno opremo.
Kaj se dogaja v oblaku? Najmočnejši ponudniki presegajo te številke zaradi specializirane strojne opreme in optimiziranih skladov sklepanja. Na ChatGPT‑119 so poročali o povprečju približno 4 žetonov na sekundo, na Gemini pa 168., medtem ko priljubljeni odprtokodni modeli, kot je DeepSeek, gibljejo okoli 21 žetonov na sekundo. Če to pretvorite v besede, je 119 žetonov na sekundo približno 90 besed na sekundo.
Operativni zaključek: za večino uporabnikov, Izvajanje umetne inteligence na računalniku je možno, vendar zaradi počasnosti nepraktično.Za delo z udobno hitrostjo in kratkimi zakasnitvami ostajajo upravljane storitve smiselna možnost.
Kako določiti velikost končne točke glede na TPS in kaj pričakovati od zakasnitve
Praktični koraki za določanje velikosti. Najprej opišite svoj primer uporabe: Povprečno število vhodnih in izhodnih žetonov, porazdelitev dolžine in pričakovana sočasnostDrugič, izvedite obremenitveni test z reprezentativnim naborom podatkov, ki vključuje TTFT in število žetonov na sekundo, ki se vzdržujejo na zahtevo.
Nato poravnajte konfiguracijo s svojim vzorcem. Če je vaša delovna obremenitev podobna referenci Databricks (2048 vhodov, 256 izhodov), Izberite obseg žetonov na sekundo, tako da zahteva spada v želeni proračun zakasnitveNe pozabite, da podvajanje izhoda običajno stane več kot podvajanje vhoda in da je efektivna sočasnost odvisna od dejanskega samodejnega skaliranja.
Spremljajte in prilagajajte. Bodite pozorni na meritve. zagotovljena sočasnost, čakalne vrste, TTFT in TPOTin ga primerjajte s svojimi SLO-ji. Če vam primanjkuje zmogljivosti, razširite obseg; če imate presežek virov, ga znižajte in prilagodite bloke, da prihranite. Prava formula za skaliranje vam bo pomagala razumeti, zakaj končna točka ne deluje po konfiguraciji, če ni ustvarila dovolj replik.
Nenazadnje bodite pozorni na scenarij. V interaktivnem načinu v slogu klepetalnega robota, cilj je TTFT 0,5 s in 30 ms na žeton To vam bo zagotovilo vrhunsko uporabniško izkušnjo. V strežniškem načinu sta razumni smernici 2 s in 100 ms na žeton, v načinu brez povezave pa si prizadeva za maksimalno prepustnost, hkrati pa ohranja natančnost, ki jo zahteva merilo uspešnosti.
Če pogledamo trende MLPerfa, je vektor jasen: Več konteksta, več žetonov in boljše tehnike učinkovitosti —razčlenjeno serviranje, FP4/FP8, strukturirano obrezovanje, jedra po meri, razporejanje predpomnilnika KV — že drugo leto zapored dvigujejo zgornjo mejo žetonov, tako na čip kot na sistem.
Celotna slika, ki jo narišeta Databricks in MLPerf, je dosledna: Razmišljanje v smislu žetonov na sekundo je pravilen način razmišljanja o stroških, zakasnitvi in skalabilnosti v LLM.Z dobrim reprezentativnim primerjalnim testom, metrikami TTFT/TPOT in dobro kalibriranim samodejnim skaliranjem je mogoče zagotoviti hitre in stabilne odzive brez prevelike velikosti infrastrukture.
