Kui palju tokeneid sekundis mõõdetakse MLPerfi abil ja kuidas neid LLM-is kasutatakse?

Viimane uuendus: 16 2025i septembris
Autor: Isaac
  • LLM-e saab kõige paremini hinnata žetoonide arvus sekundis: sisend ja väljund määravad latentsuse.
  • Databricks varustab lõpp-punkte TPS-i ja automaatse skaleerimise abil; MLPerf standardiseerib mõõdikuid.
  • Uued võrdlusalused (DeepSeek-R1, Whisper, Llama 3.1-8B) tugevdavad TTFT/TPOT-i.

tokeneid sekundis MLPerf

Kui töötate keelemudelitega, olete tuhat korda kuulnud terminit „tokenid sekundis“, kuid harva selgitatakse üksikasjalikult, mida see reaalsetes keskkondades tähendab ja ennekõike, kuidas MLPerf seda mõõdab. Selles artiklis selgitame selgelt, mis on tokenid, miks on tokenite sekundis mõõdik järelduste tegemisel nii oluline ja kuidas platvormid nagu Databricks ja MLPerfi võrdlustest kasutavad seda suuruse määramiseks, võrdlemiseks ja skaleerimiseks. Lisaks lisame tootjate konkreetsed näitajad ja pilvede maapealse jõudluse ootused..

Probleem pole väike: tööstusharu on standardiseerinud sekundis olevate märkide arvu, et hinnata LLM-i jõudlust andmekeskustes ja servas. MLPerf, eelretsenseeritud MLCommonsi tarkvarapakett, on saanud riist- ja tarkvara võrdlemise etaloniks.Paralleelselt pakuvad operaatorid, näiteks Databricks, oma mudeli lõpp-punkte juba otse sekundis saadaolevate tokenite vahemiku põhjal. Vaatleme seda kõike numbrite ja kasutusjuhtude abil.

Mis on token ja miks see LLM-is oluline on?

Keelemudelid ei töötle üksikuid tähti ega sõnu otsekoheselt; nad töötavad ühikutega, mida nimetatakse tokeniteks. Token on tavaliselt umbes 4 tähemärki pikk ehk keskmiselt 0,75 sõna.See suhe varieerub olenevalt keelest ja mudeli tokenisaatorist, kuid see on kiire viide: 10-sõnaline tekst liigub 13–14 tokeni ulatuses.

Täpne jaotus sõltub mudelist: Iga LLM kasutab oma tokenisaatorit ja jagab sõnad täielikeks token'iteks ehk alamsõnadeks.Veebitööriistad võimaldavad teil näiteks näha, kuidas Llama konkreetset fraasi tokeniseerib. See varieeruvus, mis tundub väikese detailina, mõjutab latentsusaega ja arvutuskulusid.

Genereerimiskiirusest rääkides väljendatakse seda tavaliselt žetoonide arvus sekundis, mitte sõnades sekundis. See ühtlustab mõõdikut keelte, kontekstipikkuste ja väljundstiilide lõikes.ja võimaldab täpselt arvutada järelduskulu ja vajaliku võimsuse.

Miks mõõta jõudlust žetoonides sekundis, mitte RPS-is?

Traditsioonilised API-teenused keskenduvad RPS-ile (päringute arv sekundis). LLM-is jääb see lähenemisviis puudulikuks: Kahe päringu täitmine võib võtta väga erineva aja, olenevalt sisend- ja väljundtokenidest.See tähendab, et tegelik kasulik koormus tuleb tokenitena, mitte "kõnede arvuna".

Variatiivsusel on kaks peamist põhjust. Esiteks sisendkonteksti pikkus: Lühikeses käsuviibas võib olla vaid paar märki, kuid kokkuvõtlikus dokumendis võib neid olla sadu või tuhandeid.Teisest küljest, väljundi pikkus: kokkuvõtte tegemine annab tavaliselt vähem märke; pika artikli või kirjelduse genereerimine suurendab aega, sest väljundi dekodeerimine on kõige kallim osa.

Seega on järelduse lõpp-punkti realistlikuks skaleerimiseks kasulik mõelda tokenite kaudu. Näiteks Databricks varustab oma teeninduspunkte sekundis teatud hulga tokenite ja esitab arvelduse tunnipõhiselt vastavalt skaleerimisele.Nii saate viia võimsuse vastavusse tegeliku koormusega, ilma et teid pettaks RPS, mis ei räägi kogu lugu.

Kuidas Databricks ja MLPerf mõõdavad tokeneid sekundis

Mis on Nvidia Rubin CPX?

Databricks võtab võrdluseks esindusliku hulga RAG-e ja võtab kokku: 2048 sisendtokenit ja 256 väljundtokenitSee ühendab mõlemad faasid (eeltäitmise ja dekodeerimise) ning optimeerib vaikimisi läbilaskevõime ja latentsuse tasakaalu partiide puhul, mis on 1 päringu kohta, simuleerides mitut samaaegset päringut.

Selle reegli kohaselt loevad numbrid umbes nii: kui konfigureerite lõpp-punkti kiiruseks 2304 märki sekundis (2048 + 256), Nende suurustega päring võtab umbes sekundiKui määrate selle 5600 tokenile sekundis, langeb sama päringu töötlemise aeg umbes 0,5 sekundini ja saate töödelda kaks sarnast päringut sekundis.

Kui teie töökoormus muutub, muutub ka latentsusaeg. Rohkemate väljundmärkide genereerimine on karistavam kui sisendmärkide suurendamine.Kui teete partiipõhist järeldamist, arvutage oma andmestiku sisend- ja väljundtokenide keskmine arv ning võrrelge seda aegade hindamiseks eelmise võrdlusalusega.

Praktilised näited: 1000 rea, keskmiselt 3000 sisend- ja 500 väljundtokeni ning ettenähtud läbilaskevõimega 3500 tokenit sekundis, see võtab sul rohkem kui 1000 sekundit sest teie keskmised ületavad võrdlusväärtust. Kui aga teie keskmine sisend on 1500 ja väljund 100 ning varustamine toimub kiirusega 1600 žetooni sekundis, jääd alla 1000 sekundi kokku nende 1000 rea kohta.

  Kuidas valida arvutikorpust: vormitegurid, ventilatsioon, esteetika

Nõudmisel automaatne skaleerimine ja tegeliku skaleerimise arvutamine

Databricksi mudeli serveerimine hõlmab kiiret automaatset skaleerimist, mis Suurendage või vähendage ressursse vastavalt žetoonide nõudlusele sekundisSüsteem skaleerub võimsusplokkide kaupa ja lisavõimsuse eest arveldatakse ainult siis, kui seda kasutatakse. Rohkemate paralleelsete päringutega testides suureneb eraldatud läbilaskevõime, kuni see ressursside küllastumisel stabiliseerub umbes 8000 märgini sekundis, suurendades järjekorra latentsust.

Kui märkad, et sekundis on vähem märke kui märgitud, siis kontrolli kahte asja: Eelistatud samaaegsus, mis kajastab lõpp-punkti mõõdikuid ja minimaalset ribalaiuse suurust konfigureeritud. Nende andmete põhjal hinnatakse tegelikku skaleerimist järgmise valemi abil: eraldatud samaaegsus × minimaalne ribalaiuse suurus / 4.

Konkreetne näide: maksimaalse samaaegsuse korral 8 ja minimaalse riba suuruse korral 850 žetooni sekundis, Tegelik piirang oleks 1700 žetooni sekundis. (8 × 850 / 4). Selle arvutuse mõistmine hoiab ära üllatused ja aitab teil oma sätteid vastavalt latentsusaja SLO-dele täpsustada.

MLPerfi järeldus: mis see on ja mida see tänapäeval mõõdab

MLPerf, mille on välja töötanud MLCommons, on avatud ja standardiseeritud tarkvarakomplekt tehisintellekti jõudluse mõõtmiseks andmekeskuses ja servas, alates nägemisest kuni õigusteaduse juhtimiseni (LLM). Selle eesmärk on võrrelda platvorme õiglasel ja reprodutseeritaval viisil, et edendada ökosüsteemi tõhusust.Viimastel aastatel on fookus selgelt nihkunud GenAI ja suurte LLM-ide poole.

Viiendas väljaandes konsolideeriti Llama 2 70B staarivõrdlusplatvormina, asendades ResNet50 ja Tokenite sekundis näitajad paranesid parimal juhul ühe aastaga kuni 3,3 korda, mille keskmine jõudlus on tänu riist- ja tarkvara optimeerimisele 5 korda suurem. Selliste protsessorite nagu Intel Xeon 6 olemasolu ametlikes tulemustes näitas samuti, et Teatud stsenaariumides on ruumi tõhusatele üldistele lahendustele.

MLPerf Inference'i versioon 5.1 on teinud järjekordse hüppe edasi: see lisas kolm uut olulist võrdlusnäitajat, arutluskäik DeepSeek-R1 abil, kõnest tekstiks Whisper Large v3 abil ja väike LLM Llama 3.1 8B põhjalKokku teatas konsortsium 27 osalejast, saavutas 90.000 XNUMX tulemuse verstaposti ja kitsendas interaktiivsete stsenaariumide latentsusaja mõõdikuid.

Uute võrdlusaluste mõõdikud ja eesmärgid

DeepSeek-R1 arutluskäivitusmeetod, mis koosneb 671B parameetrist, näitab, et Need mudelid loovad enne vastuse saamist pikki arutlusahelaidToetab kuni 20.000 3880 tokeni väljundeid, keskmiselt XNUMX tokenit väljundi kohta andmestikus, mis on seni suurim järelduste tegemisel.

Reeglid mõõdavad läbilaskevõimet võrguühenduseta režiimis ja serverirežiimis rangete piirangutega: Esimese žetooni saabumise aeg 2 sekundit ja latentsus žetooni kohta 80 ms p99 juuresSee püüab tasakaalustada „mõtlemisvõimelist” eelarvet selle rakendamiseks vajaliku reageerimisvõimega.

Väike LLM-i võrdlustest Llama 3.1‑8B-ga asendab GPT‑J 6B-d väravana. Toetab kuni 128.000 XNUMX tokeni kontekste ja hindab CNN-DailyMaili kokkuvõtet 778 sisendtokeni ja 73 väljundtokeni abil. Täpsus valideeritakse ROUGE abil ja suletud jagamise korral peab see vastama 99 protsendile suure täpsusega võrdlusalusest.

Latentsusaja mõõdikutes kasutatakse kahte indikaatorit: TTFT (aeg esimese tokenini) ja TPOT (aeg tokeni väljastamise kohta). Serveril on märgitud 2 sekundit TTFT-d ja 100 ms TPOT-i. (umbes 480 ppm) ja uues interaktiivses stsenaariumis on see vastavalt 0,5 sekundile ja 30 millisekundile (umbes 1600 ppm) selliste juhtumite jaoks nagu vestlus, kodeerimine või loomingulised tööriistad.

Tootja ja operaatori jõudluse olulisemad näitajad

  • NVIDIA juhtis taas, seekord Blackwell Ultraga GB300 NVL72 süsteemil, mis skooris Arutluskäigu rekord, DeepSeek-R45 läbilaskevõime on 1 protsenti suurem kui GB200 NVL72-lulatudes võrguühenduseta 5842 tokenini sekundis GPU kohta ja serveris 2907 tokenini, mis on peaaegu 5 korda parem kui kontrollimata Hopper.
  • Uues Llama 3.1 405B interaktiivses võrdlustestis rakendas NVIDIA Dynamoga jaotatud serveerimine, eraldades konteksti ja genereerimise erinevatel GPU-del ning edastades KV vahemälu NVLinki kaudu, saavutades 1,5× suurema läbilaskevõime GPU kohta kui traditsioonilisel Blackwelli serveerimisel ja enam kui 5× suurema läbilaskevõime kui Hopperiga süsteemides.
  • Väiksemate mudelite puhul teatas NVIDIA Llama 18.000 3.1B võrguühenduseta versioonil üle 8 XNUMX žetooni sekundis GPU kohta ja Whisperis 5667 tokenit sekundis GPU kohta, säilitades GPU juhtpositsiooni kõigis stsenaariumides (võrguühenduseta, serveris ja interaktiivselt).
  • AMD laiendas oma kohalolekut Instinct MI355X GPU esimese saadetisega, mis on nüüd 2-70B vahemikus. See näitas mitme sõlme skaleerimist ja 2,7-kordset tokenite arvu suurenemist sekundis võrreldes MI325X-iga FP8-s.Avatud jaotuse korral rakendati Llama 3.1‑405B (FP4) puhul struktureeritud pügamist. suurendades läbilaskevõimet 82 protsenti 21-protsendilise sügavusega kärbitud mudeliga ja 90 protsenti 33-protsendilise täpsema mudeliga, säilitades täpsuse.
  • Samuti debüteeris ettevõte Llama 2‑70B Interactive'i, Mixtral‑8×7B ja Stable Diffusion XL-i saadetistega ning esitles MI300X/MI325X segatulemusi: 4 sõlmeni skaleerimisel saavutas MI355X 3,4 korda suurema läbilaskevõime kui MI300X., ulatudes 8 sõlmeni hea skaleeritavusega.
  • HPE, mis ühendas ProLianti ja Cray, teatas 14 esikoha tulemusest. DL1a Gen380 paistis silma DLRM ja Llama 12‑3.1B (server) kategooriates 8-GPU-liste PCIe süsteemide seas; DL8 Gen385 Whisperis oli märgatavalt parem GPU jõudlus H200 NVL-iga; ja Cray XD670 (8× H200) saavutas kuus esimest kohta RetinaNet, Llama 3.1‑8B, Mixtral ja Whisper testides, lisaks esimesed tulemused RTX Pro 6000 Blackwell SE ja GH200 NVL2 tulemustega DLRM-is.
  • CoreWeave oli esimene pilveteenus, mis teatas GB300-ga seotud tulemustest, pakkudes 6005 tokenit sekundis graafikaprotsessori kohta DeepSeek-R1-s võrguühenduseta ning demonstreerib Slurmiga Kuberneteses orkestreerimist ja skaleerimist ning topoloogiateadlikku ajastamist, et NVLinkist maksimumi võtta.
  • Dell tarnis 12 AMD ja NVIDIA kiirenditega süsteemi, millest säras LLaMA 2 70B Interactive koos PowerEdge XE9680L ja B200-ga. LLaMA 3.1‑8B server XE9685L+B200 peal, SDXL mudelil XE9685L ja Whisper mudelil XE9680L, demonstreerides mitmekülgsust pildi ja hääle vahel LLM-i kaudu.
  • Intel rõhutas, et see jääb samaks ainus, mis saadab tulemusi serveri protsessoritega ja näitas, et P-tuumadega Xeon 6 on viie võrdlustesti põhjal 1,9 korda parem kui 5. põlvkonna Xeon, kinnistades oma rolli üldotstarbelises järelduste tegemisel. Samuti tutvustati tööjaamu 8 Arc Pro B60 GPU-ga ja 192 GB videomäluga, et pakkuda Llama2-70B-d mitmele kasutajale, ning komplekteeritud draivereid ja raamistikke mitme GPU juurutamise lihtsustamiseks.
  • Integraatorite ja partnerite hulgas on ASUSTeK Optimeeritud latentsus ja läbilaskevõime kvantimise, tuumade ja pinu abil; Broadcom demonstreeris VCF virtualiseerimist minimaalse üldkuluga võrreldes palja metalliga mitme töökoormuse korral (Whisper, SDXL, Llama 3.1-405B, Llama2-70B, RGAT, RetinaNet); Cisco skaleeris peaaegu lineaarselt UCS C885A M8 (8× H200 SXM) ja UCS C845A M8 (8× H200 NVL või L40S) abil, mida toetasid One G200 võrgud.
  • KRAI võrdles OpenAI API-t ja realistlikke üldkulusid kasutades SGLangi ja vLLM-i Llama3.1‑70B-ga: 31.391 0.4.9 žetooni sekundis võrguühenduseta SGLang XNUMX abil ja 26.319 0.9.2 vLLM 8-ga ühel serveril 200x H27.697-ga; dünaamilise kvantimise korral ulatus see SGLangiga 30.893 87.334-ni ja vLLM-iga XNUMX XNUMX-ni ning mitmesõlmelises keskkonnas skaleerus see kolmel serveril XNUMX XNUMX tokenini sekundis.
  • Lambda koos 8x B200 180 GB SXM-iga näitas läbilaskevõime paranemist kuni 7 protsenti SDXL-is ja 15 protsenti Llama 3.1‑405B-s võrreldes eelmise vooruga ning pakub klastreid 16 kuni 1536 GPU-ga koos hallatud Kubernetes'i või Slurm'iga.
  • MiTAC säras oma G8825Z5 seeriaga LLaMA 2 70B Interactive'il koos 18.846,1 märki sekundis ja häid tulemusi serveris ja Mixtralis; Nebius sertifitseeris oma virtualiseeritud jõudluse peaaegu võrdseks palja metalliga GB200 NVL72, HGX B200 ja HGX H200 puhul, kusjuures 596,11 žetooni sekundis serveris ja 855,82 žetooni võrguühenduseta Llama 3.1‑405B-l 4 GB 200 graafikakaardiga.
  • Red Hat demonstreeris oma tehisintellekti järeldusserveris vLLM-i toetatud käituskeskkonnana koos CUTLASSi tuumad FP8 ja FlashAttention‑3 jaoks pluss täiustatud vLLM v1 mootor, annab jõu Llama-3.1-8B-le H100 ja L40S mudelites suurepärase hinna ja kvaliteedi suhte.
  • Supermicro saavutas HGX-B200 8-GPU-ga (õhk ja vedelik) juhtivaid tulemusi nii Inteli kui ka AMD protsessoritega, rõhutades järgmist: Llama 3.1‑8B ja Llama 2‑70B serveris/võrguühenduseta/interaktiivses ja Whisperis; koostöös näitas see suurepärast skaleerimist 32× H100-SXM-iga ja alternatiividega MI325X-iga.
  • Vultr debüteeris Supermicro AS-8126GS-TNMR ja 8x MI325X-iga, mis kinnitasid konkurentsivõimelist jõudlust pilvepõhise graafikakaardina; GATEOverflow edendas reprodutseeritavust MLCFlow abil RTX 4090 ja AMD/Inteli protsessoritel; Giga Computing tarnis 8U õhkjahutusega EPYC+MI325X ja Xeon+HGX B200 süsteeme; QCT hõlmas Xeon 6 konfiguratsioone H200 NVL-iga (4 GPU-d) ja 8× H200 SXM5 platvormidega NVLinki ja GPUDirect salvestusruumiga, lisaks 8× MI325X süsteemile.
  Mis on Nvidia Rubin CPX: arhitektuur, platvorm ja kasutusalad

Ka akadeemilisel ringkonnal oli oma hetk. Florida Ülikool oma DGX B200 SuperPOD-iga, mis oli integreeritud HiPerGatoriga, oli esimene institutsioon, mis esitas järelduste tulemused Serveri latentsusaegadega arvestamine suletud partitsiooni all, kasutades Apptainerit ilma Docker/Sudota ja sobitudes mitme kasutaja SLURM-i. Vastupidises äärmuses, üks esitus M1 MacBook Pro-l, ONNX Runtime'i ja CoreML-iga GPU-l ning Neuraalmootoril, ületas servakategoorias sihtmärgi täpsuse ja näitas, et kvaliteedijäreldusi saab hinnata tarbijariistvaral.

Kasutajate tajutav kiirus ja praktilised piirid

Kasutajakogemust ei mõõdeta ainult võrdlusaluste abil; igapäevaelus Sujuvuse tunne tekib siis, kui ületate teatud žetoonide läve sekundisÜks kasutaja kommenteeris, et tema vestluse piirang on 4 žetooni sekundis ja loo kirjutamise piirang umbes 10 žetooni sekundis; sellest allapoole tundub suhtlus aeglane.

Kui proovite LLM-i lokaalselt käivitada, on kolm reaalsust. Lauaarvuti protsessoril On normaalne liikuda kiirusega 1–2 žetooni sekundis, pikkade vastuste jaoks teostamatu. Tipptasemel mängugraafikaga saab ligi 5 žetooni sekundis. NVIDIA H100 puhul räägime jah juba 60 žetoonist sekundis, aga see on andmekeskuse riistvara, mitte lauaarvuti riistvara.

Mis toimub pilves? Kõige võimsamad pakkujad ületavad neid numbreid tänu spetsiaalsele riistvarale ja optimeeritud järeldusplatvormidele. ChatGPT-119-s on teatatud keskmiselt umbes 4 žetoonist sekundis ja Gemini's 168 žetoonist sekundis., samas kui populaarsed avatud lähtekoodiga mudelid nagu DeepSeek edastavad umbes 21 tokenit sekundis. Kui see sõnadeks teisendada, on 119 tokenit sekundis umbes 90 sõna sekundis.

  FSB: Mis see on? Milleks seda kasutatakse? Kas see on kadunud?

Operatiivne järeldus: enamiku kasutajate jaoks Tehisintellekti arvutis käitamine on võimalik, kuid aegluse tõttu ebapraktilineMugava kiiruse ja lühikese latentsusega töötamiseks jäävad hallatud teenused mõistlikuks valikuks.

Kuidas TPS-i abil oma lõpp-punkti suurust määrata ja mida latentsusajast oodata

Suuruse määramise praktilised sammud. Kõigepealt kirjeldage oma kasutusjuhtumit: Sisend- ja väljundtokenide keskmine arv, pikkusjaotus ja eeldatav samaaegsusTeiseks, tehke koormustest representatiivse andmestikuga, mis hõlmab TTFT-d ja päringu kohta sekundis säilitatavate märkide arvu.

Seejärel joondage konfiguratsioon oma mustriga. Kui teie töökoormus sarnaneb Databricksi viitega (2048 sisse, 256 välja), Valige sekundis olevate tokenite vahemik nii, et päring jääks soovitud latentsusaja eelarvesse.Pea meeles, et väljundi dubleerimine maksab tavaliselt rohkem kui sisendi dubleerimine ja efektiivne samaaegsus sõltub tegelikust automaatsest skaleerimisest.

Jälgi ja kohanda. Hoia silma peal mõõdikutel ette nähtud samaaegsus, järjekorrad, TTFT ja TPOTja võrrelge seda oma SLO-dega. Kui teil on vähe mahtu, laiendage vahemikku; kui teil on ressursse üleliigselt, vähendage seda ja kohandage plokke säästmiseks. Tegelik skaleerimisvalem aitab teil mõista, miks lõpp-punkt ei tööta konfigureeritult, kui see ei loonud piisavalt koopiaid.

Lõpuks olge teadlik stsenaariumist. Interaktiivses vestlusroboti stiilis režiimis püüdke saavutada TTFT-d 0,5 sekundit ja 30 ms tokeni kohta See annab teile esmaklassilise kasutuskogemuse. Serverirežiimis on mõistlikud juhised 2 sekundit ja 100 ms tokeni kohta ning võrguühenduseta režiimis püütakse saavutada maksimaalset läbilaskevõimet, säilitades samal ajal võrdlusaluse nõutava täpsuse.

MLPerfi trende vaadates on vektor selge: Rohkem konteksti, rohkem märke ja paremad efektiivsustehnikad —disagregeeritud serveerimine, FP4/FP8, struktureeritud pügamine, kohandatud tuumad, KV vahemälu ajastamine — tõstavad žetoonide ülemmäära iga teise aastaga kõrgemale, nii kiibi kui ka süsteemi kohta.

Databricksi ja MLPerfi joonistatud üldpilt on järjepidev: LLM-is on õige mõelda tokenite arvule sekundis, et hinnata kulusid, latentsust ja skaleeritavust.Hea esindusliku võrdlusaluse, TTFT/TPOT-mõõdikute ja hästi kalibreeritud automaatse skaleerimise abil on võimalik pakkuda kiireid ja stabiilseid vastuseid ilma infrastruktuuri ülemasinastamata.

Nvidia Blackwell Ultra GB300
Seotud artikkel:
NVIDIA Blackwell Ultra GB300: arhitektuur, mälu ja NVLink 5