- LLM-ови се најбоље процењују у токенима по секунди: улаз и излаз одређују латенцију.
- Датабрикс обезбеђује крајње тачке помоћу TPS-а и аутоматског скалирања; MLPerf стандардизује метрике.
- Нови бенчмаркови (DeepSeek-R1, Whisper, Llama 3.1-8B) појачавају TTFT/TPOT.

Ако радите са језичким моделима, чули сте термин „токени у секунди“ хиљаду пута, али ретко је детаљно објашњено шта он значи у стварним окружењима и, пре свега, како га MLPerf мери. У овом чланку јасно објашњавамо шта су токени, зашто је метрика токена у секунди толико важна у закључивању и како је платформе попут Databricks-а и MLPerf бенчмарка користе за одређивање величине, поређење и скалирање. Поред тога, укључујемо конкретне бројке произвођача и очекивања у погледу перформанси од облака до земље..
Проблем није мали: индустрија је стандардизовала број токена у секунди како би проценила перформансе LLM-а у центрима података и на рубу мреже. MLPerf, рецензирани пакет MLCommons, постао је референтна тачка за упоређивање хардвера и софтвера.Паралелно са тим, оператери попут Databricks-а већ директно обезбеђују крајње тачке својих модела на основу опсега токена у секунди. Хајде да све ово анализирамо, са бројевима и случајевима употребе.
Шта је токен и зашто је важан у мастер студијама права (LLM)?
Језички модели не обрађују појединачна слова или речи какве јесу; они раде са јединицама које се називају токени. Токен је обично дугачак око 4 карактера, или у просеку 0,75 речи.Овај однос варира у зависности од језика и токенизатора модела, али служи као брза референца: текст од 10 речи креће се око 13–14 токена.
Тачна сегментација зависи од модела: Сваки LLM користи свој токенизатор и дели речи на комплетне токене или подречи.Онлајн алати вам омогућавају да видите, на пример, како Лама токенизује одређену фразу. Ова варијабилност, која делује као мали детаљ, утиче на латенцију и трошкове рачунарства.
Када се говори о брзини генерисања, она се обично изражава у броју токена у секунди, а не речи у секунди. Ово хомогенизује метрику у различитим језицима, дужинама контекста и стиловима излаза., и омогућава прецизно израчунавање трошкова закључивања и потребног капацитета.
Зашто мерити перформансе у токенима по секунди, а не у RPS-у?
Традиционалне API услуге се фокусирају на RPS (захтеве у секунди). У LLM-у, тај приступ је недовољан: Два захтева могу трајати веома различито у зависности од улазних и излазних токенаТо јест, стварни корисни терет долази у токенима, а не у „броју позива“.
Постоје два кључна извора варијабилности. Прво, дужина улазног контекста: Кратак упит може имати само неколико токена, али резиме документа може скочити на стотине или хиљаде.С друге стране, дужина излаза: сумирање обично производи мање токена; генерисање дугог чланка или описа повећава време, јер је декодирање излаза најскупљи део.
Стога, да би се реално скалирала крајња тачка закључивања, корисно је размишљати у смислу токена. На пример, Databricks обезбеђује својим крајњим тачкама за сервирање низ токена по секунди и наплаћује по сату на основу скалирања.На овај начин можете ускладити капацитет са стварним оптерећењем, а да вас не завара RPS који не говори целу причу.
Како Databricks и MLPerf мере токене у секунди
Датабрикс узима репрезентативни број RAG-ова као референцу и сумира: 2048 улазних токена и 256 излазних токенаКомбинује обе фазе (претходно попуњавање и декодирање) и, подразумевано, оптимизује равнотежу између пропусног опсега и латенције за величине серија од 1 по захтеву, симулирајући више истовремених захтева.
Са тим правилом, бројеви гласе овако: ако конфигуришете крајњу тачку на 2304 токена у секунди (2048 + 256), Захтев са тим величинама траје око секундеАко га подесите на 5600 токена у секунди, исти захтев пада на око 0,5 с и можете обрадити два слична захтева у секунди.
Када се ваше радно оптерећење промени, промениће се и латенција. Генерисање више излазних токена кажњава више него повећање улазних токена.Ако радите пакетно закључивање, израчунајте просечан број улазних и излазних токена за ваш скуп података и упоредите га са претходним бенчмарком да бисте проценили времена.
Практични примери: са 1000 редова, просечно 3000 улазних и 500 излазних токена и обезбеђеним протоком од 3500 токена у секунди, Требаће вам више од 1000 секунди јер ваши просеци прелазе референтну вредност. Ако уместо тога у просеку имате 1500 улазних и 100 излазних токена са 1600 токена у секунди, пашћеш испод 1000 секунди укупно за тих 1000 редова.
Аутоматско скалирање на захтев и прорачун стварног скалирања
Сервирање модела података помоћу блокова укључује брзо аутоматско скалирање које Повећајте или смањите ресурсе на основу потражње за токенима по секундиСистем се скалира у блоковима капацитета, а додатни капацитет се наплаћује само када се користи. У тестовима са више паралелних захтева, обезбеђени проток се повећава док се не стабилизује на око 8000 токена у секунди када су ресурси засићени, повећавајући латенцију чекања.
Ако приметите мање токена у секунди него што сте означили, проверите две ствари: Обезбеђена конкурентност која одражава метрике крајњих тачака и минималну величину пропусног опсега конфигурисано. Са овим подацима, стварно скалирање се процењује помоћу формуле: обезбеђена конкурентност × минимална величина пропусног опсега / 4.
Конкретан пример: са максималном конкурентношћу од 8 и минималном величином траке од 850 токена у секунди, Ефективно ограничење би било 1700 токена у секунди (8 × 850 / 4). Разумевање овог прорачуна спречава изненађења и помаже вам да фино подесите своја подешавања према вашим SLO-овима латенције.
MLPerf инференција: Шта је то и шта мери данас
MLPerf, који је развила компанија MLCommons, је отворени и стандардизовани пакет за мерење перформанси вештачке интелигенције у дата центрима и на рубу мреже, од визије до мастер студија управљања логиком (LLM). Његов циљ је да упореди платформе на праведан и репродуктивн начин како би се подстакла ефикасност екосистема.У скорашњим издањима, фокус се јасно померио ка GenAI и великим LLM-овима.
У петом издању, Llama 2 70B је консолидован као водећи бенчмарк, потискујући ResNet50, и Метрике токена по секунди су се побољшале до 3,3 пута у најбољем случају за годину дана, са средњим перформансама 5 пута већим захваљујући оптимизацијама хардвера и софтвера. Присуство процесора попут Intel Xeon 6 у званичним резултатима такође је показало да У одређеним сценаријима постоји простор за ефикасна генералистичка решења.
Верзија 5.1 MLPerf Inference-а је направила још један корак напред: укључила је три нова кључна показатеља, резоновање помоћу DeepSeek-R1, претварање говора у текст помоћу Whisper Large v3 и мали LLM заснован на Llama 3.1 8BУкупно, конзорцијум је пријавио 27 учесника, достигао прекретницу од 90.000 резултата и сузио метрике латенције у интерактивним сценаријима.
Метрике и циљеви у новим бенчмарковима
Референтно тестирање резоновања са DeepSeek‑R1, MoE са 671B параметара, показује да Ови модели производе дуге ланце резоновања пре него што дођу до одговораПодржава излазе до 20.000 токена, са просеком од 3880 токена по излазу у скупу података, што је до сада највећи број у инференцији.
Правила мере пропусност у офлајн режиму и серверском режиму са строгим ограничењима: Време до првог токена од 2 секунде и латенција по токену од 80 мс на p99Ово тежи да уравнотежи „размишљајући“ буџет са брзином реаговања неопходном за његово спровођење.
Мали LLM бенчмарк са Llama 3.1‑8B замењује GPT‑J 6B као гејтвеј. Подржава контексте до 128.000 токена и процењује сумирање на CNN-DailyMail-у са 778 улазних токена и 73 излазна токена. Тачност се валидира помоћу ROUGE-а и, у затвореној подели, потребно је да се подудара са 99 процената референтне вредности високе тачности.
У метрикама латенције користе се два индикатора: TTFT (време до првог токена) и TPOT (време по изласку токена). На серверу су забележене 2 с TTFT-а и 100 мс TPOT-а. (око 480 ppm), а у новом интерактивном сценарију је смањено на 0,5 с и 30 мс респективно (око 1600 ppm) за случајеве као што су ћаскање, кодирање или креативни алати.
Најважније перформансе произвођача и оператера
- NVIDIA је поново предводила, овог пута са Blackwell Ultra на GB300 NVL72 систему, постигавши поене Рекорд у резоновању са 45 процената већим протоком DeepSeek‑R1 од GB200 NVL72, достижући 5842 токена у секунди по GPU-у офлајн и 2907 на серверу, са побољшањима близу 5 пута у поређењу са неверификованим Hopper-ом.
- У новом интерактивном Llama 3.1 405B бенчмарку, NVIDIA је применила дезагрегирано сервирање са Динамом, одвајајући контекст и генерисање на различитим графичким процесорима и преносећи KV кеш меморију преко NVLink-а, постижући 1,5× већи проток по графичком процесору него традиционално сервирање на Blackwell-у и више од 5× већи од система са Hopper-ом.
- За мање моделе, NVIDIA је известила Преко 18.000 токена у секунди по GPU-у на Llama 3.1 8B ван мреже и 5667 токена у секунди по GPU-у у Whisper-у, одржавајући лидерство GPU-а у свим сценаријима (офлајн, сервер и интерактивни).
- AMD је проширио своје присуство првом испоруком Instinct MI355X GPU-а, који је сада у распону од 2‑70B. Показало је скалирање на више чворова и повећање броја токена у секунди од 2,7 пута у односу на MI325X у FP8.У отвореној подели, структурирано орезивање је примењено на сорти Лама 3.1‑405B (FP4). повећање пропусности за 82 процента са моделом са скраћеном дубином од 21 процента и за 90 процената са моделом са прецизнијим подешавањем од 33 процента, одржавајући прецизност.
- Такође је дебитовала са испорукама Llama 2‑70B Interactive, Mixtral‑8×7B и Stable Diffusion XL, и представила је мешовите резултате MI300X/MI325X: Приликом скалирања на 4 чвора, MI355X је постигао 3,4 пута већи проток од MI300X, протеже се на 8 чворова са добром скалабилношћу.
- HPE, комбинујући ProLiant и Cray, пријавио је 14 резултата број 1. DL380a Gen12 се истакао у DLRM и Llama 3.1‑8B (Сервер) међу 8-GPU PCIe системима; DL385 Gen11 обележио боље перформансе графичког процесора у Whisper-у са H200 NVL; а Cray XD670 (8× H200) је постигао шест првих места у RetinaNet, Llama 3.1‑8B, Mixtral и Whisper, плус прва места са RTX Pro 6000 Blackwell SE и GH200 NVL2 резултатима у DLRM.
- CoreWeave је био први облак који је објавио резултате са GB300, испоручујући 6005 токена у секунди по GPU-у у DeepSeek‑R1 офлајн и демонстрирање оркестрације и скалирања помоћу Слурма на Кубернетесу и заказивања које је свесно топологије како би се извукао максимум из NVLink-а.
- Дел је испоручио 12 система са AMD и NVIDIA акцелераторима, блистајући у LLaMA 2 70B Interactive са PowerEdge XE9680L и B200, LLaMA 3.1‑8B сервер на XE9685L+B200, SDXL на XE9685L и Whisper на XE9680L, демонстрирајући свестраност од слике до гласа путем LLM-а.
- Интел је нагласио да остаје једини који шаље резултате са серверским процесорима и показао је да Xeon 6 са P-језгрима побољшава резултате за 1,9 пута у односу на Xeon 5. генерације у пет бенчмаркова, учвршћујући његову улогу у општој инференцији. Такође је представио радне станице са 8 Arc Pro B60 графичких процесора, са 192 GB VRAM-а за опслуживање Llama2‑70B више корисника, и у пакету су испоручени драјвери и фрејмворци за поједностављивање имплементације са више графичких процесора.
- Међу интеграторима и партнерима, ASUSTeK Оптимизована латенција и пропусност помоћу квантизације, језгара и стека; Broadcom је демонстрирао VCF виртуелизацију са минималним оптерећењем у односу на голу мрежу на вишеструким радним оптерећењима (Whisper, SDXL, Llama 3.1-405B, Llama2-70B, RGAT, RetinaNet); Cisco је скалирао готово линеарно са UCS C885A M8 (8× H200 SXM) и UCS C845A M8 (8× H200 NVL или L40S), уз подршку One G200 мрежа.
- KRAI је, користећи OpenAI API и реалне трошкове, упоредио SGLang и vLLM са Llama3.1‑70B: 31.391 токена у секунди ван мреже са SGLang 0.4.9 и 26.319 са vLLM 0.9.2 на једном серверу са 8x H200; са динамичком квантизацијом достигао је 27.697 са SGLang и 30.893 са vLLM, а на вишечворном систему се скалирао до 87.334 токена у секунди на три сервера.
- Ламбда, са 8x B200 180 GB SXM, показала је побољшања пропусности до 7 процената у SDXL и 15 процената у Llama 3.1‑405B у поређењу са претходном рундом, и нуди кластере од 16 до 1536 графичких процесора са управљаним Кубернетесом или Слурмом.
- MiTAC, са својом G8825Z5 серијом, блистао је на LLaMA 2 70B Interactive са 18.846,1 токена у секунди и добре резултате у Server-у и Mixtral-у; Nebius је сертификовао своје виртуелизоване перформансе готово на нивоу са голим металом у GB200 NVL72, HGX B200 и HGX H200, са 596,11 токена у секунди на серверу и 855,82 токена ван мреже на Llama 3.1‑405B са 4 GB200 графичких картица.
- Ред Хет је демонстрирао vLLM као подржано окружење за извршавање на свом АИ Inference Server-у, са CUTLASS језгра за FP8 и FlashAttention‑3 плус побољшани vLLM v1 мотор, покреће Llama‑3.1‑8B у H100 и L40S са одличним односом цене и перформанси.
- Супермикро је објавио водеће резултате са HGX‑B200 8‑GPU (ваздух и течност) са Интеловим и АМД процесорима, истичући... Лама 3.1‑8B и Лама 2‑70B на серверу/офлајн/интерактивно и Whisper; у сарадњама је показао одлично скалирање са 32× H100‑SXM и алтернативама са MI325X.
- Vultr је дебитовао са Supermicro AS‑8126GS‑TNMR и 8x MI325X, сертификујући конкурентне перформансе као Cloud GPU; GATEOverflow унапређена репродуктивност са MLCFlow-ом на RTX 4090 и AMD/Intel процесорима; Giga Computing је испоручио 8U ваздушно хлађене EPYC+MI325X и Xeon+HGX B200 системе; QCT је покрио Xeon 6 конфигурације са H200 NVL (4 GPU-а) и 8× H200 SXM5 платформама са NVLink-ом и GPUDirect Storage-ом, поред 8× MI325X система.
Академска заједница је такође имала свој тренутак. Универзитет Флориде, са својим DGX B200 SuperPOD-ом интегрисаним са HiPerGator-ом, била је прва институција која је доставила резултате закључивања Испуњавање латенција сервера под затвореним партиционисањем, коришћење Apptainer-а без Docker/Sudo-а и уклапање у вишекориснички SLURM. На супротној страни, једно подношење захтева на M1 MacBook Pro-у, са ONNX Runtime-ом и CoreML-ом на GPU-у и Neuronic Engine-у, надмашио је циљну тачност у категорији ивице и показао да се закључивање квалитета може проценити на потрошачком хардверу.
Брзина коју корисници перципирају и практична ограничења
Корисничко искуство се не мери само бенчмарковима; у свакодневном животу, Осећај флуидности настаје када пређете одређени праг токена у секундиЈедан корисник је коментарисао да је њихово ограничење за разговор 4 токена у секунди, а за писање прича око 10 токена у секунди; испод тога, интеракција се чини спором.
Ако покушате да покренете LLM локално, постоје три реалности. На десктоп процесору, Нормално је кретати се брзином од 1-2 жетона у секунди, неизводљиво за дугачке одговоре. Са врхунском гејмерском графичком картицом, можете добити близу 5 токена у секунди. Са NVIDIA H100, да, већ говоримо о 60 токена у секунди, али то је хардвер за дата центре, а не за десктоп рачунаре.
Шта се дешава у облаку? Најмоћнији провајдери превазилазе ове бројке захваљујући специјализованом хардверу и оптимизованим инференцијским стековима. Просеци од око 119 токена у секунди су пријављени на ChatGPT‑4 и 168 на Gemini., док популарни модели отвореног кода попут DeepSeek-а износе око 21 токена у секунди. Ако то претворите у речи, 119 токена у секунди је око 90 речи у секунди.
Оперативни закључак: за већину корисника, Покретање вештачке интелигенције на рачунару је могуће, али непрактично због споростиДа би се радило удобном брзином и са малим латенцијама, управљане услуге остају разумна опција.
Како одређивати величину ваше крајње тачке према TPS-у и шта очекивати од латенције
Практични кораци за одређивање величине. Прво, наведите свој случај употребе: Просечан број улазних и излазних токена, расподела дужине и очекивана конкурентностДруго, покрените тест оптерећења са репрезентативним скупом података, укључујући TTFT и број токена у секунди одржаваних по захтеву.
Затим, ускладите конфигурацију са својим обрасцем. Ако ваше радно оптерећење подсећа на референцу за Databricks (2048 улаза, 256 излаза), Изаберите опсег токена у секунди тако да захтев буде у оквиру жељеног буџета латенцијеЗапамтите да дуплирање излаза обично кошта више од дуплирања улаза и да ефективна конкурентност зависи од стварног аутоматског скалирања.
Пратите и прилагођавајте се. Пратите метрике обезбеђена конкурентност, редови, TTFT и TPOT, и упоредите га са својим SLO-овима. Ако немате довољно капацитета, проширите опсег; ако имате вишак ресурса, смањите га и прилагодите блокове да бисте уштедели. Формула за право скалирање ће вам помоћи да разумете зашто крајња тачка не ради како је конфигурисано ако није креирала довољно реплика.
Коначно, будите свесни сценарија. У интерактивном режиму у стилу четбота, циљајте на TTFT од 0,5 секунди и 30 мс по токену Ово ће вам пружити врхунско корисничко искуство. У серверском режиму, 2 с и 100 мс по токену су разумне смернице, а офлајн, тежи се максималном пропусном опсегу уз одржавање тачности коју захтева бенчмарк.
Посматрајући MLPerf трендове, вектор је јасан: Више контекста, више токена и боље технике ефикасности — дезагрегирано сервирање, FP4/FP8, структурирано орезивање, прилагођена језгра, заказивање KV кеша — подижу горњу границу токена за другу годину у односу на претходну, како по чипу тако и по систему.
Укупна слика коју су нацртали Databricks и MLPerf је доследна: Размишљање у смислу броја токена по секунди је исправан начин за размишљање о трошковима, латенцији и скалабилности у LLM-у.Са добрим репрезентативним бенчмарком, TTFT/TPOT метрикама и добро калибрисаним аутоматским скалирањем, могуће је пружити брзе и стабилне одговоре без превелике величине инфраструктуре.
