Koks yra žetonų skaičius per sekundę, matuojamas MLPerf, ir kaip jie naudojami LLM?

Paskutiniai pakeitimai: rugsėjo 16 d. 2025 m.
Autorius: Izaokas
  • LLM geriausiai vertinami žetonais per sekundę: įvestis ir išvestis lemia delsą.
  • „Databricks“ teikia galinius taškus naudodama TPS ir automatinį mastelio keitimą; „MLPerf“ standartizuoja metrikas.
  • Nauji etalonai („DeepSeek-R1“, „Whisper“, „Llama 3.1-8B“) sustiprina TTFT/TPOT.

žetonų per sekundę MLPerf

Jei dirbate su kalbos modeliais, terminą „žetonai per sekundę“ girdėjote tūkstantį kartų, tačiau retai kada išsamiai paaiškinama, ką tai reiškia realioje aplinkoje ir, svarbiausia, kaip „MLPerf“ tai matuoja. Šiame straipsnyje aiškiai paaiškiname, kas yra žetonai, kodėl žetonų per sekundę metrika yra tokia svarbi išvadoms ir kaip tokios platformos kaip „Databricks“ ir „MLPerf“ etalonas jį naudoja dydžiui nustatyti, palyginimui ir masteliui nustatyti. Be to, įtraukiame konkrečius gamintojų duomenis ir debesų bei antžeminių paslaugų našumo lūkesčius..

Problema nėra maža: pramonė standartizavo žetonus per sekundę, kad įvertintų LLM našumą duomenų centruose ir periferijoje. „MLPerf“, recenzuojamas „MLCommons“ programų rinkinys, tapo techninės ir programinės įrangos lyginimo etalonu.Lygiagrečiai tokie operatoriai kaip „Databricks“ jau teikia savo modelių galinius taškus tiesiogiai, remdamiesi žetonų per sekundę diapazonu. Panagrinėkime visa tai, remdamiesi skaičiais ir naudojimo atvejais.

Kas yra žetonas ir kodėl jis svarbus LLM?

Kalbos modeliai neapdoroja atskirų raidžių ar žodžių tokių, kokie jie yra; jie veikia su vienetais, vadinamais žetonais. Žetonas paprastai yra apie 4 simbolių ilgio arba vidutiniškai 0,75 žodžio.Šis santykis skiriasi priklausomai nuo kalbos ir modelio žetonų generatoriaus, tačiau jis naudojamas kaip trumpa nuoroda: 10 žodžių tekste yra 13–14 žetonų.

Tikslus suskirstymas priklauso nuo modelio: Kiekvienas LLM naudoja savo tokenizerį ir padalija žodžius į pilnus tokenus arba subžodžius.Internetiniai įrankiai leidžia matyti, pavyzdžiui, kaip „Llama“ tokenizuoja konkrečią frazę. Šis kintamumas, kuris atrodo kaip maža detalė, turi įtakos delsai ir skaičiavimo sąnaudoms.

Kalbant apie generavimo greitį, jis paprastai išreiškiamas žetonais per sekundę, o ne žodžiais per sekundę. Tai suvienodina metriką skirtingose ​​kalbose, konteksto ilgiuose ir išvesties stiliuose., ir leidžia tiksliai apskaičiuoti išvados kainą ir reikiamą pajėgumą.

Kodėl našumas matuojamas žetonais per sekundę, o ne RPS?

Tradicinės API paslaugos daugiausia dėmesio skiria RPS (užklausų per sekundę skaičiui). LLM šis metodas yra nepakankamas: Dvi užklausos gali užtrukti labai skirtingą laiką, priklausomai nuo įvesties ir išvesties žetonų.Tai yra, faktinis naudingasis krūvis pateikiamas žetonais, o ne „iškvietimų skaičiumi“.

Yra du pagrindiniai kintamumo šaltiniai. Pirma, įvesties konteksto ilgis: Trumpame raginime gali būti vos keli žetonai, tačiau santraukos dokumente jų gali būti šimtai ar tūkstančiai.Kita vertus, išvesties ilgis: apibendrinimas paprastai sukuria mažiau žetonų; ilgo straipsnio ar aprašymo generavimas padidina laiką, nes išvesties dekodavimas yra brangiausia dalis.

Todėl norint realistiškai įvertinti išvados galinį tašką, naudinga mąstyti žetonų terminais. Pavyzdžiui, „Databricks“ savo aptarnavimo galinius taškus aprūpina žetonų diapazonu per sekundę ir apmokestina kas valandą pagal mastelį.Tokiu būdu galite suderinti pajėgumus su faktine apkrova, neapsigauti RPS, kuris nepasako visos istorijos.

Kaip „Databricks“ ir „MLPerf“ matuoja žetonų skaičių per sekundę

Kas yra „Nvidia Rubin CPX“?

„Databricks“ kaip pavyzdį ima reprezentatyvų RAG skaičių ir apibendrina: 2048 įvesties žetonai ir 256 išvesties žetonaiJis sujungia abu etapus (išankstinį užpildymą ir dekodavimą) ir pagal numatytuosius nustatymus optimizuoja balansą tarp pralaidumo ir delsos, kai paketų dydis yra 1 užklausai, imituodamas kelias vienu metu vykdomas užklausas.

Taikant šią taisyklę, skaičiai skamba taip: jei sukonfigūruojate galinį tašką, kurio greitis yra 2304 žetonai per sekundę (2048 + 256), Užklausa su tokiais dydžiais trunka apie sekundęJei nustatysite 5600 žetonų per sekundę, tos pačios užklausos trukmė sutrumpės iki maždaug 0,5 s ir galėsite apdoroti dvi panašias užklausas per sekundę.

Kai keičiasi jūsų darbo krūvis, pasikeis ir delsa. Didesnis išvesties žetonų skaičius yra baudžiamesnis nei įvesties žetonų skaičiaus didinimas.Jei atliekate paketinį vertinimą, apskaičiuokite vidutinį įvesties ir išvesties žetonų skaičių savo duomenų rinkinyje ir palyginkite jį su ankstesniu etalonu, kad įvertintumėte laiką.

Praktiniai pavyzdžiai: esant 1000 eilučių, vidutiniškai 3000 įvesties ir 500 išvesties žetonų, o numatytas pralaidumas – 3500 žetonų per sekundę, užtruks daugiau nei 1000 sekundžių nes jūsų vidurkiai viršija atskaitos vertes. Jei vietoj to vidutiniškai naudojate 1500 įvesties ir 100 išvesties duomenų su 1600 žetonų per sekundę aprūpinimu, nukrisite mažiau nei 1000 sekundžių iš viso toms 1000 eilučių.

  Aparatinės įrangos forumas: išsamus skyrių ir turinio vadovas

Automatinis mastelio keitimas pagal poreikį ir faktinio mastelio skaičiavimas

„Databricks“ modelių aptarnavimas apima greitą automatinį mastelio keitimą, kuris Padidinkite arba sumažinkite išteklius pagal žetonų poreikį per sekundęSistema keičiasi pajėgumų blokais, o už papildomus pajėgumus mokama tik tada, kai jie naudojami. Testuose su daugiau lygiagrečių užklausų, numatytas pralaidumas didėja, kol stabilizuojasi ties maždaug 8000 žetonų per sekundę, kai ištekliai yra perpildyti, todėl padidėja eilės delsa.

Jei pastebite mažiau žetonų per sekundę nei pažymėjote, patikrinkite du dalykus: Numatytas lygiagretumas, atspindintis galinių taškų metriką ir minimalų pralaidumo dydį sukonfigūruotas. Remiantis šiais duomenimis, faktinis mastelio keitimas apskaičiuojamas pagal formulę: numatytas lygiagretumas × minimalus pralaidumo dydis / 4.

Konkretus pavyzdys: kai maksimalus lygiagretumas yra 8, o minimalus juostelių dydis – 850 žetonų per sekundę, Faktinė riba būtų 1700 žetonų per sekundę. (8 × 850 / 4). Šio skaičiavimo supratimas padeda išvengti netikėtumų ir tiksliai suderinti nustatymus su jūsų delsos SLO.

MLPerf išvada: kas tai yra ir ką ji šiandien matuoja

„MLPerf“, sukurtas „MLCommons“, yra atviras ir standartizuotas rinkinys, skirtas dirbtinio intelekto našumui matuoti duomenų centruose ir periferiniuose tinkluose – nuo ​​regėjimo iki teisės magistro (LLM). Jos tikslas – sąžiningai ir atkartojamai palyginti platformas, siekiant skatinti ekosistemos efektyvumą.Pastaraisiais metais dėmesys akivaizdžiai nukrypo į GenAI ir dideles LLM studijas.

Penktajame leidime „Llama 2 70B“ buvo įtvirtintas kaip žvaigždės etalonas, išstumdamas „ResNet50“, ir Žetonų per sekundę rodikliai per metus geriausiu atveju pagerėjo iki 3,3 karto., o vidutinis našumas yra 5 kartus didesnis dėl aparatinės ir programinės įrangos optimizavimo. Tokių procesorių kaip „Intel Xeon 6“ buvimas oficialiuose rezultatuose taip pat parodė, kad Tam tikrais atvejais yra vietos efektyviems universaliems sprendimams.

„MLPerf Inference“ 5.1 versija žengė dar vieną žingsnį į priekį: joje buvo įtraukti trys nauji pagrindiniai etalonai, samprotavimas naudojant „DeepSeek-R1“, kalbos konvertavimas į tekstą naudojant „Whisper Large v3“ ir maža LLM, pagrįsta „Llama 3.1 8B“Iš viso konsorciumas pranešė apie 27 dalyvius, pasiekė 90.000 XNUMX rezultatų ribą ir susiaurino delsos rodiklius interaktyviuose scenarijuose.

Naujųjų lyginamųjų rodiklių rodikliai ir tikslai

Samprotavimo etalonas su „DeepSeek-R1“, 671B parametrų MoE, rodo, kad Šie modeliai sukuria ilgas samprotavimų grandines prieš atsakymąPalaiko iki 20.000 3880 žetonų išvestis, vidutiniškai XNUMX XNUMX žetonų vienai išvestiei duomenų rinkinyje – didžiausias iki šiol išvadų skaičius.

Taisyklės matuoja pralaidumą neprisijungus ir serverio režimuose su griežtais apribojimais: Laikas iki pirmojo žetono – 2 sekundės, o kiekvieno žetono delsa – 80 ms ties p99Taip siekiama subalansuoti „mąstymo“ biudžetą su jam panaudoti reikalingu reagavimu.

Mažas LLM etalonas su „Llama 3.1‑8B“ pakeičia GPT‑J 6B kaip vartų šaltinį. Palaiko iki 128.000 XNUMX žetonų kontekstus ir įvertina santrauką CNN-DailyMail platformoje su 778 įvesties ir 73 išvesties žetonais. Tikslumas patvirtinamas naudojant ROUGE ir, atliekant uždarojo dalybos metodą, turi atitikti 99 procentus didelio tikslumo etalono.

Vėlavimo metrikoje naudojami du rodikliai: TTFT (laikas iki pirmojo žetono) ir TPOT (laikas per žetono išleidimą). Serveryje užfiksuota 2 s TTFT ir 100 ms TPOT. (apie 480 ppm), o naujame interaktyviame scenarijuje jis sutrumpinamas atitinkamai iki 0,5 s ir 30 ms (apie 1600 ppm) tokiems atvejams kaip pokalbiai, kodavimas ar kūrybiniai įrankiai.

Gamintojo ir operatoriaus našumo rodikliai

  • NVIDIA vėl pirmavo, šį kartą su „Blackwell Ultra“ GB300 NVL72 sistemoje, pelnydama taškus. Samprotavimo rekordas – „DeepSeek-R45“ našumas 1 procentais didesnis nei „GB200 NVL72“., pasiekdamas 5842 žetonus per sekundę vienam GPU neprisijungus ir 2907 serveryje, o tai yra beveik 5 kartus geresni rezultatai, palyginti su nepatvirtintu „Hopper“.
  • Naujajame interaktyviame „Llama 3.1 405B“ etaloniniame teste NVIDIA pritaikė išskaidytas pateikimas su „Dynamo“, atskiriant kontekstą ir generavimą skirtinguose GPU ir perduodant KV talpyklą per NVLink, pasiekiamas 1,5 karto didesnis pralaidumas vienam GPU nei tradicinis aptarnavimas „Blackwell“ sistemoje ir daugiau nei 5 kartus didesnis nei sistemose su „Hopper“.
  • Mažesniems modeliams NVIDIA pranešė Daugiau nei 18.000 3.1 žetonų per sekundę vienam GPU „Llama 8 XNUMXB“ neprisijungus ir 5667 žetonus per sekundę vienam GPU „Whisper“ režime, išlaikant GPU lyderystę visuose scenarijuose (neprisijungus, serveryje ir interaktyviai).
  • AMD išplėtė savo veiklą, išleisdama pirmąją „Instinct MI355X“ vaizdo plokštės siuntą, kuri dabar yra 2–70B diapazone. FP2,7 programoje jis parodė kelių mazgų mastelio keitimą ir 325 karto didesnį žetonų skaičių per sekundę, palyginti su MI8X.Atvirojo dalijimo metu struktūrinis genėjimas buvo pritaikytas „Llama 3.1‑405B“ (FP4) veislei. padidinant pralaidumą 82 procentais naudojant 21 procento gylio genėjimo modelį ir 90 procentų naudojant 33 procentų tiksliau suderintą modelį, išlaikant tikslumą.
  • Taip pat buvo pristatyti „Llama 2‑70B Interactive“, „Mixtral‑8×7B“ ir „Stable Diffusion XL“ žaidimai, o MI300X/MI325X rezultatai buvo mišrūs: Padidinus našumą iki 4 mazgų, MI355X pasiekė 3,4 karto didesnį pralaidumą nei MI300X., išplečiamas iki 8 mazgų su geru mastelio keitimu.
  • HPE, sujungusi „ProLiant“ ir „Cray“, pranešė apie 14 pirmaujančių rezultatų. „DL1a Gen380“ išsiskyrė „DLRM“ ir „Llama 12‑3.1B“ (serverio) kategorijose tarp 8 GPU PCIe sistemų; „DL8 Gen385“ pažymėtas geresnis GPU našumas „Whisper“ žaidime su H200 NVL; o „Cray XD670“ (8× H200) pelnė šešis pirmuosius taškus „RetinaNet“, „Llama 3.1‑8B“, „Mixtral“ ir „Whisper“ testuose, taip pat pirmuosius taškus su RTX Pro 6000 Blackwell SE ir GH200 NVL2 DLRM testuose.
  • „CoreWeave“ buvo pirmoji debesijos įmonė, paskelbusi GB300 rezultatus. 6005 žetonai per sekundę vienam GPU „DeepSeek-R1“ technologijoje neprisijungus ir demonstruojant orkestravimą bei mastelio keitimą naudojant „Slurm“ „Kubernetes“ platformoje ir topologijos pagrindu veikiantį planavimą, kad būtų galima kuo geriau išnaudoti „NVLink“.
  • „Dell“ išleido 12 sistemų su AMD ir NVIDIA greitintuvais, iš kurių geriausiai pasirodė „LLaMA 2 70B Interactive“ su „PowerEdge XE9680L“ ir „B200“. „LLaMA 3.1‑8B“ serveris su XE9685L+B200„SDXL“ XE9685L modelyje ir „Whisper“ XE9680L modelyje, demonstruodami universalumą – nuo ​​vaizdo iki balso naudojant LLM.
  • „Intel“ pabrėžė, kad ji išlieka vienintelis, siunčiantis rezultatus su serverio procesoriais ir parodė, kad „Xeon 6“ su P branduoliais penkiuose lyginamuosiuose testuose 1,9 karto pagerina 5-osios kartos „Xeon“ našumą, taip įtvirtindamas savo vaidmenį bendrosios paskirties išvadų gamyboje. Taip pat pristatytos darbo stotys su 8 „Arc Pro B60“ GPU ir 192 GB vaizdo atminties, skirtos „Llama2‑70B“ aptarnauti keliems vartotojams, ir sujungtos tvarkyklės bei platformos, siekiant supaprastinti kelių GPU diegimą.
  • Tarp integratorių ir partnerių, ASUSTeK Optimizuotas delsos laikas ir pralaidumas naudojant kvantizavimą, branduolius ir steko technologiją„Broadcom“ pademonstravo VCF virtualizaciją su minimaliomis sąnaudomis, palyginti su „plikos metalo“ saugyklomis, esant keliems darbo krūviams („Whisper“, SDXL, „Llama 3.1-405B“, „Llama2-70B“, RGAT, „RetinaNet“); „Cisco“ beveik tiesiškai padidino mastelį su UCS C885A M8 (8× H200 SXM) ir UCS C845A M8 (8× H200 NVL arba L40S), kuriuos palaikė „One G200“ tinklai.
  • KRAI, naudodama „OpenAI“ API ir realius sąnaudų rodiklius, palygino SGLang ir vLLM su „Llama3.1‑70B“: 31.391 0.4.9 žetonas per sekundę neprisijungus naudojant „SGLang XNUMX“ ir 26.319 0.9.2 su vLLM 8 viename serveryje su 200x H27.697; naudojant dinaminį kvantavimą jis pasiekė 30.893 87.334 su SGLang ir XNUMX XNUMX su vLLM, o kelių mazgų aplinkoje jis padidėjo iki XNUMX XNUMX žetonų per sekundę trijuose serveriuose.
  • „Lambda“ su 8x B200 180 GB SXM parodė pralaidumo padidėjimą iki 7 procentų SDXL ir 15 procentų Llama 3.1‑405B palyginti su ankstesniu etapu, ir siūlo klasterius nuo 16 iki 1536 GPU su valdoma „Kubernetes“ arba „Slurm“.
  • „MiTAC“ su savo G8825Z5 serija sužibėjo „LLaMA 2 70B Interactive“ parodoje. 18.846,1 žetonų per sekundę ir gerus rezultatus „Server“ ir „Mixtral“ sistemose; „Nebius“ sertifikavo savo virtualizuotą našumą, beveik prilygstantį „bare metal“ GB200 NVL72, HGX B200 ir HGX H200 sistemose. 596,11 žetonų per sekundę serveryje ir 855,82 žetonų neprisijungus prie tinklo „Llama 3.1‑405B“ versijoje su 4 GB 200 vaizdo plokštėmis.
  • „Red Hat“ pademonstravo vLLM kaip palaikomą vykdymo aplinką savo AI išvados serveryje. CUTLASS branduoliai, skirti FP8 ir FlashAttention‑3 plius patobulintas vLLM v1 variklis, užtikrinantis puikų kainos ir kokybės santykį, varo „Llama-3.1-8B“ H100 ir L40S modeliuose.
  • „Supermicro“ paskelbė geriausius rezultatus su „HGX-B200 8 GPU“ (oro ir skysčio) procesoriumi, kuriame naudojami tiek „Intel“, tiek „AMD“ procesoriai. „Llama 3.1‑8B“ ir „Llama 2‑70B“ serveryje / neprisijungus / interaktyviai ir „Whisper“; bendradarbiaujant, jis pademonstravo puikų mastelio keitimą su 32× H100‑SXM ir alternatyvomis su MI325X.
  • „Vultr“ debiutavo su „Supermicro AS-8126GS-TNMR“ ir 8x MI325X, patvirtindami konkurencingą našumą kaip debesijos GPU; „GATEOverflow“ skatino atkuriamumą naudojant MLCFlow „RTX 4090“ ir AMD/Intel procesoriuose; „Giga Computing“ pristatė 8U oru aušinamas EPYC+MI325X ir „Xeon+HGX B200“ sistemas; QCT apėmė „Xeon 6“ konfigūracijas su H200 NVL (4 GPU) ir 8× H200 SXM5 platformas su NVLink ir GPUDirect saugykla, taip pat 8× MI325X sistemas.
  Memristor: Kas tai yra, kam naudojamas šis elektroninis prietaisas, sėkmė ar nesėkmė?

Akademinė bendruomenė taip pat patyrė savo akimirką. Floridos universitetas, turėdamas DGX B200 SuperPOD su integruota „HiPerGator“, buvo pirmoji institucija, pateikusi išvadų rezultatus Serverio delsų tenkinimas uždarame skaidinyje, naudojant „Apptainer“ be „Docker“ / „Sudo“ ir pritaikymas daugelio vartotojų SLURM. Priešingoje pusėje – vienas pateikimas naudojant „M1 MacBook Pro“. su ONNX Runtime ir CoreML GPU ir neuroniniu varikliu, pranoko tikslinį tikslumą krašto kategorijoje ir pademonstravo, kad kokybės nustatymą galima įvertinti naudojant vartotojų įrangą.

Vartotojų suvokiamas greitis ir praktiniai apribojimai

Vartotojo patirtis matuojama ne tik lyginamaisiais rodikliais; kasdieniame gyvenime, Sklandumo jausmas atsiranda, kai viršijate tam tikrą žetonų per sekundę ribą.Vienas vartotojas pakomentavo, kad jo pokalbių riba yra 4 žetonai per sekundę, o istorijų rašymui – apie 10 žetonų per sekundę; žemiau šios ribos sąveika atrodo lėta.

Jei bandysite paleisti LLM lokaliai, yra trys realybės. Darbalaukio procesoriuje, Normalu judėti 1–2 žetonais per sekundę., neįmanoma ilgiems atsakymams. Su aukščiausios klasės žaidimų GPU galite gauti beveik 5 žetonus per sekundę. Su NVIDIA H100, taip, mes jau kalbame apie 60 žetonų per sekundę, bet tai duomenų centro, o ne stalinio kompiuterio įranga.

Kas vyksta debesyje? Galingiausi tiekėjai lenkia šiuos skaičius dėl specializuotos įrangos ir optimizuotų išvadų rinkinių. „ChatGPT-119“ platformoje pranešama apie vidutiniškai apie 4 žetonų per sekundę, o „Gemini“ platformoje – 168., o populiarūs atvirojo kodo modeliai, tokie kaip „DeepSeek“, veikia maždaug 21 žetonu per sekundę. Jei tai konvertuotumėte į žodžius, 119 žetonų per sekundę atitinka maždaug 90 žodžių per sekundę.

  Transakcinė atmintis: kas tai yra ir kaip veikia šis lygiagretumo valdymo mechanizmas

Išvada apie praktinę veiklą: daugumai vartotojų Dirbtinio intelekto paleidimas kompiuteryje yra įmanomas, bet nepraktiškas dėl lėtumoNorint dirbti patogiu greičiu ir su mažu delsos laiku, valdomos paslaugos išlieka protingu pasirinkimu.

Kaip nustatyti galinio taško dydį pagal TPS ir ko tikėtis iš delsos

Praktiniai dydžio nustatymo žingsniai. Pirmiausia apibūdinkite savo naudojimo atvejį: Vidutinis įvesties ir išvesties žetonų skaičius, ilgio pasiskirstymas ir numatomas lygiagretumasAntra, atlikite apkrovos testą su reprezentatyviu duomenų rinkiniu, įtraukdami TTFT ir žetonų skaičių per sekundę, palaikomą kiekvienoje užklausoje.

Toliau suderinkite konfigūraciją su savo šablonu. Jei jūsų darbo krūvis panašus į „Databricks“ nuorodą (2048 įėjimai, 256 išėjimai), Pasirinkite žetonų diapazoną per sekundę taip, kad užklausa atitiktų norimą delsos biudžetąAtminkite, kad išvesties dubliavimas paprastai kainuoja daugiau nei įvesties dubliavimas, o efektyvus lygiagretumas priklauso nuo faktinio automatinio mastelio keitimo.

Stebėkite ir koreguokite. Stebėkite metriką numatytas lygiagretumas, eilės, TTFT ir TPOTir palyginkite jį su savo SLO. Jei trūksta pajėgumų, išplėskite diapazoną; jei turite išteklių perteklių, sumažinkite jį ir pakoreguokite blokus, kad sutaupytumėte. Tikroji mastelio formulė padės suprasti, kodėl galinis taškas neveikia taip, kaip sukonfigūruotas, jei nesukūrė pakankamai replikų.

Galiausiai, atkreipkite dėmesį į scenarijų. Interaktyviame pokalbių roboto stiliaus režime, siekite 0,5 s ir 30 ms TTFT vienam žetonui Tai suteiks jums aukščiausios kokybės naudotojo patirtį. Serverio režimu 2 s ir 100 ms vienam žetonui yra pagrįstos rekomendacijos, o neprisijungus siekiama maksimalaus pralaidumo, išlaikant etalono reikalaujamą tikslumą.

Žvelgiant į MLPerf tendencijas, vektorius aiškus: Daugiau konteksto, daugiau žetonų ir geresni efektyvumo metodai – išskaidytas aptarnavimas, FP4/FP8, struktūrinis genėjimas, pasirinktiniai branduoliai, KV talpyklos planavimas – kasmet didina žetonų skaičių tiek vienam lustui, tiek sistemai.

Bendras „Databricks“ ir „MLPerf“ nupieštas vaizdas yra nuoseklus: Mąstymas žetonų per sekundę terminais yra teisingas būdas samprotauti apie kainą, delsą ir mastelio keitimą LLM srityje.Naudojant gerą reprezentatyvų etaloną, TTFT/TPOT metrikas ir gerai sukalibruotą automatinį mastelio keitimą, galima pateikti greitus ir stabilius atsakymus neperkraunant infrastruktūros.

Nvidia Blackwell Ultra GB300
Susijęs straipsnis:
NVIDIA Blackwell Ultra GB300: architektūra, atmintis ir NVLink 5