- LLM dinilai terbaik dalam token sesaat: input dan output menentukan kependaman.
- Databricks menyediakan titik akhir oleh TPS dan autoscale; MLPerf menyeragamkan metrik.
- Penanda aras baharu (DeepSeek-R1, Whisper, Llama 3.1-8B) mengeraskan TTFT/TPOT.

Jika anda bekerja dengan model bahasa, anda telah mendengar istilah "token sesaat" seribu kali, tetapi jarang sekali ia diterangkan secara terperinci maksudnya dalam persekitaran dunia sebenar dan, terutama sekali, cara MLPerf mengukurnya. Dalam artikel ini, kami menerangkan dengan jelas apakah token, sebab metrik token sesaat sangat penting dalam inferens dan cara platform seperti Databricks dan penanda aras MLPerf menggunakannya untuk saiz, perbandingan dan skala. Selain itu, kami menyertakan angka khusus daripada pengilang dan awan kepada jangkaan prestasi tanah..
Isunya bukan kecil: industri telah menyeragamkan token sesaat untuk menilai prestasi LLM di pusat data dan di tepi. MLPerf, suite MLCommons semakan rakan sebaya, telah menjadi penanda aras untuk membandingkan perkakasan dan perisian.Secara selari, pengendali seperti Databricks telah menyediakan titik akhir model mereka secara langsung berdasarkan julat token sesaat. Mari kita pecahkan semua ini, dengan nombor dan kes penggunaan di tangan.
Apakah token dan mengapa ia penting dalam LLM?
Model bahasa tidak memproses huruf atau perkataan individu sebagaimana adanya; mereka bekerja dengan unit yang dipanggil token. Token biasanya mempunyai panjang kira-kira 4 aksara, atau secara purata, 0,75 perkataan.Nisbah ini berbeza-beza bergantung pada bahasa dan tokenizer model, tetapi ia berfungsi sebagai rujukan pantas: teks 10 perkataan bergerak sekitar 13–14 token.
Pembahagian yang tepat bergantung pada model: Setiap LLM menggunakan tokenizer sendiri dan membahagikan perkataan kepada token atau subkata yang lengkapAlat dalam talian membolehkan anda melihat, sebagai contoh, cara Llama menokenkan frasa tertentu. Kebolehubahan ini, yang kelihatan seperti butiran kecil, mempengaruhi kependaman dan kos pengkomputeran.
Apabila bercakap tentang kadar penjanaan, ia biasanya dinyatakan dalam bentuk token sesaat, bukannya perkataan sesaat. Ini menyeragamkan metrik merentas bahasa, panjang konteks dan gaya keluaran., dan membolehkan untuk mengira dengan tepat kos inferens dan kapasiti yang diperlukan.
Mengapa mengukur prestasi dalam token sesaat dan bukan dalam RPS?
Perkhidmatan API tradisional memfokuskan pada RPS (permintaan sesaat). Dalam LLM, pendekatan itu kurang: Dua permintaan boleh mengambil masa yang sangat berbeza bergantung pada token input dan token outputIaitu, muatan sebenar datang dalam token, bukan dalam "bilangan panggilan."
Terdapat dua sumber utama kebolehubahan. Pertama, panjang konteks input: Gesaan pendek mungkin hanya mempunyai beberapa token, tetapi dokumen ringkasan boleh melonjak kepada ratusan atau ribuan.Sebaliknya, panjang output: meringkaskan biasanya menghasilkan lebih sedikit token; menjana artikel atau penerangan yang panjang meningkatkan masa, kerana penyahkodan output adalah bahagian yang paling mahal.
Oleh itu, untuk menskalakan titik akhir inferens secara realistik, adalah berguna untuk berfikir dari segi token. Databricks, sebagai contoh, memperuntukkan titik akhir Servisnya dengan julat token sesaat dan mengebil setiap jam berdasarkan penskalaan.Dengan cara ini, anda boleh menyelaraskan kapasiti dengan beban sebenar tanpa tertipu oleh RPS yang tidak menceritakan keseluruhan cerita.
Cara Databricks dan MLPerf mengukur token sesaat
Databricks mengambil beban perwakilan RAG sebagai rujukan dan meringkaskan: 2048 token input dan 256 token output. Ia menggabungkan kedua-dua fasa (praisi dan nyahkod) dan, secara lalai, mengoptimumkan keseimbangan antara pemprosesan dan kependaman untuk saiz kelompok 1 setiap permintaan, mensimulasikan berbilang permintaan serentak.
Dengan peraturan itu, nombor dibaca seperti ini: jika anda mengkonfigurasi titik akhir pada 2304 token sesaat (2048 + 256), Permintaan dengan saiz tersebut mengambil masa kira-kira satu saatJika anda menetapkannya kepada 5600 token sesaat, permintaan yang sama turun kepada kira-kira 0,5 s dan anda boleh memproses dua permintaan yang serupa sesaat.
Apabila beban kerja anda berubah, kependaman akan berubah. Menjana lebih banyak token output menghukum lebih daripada meningkatkan token input.Jika anda melakukan inferens kelompok, hitung purata bilangan token input dan output untuk set data anda dan bandingkannya dengan penanda aras sebelumnya untuk menganggarkan masa.
Contoh praktikal: dengan 1000 baris, purata 3000 input dan 500 token output, dan daya pengeluaran yang diperuntukkan sebanyak 3500 token sesaat, ia akan membawa anda lebih daripada 1000 saat kerana purata anda melebihi rujukan. Jika sebaliknya anda purata 1500 input dan 100 output dengan peruntukan 1600 token sesaat, anda akan pergi di bawah 1000 saat secara keseluruhan untuk 1000 baris tersebut.
Penskalaan auto atas permintaan dan pengiraan skala sebenar
Penyajian Model Databricks termasuk penskalaan automatik yang pantas itu Menambah atau mengurangkan sumber berdasarkan permintaan untuk token sesaatSistem berskala dalam blok kapasiti, dan kapasiti tambahan hanya dibilkan apabila digunakan. Dalam ujian dengan permintaan yang lebih selari, daya pemprosesan yang diperuntukkan meningkat sehingga ia stabil pada kira-kira 8000 token sesaat apabila sumber tepu, meningkatkan kependaman giliran.
Jika anda mendapati lebih sedikit token sesaat daripada yang anda tandakan, semak dua perkara: Keselarasan yang diperuntukkan mencerminkan metrik titik akhir dan saiz lebar jalur minimum dikonfigurasikan. Dengan data ini, penskalaan sebenar dianggarkan menggunakan formula: provisioned concurrency × saiz lebar jalur minimum / 4.
Contoh konkrit: dengan konkurensi maksimum 8 dan saiz jalur minimum 850 token sesaat, Had berkesan ialah 1700 token sesaat (8 × 850 / 4). Memahami pengiraan ini menghalang kejutan dan membantu anda memperhalusi tetapan anda kepada SLO kependaman anda.
Inferens MLPerf: Apakah itu dan apa yang diukur hari ini
MLPerf, yang dibangunkan oleh MLCommons, ialah suite terbuka dan piawai untuk mengukur prestasi AI dalam pusat data dan kelebihan, daripada penglihatan kepada LLM. Matlamatnya adalah untuk membandingkan platform dengan cara yang adil dan boleh dihasilkan semula untuk memacu kecekapan ekosistem.Dalam beberapa tahun kebelakangan ini, tumpuan jelas telah beralih ke arah GenAI dan LLM yang besar.
Dalam edisi kelima, Llama 2 70B telah disatukan sebagai penanda aras bintang, menggantikan ResNet50 dan Metrik token sesaat bertambah baik sehingga 3,3x dalam kes terbaik dalam satu tahun, dengan prestasi median 5 kali lebih tinggi berkat pengoptimuman perkakasan dan perisian. Kehadiran CPU seperti Intel Xeon 6 dalam keputusan rasmi juga menunjukkannya Terdapat ruang untuk penyelesaian umum yang cekap dalam senario tertentu.
Versi 5.1 MLPerf Inference telah mengambil satu lagi lonjakan ke hadapan: ia menggabungkan tiga penanda aras utama baharu, penaakulan dengan DeepSeek-R1, pertuturan ke teks dengan Whisper Large v3 dan LLM kecil berdasarkan Llama 3.1 8BSecara keseluruhan, konsortium melaporkan 27 peserta, mencapai pencapaian 90.000 keputusan dan mengecilkan metrik kependaman dalam senario interaktif.
Metrik dan objektif dalam penanda aras baharu
Penanda aras penaakulan dengan DeepSeek‑R1, KPM dengan parameter 671B, menunjukkan bahawa Model-model ini menghasilkan rantaian penaakulan yang panjang sebelum jawapan. Menyokong output sehingga 20.000 token, dengan purata 3880 token setiap output dalam set data, yang terbesar setakat ini dalam inferens.
Peraturan mengukur daya tampung dalam mod luar talian dan mod pelayan dengan had yang ketat: Masa untuk token pertama 2 saat dan kependaman setiap token 80 ms pada p99Ini bertujuan untuk mengimbangi belanjawan "berfikir" dengan responsif yang diperlukan untuk menggunakannya.
Penanda aras LLM kecil dengan Llama 3.1‑8B menggantikan GPT‑J 6B sebagai pintu masuk. Menyokong konteks sehingga 128.000 token dan menilai ringkasan pada CNN‑DailyMail dengan 778 token input dan 73 token output. Ketepatan disahkan dengan ROUGE dan, dalam bahagian tertutup, diperlukan untuk memadankan 99 peratus penanda aras ketepatan tinggi.
Dalam metrik kependaman, dua penunjuk digunakan: TTFT (masa kepada token pertama) dan TPOT (masa setiap token keluar). Pada pelayan, 2 s TTFT dan 100 ms TPOT dicatatkan. (sekitar 480 ppm), dan dalam senario interaktif baharu, ia masing-masing diperah kepada 0,5 s dan 30 ms (sekitar 1600 ppm) untuk kes seperti sembang, pengekodan atau alatan kreatif.
Sorotan prestasi oleh pengilang dan pengendali
- NVIDIA mendahului sekali lagi, kali ini dengan Blackwell Ultra pada sistem GB300 NVL72, pemarkahan Rekod dalam penaakulan dengan 45 peratus lebih pemprosesan DeepSeek‑R1 daripada GB200 NVL72, mencapai 5842 token sesaat setiap GPU luar talian dan 2907 pada pelayan, dengan peningkatan hampir 5x berbanding Hopper yang tidak disahkan.
- Dalam penanda aras interaktif Llama 3.1 405B baharu, NVIDIA digunakan hidangan diagregatkan dengan Dynamo, memisahkan konteks dan penjanaan pada GPU yang berbeza dan memindahkan KV Cache ke atas NVLink, mencapai 1,5× lebih pemprosesan bagi setiap GPU daripada siaran tradisional di Blackwell dan lebih daripada 5× lebih daripada sistem dengan Hopper.
- Untuk model yang lebih kecil, NVIDIA melaporkan Lebih 18.000 token sesaat setiap GPU pada Llama 3.1 8B luar talian dan 5667 token sesaat setiap GPU dalam Whisper, mengekalkan kepimpinan GPU dalam semua senario (luar talian, pelayan dan interaktif).
- AMD mengembangkan kehadirannya dengan penghantaran pertama GPU Instinct MI355X, yang kini berada dalam julat 2‑70B. Ia menunjukkan penskalaan berbilang nod dan peningkatan 2,7x dalam token sesaat berbanding MI325X dalam FP8. Dalam bahagian terbuka, pemangkasan berstruktur telah digunakan pada Llama 3.1-405B (FP4), meningkatkan daya pengeluaran sebanyak 82 peratus dengan model pemangkasan kedalaman 21 peratus dan sebanyak 90 peratus dengan model 33 peratus lebih ditala halus, mengekalkan ketepatan.
- Ia juga memulakan penghantaran dalam Llama 2‑70B Interactive, Mixtral‑8×7B dan Stable Diffusion XL, dan mempersembahkan hasil campuran MI300X/MI325X: Apabila menskalakan kepada 4 nod, MI355X mencapai 3,4x lebih pemprosesan daripada MI300X, memanjang kepada 8 nod dengan kebolehskalaan yang baik.
- HPE, menggabungkan ProLiant dan Cray, melaporkan 14 keputusan nombor 1. DL380a Gen12 menonjol dalam DLRM dan Llama 3.1‑8B (Pelayan) di kalangan sistem PCIe 8-GPU; DL385 Gen11 menandakan prestasi GPU yang lebih baik dalam Whisper dengan H200 NVL; dan Cray XD670 (8× H200) mendapat enam mata pertama dalam RetinaNet, Llama 3.1‑8B, Mixtral dan Whisper, ditambah yang pertama dengan hasil RTX Pro 6000 Blackwell SE dan GH200 NVL2 dalam DLRM.
- CoreWeave ialah awan pertama yang melaporkan hasil dengan GB300, menyampaikan 6005 token sesaat setiap GPU dalam DeepSeek‑R1 luar talian dan menunjukkan orkestrasi dan penskalaan dengan Slurm pada Kubernetes dan penjadualan yang mengetahui topologi untuk memanfaatkan sepenuhnya NVLink.
- Dell menghantar 12 sistem dengan pemecut AMD dan NVIDIA, bersinar dalam LLaMA 2 70B Interactive dengan PowerEdge XE9680L dan B200, Pelayan LLaMA 3.1‑8B pada XE9685L+B200, SDXL pada XE9685L dan Whisper pada XE9680L, menunjukkan fleksibiliti daripada imej ke suara melalui LLM.
- Intel menegaskan bahawa ia kekal satu-satunya untuk menghantar hasil dengan CPU pelayan dan menunjukkan bahawa Xeon 6 dengan P-cores meningkatkan 1,9× berbanding Xeon Gen Ke-5 merentas lima penanda aras, mengukuhkan peranannya dalam inferens tujuan umum. Ia juga memperkenalkan stesen kerja dengan 8 GPU Arc Pro B60, dengan 192GB VRAM untuk menyediakan Llama2‑70B kepada berbilang pengguna, dan memadukan pemacu dan rangka kerja untuk memudahkan penggunaan berbilang GPU.
- Antara penyepadu dan rakan kongsi, ASUSTeK Kependaman dan daya pemprosesan yang dioptimumkan dengan kuantisasi, kernel dan tindanan; Broadcom menunjukkan virtualisasi VCF dengan overhed minimum berbanding logam kosong pada pelbagai beban kerja (Whisper, SDXL, Llama 3.1-405B, Llama2-70B, RGAT, RetinaNet); Cisco berskala hampir secara linear dengan UCS C885A M8 (8× H200 SXM) dan UCS C845A M8 (8× H200 NVL atau L40S), disokong oleh rangkaian One G200.
- KRAI, menggunakan API OpenAI dan overhed realistik, membandingkan SGLang dan vLLM dengan Llama3.1‑70B: 31.391 token sesaat di luar talian dengan SGLang 0.4.9 dan 26.319 dengan vLLM 0.9.2 pada pelayan tunggal dengan 8x H200; dengan kuantisasi dinamik ia mencapai 27.697 dengan SGLang dan 30.893 dengan vLLM, dan pada berbilang nod ia berskala sehingga 87.334 token sesaat pada tiga pelayan.
- Lambda, dengan 8x B200 180 GB SXM, menunjukkan peningkatan daya pengeluaran sehingga 7 peratus dalam SDXL dan 15 peratus dalam Llama 3.1-405B berbanding pusingan sebelumnya, dan menawarkan kluster daripada 16 hingga 1536 GPU dengan Kubernetes atau Slurm terurus.
- MiTAC, dengan siri G8825Z5, bersinar di LLaMA 2 70B Interaktif dengan 18.846,1 token sesaat dan keputusan yang baik dalam Pelayan dan Mixtral; Nebius memperakui prestasi mayanya hampir setanding dengan logam kosong dalam GB200 NVL72, HGX B200 dan HGX H200, dengan 596,11 token sesaat pada pelayan dan 855,82 token luar talian pada Llama 3.1‑405B dengan 4 GB200 GPU.
- Red Hat menunjukkan vLLM sebagai masa jalan yang disokong pada Pelayan Inferens AInya, dengan Inti CUTLASS untuk FP8 dan FlashAttention‑3 ditambah dengan enjin vLLM v1 yang dipertingkatkan, kuasa Llama‑3.1‑8B dalam H100 dan L40S dengan nisbah prestasi kos yang hebat.
- Supermicro menyiarkan keputusan terkemuka dengan HGX‑B200 8‑GPU (udara dan cecair) dengan kedua-dua CPU Intel dan AMD, menyerlahkan Llama 3.1‑8B dan Llama 2‑70B pada pelayan/luar talian/interaktif dan Whisper; dengan kerjasama, ia menunjukkan penskalaan yang sangat baik dengan 32× H100‑SXM dan alternatif dengan MI325X.
- Vultr memulakan kerjaya dengan Supermicro AS‑8126GS‑TNMR dan 8x MI325X, memperakui prestasi kompetitif sebagai GPU Awan; GATEOverflow menggalakkan kebolehulangan dengan MLCFlow pada RTX 4090 dan CPU AMD/Intel; Giga Computing menghantar sistem EPYC+MI8X dan Xeon+HGX B325 yang disejukkan udara 200U; QCT meliputi konfigurasi Xeon 6 dengan platform H200 NVL (4 GPU) dan 8× H200 SXM5 dengan NVLink dan GPUDirect Storage, sebagai tambahan kepada sistem 8× MI325X.
Akademia juga mempunyai masanya. Universiti Florida, dengan DGX B200 SuperPOD disepadukan dengan HiPerGator, merupakan institusi pertama yang menyerahkan keputusan inferens Memenuhi kependaman pelayan di bawah pembahagian tertutup, menggunakan Apptainer tanpa Docker/Sudo, dan menyesuaikan ke dalam SLURM berbilang pengguna. Pada ekstrem yang bertentangan, satu penyerahan pada M1 MacBook Pro, dengan ONNX Runtime dan CoreML pada GPU dan Enjin Neural, melepasi ketepatan sasaran dalam kategori kelebihan dan menunjukkan bahawa inferens kualiti boleh dinilai pada perkakasan pengguna.
Kelajuan yang dilihat oleh pengguna dan had praktikal
Pengalaman pengguna bukan sahaja diukur dalam tanda aras; dalam kehidupan seharian, Perasaan kecairan datang apabila anda melebihi ambang tertentu token sesaatSeorang pengguna mengulas bahawa had mereka untuk perbualan ialah 4 token sesaat, dan untuk penulisan cerita, ia adalah sekitar 10 token sesaat; di bawah itu, interaksi terasa perlahan.
Jika anda cuba menjalankan LLM secara tempatan, terdapat tiga realiti. Pada CPU desktop, Ia adalah perkara biasa untuk bergerak pada 1–2 token sesaat, tidak boleh dilakukan untuk jawapan yang panjang. Dengan GPU permainan mewah, anda boleh mendapatkan hampir 5 token sesaat. Dengan NVIDIA H100, ya, kita sudah bercakap tentang 60 token sesaat, tetapi ia adalah perkakasan pusat data, bukan perkakasan desktop.
Apa yang berlaku di awan? Pembekal yang paling berkuasa mengalahkan nombor ini berkat perkakasan khusus dan tindanan inferens yang dioptimumkan. Purata sekitar 119 token sesaat telah dilaporkan pada ChatGPT‑4 dan 168 pada Gemini., manakala model sumber terbuka popular seperti DeepSeek berlegar sekitar 21 token sesaat. Jika anda menukarnya kepada perkataan, 119 token sesaat adalah sekitar 90 perkataan sesaat.
Kesimpulan operasi: untuk kebanyakan pengguna, Menjalankan AI pada komputer adalah mungkin, tetapi tidak praktikal kerana perlahanUntuk bekerja pada kelajuan yang selesa dan dengan kependaman yang ketat, perkhidmatan terurus kekal sebagai pilihan yang wajar.
Cara mensaiz titik akhir anda mengikut TPS dan perkara yang diharapkan daripada kependaman
Langkah-langkah praktikal untuk saiz. Mula-mula, gariskan kes penggunaan anda: Purata bilangan token input dan output, pengedaran panjang dan keselarasan yang dijangkakan. Kedua, jalankan ujian beban dengan set data perwakilan, yang melibatkan TTFT dan token sesaat yang dikekalkan setiap permintaan.
Seterusnya, selaraskan konfigurasi dengan corak anda. Jika beban kerja anda menyerupai rujukan Databricks (2048 in, 256 out), Pilih julat token sesaat supaya permintaan berada dalam belanjawan kependaman yang dikehendakiIngat bahawa output pendua biasanya kos lebih tinggi daripada input pendua, dan konkurensi yang berkesan bergantung pada penskalaan automatik sebenar.
Pantau dan laraskan. Perhatikan metrik konkurensi yang diperuntukkan, baris gilir, TTFT dan TPOT, dan bandingkan dengan SLO anda. Jika anda kekurangan kapasiti, luaskan julat; jika anda mempunyai lebihan sumber, turunkannya dan laraskan blok untuk disimpan. Formula penskalaan sebenar akan membantu anda memahami sebab titik akhir tidak berfungsi seperti yang dikonfigurasikan jika ia tidak menghasilkan replika yang mencukupi.
Akhirnya, ambil tahu senario itu. Dalam mod gaya chatbot interaktif, menyasarkan TTFT sebanyak 0,5s dan 30ms setiap token Ini akan memberi anda pengalaman pengguna premium. Dalam mod pelayan, 2 s dan 100 ms setiap token adalah garis panduan yang munasabah, dan di luar talian, ia mencari daya pemprosesan maksimum sambil mengekalkan ketepatan yang diperlukan oleh penanda aras.
Melihat arah aliran MLPerf, vektornya jelas: Lebih banyak konteks, lebih banyak token dan teknik kecekapan yang lebih baik —penyajian terpisah, FP4/FP8, pemangkasan berstruktur, kernel tersuai, penjadualan cache KV— sedang melonjakkan siling token pada tahun kedua demi tahun, kedua-duanya setiap cip dan setiap sistem.
Gambar keseluruhan yang dilukis oleh Databricks dan MLPerf adalah konsisten: Berfikir dari segi token sesaat ialah cara yang betul untuk membuat alasan tentang kos, kependaman dan kebolehskalaan dalam LLM.Dengan penanda aras perwakilan yang baik, metrik TTFT/TPOT dan penskalaan auto yang ditentukur dengan baik, adalah mungkin untuk menyampaikan respons yang cepat dan stabil tanpa terlalu besar infrastruktur.
