Apa token per detik yang diukur oleh MLPerf dan bagaimana penggunaannya dalam LLM?

Pembaharuan Terakhir: 16 September 2025
penulis: Isaac
  • LLM paling baik dievaluasi dalam token per detik: masukan dan keluaran menentukan latensi.
  • Databricks menyediakan titik akhir melalui TPS dan skala otomatis; MLPerf menstandardisasi metrik.
  • Benchmark baru (DeepSeek-R1, Whisper, Llama 3.1-8B) memperkuat TTFT/TPOT.

token per detik MLPerf

Jika Anda bekerja dengan model bahasa, Anda pasti sudah sering mendengar istilah "token per detik", tetapi jarang dijelaskan secara detail apa artinya di dunia nyata, dan terutama bagaimana MLPerf mengukurnya. Dalam artikel ini, kami menjelaskan secara gamblang apa itu token, mengapa metrik token per detik begitu penting dalam inferensi, dan bagaimana platform seperti Databricks dan benchmark MLPerf menggunakannya untuk mengukur, membandingkan, dan menskalakan. Selain itu, kami menyertakan angka-angka spesifik dari produsen dan ekspektasi kinerja cloud hingga ground..

Masalahnya bukan hal kecil: industri telah menstandardisasi token per detik untuk mengevaluasi kinerja LLM di pusat data dan di pinggiran. MLPerf, rangkaian MLCommons yang ditinjau sejawat, telah menjadi tolok ukur untuk membandingkan perangkat keras dan perangkat lunak.Secara paralel, operator seperti Databricks sudah menyediakan titik akhir model mereka secara langsung berdasarkan rentang token per detik. Mari kita uraikan semuanya, dengan angka dan kasus penggunaan yang tersedia.

Apa itu token dan mengapa itu penting dalam LLM?

Model bahasa tidak memproses huruf atau kata individual sebagaimana adanya; mereka bekerja dengan unit yang disebut token. Token biasanya panjangnya sekitar 4 karakter, atau rata-rata 0,75 kata.Rasio ini bervariasi bergantung pada bahasa dan tokenizer model, tetapi ini berfungsi sebagai referensi cepat: teks 10 kata memindahkan sekitar 13–14 token.

Segmentasi yang tepat bergantung pada modelnya: Setiap LLM menggunakan tokenizer-nya sendiri dan membagi kata menjadi token atau subkata yang lengkapAlat daring memungkinkan Anda melihat, misalnya, bagaimana Llama menokenisasi frasa tertentu. Variabilitas ini, yang tampak seperti detail kecil, memengaruhi latensi dan biaya komputasi.

Ketika membicarakan tentang laju pembangkitan, biasanya dinyatakan dalam bentuk token per detik, dan bukan kata per detik. Ini menyeragamkan metrik di berbagai bahasa, panjang konteks, dan gaya keluaran., dan memungkinkan penghitungan biaya inferensi dan kapasitas yang dibutuhkan secara akurat.

Mengapa mengukur kinerja dalam token per detik dan bukan dalam RPS?

Layanan API tradisional berfokus pada RPS (permintaan per detik). Dalam LLM, pendekatan tersebut kurang efektif: Dua permintaan dapat memerlukan waktu yang sangat berbeda tergantung pada token input dan token outputArtinya, muatan sesungguhnya datang dalam bentuk token, bukan dalam "jumlah panggilan".

Ada dua sumber utama variabilitas. Pertama, panjang konteks input: Perintah singkat mungkin hanya berisi beberapa token, tetapi dokumen ringkasan dapat meroket hingga ratusan atau ribuan.Di sisi lain, panjang keluaran: meringkas biasanya menghasilkan lebih sedikit token; menghasilkan artikel atau deskripsi yang panjang akan menambah waktu, karena decoding keluaran merupakan bagian yang paling mahal.

Oleh karena itu, untuk mengukur titik akhir inferensi secara realistis, ada baiknya jika berpikir dalam bentuk token. Databricks, misalnya, menyediakan titik akhir Penyajiannya dengan berbagai token per detik dan menagih per jam berdasarkan skalabilitas.Dengan cara ini, Anda dapat menyelaraskan kapasitas dengan beban aktual tanpa tertipu oleh RPS yang tidak menceritakan keseluruhan cerita.

Bagaimana Databricks dan MLPerf mengukur token per detik

Apa itu Nvidia Rubin CPX?

Databricks mengambil muatan representatif RAG sebagai referensi dan merangkumnya: 2048 token masukan dan 256 token keluaranIni menggabungkan kedua fase (pra-pengisian dan dekode) dan, secara default, mengoptimalkan keseimbangan antara throughput dan latensi untuk ukuran batch 1 per permintaan, mensimulasikan beberapa permintaan bersamaan.

Dengan aturan tersebut, angka-angkanya seperti ini: jika Anda mengonfigurasi titik akhir pada 2304 token per detik (2048 + 256), Permintaan dengan ukuran tersebut membutuhkan waktu sekitar satu detikJika Anda mengaturnya ke 5600 token per detik, permintaan yang sama turun menjadi sekitar 0,5 detik dan Anda dapat memproses dua permintaan serupa per detik.

Saat beban kerja Anda berubah, latensi akan berubah. Menghasilkan lebih banyak token keluaran memberikan penalti yang lebih besar dibanding menambah token masukan.Jika Anda melakukan inferensi batch, hitung jumlah rata-rata token input dan output untuk kumpulan data Anda dan bandingkan dengan tolok ukur sebelumnya untuk memperkirakan waktu.

Contoh praktis: dengan 1000 baris, rata-rata 3000 token input dan 500 token output, dan throughput yang disediakan sebesar 3500 token per detik, Ini akan memakan waktu lebih dari 1000 detik karena rata-rata Anda melebihi referensi. Jika Anda merata-ratakan 1500 input dan 100 output dengan penyediaan 1600 token per detik, Anda akan mencapai di bawah 1000 detik total untuk 1000 baris tersebut.

  MPW: Semua yang perlu Anda ketahui tentang jenis wafer ini

Penskalaan otomatis sesuai permintaan dan perhitungan penskalaan aktual

Databricks Model Serving mencakup penskalaan otomatis cepat yang Menambah atau mengurangi sumber daya berdasarkan permintaan token per detikSistem ini diskalakan dalam blok kapasitas, dan kapasitas tambahan hanya ditagih saat digunakan. Dalam pengujian dengan lebih banyak permintaan paralel, throughput yang disediakan meningkat hingga stabil di sekitar 8000 token per detik ketika sumber daya jenuh, sehingga meningkatkan latensi antrean.

Jika Anda melihat jumlah token per detik lebih sedikit daripada yang Anda tandai, periksa dua hal: Konkurensi yang disediakan mencerminkan metrik titik akhir dan ukuran bandwidth minimum dikonfigurasi. Dengan data ini, penskalaan aktual diperkirakan menggunakan rumus: konkurensi yang disediakan × ukuran bandwidth minimum / 4.

Contoh konkret: dengan konkurensi maksimum 8 dan ukuran stripe minimum 850 token per detik, Batas efektifnya adalah 1700 token per detik (8 × 850 / 4). Memahami perhitungan ini mencegah kejutan dan membantu Anda menyesuaikan pengaturan dengan SLO latensi Anda.

Inferensi MLPerf: Apa itu dan apa yang diukurnya saat ini

MLPerf, yang dikembangkan oleh MLCommons, adalah rangkaian terbuka dan standar untuk mengukur kinerja AI di pusat data dan edge, dari visi hingga LLM. Tujuannya adalah untuk membandingkan platform dengan cara yang adil dan dapat direproduksi untuk mendorong efisiensi ekosistem.Dalam beberapa tahun terakhir, fokusnya jelas bergeser ke arah GenAI dan LLM besar.

Pada edisi kelima, Llama 2 70B dikonsolidasikan sebagai patokan bintang, menggantikan ResNet50, dan Metrik token per detik meningkat hingga 3,3x dalam kasus terbaik dalam satu tahun, dengan kinerja rata-rata 5 kali lebih tinggi berkat optimasi perangkat keras dan perangkat lunak. Kehadiran CPU seperti Intel Xeon 6 dalam hasil resmi juga menunjukkan bahwa Ada ruang untuk solusi generalis yang efisien dalam skenario tertentu.

Versi 5.1 dari MLPerf Inference telah mengambil langkah maju lainnya: ia menggabungkan tiga tolok ukur utama baru, penalaran dengan DeepSeek-R1, ucapan ke teks dengan Whisper Large v3 dan LLM kecil berdasarkan Llama 3.1 8BSecara keseluruhan, konsorsium melaporkan 27 peserta, mencapai tonggak sejarah 90.000 hasil, dan mempersempit metrik latensi dalam skenario interaktif.

Metrik dan tujuan dalam tolok ukur baru

Benchmark penalaran dengan DeepSeek‑R1, MoE dengan 671B parameter, menunjukkan bahwa Model-model ini menghasilkan rantai penalaran yang panjang sebelum jawabannyaMendukung keluaran hingga 20.000 token, dengan rata-rata 3880 token per keluaran dalam kumpulan data, yang terbesar hingga saat ini dalam inferensi.

Aturan tersebut mengukur throughput dalam mode offline dan mode server dengan batasan yang ketat: Waktu untuk token pertama 2 detik dan latensi per token 80 ms pada p99Hal ini bertujuan untuk menyeimbangkan anggaran "berpikir" dengan daya tanggap yang diperlukan untuk menyebarkannya.

Benchmark LLM kecil dengan Llama 3.1‑8B menggantikan GPT‑J 6B sebagai gateway. Mendukung konteks hingga 128.000 token dan mengevaluasi ringkasan pada CNN‑DailyMail dengan 778 token masukan dan 73 token keluaran. Akurasi divalidasi dengan ROUGE dan, dalam pembagian tertutup, diharuskan memenuhi 99 persen tolok ukur akurasi tinggi.

Dalam metrik latensi, dua indikator digunakan: TTFT (waktu hingga token pertama) dan TPOT (waktu per token keluar). Di server, 2 detik TTFT dan 100 ms TPOT dicatat. (sekitar 480 ppm), dan dalam skenario interaktif baru ditekan hingga 0,5 detik dan 30 ms (sekitar 1600 ppm) untuk kasus seperti obrolan, pengodean, atau alat kreatif.

Sorotan kinerja menurut produsen dan operator

  • NVIDIA kembali memimpin, kali ini dengan Blackwell Ultra pada sistem GB300 NVL72, mencetak skor Rekor dalam penalaran dengan throughput 45 persen lebih banyak DeepSeek‑R1 daripada GB200 NVL72, mencapai 5842 token per detik per GPU offline dan 2907 di server, dengan peningkatan hampir 5x dibandingkan dengan Hopper yang belum diverifikasi.
  • Dalam benchmark interaktif Llama 3.1 405B yang baru, NVIDIA menerapkan penyajian terpisah dengan Dynamo, memisahkan konteks dan pembangkitan pada GPU berbeda dan mentransfer KV Cache melalui NVLink, mencapai throughput 1,5× lebih banyak per GPU daripada penyajian tradisional pada Blackwell dan lebih dari 5× lebih banyak daripada sistem dengan Hopper.
  • Untuk model yang lebih kecil, NVIDIA melaporkan Lebih dari 18.000 token per detik per GPU pada Llama 3.1 8B offline dan 5667 token per detik per GPU di Whisper, mempertahankan kepemimpinan GPU dalam semua skenario (offline, server, dan interaktif).
  • AMD memperluas kehadirannya dengan pengiriman pertama GPU Instinct MI355X, yang kini berada di kisaran 2‑70B. Ini menunjukkan penskalaan multi-node dan peningkatan 2,7x dalam token per detik dibandingkan MI325X di FP8Pada pembagian terbuka, pemangkasan terstruktur diterapkan pada Llama 3.1‑405B (FP4), meningkatkan throughput sebesar 82 persen dengan model pemangkasan kedalaman 21 persen dan sebesar 90 persen dengan model yang disetel lebih halus 33 persen, menjaga ketepatan.
  • Ia juga memulai pengiriman Llama 2‑70B Interactive, Mixtral‑8×7B dan Stable Diffusion XL, dan menyajikan hasil MI300X/MI325X yang beragam: Saat diskalakan ke 4 node, MI355X mencapai throughput 3,4x lebih banyak daripada MI300X, meluas hingga 8 node dengan skalabilitas yang baik.
  • HPE, yang menggabungkan ProLiant dan Cray, melaporkan 14 hasil nomor 1. DL380a Gen12 unggul dalam DLRM dan Llama 3.1‑8B (Server) di antara sistem PCIe 8-GPU; DL385 Gen11 kinerja GPU yang lebih baik di Whisper dengan H200 NVL; dan Cray XD670 (8× H200) memperoleh enam hasil pertama di RetinaNet, Llama 3.1‑8B, Mixtral, dan Whisper, ditambah hasil pertama dengan RTX Pro 6000 Blackwell SE dan GH200 NVL2 di DLRM.
  • CoreWeave adalah cloud pertama yang melaporkan hasil dengan GB300, memberikan 6005 token per detik per GPU di DeepSeek‑R1 offline dan mendemonstrasikan orkestrasi dan penskalaan dengan Slurm pada Kubernetes dan penjadwalan yang sadar topologi untuk mendapatkan hasil maksimal dari NVLink.
  • Dell mengirimkan 12 sistem dengan akselerator AMD dan NVIDIA, bersinar di LLaMA 2 70B Interactive dengan PowerEdge XE9680L dan B200, Server LLaMA 3.1‑8B pada XE9685L+B200, SDXL pada XE9685L dan Whisper pada XE9680L, menunjukkan fleksibilitas dari gambar ke suara melalui LLM.
  • Intel menekankan bahwa hal itu tetap satu-satunya yang mengirim hasil dengan CPU server dan menunjukkan bahwa Xeon 6 dengan inti-P meningkat 1,9× dibandingkan Xeon Generasi ke-5 di lima benchmark, memperkuat perannya dalam inferensi serbaguna. Ia juga memperkenalkan workstation dengan 8 GPU Arc Pro B60, dengan VRAM 192GB untuk melayani Llama2‑70B bagi banyak pengguna, serta driver dan kerangka kerja yang dibundel untuk menyederhanakan penerapan multi-GPU.
  • Di antara integrator dan mitra, ASUSTeK Latensi dan throughput yang dioptimalkan dengan kuantisasi, kernel, dan tumpukan; Broadcom mendemonstrasikan virtualisasi VCF dengan overhead minimal versus bare metal pada beberapa beban kerja (Whisper, SDXL, Llama 3.1-405B, Llama2-70B, RGAT, RetinaNet); Cisco diskalakan hampir linear dengan UCS C885A M8 (8× H200 SXM) dan UCS C845A M8 (8× H200 NVL atau L40S), yang didukung oleh jaringan One G200.
  • KRAI, menggunakan OpenAI API dan overhead yang realistis, membandingkan SGLang dan vLLM dengan Llama3.1‑70B: 31.391 token per detik offline dengan SGLang 0.4.9 dan 26.319 dengan vLLM 0.9.2 pada server tunggal dengan 8x H200; dengan kuantisasi dinamis mencapai 27.697 dengan SGLang dan 30.893 dengan vLLM, dan pada multi-simpul meningkat hingga 87.334 token per detik pada tiga server.
  • Lambda, dengan 8x B200 180 GB SXM, menunjukkan peningkatan throughput hingga 7 persen di SDXL dan 15 persen di Llama 3.1‑405B dibandingkan dengan putaran sebelumnya, dan menawarkan kluster dari 16 hingga 1536 GPU dengan Kubernetes atau Slurm yang terkelola.
  • MiTAC, dengan seri G8825Z5, bersinar di LLaMA 2 70B Interactive dengan 18.846,1 token per detik dan hasil yang baik di Server dan Mixtral; Nebius mensertifikasi kinerja virtualisasinya hampir setara dengan bare metal di GB200 NVL72, HGX B200 dan HGX H200, dengan 596,11 token per detik di server dan 855,82 token offline di Llama 3.1‑405B dengan 4 GPU GB200.
  • Red Hat mendemonstrasikan vLLM sebagai runtime yang didukung pada AI Inference Server-nya, dengan Kernel CUTLASS untuk FP8 dan FlashAttention‑3 ditambah mesin vLLM v1 yang ditingkatkan, memberi tenaga pada Llama‑3.1‑8B di H100 dan L40S dengan rasio biaya‑kinerja yang hebat.
  • Supermicro membukukan hasil terdepan dengan HGX‑B200 8‑GPU (udara dan cair) dengan CPU Intel dan AMD, menyoroti Llama 3.1‑8B dan Llama 2‑70B di server/offline/interaktif dan Whisper; dalam kolaborasi, ia menunjukkan skalabilitas yang sangat baik dengan 32× H100‑SXM dan alternatif dengan MI325X.
  • Vultr memulai debutnya dengan Supermicro AS‑8126GS‑TNMR dan 8x MI325X, yang mensertifikasi kinerja kompetitif sebagai GPU Cloud; GATEOverflow mempromosikan reproduktifitas dengan MLCFlow pada RTX 4090 dan CPU AMD/Intel; Giga Computing mengirimkan sistem EPYC+MI8X 325U berpendingin udara dan Xeon+HGX B200; QCT mencakup konfigurasi Xeon 6 dengan H200 NVL (4 GPU) dan 8× platform H200 SXM5 dengan NVLink dan GPUDirect Storage, selain 8× sistem MI325X.
  Spesifikasi lengkap varian ASUS P9X79 dan X79

Dunia akademis juga punya momennya. University of Florida, dengan DGX B200 SuperPOD yang terintegrasi dengan HiPerGator, adalah institusi pertama yang menyerahkan hasil inferensi Memenuhi latensi server dengan partisi tertutup, menggunakan Apptainer tanpa Docker/Sudo, dan beradaptasi dengan SLURM multi-pengguna. Di sisi lain, satu pengajuan pada MacBook Pro M1, dengan ONNX Runtime dan CoreML pada GPU dan Neural Engine, melampaui akurasi target dalam kategori tepi dan menunjukkan bahwa inferensi kualitas dapat dievaluasi pada perangkat keras konsumen.

Kecepatan yang dirasakan oleh pengguna dan batasan praktis

Pengalaman pengguna tidak hanya diukur dalam tolok ukur; dalam kehidupan sehari-hari, Perasaan fluiditas muncul ketika Anda melampaui ambang batas token tertentu per detikSeorang pengguna mengomentari bahwa batas mereka untuk percakapan adalah 4 token per detik, dan untuk penulisan cerita, sekitar 10 token per detik; di bawah itu, interaksi terasa lambat.

Jika Anda mencoba menjalankan LLM secara lokal, ada tiga realitas. Pada CPU desktop, Adalah normal untuk bergerak pada 1–2 token per detik, tidak memungkinkan untuk jawaban yang panjang. Dengan GPU gaming kelas atas, Anda bisa mendapatkan hampir 5 token per detik. Dengan NVIDIA H100, ya, kita sudah membicarakan sekitar 60 token per detik, tapi itu perangkat keras pusat data, bukan perangkat keras desktop.

Apa yang terjadi di cloud? Penyedia layanan cloud yang paling andal mampu melampaui angka-angka ini berkat perangkat keras khusus dan tumpukan inferensi yang dioptimalkan. Rata-rata sekitar 119 token per detik telah dilaporkan pada ChatGPT‑4 dan 168 pada Gemini., sementara model sumber terbuka populer seperti DeepSeek berkisar sekitar 21 token per detik. Jika dikonversi ke kata, 119 token per detik setara dengan sekitar 90 kata per detik.

  Skor CPU dan GPU Cinebench 2024: Apakah ini tolok ukur yang paling dapat diandalkan?

Kesimpulan operasional: bagi sebagian besar pengguna, Menjalankan AI di komputer dimungkinkan, tetapi tidak praktis karena lambatnyaUntuk bekerja pada kecepatan yang nyaman dan latensi yang ketat, layanan terkelola tetap menjadi pilihan yang masuk akal.

Cara menentukan ukuran titik akhir Anda berdasarkan TPS dan apa yang diharapkan dari latensi

Langkah-langkah praktis untuk menentukan ukuran. Pertama, jelaskan kasus penggunaan Anda: Jumlah rata-rata token input dan output, distribusi panjang, dan konkurensi yang diharapkanKedua, jalankan uji beban dengan kumpulan data representatif, yang melibatkan TTFT dan token per detik yang dibutuhkan per permintaan.

Selanjutnya, sesuaikan konfigurasi dengan pola Anda. Jika beban kerja Anda menyerupai referensi Databricks (2048 masuk, 256 keluar), Pilih rentang token per detik sehingga permintaan berada dalam anggaran latensi yang diinginkanIngatlah bahwa menduplikasi keluaran biasanya lebih mahal daripada menduplikasi masukan, dan bahwa konkurensi yang efektif bergantung pada penskalaan otomatis aktual.

Pantau dan sesuaikan. Perhatikan metriknya konkurensi yang disediakan, antrian, TTFT dan TPOT, dan bandingkan dengan SLO Anda. Jika kapasitas Anda terbatas, perluas rentangnya; jika Anda memiliki kelebihan sumber daya, kurangi dan sesuaikan blok untuk menghemat. Rumus penskalaan yang sebenarnya akan membantu Anda memahami mengapa titik akhir tidak berkinerja sesuai konfigurasi jika tidak membuat cukup replika.

Terakhir, perhatikan skenarionya. Dalam mode chatbot interaktif, targetkan TTFT 0,5 detik dan 30 ms per token Ini akan memberi Anda pengalaman pengguna premium. Dalam mode server, 2 detik dan 100 ms per token merupakan pedoman yang wajar, sementara secara offline, ia mengupayakan throughput maksimum sambil mempertahankan akurasi yang dipersyaratkan oleh benchmark.

Melihat tren MLPerf, vektornya jelas: Lebih banyak konteks, lebih banyak token, dan teknik efisiensi yang lebih baik —penyajian terdisagregasi, FP4/FP8, pemangkasan terstruktur, kernel khusus, penjadwalan cache KV— mendorong batas token naik pada tahun kedua dari tahun ke tahun, baik per chip maupun per sistem.

Gambaran keseluruhan yang dibuat oleh Databricks dan MLPerf konsisten: Berpikir dalam hal token per detik adalah cara yang tepat untuk memikirkan biaya, latensi, dan skalabilitas dalam LLM.Dengan tolok ukur representatif yang baik, metrik TTFT/TPOT, dan penskalaan otomatis yang terkalibrasi dengan baik, memungkinkan untuk memberikan respons yang cepat dan stabil tanpa membuat infrastruktur menjadi terlalu besar.

nvidia blackwell ultra gb300
Artikel terkait:
NVIDIA Blackwell Ultra GB300: Arsitektur, Memori, dan NVLink 5