Pesan Gate News, 29 April — Peneliti AI Aran Komatsuzaki melakukan analisis perbandingan efisiensi tokenisasi di enam model AI besar dengan menerjemahkan karya perintis Rich Sutton “The Bitter Lesson” ke sembilan bahasa dan memprosesnya melalui tokenizer OpenAI, Gemini, Qwen, DeepSeek, Kimi, dan Claude. Dengan menjadikan jumlah token versi bahasa Inggris di OpenAI sebagai baseline (1x), studi tersebut mengungkap perbedaan yang signifikan: memproses konten yang sama dalam bahasa Tiongkok memerlukan 1.65x token pada Claude, dibandingkan hanya 1.15x pada OpenAI. Bahasa Hindi menunjukkan hasil yang lebih ekstrem pada Claude, melebihi baseline lebih dari 3x. Anthropic menempati peringkat terendah di antara enam model yang diuji.

Yang paling kritis, ketika teks Tiongkok yang identik diproses di berbagai model—semuanya diukur terhadap baseline bahasa Inggris yang sama—hasilnya justru berbeda secara dramatis: Kimi hanya mengonsumsi 0.81x token (bahkan lebih sedikit dari bahasa Inggris), Qwen 0.85x, sedangkan Claude memerlukan 1.65x. Kesenjangan ini mengungkap masalah murni efisiensi tokenisasi, bukan masalah bahasa yang melekat. Model-model bahasa Tiongkok menunjukkan efisiensi yang lebih baik dalam memproses bahasa Tiongkok, yang mengisyaratkan bahwa perbedaan tersebut berasal dari optimisasi tokenizer, bukan dari bahasa itu sendiri.

Implikasi praktis bagi pengguna sangat besar: konsumsi token yang meningkat secara langsung menaikkan biaya API, memperpanjang latensi respons model, dan menghabiskan jendela konteks lebih cepat. Efisiensi tokenisasi bergantung pada komposisi linguistik dari data pelatihan suatu model—model yang dilatih terutama pada bahasa Inggris mengompresi teks bahasa Inggris lebih efisien, sementara bahasa dengan representasi data yang lebih rendah ditokenisasi menjadi fragmen-fragmen yang lebih kecil dan kurang efisien.

Kesimpulan Komatsuzaki menegaskan sebuah prinsip mendasar: ukuran pasar menentukan efisiensi tokenisasi. Pasar yang lebih besar menerima optimisasi yang lebih baik, sementara bahasa yang kurang terwakili menghadapi biaya token yang jauh lebih tinggi.

Lihat Sumber

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

Peneliti Multimodal DeepSeek Menyinggung Model Visi Baru pada 29 April

Berita Industri AI

Pada 29 April, peneliti tim multimodal DeepSeek, Xiaokang Chen, memposting di X: "Sekarang, kami melihatmu," disertai dua gambar maskot paus DeepSeek—satu dengan mata tertutup, yang lain dengan mata terbuka. Postingan tersebut tampaknya menyinggung model visi yang akan datang, selaras dengan perannya sebagai peneliti di Dee

GateNews17menit yang lalu

LG Memperluas Kemitraan Nvidia ke AI Fisik, Mencakup Robotika dan Pusat Data

Berita Industri AI

Pesan Gate News, 29 April — LG Electronics Korea Selatan mengumumkan selama konferensi pendapatan kuartal pertama 2026 bahwa pihaknya memperluas kolaborasinya dengan Nvidia ke ranah AI fisik, dengan proyek yang direncanakan di bidang robotika, mobilitas, dan pusat data. LG berencana mengintegrasikan robot rumahan CLOiD dengan Nvidia

GateNews34menit yang lalu

Penganalisis semikonduktor optimistis dengan tren AI “setidaknya masih akan berjalan selama tiga tahun”: advanced packaging adalah hambatan utama industri

Saham Berita Industri AI

Bubble Boi mengatakan bahwa siklus investasi AI masih berada di tahap awal, dan memperkirakan setidaknya masih ada kenaikan selama tiga tahun lagi, serta tidak berniat untuk mengakhiri keuntungan. Ia percaya bahwa advanced packaging adalah benar-benar hambatan utama dalam semikonduktor, dan perlu mengintegrasikan lebih banyak HBM serta chip yang lebih besar dalam satu kemasan yang sama. Ia bullish terhadap NAND/Flash; harga mungkin terus naik, dan di masa depan mungkin juga akan bergabung dengan rantai pasokan flash. Strategi pribadinya adalah meminjam dana untuk menambah kepemilikan, dan menggunakan latar belakang praktik engineering untuk memahami detail teknis, karena ia menganggap ini sebagai keunggulan.

ChainNewsAbmedia1jam yang lalu

AWS Memperluas Integrasi OpenAI di Amazon Bedrock

Berita Industri AI

Amazon Web Services mengumumkan pada 29 April perluasan besar kemitraannya dengan OpenAI, dengan mengintegrasikan kemampuan terbaru OpenAI ke dalam infrastruktur cloud-nya. Perluasan tersebut menghadirkan tiga penawaran baru ke Amazon Bedrock: model terbaru OpenAI (pratinjau terbatas), pemrograman Codex

CryptoFrontier1jam yang lalu

Peneliti OpenAI: Sistem AI Bisa Menangani Sebagian Besar Pekerjaan Riset dalam Dua Tahun

Berita Industri AI

Pengumuman Gate News, 29 April — Peneliti OpenAI Sébastien Bubeck dan Ernest Ryu mengatakan bahwa sistem AI dapat melakukan sebagian besar pekerjaan riset manusia dalam dua tahun, dengan menyajikan matematika sebagai ukuran kemajuan AI yang jelas. Tidak seperti tes performa yang masih samar, masalah matematika menawarkan verifikasi yang presisi: jawaban bisa benar atau salah, tanpa ruang untuk ambiguitas:

GateNews2jam yang lalu

Raja Charles III Bertemu Enam CEO Teknologi AS Termasuk Jensen Huang, Jeff Bezos, dan Tim Cook untuk Membahas Pendanaan Startup Inggris

Saham Berita Industri AI

Pesan Berita Gate, 29 April — Saat kunjungan kenegaraannya ke Amerika Serikat, Raja Charles III bertemu dengan enam tokoh terkemuka pemimpin teknologi Amerika di Blair House di Washington: CEO NVIDIA Jensen Huang, pendiri Amazon Jeff Bezos, CEO Apple Tim Cook, CEO AMD Su Zifeng, CEO Salesforce Marc Benioff, dan

GateNews2jam yang lalu

Komentar

0/400

Tidak ada komentar