Model besar AS dikepung dari utara dan selatan oleh Tiongkok, AI domestik berebut tiket musim liburan Tahun Baru Imlek, berusaha meniru keajaiban DeepSeek
Masih teringat Tahun Naga saat Tahun Baru Imlek, DeepSeek yang sangat populer sempat membuat model besar domestik lainnya “tertekan”. Tahun ini, perusahaan teknologi besar dan perusahaan model besar domestik tak terkecuali, berharap dapat meniru keajaiban DeepSeek, dengan mengumumkan pembaruan secara intensif sebelum Tahun Baru Imlek, menjadikan tahun baru sebagai medan latihan terbaik.
Pada 12 Februari, perusahaan model besar di Shanghai, MiniMax, secara resmi meluncurkan model teks generasi baru MiniMax M2.5 (selanjutnya disebut “M2.5”) di MiniMax Agent, dan pada 13 Februari dibuka sumber terbuka secara global, mendukung deployment lokal. Setelah itu, pengguna di seluruh dunia dengan cepat membangun lebih dari 10.000 “ahli” di MiniMax Agent, dan jumlahnya terus bertambah dengan cepat.
M2.5 disebut “Raja Kartu”, karena performanya hampir menyamai model Claude Opus 4.6 yang dikembangkan oleh perusahaan AI Amerika Anthropic, namun harganya membuat orang terbelalak, bahkan pendiri proyek AI pribadi open-source paling populer saat ini, OpenClaw, Peter Steinberg, tak bisa menahan kekagumannya.
Pendiri OpenClaw, Peter Steinberg, membagikan dan memberi penilaian terhadap M2.5, yang performanya sebanding dengan Claude Opus 4.6, tetapi harganya 20 kali lebih murah.
M2.5 diposisikan sebagai “model agen asli untuk produksi”, mampu menulis kode secara otomatis, memanggil alat, menganalisis data, dan menghasilkan laporan.
Di daftar terverifikasi SWE-Bench yang paling keras dalam pemrograman, M2.5 meraih skor tinggi 80,2%, hanya sedikit tertinggal dari Claude Opus 4.6. Dalam tugas multibahasa Multi-SWE-Bench, M2.5 melampaui Claude Opus 4.6 dan meraih posisi pertama.
Untuk skenario kantor, M2.5 unggul dalam Word, PPT, Excel, pemodelan keuangan dan skenario tingkat tinggi lainnya. Dalam kerangka evaluasi GDPval-MM yang membandingkan dengan model utama, M2.5 meraih rata-rata tingkat kemenangan 59%. Tabel yang dihasilkan M2.5 mampu membedakan dengan jelas sampul, sumber data, dan data rinci, dengan format yang rapi, seolah-olah dibuat oleh pekerja dengan gangguan obsesif-kompulsif.
M2.5 tidak kalah dengan model utama Amerika.
Yang penting, M2.5 yang mampu melakukan “pekerjaan berat” hanya memiliki 10B parameter, menjadikannya model flagship dengan “ukuran” terkecil di antara model sejenis di seluruh dunia.
Selain otaknya yang cerdas, keunggulan utama M2.5 juga terletak pada penyelesaian dua masalah utama model yaitu “biaya” dan “kecepatan”.
M2.5 mampu melakukan inferensi dengan kecepatan 100 TPS (transaksi per detik), sekitar dua kali lipat dari model utama lainnya; biaya input sekitar 0,3 dolar AS per juta token (unit dasar input dan output model), dan biaya output sekitar 2,4 dolar AS per juta token. Dengan output 100 token per detik, satu dolar bisa digunakan untuk menjalankan agen cerdas selama satu jam berturut-turut, yang disebut “harga murah meriah”.
Di era kekurangan daya komputasi, kemampuan untuk merevolusi model agar tidak menurun kecerdasannya, tidak lag, dan memberikan pengalaman yang baik adalah senjata utama MiniMax agar tetap kompetitif di arena model besar.
Menariknya, Zhizhi AI, yang lebih dulu go public di Hong Kong Stock Exchange satu hari sebelum MiniMax, juga baru-baru ini merilis Zhizhi GLM-5, yang juga menarget Claude Opus 4.6. Claude Opus 4.6 bisa dikatakan mendapat tekanan dari dua model besar dari China, satu dari utara dan satu dari selatan.
Zhizhi GLM-5 meraih prestasi baik dalam kemampuan pemrograman dan agen cerdas. Beberapa pengembang yang menggunakannya merasa bahwa pengalaman penggunaan GLM-5 dalam skenario pemrograman nyata sudah mendekati model Claude yang paling kuat, sementara kemampuan pemrograman Claude berada di tingkat terdepan di industri. Dalam daftar Artificial Analysis yang diakui secara global, GLM-5 menempati posisi keempat di dunia dan nomor satu dalam sumber terbuka.
Zhizhi menyebut GLM-5 sebagai “arsitek sistem”, yang berarti bahwa model AI besar di masa depan tidak hanya akan memenuhi kebutuhan menulis kode untuk menyelesaikan satu fungsi, tetapi juga membangun sistem seperti insinyur, bahkan membagi tugas fungsi kepada berbagai agen cerdas.
Dalam pengujian agen pemrograman, Zhizhi GLM-5 sedikit mengungguli Claude.
Selain itu, Qwen-Image 2.0 dari Qianwen yang dirilis pada 10 Februari mendukung instruksi panjang hingga 1000 token dan memiliki kemampuan inferensi yang lebih kuat.
Hampir bersamaan, ByteDance juga merilis model serupa, Seedream 5.0, yang meningkatkan kemampuan pembuatan gambar dari teks. “Dulu, saat menggunakan AI untuk menghasilkan gambar, ada kekurangan karena keterbatasan kemampuan inferensi, sehingga karakter Tionghoa dalam gambar sering ‘tidak nyambung’ atau bahkan rusak,” kata tim pengembang Qianwen. Mereka menambahkan bahwa dengan peningkatan pemahaman instruksi dan kemampuan inferensi, “masalah karakter Tionghoa dalam gambar AI” akan menjadi sejarah.
Selain model multimodal seperti pembuatan gambar dan video dari teks, model bahasa besar dasar juga mengalami “kemajuan besar”. Baru-baru ini, DeepSeek diam-diam meluncurkan model baru, meskipun bukan V4 yang diharapkan banyak orang, tetapi tetap mengejutkan.
Model yang diperbarui ini meskipun tidak memiliki kemampuan pengenalan multimodal, meningkatkan kemampuan pemrosesan konteks hingga 1 juta token, setara dengan mampu membaca dan memahami seluruh “Tiga Tubuh” yang berjumlah sekitar 900.000 kata sekaligus. Seorang pengembang agen cerdas mengatakan, “Saat ini, tidak banyak model yang mendukung pemahaman konteks hingga satu juta token, seperti Gemini dari Google dan Claude dari Anthropic. Pembaruan DeepSeek ini juga termasuk dalam kategori tersebut.”
Diketahui bahwa gelombang peluncuran model besar ini belum berakhir, dengan flagship seperti Doubao 2.0 dan Qianwen 3.5 yang akan dirilis dalam waktu dekat.
(Asal artikel: Shangguan News)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Model besar AS dikepung dari utara dan selatan oleh Tiongkok, AI domestik berebut tiket musim liburan Tahun Baru Imlek, berusaha meniru keajaiban DeepSeek
Masih teringat Tahun Naga saat Tahun Baru Imlek, DeepSeek yang sangat populer sempat membuat model besar domestik lainnya “tertekan”. Tahun ini, perusahaan teknologi besar dan perusahaan model besar domestik tak terkecuali, berharap dapat meniru keajaiban DeepSeek, dengan mengumumkan pembaruan secara intensif sebelum Tahun Baru Imlek, menjadikan tahun baru sebagai medan latihan terbaik.
Pada 12 Februari, perusahaan model besar di Shanghai, MiniMax, secara resmi meluncurkan model teks generasi baru MiniMax M2.5 (selanjutnya disebut “M2.5”) di MiniMax Agent, dan pada 13 Februari dibuka sumber terbuka secara global, mendukung deployment lokal. Setelah itu, pengguna di seluruh dunia dengan cepat membangun lebih dari 10.000 “ahli” di MiniMax Agent, dan jumlahnya terus bertambah dengan cepat.
M2.5 disebut “Raja Kartu”, karena performanya hampir menyamai model Claude Opus 4.6 yang dikembangkan oleh perusahaan AI Amerika Anthropic, namun harganya membuat orang terbelalak, bahkan pendiri proyek AI pribadi open-source paling populer saat ini, OpenClaw, Peter Steinberg, tak bisa menahan kekagumannya.
Pendiri OpenClaw, Peter Steinberg, membagikan dan memberi penilaian terhadap M2.5, yang performanya sebanding dengan Claude Opus 4.6, tetapi harganya 20 kali lebih murah.
M2.5 diposisikan sebagai “model agen asli untuk produksi”, mampu menulis kode secara otomatis, memanggil alat, menganalisis data, dan menghasilkan laporan.
Di daftar terverifikasi SWE-Bench yang paling keras dalam pemrograman, M2.5 meraih skor tinggi 80,2%, hanya sedikit tertinggal dari Claude Opus 4.6. Dalam tugas multibahasa Multi-SWE-Bench, M2.5 melampaui Claude Opus 4.6 dan meraih posisi pertama.
Untuk skenario kantor, M2.5 unggul dalam Word, PPT, Excel, pemodelan keuangan dan skenario tingkat tinggi lainnya. Dalam kerangka evaluasi GDPval-MM yang membandingkan dengan model utama, M2.5 meraih rata-rata tingkat kemenangan 59%. Tabel yang dihasilkan M2.5 mampu membedakan dengan jelas sampul, sumber data, dan data rinci, dengan format yang rapi, seolah-olah dibuat oleh pekerja dengan gangguan obsesif-kompulsif.
M2.5 tidak kalah dengan model utama Amerika.
Yang penting, M2.5 yang mampu melakukan “pekerjaan berat” hanya memiliki 10B parameter, menjadikannya model flagship dengan “ukuran” terkecil di antara model sejenis di seluruh dunia.
Selain otaknya yang cerdas, keunggulan utama M2.5 juga terletak pada penyelesaian dua masalah utama model yaitu “biaya” dan “kecepatan”.
M2.5 mampu melakukan inferensi dengan kecepatan 100 TPS (transaksi per detik), sekitar dua kali lipat dari model utama lainnya; biaya input sekitar 0,3 dolar AS per juta token (unit dasar input dan output model), dan biaya output sekitar 2,4 dolar AS per juta token. Dengan output 100 token per detik, satu dolar bisa digunakan untuk menjalankan agen cerdas selama satu jam berturut-turut, yang disebut “harga murah meriah”.
Di era kekurangan daya komputasi, kemampuan untuk merevolusi model agar tidak menurun kecerdasannya, tidak lag, dan memberikan pengalaman yang baik adalah senjata utama MiniMax agar tetap kompetitif di arena model besar.
Menariknya, Zhizhi AI, yang lebih dulu go public di Hong Kong Stock Exchange satu hari sebelum MiniMax, juga baru-baru ini merilis Zhizhi GLM-5, yang juga menarget Claude Opus 4.6. Claude Opus 4.6 bisa dikatakan mendapat tekanan dari dua model besar dari China, satu dari utara dan satu dari selatan.
Zhizhi GLM-5 meraih prestasi baik dalam kemampuan pemrograman dan agen cerdas. Beberapa pengembang yang menggunakannya merasa bahwa pengalaman penggunaan GLM-5 dalam skenario pemrograman nyata sudah mendekati model Claude yang paling kuat, sementara kemampuan pemrograman Claude berada di tingkat terdepan di industri. Dalam daftar Artificial Analysis yang diakui secara global, GLM-5 menempati posisi keempat di dunia dan nomor satu dalam sumber terbuka.
Zhizhi menyebut GLM-5 sebagai “arsitek sistem”, yang berarti bahwa model AI besar di masa depan tidak hanya akan memenuhi kebutuhan menulis kode untuk menyelesaikan satu fungsi, tetapi juga membangun sistem seperti insinyur, bahkan membagi tugas fungsi kepada berbagai agen cerdas.
Dalam pengujian agen pemrograman, Zhizhi GLM-5 sedikit mengungguli Claude.
Selain itu, Qwen-Image 2.0 dari Qianwen yang dirilis pada 10 Februari mendukung instruksi panjang hingga 1000 token dan memiliki kemampuan inferensi yang lebih kuat.
Hampir bersamaan, ByteDance juga merilis model serupa, Seedream 5.0, yang meningkatkan kemampuan pembuatan gambar dari teks. “Dulu, saat menggunakan AI untuk menghasilkan gambar, ada kekurangan karena keterbatasan kemampuan inferensi, sehingga karakter Tionghoa dalam gambar sering ‘tidak nyambung’ atau bahkan rusak,” kata tim pengembang Qianwen. Mereka menambahkan bahwa dengan peningkatan pemahaman instruksi dan kemampuan inferensi, “masalah karakter Tionghoa dalam gambar AI” akan menjadi sejarah.
Selain model multimodal seperti pembuatan gambar dan video dari teks, model bahasa besar dasar juga mengalami “kemajuan besar”. Baru-baru ini, DeepSeek diam-diam meluncurkan model baru, meskipun bukan V4 yang diharapkan banyak orang, tetapi tetap mengejutkan.
Model yang diperbarui ini meskipun tidak memiliki kemampuan pengenalan multimodal, meningkatkan kemampuan pemrosesan konteks hingga 1 juta token, setara dengan mampu membaca dan memahami seluruh “Tiga Tubuh” yang berjumlah sekitar 900.000 kata sekaligus. Seorang pengembang agen cerdas mengatakan, “Saat ini, tidak banyak model yang mendukung pemahaman konteks hingga satu juta token, seperti Gemini dari Google dan Claude dari Anthropic. Pembaruan DeepSeek ini juga termasuk dalam kategori tersebut.”
Diketahui bahwa gelombang peluncuran model besar ini belum berakhir, dengan flagship seperti Doubao 2.0 dan Qianwen 3.5 yang akan dirilis dalam waktu dekat.
(Asal artikel: Shangguan News)