DeepSeek V4 Meraih Skor Sempurna pada Putnam-2025, Menyamai Axiom dalam Penalaran Matematika Formal

Berita Gerbang, 24 April — DeepSeek V4 telah mempublikasikan hasil dari evaluasi penalaran matematis formal, meraih skor sempurna 120/120 pada Putnam-2025, menyamai Axiom untuk posisi pertama.

Dalam rezim praktis yang menggunakan LeanExplore dan constrained sampling, V4-Flash-Max mencetak 81.00 pada tolok ukur Putnam-200 Pass@8, secara signifikan mengungguli Seed-2.0-Prover (35.50), Gemini 3 Pro (26.50), dan Seed-1.5-Prover (26.50). Hasil rezim frontier menunjukkan V4 berada di depan Seed-1.5-Prover (110/120) dan Aristotle (100/120).

V4 menggunakan pendekatan hibrida penalaran formal-informal: penalaran informal menghasilkan solusi bahasa alami kandidat, self-verification menyaring hasil, dan agen formal menyelesaikan pembuktian yang ketat di Lean. Hasil rezim frontier memanfaatkan penskalaan komputasi skala besar, sementara skor rezim praktis lebih mencerminkan kemampuan penerapan standar.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

Pemerintahan Trump mengumumkan rencana penindakan terhadap pemurnian AI, menuduh perusahaan Tiongkok melakukan pencurian sistematis kemampuan model

Kantor Kebijakan Teknologi Gedung Putih (OSTP), Asisten Presiden Michael J. Kratsios, pada 23 April mengeluarkan pernyataan resmi yang menyatakan bahwa pemerintahan Trump memiliki informasi, yang menunjukkan bahwa entitas asing (terutama yang berbasis di Tiongkok) secara sengaja menargetkan perusahaan-perusahaan besar kecerdasan buatan (AI) Amerika melalui serangkaian ekstraksi kemampuan model AI AS secara sistematis, menggunakan “puluhan ribu akun agen” dan sistem teknologi jailbreak, serta sekaligus mengumumkan empat langkah respons.

MarketWhisper7menit yang lalu

DeepSeek meluncurkan V4 versi pratinjau sumber terbuka, penilaian teknis 3206 melampaui GPT-5.4

DeepSeek pada 24 April secara resmi meluncurkan rangkaian pratinjau V4, dengan lisensi MIT, dan merilis kode sumber secara terbuka. Bobot model telah disinkronkan dan tersedia di Hugging Face serta ModelScope. Berdasarkan laporan teknis DeepSeek V4, V4-Pro-Max (mode kekuatan penalaran tertinggi) memperoleh 3206 poin pada benchmark Codeforces, melampaui GPT-5.4.

MarketWhisper23menit yang lalu

Cambricon Menyelesaikan Adaptasi Day 0 DeepSeek-V4, Menandai Tonggak Penting untuk Ekosistem Chip AI Tiongkok

Pesan Berita Gate, 24 April — Cambricon mengumumkan hari ini bahwa mereka telah menyelesaikan adaptasi Day 0 dari DeepSeek-V4, model bahasa besar terbaru dari DeepSeek, menggunakan ekosistem perangkat lunak NeuWare milik mereka sendiri dan framework vLLM. Kode adaptasinya juga telah dibuka-sumber secara bersamaan, menandai yang

GateNews39menit yang lalu

Tencent merilis Hy3 versi pratinjau sumber terbuka, tolok ukur pengujian kode meningkat 40% dibanding pendahulunya

Tencent pada 23 April secara resmi membuka sumber model bahasa besar Hy3 versi pratinjau di platform GitHub, Hugging Face, dan ModelScope, serta turut menyediakan layanan API berbayar melalui Tencent Cloud. Menurut laporan Decrypt pada 24 April, Hy3 versi pratinjau memulai pelatihan pada akhir Januari, dan hingga tanggal rilis kurang dari tiga bulan.

MarketWhisper47menit yang lalu

Investasi Portofolio FTX Senilai 158 Triliun Won Jika Tidak Bangkrut

FTX, bursa perdagangan mata uang kripto terpusat yang mengajukan perlindungan kebangkrutan Chapter 11 pada November 2022 karena kekurangan likuiditas dan penarikan modal, akan memiliki investasi senilai sekitar 158,796 triliun won jika tidak runtuh, menurut analisis yang dikutip oleh Park

CryptoFrontier49menit yang lalu

Xiaomi Mengungkap Detail Pelatihan MiMo-V2-Pro: Parameter Model 1T, Ribuan GPU Diterjunkan

Pesan Gate News, 24 April — Pemimpin tim model bahasa besar Xiaomi, Luo Fuli, mengungkapkan dalam wawancara mendalam bahwa model MiMo-V2-Pro memiliki total 1 triliun parameter dan memerlukan ribuan GPU untuk pelatihan. Ia mencatat bahwa skala 1T mewakili ambang batas minimum untuk mencapai kinerja yang mendekati tingkat Claude Opus 4.6 dan mendapatkan tiket masuk yang kompetitif untuk fase berikutnya dari agen AI.

GateNews1jam yang lalu
Komentar
0/400
Tidak ada komentar