GPT-5.5 Kembali ke Ujung Terdepan dalam Coding, Tapi OpenAI Mengganti Benchmark Setelah Kalah dari Opus 4.7

Berita Gate tanggal 27 April — SemiAnalysis, sebuah firma analisis semikonduktor dan AI, merilis benchmark perbandingan asisten coding yang mencakup GPT-5.5, Claude Opus 4.7, dan DeepSeek V4. Temuan utamanya: GPT-5.5 menandai kembalinya pertama OpenAI ke ujung terdepan dalam model coding dalam enam bulan, dengan insinyur SemiAnalysis kini bergantian antara Codex dan Claude Code setelah sebelumnya hampir sepenuhnya mengandalkan Claude. GPT-5.5 didasarkan pada pendekatan pra-pelatihan baru yang diberi kode “Spud” dan merupakan ekspansi pertama OpenAI dalam skala pra-pelatihan sejak GPT-4.5.

Dalam pengujian praktis, muncul pembagian kerja yang jelas. Claude menangani perencanaan proyek baru dan penyiapan awal, sementara Codex unggul pada perbaikan bug yang membutuhkan penalaran intensif. Codex menunjukkan pemahaman yang lebih kuat tentang struktur data dan penalaran logis, tetapi kesulitan menyimpulkan maksud pengguna yang ambigu. Pada satu tugas di satu dasbor, Claude secara otomatis meniru tata letak halaman referensi tetapi memalsukan dalam jumlah besar data, sedangkan Codex melewatkan tata letak tetapi menyajikan data yang jauh lebih akurat.

Analisis mengungkap detail manipulasi benchmark: posting blog OpenAI pada Februari mendorong industri untuk mengadopsi SWE-bench Pro sebagai standar baru untuk benchmark coding. Namun, pengumuman GPT-5.5 beralih ke benchmark baru yang disebut “Expert-SWE.” Alasannya, yang terselip dalam catatan kecil, adalah bahwa GPT-5.5 disalip oleh Opus 4.7 pada SWE-bench Pro dan tertinggal jauh dari Mythos (77.8%) yang belum dirilis Anthropic.

Terkait Opus 4.7, Anthropic menerbitkan analisis pasca-kematian satu minggu setelah rilis, mengakui tiga bug dalam Claude Code yang bertahan selama beberapa minggu dari Maret hingga April, dan memengaruhi hampir semua pengguna. Beberapa insinyur sebelumnya telah melaporkan penurunan performa pada versi 4.6, tetapi diabaikan sebagai pengamatan subjektif. Selain itu, tokenizer baru Opus 4.7 meningkatkan penggunaan token hingga 35%, yang secara terbuka diakui Anthropic—secara efektif merupakan kenaikan harga yang tersembunyi.

DeepSeek V4 dinilai sebagai “mampu menyamai laju dengan yang di garis depan tetapi tidak memimpin,” dengan memposisikan dirinya sebagai alternatif berbiaya terendah di antara model sumber tertutup. Analisis juga mencatat bahwa “Claude terus mengungguli DeepSeek V4 Pro pada tugas penulisan bahasa Tionghoa dengan kesulitan tinggi,” dengan komentar bahwa “Claude menang melawan model Tionghoa di bahasa aslinya.”

Artikel ini memperkenalkan konsep kunci: harga model harus dievaluasi berdasarkan “biaya per tugas” bukan “biaya per token.” Harga GPT-5.5 dua kali lipat dari GPT-5.4 (input $5, output $30 per million tokens), tetapi ia menyelesaikan tugas yang sama dengan token yang lebih sedikit, sehingga biaya aktualnya tidak harus lebih tinggi. Data awal SemiAnalysis menunjukkan rasio input-ke-output Codex sebesar 80:1, lebih rendah daripada rasio Claude Code 100:1.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

DeepSeek V4 Pro di Ollama Cloud: Claude Code terhubung satu klik

Berdasarkan cuitan Ollama, DeepSeek V4 Pro dirilis pada 4/24, sudah masuk ke direktori Ollama dalam mode cloud, dan hanya dengan satu perintah saja dapat memanggil alat seperti Claude Code, Hermes, OpenClaw, OpenCode, Codex, dll. V4 Pro1.6T parameter, 1M context, Mixture-of-Experts; penalaran cloud tidak mengunduh bobot ke lokal. Jika ingin menjalankan secara lokal, perlu mengambil bobot sendiri dan menjalankannya dengan INT4/GGUF serta GPU multi-kartu. Pengujian kecepatan awal dipengaruhi oleh beban pada sisi cloud; kecepatan biasanya sekitar 30 tok/s, dengan puncak 1,1 tok/s; disarankan menggunakan prototipe cloud, dan setelah siap produksi massal barulah menjalankan inferensi sendiri atau menggunakan API komersial.

ChainNewsAbmedia5menit yang lalu

DeepSeek Memotong Harga V4-Pro hingga 75%, Memangkas Biaya Cache API menjadi Sepersepuluh

Berita Gate, 27 April — DeepSeek mengumumkan diskon 75% untuk model V4-Pro terbarunya bagi pengembang dan menurunkan harga cache input yang berhasil di seluruh jajaran layanannya melalui API menjadi sepersepuluh dari level sebelumnya. Model V4, yang dirilis pada 25 April dalam versi Pro dan Flash, telah dioptimalkan untuk prosesor Ascend milik Huawei

GateNews8menit yang lalu

Coachella beralih ke AI DeepMind milik Google untuk membayangkan ulang konser di luar panggung

Coachella telah bermitra dengan Google DeepMind untuk menguji alat AI baru yang mengubah cara pertunjukan musik live diciptakan dan dialami. Ringkasan Coachella telah menguji alat AI dengan Google DeepMind untuk mengubah pertunjukan live menjadi lingkungan digital interaktif. Tiga prototipe telah dibangun,

Cryptonews14menit yang lalu

Guo Mingchi: OpenAI ingin membuat ponsel AI Agent, MediaTek, Qualcomm, dan Luxshare Precision menjadi rantai pasokan kunci

Guo Mingchi mengklaim bahwa OpenAI sedang bekerja sama dengan MediaTek, Qualcomm, dan Luxshare Precision untuk mengembangkan ponsel AI Agent, dengan produksi massal diperkirakan pada 2028. Ponsel baru akan berpusat pada penyelesaian tugas; AI agen akan memahami dan menjalankan kebutuhan, menggabungkan komputasi di cloud dan di perangkat, dengan fokus pada sensor dan pemahaman konteks. Daftar spesifikasi dan rantai pasokan diperkirakan akan ditetapkan pada 2026–2027; jika rencana ini terwujud, atau akan membawa siklus ganti ponsel baru untuk pasar kelas atas, Luxshare berpeluang menjadi penerima manfaat utama.

ChainNewsAbmedia24menit yang lalu

IEA: Belanja infrastruktur AI telah melampaui investasi produksi minyak dan gas, dan pada 2026 diperkirakan akan meningkat lagi 75%

Menurut analisis dan data pasar yang dirilis oleh Badan Energi Internasional (IEA) pada 26 April, total belanja modal gabungan dari lima perusahaan teknologi teratas pada tahun 2025 telah melampaui 400 miliar dolar AS. Dana tersebut terutama digunakan untuk pembangunan infrastruktur AI, dengan skalanya kini telah melampaui besarnya investasi tahunan global untuk produksi minyak dan gas. IEA memperkirakan bahwa belanja modal terkait pada tahun 2026 dapat terus meningkat sebesar 75%.

MarketWhisper56menit yang lalu

Senator Bernie Sanders Mengeluarkan Peringatan tentang Ancaman Eksistensial AI

Sanders menekankan bahwa meskipun sebagian besar ilmuwan AI mengakui kemungkinan AI lepas dari kontrol dan menjadi bahaya bagi keberadaan kita, tidak ada langkah besar yang telah diambil untuk mencegahnya. “Kita harus memastikan bahwa AI memberi manfaat bagi umat manusia, bukan menyakiti kita,” katanya. Poin Penting: Bernie Sanders

Coinpedia1jam yang lalu
Komentar
0/400
Tidak ada komentar