Eksekutif Google DeepMind: Setiap Perusahaan Produk AI Harus Membangun Tolok Ukur Kustom

Berita Gate, 27 April — Logan Kilpatrick, manajer produk senior di Google DeepMind dan pemimpin produk untuk Google AI Studio, menyatakan di X bahwa setiap perusahaan yang membangun produk berbasis AI harus menetapkan tolok ukur kustomnya sendiri untuk mengukur performa model AI. Ia menyebutnya sebagai cara untuk membuat peningkatan model “memberi manfaat yang secara tidak proporsional bagi perusahaan Anda” dan mendesak para pendiri serta pemimpin bisnis untuk “mulai besok.”

Kebanyakan perusahaan saat ini mengandalkan papan peringkat publik untuk memilih model AI, tetapi papan peringkat ini mengukur kemampuan umum yang sering tidak selaras dengan skenario bisnis tertentu. Kilpatrick mencontohkan perusahaan peninjau kontrak yang paling peduli pada akurasi ekstraksi klausul—sebuah kemampuan yang tidak ada dalam tolok ukur publik, sehingga tidak mungkin menilai performa model pada tugas tersebut. Tolok ukur kustom menawarkan dua keunggulan utama: pertama, tolok ukur ini memungkinkan perusahaan mengevaluasi setiap pembaruan model terhadap tugas bisnis mereka sendiri dan memilih model yang berkinerja terbaik pada kasus penggunaan mereka yang sebenarnya, bukan model dengan peringkat tertinggi secara keseluruhan; kedua, tolok ukur ini memungkinkan perusahaan membagikan set pengujian tersebut kepada penyedia model, sehingga mendorong optimasi berkelanjutan di area yang penting bagi bisnis mereka.

Kilpatrick mencatat bahwa perusahaan seperti Zapier dan Sierra sudah menerapkan pendekatan ini, dengan mengatakan bahwa “ada banyak alpha yang bisa diciptakan di sini.”

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

Senator Bernie Sanders Mengeluarkan Peringatan tentang Ancaman Eksistensial AI

Sanders menekankan bahwa meskipun sebagian besar ilmuwan AI mengakui kemungkinan AI lepas dari kontrol dan menjadi bahaya bagi keberadaan kita, tidak ada langkah besar yang telah diambil untuk mencegahnya. “Kita harus memastikan bahwa AI memberi manfaat bagi umat manusia, bukan menyakiti kita,” katanya. Poin Penting: Bernie Sanders

Coinpedia3menit yang lalu

Penanggung jawab model besar Xiaomi: Persaingan AI beralih ke era Agent, dan penyempurnaan diri adalah peristiwa kunci menuju AGI

Pemimpin tim model besar Xiaomi, Luo Fuli, pada 24 April mengadakan wawancara mendalam di platform Bilibili (nomor video: BV1iVoVBgERD). Durasi wawancara 3,5 jam, ini merupakan pertama kalinya baginya untuk secara terbuka menguraikan pandangan teknis secara sistematis dengan peran sebagai penanggung jawab teknologi. Luo Fuli mengatakan bahwa kompetisi di jalur model besar telah bergeser dari era Chat ke era Agent, serta menyatakan bahwa “self-evolution” akan menjadi peristiwa kunci AGI dalam setahun ke depan.

MarketWhisper4menit yang lalu

Suara xAI Grok mengambil alih hotline layanan pelanggan Starlink, 70% panggilan masuk otomatis ditutup

Berdasarkan pengumuman resmi xAI pada 23 April, xAI meluncurkan agen AI suara Grok Voice Think Fast 1.0, dan telah dideploy di hotline layanan pelanggan Starlink +1 (888) GO STARLINK. Berdasarkan data uji nyata yang diungkap dalam pengumuman, 70% panggilan telepon ditutup secara otomatis oleh AI, tanpa perlu intervensi manusia.

MarketWhisper15menit yang lalu

GPT-5.5 Kembali ke Ujung Terdepan dalam Coding, Tapi OpenAI Mengganti Benchmark Setelah Kalah dari Opus 4.7

Berita Gate tanggal 27 April — SemiAnalysis, sebuah firma analisis semikonduktor dan AI, merilis benchmark perbandingan asisten coding yang mencakup GPT-5.5, Claude Opus 4.7, dan DeepSeek V4. Temuan utamanya: GPT-5.5 menandai kembalinya pertama OpenAI ke ujung terdepan dalam model coding dalam enam bulan, dengan insinyur SemiAnalysis kini bergantian antara Codex dan Claude Code setelah sebelumnya hampir sepenuhnya mengandalkan Claude. GPT-5.5 didasarkan pada pendekatan pra-pelatihan baru yang diberi kode "Spud" dan merupakan ekspansi pertama OpenAI dalam skala pra-pelatihan sejak GPT-4.5. Dalam pengujian praktis, muncul pembagian kerja yang jelas. Claude menangani perencanaan proyek baru dan penyiapan awal, sementara Codex unggul pada perbaikan bug yang membutuhkan penalaran intensif. Codex menunjukkan pemahaman yang lebih kuat tentang struktur data dan penalaran logis, tetapi kesulitan menyimpulkan maksud pengguna yang ambigu. Pada satu tugas di satu dasbor, Claude secara otomatis meniru tata letak halaman referensi tetapi memalsukan dalam jumlah besar data, sedangkan Codex melewatkan tata letak tetapi menyajikan data yang jauh lebih akurat. Analisis mengungkap detail manipulasi benchmark: posting blog OpenAI pada Februari mendorong industri untuk mengadopsi SWE-bench Pro sebagai standar baru untuk benchmark coding. Namun, pengumuman GPT-5.5 beralih ke benchmark baru yang disebut "Expert-SWE." Alasannya, yang terselip dalam catatan kecil, adalah bahwa GPT-5.5 disalip oleh Opus 4.7 pada SWE-bench Pro dan tertinggal jauh dari Mythos 77.8% yang belum dirilis Anthropic. Terkait Opus 4.7, Anthropic menerbitkan analisis pasca-kematian satu minggu setelah rilis, mengakui tiga bug dalam Claude Code yang bertahan selama beberapa minggu dari Maret hingga April, dan memengaruhi hampir semua pengguna. Beberapa insinyur sebelumnya telah melaporkan penurunan performa pada versi 4.6, tetapi diabaikan sebagai pengamatan subjektif. Selain itu, tokenizer baru Opus 4.7 meningkatkan penggunaan token hingga 35%, yang secara terbuka diakui Anthropic—secara efektif merupakan kenaikan harga yang tersembunyi. DeepSeek V4 dinilai sebagai "mampu menyamai laju dengan yang di garis depan tetapi tidak memimpin," dengan memposisikan dirinya sebagai alternatif berbiaya terendah di antara model sumber tertutup. Analisis juga mencatat bahwa "Claude terus mengungguli DeepSeek V4 Pro pada tugas penulisan bahasa Tionghoa dengan kesulitan tinggi," dengan komentar bahwa "Claude menang melawan model Tionghoa di bahasa aslinya." Artikel ini memperkenalkan konsep kunci: harga model harus dievaluasi berdasarkan "biaya per tugas" bukan "biaya per token." Harga GPT-5.5 dua kali lipat dari GPT-5.4 input $5, output per million tokens, tetapi ia menyelesaikan tugas yang sama dengan token yang lebih sedikit, sehingga biaya aktualnya tidak harus lebih tinggi. Data awal SemiAnalysis menunjukkan rasio input-ke-output Codex sebesar 80:1, lebih rendah daripada rasio Claude Code 100:1.

GateNews20menit yang lalu

MediaTek meraih pesanan besar Google TPU generasi ke-8! ASIC memanas, mendorong tiga saham konsep mendapatkan manfaat

MediaTek telah masuk ke rantai pasokan chip pelatihan Google TPU generasi ke-8, dengan tanggung jawab pada desain I/O Die, dan menggunakan proses TSMC N3P serta CoWoS-S untuk pengemasan, yang menunjukkan bahwa perusahaan telah naik ke tingkat desain AI ASIC kelas atas. Diperkirakan pendapatan ASIC tahun ini akan menembus 1 miliar dolar AS, dan volume pengiriman TPU hingga tahun 2027 berpeluang mencapai puluhan juta unit; rantai pasokan Taiwan seperti King Yuan Electronics, Jingce, dan Hongjin juga akan diuntungkan, sementara pasar secara bertahap beralih ke kerja sama pembagian peran dan masa depan chiplet serta integrasi heterogen.

ChainNewsAbmedia1jam yang lalu

RE:AI Singtel Bermitra dengan Mistral AI untuk Mengembangkan Infrastruktur AI di Singapura

Pesan Berita Gerbang, 27 April — Singtel Group mengumumkan bahwa RE:AI, unit infrastruktur digitalnya yang berbasis di Singapura, telah bermitra dengan Mistral AI untuk mendukung kemampuan AI bagi industri-industri di Singapura. Kemitraan ini akan berfokus pada pengembangan bersama infrastruktur AI dan solusi untuk layanan keuangan

GateNews2jam yang lalu
Komentar
0/400
Tidak ada komentar