Berita Gate, 22 April — Google Research merilis ReasoningBank, sebuah kerangka memori agen yang memungkinkan agen yang digerakkan oleh model bahasa besar untuk terus belajar setelah penerapan. Kerangka ini mengekstrak strategi penalaran universal dari pengalaman tugas yang berhasil maupun yang gagal, menyimpannya dalam bank memori untuk diambil dan dieksekusi pada tugas-tugas serupa di masa depan. Makalah terkait dipublikasikan di ICLR, dan kodenya telah dirilis sumber terbukanya di GitHub.

ReasoningBank ditingkatkan dibandingkan dua pendekatan yang sudah ada: Synapse, yang merekam lintasan aksi lengkap tetapi memiliki keterpindahan yang terbatas karena granularitas yang terlalu terperinci, dan Agent Workflow Memory, yang hanya belajar dari kasus yang berhasil. ReasoningBank membuat dua perubahan kunci: menyimpan “pola penalaran” alih-alih “urutan aksi,” dengan setiap memori berisi bidang terstruktur untuk judul, deskripsi, dan konten; serta memasukkan lintasan kegagalan ke dalam pembelajaran. Kerangka ini menggunakan sebuah model untuk menilai sendiri lintasan eksekusi, mengubah pengalaman kegagalan menjadi aturan anti-jebakan. Misalnya, aturan “klik tombol Muat Lebih saat terlihat” berevolusi menjadi “verifikasi terlebih dahulu pengidentifikasi halaman saat ini, hindari loop gulir tak berujung, lalu klik muat lebih.”

Makalah ini juga memperkenalkan Memory-aware Test-time Scaling (MaTTS), yang mengalokasikan komputasi tambahan selama inferensi untuk mengeksplorasi beberapa lintasan dan menyimpan temuan di bank memori. Ekspansi paralel menjalankan beberapa lintasan berbeda untuk tugas yang sama, menyempurnakan strategi yang lebih andal melalui perbandingan diri; ekspansi berurutan menyempurnakan satu lintasan secara iteratif, menyimpan penalaran antara di memori.

Pada tugas browser WebArena dan tugas pengkodean SWE-Bench-Verified menggunakan Gemini 2.5 Flash sebagai agen ReAct, ReasoningBank mencapai tingkat keberhasilan 8,3% lebih tinggi di WebArena dan 4,6% lebih tinggi di SWE-Bench-Verified dibandingkan baseline tanpa memori, dengan mengurangi rata-rata langkah per tugas sekitar 3. Menambahkan MaTTS dengan ekspansi paralel (k=5) selanjutnya meningkatkan tingkat keberhasilan WebArena sebesar 3 poin persentase dan mengurangi langkah sebesar tambahan 0,4.

Lihat Sumber

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

PicWe Meluncurkan Dompet Agen AI dengan Manajemen Kunci di Perangkat

Perkembangan Proyek Agen AI AI Tools & Aplikasi

PicWe mengumumkan beta publik PicWe Wallet, dompet kunci berbasis agen AI yang berjalan di perangkat (on-device) dengan tanpa frasa pemulihan. Dompet ini mendukung aset multi-chain, pertukaran (swap), otomasi yang dapat diakses oleh AI, serta bertujuan untuk menyatukan infrastruktur RWA. PicWe telah meluncurkan beta publik PicWe Wallet, dompet berbasis Agen AI yang menyimpan kunci di perangkat, menghilangkan frasa pemulihan, dan menjaga operasi penting tetap lokal. Beta ini mendukung manajemen aset multi-chain, swap, dan pembayaran biaya berbasis stablecoin sambil memungkinkan interaksi AI yang dapat diprogram. Inisiatif PicWe yang lebih luas memposisikan platform sebagai infrastruktur terpadu untuk aset dunia nyata, memungkinkan penerbitan, peredaran, penyelesaian (settlement), pembayaran lintas batas, tokenisasi, dan koordinasi rantai pasok untuk kasus penggunaan perusahaan.

GateNews31menit yang lalu

Hugging Face Open-Sources ml-intern, Agen AI untuk Riset ML Otonom

Agen AI Berita Industri AI

Bersumber terbuka ml-intern, agen riset ML otonom dari Hugging Face yang membaca paper, mengkurasi data, melatih, mengevaluasi, dan melakukan iterasi di bidang sains, kedokteran, dan matematika. Abstrak: ml-intern dari Hugging Face adalah agen riset ML otonom berbasis open-source yang membaca paper, mengkurasi kumpulan data, melakukan pelatihan pada GPU lokal atau cloud, mengevaluasi hasil, dan melakukan iterasi perbaikan. Dibangun di atas smolagents dengan antarmuka CLI dan web, ia menelusuri arXiv/HF Papers, HF Hub, dan HF Jobs. Demo mencakup sains, kedokteran, dan matematika, menunjukkan otomasi end-to-end dan peningkatan performa.

GateNews36menit yang lalu

Profesor Tsinghua Dai Jifeng Meluncurkan Naive.ai, Menggalang ~$300M pada $800M Valuation

Agen AI Berita Industri AI

Pesan Gate News, 22 April — Dai Jifeng, seorang profesor asosiasi di Departemen Teknik Elektronik Universitas Tsinghua, telah mendirikan Naive.ai, sebuah perusahaan yang berfokus pada pelatihan pasca model sumber terbuka dan agen AI. Startup tersebut telah mengumpulkan sekitar $300 juta dengan perkiraan valuasi sebesar $80

GateNews2jam yang lalu

AWS Expands Multi-Agent AI Workflows, Supports Claude Opus 4.7 on Bedrock

Agen AI Berita Industri AI

Gate News message, April 22 — Amazon Web Services announced expansion of its agentic AI initiatives through multi-agent workflows, supporting Anthropic's Claude Opus 4.7 on Amazon Bedrock to help customers move beyond generative AI pilots. The company is expanding partner relationships as customers

GateNews2jam yang lalu

0G Labs Bermitra dengan Alibaba Cloud untuk Mengaktifkan Akses Agen AI On-Chain ke Model Qwen

Kemitraan & Ekosistem Agen AI Berita Industri AI

Pengumuman Gate News, 22 April — 0G Labs telah mengumumkan kemitraan dengan Alibaba Cloud untuk memungkinkan agen AI memanggil langsung model bahasa besar Alibaba Qwen di-chain melalui infrastruktur blockchain 0G. Kolaborasi ini menandai pergeseran paradigma akses AI dari pendekatan berbasis API menjadi infrastruktur AI yang dapat diprogram dan ditokenisasi, di mana agen AI dapat memanggil Qwen untuk inferensi langsung di jaringan 0G dengan verifikasi ditangani oleh 0G.

GateNews3jam yang lalu

0G mengintegrasikan Alibaba Cloud Qianwen LLM, agen AI di rantai untuk pertama kalinya memperoleh kemampuan akses ke model-model besar secara komersial

Perkembangan Proyek Kemitraan & Ekosistem Agen AI Token AI

0G Foundation mengumumkan kerja sama resmi dengan Aliyun pada 21 April, menghadirkan model bahasa besar Tongwen (Qwen) ke infrastruktur terdesentralisasi, sehingga agen AI dapat langsung memanggil LLM kelas komersial dari lingkungan on-chain. Pengembang akan menggunakan fungsi inferensi Tongwen melalui mekanisme akses yang dikendalikan token, secara efektif mengubah pemanggilan LLM menjadi operasi yang dapat diukur di atas rantai, menjadikan Tongwen salah satu LLM komersial utama dalam batch pertama yang tertanam dalam kerangka agen terdesentralisasi.

MarketWhisper4jam yang lalu

Komentar

0/400

Tidak ada komentar