バークレーGEPA解析:重みを更新しなくてもAIは新しいタスクを学習でき、訓練コストを35倍も削減してRLに勝つ

ChainNewsAbmedia

カリフォルニア大学バークレー校の研究チームが新しいAIトレーニング手法GEPAを提案し、ICLR 2026にOral論文として受理された。GEPAはモデルの重みを更新せず、GPUによる訓練も不要で、「学習ログを読み取る」LLMを使ってAIシステムのプロンプトを反復的に書き換えるだけで、6つのタスクにおいて平均的に主流の強化学習手法GRPOに対して6%上回り、最高で20%勝ち、必要な訓練試行回数(rollouts)も35倍少ない。研究がAIエンジニアリングコミュニティで拡散され、Xプラットフォーム上で議論を呼んだのち、現在はDSPyに統合されて一次最適化器(一等優化器)になっている。

GEPAは何をするのか:学習ログを教材として扱い、スコアだけを見ない

従来の強化学習手法(例:GRPO)のワークフローは次のとおりだ。AIに一度タスクを実行させ、その結果に基づいて「+1か-1」のスコアを与え、そのスコアを用いてモデルの重みを反復調整する。問題は、AIがこの一度のタスクを実行する過程には通常、数千tokenに及ぶ推論ステップ、ツール呼び出し、エラー情報が含まれていることだ。こうした豊富な詳細はすべて1つのスコアに圧縮され、過程の情報が捨てられる。だからこそ、RLは収束するまでに何万回もの試行が必要になる。

GEPAは逆だ。毎回AIがタスクを走り終えたら、その一連の過程(reasoning、ツール呼び出し、エラー記録)をそのまま別の「反省LLM」に読み込ませる。反省LLMは、熟練したエンジニアがプログラムのログを読むのと同じように、どのステップで失敗したのか、なぜ失敗したのか、そしてプロンプトをどう修正すべきかを見つけ、その後に該当モジュールのプロンプトを直接書き換える。同様に一度だけタスクを実行するが、GEPAがそこから抽出する信号量は、RLの単一スコアよりはるかに多い。

なぜ勝てるのか:「採点」を「一連の過程の読み取り」に変えるから

GEPAは6つのタスクで平均してGRPOに対し6%上回り、最高で20%勝つ。別の主流なプロンプト最適化器MIPROv2とも比較すると、10%以上上回っている(AIME-2025の数学問題ベンチマークで12%向上)。最も重要なのは訓練コストだ。GEPAは同等の性能に到達するために必要なrollouts(1回のタスク完全実行)が、35倍少ない。

もう一つのデータとして、GEPAがDSPyと統合された後の「Full Program Adapter」は、signature、モジュール、制御フローを含むDSPy全体のプログラムを最適化でき、MATHの数学ベンチマークで93%の精度を達成し、DSPy本来のChainOfThoughtの書き方の67%を大きく上回る。GEPAはmulti-moduleワークフロー(複数モジュールを直列に接続するAIエージェント)でも特に優れており、システム全体を調整するのではなく、特定の失敗しているモジュールをピンポイントで特定して、そのプロンプトを書き換えられる。

誰が最初に使うのか:DSPyの一等市民、GitHubでオープンソース

GEPAのコードはGitHubで公開されており、dspy.GEPAの形でDSPyフレームワークに統合されると同時に、Pythonライブラリとして独立して公開されている。研究チームはUC Berkeley、Stanford、Notre Dame、Anthropicなどの機関にまたがり、論文の著者にはMatei Zaharia(Databricks共同創業者、DSPyの主要著者)とOmar Khattab(DSPyの主要著者)が含まれる。

開発者コミュニティにとってGEPAは、「大量のrolloutはあるが、どう活用すればいいか分からない」という新しい解決策を提供する。多くのチームはすでに、エージェントがタスクを実行した記録を数千件〜数万件単位で蓄積しているが、失敗したときに数件をめくってバグを探す以外に、それらの記録をモデル改善に体系的に変換する方法がない。次の注目点は、GEPAが企業のエージェント型ワークフロー(例:カスタマーサポート自動化、プログラム自動修復)で実際に導入されるケースと、DSPy以外のフレームワークでのGEPAに対応する実装が現れるかどうかだ。

この記事「Berkeley GEPA解説:重みを更新しないのにAIが新しいタスクを学べ、35倍少ない訓練コストでRLに勝つ」が最初に現れたのは、鎖新聞のABMedia。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

関連記事

AI バーチャルモデルの経済学:Aitana、Emily と4つのMarkdownシステム解析

AI仮想モデルは、話題実験から月に数万ドルを稼ぐ商業実体へと進み、技術スタック全体が18か月で急速に成熟しました。この記事では3つの典型的なケースを整理します:The Clueless傘下のAitana López(バルセロナ、月収€10,000)、匿名のクリエイターが作ったEmily Pellegrini(週収は約1万ドル)、そして最近X(旧Twitter)上で拡散している「Maya」事例——テキサス州の学生が、4つのmarkdownファイルで構築したとされるAI仮想人格で、初月にOnlyFansのアカウント上で4.3万ドルの収益を上げたケースです。 Aitana López:The Clueless自社の仮想モデル、月収最高€10,000 Aitana López は西

ChainNewsAbmedia20分前

TipTipはAIによるエンターテインメントのチケット販売強化によりEBITDAの黒字化を達成

インドネシアのエンターテインメントおよび体験プラットフォーム「TipTip」は5月4日、コスト管理の徹底、ユニットエコノミクスの改善、主要投資家であるEast Venturesとの提携により、早期2026年に社内全体でEBITDAの黒字化を達成したと発表した。 エンターテインメント・チケッティングの成長 TipTipのエンターテインメント t

CryptoFrontier2時間前

Astroの共同創業者がRosieをオープンソース化:10のAIコーディングエージェント間でスキルを同期

Beatingによると、Astro フロントエンドフレームワークの共同創業者である Matthew Phillips は、AIエージェントのスキルパッケージを管理するためのコマンドラインツールである Rosie をオープンソース化した。このツールはローカルにインストールされたコーディングエージェントを自動的に検出し、Claude を含む 10 のプラットフォーム間でスキルを同期する。

GateNews5時間前

Particle Network、ユニバーサルアカウントのロードマップをリリースし、ユニバーサルデポジットSDKとAIエージェントアカウントを提供開始

ChainCatcherによると、Particle Networkは本日、Universal Accountsの次のフェーズのロードマップを公開し、今後数か月以内に2つの新製品を導入するとしています。Universal Deposit SDKは、開発者が約10行のコードでマルチチェーンの入金を追加できるようにするもので、そしてUniversal Agent Accounts、

GateNews20時間前

ライオット・プラットフォームズの2026年Q1売上はデータセンター稼働により1億6,720万ドルに上昇

ビットコイン・マイナーのRiot Platformsは、2026年Q1の四半期総収益が1億6,720万ドルだったと報告しており、2025年の同期間の1億6,140万ドルから増加した。同社は、新たに立ち上げたAIインフラ向けホスティングを提供するデータセンター運営で3,320万ドルを生み出した。 同社のこの節目はCEOのジェイソン・レスに影響を与えた

CryptoFrontier21時間前

RobloxがAIソフトウェアをローンチし、UnityとEpic Gamesに挑戦

Bloombergによると、RobloxはUnity TechnologiesやEpic Gamesと競合するための新しいAIソフトウェアを発表している。これらの企業のエンジンは、大規模予算のゲーム開発を支配している。CEOのデイブ・バズキ(Dave Baszucki)は、このツールが、ARによって駆動され、フォトリアルなグラフィックスをより簡単に用いてマルチプレイヤーゲームを作れるようにすることを目的としていると述べた。

GateNews05-03 05:21
コメント
0/400
コメントなし