PerplexityがWeb検索エージェントのポストトレーニング手法を公開;Qwen3.5ベースのモデルが精度とコストでGPT-5.4を上回る

ニュース速報メッセージ:4月23日 — Perplexityの研究チームが、Web検索エージェント向けのポストトレーニング手法の詳細を説明する技術記事を公開しました。このアプローチは、2つのオープンソースのQwen3.5モデル (Qwen3.5-122B-A10B と Qwen3.5-397B-A17B) を使用し、2段階のパイプラインを採用します。すなわち、命令追従と言語の一貫性を確立するための教師あり微調整 (SFT) の後に、検索精度とツール使用の効率を最適化するためのオンライン強化学習 (RL) を行います。

RLフェーズでは、GRPOアルゴリズムを2つのデータソースとともに活用します。1つは、内部のシードクエリから構築された独自のマルチホップ検証可能な質問-回答データセットで、推論の2〜4ホップと、複数ソルバによる検証を必要とします。もう1つは、配備要件を客観的に検査可能な原子的条件へ変換してSFTの振る舞い劣化を防ぐ、ルーブリックに基づく汎用会話データです。

報酬設計では、ゲート付き集約を採用します——ベースラインの正しさが達成された場合にのみ、選好スコアが寄与します (question-answer match または すべてのルーブリック基準が満たされた場合)。これにより、高い選好信号が事実誤りを覆い隠すことを防ぎます。効率ペナルティは同一グループ内のアンカーリングを用い、同じグループにおける正答のベースラインを超えて、ツール呼び出しや生成長に対してなめらかなペナルティを適用します。

評価では、Qwen3.5-397B-SFT-RLが検索ベンチマーク全体で業界最高水準の性能を達成しています。FRAMESでは、単一ツール呼び出しで57.3%の精度を実現し、GPT-5.4を5.7パーセントポイント上回ります。また、Claude Sonnet 4.6を4.7パーセントポイント上回ります。中程度の予算 (4回のツール呼び出し) では、1クエリあたり$0.02で73.9%の精度を達成し、GPT-5.4の1クエリあたり$0.085での67.8%の精度、Sonnet 4.6の1クエリあたり$0.153での62.4%の精度と比較しています。コスト数値は各提供元の公開API料金に基づき、キャッシュの最適化は除外されています。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

関連記事

AIエージェントのマンフレッドが、5月末の取引開始前に暗号ウォレットを取得し、会社を設立

AIエージェントのマイフレッドは独自の会社を設立し、暗号ウォレットと、スタッフを雇うための資格情報、支払いを行うための資格情報、そして事業を行うための資格情報を取得しました。このエージェントは、暗号の取引を開始する予定がいつもその後までありません。

GateNews1時間前

MoonPay、AIエージェント向けのマスターカード対応ステーブルコインデビットカード「MoonAgents Card」をローンチ

MoonPayは金曜日、MoonAgents Cardの提供開始を発表しました。これは、AIエージェントとユーザーの両方に対し、決済時点でステーブルコインを法定通貨に換えるバーチャルのMastercardデビットカードです。このカードは、Monavate(規制を受けたグローバル決済プラットフォームであり、Mastercardのプリンシパルメンバー)を通じて発行され、リンクしています。

GateNews1時間前

AIエージェントのマングレッド、5月の取引ローンチに先駆けて暗号ウォレットを取得し、会社を設立

AIエージェントのマンフレッドは独自に会社を設立し、暗号資産ウォレットと事業用の認証情報を取得しましたが、暗号資産の取引を開始するのは5月末まで待つ予定です。エージェントは現在、スタッフを雇用し、支払いを行い、そしてビジネスを遂行するための準備が整っています。

GateNews7時間前

MoonPayが金曜に「MoonAgents Card」を提供開始、AIエージェントとユーザー向けのバーチャルMastercard

The Blockによると、MoonPayは金曜日に、AIエージェントとユーザー向けのバーチャルMastercardデビットカードであるMoonAgents Cardをローンチした。 このカードは決済時点でステーブルコインを法定通貨へ換算し、Mastercardを受け付ける世界中のあらゆるオンライン加盟店で利用できる。規制された支払いを提供するMonavateを通じて発行される

GateNews10時間前

MoonPayは金曜日、MastercardネットワークでMoonAgentsカードをローンチします

The Blockによると、MoonPayは金曜日にMoonAgents Cardをローンチしました。これは仮想マスターカードのデビットカードで、AIエージェントとユーザーがオンチェーンのウォレットから直接ステーブルコインを使って支払えるようにするものです。このカードは、Monavateを通じて発行されます。Monavateは、規制を受けた世界的な決済プラットフォームであり、Mastercardのプリンシパル・メンバーで、

GateNews13時間前

137 Venturesは新たな資金で$700M を閉鎖し、運用資産(AUM)が150億ドルに到達

ChainCatcherによると、SpaceXの初期投資家である137 Venturesは、最近2つの新ファンドの資金調達を完了し、合計で7億ドル超となりました。その結果、運用資産は150億ドル超に達しています。新たな資金は、AIエージェント、ロボティクス、そして宇宙推進の分野への投資を支える予定です。

GateNews14時間前
コメント
0/400
コメントなし