Perplexity розкриває метод пост-тренування агента веб-пошуку; модель на базі Qwen3.5 перевершує GPT-5.4 за точністю та вартістю

Gate News message, 23 квітня — Дослідницька команда Perplexity опублікувала технічну статтю, яка детально описує її методологію пост-тренування для агентів веб-пошуку. Підхід використовує дві моделі Qwen3.5 із відкритим кодом (Qwen3.5-122B-A10B та Qwen3.5-397B-A17B) і застосовує конвеєр у два етапи: контрольоване донавчання (SFT) для формування дотримання інструкцій і мовної узгодженості, а потім онлайн підкріплювальне навчання (RL) для оптимізації точності пошуку та ефективності використання інструментів.

Фаза RL використовує алгоритм GRPO із двома джерелами даних: власним багатокроковим верифікованим набором запитань-відповідей, зібраним із внутрішніх стартових запитів, що вимагають 2–4 кроків міркування з верифікацією за допомогою кількох розв’язувачів, та розмовними даними загального призначення на основі рубрики, які перетворюють вимоги розгортання на об’єктивно перевірювані атомарні умови, щоб запобігти деградації поведінки SFT.

Дизайн винагород використовує gated aggregation — лише коли досягнуто базової правильності (відповідність питання-відповіді або коли виконано всі критерії рубрики), бали преференцій додаються, запобігаючи тому, щоб сигнали високої преференції маскували фактичні помилки. Штрафи за ефективність використовують прив’язку в межах групи, застосовуючи згладжені штрафи до викликів інструментів і довжини генерації, що перевищує базовий рівень правильних відповідей у тій самій групі.

Оцінювання показує, що Qwen3.5-397B-SFT-RL досягає результатів найвищого класу на пошукових бенчмарках. На FRAMES він досягає 57,3% точності за одного виклику інструмента, випереджаючи GPT-5.4 на 5,7 відсоткового пункта та Claude Sonnet 4.6 на 4,7 відсоткового пункта. За помірного бюджету (чотири виклики інструментів) він досягає 73,9% точності при $0,02 за запит, порівняно з 67,8% точності GPT-5.4 при $0,085 за запит і 62,4% точності Sonnet 4.6 при $0,153 за запит. Показники вартості базуються на публічному ціноутворенні кожного провайдера через API та виключають оптимізації кешування.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

AI-агент Менфред засновує компанію та отримує криптогаманець напередодні старту трейдингу наприкінці травня

AI-агент Manfred створив власну компанію та отримав криптовалютний гаманець разом із реквізитами, щоб наймати працівників, здійснювати платежі та вести бізнес. Агента не планують запускати торгівлю криптовалютою аж до кінця

GateNews1год тому

MoonPay запускає картку MoonAgents — дебетову картку зі стейблкоїном для AI-агентів на Mastercard

MoonPay у п’ятницю оголосила про запуск MoonAgents Card — віртуальної дебетової картки Mastercard, яка конвертує стейблкоїни в фіат безпосередньо в момент оплати як для AI-агентів, так і для користувачів. Картка, емітована через Monavate (регульовану глобальну платіжну платформу та основного члена Mastercard), пов’язує

GateNews1год тому

AI-агент Манфред створює компанію та отримує криптогаманець перед запуском торгів у травні

AI-агент Manfred створив власну компанію та отримав крипто-гаманець і бізнес-реєстраційні дані, хоча не розпочне торгівлю криптовалютою до кінця травня. Наразі агент готовий наймати співробітників, здійснювати платежі та вести бізнес

GateNews7год тому

MoonPay запускає MoonAgents Card — віртуальну Mastercard для агентів ШІ та користувачів у п’ятницю

За даними The Block, MoonPay запустила MoonAgents Card — віртуальну дебетову картку Mastercard для AI-агентів і користувачів — у п’ятницю. Картка конвертує стейблкоїни у фіат у точці оплати та може використовуватися в будь-якого онлайн-мерчанта в усьому світі, який приймає Mastercard. Її випуск здійснює Monavate, регульований платіж

GateNews10год тому

MoonPay запускає MoonAgents Card у мережі Mastercard у п’ятницю

За даними The Block, MoonPay у п’ятницю запустила MoonAgents Card — віртуальну дебетову картку Mastercard, яка дає змогу AI-агентам і користувачам витрачати стейблкоїни безпосередньо з ончейн-гаманців. Картку випускає Monavate — регульована глобальна платіжна платформа та основний член Mastercard, у

GateNews13год тому

137 Ventures закриває $700M для нових фондів, AUM досягає $15B

За даними ChainCatcher, 137 Ventures, ранній інвестор у SpaceX, нещодавно завершила залучення коштів для двох нових фондів на загальну суму понад $700 мільйонів, довівши свої активи під управлінням до понад $15 мільярдів. Новий капітал підтримуватиме інвестиції в AI-агентів, робототехніку та космічну силову установку

GateNews14год тому
Прокоментувати
0/400
Немає коментарів