Perplexity 公开 Web 搜索代理的后训练方法;基于 Qwen3.5 的模型在准确率与成本上优于 GPT-5.4

拦截新闻消息,4 月 23 日——Perplexity 的研究团队发布了一篇技术文章,详细介绍了其用于 Web 搜索代理的后训练方法。该方案使用两个开源的 Qwen3.5 模型 (Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B),并采用两阶段流水线:先进行监督微调 (SFT) 以建立指令遵循与语言一致性,再进行在线强化学习 (RL) 以优化搜索准确性和工具使用效率。

强化学习阶段采用 GRPO 算法,包含两个数据来源:一个专有的多跳可验证问答数据集,该数据集由内部种子查询构建,要求进行 2–4 步推理,并通过多求解器进行验证;以及基于评分准则的通用对话数据,将部署需求转换为客观可检验的原子条件,以防止 SFT 行为退化。

奖励设计采用门控聚合——只有在达到基线正确性时,偏好分数才会计入 (question-answer 匹配或所有评分准则均满足),从而避免高偏好信号掩盖事实错误。效率惩罚使用组内锚定:对工具调用以及生成长度超过同组中正确答案基线的部分施加平滑惩罚。

评估表明,Qwen3.5-397B-SFT-RL 在各项搜索基准上实现同级最优表现。在 FRAMES 上,它在单次工具调用下达到 57.3% 的准确率,较 GPT-5.4 提高 5.7 个百分点,较 Claude Sonnet 4.6 提高 4.7 个百分点。在中等预算 (四次工具调用) 下,其准确率达到 73.9%,成本为每次查询 $0.02;相比之下,GPT-5.4 的准确率为 67.8%,每次查询 $0.085,Sonnet 4.6 的准确率为 62.4%,每次查询 $0.153。费用数据基于各提供方的公开 API 定价,并不包含缓存优化。

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

AI-агент Манфред создает компанию, получает криптокошелек перед запуском торгов в конце мая

AI-агент Manfred создал собственную компанию и получил криптокошелёк вместе с учётными данными для найма сотрудников, проведения платежей и ведения бизнеса. Агент не планирует начинать торговать криптовалютой до конца

GateNews1ч назад

MoonPay запускает MoonAgents Card — дебетовую карту на базе стейблкоина для AI-агентов на Mastercard

MoonPay объявила в пятницу о запуске MoonAgents Card — виртуальной дебетовой карты Mastercard, которая конвертирует стейблкоины в фиат в момент оплаты как для AI-агентов, так и для пользователей. Карта выпускается через Monavate (регулируемую глобальную платформу платежей и основного члена Mastercard) и связывает

GateNews1ч назад

ИИ-агент Манфред создаёт компанию и получает криптокошелёк до старта торгов в мае

AI-агент Manfred создал собственную компанию и получил криптокошелёк и бизнес-документы, хотя начинать торговлю криптовалютой он будет только в конце мая. Теперь агент готов нанимать сотрудников, осуществлять платежи и вести бизнес

GateNews7ч назад

MoonPay запускает MoonAgents Card — виртуальную Mastercard для AI-агентов и пользователей в пятницу

По данным The Block, MoonPay в пятницу запустила MoonAgents Card — виртуальную дебетовую карту Mastercard для AI-агентов и пользователей. Карта конвертирует стейблкоины в фиат непосредственно в момент оплаты и может использоваться у любых онлайн-мерчантов по всему миру, которые принимают Mastercard. Карта выпущена через Monavate, регулируемого платежного провайдера

GateNews10ч назад

MoonPay запускает MoonAgents Card в сети Mastercard в пятницу

По данным The Block, MoonPay запустила MoonAgents Card в пятницу — виртуальную дебетовую карту Mastercard, позволяющую AI-агентам и пользователям тратить стейблкоины напрямую из onchain-кошельков. Карта выпускается через Monavate, регулируемую глобальную платежную платформу и principal member Mastercard, в

GateNews13ч назад

137 Ventures закрывает $700M в новых фондах, AUM достигает 15 млрд долларов

По данным ChainCatcher, 137 Ventures, ранний инвестор в SpaceX, недавно завершила сбор средств для двух новых фондов на общую сумму свыше $700 миллионов, доведя объем активов под управлением до более $15 миллиардов. Новые средства пойдут на инвестиции в AI-агентов, робототехнику и космическую силовую установку

GateNews14ч назад
комментарий
0/400
Нет комментариев