Perplexity 披露网络搜索代理的后训练方法;基于 Qwen3.5 的模型在准确率与成本上优于 GPT-5.4

封面新闻消息,4 月 23 日——Perplexity 的研究团队发布了一篇技术文章,详细说明其用于网络搜索代理的后训练方法。该方法使用两个开源的 Qwen3.5 模型 (Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B),并采用两阶段流水线:先进行监督微调 (SFT) 以建立指令遵循与语言一致性,然后通过在线强化学习 (RL) 来优化搜索准确性与工具使用效率。

RL 阶段使用 GRPO 算法,来自两类数据源:一是由内部种子查询构建的专有多跳可验证问答数据集,这些查询需要 2–4 跳推理,并采用多解算器验证;二是基于评分标准的通用对话数据,它将部署需求转换为客观可核查的原子条件,以防止 SFT 行为退化。

奖励设计采用门控聚合——只有在达到基线正确性时((question-answer match 或所有评分标准要求均满足))偏好分数才会计入,避免高偏好信号掩盖事实错误。效率惩罚使用组内锚定:对工具调用以及生成长度施加平滑惩罚,这些值超过了同一组中正确答案的基线水平。

评估显示,Qwen3.5-397B-SFT-RL 在各项搜索基准上实现了同类最佳表现。在 FRAMES 上,它在单次工具调用时达到 57.3% 的准确率,较 GPT-5.4 高出 5.7 个百分点,较 Claude Sonnet 4.6 高出 4.7 个百分点。在适度预算 (four tool calls) 下,它以每次查询 $0.02 的成本达到 73.9% 准确率;相比之下,GPT-5.4 在每次查询 $0.085 时准确率为 67.8%,Sonnet 4.6 在每次查询 $0.153 时准确率为 62.4%。成本数据基于各提供方公开的 API 定价,并不包含缓存优化。

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

GoPlus AgentGuard lanza el modo Checkup para reforzar la seguridad Web3 de los agentes de IA

Mensaje de Gate News, 23 de abril — El componente de seguridad de GoPlus AI, AgentGuard, ha lanzado oficialmente su función Checkup, diseñada para abordar puntos ciegos de seguridad en la toma de decisiones autónoma y el control de activos de los agentes de IA, elevando la seguridad de los agentes de IA de "intercepción fragmentada" a "medición sistemática"

GateNewsHace57m

Anthropic lanza /ultrareview para Claude Code: revisión de código en la nube con múltiples agentes

Mensaje de Gate News, 23 de abril — Anthropic ha presentado /ultrareview (vista previa de investigación), una función de revisión de código multiagente basada en la nube para Claude Code. Los usuarios pueden escribir /ultrareview en la CLI para lanzar un grupo de agentes de revisión en un entorno remoto aislado que trabajan en paralelo para examinar las diferencias entre la rama actual y la rama predeterminada incluidos cambios sin confirmar en Git, o revisar directamente PRs de GitHub proporcionando un número de PR. Todo el proceso no requiere recursos locales y normalmente tarda de 5 a 10 minutos, con los resultados devueltos a la sesión como notificaciones. La distinción clave con la herramienta local /review radica en su mecanismo de verificación: cada hallazgo se reproduce y confirma de forma independiente por un agente separado, centrado en fallos reales en lugar de sugerencias de estilo de código. Anthropic sitúa ambas herramientas para etapas diferentes del desarrollo—/review para comentarios rápidos durante la codificación, y /ultrareview para revisiones profundas de cambios críticos como autenticación o migración de datos antes de fusionar. En cuanto a precios, /ultrareview utiliza facturación adicional por uso y no consume el uso incluido en el plan. Los usuarios de Pro y Max disponen de 3 usos gratuitos cada uno antes del 5 de mayo únicos, no renovables, tras lo cual cada revisión cuesta aproximadamente a en función de la escala de los cambios. Los usuarios de Team y Enterprise no tienen asignación gratuita. La función requiere autenticación de la cuenta de Claude.ai y no está disponible para Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry, ni para organizaciones con la retención de datos en cero habilitada.

GateNewshace1h

OpenAI lanza agentes de espacio de trabajo de ChatGPT para la automatización de flujos de trabajo empresariales

Mensaje de Gate News, 23 de abril — OpenAI anunció la implementación de agentes de espacio de trabajo en ChatGPT el 22 de abril, presentando agentes de IA compartidos diseñados para automatizar tareas complejas y flujos de trabajo ampliados entre herramientas y equipos dentro de una organización. Los agentes están impulsados por Codex y operan en un entorno basado en la nube con acceso a archivos, ejecución de código, aplicaciones conectadas y funciones de memoria. Los agentes de espacio de trabajo pueden realizar procesos de varios pasos mientras operan bajo permisos, reglas de gobernanza y controles de acceso definidos por la organización. Admiten la colaboración al compartirse entre ChatGPT o plataformas integradas como Slack, y pueden programar tareas recurrentes y operar sin supervisión directa del usuario. Algunos casos de uso de ejemplo incluyen agentes de ventas que agregan notas de llamadas y datos de cuentas para evaluar clientes potenciales y redactar comunicaciones de seguimiento, agregación de comentarios de producto, informes semanales automatizados con visualización de datos, calificación de clientes potenciales y automatización de divulgación integrada con sistemas CRM, y análisis de riesgo de proveedores que abarca señales financieras y de cumplimiento. La función está disponible actualmente en una vista previa de investigación para usuarios de los planes ChatGPT Business, Enterprise, Edu y Teachers. Permanecerá gratuita hasta principios de mayo de 2026, después de lo cual OpenAI planea introducir una estructura de precios basada en créditos. La empresa indicó que se planean más desarrollos, incluidos disparadores de automatización ampliados, paneles de análisis mejorados e integración más profunda en aplicaciones empresariales.

GateNewshace1h

Alibaba Cloud lanza JVS Crew, una plataforma de Agentes de IA de nivel empresarial

Mensaje de Gate News, 23 de abril — Alibaba Cloud lanzó oficialmente JVS Crew, una plataforma de creación de Agentes de IA de nivel empresarial diseñada con un enfoque de "integración primero". La plataforma permite a las empresas incorporar rápidamente capacidades de Agentes de IA en aplicaciones existentes, servicios SaaS o hardware inteligente

GateNewshace1h

¡Banca en Taiwán y el sector financiero se unen para crear una IA local! El modelo de lenguaje financiero a gran escala se pondrá en línea a más tardar a finales de año.

Las 16 instituciones financieras encabezadas por China Trust Financial Holding anunciaron el lanzamiento del proyecto “Modelo de Gran Lenguaje Financiero FinLLM”. Se prevé que el primer modelo bancario se publique en agosto, y que en el primer trimestre de 2026 se lance de nuevo un agente de IA basado en FinLLM. El entrenamiento comenzará en mayo, con un presupuesto de aproximadamente 40–70 millones de yuanes. Debido a las exigencias regulatorias y a la necesidad de localización, el entrenamiento se centrará en datos locales, se fortalecerá la IA soberana, se construirá una infraestructura común compartida y se ampliará a las finanzas inclusivas. El plan ya se ha incorporado al plan nacional de desarrollo de la IA y ha recibido apoyo de varios ministerios y organismos.

ChainNewsAbmediahace3h

CEO de Google: el gasto de capital de 2026 alcanzará 185 mil millones, y se incrementarán las inversiones en la era de los agentes de IA

El director ejecutivo de Google, Sundar Pichai, anunció en la conferencia Google Cloud Next celebrada el 22 de abril en Las Vegas que Google planea invertir entre 175 mil millones y 185 mil millones de dólares en gasto de capital en 2026 para construir la infraestructura necesaria para sus agentes de inteligencia artificial (AI Agent) autónomos, lo que supone un aumento frente a los 31 mil millones de dólares de 2022.

MarketWhisperhace3h
Comentar
0/400
Sin comentarios