Publier le message d’actualité, 23 avril — L’équipe de recherche de Perplexity a publié un article technique décrivant sa méthodologie de post-formation pour les agents de recherche web. L’approche utilise deux modèles open source Qwen3.5 (Qwen3.5-122B-A10B et Qwen3.5-397B-A17B) et met en œuvre un pipeline en deux étapes : un fine-tuning supervisé (SFT) pour établir le respect des instructions et la cohérence linguistique, suivi d’un apprentissage par renforcement en ligne (RL) pour optimiser la précision de recherche et l’efficacité d’utilisation des outils.

La phase RL tire parti de l’algorithme GRPO avec deux sources de données : un jeu de données interne propriétaire vérifiable de questions-réponses multi-étapes construit à partir de requêtes de départ nécessitant 2 à 4 étapes de raisonnement avec vérification par plusieurs solveurs, et des données conversationnelles générales basées sur des grilles d’évaluation qui transforment les exigences de déploiement en conditions atomiques objectivement vérifiables afin de prévenir la dégradation du comportement de la SFT.

La conception des récompenses emploie une agrégation filtrée — les scores de préférence ne contribuent que lorsque la correction de base est atteinte (correspondance question-réponse de base) ou lorsque toutes les conditions de grille d’évaluation sont satisfaites (, empêchant des signaux de préférence élevés de masquer des erreurs factuelles. Les pénalités d’efficacité utilisent un ancrage au sein du groupe, en appliquant des pénalités progressives aux appels d’outils et à la longueur de génération dépassant la référence des réponses correctes dans le même groupe.

L’évaluation montre que Qwen3.5-397B-SFT-RL atteint les meilleures performances de sa catégorie sur des bancs d’essai de recherche. Sur FRAMES, il atteint 57,3 % d’exactitude avec un seul appel d’outil, dépassant GPT-5.4 de 5,7 points de pourcentage et Claude Sonnet 4.6 de 4,7 points de pourcentage. Dans un budget modéré )quatre appels d’outils, il obtient 73,9 % d’exactitude à 0,02 $ par requête, contre 67,8 % d’exactitude pour GPT-5.4 à 0,085 $ par requête et 62,4 % d’exactitude pour Sonnet 4.6 à 0,153 $ par requête. Les chiffres de coût reposent sur la tarification API publique de chaque fournisseur et excluent les optimisations de mise en cache.

Afficher la source

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

OpenAI lance GPT-5.5 : 12M de contexte, l’indice AA atteint le sommet, Terminal-Bench 82,7 % reconfigure la référence des agents

Agent IA Actualités de l’industrie de l’IA

OpenAI publie GPT-5.5, axé sur le travail basé sur des agents et le traitement des connaissances en entreprise, et le lance simultanément dans ChatGPT et Codex. Les points clés incluent une fenêtre contextuelle de 12 millions de tokens, l’AA Intelligence Index 60, en avance sur Claude Opus 4.7 et Gemini 3.1 Pro ; le prix est de 5 dollars pour l’entrée de 1 million de tokens et de 30 dollars pour la sortie de 1 million de tokens, la sortie de tokens diminuant d’environ 40 %, tandis que le coût réel augmente d’environ 20 %.

ChainNewsAbmediaIl y a 34m

MagicBlock lance Mirage, un outil de paiement de confidentialité en ligne de commande pour Solana

solana news Progression du projet Agent IA Outils et apps IA

Message d’actualité Gate News, 23 avril — MagicBlock a publié Mirage, un outil de paiement de confidentialité en ligne de commande conçu pour le réseau Solana. L’outil permet aux utilisateurs de créer des portefeuilles, d’y déposer des fonds et d’envoyer des transactions privées via des commandes de terminal, des bots ou des agents IA. Mirage est construit sur Private

GateNewsIl y a 4h

OpenClaw 2026.4.22 unifie le cycle de vie des plugins entre les harness Codex et Pi, réduisant le temps de chargement des plugins jusqu’à 90 %

pi network news Agent IA Actualités de l’industrie de l’IA

Message de Gate News, 23 avril — OpenClaw, une plateforme open source d’agent IA, a publié la version 2026.4.22 le 22 avril, dont le plus grand changement est l’alignement des cycles de vie du harness Codex et du harness Pi. Auparavant, les plugins se comportaient de façon incohérente entre les deux voies de harness, certains hooks étant absents dans certains environnements. La nouvelle version consolide les hooks critiques, notamment before_prompt_build, before_compaction/after_compaction, after_tool_call, before_message_write, et llm_input/llm_output/agent_end, éliminant la nécessité pour les développeurs de maintenir des implémentations distinctes pour chaque voie. La mise à jour introduit aussi la prise en charge du middleware async tool_result pour les extensions de plugin côté Codex. Les améliorations de performance sont considérables : le chargement des plugins utilise désormais Jiti natif, réduisant le temps de démarrage de 82 % à 90 %, tandis que l’exécution de doctor --non-interactive a diminué d’environ 74 %. Le niveau de réflexion par défaut pour les modèles d’inférence a été relevé de désactivé/faible à moyen, permettant des sorties de raisonnement par défaut pour les configurations non modifiées. D’autres correctifs incluent le fait que les appels d’agent multi-tours de Kimi K2.6 n’interrompent plus en raison d’une corruption de l’ID tool_call, une meilleure gestion de la mémoire des sous-processus Linux avec un ajustement automatique de oom_score_adj, et un nouveau système de récupération de configuration last-known-good pour empêcher que les crashs de Gateway ne soient causés par des écrasements accidentels de configuration. Les nouvelles intégrations de fournisseurs incluent la génération d’images de xAI grok-imagine-image et grok-imagine-image-pro, ainsi que les capacités TTS et STT ; Tencent Cloud en tant que plugin fournisseur officiel avec des modèles de prévisualisation Hy3 et une tarification ; et l’outil natif web_search d’OpenAI, remplaçant le canal de recherche géré d’OpenClaw lorsque la recherche web est activée.

GateNewsIl y a 5h

Google Cloud et CVC s’associent pour accélérer la transformation par agents IA pour les sociétés du portefeuille

Agent IA Actualités de l’industrie de l’IA

Message de Gate News, le 23 avril — Google Cloud et le géant du capital-investissement CVC ont annoncé un partenariat stratégique afin d’accélérer la transformation par agents IA pour CVC et des centaines d’entreprises au sein de son portefeuille d’investissement. La collaboration tirera parti de la plateforme d’intelligence artificielle de Google Cloud et

GateNewsIl y a 8h

Le lancement du marché de prédiction IA Delphi sur le mainnet Gensyn

Marchés de prédiction Progression du projet Partenariats & Écosystème Agent IA Tokens IA

Message de Gate News, 23 avril — Le protocole de marché de prédiction par IA Delphi a officiellement été lancé sur Gensyn, un protocole de calcul par IA, permettant aux humains et aux agents IA d’effectuer des transactions de prédiction sur la même plateforme. Le règlement est effectué on-chain via des oracles IA vérifiés. Gensyn avait auparavant lancé D

GateNewsIl y a 8h

Commentaire

0/400

Aucun commentaire