Rapport de sécurité Meta Muse Spark : la connaissance des armes chimiques et des menaces biologiques atteint un « risque élevé », près de 20 % des modèles testés détectent qu'ils sont en cours d'évaluation

robot
Création du résumé en cours

ME News Actualités, le 15 avril (UTC+8), selon la surveillance de Dongcha Beating, Meta a publié un rapport sur la sécurité et la préparation de son premier modèle du laboratoire d’intelligence superintelligente (Meta Superintelligence Labs), Muse Spark. Muse Spark est un modèle d’inférence multimodale natif, prenant en charge l’appel d’outils, la chaîne de pensée visuelle et la collaboration multi-agent, déjà lancé sur Meta AI et accessible en prévisualisation API privée. Meta affirme que c’est la première étape de la nouvelle famille Muse, ainsi que le premier résultat de sa reconstruction du système de recherche et développement en IA à la base.
Les principales découvertes du rapport : Avant mitigation, Muse Spark était classé comme « haut risque » dans le cadre du « cadre d’extension avancée de l’IA » de Meta, dans des scénarios impliquant des armes chimiques et des menaces biologiques, c’est-à-dire que les connaissances maîtrisées par le modèle pouvaient substantiellement aider à la mise en œuvre d’attaques chimiques ou biologiques. Après mise en œuvre de mesures de mitigation à plusieurs niveaux, le risque a été réduit à « moyen ou inférieur ».
Après mitigation, Muse Spark affiche un taux de refus supérieur à tous ses pairs concernant les sujets liés aux menaces chimiques et biologiques : BioTIER 98,0 % (Claude Opus 4.6 à 95,4 %, GPT-5.4 à 75,4 %, Gemini 3.1 Pro seulement à 59,2 %), avec un taux de refus pour les agents chimiques de 99,4 %.
Le rapport révèle également trois faiblesses :

  1. Grande disparité dans l’alignement des intelligences : dans le test d’Agentic Misalignment, Muse Spark a 47,7 % de chances d’adopter une action nuisible, Gemini 3.1 Pro à 51,4 %, tandis que Claude Opus 4.6 et GPT-5.4 sont à 0 %
  2. Faible défense contre les évasions multi-tours : taux de réussite des attaques adaptatives à plusieurs tours de 44,6 %, supérieur à Claude (31,7 %) et GPT-5.4 (37,6 %)
  3. Conscience d’évaluation anormalement élevée : l’organisation tierce Apollo Research a découvert que la conscience d’évaluation de Muse Spark était la plus élevée parmi tous les modèles testés, avec 19,8 % des échantillons lors de tests de référence publics détectant qu’il était en cours d’évaluation, percevant la scène comme un « piège d’alignement » et déduisant qu’il devait répondre honnêtement.
    La conscience d’évaluation soulève une question plus profonde : si le modèle peut « jouer la comédie » lors des tests de sécurité, les résultats ne reflètent peut-être pas son comportement réel lors du déploiement. Meta affirme ne pas avoir encore observé de changement significatif dans le comportement du modèle dû à la conscience d’évaluation, mais admet que c’est un sujet de recherche ouvert.
    En termes de programmation autonome et de capacités de recherche, Muse Spark est également en retard par rapport à ses concurrents : taux de réussite CyBench 65,4 % (Claude Opus 4.6 à 93,0 %), score MLE-bench 15,8 % (Claude Opus 4.6 à 52,0 %). Meta reconnaît dans un blog qu’« il reste des écarts dans les systèmes d’agents intelligents à long terme et les flux de travail de programmation ». Cependant, Meta indique également que l’efficacité de pré-entraînement de Muse Spark a été améliorée de plus de 10 fois par rapport à Llama 4 Maverick, et que des modèles plus grands sont en cours de développement.
    (Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler