Le tout dernier modèle d'Anthropic excelle à détecter les vulnérabilités de sécurité — mais soulève de nouveaux risques en cybersécurité

ApeWithNoFear · 2026-02-10T04:47:09+00:00

Les modèles d'IA de Frontier ne se contentent plus d'aider les ingénieurs à écrire du code plus rapidement ou à automatiser des tâches routinières. Ils sont de plus en plus capables de repérer leurs erreurs.Vidéo recommandée Anthropic affirme que son modèle le plus récent, Claude Opus 4.6, excelle à découvrir les types de faiblesses logicielles que

ApeWithNoFear

2026-02-10 04:47:09

Les modèles d’IA de Frontier ne se limitent plus à aider les ingénieurs à écrire du code plus rapidement ou à automatiser des tâches routinières. Ils sont de plus en plus capables de repérer leurs propres erreurs.

Vidéo recommandée

Anthropic affirme que son modèle le plus récent, Claude Opus 4.6, excelle dans la détection des types de faiblesses logicielles qui sous-tendent les cyberattaques majeures. Selon un rapport de l’équipe Red Team de Frontier de l’entreprise, lors des tests, Opus 4.6 a identifié plus de 500 vulnérabilités zero-day auparavant inconnues — des failles ignorées par les développeurs du logiciel ou par la partie responsable de leur correction — dans des bibliothèques logicielles open source. Notamment, alors que les chercheurs donnaient au modèle un objectif — trouver des failles de sécurité dans certains logiciels — le modèle a déterminé ses propres méthodes pour accomplir la tâche, selon Logan Graham, responsable de l’équipe Red Team de Frontier chez Anthropic.

Anthropic indique que « les résultats montrent que les modèles linguistiques peuvent apporter une valeur réelle en complément des outils de découverte existants », tout en reconnaissant que ces capacités sont également intrinsèquement « à double usage ».

Les mêmes capacités qui aident les entreprises à repérer et corriger des failles de sécurité peuvent tout aussi bien être détournées par des attaquants pour découvrir et exploiter ces vulnérabilités avant que les défenseurs ne puissent les détecter. Un modèle d’IA capable d’identifier de manière autonome des exploits zero-day dans des logiciels largement utilisés pourrait accélérer les deux côtés de la course à la cybersécurité — pouvant potentiellement donner l’avantage à celui qui agit le plus rapidement.

Graham a confié à Axios que l’entreprise considère la cybersécurité comme une compétition entre offense et défense, et souhaite s’assurer que les défenseurs aient accès à ces outils en premier.

Pour gérer certains risques, Anthropic déploie de nouveaux systèmes de détection qui surveillent l’activité interne de Claude lors de la génération de réponses, en utilisant ce que l’entreprise appelle des « sondes » pour signaler en temps réel d’éventuels abus. L’entreprise indique également qu’elle étend ses capacités d’application, notamment la possibilité de bloquer le trafic identifié comme malveillant. Anthropic reconnaît que cette approche pourrait créer des frictions pour les chercheurs en sécurité légitimes et le travail de défense, et s’est engagée à collaborer avec la communauté de la sécurité pour relever ces défis. Selon l’entreprise, ces mesures de sécurité représentent « une avancée significative » dans la détection et la réponse rapide aux abus, bien que le travail soit toujours en cours.

À l’inverse, OpenAI a adopté une approche plus prudente avec son nouveau modèle de codage, GPT-5.3-Codex, également lancé jeudi. La société a souligné que, bien que le modèle ait permis une amélioration des performances en codage, des risques sérieux pour la cybersécurité accompagnent ces gains. Le PDG d’OpenAI, Sam Altman, a déclaré dans un post sur X que GPT-5.3-Codex est le premier modèle à être classé « élevé » pour le risque en cybersécurité selon le cadre de préparation interne de l’entreprise.

En conséquence, OpenAI déploie GPT-5.3-Codex avec des contrôles plus stricts. Bien que le modèle soit accessible aux utilisateurs payants de ChatGPT pour des tâches de développement quotidiennes, la société retarde l’accès complet à l’API et limite les cas d’utilisation à haut risque pouvant permettre une automatisation à grande échelle. Les applications plus sensibles sont protégées par des mesures supplémentaires, notamment un programme d’accès sécurisé pour les professionnels de la sécurité vérifiés. OpenAI a indiqué dans un article de blog accompagnant le lancement qu’elle ne dispose pas encore de « preuves définitives » que le modèle peut automatiser entièrement les cyberattaques, mais adopte une approche de précaution en déployant ce qu’elle décrit comme sa pile de sécurité la plus complète à ce jour, comprenant une surveillance renforcée, une formation à la sécurité et des mécanismes d’application basés sur le renseignement sur les menaces.

GPT0,04%

CODEX2,96%

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.