Une nouvelle étude publiée le 6 novembre par les données de Jin10 indique que les méthodes d’évaluation des capacités des systèmes d’intelligence artificielle ont tendance à exagérer leurs performances et manquent de rigueur scientifique. Cette recherche, menée par l’Internet Institute d’Oxford en collaboration avec plus de trente autres institutions, a examiné 445 tests d’intelligence artificielle de référence (appelés benchmarks), couramment utilisés pour mesurer la performance des modèles d’IA dans différents domaines thématiques. L’étude souligne que ces tests fondamentaux peuvent manquer de fiabilité et remet en question la validité de nombreux résultats issus de ces benchmarks. Selon la recherche, un grand nombre de benchmarks de haut niveau ne précisent pas clairement leurs objectifs de test, et il est préoccupant de voir une réutilisation répétée des mêmes données et méthodes de test, tout en utilisant rarement des méthodes statistiques fiables pour comparer les résultats des différents modèles. Adam Mahdi, chercheur principal à l’Internet Institute d’Oxford et auteur principal de l’étude, estime que ces benchmarks peuvent induire en erreur de manière inquiétante. Il déclare : « Lorsque nous demandons à un modèle d’IA d’accomplir une tâche spécifique, ce que nous mesurons en réalité est souvent un concept ou une construction complètement différente de l’objectif initial. » Un autre auteur principal pense également que, même pour les benchmarks réputés, la confiance aveugle qui leur est accordée mérite une analyse plus approfondie.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Une nouvelle étude indique que les capacités de l'IA pourraient être exagérées en raison de tests défectueux.
Une nouvelle étude publiée le 6 novembre par les données de Jin10 indique que les méthodes d’évaluation des capacités des systèmes d’intelligence artificielle ont tendance à exagérer leurs performances et manquent de rigueur scientifique. Cette recherche, menée par l’Internet Institute d’Oxford en collaboration avec plus de trente autres institutions, a examiné 445 tests d’intelligence artificielle de référence (appelés benchmarks), couramment utilisés pour mesurer la performance des modèles d’IA dans différents domaines thématiques. L’étude souligne que ces tests fondamentaux peuvent manquer de fiabilité et remet en question la validité de nombreux résultats issus de ces benchmarks. Selon la recherche, un grand nombre de benchmarks de haut niveau ne précisent pas clairement leurs objectifs de test, et il est préoccupant de voir une réutilisation répétée des mêmes données et méthodes de test, tout en utilisant rarement des méthodes statistiques fiables pour comparer les résultats des différents modèles. Adam Mahdi, chercheur principal à l’Internet Institute d’Oxford et auteur principal de l’étude, estime que ces benchmarks peuvent induire en erreur de manière inquiétante. Il déclare : « Lorsque nous demandons à un modèle d’IA d’accomplir une tâche spécifique, ce que nous mesurons en réalité est souvent un concept ou une construction complètement différente de l’objectif initial. » Un autre auteur principal pense également que, même pour les benchmarks réputés, la confiance aveugle qui leur est accordée mérite une analyse plus approfondie.