Une étude européenne alerte sur les limites des tests de performance de l’IA
Des chercheurs européens mettent en garde contre les failles des méthodes actuelles d’évaluation de l’intelligence artificielle et appellent les régulateurs à s’assurer que les éléments avancés par les entreprises du secteur reflètent bien la réalité.
Une étude publiée la semaine dernière par le Centre commun de recherche de la Commission européenne conclut que les tests de performance des modèles d’IA donnent des résultats trop optimistes. Selon ses auteurs, les outils propriétaires utilisés pour comparer les modèles sont faciles à manipuler et s’appuient sur des indicateurs peu pertinents.
Les entreprises d’IA utilisent des critères de référence pour évaluer les performances de leurs modèles dans certaines tâches. OpenAI, par exemple, a évalué son dernier modèle, GPT-5, sur sa capacité à refuser de répondre à des questions inappropriées. D’après l’entreprise, le modèle aurait obtenu de meilleurs résultats que son prédécesseur.
Mais les chercheurs européens invitent les régulateurs à examiner de plus près le fonctionnement de ces outils d’évaluation. L’enjeu est de taille, car la future réglementation de l’UE en matière d’intelligence artificielle repose en grande partie sur l’appréciation des capacités des modèles dans des contextes variés. Les systèmes de grande envergure pourraient ainsi être classés comme « à haut risque » sur la base de critères mesurant leur potentiel d’impact.
La législation permet à la Commission européenne de préciser ces critères via des actes délégués, mais cette étape n’a pas encore été franchie.
Outre-Atlantique, les États-Unis avancent également sur ce terrain. Depuis le 15 août, le gouvernement américain met à disposition de ses agences fédérales une série d’outils standardisés pour évaluer les modèles d’IA. Un plan d’action national entend en outre consolider le rôle de leader mondial de Washington dans ce domaine.
À quels critères faut-il se fier ?
Les chercheurs européens préconisent de s’assurer que les critères d’évaluation mesurent des capacités concrètes plutôt que des tâches isolées, qu’ils soient transparents et bien documentés, et qu’ils tiennent compte de la diversité des contextes culturels.
L’étude pointe notamment un biais récurrent : la plupart des critères se concentrent exclusivement sur l’anglais, négligeant d’autres langues.
« Nous identifions en particulier la nécessité de trouver de nouveaux moyens d’indiquer quels critères sont fiables », peut-on lire dans l’étude.
Selon eux, si l’UE parvient à relever ce défi, elle pourrait de nouveau imposer son influence normative, comme cela a déjà été le cas dans d’autres domaines.
Risto Uuk, spécialiste des politiques européennes au Future of Life Institute, partage ce constat. Il suggère que l’UE rende obligatoire le recours à des évaluateurs indépendants et finance la création d’un écosystème européen dédié à l’évaluation de l’IA. « Des améliorations sont nécessaires, mais il est essentiel d’évaluer les capacités et d’autres aspects des risques et des avantages, et il ne suffit pas de se fier à des impressions et à des anecdotes », commente-t-il pour Euractiv.
En réaction à cette étude, un porte-parole de la Commission a confié à Euractiv que le Bureau de l’IA, qui supervise l’AI Act, dispose d’une « capacité d’évaluation des modèles à la pointe de la technologie ». « Nous évaluons les nouveaux modèles et analysons les résultats en interne », a-t-il poursuivi, soulignant que le code de bonnes pratiques en matière d’IA contient les « meilleures pratiques » dans ce domaine.
Le porte-parole a également évoqué l’appel d’offres de 9 millions d’euros lancé le mois dernier par le Bureau de l’IA pour le soutien technique à l’évaluation des modèles d’intelligence artificielle.
(asg)