Une étude européenne alerte sur les limites des tests de performance de l’IA

Des chercheurs européens mettent en garde contre les failles des méthodes actuelles d’évaluation de l’intelligence artificielle et appellent les régulateurs à s’assurer que les éléments avancés par les entreprises du secteur reflètent bien la réalité.

Pro

Technologies

Maximilian Henning EURACTIV.com

Une étude publiée la semaine dernière par le Centre commun de recherche de la Commission européenne conclut que les tests de performance des modèles d’IA donnent des résultats trop optimistes. Selon ses auteurs, les outils propriétaires utilisés pour comparer les modèles sont faciles à manipuler et s’appuient sur des indicateurs peu pertinents.

Les entreprises d’IA utilisent des critères de référence pour évaluer les performances de leurs modèles dans certaines tâches. OpenAI, par exemple, a évalué son dernier modèle, GPT-5, sur sa capacité à refuser de répondre à des questions inappropriées. D’après l’entreprise, le modèle aurait obtenu de meilleurs résultats que son prédécesseur.

Mais les chercheurs européens invitent les régulateurs à examiner de plus près le fonctionnement de ces outils d’évaluation. L’enjeu est de taille, car la future réglementation de l’UE en matière d’intelligence artificielle repose en grande partie sur l’appréciation des capacités des modèles dans des contextes variés. Les systèmes de grande envergure pourraient ainsi être classés comme « à haut risque » sur la base de critères mesurant leur potentiel d’impact.

La législation permet à la Commission européenne de préciser ces critères via des actes délégués, mais cette étape n’a pas encore été franchie.

Outre-Atlantique, les États-Unis avancent également sur ce terrain. Depuis le 15 août, le gouvernement américain met à disposition de ses agences fédérales une série d’outils standardisés pour évaluer les modèles d’IA. Un plan d’action national entend en outre consolider le rôle de leader mondial de Washington dans ce domaine.

À quels critères faut-il se fier ?

Les chercheurs européens préconisent de s’assurer que les critères d’évaluation mesurent des capacités concrètes plutôt que des tâches isolées, qu’ils soient transparents et bien documentés, et qu’ils tiennent compte de la diversité des contextes culturels.

L’étude pointe notamment un biais récurrent : la plupart des critères se concentrent exclusivement sur l’anglais, négligeant d’autres langues.

« Nous identifions en particulier la nécessité de trouver de nouveaux moyens d’indiquer quels critères sont fiables », peut-on lire dans l’étude.

Selon eux, si l’UE parvient à relever ce défi, elle pourrait de nouveau imposer son influence normative, comme cela a déjà été le cas dans d’autres domaines.

Risto Uuk, spécialiste des politiques européennes au Future of Life Institute, partage ce constat. Il suggère que l’UE rende obligatoire le recours à des évaluateurs indépendants et finance la création d’un écosystème européen dédié à l’évaluation de l’IA. « Des améliorations sont nécessaires, mais il est essentiel d’évaluer les capacités et d’autres aspects des risques et des avantages, et il ne suffit pas de se fier à des impressions et à des anecdotes », commente-t-il pour Euractiv.

En réaction à cette étude, un porte-parole de la Commission a confié à Euractiv que le Bureau de l’IA, qui supervise l’AI Act, dispose d’une « capacité d’évaluation des modèles à la pointe de la technologie ». « Nous évaluons les nouveaux modèles et analysons les résultats en interne », a-t-il poursuivi, soulignant que le code de bonnes pratiques en matière d’IA contient les « meilleures pratiques » dans ce domaine.

Le porte-parole a également évoqué l’appel d’offres de 9 millions d’euros lancé le mois dernier par le Bureau de l’IA pour le soutien technique à l’évaluation des modèles d’intelligence artificielle.

(asg)

Policy areas

Une étude européenne alerte sur les limites des tests de performance de l’IA

À quels critères faut-il se fier ?

Le nouveau rond-point Schuman est le « pire » résultat possible, selon son architecte

Trump « ne savait pas » ce qu'est un carton rouge : l'Europe siffle la polémique

En Italie, le problème de la mafia a un nouveau visage

EXCLUSIF : L'UE pourrait annoncer en septembre l'interdiction des réseaux sociaux pour les enfants

« Un jour historique » : le Parlement européen soutient l'euro numérique

Les cinq blocs qui dominent la bataille de la tarification du carbone en Europe

L'impasse sur les sanctions contre la Russie tient à un seul oligarque grec

La Cour de justice de l'UE valide la loi d'amnistie espagnole

Le Parquet européen engage des poursuites pénales contre quatre députés grecs

L'UE rend hommage aux victimes du changement climatique alors que l'Europe fond

Plus de cette section

Accord UE-États-Unis sur les données : des « préoccupations importantes » subsistent

La Grèce prête à lancer une procédure accélérée pour interdire les réseaux sociaux aux mineurs

L'interdiction des réseaux sociaux pour les enfants se heurte à des obstacles juridiques et politiques

La Commission prévoit d'harmoniser les réglementations de l'UE relatives aux marchés publics

Intelligence Artificielle

Les chercheurs peinent à trouver des résumés de données d’entraînement pour l’IA

La France demande l’avis des scientifiques sur les risques liés à l’IA pour les enfants

Le Parlement européen désactive des fonctionnalités d’IA sur les tablettes des eurodéputés pour des raisons de sécurité

IA

Pourquoi les dauphins font-ils tourner les têtes dans le débat européen sur les droits d’auteur liés à l’IA ?

Comment la technologie est utilisée comme une arme contre les femmes

Les géants américains de l’IA semblent accepter que leur technologie soit utilisée pour espionner les Européens