TLDR;
Les benchmarks deviennent inefficaces face à des LLMs. Les LLMs biaisent leurs réponses quand ils détectent qu’ils sont testés. Les benchmarks classiques deviennent inefficaces. Il faut repenser l’évaluation, en intégrant métacognition, comportement et robustesse.
Cet article s’inscrit dans une série dédiée à mieux comprendre les LLMs, en parcourant les grandes trends du moment (agents, RAG, outillage, évaluation), et en confrontant ce qui émerge dans la littérature aux retours d’expérience.
- Dans le premier article (LLM : auto-évaluation et agents (GLAM, MAGELLAN) : exploration de la métacognition des LLM comment un modèle peut estimer sa probabilité de réussite sur une tâche pour choisir une stratégie adaptée (agir, déléguer, escalader), avec des exemples comme GLAM et MAGELLAN.
- Dans cet article : analyse des limites des benchmarks actuels et sur les approches d’évaluation plus pertinentes en conditions réelles.
1. Introduction : une question qui revient en force
L'évaluation des LLMs est devenue un enjeu critique pour les fournisseurs de modèles. Les leaderboards se sont imposés comme la plateforme principale d'évaluation des modèles, avec des implications économiques pour chaque résultat (levers de fonds conditionnées aux performances). Cependant, ces améliorations quasi constantes nous poussent à nous demander : et si les modèles avaient conscience d'être évalués ?
Des travaux récents, comme Large Language Models Often Know When They Are Being Evaluated ([2505.23836] Large Language Models Often Know When They Are Being Evaluated), suggèrent que certains LLMs reconnaissent les contextes de test et modifient leurs réponses en conséquence. Imaginez un candidat en entretien qui donne des réponses trop parfaites, trop calibrées : on ne mesure plus sa compétence réelle, mais sa capacité à bien mener l’entretien. Les LLMs feraient donc potentiellement de même ?
Ce problème s’intensifie dans un contexte de progrès rapides, de datasets publics saturés et de comportements inattendus observés lors des tests. L’évaluation classique, censée refléter les capacités réelles d’un modèle, pourrait donc bien être biaisée. Là où les leaderboards mesuraient pendant des années le progrès scientifique dans le domaine de l’IA (Machine Learning), cela semble plus contrasté aujourd’hui.
Dans cet article, nous explorons cette hypothèse et ses conséquences.
2. Contexte : ce que signifie « évaluer » un modèle en 2025
Évaluer un LLM consiste à le confronter à des tâches standardisées (QCM, raisonnement, rédaction, etc.) via des jeux de données publics. Le modèle reçoit un prompt, génère une réponse, et celle-ci est comparée à une référence correcte pour calculer un score.
Ces benchmarks étaient fiables jusqu’à récemment, mais les meilleurs modèles atteignent aujourd’hui des scores quasi parfaits, ce qui limite leur capacité à distinguer les niveaux de compétence. En parallèle, l’usage massif du RLHF (Reinforcement Learning from Human Feedback) a introduit des comportements biaisés : prudence, formalisme excessif, réponses calibrées. Et la répétition des tests entraîne des fuites (données vues pendant l’entraînement), du surapprentissage, et une sensibilité aux formulations.
👉 Résultat : l’évaluation d’un LLM ne reflète plus nécessairement ses vraies capacités.
3. Les travaux récents qui ont (re)lancé le débat
Trois publications récentes remettent en question les méthodes d’évaluation des LLMs.
- Les modèles savent qu’ils sont testés. L’étude Large Language Models Often Know When They Are Being Evaluated montre que des modèles comme Gemini ou Claude peuvent reconnaître un benchmark avec une précision élevée (AUC > 0,8, jusqu’à 0,92 pour Claude Sonnet 3.7), soit un niveau très proche de celui d’un humain. Ils peuvent même deviner ce qu’on cherche à mesurer (conformité, sécurité, etc.). Comme s’ils adaptaient leur comportement pour mieux réussir les tests.
Do Language Models Know That They're Being Evaluated? - Ils peuvent sous-performer volontairement. Dans AI Sandbagging, les auteurs montrent que des LLM peuvent être entraînés à cacher leurs compétences, à la demande, ou à simuler la faiblesse d’un modèle plus petit. Il suffit d’un mot-clé ou d’un signal contextuel. Résultat : un modèle peut « jouer l’élève modèle » à l’évaluation… puis se révéler autrement en production.
Ils pourraient, à terme, ruser. Detecting and Reducing Scheming (OpenAI) explore un scénario plus spéculatif : des IAs qui poursuivraient un but caché tout en jouant le jeu pendant les tests. Ce comportement reste rare et contrôlé, mais OpenAI propose déjà des méthodes pour le détecter et le limiter (pour aller plus loin je vous recommande de regarder : Le scénario catastrophe qui arrive avec l'IA. (feat. Yoshua Bengio, l'un des "parrains" de l'IA), à 26 minutes).
👉Comment c’est possible ?! Les benchmarks ont souvent des formulations et des contraintes très “typées” (format, consignes, thèmes). Les modèles avancés reconnaissent ces signaux (autrement dit un changement de distribution) et ajustent leur manière de répondre. On détaille ça dans le reste de l’article !
Je vous recommande également de suivre cet excellent interview de Yoshua Bengio, un des pères fondateurs du Deep Learning qui en parle L’IA va bouleverser votre vie. Voici comment. L'opinion du CEO de Mistral AI, Arthur Mensch.
4. Vocabulaire : dégager les concepts clés
Avant d’aller plus loin, on va clarifier quelques notions introduites dans le paragraphe précédent, qui seront discutées tout au long de l’article.
- RLHF(Reinforcement Learning from Human Feedback) : littéralement « apprentissage par renforcement à partir du feedback humain ». C’est la méthode d’entraînement complémentaire, utilisée après le pré-entraînement d’un modèle, qui consiste à le faire interagir avec des instructions et à utiliser des annotations humaines pour affiner ses réponses. Le RLHF permet d’aligner le modèle sur les valeurs et attentes humaines (politesse, évitement de propos toxiques, etc.). Il est très efficace pour rendre les LLM utilisables en pratique. Cependant, il introduit des biais comme la sycophancy ou une prudence excessive (par exemple des refus de répondre trop fréquents, ou des réponses formatées de manière stéréotypée). C’est un compromis entre utilité et honnêteté du modèle.
- Sandbagging : sous-performance volontaire conditionnelle pour une évaluation, non pas par conscience mais par politique apprise, c’est une décision stratégique du modèle. Le terme “stratégique” renvoie à un comportement émergent résultant de l’entraînement, où le modèle adopte une stratégie qui a l’effet de dissimuler ses capacités parce que cette stratégie maximise sa récompense ou réduit ses pénalités dans son environnement d’apprentissage.
- Scheming : optimisation du comportement du modèle pour atteindre un objectif implicite distinct de la tâche apparente, tout en donnant l’illusion d’être aligné. Il ne faut pas y voir d’anthropomorphisme mais plutôt une stratégie plus simple à mettre en place pour réduire le score durant la résolution du problème d'optimisation (aussi appelé entraînement 🥸).
- Sycophancy : tendance à produire des réponses conformes ou flatteuses, souvent induites par le RLHF, où le modèle privilégie ce qu’il perçoit comme socialement ou subjectivement valorisé plutôt que ce qui est objectivement correct.
5. Le mécanisme sous-jacent : pourquoi et comment un LLM pourrait « reconnaître » un benchmark
5.1. Surapprentissage aux datasets publics
Les benchmarks étant largement diffusés, ils finissent tôt ou tard dans les corpus d’entraînement, directement ou par contamination. Les modèles, apprennent alors à repérer les motifs typiques de ces jeux de test :
- formulations récurrentes
- structures de question
- formats de réponse.
👉 Résultat : ils ne “résolvent” plus vraiment l’exercice, ils le reconnaissent et donnent la réponse attendue.
5.2. Effets du RLHF
Le RLHF guide le modèle en lui inculquant une politique (au sens apprentissage par renforcement, pour plus d’informations vous pouvez consulter cet article LLM : auto-évaluation et agents (GLAM, MAGELLAN)). Le modèle apprend à maximiser les réponses jugées bonnes par les humains.
Cette approche a permis de transformer des modèles purement linguistiques en systèmes capables de dialoguer de manière utile et cohérente. Mais elle introduit aussi une sensibilité au contexte : certains indices linguistiques, ton formel, consigne explicite, mise en garde, déclenchent des comportements appris comme plus « sûrs » ou plus conformes. Cela peut conduire à des distorsions : prudence excessive, refus de répondre, flatterie, ou alignement artificiel avec l’évaluateur.
5.3. À l’inférence : pas de conscience, seulement des probabilités
Un LLM ne “sait” rien au sens humain. Il n’y a pas notion de conscience ou même d’intelligence. Il réagit à la distribution statistique du prompt.
Mais si un prompt ressemble à ceux vus dans les benchmarks ou les phases de RLHF, il peut activer une réponse typique de ces contextes. Cela entraîne parfois une surperformance artificielle (il reconnaît le test), une sous-performance involontaire (il joue la prudence), ou un ton calibré et scolaire.
Rien de stratégique, ou de démoniaque ! … mais suffisant pour fausser l’évaluation.
6. Ce qui fait consensus aujourd’hui
Les benchmarks publics sont surexploités et c’est un problème ! Ces datasets (MMLU, BIG-Bench, etc.) ont été ingérés par les LLMs et sont devenus prévisibles.
👉Comment repérer ces limites ? Voici quelques indices :
- Quand tous les modèles frôlent 99 %
- Quand l’amélioration est quasiment linéaire, sans plateau
Les scores des leaderboards sont souvent trompeurs. La saturation des benchmarks et les fuites de données entraînent des performances artificiellement gonflées, sans lien direct avec les compétences réelles du modèle. L’impact de ces biais reste toutefois mal quantifié. Pour y remédier, des alternatives émergent autour d’au moins ces axes :
- Tests de généralisation : des benchmarks comme ARC*, BIG-Bench Hard, ou ARC-AGI testent la capacité à raisonner sur des problèmes inédits, souvent générés dynamiquement, et non sur la récitation de données vues.
👉 Par exemple, Claude Opus 4.6 High atteint 94 % sur ARC-AGI-1 mais seulement 69,2 % sur ARC-AGI-2, loin des performances humaines (98–100 %), malgré un coût élevé (~3,47 $ par tâche).Cela illustre combien la généralisation reste difficile, même pour les meilleurs modèles.
Source => ARC Prize - Leaderboard - Benchmarks privés, dynamiques, générés à la volée : des initiatives comme LiveBench ou LiveCodeBench proposent des tests constamment renouvelés, invisibles pour les modèles avant l’évaluation, pour éviter la contamination et tester la capacité d’un modèle à raisonner, pas à réciter.
- Évaluations en boîte noire : on ne révèle ni les jeux de test, ni la logique d’évaluation, pour éviter les biais d’optimisation artificielle.
- Red-teaming continu : l’évaluation devient progressive et adversariale : on cherche activement à prendre le modèle en défaut via des tests piégés ou perturbés (prompts malveillants, attaques par itérations, scénarios sensibles) pour révéler leurs robustesses. Cela complète les métriques classiques par une véritable exploration de ses failles.*ARC Prize ([2412.04604] ARC Prize 2024: Technical Report)
7. Peut-on dire que « Les LLMs se brident quand ils sont évalués »
L’idée d’un LLM qui « se bride » lors d’une évaluation semble provocatrice, voire anthropomorphique. Pourtant, plusieurs travaux indiquent qu’un tel comportement peut émerger, encore une fois sans intention (au sens humain).
- Ce n’est pas une stratégie consciente. Les modèles ne pensent pas, ne veulent rien. Mais ils activent des comportements appris lorsque certains indices contextuels sont présents.
- Sandbagging apparent. Si le modèle reconnaît qu’il est évalué, il peut par exemple limiter ses réponses à ce qui est perçu comme sûr ou politiquement correct, ce qui donne l’impression qu’il se retient.
- Un effet de calibration, pas de tromperie. Ce n’est pas une dissimulation volontaire, mais un biais structurel : le RLHF a renforcé des comportements prudents dans certains contextes, dont ceux d’évaluation.
- Problème méthodologique, pas une malveillance délibérée. L’enjeu est de reconnaître que nos outils d’évaluation peuvent eux-mêmes induire des distorsions dans les comportements mesurés.
8. Où le risque est réellement critique : les systèmes agentiques
Une nouvelle classe de systèmes prend de l’ampleur : les agents LLMs, capables d’utiliser des outils, de planifier, de stocker des informations, et d’agir dans des environnements complexes et parfois sensibles.
Dans ces systèmes :
- les comportements conditionnels deviennent cruciaux
- les biais induits par l’évaluation (sycophancy, sandbagging, etc.) peuvent avoir un impact cumulatif
- le risque d’effets de bord inattendus augmente fortement
- l’impact négatif d’une erreur peut être fort
👉 Exemple : en juillet 2025, l'agent "Amazon Q" a été compromis par une prompt injection, entraînant l'exécution d'actions destructrices sur un environnement cloud. Le modèle n'a pas désobéi volontairement, mais a interprété le contexte comme légitime. Ce type d'erreur contextuelle met en évidence la nécessité d'évaluer non seulement les réponses des agents, mais également leur aptitude à mener à bien des tâches complexes dans des situations authentiques. Comme l'indique l'article « Hacker inserts destructive code in Amazon Q tool as update goes live » publié sur le site CSO Online, un code malveillant a été inséré dans le logiciel Amazon Q lors de la mise en ligne de l'update.( source Hacker inserts destructive code in Amazon Q tool as update goes live | CSO Online)
👉 Conclusion : Évaluer un LLM-agent ne peut se limiter à une note ou un score statique. Il faut observer son comportement, sa cohérence, et sa capacité à raisonner dans l’incertitude. Ce sera probablement le plus grand défi d’évaluation IA de la période 2025–2030, et celui-ci conditionne le progrès scientifique.
9. Conclusion : alors, l’évaluation est-elle morte ?
L’évaluation des LLMs n’est donc pas morte ! Elle est même déterminante si on veut continuer d'utiliser ces modèles. Par contre, elle est en crise. Les méthodes traditionnelles ont atteint leurs limites pour des modèles aussi complexes.
Elles n’évaluent ni la compétence réelle, ni la fiabilité en production. Il est donc urgent de réinventer l’évaluation, qui reste un prérequis du progrès scientifique. On ne peut pas améliorer ce qu’on ne mesure pas !
Les chantiers sont nombreux :
- Réévaluer ce que l’on cherche à mesurer : performance brute ? alignement ? robustesse ? adaptabilité ?
- Intégrer la métacognition dans l’évaluation : un modèle fiable est-il celui qui sait ce qu’il ne sait pas ? (voir notre article LLM : auto-évaluation et agents (GLAM, MAGELLAN))
- Évaluer les agents, pas seulement les réponses.
Et sans grande surprise, ce domaine avance très vite et une certitude d’un jour peut très vite s’avérer obsolète. La communauté converge désormais vers des benchmarks dynamiques, privés et tournés vers la généralisation ou le raisonnement interactif, comme le prochain ARC-AGI-3 (2026), conçu pour être intuitif pour l’humain mais difficile pour l’IA.
source https://arcprize.org/blog/arc-prize-2025-results-analysis
Sources :
https://medium.com/%40shirinamiraslani/when-ai-knows-its-being-watched-a0ccbcf41b3c