Pierre Leroy

L’évaluation des LLMs est-elle morte ?

févr. 27, 2026

L'évaluation des LLMs via benchmarks classiques est en crise, car les modèles déjouent les tests, les datasets saturent, le RLHF progresse et les agents autonomes se développent. Il faut se concentrer sur la robustesse, la généralisation et le comportement réel.

LLM : apprendre à s’auto-évaluer pour agir comme un agent

janv. 26, 2026

Comment des travaux comme GLAM et MAGELLAN apprennent aux LLM à estimer leurs chances de réussite, choisir quand agir et quand demander de l’aide.

BDX I/O 2025 : quand l'IA rebat les cartes : réinventer nos pratiques, pas nos valeurs

déc. 03, 2025

BDX I/O 2025 met en lumière l’impact de l’IA sur l’énergie, les métiers et les pratiques. Les talks explorent le rôle du développeur, JavaScript, Kafka 4, le frontend réactif, la traduction à grande échelle et la sécurité offensive.