Benchmarks

Total 1 Post

L’évaluation des LLMs est-elle morte ?

L'évaluation des LLMs via benchmarks classiques est en crise, car les modèles déjouent les tests, les datasets saturent, le RLHF progresse et les agents autonomes se développent. Il faut se concentrer sur la robustesse, la généralisation et le comportement réel.…
Lire la suite

Pierre Leroy

LLM

9 min read

27 févr. 2026