févr. 27, 2026
L'évaluation des LLMs via benchmarks classiques est en crise, car les modèles déjouent les tests, les datasets saturent, le RLHF progresse et les agents autonomes se développent. Il faut se concentrer sur la robustesse, la généralisation et le comportement réel.
Lire la suite...
janv. 26, 2026
Comment des travaux comme GLAM et MAGELLAN apprennent aux LLM à estimer leurs chances de réussite, choisir quand agir et quand demander de l’aide.
Lire la suite...
déc. 03, 2025
BDX I/O 2025 met en lumière l’impact de l’IA sur l’énergie, les métiers et les pratiques. Les talks explorent le rôle du développeur, JavaScript, Kafka 4, le frontend réactif, la traduction à grande échelle et la sécurité offensive.
Lire la suite...