AWS IA : les annonces majeures de décembre 2024

Une transformation fondamentale du paysage de l'IA dans le Cloud

AWS a dévoilé, lors de sa conférence re:Invent 2024 à Las Vegas, une série d'innovations majeures qui redéfinissent l'utilisation du Machine Learning et de l'IA générative en entreprise. Ces annonces, présentées début décembre, marquent un tournant important  dans la démocratisation et l’industrialisation de cette dernière, rendant des approches, services et méthodologies avancées accessibles à toutes les organisations, quelle que soit leur taille.

SageMaker : la nouvelle génération

La révolution HyperPod

AWS transforme radicalement l'entraînement des modèles d'IA avec SageMaker HyperPod. Cette nouvelle solution réduit de 40% le temps d'entraînement des modèles tout en simplifiant considérablement le processus. L'introduction de la gouvernance des tâches permet désormais une gestion centralisée des ressources de calcul, avec un système automatisé de priorisation et d'allocation des ressources. Les administrateurs peuvent définir des priorités pour différentes tâches et suivre l'utilisation des ressources via un tableau de bord intuitif.

Le système est particulièrement innovant dans sa gestion des interruptions : lorsqu'une tâche prioritaire nécessite des ressources, HyperPod peut automatiquement mettre en pause les tâches moins prioritaires, sauvegarder leur état et les reprendre ultérieurement. Cette fonctionnalité est disponible dans de nombreuses régions AWS, notamment en Amérique du Nord, en Europe et en Asie-Pacifique.

L'Écosystème SageMaker partner AI apps

AWS enrichit sa plateforme avec l'intégration d'applications tierces spécialisées. Cette nouveauté permet aux entreprises de déployer des solutions de pointe dans un environnement sécurisé, sans quitter l'interface SageMaker. Parmi les partenaires de lancement, on trouve Comet pour le suivi des expérimentations, Deepchecks pour l'évaluation de la qualité, Fiddler pour le monitoring des modèles et Lakera pour la sécurité.

SageMaker Lakehouse : l'unification des données et de l'IA

AWS renforce l'intégration entre Data et IA avec SageMaker Lakehouse. Cette nouvelle capacité unifie les données à travers Amazon S3 data lakes et Amazon Redshift data warehouses, permettant de construire des applications d'analytique et d'IA sur une copie unique des données.

Réponse aux défis actuels

L'approche de SageMaker Lakehouse répond à plusieurs défis courants :

  • la fragmentation des données à travers différents systèmes,
  • les duplications coûteuses,
  • les pipelines complexes.

Fonctionnalités clés

La solution offre :

  • la flexibilité d'accès et d'interrogation des données via tous les outils compatibles Apache Iceberg,
  • des permissions granulaires définies de manière centralisée.
Sagemaker Lakehouse

Intégrations zero-ETL

Cette approche élimine le besoin de construire des pipelines de données traditionnels :

  • DynamoDB : réplication automatique des données vers le data lake sans impact sur la table source,
  • bases de données opérationnelles (Aurora, RDS MySQL) : réplication en temps réel des données vers le lac de données,
  • applications externes (Salesforce et autres) : synchronisation automatique toutes les 60 minutes, avec détection et application des changements (nouveaux enregistrements, mises à jour, suppressions).

Cette automatisation du processus d'extraction et de chargement des données réduit significativement le temps d'ingénierie nécessaire, permettant aux équipes de se concentrer sur l'analyse plutôt que sur la maintenance des pipelines.

A date, la solution est disponible dans la majorité des régions AWS commerciales en Amérique du Nord, Europe, Asie-Pacifique et Amérique du Sud.

Cette unification simplifie significativement la création d'applications combinant analytique et IA, tout en s'intégrant naturellement dans les environnements AWS existants.

Amazon Nova : une Nouvelle référence en IA générative

AWS enrichit son offre de modèles propriétaires avec Amazon Nova, complétant la famille existante Titan. Cette nouvelle génération comprend :

  • Nova Micro : un modèle textuel adapté aux tâches de synthèse, traduction et classification, avec un contexte de 128K tokens,
  • Nova Lite : un modèle multimodal traitant texte, images et vidéos avec une limite de 300K tokens et jusqu'à 30 minutes de vidéo par requête,
  • Nova Pro : un modèle équilibrant performance et coût, adapté à l'analyse de documents financiers et au traitement de code,
  • Nova Premier : un nouveau modèle prévu pour 2025.

Pour la création de contenu, AWS propose Nova Canvas pour la génération d'images et Nova Reel pour la création vidéo.

Ces modèles sont actuellement disponibles uniquement dans trois régions américaines : US East (N. Virginia), avec Nova Micro, Lite et Pro également accessibles dans US West (Oregon) et US East (Ohio).

Les modèles supportent plus de 200 langues, avec une attention particulière portée à 15 langues principales dont le français.

AWS a également annoncé l'enrichissement prévu de la famille Nova en 2025 avec des modèles de traduction vocale (Speech-to-Speech) et de transformations multimodales (Any-to-Any), élargissant ainsi le spectre des capacités de la suite.

Les innovations Bedrock

La distillation de modèles

La distillation est une technique qui vise à "compresser" les capacités d'un grand modèle dans un plus petit, comme un processus de transmission de connaissances d'un expert vers un apprenti. Cette approche se distingue du transfer learning traditionnel, où l'on utilise un modèle pré-entraîné en l'adaptant à une nouvelle tâche sans en réduire la taille. Alors que le transfer learning conserve la complexité du modèle original pour bénéficier de toutes ses connaissances acquises, la distillation crée une version plus légère et plus rapide, optimisée pour un cas d'usage spécifique. 

Le choix entre ces deux approches dépend des objectifs : le transfer learning est privilégié lorsque la priorité est d'obtenir les meilleures performances possibles sur une tâche spécifique, en gardant toute la puissance du modèle original. La distillation, elle, est préférable lorsque les contraintes de coûts et de performance d'inférence sont prioritaires, et qu'une légère perte de précision est acceptable pour le cas d'usage.

Le processus de distillation se déroule en plusieurs étapes :

  • un grand modèle performant (teacher) génère d'abord des réponses à partir d'un jeu de données,
  • un modèle plus léger (student) est ensuite entraîné à reproduire non seulement ces réponses, mais aussi la façon dont le modèle teacher est arrivé à ces conclusions,
  • AWS enrichit ce processus avec des techniques propriétaires de synthèse de données pour améliorer la qualité du transfert de connaissances.

Cette approche permet, pour un cas d'usage donné, de réduire les coûts d'inférence jusqu'à 75% et d'obtenir des réponses jusqu'à 5 fois plus rapides par rapport à l'utilisation des modèles originaux de grande taille. Dans le cas spécifique des applications RAG, le modèle distillé maintient une précision proche du modèle teacher d'origine, avec une perte de précision inférieure à 2%.

La distillation de modèles est actuellement disponible en preview dans un nombre limité de régions AWS.

Le prompt caching

Bedrock introduit une nouvelle fonctionnalité de mise en cache des prompts qui optimise significativement les performances et réduit les coûts. Une approche similaire à celle introduite par Anthropic en août 2023 pour ses modèles Claude. Lorsqu'une requête similaire est détectée, le système peut réutiliser intelligemment les réponses précédentes, évitant ainsi des appels inutiles aux modèles. Cette fonctionnalité est maintenant disponible sur Bedrock pour les modèles Claude d'Anthropic ainsi que pour la nouvelle famille de modèles Nova.

Cette innovation est particulièrement pertinente pour les applications à fort trafic où les mêmes questions reviennent fréquemment, comme le service client ou les chatbots d'assistance. Le cache peut être configuré selon les besoins spécifiques de chaque application, offrant un équilibre optimal entre fraîcheur des réponses et performance.

La collaboration multi-agents

Le nouveau système de collaboration multi-agents permet de coordonner plusieurs agents spécialisés pour résoudre des tâches complexes. Cette approche orchestre intelligemment différents agents, chacun expert dans son domaine, pour produire des résultats plus précis et plus complets.

Dans un contexte IT, cette collaboration peut se matérialiser par plusieurs cas d'usage :

Développement et déploiement

  • Un agent spécialisé dans la revue de code,
  • un agent expert en tests unitaires,
  • un agent de sécurité analysant les vulnérabilités,
  • un agent de documentation technique.

Ces agents travaillent ensemble pour assurer une qualité de code optimale, de la revue initiale jusqu'au déploiement.

Multi-agent Bedrock

Gestion des incidents

  • Un agent de diagnostic analysant les logs,
  • un agent spécialisé dans la configuration réseau,
  • un agent expert en performance des bases de données,
  • un agent de documentation pour enrichir la base de connaissances.

L'agent superviseur coordonne leurs analyses pour accélérer la résolution d'incidents complexes.

Ces agents collaborent sous la supervision d'un agent principal qui décompose les requêtes complexes, délègue les tâches spécifiques et synthétise les résultats en une réponse cohérente. Pour les requêtes simples, un mode de routage direct vers l'agent spécialisé approprié permet d'optimiser les performances.

Conclusion

Ces innovations d'AWS marquent un tournant majeur dans l'industrialisation du Machine Learning et de l'IA générative dans le Cloud. La réduction significative des coûts et la simplification des processus, combinées à des fonctionnalités managées avancées, rendent ces technologies accessibles à un plus grand nombre d'organisations. La sécurité et la gouvernance intégrées répondent aux exigences des entreprises les plus exigeantes, tandis que le renforcement de la synergie entre Data et IA permet une approche plus unifiée.

Bien que la disponibilité géographique encore limitée de certaines fonctionnalités tempère leur impact immédiat, ces annonces posent les fondations d'un écosystème complet permettant aux entreprises de toutes tailles d'innover plus rapidement et plus efficacement, ouvrant la voie à une nouvelle ère d'innovation technologique.

Sources :

  • "Accelerate foundation model training and fine-tuning with new Amazon SageMaker HyperPod recipes" - AWS Blog, 4 décembre 2024
  • "Introducing Amazon Nova foundation models: Frontier intelligence and industry leading price performance" - AWS Blog, 3 décembre 2024
  • "Build faster, more cost-efficient, highly accurate models with Amazon Bedrock Model Distillation" - AWS Blog, 3 décembre 2024
  • "Introducing multi-agent collaboration capability for Amazon Bedrock" - AWS Blog, 3 décembre 2024
  • "Simplify analytics and AI/ML with new Amazon SageMaker Lakehouse" - AWS Blog, 3 décembre 2024
  • "Introducing the next generation of Amazon SageMaker: The center for all your data, analytics, and AI" - AWS Blog, 3 décembre 2024