Une journée au salon de la Data & de l'IA de Nantes 2024

Le mardi 17 septembre, une équipe de collaborateurs et collaboratrices de Ippon s'est rendue au Salon de la Data et de l'IA à Nantes. Cet événement majeur, consacré aux dernières innovations en matière de données et d'intelligence artificielle, a rassemblé des expert.e.s et des passionné.e.s du secteur. Nous avons eu l'occasion d'explorer les nouvelles tendances, d’élargir nos connaissances et de renforcer nos liens avec la communauté tech.

Nous vous faisons ici un résumé des conférences qui nous ont le plus marqués.

Emeline Daviau, Enki Milville : « Usage de l’IA GEN pour générer des descriptifs produits pour Maisons du monde »

Pour l’un des premiers talks de la journée, Emeline Daviau (Responsable Data analyse chez Maisons du Monde) et Enki Milville (Data Scientist chez Avisia) nous ont partagé le REX d’un projet lancé en septembre 2023 chez Maisons du monde. À l’origine de ce projet, un constat : 50% des produits sur le site web ne possèdent pas de description, causant ainsi un mauvais référencement du site et un nombre de ventes manquées non négligeable.

Pour répondre à cette problématique, Maisons du Monde a exploré la piste des IA génératives. Enki Milville, data scientist, nous dépeint la solution développée : il s’agit d’une application web (Streamlit, Python) sur laquelle les personnes en charge de la rédaction des descriptions peuvent télécharger des fichiers Excel contenant les caractéristiques des produits (taille, couleur, matière, etc.). À l’aide d’un prompt rédigé avec les équipes métiers, un LLM (Gemini sur VertexAI) génère, à partir des caractéristiques des produits, un titre et une description pour chaque article.

1__maison_du_monde.jpeg

Figure 1: Image générée avec Ideogram

Enki Melville nous confie que plusieurs itérations ont été nécessaires avant d’arriver à recréer le “style” et le “ton” des descriptions existantes. Ce qui a notamment permis de faire un pas de géant dans ce sens est l’utilisation du few shot prompting (ajout d’une quinzaine d’exemples de descriptions dans le prompt du LLM). La solution finale permet de traiter 300 articles par minute (limite liée aux quotas maximum GCP) pour un coût d’environ 2$ pour 1000 descriptions générées.

À la question “Comment les personnes précédemment en charge de la rédaction des descriptions ont réagi ?” la réponse d’Émeline Daviau est claire : “Tout le monde était ravi”. Elle mentionne que ce succès vient probablement du fait que ces personnes ont été incluses dans le projet dès le début, ont été consultées très régulièrement, et sont autonomes dans l’utilisation de l’outil. D’ailleurs, il s’agit bien d’un outil d’aide et non de substitution. En effet, l’intégralité des descriptions générées est contrôlée par ces personnes car quelques hallucinations peuvent arriver : “particulièrement sur les portes-manteaux, où le LLM invente un nombre d’accroches alors qu’on ne lui donne pas l’information.”, nous raconte Émeline sur un ton léger. Malgré cette vérification systématique par l’humain, le résultat est au rendez-vous : la description des produits est maintenant trois fois plus rapide. De plus, grâce à la capacité de Gemini de générer du texte dans plusieurs langues, Maisons Du Monde a pu se dispenser des prestations de traduction auparavant nécessaires pour adapter les descriptions de produits aux pays non francophones.

Benjamin Sanvoisin: « Modern data platform: are we (finally) going to talk about scalability ? »

Lors de cette conférence, Benjamin Sanvoisin nous expose la problématique de la scalabilité des plateformes de données. Bien que les outils low-code / no-code qui facilitent la création de data platforms se développent rapidement, l’augmentation du volume des données et de leur complexité imposent de repenser leur conception pour répondre aux besoins de scalabilité (coût, déploiement, monitoring).

L'optimisation du stockage est primordiale pour réduire les coûts. Les données peuvent être classées en plusieurs catégories en fonction de leur fréquence d’accès :

  • Hot storage : il est utilisé pour les données consultées régulièrement. Ce type de stockage offre des temps de récupération très faibles mais est également plus coûteux.
  • Warm storage : il est réservé aux données moins fréquemment consultées. Il représente un compromis en termes de coût et de temps de récupération.
  • Cold storage : il est destiné aux données rarement utilisées. Cette option est économique mais possède un temps de récupération plus long.

Des outils comme AWS Lifecycle Policy ou AWS Intelligent Tiering peuvent être utilisés pour automatiser ou faciliter la classification et la gestion des données.

L'infrastructure as code (IaC) est une pratique indispensable pour garantir la scalabilité de la plateforme. Elle permet de versionner l'infrastructure, de la rendre reproductible et de la déployer facilement. Cette automatisation est essentielle pour éviter les erreurs manuelles et pour faciliter le travail collaboratif au sein des équipes.

Il est important de respecter les bonnes pratiques de développement, en adoptant par exemple des patterns de collaboration, pour faciliter la gestion et l’évolution de la data platform.

Ici, on peut penser à l'outil Terraform qui permet de développer des infrastructures avec du code.

Le monitoring est un autre élément important pour garantir la performance et la scalabilité d’une data plateforme. Il permet d’identifier et d’analyser les latences, le trafic, les erreurs potentielles, ainsi que les saturations du système. Grâce à des indicateurs comme les Service Level Objectives (SLO) et les Service Level Indicators (SLI), les équipes peuvent fixer des objectifs clairs en matière de performance et mesurer régulièrement si ces objectifs sont atteints.

Finalement, la question principale est de savoir ce qu’est une “bonne” data platform pour les utilisateurs finaux. Il faut qu’elle soit performante et scalable, mais aussi qu’elle offre une expérience fluide, des temps de réponse rapides et des fonctionnalités adaptées à leurs besoins.

Emile Amoros: « La data et la performance sportive en voile olympique »

Dans le cadre de son intervention, Emile Amoros, athlète de haut niveau en voile olympique, nous a offert un aperçu de la manière dont la data s’invite dans l’univers de son sport. Si la voile peut sembler un sport dominé par l’instinct et les sensations sur l’eau, les données jouent un rôle important dans l’optimisation des performances des athlètes.

voile_olympique.jpg

Figure 2: Emile Amoro et son coéquipier Lucas Rual en régate

Emile Amoros nous explique que plusieurs types d’équipements permettent de collecter des données. Parmi ces outils, le compas est essentiel pour connaître les directions. Les vidéos des entraînements permettent d’observer en détail chaque manœuvre, tandis que les données GPS fournissent des informations précises sur la vitesse, les déplacements et l’assiette (inclinaison du bateau). D’autres instruments mesurent des paramètres plus techniques, comme la tension du mât ou la tension de chute, qui sont essentiels pour comprendre le comportement du bateau dans différentes conditions.

L’objectif de la collecte et de l’utilisation de ces données est d’abord de simplifier les analyses (l’analyse des concurrents par exemple). Dans ce sport où chaque détail peut influencer la performance, la donnée permet d’identifier des patterns gagnants. Ces schémas peuvent révéler des ajustements à apporter dans la posture, la gestion des voiles, ou encore le choix des trajectoires.

Cela permet également de faciliter la compréhension que les équipes ont du matériel mais aussi d’aider à la décision. Ces données, notamment les vidéos, permettent d’avoir un nouveau point de vue permettant de prendre du recul et d'ajuster au mieux les entraînements.

La combinaison de ces différentes sources de données leur permettent de tester de nouvelles méthodes et techniques en entraînement dans le but d’optimiser les performances en compétition.

Sans nous parler réellement tech, Emile a sur nous partager des connaissances sur la voile olympique tout en nous montrant comment la donnée peut avoir un impact direct sur les performances des athlètes de son niveau.

Marie Vaugoyeau: « L’importance des relations humaines dans la réalisation de projets techniques »

Marie nous a livré un talk très inspirant durant lequel elle est revenue sur son parcours tout en exposant l'impact qu'ont eu les relations humaines sur celui-ci. Grande passionnée du langage R, elle partage son savoir via des conférences, des articles, des émissions et des formations.

Elle a commencé sa carrière en tant qu'enseignante-chercheuse. De nature plutôt timide et souffrant du syndrome de l'imposteur, elle n'appréciait guère les présentations que sa position l'obligeait à donner lors de différents congrès.

"Se pousser à parler à 5 inconnus tous les jours", c'est le conseil qui a tout changé. Et par parler, il ne s'agit pas simplement d'une interaction du type "passe-moi le sel". Il faut que ce soit un véritable échange durant lequel on s'ouvre à l'autre.

Elle a donc décidé d'appliquer ce conseil lors de salons et congrès. Jugeant que cinq personnes étaient trop, elle s'est fixé l'objectif d'en rencontrer trois. Elle a dressé une liste des personnes qui l'inspiraient et avec qui elle aimerait échanger. Elle les a contactées en amont afin de prendre rendez-vous. Cette approche a fonctionné : au fur et à mesure, elle a tissé des liens avec des gens d'horizons divers partageant des valeurs communes. Aujourd'hui, elle continue de rencontrer des gens via des thé-visio, des salons, des meetups…

Elle a aussi pris conscience de l'importance de partager son travail. Elle le fait via des posts LinkedIn, ses lives Twitch, et des articles de blog qui servent de support à ses lives. Cela lui permet de toucher plus de gens qui viennent spontanément vers elle pour discuter, débattre…

En plus d'atténuer la solitude inhérente à son activité d'indépendante, toutes ces relations lui ont ouvert des portes vers des projets qu'elle n'envisageait même pas. Cela lui a permis d'écrire des livres, de devenir formatrice OpenClassrooms, et de participer à des conférences.

Enfin, les relations humaines lui permettent de trouver de l'aide quand elle en a besoin, sur des forums, Slack, ou Discord spécialisés. Le médium n'a pas d'importance. Pour demander de l'aide, il est très important de poser le contexte et de fournir un exemple reproductible (ce qui l'aide souvent à déboguer elle-même ses problèmes) et surtout de remercier.

Jérémy Cheradame: « La Data Science dans le Rugby »

Depuis 2016, Jérémy Cheradame et son équipe à la Fédération Française de Rugby (FFR) utilisent la data pour améliorer les performances des différentes équipes de France. Le département « Accompagnement de la performance » exploite les données de manière transverse dans plusieurs domaines clés : préparation physique, analyse de la performance, accompagnement mental et recherche appliquée.

Objectifs / principaux enjeux :

  1. Favoriser l'analyse grâce à la mise à disposition des données, d'outils et de résumés adaptés.
  2. Répondre aux interrogations des coachs, notamment sur des faits de match récurrents.
  3. Stimuler une recherche appliquée pour mieux performer.

Les inputs :

  1. Données tactiques : analyse vidéo des phases issue de fournisseurs spécialisés comme Stats Perform.
  2. Données physiques : IoT embarqué (GPS dans le maillot, protège-dents connectés, mesures cardiaques) et questionnaires pour quantifier les aspects psychologiques.

Le processus d’analyse :
L'analyse se décompose en quatre niveaux :

  • descriptif - qu'est-ce qui s'est passé ?
  • explicatif - pourquoi ça s’est passé ?
  • prédictif - qu'est-ce qui va se passer ?
  • prescriptif - comment faire pour le prochain match ?

Il est important d’objectiver la performance, avec des biais d’analyse courants, typiquement sur l’analyse des tirs au but en y intégrant les distances et la performance nominale du joueur (Figure 3), ou encore sur l’analyse des rucks avec l’ajout d’une matrice de points selon l’exécution sur le terrain (Figure 4).

rugby_1.png

Figure 3: Analyse des tirs au but des joueurs Jonathan Sexton et Thomas Ramos

rugby_2.png

Figure 4: Analyse des rucks

À ces quatre niveaux s’ajoute l’analyse diagnostique - qu’est-ce qui aurait dû se passer, avec des modèles de prédiction ; information pertinente quand on connaît les aléas du sport.

La collaboration avec les coachs
L'équipe data challenge régulièrement les ressentis des coachs pour valider ou ajuster les hypothèses, comme sur la question des pertes de balle répétées. Le jour du match, une proximité directe avec les coachs permet de fournir des données semi-live, même si ces informations sont parfois délaissées en faveur d'une approche plus "intuitive" préférée par les coachs.

Personnalisation et réactivité
Chaque équipe de France bénéficie de rapports BI personnalisés. De plus, les équipes data sont dispatchées à l'international pour répondre aux besoins spécifiques sur un KPI demandé, même à 3h du matin...

Les points clés à retenir :

  • La forte collaboration entre les équipes data et les coachs pour interpréter les besoins et expliquer les résultats.
  • L'équilibre entre l’exhaustivité des données et le résumé des insights.
  • L'écart entre la prédiction et la réalité, illustré par l'exemple du jeu au pied australien (Figure 5), qui malgré les prévisions avait battu un record historique face à la France, ou la dernière défaite face à l’Afrique du Sud (Figure 6) ; “c’est l’aléatoire du sport qui fait aussi le résultat”

rugby_3.png

Figure 5: Jeu au pied de l'équipe de rugby australienne

rugby_4.png

Figure 6: Représentation de la position du ballon sur le terrain lors du match contre l'Afrique du Sud

Ahmed Rachid Hazourli: « Implémenter une plateforme Data & IA unifiée avec Snowflake pour les besoins métiers »

Snowflake, acteur reconnu pour la qualité de son Data Warehouse et la richesse de ses fonctionnalités, étend également son champ d'action vers l'Intelligence Artificielle générative et le Machine Learning. Cela permettra aux entreprises de développer des workloads intégrant de l’IA générative et du ML directement dans leurs processus de transformation et d'enrichissement des données.

Il existe plusieurs fonctionnalités et intégrations possibles de l’IA et du ML dans Snowflake, offrant ainsi un ensemble de possibilités qui pourront s’adapter aux besoins métiers et aux exigences techniques de chaque entreprise.

ML Functions : le ML au cœur de Snowflake
Les ML Functions offrent des fonctionnalités de Machine Learning managées et serverless, au plus proche de la donnée. Ces fonctions couvrent un large spectre d'applications, de la classification supervisée à la détection d'anomalies, en passant par le forecasting. Cette approche permet aux utilisateurs de Snowflake d'exploiter rapidement la puissance du ML sans avoir à gérer l'infrastructure sous-jacente.

Cortex : l'IA générative intégrée à Snowflake
Cette année, Snowflake a publié en General Availability Cortex, une suite de fonctionnalités d'IA générative et de RAG (Retrieval Augmented Generation) entièrement managées et serverless. Cortex se décline en plusieurs composants clés, dont notamment :

  • Cortex LLM Functions : Permet l'accès à des modèles de langage avancés, dont Mistral ou Llama, pour diverses tâches basées sur de l’IA générative, comme de la classification de textes ou de la génération de données.
  • Cortex Fine-tuning : Offre la possibilité d'adapter des modèles pré-entraînés à des tâches spécifiques, améliorant ainsi leur performance sur des domaines particuliers.
  • Cortex Search : Permet la mise en place de la recherche "floues" (fuzzy search) et vectorielles sur les données stockées dans Snowflake, ce qui est particulièrement utile pour les applications de type RAG.

Snowpark Container Services
Pour les besoins plus spécifiques, Snowflake propose Snowpark Container Services. Cette solution permet de déployer des modèles d'IA ou de ML dans des conteneurs gérés, offrant une grande flexibilité tout en bénéficiant de l'écosystème Snowflake. Les utilisateurs peuvent ainsi exécuter des charges de travail conteneurisées directement au sein de Snowflake, au plus proche de la donnée.

Intégration avec des services externes
Enfin, il est également possible d'utiliser des external Functions afin d’exécuter du code qui fera appel à des API ou à services tiers, comme AWS Bedrock ou Gemini, élargissant ainsi les possibilités en termes d'IA générative et de ML.

IA et Data Warehouse
L'intégration de ces fonctionnalités d'IA et de ML au sein de Snowflake représente une opportunité significative pour les entreprises cherchant à exploiter pleinement leurs données. En combinant la puissance de leur Data Warehouse avec les capacités de l'IA générative, Snowflake propose un environnement très complet pour l'analyse, le traitement et l'enrichissement des données.

[Lien vers notre résumé du salon de la data et de l'IA 2023]
[Lien vers notre résumé du salon de la data 2022]

Author image
Nantes
Author image
J'interviens auprès de client sur divers sujets de Data Engineering et de Data Science avec une appétence particulière pour l'IA
Nantes LinkedIn