Dataquitaine 2024

Le 21 mars s’est déroulée l’édition 2024 de Dataquitaine, un événement dédié à la Data sur Bordeaux. Cet article, écrit par la team Ippon Data Bordeaux, a pour but de vous présenter quelques conférences auxquelles nous avons assisté.

Article co-écrit par Mathis Le Gall, Mateo Lopez, Jérémy Nadal, Théophile Cathelineau, Nicolas Achereiner.

Sommaire

  • Architecture de données moderne et protection de la vie privée
  • Comment Fieldbox utilise Kedro pour des pipelines modulaires et reproductibles
  • Aide à la navigation et au pilotage : quand l’IA Green part au 4L Trophy
  • Optimisation du calcul intensif par le critère énergétique
  • Révolution numérique pour la préservation des cours d'eau : Vers une Garonne résiliente en 2050

Architecture de données moderne et protection de la vie privée

(résumé par Mateo Lopez)

Cette présentation a été donnée par AlterID, une société qui propose des outils aux personnes qui manipulent des données, en particulier aux ingénieurs data. Lors de cette conférence, la société a présenté les besoins auxquels répondent leurs outils ainsi que leurs buts et certaines de leurs fonctionnalités; en revanche, ils ne sont pas entrés dans les détails techniques du fonctionnement de ces outils.

Le RGPD et les différents textes protégeant la vie privée d'un individu sur internet devenant de plus en plus complets, l'anonymisation des données est un sujet toujours plus présent dans le monde de la Data. Pour des use cases en analytics, les conséquences “se limitent” à devoir anonymiser les données permettant d'identifier une personne au travers de toute une architecture (nom, prénom, etc). En revanche, dans le cas de la Data Science, si un individu demande à être anonymisé et que ses données appartiennent à un dataset qui a servi à entraîner un modèle de prédiction, alors celui-ci doit être complètement ré-entraîné.

Dans ce contexte, AlterID tente de proposer des solutions d'anonymisation de données et souhaite placer la "privacy" au centre des architectures de données. En effet, bien que certains principes actuellement utilisés, comme la gouvernance par exemple (rôles, droits, etc), participent à une plus grande sécurité des données (accès à un spectre très réduit des données), ils n'empêchent pas complètement l'identification d'une personne (notamment en cas d'erreurs ou de malveillance). Ainsi, les outils proposés par AlterID permettent dans un premier temps de faire un état des lieux des données stockées : scan puis score en terme de privacy. Par la suite, ils peuvent également réaliser le travail d'anonymisation par différents moyens selon les use cases. Ainsi, dans les différentes actions possibles on retrouve :

  • le masking (ex : supprimer ou remplacer un nom)
  • la tokenization, qui consiste à ne garder que la partie utile des données pour l'étude (ex : ne garder qu'une partie des numéros de sécurité sociale)
  • la permutation de la base de données à l'aide d'une distribution statistique connue, ce qui empêche d'identifier une personne grâce à des données qui créent une signature (autres données que des informations évidentes mais qui, jointes, permettent de remonter à une personne).

Enfin, très souvent, la granularité à l'individu n'est pas nécessaire pour calculer les prévisions et le comportement général d'un dataset; c'est pourquoi les outils d'AlterID permettent d'établir un score sur la privacy mais également sur la perte d'information après anonymisation pour le use case. Ceci permet donc de trouver le juste équilibre entre le maximum de privacy et le maximum de performance du dataset, pour le calcul effectué.

Pour conclure, au-delà de la découverte des fonctionnalités des outils proposés, cette conférence permet de se questionner sur le sujet de l'anonymisation dans le monde de la Data, sa place dans les architectures et surtout sur son futur, qui pourrait potentiellement changer ou créer certaines bonnes pratiques.

Comment Fieldbox utilise Kedro pour des pipelines modulaires et reproductibles

(résumé par Mathis Le Gall)

Kedro est un package Python (installable avec pip) conçu pour faciliter le travail des data scientists, en fournissant des bonnes pratiques de génie logiciel adaptées à la data science. L'objectif principal de Kedro est d'industrialiser le data engineering (pour les data scientists chez Fieldbox) en fournissant un cadre structuré pour construire, exécuter et déployer des pipelines de données.

Le fonctionnement de Kedro repose sur plusieurs concepts clés :

  • Catalogue de données : Kedro utilise un fichier YAML pour stocker des métadonnées, y compris la lecture et l'écriture des données, l'injection de paramètres, le versioning et la lecture incrémentale.
  • Nodes et Pipelines : les pipelines de données sont construits à partir de nodes, qui sont essentiellement des fonctions Python. Chaque node peut avoir une ou plusieurs entrées et zéro ou plusieurs sorties. Les pipelines sont des ensembles de nœuds qui spécifient les entrées et les sorties des données. Cela forme un DAG (Directed Acyclic Graph), pour lequel Kedro prend en charge automatiquement l'organisation et l'exécution des pipelines dans le bon ordre. De plus, les pipelines peuvent être reliés entre eux, permettant un chaînage et une réutilisation efficace.
  • KedroVIZ : Kedro propose une interface graphique appelée KedroVIZ pour visualiser les pipelines de données et leurs relations.

Fieldbox utilise Kedro pour industrialiser son travail de data engineering en créant des connecteurs personnalisés. Un connecteur Kedro est un composant qui permet à Kedro de se connecter à des sources de données externes ou à d'autres systèmes. Par exemple, un connecteur peut être utilisé pour se connecter à une base de données SQL, à un système de fichiers, ou à une API externe. Fieldbox utilise également des templates de projet pour la CI/CD, les tests et les hooks. De plus, l’entreprise développe un SDK pour l'intégration avec son monitoring et contribue au projet Kedro lui-même. En outre, Kedro est agnostique de la solution d'orchestration, ce qui signifie qu'il peut être intégré à différentes solutions d'orchestration de flux de travail telles que Apache Airflow ou Apache Kafka, sans être lié à une technologie spécifique.

En résumé, Kedro permet à Fieldbox de standardiser et d'industrialiser le data engineering, ce qui facilite la collaboration entre les data scientists et permet la réutilisation du code sans nécessiter d'adaptation.

Aide à la navigation et au pilotage : quand l’IA Green part au 4L Trophy

(résumé par Nicolas Achereiner)

Lors de cette présentation, Ilona-Marie LEMAIRE-LEFEBVRE et Dylan ORTO, ingénieurs chez Thales, ont partagé un retour d’expérience sur leur participation au 4L Trophy. Bardée de capteurs, leur 4L est un véritable labo d’expérimentation à la navigation dans un environnement complexe.

Ils ont tout d'abord souligné les défis liés à la navigation dans un environnement déstructuré comme le désert, aux conditions météorologiques extrêmes et à une communication limitée. Leur objectif est d’étudier des moyens de réduire la charge mentale des pilotes, d’anticiper les pannes et d'améliorer la prise de décision grâce à l'IA embarquée.

Sur leur Renault 4L équipée de panneaux solaires, tablettes connectées et divers capteurs (température, vibration, GPS, reconnaissance vocale, stéréovision), quatre fonctionnalités clés ont été mises en avant :

  • Transcription vocale offline : utilisation d'une tablette pour lancer l'enregistrement et retranscrire en temps réel la parole, permettant de générer un carnet de bord quotidien, malgré les conditions bruyantes.
  • Monitoring temps réel, grâce à des capteurs de vibration et de température permettant de détecter les anomalies et d’assurer une surveillance constante durant le raid. Finalement, leur 4L n’a subi aucune surchauffe pendant la course, contrairement à d’autres participants.
  • Navigation inertielle sans GPS : utilisation de magnétomètres, boussoles et centrales inertielles pour aider à la navigation malgré l'interdiction d'utiliser le GPS lors du 4L Trophy (utilisation d’un road book).
  • Stéréoscopie par IA (Deep Learning) : restitution d'une carte de profondeur colorée sur la tablette, permettant de distinguer les reliefs proches et lointains, facilitant ainsi la navigation.

Pour assurer une autonomie maximale malgré les conditions extrêmes, un système autonome a été mis en place, combinant panneaux solaires, stockage dans une cantine militaire et conception résistante à la poussière.

Mon avis : cette présentation a démontré l'efficacité de l'IA embarquée dans l'amélioration des performances et de la sécurité lors de raids automobiles comme le 4L Trophy. J’ai trouvé les deux speakers vraiment très bons dans leur présentation, on sent que c’est une aventure qui les a passionné. Une excellente conférence pour débuter ce Dataquitaine 2024 !

Optimisation du calcul intensif par le critère énergétique

(résumé par Théophile Cathelineau)

La conférence s’ouvre sur Hervé MATHIEU, CEO de Denergium, qui dresse le tableau de la situation actuelle rencontrée dans le domaine des calculs intensifs. En effet, étant à la croisée d’une explosion de la demande couplée au coût de l’énergie croissant, la situation actuelle, inédite, pousse à un changement de paradigme. Ainsi, le time-to-solution bascule vers un energy-to-solution.  

Cette nouvelle vision du problème est tout autant nécessaire qu’on se situe également dans une situation d’offre hardware limitée et en flux tendu constant. Mr. Mathieu l’illustre ici par le temps d’attente pour obtenir un bon serveur chez Nvidia, qui a presque triplé en quelques années.
En prenant un peu de recul sur la situation, on se rend compte que cette situation présente de nombreuses similitudes avec ce qu’a vécu le hardware il y a de ça quelques années. La solution n’est donc plus d’augmenter naïvement la puissance de calcul, mais plus de repenser la manière de traiter l’ensemble de nos calculs en prenant en compte le profil énergétique des applications.

L’idée est donc de repenser le workflow habituel pro en apportant davantage d’attention à ce fameux profil énergétique de l’application. Au cours de cette conférence, des exemples d’application concrète sur trois niveaux du workflow ont été présentés :

Un exemple d’optimisation directement au cœur de l’application serait l’ajout d’un tampon de pause dans le run d’une application de traitement de la donnée en continu pour temporiser les instants où la data n’est pas encore arrivée.

La partie serveur, elle, se concentre sur l’adaptation de la consommation des serveurs en fonction des phases de l’application.

Dans le cadre d’un cluster (un ensemble d'applications) on peut plancher sur l’élaboration d’une matrice de l’efficacité énergétique en fonction des différentes versions des serveurs et des différentes valeurs des paramètres d’entrée du modèle.

Cette conférence était bien structurée et est allée au-delà d’un aspect théorique en illustrant à l’aide d’exemples concrets comment aborder la question de l’optimisation de calcul sous le prisme du profil énergétique et ce en prenant le soin de bien replacer la question dans le contexte actuel.
Le monde de l’informatique est plus que jamais en constante évolution et ce genre de conférence nous permet de prendre du recul sur les challenges de demain.

Révolution numérique pour la préservation des cours d'eau : Vers une Garonne résiliente en 2050

(résumé par Jérémy Nadal)

Une plongée dans le futur de nos ressources aquatiques a révélé un constat déprimant : la Garonne, fleuve emblématique, pourrait subir de graves altérations d'ici 2050, menaçant ainsi son écosystème fragile et la biodiversité qui en dépend.

L'initiative, portée par une multitude d'acteurs partenaires, repose sur l'utilisation de simulations numériques pour modéliser le comportement de la Garonne. Le projet vise avant tout à accroître la résilience territoriale face aux défis du changement climatique, une mission d'une importance cruciale dans un contexte où les écosystèmes fluviaux sont soumis à des pressions croissantes.

Au cœur de cette entreprise se trouvent trois plateformes clés : la première, dédiée aux données ouvertes, facilite l'accès à un dépôt communautaire où les informations pertinentes sont mises à disposition via des connecteurs. Cette transparence est essentielle pour favoriser la collaboration et la recherche de solutions innovantes.

La seconde plateforme, LISOS, fait des simulations numériques, permettant ainsi une modélisation précise de l'écoulement du fleuve. Elle offre aux experts la possibilité d'analyser diverses variables environnementales telles que la hauteur de l'eau, le courant et la qualité de l'eau, fournissant ainsi des données cruciales pour évaluer l'impact des changements climatiques.

Quant à la troisième plateforme, dédiée à la surveillance (GIROS), elle assure une vigilance sur l'état de la Garonne, en rendant les données accessibles et en prédisant son comportement jusqu'à deux semaines à l'avance. Cette anticipation permet de prendre des mesures préventives et d'adapter les stratégies de gestion en conséquence.

Un élément clé de ce projet est l'utilisation de modèles de scénarios, tels que Garonne 2050, basé sur le scénario modéré RCP4.5, qui permettent d'évaluer les conséquences probables des activités humaines et des changements climatiques sur le fleuve. Cette approche prédictive offre aux décideurs des informations cruciales pour élaborer des politiques de gestion adaptées.

Un autre aspect passionnant de cette initiative est le développement de Gironde XL 3D par le Cerema, qui est une plateforme qui vise à cartographier en trois dimensions l'ensemble du bassin de la Garonne. Cette visualisation immersive permet de mieux appréhender l'impact des scénarios sur le paysage fluvial et d'identifier les zones à risque.

Au-delà de la dimension environnementale, ce projet intègre également des considérations socio-économiques importantes. En envisageant les données comme des biens communs numériques, similaires à un jardin public ou à Wikipédia, les initiateurs du projet aspirent à promouvoir l'accès ouvert à l'information tout en garantissant une gouvernance partagée et une collaboration communautaire. Cependant, ils reconnaissent les défis liés à la préservation de ces ressources communes et cherchent activement des partenaires juridiques et techniques pour les soutenir dans cette entreprise.

En conclusion, bien que la présentation de ce projet ait été axée davantage sur la sensibilisation que sur les détails techniques, elle a néanmoins souligné l'importance cruciale de l'innovation numérique dans la préservation des écosystèmes fluviaux. En offrant des outils de modélisation avancés et en encourageant la collaboration entre les acteurs concernés, ce projet ambitieux ouvre la voie à une approche plus proactive et résiliente face aux défis environnementaux du XXIe siècle.