J’ai pu participer à un Webinar organisé par la société Talend ayant pour thème : « Nettoyage de données en open source ». Ce sujet m’intéressait particulièrement, ayant découvert cet outil sur un projet récent, avec ce même objectif. Je vais résumer en quelques phrases ce qui a été dit pendant cette conférence de 45 min :
La qualité de données c’est quoi ?
C’est un sujet vaste en fait… On peut parler de mesures de la qualité des données, de nettoyage de données de mauvaise qualité… En règle générale, la qualité de données dépend de 3 choses : des données précises, complètes et cohérentes.
La qualité de données intervient à plusieurs niveaux :
- Technique : Intégrité référentielle, type de données ; Ce contrôle se fait surtout au niveau du SGBD lui même
- Logique : Données conformes aux spécifications fonctionnelles (Chaque donnée correspond à un domaine précis)
- Sémantique : Données correctement formatées (adresses, numéros de téléphone…)
Pourquoi nettoyer les données ?
Il est évident que l’on a besoin d’avoir des données de qualité sinon on ne peut pas prendre les bonnes décisions. Le plus gênant, c’est que ces données vont ensuite se propager dans le système, d’application en application tel un virus. Voilà pourquoi il est essentiel de contrôler nos données en amont, et donc, d’intégrer ces routines de nettoyage dans les processus d’intégration.
Enfin, nous avons eu droit à une démonstration de Talend sur cette problématique et je dois dire que j’ai été bluffé. En plus de tous les composants de « base », Talend propose de puissants outils permettant d’extraire les enregistrements doublonnés, ou, à partir de données de référence, de corriger nos enregistrements sur l’orthographe ou la phonétique.
Pour illustrer cela, prenons comme exemple un très beau prénom : « Grégory » 🙂 En utilisant ces composants, on pourra corriger les prénoms de type « Grégorie », « Grgory », ou pire encore… avant de les réinjecter dans une base ; on pourra également mettre les données qui n’ont pas pu être traitées par Talend dans un fichier CSV, XML ou une autre table pour un traitement manuel.
En résumé, un ETL très complet pour s’éviter de nombreuses heures de développement spécifique. Et une conférence bien utile pour prendre plus de recul sur les bonnes pratiques d’utilisation de la plate-forme.