Nettoyage de données

J’ai pu participer à un Webinar organisé par la société Talend ayant pour thème : « Nettoyage de données en open source ». Ce sujet m’intéressait particulièrement, ayant découvert cet outil sur un projet récent, avec ce même objectif. Je vais résumer en quelques phrases ce qui a été dit pendant cette conférence de 45 min :

La qualité de données c’est quoi ?

C’est un sujet vaste en fait… On peut parler de mesures de la qualité des données, de nettoyage de données de mauvaise qualité… En règle générale, la qualité de données dépend de 3 choses :  des données précises, complètes et cohérentes.

La qualité de données intervient à plusieurs niveaux :

  • Technique : Intégrité référentielle, type de données ; Ce contrôle se fait surtout au niveau du SGBD lui même
  • Logique : Données conformes aux spécifications fonctionnelles (Chaque donnée correspond à un domaine précis)
  • Sémantique : Données correctement formatées (adresses, numéros de téléphone…)

Pourquoi nettoyer les données ?

Il est évident que l’on a besoin d’avoir des données de qualité sinon on ne peut pas prendre les bonnes décisions. Le plus gênant, c’est que ces données vont ensuite se propager dans le système, d’application en application tel un virus. Voilà pourquoi il est essentiel de contrôler nos données en amont, et donc, d’intégrer ces routines de nettoyage dans les processus d’intégration.

Enfin, nous avons eu droit à une démonstration de Talend sur cette problématique et je dois dire que j’ai été bluffé. En plus de tous les composants de « base », Talend propose de puissants outils permettant d’extraire les enregistrements doublonnés, ou, à partir de données de référence, de corriger nos enregistrements sur l’orthographe ou la phonétique.

Pour illustrer cela, prenons comme exemple un très beau prénom : « Grégory » 🙂 En utilisant ces composants, on pourra corriger les prénoms de type « Grégorie », « Grgory », ou pire encore… avant de les réinjecter dans une base ; on pourra également mettre les données qui n’ont pas pu être traitées par Talend dans un fichier CSV, XML ou une autre table pour un traitement manuel.

En résumé, un ETL très complet pour s’éviter de nombreuses heures de développement spécifique. Et une conférence bien utile pour prendre plus de recul sur les bonnes pratiques d’utilisation de la plate-forme.

Tweet about this on TwitterShare on FacebookGoogle+Share on LinkedIn

2 réflexions au sujet de « Nettoyage de données »

  1. Ces fonctions de nettoyage des données ("data cleansing") sont – à ma connaissance – peu utilisées dans la vraie vie. Elles répondent à des problématiques spécifiques de centre d'appels le plus souvent où un agent saisit "Dupont" avec un T au lieu de "Dupond" avec un D. D'où à l'arrivée de nombreux Dupontds dans la base de données dont un certain nombre sont les mêmes. Autre exemple, le formattage des numéros de téléphone ou des codes postaux. On va retrouver ces mêmes problématiques pour la saisie de formulaires sur le web, ou au guichet.
    Ce nettoyage des données n'a à mon sens qu'un impact marginal sur le décisionnel.
    Il a probablement beaucoup plus de valeur en mode transactionnel où toute erreur ou incertitude est instantanément détectée, et où une liste de solutions est proposée au moment même de la saisie. C'est une contribution importante à la pratique du CRM B2C.
    Mais celà suppose un fonctionnement de l'outil de Data Cleansing en temps réel (temps de réponse < 1000 ms). Avec un nombre d'utilisateurs simultanés de plusieurs dizaines quelquefois, voire plus en période de pointe. En sommes-nous là ?
    Le reste n'est que "show-off" à mon sens.
    Olivier Cousin – SMILE Consulting

  2. Nombreuses sont les applications qui consomment des fichiers sous divers formats (Csv, Excel, …) générés pas des personnes ou des applications. Pour cette fonctionnalité, il est intéressant d'utiliser Talend qui permettra donc de nettoyer avant l'insertion en base. J'ai donné un exemple pour la correction orthographique mais le nettoyage peut aller plus loin, en initialisant les valeurs à nul par exemple, concaténer plusieurs champs, normaliser des valeurs, … l'intérêt étant d'adapter des données "externes" à la base de données de l'application.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *


*