Réflexions sur le Big Data suite au salon du 8 mars 2016

Les 7 et 8 mars 2016 a eu lieu le Salon du Big Data à Paris et j’ai eu le privilège d’y assister. Ce billet constitue une synthèse des conférences auxquelles j’ai assisté et des échanges que j’ai eu avec certains exposants.

“Big Data” est un terme très à la mode, souvent utilisé pour représenter différentes choses selon la personne qui en parle et le contexte (métier ou technique). Le terme “Big” est d’ailleurs souvent utilisé sans véritable problématique de volumétrie de données. Il est très difficile de donner une définition simple et concise. Le leader Big Data de chez Airbus avait demandé à son équipe de lui donner une définition du Big Data en 7 mots seulement. Très peu ont su répondre et personne n’a la même vision de ce vaste et passionnant sujet. Le point sur lequel tout le monde s’accorde cependant est qu’il y a de plus en plus de données accessibles aux entreprises et que leur (bonne) exploitation impactera leurs évolutions. Les enjeux sont clairs et les bénéfices potentiels extrêmement intéressants. La conception et la mise en place d’une solution adaptée est un véritable défi. Malgré cela, beaucoup d’entreprises semblent être passées d’une réflexion sur l’intérêt du Big Data au sein de leur entreprise à la volonté de monter des projets sans toujours savoir comment s’y prendre, estimer le coût et le retour sur investissement.

Un déluge de données

Vous l’aurez compris, les données sont l’or noir de notre siècle. Nous produisons de plus en plus de données et ce déferlement va s’accélérer dans les prochaines années notamment avec la banalisation des objets connectés de plus en plus bavards. En 2020, les données stockées représenteront plus de 33 fois le volume que l’on avait en 2010 (*). Que faire de toutes ces données ? Imaginez que votre mémoire vous permette d’accumuler avec précision tous les événements de votre vie mais que vous n’en tiriez aucune conclusion ni évolution de votre comportement. Apporter de l’intelligence aux données permet de ne plus commettre les mêmes erreurs et d’anticiper l’avenir.

Protéger les données privées

Comme toutes les ressources à valeur ajoutée, les données ont bel et bien un prix. Bien connaître ses clients est un atout essentiel pour le marketing et la personnalisation des offres. Sans nous en rendre totalement compte, nous laissons de plus en plus de traces de nos comportements et habitudes, ce qui représente un filon extraordinaire pour le ciblage publicitaire. Vous vous êtes certainement demandé comment des sites comme Amazon arrivent à suggérer des produits qui nous correspondent parfaitement sans que vous ayez l’impression d’avoir montré votre intérêt pour ces produits ? Tout ceci n’est que le fruit du traitement de nos données personnelles, le tout à notre insu. Personnellement, je n’y suis pas opposé et j’apprécie d’avoir un contenu adapté à mes attentes. Il se pose néanmoins une question éthique quant à l’utilisation de ces données privées parfois vendues d’une société à l’autre malgré le caractère illégal. Comment réglementer ces pratiques au niveau européen ? Faut-il à tout prix protéger la confidentialité de nos données au risque de freiner la croissance de nos entreprises ? Ce sujet a fait l’objet d’un débat très intéressant entre des représentants de l’Union Européenne, la Commission Nationale de l’Informatique et des Libertés (CNIL), l’Agence Nationale de la Sécurité des Systèmes d’Information (ANSSI) et des entreprises liées à ces données. Le modèle américain a souvent été mis en avant favorisant l’innovation parfois au détriment du respect de la vie privée. Les réprimandes sont souvent a posteriori. L’Europe, très attachée au principe de précaution, commence par réglementer et imposer des contraintes aux entreprises. “Il n’y aura jamais de Facebook européen”. Faut-il s’en réjouir ou considérer ce constat comme une accumulation de contraintes fortes ralentissant l’innovation ? De nombreux utilisateurs du réseau social sont conscients que leurs données ne sont pas en sécurité mais il semblerait que l’accès au service soit plus important. Dans la même veine, le cas du F.B.I. ayant demandé à Apple de pouvoir cracker des iPhones afin de lutter contre le terrorisme montre bien l’équilibre fragile entre données personnelles et intérêt public. Le débat reste ouvert et les problématiques de confidentialité des données en Europe seront encore un sujet d’actualité dans les années à venir. La normalisation des données entre les différents pays est une étape capitale à une véritable gouvernance des données à l’échelle européenne.

Vie privée et Big Data ne sont pas toujours compatibles.

Les problématiques des projets Big Data

Mener un projet Big Data à terme est une opération délicate pour les entreprises. L’expression du besoin peut être relativement simple. Lors des retours d’expérience j’ai pu suivre le cas de la SNCF souhaitant optimiser la maintenance de ses trains connectés en prévoyant les pannes ou encore le cas d’Allianz souhaitant fournir à ses assurés des données liées à leur mode de conduite pouvant ainsi déboucher sur une baisse de leurs cotisations. Le lancement d’un tel projet reste délicat. La faisabilité n’est pas assurée tant sur le plan technique que sur la qualité des résultats obtenus. Dans le cas d’utilisation de données personnelles, une phase de dé-identification doit être réalisée. Un tel projet ne peut être lancé qu’avec l’accord du CNIL. Généralement un ou plusieurs Proofs Of Concept sont réalisés suivi d’un pilote puis d’une phase de test et d’industrialisation (quand chaque étape répond aux attentes).

Projet Big Data - phases

Les solutions techniques sont nombreuses et beaucoup semblent directement en concurrence. Une fois l’architecture définie garantissant l’acheminement et le stockage de gros volumes de données, ces données doivent “parler”. Une donnée seule n’a que peu d’intérêt. C’est un peu comme chercher de l’intelligence dans un neurone. La richesse de la donnée repose dans sa volumétrie et sa qualité. Je vous invite à regarder la présentation de David Martin sur le Machine Learning avec Spark. L’objectif final de tous ces traitements est de ressortir des corrélations (à ne pas confondre avec des causes) afin de prédire l’avenir avec la meilleure précision possible. Généralement les premiers résultats ne sont pas parfaits et de nombreuses prédictions s’avèrent fausses. Les équipes doivent alors analyser les écarts et ajuster l’apprentissage des données en fonction du métier de l’entreprise. Les Data Scientists sont devenus des ressources critiques pour la réussite de projet Big Data. Au final, il n’y a aucune garantie de succès d’un tel projet. Si l’on reprend le cas de la SNCF, imaginez la perte d’argent liée aux réparations demandées sur des trains en parfait état. Rassurez-vous, après plusieurs itérations ce projet est devenu pertinent et devrait être un gain important en qualité de service.

Une autre contrainte assez commune est la haute disponibilité des services et des données. Dans le cas d’un site marchand, une perte de session ou l’impossibilité pour un utilisateur d’accéder à un service se traduit par une perte d’argent. Le monitoring doit être réactif et les alertes être en temps réel. La base de données NoSQL Couchbase se positionne sur cette problématique en offrant notamment des solutions de caching ou de sauvegarde de sessions.

Donner vie aux données : opportunités et avantages concurrentiels

La réussite d’un projet Big Data peut permettre aux entreprises d’augmenter leurs bénéfices en optimisant des opérations, de mieux cibler leurs clients, de détecter les fraudes voire de sauver des vies humaines. Je vais prendre pour exemple l’étude menée par Quantmetry sur le cancer du sein qui a permis de mettre en avant des corrélations étonnantes et d’adapter les traitements en fonction du profil de chaque patiente. Les fiches des patientes étaient soigneusement conservées mais représentaient un cimetière de données totalement inexploitées (et probablement inexploitables). Le projet a consisté en la consolidation de ces données nettoyées, la dé-identification des fiches garantissant l’anonymat des patientes et l’application d’algorithmes de Machine Learning pour identifier les points communs. Les analyses sont toujours en cours et les résultats prometteurs.

L’accès aux données est également un point essentiel et je me suis jusque-là uniquement focalisé sur la partie back-end des Solutions Big Data. Les outils de restitution de ces données ont également évolué et permettent de traiter de gros volumes de données soit par des bases NoSQL optimisées pour la lecture soit par des astuces de montée en mémoire comme c’est le cas pour QlikView ou Qlik Sense. L’un des points communs à toutes ces solutions graphiques est l’accès métier. Pas besoin d’être un petit génie de l’informatique pour mettre en place et partager des indicateurs clés pour le pilotage d’une activité. D’autres outils comme Tableau se débrouillent plutôt bien sur le domaine de la Business Discovery et la facilité de construire et de partager une analyse pertinente. J’ai également été impressionné par le client lourd Vize optimisant l’utilisation du processeur pour naviguer en toute fluidité dans ses données. J’ai hâte de voir les possibilités des prochaines versions qui doivent également exploiter la carte graphique !

Conclusion

Pour conclure en quelques lignes, le Big Data apporte de nouvelles dimensions aux projets et ouvre des opportunités de développement beaucoup plus rapide qu’avec les solutions traditionnelles SGBD-R. Le pilotage par les données présente un avantage concurrentiel énorme. Le Big Data a encore de beaux jours devant lui même si je reste convaincu que ce terme finira par disparaître une fois le traitement et l’analyse de gros volumes de données considérés comme essentiels et incontournables aux entreprises.


(*) Source : intervenants ou Wikipedia