Strata+Hadoop World New York - En résumé

Alexis Seigneurin 07 oct. 2016

Strata+Hadoop World est certainement la plus importante conférence à propos des sujets de Data Science et de Data Engineering. La dernière édition s’est tenue la semaine dernière à New York et a accueillie plus de 2000 participants. Avec 15 sessions en parallèle pendant 2 jours de conférence, ce sont plus de 160 sessions qui s’offraient à nous ! Voici ce que j’en retiens.

Keynotes

En prélude des talks techniques, les speakers des keynotes ont admirablement démontré comment notre industrie prend place dans notre vie de tous les jours, comment la data peut être efficacement utilisée pour contribuer à une meilleur santé, à une meilleure éducation, à une meilleure vie, etc.

Pour n’en nommer qu’une, Mar Cabra, responsable de l’unité Data & Research au Consortium international des journalistes d’investigation, a expliqué les techniques qu’ils ont utilisées pour analyser l’immense volume de données du scandale des Panama Leaks.

Le moins que l’on puisse dire à propos de ces keynotes est qu’elles étaient sources d’inspiration.

Talks recommandés

Je ne peux bien sûr pas retranscrire l’intégralité ce qui a été présenté à Strata. Voici plutôt un résumé de quelques sessions que j’ai trouvées intéressantes.

**Making on-demand grocery delivery profitable with data science – Jeremy Stanley, VP de la Data Science chez Instacart. Jeremy a expliqué comment chez Instacart ils essayent d’optimiser la livraison de courses en ligne. Leurs clients passent des commandes sur le site ; les livreurs font les courses dans des magasins locaux pour livrer les clients. Pour satisfaire les clients, Instacart doit livrer rapidement ce qui nécessite que des livreurs soient disponibles à tout instant. Toutefois, si vous avez trop de livreurs, ils sont sous-exploités et représentent un coût pour l’entreprise. Jeremy a montré comment, version après version, leur application est devenue plus efficace pour organiser les livraisons. Cela reste un problème extrêmement complexe.

Apache Kafka: The rise of real-time data and stream processing – Neha Narkhede, cofondatrice et responsable de l’ingénierie chez Confluent. Neha a présenté les 3 produits qui sont développés et supportés par Confluent : Kafka, Kafka Connect et Kafka Streams. J’étais déjà un grand supporter de Kafka et Kafka Streams. Mais ce talk m’a montré que Confluent a déjà une longue roadmap pour Kafka Streams. Neha a déclaré que les 3 outils peuvent être combinés pour constituer “l’ETL moderne”.

Parquet performance tuning: The missing guide – Ryan Blue, ingénieur dans l’équipe Big Data Platform chez Netflix. Ryan a décrit le format de stockage orienté colonne Apache Parquet. Son talk, très technique, indique comment tirer parti des fonctionnalités de ce format et comment en éviter certains écueils. Cela montre bien que choisir un format de stockage n’est que la première partie du travail du développeur, il reste ensuite beaucoup de réglages à effectuer.

Twitter’s real-time stack: Processing billions of events with Heron and DistributedLog – Karthik Ramasamy, tech lead sur la partie analytics temps-réel chez Twitter. Karthik a présenté les challenges d’une plateforme d’analytics à l’échelle de Twitter. Il a décrit comment ils sont venus à créer un service de log répliqué et haute performance, DistributedLog, et comment ils ont créé Heron, un framework de traitement de données conçu pour être “un meilleur Storm”. Heron est en production depuis plus de 2 ans chez Twitter et il est 4 à 5 fois plus rapide que Storm.

Un déluge de technologies

Pour finir, s’il faut retenir quelque chose de cette édition, c’est que cette industrie est très active pour créer de nouvelles technologies. Quand on pense assez bien connaître “l’écosystème Data”, Strata nous montre que l’on se fourvoie ! Voici une sélection des technologies qui ont été mentionnées, certaines que je connaissais déjà, d’autres dont j’ai découvert l’existence pendant la conférence :

Traitement : Apache Spark, Apache Apex, Apache Beam, Heron
Stockage : Pinot (OLAP), Apache Kylin (OLAP), Druid, Apache Kudu (analytics)
Pub-sub : Kafka, Google Cloud Pub/Sub
Détection de menaces : Apache Spot

Pour voir les présentations

La plupart des talks ont été enregistrés et seront bientôt disponibles sur la plateforme d’O’Reilly, Safari.

Certains speakers ont déjà donné le même talk dans d’autres conférences. Vous pourrez peut-être trouver une vidéo réalisée lors d’un de ces évènements, voire assister à une présentation dans un Meetup local.

Strata+Hadoop World New York - En résumé

Keynotes

Talks recommandés

Un déluge de technologies

Pour voir les présentations

SBT Partie 2 : Projet multiple

SBT Partie 1 : Découverte