Ce que vous avez raté si vous n’êtes pas venu au dernier Meetup Hadoop

Logo HUG France

Le 1er Octobre, le dernier Meetup Hadoop s’est réuni dans un cadre sympathique (avec vue sur Notre-Dame pour le pot suivant les présentations) sur la péniche “La Nouvelle Seine”. Ce meetup était sponsorisé par Ippon Technologies. Un lien sera bientôt disponible pour vous permettre de visionner cette session.

Pour cette session de Meetup Hadoop organisée par l’équipe HUG France, nous avons eu le droit à deux présentations : une première par Tugdual Grall plutôt technique sur Apache Drill et une seconde par Olivier Girardot, beaucoup moins technique, sur l’évolution des patterns utilisés dans le monde du BigData. Pour toutes celles et ceux qui n’ont pas pu faire le déplacement, voici un petit récap de ce que vous avez manqué.

Apache Drill – quoi de neuf ?

Pour résumer, Tugdual nous a expliqué dans sa présentation ce qu’était Apache Drill. Il nous a montré sa puissance et sa simplicité d’utilisation avec différents types de sources de données et différents types de fichiers sources.

Plus en détail, nous avons pu voir, pour ceux qui comme moi ne connaissaient d’Apache Drill que le nom, que c’est un outil très puissant supportant la découverte du schéma des données en vol sous forme de JSON (le Schema Discovery on-the-fly) alors qu’avec des outils comme Hive, il est nécessaire de connaître le schéma avant une lecture des données.

Ce point apporte donc une simplicité d’utilisation non négligeable couplée à la possibilité de faire du requêtage SQL multi-sources (comme Apache Impala) :

  • sur des sources de données comme HBase, Hive, MapR-DB ou encore MongoDB
  • et sur des fichiers comme JSON, CSV/TSV, Parquet et Avro.

De plus, Apache Drill fournit une interface web pour visualiser le plan de processing des requêtes lancées.
Tugdual nous a expliqué que lui-même utilisait beaucoup le format de fichier Parquet, un format très rapide à lire pour Apache Drill, et le Drill Explorer pour créer des vues sur ses données et ainsi exécuter très rapidement des requêtes dessus.

Real-time stream processing in BigData

Cette seconde présentation par Olivier faisait plutôt la rétrospective des différents paradigmes appliqués aux architectures du BigData et de la vitesse d’évolution d’adoption de ces derniers. À la fin de sa présentation, Olivier nous a fait un petit comparatif entre Apache Spark et Apache Flink.

Avec un certain humour (ou troll pour d’autres), mais néanmoins à l’écoute des remarques contre ou pour son discours, Olivier nous a présenté en quoi l’univers du BigData était en constante évolution : il nous a cité plusieurs exemples de livres parlant d’une architecture (lambda par exemple) pas encore sortis mais déjà dépassés par de nouveaux paradigmes qui ont émergé.

Ce qui est à retenir en tout cas, c’est qu’on est passé d’une architecture principalement basée sur des Batchs de process sur des données froides à un mélange entre du batch et du streaming ou du micro-batch (la Lambda architecture). Et que celle-ci commence à être déjà remplacée par du full-streaming avec les architectures Kappa et Zeta. La Kappa architecture reposant entièrement sur Apache Kafka pour le traitement des données et la Zeta correspond plus à une architecture dynamique sur l’utilisation des ressources alloués aux processus via l’utilisation de Mesos/Kubernetes par exemple.

Quant au combat entre Spark et Flink, on peut retenir après cette présentation qu’il manque à Flink un peu de maturité pour vraiment faire de l’ombre à Spark mais que ça pourrait arriver assez vite vu l’effervescence et la demande dans ce milieu.

Le mot de la fin

Bref, si vous souhaitez en savoir plus sur Apache Drill, les slides de la présentation de Tugdual sont disponibles.

Sinon, si vous voulez en savoir plus sur Spark ou d’autres sujets ayant trait au BigData, Olivier tient un blog. Pour ceux que cela intéresse, Christopthe Parageaud a écrit un post de blog sur la comparaison entre Spark et Flink disponible ici. Et si vous souhaitez ne pas rater les prochaines meetup, le groupe Meetup Hadoop est ici.

Pour finir, Ippon Technologies proposent une formation Spark pour celles et ceux qui ont envie de passer à la pratique. Pour plus d’infos.

Vous souhaitez tout savoir du Big Data (architectures, solutions, freins et opportunités…) ? Découvrez notre livre blanc Big Data !