Lucien Fregosi

Cluster Spark éphémère avec Terraform et AWS EMR

avr. 16, 2019

Cluster permanent VS Cluster éphémère à la demande La démocratisation des services Cloud type “Hadoop As A service” a constitué une évolution majeure dans le monde du Big Data et du calcul distribué. Cette accessibilité simplifiée (10 min pour AWS) à une ressource jusqu’alors complexe a permis l’émergence

Métriques et Logs sur Apache Spark

avr. 05, 2018

Après un premier article consacré au data lineage pour les Jobs Spark, nous continuons cette série que l’on pourrait appeler “Spark dans la vraie vie”, pour nous intéresser à un autre aspect très important lorsque l’on utilise des traitements Spark sur un datalake d’entreprise : le logging et

Data Lineage sur Apache Spark avec Spline

févr. 19, 2018

Cet article de blog présente une solution de Data Lineage nommé Spline qui permet de tracer les différentes actions et transformations dans un traitement avec Apache Spark. Qu’est-ce que le data lineage et pourquoi l’utiliser ? Le data lineage est une problématique qui existe depuis que l’on s’