Author image

Lucien Fregosi

Métriques et Logs sur Apache Spark

Après un premier article consacré au data lineage pour les Jobs Spark, nous continuons cette série que l’on pourrait appeler “Spark dans la vraie vie”, pour nous intéresser à un autre aspect très important lorsque l’on utilise des traitements Spark sur un datalake d’entreprise : le logging et

Data Lineage sur Apache Spark avec Spline

Cet article de blog présente une solution de Data Lineage nommé Spline qui permet de tracer les différentes actions et transformations dans un traitement avec Apache Spark. Qu’est-ce que le data lineage et pourquoi l’utiliser ? Le data lineage est une problématique qui existe depuis que l’on s’