Author image

Lucien Fregosi

Métriques et Logs sur Apache Spark

Après un premier article consacré au data lineage pour les Jobs Spark [http://blog.ippon.fr/2018/02/19/data-lineage-spark-avec-spline/], nous continuons cette série que l’on pourrait appeler “Spark dans la vraie vie”, pour nous intéresser à un autre aspect très important lorsque l’on utilise des traitements Spark

Data Lineage sur Apache Spark avec Spline

Cet article de blog présente une solution de Data Lineage nommé Spline [https://absaoss.github.io/spline/] qui permet de tracer les différentes actions et transformations dans un traitement avec Apache Spark. Qu’est-ce que le data lineage et pourquoi l’utiliser ? Le data lineage [https://en.wikipedia.org/wiki/