Apr 16, 2019
Cluster permanent VS Cluster éphémère à la demande La démocratisation des services Cloud type “Hadoop As A service” a constitué une évolution majeure dans le monde du Big Data et du calcul distribué. Cette accessibilité simplifiée (10 min pour AWS) à une ressource jusqu’alors complexe a permis l’émergence
Lire la suite...
Apr 05, 2018
Après un premier article consacré au data lineage pour les Jobs Spark, nous continuons cette série que l’on pourrait appeler “Spark dans la vraie vie”, pour nous intéresser à un autre aspect très important lorsque l’on utilise des traitements Spark sur un datalake d’entreprise : le logging et
Lire la suite...
Feb 19, 2018
Cet article de blog présente une solution de Data Lineage nommé Spline qui permet de tracer les différentes actions et transformations dans un traitement avec Apache Spark. Qu’est-ce que le data lineage et pourquoi l’utiliser ? Le data lineage est une problématique qui existe depuis que l’on s’
Lire la suite...