Feb 23, 2022
Il m’arrive souvent de me lancer dans un débat sur l’API Dataset où je défends la thèse qu’il ne faut surtout pas l’utiliser dans les projets Spark. Je constate qu’il y a souvent une mauvaise compréhension de la manière dont cette API fonctionne et certaines
Lire la suite...
Feb 07, 2022
Delta Lake nous offre le confort d’un niveau d’abstraction similaire à celui d’une BDD relationnelle. En retrouvant nos vieilles habitudes du monde SQL, nous avons tendance à ne plus prendre en considération la façon dont les données sont stockées dans des fichiers, alors que les performances (surtout
Lire la suite...
Dec 21, 2020
L’opération merge de l’API Delta Lake, qui combine les opérations INSERT, UPDATE et DELETE, permet de réduire sensiblement votre effort cognitif lorsque vous avez besoin de développer un pipeline d’alimentation d’une table Delta Lake par CDC (Change Data Capture). Néanmoins, tout n’est pas aussi simple
Lire la suite...
Oct 12, 2020
Delta Lake apporte de nombreux avantages aux projets Data basés sur Spark. Il peut considérablement simplifier vos workflows grâce aux opérations UPDATE, DELETE et MERGE. Il permet également de rendre vos pipelines plus robustes grâce aux transactions ACID et au schema enforcement. Néanmoins, si votre plateforme est construite avec les
Lire la suite...
Oct 14, 2019
La toute nouvelle certification de développeur Spark de Databricks (CRT020: Databricks Certified Associate Developer for Apache Spark 2.4 with Scala 2.11 – Assessment) est disponible depuis le 1er août 2019. Ayant obtenu cette certification récemment, je vous partage maintenant mon retour d’expérience. Je vous donne également quelques conseils
Lire la suite...
Oct 07, 2019
La construction d'un Data Warehouse est assez similaire au développement d'une application comprenant une BDD relationnelle comme couche de persistance d'un point de vue projet. Vous avez autant (voire plus) de contraintes qui nécessitent une automatisation de la gestion du cycle de vie du schéma de données : Vous avez besoin
Lire la suite...
Sep 16, 2019
Problématique En intervenant sur différents projets Spark (parfois en mode “pompier”) et en recueillant les témoignages de mes collègues, j’ai constaté que les principales causes d'échec sont : le faible niveau de compréhension du fonctionnement de cet outil et des contraintes de traitement distribué, le manque d’industrialisation et de
Lire la suite...
Jan 25, 2019
En 1986 les Français ont été surpris d'apprendre que le nuage radioactif en provenance de l'URSS s'était arrêté à la frontière de leur pays. Aujourd'hui, on constate que le cloud public occidental a également du mal à traverser les frontières de la Russie. Aucun des trois leaders mondiaux du cloud
Lire la suite...
Jan 10, 2019
Dans mon précédent article je me suis plaint des comportements de MongoDB qui m'ont fait souffrir. Dans cette deuxième partie je vous présente les points forts de MongoDB vus sous l'angle de mon expérience personnelle. Dans cet article je n'essaie pas de justifier le choix de MongoDB pour le projet
Lire la suite...
Dec 17, 2018
MongoDB et moi, nous avons fait un bon bout de chemin ensemble. Le projet sur lequel j'ai travaillé les 3 dernières années était construit autour de MongoDB. Durant ces 3 années, j'ai vu MongoDB évoluer de la version 2.6 à 3.6. Le projet n'avait pas encore migré vers
Lire la suite...