Author image

7 posts

Delta Lake et AWS : mariage forcé

Delta Lake apporte de nombreux avantages aux projets Data basés sur Spark. Il peut considérablement simplifier vos workflows grâce aux opérations UPDATE, DELETE et MERGE. Il permet également de rendre vos pipelines plus robustes grâce aux transactions ACID et au schema enforcement. Néanmoins, si votre plateforme est construite avec les

Nouvelle certification Spark de Databricks

La toute nouvelle certification de développeur Spark de Databricks (CRT020: Databricks Certified Associate Developer for Apache Spark 2.4 with Scala 2.11 – Assessment) est disponible depuis le 1er août 2019. Ayant obtenu cette certification récemment, je vous partage maintenant mon retour d’expérience. Je vous donne également quelques conseils

CI/CD : Snowflake, Sqitch et Gitlab

La construction d'un Data Warehouse est assez similaire au développement d'une application comprenant une BDD relationnelle comme couche de persistance d'un point de vue projet. Vous avez autant (voire plus) de contraintes qui nécessitent une automatisation de la gestion du cycle de vie du schéma de données : Vous avez besoin

Spark expliqué aux décideurs

Problématique En intervenant sur différents projets Spark (parfois en mode “pompier”) et en recueillant les témoignages de mes collègues, j’ai constaté que les principales causes d'échec sont : le faible niveau de compréhension du fonctionnement de cet outil et des contraintes de traitement distribué, le manque d’industrialisation et de

Quel cloud pour la Russie ?

En 1986 les Français ont été surpris d'apprendre que le nuage radioactif en provenance de l'URSS s'était arrêté à la frontière de leur pays. Aujourd'hui, on constate que le cloud public occidental a également du mal à traverser les frontières de la Russie. Aucun des trois leaders mondiaux du cloud