Author image

Boris Perevalov

Lyon

Spark : Dataset c'est mal

Il m’arrive souvent de me lancer dans un débat sur l’API Dataset où je défends la thèse qu’il ne faut surtout pas l’utiliser dans les projets Spark. Je constate qu’il y a souvent une mauvaise compréhension de la manière dont cette API fonctionne et certaines

Delta Lake : la taille compte

Delta Lake [https://delta.io/] nous offre le confort d’un niveau d’abstraction similaire à celui d’une BDD relationnelle. En retrouvant nos vieilles habitudes du monde SQL, nous avons tendance à ne plus prendre en considération la façon dont les données sont stockées dans des fichiers, alors que

Delta Lake & CDC : Walkthrough

L’opération merge [https://docs.databricks.com/delta/delta-update.html#upsert-into-a-table-using-merge] de l’API Delta Lake, qui combine les opérations INSERT, UPDATE et DELETE, permet de réduire sensiblement votre effort cognitif lorsque vous avez besoin de développer un pipeline d’alimentation d’une table Delta Lake par CDC (Change Data

Delta Lake et AWS : mariage forcé

Delta Lake [https://docs.delta.io/latest/index.html] apporte de nombreux avantages aux projets Data basés sur Spark. Il peut considérablement simplifier vos workflows grâce aux opérations UPDATE, DELETE et MERGE. Il permet également de rendre vos pipelines plus robustes grâce aux transactions ACID et au schema enforcement. Néanmoins,

Nouvelle certification Spark de Databricks

La toute nouvelle certification [https://academy.databricks.com/exam/crt020-scala] de développeur Spark de Databricks [https://databricks.com/] (CRT020: Databricks Certified Associate Developer for Apache Spark 2.4 with Scala 2.11 – Assessment) est disponible depuis le 1er août 2019. Ayant obtenu cette certification récemment, je vous partage maintenant mon

CI/CD : Snowflake, Sqitch et Gitlab

La construction d'un Data Warehouse est assez similaire au développement d'une application comprenant une BDD relationnelle comme couche de persistance d'un point de vue projet. Vous avez autant (voire plus) de contraintes qui nécessitent une automatisation de la gestion du cycle de vie du schéma de données : * Vous avez besoin

Spark expliqué aux décideurs

Problématique En intervenant sur différents projets Spark (parfois en mode “pompier”) et en recueillant les témoignages de mes collègues, j’ai constaté que les principales causes d'échec sont : * le faible niveau de compréhension du fonctionnement de cet outil et des contraintes de traitement distribué, * le manque d’industrialisation et de

Quel cloud pour la Russie ?

En 1986 les Français ont été surpris d'apprendre que le nuage radioactif en provenance de l'URSS s'était arrêté à la frontière de leur pays. Aujourd'hui, on constate que le cloud public occidental a également du mal à traverser les frontières de la Russie. Aucun des trois leaders mondiaux du cloud

Trois ans en compagnie de MongoDB (Part 2 - Joie)

Dans mon précédent article [https://blog.ippon.fr/2018/12/17/trois-ans-en-compagnie-de-mongodb-part-1-souffrance/] je me suis plaint des comportements de MongoDB qui m'ont fait souffrir. Dans cette deuxième partie je vous présente les points forts de MongoDB vus sous l'angle de mon expérience personnelle. Dans cet article je n'essaie pas de