Boris Perevalov - Blog Ippon - Ippon Technologies

Spark : Dataset c'est mal

févr. 23, 2022

Il m’arrive souvent de me lancer dans un débat sur l’API Dataset où je défends la thèse qu’il ne faut surtout pas l’utiliser dans les projets Spark. Je constate qu’il y a souvent une mauvaise compréhension de la manière dont cette API fonctionne et certaines

Delta Lake : la taille compte

févr. 07, 2022

Delta Lake [https://delta.io/] nous offre le confort d’un niveau d’abstraction similaire à celui d’une BDD relationnelle. En retrouvant nos vieilles habitudes du monde SQL, nous avons tendance à ne plus prendre en considération la façon dont les données sont stockées dans des fichiers, alors que

Delta Lake & CDC : Walkthrough

déc. 21, 2020

L’opération merge [https://docs.databricks.com/delta/delta-update.html#upsert-into-a-table-using-merge] de l’API Delta Lake, qui combine les opérations INSERT, UPDATE et DELETE, permet de réduire sensiblement votre effort cognitif lorsque vous avez besoin de développer un pipeline d’alimentation d’une table Delta Lake par CDC (Change Data

Delta Lake et AWS : mariage forcé

oct. 12, 2020

Delta Lake [https://docs.delta.io/latest/index.html] apporte de nombreux avantages aux projets Data basés sur Spark. Il peut considérablement simplifier vos workflows grâce aux opérations UPDATE, DELETE et MERGE. Il permet également de rendre vos pipelines plus robustes grâce aux transactions ACID et au schema enforcement. Néanmoins,

Nouvelle certification Spark de Databricks

oct. 14, 2019

La toute nouvelle certification [https://academy.databricks.com/exam/crt020-scala] de développeur Spark de Databricks [https://databricks.com/] (CRT020: Databricks Certified Associate Developer for Apache Spark 2.4 with Scala 2.11 – Assessment) est disponible depuis le 1er août 2019. Ayant obtenu cette certification récemment, je vous partage maintenant mon

CI/CD : Snowflake, Sqitch et Gitlab

oct. 07, 2019

La construction d'un Data Warehouse est assez similaire au développement d'une application comprenant une BDD relationnelle comme couche de persistance d'un point de vue projet. Vous avez autant (voire plus) de contraintes qui nécessitent une automatisation de la gestion du cycle de vie du

Spark expliqué aux décideurs

sept. 16, 2019

Problématique En intervenant sur différents projets Spark (parfois en mode “pompier”) et en recueillant les témoignages de mes collègues, j’ai constaté que les principales causes d'échec sont : * le faible niveau de compréhension du fonctionnement de cet outil et des contraintes de traitement distribué, * le manque d’industrialisation

Quel cloud pour la Russie ?

janv. 25, 2019

En 1986 les Français ont été surpris d'apprendre que le nuage radioactif en provenance de l'URSS s'était arrêté à la frontière de leur pays. Aujourd'hui, on constate que le cloud public occidental a également du mal à traverser les frontières de la

Trois ans en compagnie de MongoDB (Part 2 - Joie)

janv. 10, 2019

Dans mon précédent article [https://blog.ippon.fr/2018/12/17/trois-ans-en-compagnie-de-mongodb-part-1-souffrance/] je me suis plaint des comportements de MongoDB qui m'ont fait souffrir. Dans cette deuxième partie je vous présente les points forts de MongoDB vus sous l'angle de mon expérience personnelle. Dans cet article

Trois ans en compagnie de MongoDB (Part 1 - Souffrance)

déc. 17, 2018

MongoDB et moi, nous avons fait un bon bout de chemin ensemble. Le projet sur lequel j'ai travaillé les 3 dernières années était construit autour de MongoDB. Durant ces 3 années, j'ai vu MongoDB évoluer de la version 2.6 à 3.6. Le projet n&