févr. 23, 2022
Il m’arrive souvent de me lancer dans un débat sur l’API Dataset où je défends
la thèse qu’il ne faut surtout pas l’utiliser dans les projets Spark. Je
constate qu’il y a souvent une mauvaise compréhension de la manière dont cette
API fonctionne et certaines
Lire la suite...
févr. 07, 2022
Delta Lake [https://delta.io/] nous offre le confort d’un niveau d’abstraction
similaire à celui d’une BDD relationnelle. En retrouvant nos vieilles habitudes
du monde SQL, nous avons tendance à ne plus prendre en considération la façon
dont les données sont stockées dans des fichiers, alors que
Lire la suite...
déc. 21, 2020
L’opération merge
[https://docs.databricks.com/delta/delta-update.html#upsert-into-a-table-using-merge]
de l’API Delta Lake, qui combine les opérations INSERT, UPDATE et DELETE,
permet de réduire sensiblement votre effort cognitif lorsque vous avez besoin de
développer un pipeline d’alimentation d’une table Delta Lake par CDC (Change
Data
Lire la suite...
oct. 12, 2020
Delta Lake [https://docs.delta.io/latest/index.html] apporte de nombreux
avantages aux projets Data basés sur Spark. Il peut considérablement simplifier
vos workflows grâce aux opérations UPDATE, DELETE et MERGE. Il permet également
de rendre vos pipelines plus robustes grâce aux transactions ACID et au schema
enforcement. Néanmoins,
Lire la suite...
oct. 14, 2019
La toute nouvelle certification
[https://academy.databricks.com/exam/crt020-scala] de développeur Spark de
Databricks [https://databricks.com/] (CRT020: Databricks Certified Associate
Developer for Apache Spark 2.4 with Scala 2.11 – Assessment) est disponible
depuis le 1er août 2019. Ayant obtenu cette certification récemment, je vous
partage maintenant mon
Lire la suite...
oct. 07, 2019
La construction d'un Data Warehouse est assez similaire au développement d'une
application comprenant une BDD relationnelle comme couche de persistance d'un
point de vue projet. Vous avez autant (voire plus) de contraintes qui
nécessitent une automatisation de la gestion du cycle de vie du
Lire la suite...
sept. 16, 2019
Problématique
En intervenant sur différents projets Spark (parfois en mode “pompier”) et en
recueillant les témoignages de mes collègues, j’ai constaté que les principales
causes d'échec sont :
* le faible niveau de compréhension du fonctionnement de cet outil et des
contraintes de traitement distribué,
* le manque d’industrialisation
Lire la suite...
janv. 25, 2019
En 1986 les Français ont été surpris d'apprendre que le nuage radioactif en
provenance de l'URSS s'était arrêté à la frontière de leur pays. Aujourd'hui, on
constate que le cloud public occidental a également du mal à traverser les
frontières de la
Lire la suite...
janv. 10, 2019
Dans mon précédent article
[http://blog.ippon.fr/2018/12/17/trois-ans-en-compagnie-de-mongodb-part-1-souffrance/]
je me suis plaint des comportements de MongoDB qui m'ont fait souffrir. Dans
cette deuxième partie je vous présente les points forts de MongoDB vus sous
l'angle de mon expérience personnelle.
Dans cet article
Lire la suite...
déc. 17, 2018
MongoDB et moi, nous avons fait un bon bout de chemin ensemble. Le projet sur
lequel j'ai travaillé les 3 dernières années était construit autour de MongoDB.
Durant ces 3 années, j'ai vu MongoDB évoluer de la version 2.6 à 3.6. Le projet
n&
Lire la suite...