Objectif : Comprendre comment articuler les avantages d’un orchestrateur
autour de ses jobs Spark dans…
Lire la suite
11 min read
09 Jan 2023
Si vous avez correctement suivi le walkthrough Delta Lake & CDC
[https://blog.ippon.fr/2020/…
Lire la suite
13 min read
19 Sep 2022
Il m’arrive souvent de me lancer dans un débat sur l’API Dataset où…
Lire la suite
6 min read
23 Feb 2022
Delta Lake [https://delta.io/] nous offre le confort d’un niveau d’abstraction
similaire…
Lire la suite
7 min read
07 Feb 2022
Apprenez tout ce dont vous avez besoin pour passer la certification Apache Spark 3.0 Associate Developer de Databricks !…
Lire la suite
9 min read
18 Oct 2021
L’opération merge
[https://docs.databricks.com/delta/delta-update.html#upsert-into-a-table-using-merge]
de l’API Delta…
Lire la suite
11 min read
21 Dec 2020
Quand on regarde la quantité de librairies open-source il est très rare de trouver, caché, des librairies impactant autant la manière de penser le “compute”.
Une de ces librairies dont je voudrais vous parler aujourd’hui est Apache Arrow.
Il est temps de la mettre en lumière !…
Lire la suite
6 min read
28 Oct 2020
Delta Lake [https://docs.delta.io/latest/index.html] apporte de nombreux
avantages aux projets…
Lire la suite
6 min read
12 Oct 2020
Koalas est une librairie open source développée par Databricks annoncée en mars 2019. Elle implémente les API Pandas pour Apache Spark. Elle unifie les API Pandas et Spark afin de rendre efficace Pandas dans la jungle du Big Data.…
Lire la suite
8 min read
03 Feb 2020
Cette douce matinée de novembre s’annonce comme un matin de Noël : la preview de…
Lire la suite
6 min read
20 Dec 2019
Cluster permanent VS Cluster éphémère à la demande
La démocratisation des services Cloud type “Hadoop…
Lire la suite
11 min read
16 Apr 2019
Contexte
Notre client, spécialisé dans le marketing, dispose d'un historique de plusieurs
centaines de millions…
Lire la suite
7 min read
29 Jun 2018
Après un premier article consacré au data lineage pour les Jobs Spark
[https://blog.ippon.…
Lire la suite
10 min read
05 Apr 2018
Cet article présente un retour d’expérience sur une industrialisation de jobs
Spark dans le…
Lire la suite
6 min read
22 Mar 2018
Cet article de blog présente une solution de Data Lineage nommé Spline
[https://absaoss.github.…
Lire la suite
7 min read
19 Feb 2018