Objectif : Comprendre comment articuler les avantages d’un orchestrateur autour de ses jobs Spark dans…
Lire la suite
11 min read
09 Jan 2023
Si vous avez correctement suivi le walkthrough Delta Lake & CDC, vous pouvez désormais reconstituer…
Lire la suite
13 min read
19 Sep 2022
IntroductionQui n’a pas entendu parler des NFT en 2022 ? Véritable phénomène qui a explosé…
Lire la suite
18 min read
11 Jul 2022
Il m’arrive souvent de me lancer dans un débat sur l’API Dataset où…
Lire la suite
6 min read
23 Feb 2022
Delta Lake nous offre le confort d’un niveau d’abstraction similaire à celui d’…
Lire la suite
7 min read
07 Feb 2022
Apprenez tout ce dont vous avez besoin pour passer la certification Apache Spark 3.0 Associate Developer de Databricks !…
Lire la suite
9 min read
18 Oct 2021
L’opération merge de l’API Delta Lake, qui combine les opérations INSERT, UPDATE et…
Lire la suite
11 min read
21 Dec 2020
Quand on regarde la quantité de librairies open-source il est très rare de trouver, caché, des librairies impactant autant la manière de penser le “compute”. Une de ces librairies dont je voudrais vous parler aujourd’hui est Apache Arrow. Il est temps de la mettre en lumière !…
Lire la suite
6 min read
28 Oct 2020
Delta Lake apporte de nombreux avantages aux projets Data basés sur Spark. Il peut considérablement…
Lire la suite
6 min read
12 Oct 2020
Koalas est une librairie open source développée par Databricks annoncée en mars 2019. Elle implémente les API Pandas pour Apache Spark. Elle unifie les API Pandas et Spark afin de rendre efficace Pandas dans la jungle du Big Data.…
Lire la suite
8 min read
03 Feb 2020
Cette douce matinée de novembre s’annonce comme un matin de Noël : la preview de…
Lire la suite
6 min read
20 Dec 2019
Cluster permanent VS Cluster éphémère à la demande La démocratisation des services Cloud type “Hadoop…
Lire la suite
11 min read
16 Apr 2019
Contexte Notre client, spécialisé dans le marketing, dispose d'un historique de plusieurs centaines de millions…
Lire la suite
7 min read
29 Jun 2018
Après un premier article consacré au data lineage pour les Jobs Spark, nous continuons cette…
Lire la suite
10 min read
05 Apr 2018
Cet article présente un retour d’expérience sur une industrialisation de jobs Spark dans le…
Lire la suite
6 min read
22 Mar 2018