Foundry est bien plus qu'une simple plateforme d'analyse de données. C&…
Lire la suite
5 min read
23 févr. 2024
Objectif : Comprendre comment articuler les avantages d’un orchestrateur
autour de ses jobs Spark dans…
Lire la suite
11 min read
09 janv. 2023
Si vous avez correctement suivi le walkthrough Delta Lake & CDC
[http://blog.ippon.fr/…
Lire la suite
13 min read
19 sept. 2022
Il m’arrive souvent de me lancer dans un débat sur l’API Dataset où…
Lire la suite
6 min read
23 févr. 2022
Delta Lake [https://delta.io/] nous offre le confort d’un niveau d’abstraction
similaire…
Lire la suite
7 min read
07 févr. 2022
Apprenez tout ce dont vous avez besoin pour passer la certification Apache Spark 3.0 Associate Developer de Databricks !…
Lire la suite
9 min read
18 oct. 2021
L’opération merge
[https://docs.databricks.com/delta/delta-update.html#upsert-into-a-table-using-merge]
de l’API Delta…
Lire la suite
11 min read
21 déc. 2020
Quand on regarde la quantité de librairies open-source il est très rare de trouver, caché, des librairies impactant autant la manière de penser le “compute”.
Une de ces librairies dont je voudrais vous parler aujourd’hui est Apache Arrow.
Il est temps de la mettre en lumière !…
Lire la suite
6 min read
28 oct. 2020
Delta Lake [https://docs.delta.io/latest/index.html] apporte de nombreux
avantages aux projets…
Lire la suite
6 min read
12 oct. 2020
Koalas est une librairie open source développée par Databricks annoncée en mars 2019. Elle implémente les API Pandas pour Apache Spark. Elle unifie les API Pandas et Spark afin de rendre efficace Pandas dans la jungle du Big Data.…
Lire la suite
8 min read
03 févr. 2020
Cette douce matinée de novembre s’annonce comme un matin de Noël : la preview de…
Lire la suite
6 min read
20 déc. 2019
Cluster permanent VS Cluster éphémère à la demande
La démocratisation des services Cloud type “Hadoop…
Lire la suite
11 min read
16 avr. 2019
Contexte
Notre client, spécialisé dans le marketing, dispose d'un historique de plusieurs
centaines…
Lire la suite
7 min read
29 juin 2018
Après un premier article consacré au data lineage pour les Jobs Spark
[http://blog.ippon.…
Lire la suite
10 min read
05 avr. 2018
Cet article présente un retour d’expérience sur une industrialisation de jobs
Spark dans le…
Lire la suite
6 min read
22 mars 2018