Spark

Total 17 Posts

Présentation de DuckDB, SGBD novateur aux multiples avantages. Celui-ci a eu le droit a une conférence en mars présentant les nouveautés à venir, ainsi que les cas d'usages de quelques utilisateurs.…
Lire la suite


12 min read

31 mai 2024

Foundry est bien plus qu'une simple plateforme d'analyse de données. C&…
Lire la suite


5 min read

23 févr. 2024

‌‌Objectif : Comprendre comment articuler les avantages d’un orchestrateur autour de ses jobs Spark dans…
Lire la suite


11 min read

09 janv. 2023

Si vous avez correctement suivi le walkthrough Delta Lake & CDC [http://blog.ippon.fr/…
Lire la suite


13 min read

19 sept. 2022

Il m’arrive souvent de me lancer dans un débat sur l’API Dataset où…
Lire la suite


6 min read

23 févr. 2022

Delta Lake [https://delta.io/] nous offre le confort d’un niveau d’abstraction similaire…
Lire la suite


7 min read

07 févr. 2022

Apprenez tout ce dont vous avez besoin pour passer la certification Apache Spark 3.0 Associate Developer de Databricks !…
Lire la suite


9 min read

18 oct. 2021

L’opération merge [https://docs.databricks.com/delta/delta-update.html#upsert-into-a-table-using-merge] de l’API Delta…
Lire la suite


11 min read

21 déc. 2020

Quand on regarde la quantité de librairies open-source il est très rare de trouver, caché, des librairies impactant autant la manière de penser le “compute”. Une de ces librairies dont je voudrais vous parler aujourd’hui est Apache Arrow. Il est temps de la mettre en lumière !…
Lire la suite


6 min read

28 oct. 2020

Delta Lake [https://docs.delta.io/latest/index.html] apporte de nombreux avantages aux projets…
Lire la suite


6 min read

12 oct. 2020

Koalas est une librairie open source développée par Databricks annoncée en mars 2019. Elle implémente les API Pandas pour Apache Spark. Elle unifie les API Pandas et Spark afin de rendre efficace Pandas dans la jungle du Big Data.…
Lire la suite


8 min read

03 févr. 2020

Cette douce matinée de novembre s’annonce comme un matin de Noël : la preview de…
Lire la suite


6 min read

20 déc. 2019

Cluster permanent VS Cluster éphémère à la demande La démocratisation des services Cloud type “Hadoop…
Lire la suite


11 min read

16 avr. 2019

Contexte Notre client, spécialisé dans le marketing, dispose d'un historique de plusieurs centaines…
Lire la suite


7 min read

29 juin 2018

Après un premier article consacré au data lineage pour les Jobs Spark [http://blog.ippon.…
Lire la suite


10 min read

05 avr. 2018