Spark

Total 16 Posts

Premiers pas avec Foundry

Foundry est bien plus qu'une simple plateforme d'analyse de données. C&…
Lire la suite

Léa CAVAREE

DATA

5 min read

23 févr. 2024

Orchestrer vos jobs Spark avec Amazon EMR et Airflow

‌‌Objectif : Comprendre comment articuler les avantages d’un orchestrateur autour de ses jobs Spark dans…
Lire la suite

Louis de Thorey

DATA

11 min read

09 janv. 2023

Delta Lake & CDC : Historisation de données

Si vous avez correctement suivi le walkthrough Delta Lake & CDC [https://blog.ippon.fr/…
Lire la suite

Nicolas Achereiner

Nicolas Achereiner

DATA

13 min read

19 sept. 2022

Spark : Dataset c'est mal

Il m’arrive souvent de me lancer dans un débat sur l’API Dataset où…
Lire la suite

Boris Perevalov

Boris Perevalov

DATA

6 min read

23 févr. 2022

Delta Lake : la taille compte

Delta Lake nous offre le confort d’un niveau d’abstraction similaire à celui d’…
Lire la suite

Boris Perevalov

Boris Perevalov

DATA

7 min read

07 févr. 2022

Passer la certification: Databricks Certified Associate Developer for Apache Spark 3.0

Apprenez tout ce dont vous avez besoin pour passer la certification Apache Spark 3.0 Associate Developer de Databricks !…
Lire la suite

Nicolas Guary

Spark

9 min read

18 oct. 2021

Delta Lake & CDC : Walkthrough

L’opération merge [https://docs.databricks.com/delta/delta-update.html#upsert-into-a-table-using-merge] de l’API Delta…
Lire la suite

Boris Perevalov

Boris Perevalov

DATA

11 min read

21 déc. 2020

Apache Arrow : étincelant dans l’ombre

Quand on regarde la quantité de librairies open-source il est très rare de trouver, caché, des librairies impactant autant la manière de penser le “compute”. Une de ces librairies dont je voudrais vous parler aujourd’hui est Apache Arrow. Il est temps de la mettre en lumière !…
Lire la suite

Rémy Olivet

DATA

6 min read

28 oct. 2020

Delta Lake et AWS : mariage forcé

Delta Lake apporte de nombreux avantages aux projets Data basés sur Spark. Il peut considérablement…
Lire la suite

Boris Perevalov

Boris Perevalov

DATA

6 min read

12 oct. 2020

Koalas, quand Spark déclare sa flamme à Pandas !

Koalas est une librairie open source développée par Databricks annoncée en mars 2019. Elle implémente les API Pandas pour Apache Spark. Elle unifie les API Pandas et Spark afin de rendre efficace Pandas dans la jungle du Big Data.…
Lire la suite

Rémy Olivet

DATA

8 min read

03 févr. 2020

Spark 3.0 : Évolution ou révolution ?

Cette douce matinée de novembre s’annonce comme un matin de Noël : la preview de…
Lire la suite

Lucas Landry

DATA

6 min read

20 déc. 2019

Cluster Spark éphémère avec Terraform et AWS EMR

Cluster permanent VS Cluster éphémère à la demande La démocratisation des services Cloud type “Hadoop…
Lire la suite

Lucien Fregosi

DATA

11 min read

16 avr. 2019

Comment structurer un dataset client à l’aide de la théorie des graphes pour la prédiction d’achat : retour d’expérience

Contexte Notre client, spécialisé dans le marketing, dispose d'un historique de plusieurs centaines…
Lire la suite

DATA

7 min read

29 juin 2018

Métriques et Logs sur Apache Spark

Après un premier article consacré au data lineage pour les Jobs Spark, nous continuons cette…
Lire la suite

Lucien Fregosi

DATA

10 min read

05 avr. 2018

REX - Industrialisation de jobs Spark dans le cadre d'un datalake

Cet article présente un retour d’expérience sur une industrialisation de jobs Spark dans le…
Lire la suite

Nicolas Martin

DATA

6 min read

22 mars 2018