Quand on regarde la quantité de librairies open-source il est très rare de trouver, caché, des librairies impactant autant la manière de penser le “compute”. Une de ces librairies dont je voudrais vous parler aujourd’hui est Apache Arrow. Il est temps de la mettre en lumière !…
Lire la suite

Rémy Olivet

Data

6 min read

28 oct. 2020

Delta Lake et AWS : mariage forcé

Delta Lake [https://docs.delta.io/latest/index.html] apporte de nombreux avantages aux projets…
Lire la suite

Boris Perevalov

Data

6 min read

12 oct. 2020

Koalas, quand Spark déclare sa flamme à Pandas !

Koalas est une librairie open source développée par Databricks annoncée en mars 2019. Elle implémente les API Pandas pour Apache Spark. Elle unifie les API Pandas et Spark afin de rendre efficace Pandas dans la jungle du Big Data.…
Lire la suite

Rémy Olivet

Data

8 min read

03 févr. 2020

Spark 3.0 : Évolution ou révolution ?

Cette douce matinée de novembre s’annonce comme un matin de Noël : la preview de…
Lire la suite

Lucas Landry

Data

6 min read

20 déc. 2019

Cluster Spark éphémère avec Terraform et AWS EMR

Cluster permanent VS Cluster éphémère à la demande La démocratisation des services Cloud type “Hadoop…
Lire la suite

Lucien Fregosi

Data

11 min read

16 avr. 2019

Comment structurer un dataset client à l’aide de la théorie des graphes pour la prédiction d’achat : retour d’expérience

Contexte Notre client, spécialisé dans le marketing, dispose d'un historique de plusieurs centaines de millions…
Lire la suite

Stéphane Trou

Data

7 min read

29 juin 2018

Métriques et Logs sur Apache Spark

Après un premier article consacré au data lineage pour les Jobs Spark [https://blog.ippon.…
Lire la suite

Lucien Fregosi

Data

10 min read

05 avr. 2018

REX - Industrialisation de jobs Spark dans le cadre d'un datalake

Cet article présente un retour d’expérience sur une industrialisation de jobs Spark dans le…
Lire la suite

Nicolas Martin

Data

6 min read

22 mars 2018