Spark

Total 10 Posts

L’opération merge de l’API Delta Lake, qui combine les opérations INSERT, UPDATE et…
Lire la suite


11 min read

21 Dec 2020

Quand on regarde la quantité de librairies open-source il est très rare de trouver, caché, des librairies impactant autant la manière de penser le “compute”. Une de ces librairies dont je voudrais vous parler aujourd’hui est Apache Arrow. Il est temps de la mettre en lumière !…
Lire la suite


6 min read

28 Oct 2020

Delta Lake apporte de nombreux avantages aux projets Data basés sur Spark. Il peut considérablement…
Lire la suite


6 min read

12 Oct 2020

Koalas est une librairie open source développée par Databricks annoncée en mars 2019. Elle implémente les API Pandas pour Apache Spark. Elle unifie les API Pandas et Spark afin de rendre efficace Pandas dans la jungle du Big Data.…
Lire la suite


8 min read

03 Feb 2020

Cette douce matinée de novembre s’annonce comme un matin de Noël : la preview de…
Lire la suite


6 min read

20 Dec 2019

Cluster permanent VS Cluster éphémère à la demande La démocratisation des services Cloud type “Hadoop…
Lire la suite


11 min read

16 Apr 2019

Contexte Notre client, spécialisé dans le marketing, dispose d'un historique de plusieurs centaines de millions…
Lire la suite


7 min read

29 Jun 2018

Après un premier article consacré au data lineage pour les Jobs Spark, nous continuons cette…
Lire la suite


10 min read

05 Apr 2018

Cet article présente un retour d’expérience sur une industrialisation de jobs Spark dans le…
Lire la suite


6 min read

22 Mar 2018

Cet article de blog présente une solution de Data Lineage nommé Spline qui permet de…
Lire la suite


7 min read

19 Feb 2018