La vidéo du Meetup Hadoop User Groupe – Record Linkage, un cas d’utilisation en Spark ML par Alexis Seigneurin qui a collaboré avec les équipes de Pascale MKHAEL (Data Software Engineering Manager chez AXA )
Le Record Linkage est le process qui consiste à trouver, dans un data set, les enregistrements qui représentent la même entité. Cette opération est particulièrement compliquée quand, comme nous, vous travaillez avec des données anonymisées. C’est là que le Machine Learning vient en renfort ! Nous avons implémenté un algorithme de Record Linkage en Spark SQL (DataFrames) et Spark ML plutôt que d’utiliser des règles statiques. Nous verrons le process de Feature Engineering, pourquoi nous avons dû étendre Spark DataFrames pour préserver des méta-données au travers du pipeline de traitement, et comment nous avons utilisé le Machine Learning pour réconcilier les enregistrements. Nous verrons enfin comment nous avons industrialisé cette application.
Retrouvez notre équipe Data au Salon du Big Data le 7 et 8 Mars – Stand 501
Si vous avez déjà des questions, prenez rendez vous avec nos Experts : marketing@ippon.fr