Une nouvelle version de Spark vient de sortir hier. Elle apporte, notamment :
- l’API Dataset : proche de l’API RDD avec les avantages du moteur Spark SQL,
- des optimisations de performances pour les modules Core/SQL et Streaming,
- ainsi que de nouveaux algorithmes/modèles pour MLlib.
l’API Dataset est encore taguée expérimentale. Il est prévu après la 1.6 de changer l’API pour la lier à celle de Dataframe.
Vous trouverez la release note est disponible ici.
Vous souhaitez tout savoir du Big Data (architectures, solutions, freins et opportunités…) ? Découvrez notre livre blanc Big Data !