1. Découvrir Apache Spark et comprendre ses principes
Origine et évolution de Spark (v2 & v3)
Architecture, composants et principe de distribution
Introduction des modes de déploiement (standalone,en cluster seul ou avec un gestionnaire, services Cloud)
Présentation des différents modules (Spark SQL, MLlib,Streaming, etc.)
Environnements pour utiliser Spark
2. Connaître et utiliser les différentes structures de données
Comparaison des différentes structures de données (DataFrames, Datasets, RDD)
Accumulateurs et variables diffusées (broadcast)
Gestion de la distribution des données (partitions)
3. Manipuler les données avec Spark &Spark SQL
Accès aux données, revue des différentes sources supportées
Pratique des transformations types : calcul, renommage, sélection, projection, jointure agrégation, etc.
Ecriture en syntaxe SQL ou fonctionnelle
4. Modéliser avec SparkMLLib
Revue de techniques d’apprentissage disponibles (supervisé et non supervisé)
Création de variables (feature engineering), recodage
Constitution de pipeline de traitement
5. Déployer des traitements en production
Revue des options pour l’industrialisation de traitement avec Spark