Pré-requis

Pratique de Python & de SQL, familiarité avec le machine learning

Objectifs

  • Maîtriser les principes de traitement de Spark et son architecture
  • Développer des traitements distribués avec Spark
  • Connaître les techniques de modélisation distribuées de Spark et construire des pipeline d’apprentissage et de prédiction
  • Découvrir le traitement des données en flux avec Spark Streaming
  • Connaître les modes d’industrialisation des traitements Spark

1 jour de formation + 1 jour d’atelier

10 personnes max

Présentiel ou à distance

1. Découvrir Apache Spark et comprendre ses principes

  • Origine et évolution de Spark (v2 & v3)

  • Architecture, composants et principe de distribution

  • Introduction des modes de déploiement (standalone,en cluster seul ou avec un gestionnaire, services Cloud)

  • Présentation des différents modules (Spark SQL, MLlib,Streaming, etc.)

  • Environnements pour utiliser Spark

2. Connaître et utiliser les différentes structures de données

  • Comparaison des différentes structures de données (DataFrames, Datasets, RDD)

  • Accumulateurs et variables diffusées (broadcast)

  • Gestion de la distribution des données (partitions)

3. Manipuler les données avec Spark &Spark SQL

  • Accès aux données, revue des différentes sources supportées

  • Pratique des transformations types : calcul, renommage, sélection, projection, jointure agrégation, etc.

  • Ecriture en syntaxe SQL ou fonctionnelle

4. Modéliser avec SparkMLLib

  • Revue de techniques d’apprentissage disponibles (supervisé et non supervisé)

  • Création de variables (feature engineering), recodage

  • Evaluation des modèles

  • Constitution de pipeline de traitement

5. Déployer des traitements en production

  • Revue des options pour l’industrialisation de traitement avec Spark

Autres formations

  • Chef de Projet Data Gouvernance (H/F)

    Publié le 19 Jul. 2022

  • Lead Data Engineer (H/F)

    Publié le 19 Jul. 2022