1. Découvrir le langage R et son environnement
Présentation de R, des packages et du CRAN, de R Studio
Les autres environnements R : les notebooks (R Studio, Jupyter, Zeppelin, Beaker)
2. Apprendre les bases de R
Structures de données, bases de programmation, structures de contrôle
Accès et lecture des données, utilisation des data frames
3. Préparer ces données
Utilisation des packages de préparation de données dont principalement dplyr, tidyr, lubridate
Filtrage, sélection, transformation, calcul, agrégation, jointure, sorties simples
4. Visualiser les données avec ggplot & ggvis
Utilisation de ces packages pour réaliser ungraphique
Revue simple des mises en forme
5. Réaliser des statistiques descriptives simples
Utilisation des fonctions de base de R
6. Apprentissage statistique avec caret
Revue des principales techniques d’apprentissage statistique
Élaboration d’un modèle Mise en place de pipelines Évaluation des modèles
7. Introduction à l’utilisation de Spark avec R (sparklyr)
Enjeu de l’utilisation de Spark
Présentation des concepts de Spark (v2.0+)
Illustration sur un exemple