Pré-requis

pas de pré-requis

Objectifs

  • Acquérir les bases de R, de son environnement et de saprogrammation
  • Maîtriser les packages spécialisés pour la préparation de données, la visualisation et la modélisation statistique

2 jours + 1 jour projet en option

10 personnes max

Présentiel ou à distance

1. Découvrir le langage R et son environnement

  • Présentation de R, des packages et du CRAN, de R Studio

  • Les autres environnements R : les notebooks (R Studio, Jupyter, Zeppelin, Beaker)

  • Installation de packages

2. Apprendre les bases de R

  • Structures de données, bases de programmation, structures de contrôle

  • Accès et lecture des données, utilisation des data frames

3. Préparer ces données

  • Utilisation des packages de préparation de données dont principalement dplyr, tidyr, lubridate

  • Filtrage, sélection, transformation, calcul, agrégation, jointure, sorties simples

4. Visualiser les données avec ggplot & ggvis

  • Utilisation de ces packages pour réaliser ungraphique

  • Revue simple des mises en forme

5. Réaliser des statistiques descriptives simples

  • Utilisation des fonctions de base de R

6. Apprentissage statistique avec caret

  • Revue des principales techniques d’apprentissage statistique

  • Élaboration d’un modèle Mise en place de pipelines Évaluation des modèles

7. Introduction à l’utilisation de Spark avec R (sparklyr)

  • Enjeu de l’utilisation de Spark

  • Présentation des concepts de Spark (v2.0+)

  • Illustration sur un exemple

Autres formations

  • Chef de Projet Data Gouvernance (H/F)

    Publié le 19 Jul. 2022

  • Lead Data Engineer (H/F)

    Publié le 19 Jul. 2022