1. Revoir les principales notions des Big Data et des technologies associées, dont Hadoop
Zoom sur l’OpenSource DataScience
2. Mettre en place son environnement de travail
Installations des outils Open Source, notebooks, gestionnaires de code source, connecteurs, etc.
3. Accéder aux sources et préparer ses données
Accès aux fichiers, bases de données, clustersHadoop
Préparation des données &création de variables (feature engineering), revue des tricks de transformation
Zoom sur les approches spécifiques au text mining
4. Utiliser les nouveaux algorithmes d’apprentissage statistique
Apprentissage supervisé : rappel des principes
Présentation des techniques, usage en grandes dimensions (SVM, bagging & boosting : Random Forest, XGBoost, etc.)
Évaluation & validation de la performance des méthodes (validationcroisée)
Méthode d’optimisation des modèles et de leurs hyperparamètres (grid search)
Apprentissage non supervisé: rappel des principes
Présentation des techniques
Introduction au deep learning
5. Découvrir les nouveaux outils de restitution & visualisation
Développement rapide et prototypage (R-Shiny, Bokeh, etc.)
Découvrir les nouveaux outils commerciaux
Contenu actualisé (Trifacta,Dataiku)