Il s’agit d’une formation certifiante à trois niveaux (de 16 heure chacun, soit un total de 48h) qui a pour objectif d’acquérir les compétences nécessaires à la compréhension des méthodes d’analyses statistiques des données ainsi qu’à leur exécution par l’utilisation du langage R et leur interprétation.
Spécifiquement à l’issue de cette formation les apprenants seront capables de :
- Faire le choix de la ou des techniques statistiques appropriées selon la nature des données et l’objectif de l’étude
- Exécuter les analyses statistiques en utilisant le langage R, en développant leurs propres scripts ou en utilisant des scripts disponibles dans les ressources documentaires ou en ligne (Github, Scribbr, DataCamp..)
- Interpréter les résultats de manières correctes et
- Produire des rapports de synthèse d’un niveau professionnel
Niveau 2 :
Les principes analyses statistiques multivariés et leurs domaines d’utilisation :
Les deux grandes familles de modélisation (statistique et algorithmique)
Concepts de classification supervisée et non-supervisée, la théorie du modèle linéaire et modèle linéaire généralisé (GLM)
L’ANOVA a plusieurs facteurs (croisés, hiérarchisés,..)
Validation et diagnostic des modèles
Sélection de modèles (méthodes progressives, LARS)
Calculs de performance d’un modèle de prédiction (sensibilité, spécificité, précision, AUC, MSE,..)
Théorie de l’Analyse en Composantes Principales (ACP)
L’Analyse Factorielles des Correspondances (AFC)
Classification hiérarchique (Clustering)
Classification K-means
L’analyse discriminante linéaire (ADL)
Les analyses statistiques multivariés avec le langage R
Exécution sous R des différentes analyses et interprétation des sorties : régression linéaire multiple
Régression logistique
Anova a plusieurs facteurs
Régression pas à pas
ACP, AFC, Clustering, K-means, ADL