Les données de la cohorte E3N/E4N pour l'identification de grande tendance
Ref: 1SC4292
Description
-
Dans le cadre de cet enseignement d’intégration, nous proposons de mettre en œuvre des méthodes statistiques/machine learning pour répondre à des problématiques d’épidémiologie. En particulier, on s’intéressera aux données de la cohorte E3N/E4N (Etude Epidémiologique auprès de femmes de la MGEN), qui concernent donc des centaines de milliers de femmes (https://www.e4n.fr). Il s’agit donc ici d’un problème d’analyse statistique d’un jeu de données « Big Data » où l’on cherche à dégager des grandes tendances au niveau de la population à partir de données massives bruitées et incomplètes.
-
Partenaire associé : INSERM
-
Lieu : Campus Paris-Saclay
Période(s) du cours
ST4
Prérequis
Cours de Statistique et Apprentissage
Composition du cours
Les élèves impliqués dans ce projet seront répartis en sous-groupes qui analyseront les données aux travers de différentes techniques.
Les données et le problème étant fournis par des membres de l’INSERM, les étudiants seront amenés à les rencontrer à plusieurs reprises. Enfin, ils auront à restituer leurs résultats devant l’ensemble des acteurs du projet (tous les élèves impliqués dans le projet, partenaires, encadrants).
Résultats de l'apprentissage couverts par le cours
À l'issue de ce cours, les élèves seront capables de définir, comprendre, choisir une méthode statistique/machine learning et de la mettre en œuvre en adéquation avec le problème posé.
Support de cours, bibliographie
The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Second Edition. February 2009. Springer.
https://web.stanford.edu/~hastie/Papers/ESLII.pdf