Les données de la cohorte E3N/E4N pour l'identification de grande tendance

Ref: 1SC4292

Description

  • Dans le cadre de cet enseignement d’intégration, nous proposons de mettre en œuvre des méthodes statistiques/machine learning pour répondre à des problématiques d’épidémiologie. En particulier, on s’intéressera aux données de la cohorte E3N/E4N (Etude Epidémiologique auprès de femmes de la MGEN), qui concernent donc des centaines de milliers de femmes (https://www.e4n.fr). Il s’agit donc ici d’un problème d’analyse statistique d’un jeu de données « Big Data » où l’on cherche à dégager des grandes tendances au niveau de la population à partir de données massives bruitées et incomplètes.  

  • Partenaire associé : INSERM

  • Lieu : Campus Paris-Saclay


Période(s) du cours

ST4

Prérequis

Cours de Statistique et Apprentissage

Composition du cours

Les élèves impliqués dans ce projet seront répartis en sous-groupes qui analyseront les données aux travers de différentes techniques. Les données et le problème étant fournis par des membres de l’INSERM, les étudiants seront amenés à les rencontrer à plusieurs reprises. Enfin, ils  auront à restituer leurs résultats devant l’ensemble des acteurs du projet (tous les élèves impliqués dans le projet, partenaires, encadrants).

Résultats de l'apprentissage couverts par le cours

À l'issue de ce cours, les élèves seront capables de définir, comprendre, choisir une méthode statistique/machine learning et de la mettre en œuvre en adéquation avec le problème posé.

Support de cours, bibliographie

The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Second Edition. February 2009. Springer.
https://web.stanford.edu/~hastie/Papers/ESLII.pdf