Statistique
Ref: 3MD1040
Description
Stat A : Dans ce cours théorique, nous nous intéresserons à l'estimation en grande dimension (lorsque le nombre de variables explicatives et supérieur au nombre d'observation) à l'aide de méthodes régularisées dans des modèles de régression (linéaire, non-linéaire, linéaire généralisé). Nous étudierons les garanties théoriques de l'estimateur Lasso dans ces différents modèles. Enfin nous présenterons des variants du Lasso adaptés à différents cas d'application.
Stat B: Dans ce cours plus méthodologique que théorique, nous proposons quelques prolongements au cours de 1ère année. Estimation non-paramétrique d'une densité, méthodes de ré-échantillonage, régression non-paramétrique.
Période(s) du cours
SD9
Prérequis
Les élèves doivent avoir une bonne connaissance des concepts de base des probabilités et de statistique.
Stat A : les élèves devront avoir vues les notions suivantes :
- modèle de régression linéaire
- estimation paramétrique et non paramétrique (estimateur du maximum de vraisemblance, estimateur des moindres carrés, étude du risque d'un estimateur)
Stat B : les élèves doivent avoir assimilé un cours de d'introduction aux statistiques incluant les notions de modèles statistiques, d'estimateurs, de test, tel que le cours de première année "Statistiques et Apprentissage".
Syllabus
Stat A:
- Méthodes pénalisées
- Etude théorique de l'estimateur Lasso dans un modèle de régression linéaire
- Etude théorique de l'estimateur Lasso dans un modèle de régression non-linéaire
- Modèle linéaire généralisé et Lasso
- Les variants du Lasso
Stat B:
- Introduction et rappels- Estimation non paramétrique d'une distribution (Glivenko-Cantelli, histogrammes et estimateurs à noyau, sélection de la largeur de bande, validation croisée)
- Méthode Bootstrap (justification et quelques estimateurs boostrap), prédiction conforme.
- Régression linéaire (rappels)
- Régression non paramétrique (estimation par noyau, estimations par projection, validation croisée)
Composition du cours
Des notes de cours, ainsi que les sujets et corrigés des TD, sont disponibles sur les sites web de l’équipe pédagogique (Edunao).
Le cours est organisé en 7 séances de 3h, les séances étant en général composées de 1h30 de cours en amphi et 1h30 de TD en petits groupes.
Pour Stat B: les TD pourront comporter une partie numérique, qui requièrt un ordinateur personnel avec le logiciel R installé.
Ressources
Equipe pédagogique : Sarah Lemler (Stat A) et Gilles Faÿ (Stat B)
Résultats de l'apprentissage couverts par le cours
A la fin de cours, les élèves doivent être capables d'appliquer les méthodes statistiques étudiées en connaissant leurs limites et les garanties théoriques les concernant.
Support de cours, bibliographie
Pour StatA:
- Linear models in statistics, Rencher, A.C., and Schaalje G.B., John Wiley & Sons, 2008.
- Introduction to Nonparametric Estimation,Tsybakov, A. B., & Tsybakov, A. B., Springer, 2009.
- Statistics for high-dimensional data: methods, theory and applications, Bühlmann, P. and Van De Geer, S., Springer Science & Business Media, 2011.
Pour StatB:
- All of Statistics & All of Nonparamatric Statistics, L. Wasserman, Springer, 2003, 2006 .
- Elements of Statistical Learning, T. Hastie, R. Tibshirani, J. Friedman, Springer. 2009
- Asymptotic statistics. A. Van der Vaart, Cambridge university press, 2000.