Apprentissage par renforcement
Ref: 3SQ2040
Description
L'apprentissage par renforcement est un domaine de l'intelligence artificielle qui traite les méthodes qui permettent pour apprendre par essais et erreurs. L'apprentissage par essais et erreur est non seulement la stratégie utilisée par tous les êtres vivants mais également celle qui permet de résoudre efficacement plusieurs problèmes difficiles et importants:
- comment apprendre à un ordinateur à jouer aux échecs ou au jeu de go et battre les meilleurs joueurs humains ?
- comment apprendre à des robots a se mouvoir dans un environnement imprévu, éviter les obstacles et atteindre des cibles ?
- comment recommander automatiquement des contenus (livres, films, vidéos etc.) a des millions de clients, afin que chacun obtienne des recommandations qui l'intéresse ?
Le but de ce cours est de donner une introduction à ce domaine a la fois fascinant et en pleine expansion: des modèles mathématiques, en passant par les algorithmes, leur performance théorique et numérique, ainsi que leur implémentation pratique.
- comment apprendre à un ordinateur à jouer aux échecs ou au jeu de go et battre les meilleurs joueurs humains ?
- comment apprendre à des robots a se mouvoir dans un environnement imprévu, éviter les obstacles et atteindre des cibles ?
- comment recommander automatiquement des contenus (livres, films, vidéos etc.) a des millions de clients, afin que chacun obtienne des recommandations qui l'intéresse ?
Le but de ce cours est de donner une introduction à ce domaine a la fois fascinant et en pleine expansion: des modèles mathématiques, en passant par les algorithmes, leur performance théorique et numérique, ainsi que leur implémentation pratique.
Période(s) du cours
SM11
Prérequis
Cours de première année de probabilités et statistiques. Niveau basique de programmation en Python.
Syllabus
Cours 1:
Partie 1: Modèle général de l'apprentissage par renforcement: états, actions, récompenses, exemples d'applications.
Partie 2: Problèmes de Bandits I: définitions, récompenses stochastiques vs adversarielles, algorithme EXP3.
Cours 2:
Partie 1: Problèmes de Bandits II: borne de Lai-Robbins, algorithme Upper Confidence Bound, algorithme Thompson sampling, problèmes structurés.
Partie 2: Problèmes de Bandits III: implémentation en Python et performance en pratique.
Cours 3:
Partie 1: Processus de Décision Markoviens I: définitions, équation de Bellman, calcul des politiques optimales.
Partie 2: Processus de Décision Markoviens II: résoudre les Processus de Décision Markoviens en ligne, algorithme Q-learning et plus.
Cours 4:
Partie 1: Processus de Décision Markoviens III: fléau de la dimension , approximation de fonctions valeur, gradient de politique .
Partie 2: Processus de Décision Markoviens IV: implémentation en Python et performance en pratique.
Partie 1: Modèle général de l'apprentissage par renforcement: états, actions, récompenses, exemples d'applications.
Partie 2: Problèmes de Bandits I: définitions, récompenses stochastiques vs adversarielles, algorithme EXP3.
Cours 2:
Partie 1: Problèmes de Bandits II: borne de Lai-Robbins, algorithme Upper Confidence Bound, algorithme Thompson sampling, problèmes structurés.
Partie 2: Problèmes de Bandits III: implémentation en Python et performance en pratique.
Cours 3:
Partie 1: Processus de Décision Markoviens I: définitions, équation de Bellman, calcul des politiques optimales.
Partie 2: Processus de Décision Markoviens II: résoudre les Processus de Décision Markoviens en ligne, algorithme Q-learning et plus.
Cours 4:
Partie 1: Processus de Décision Markoviens III: fléau de la dimension , approximation de fonctions valeur, gradient de politique .
Partie 2: Processus de Décision Markoviens IV: implémentation en Python et performance en pratique.
Composition du cours
Cours magistraux + programmation en Python.
Ressources
Cours magistraux + programmation en Python.
Résultats de l'apprentissage couverts par le cours
A l'issue de ce cours, les étudiants maîtriseront les algorithmes principaux de l'apprentissage par renforcement. Ils comprendront leur garanties théoriques de performance, ainsi que comment les implémenter et leur performance pratique.
Support de cours, bibliographie
Notes de cours