Apprentissage par renforcement

Ref: 3SQ2040

Description

L'apprentissage par renforcement est un domaine de l'intelligence artificielle qui traite les méthodes qui permettent pour apprendre par essais et erreurs. L'apprentissage par essais et erreur est non seulement la stratégie utilisée par tous les êtres vivants mais également celle qui permet de résoudre efficacement plusieurs problèmes difficiles et importants:
- comment apprendre à un ordinateur à jouer aux échecs ou au jeu de go et battre les meilleurs joueurs humains ?
- comment apprendre à des robots a se mouvoir dans un environnement imprévu, éviter les obstacles et atteindre des cibles ?
- comment recommander automatiquement des contenus (livres, films, vidéos etc.) a des millions de clients, afin que chacun obtienne des recommandations qui l'intéresse ?
Le but de ce cours est de donner une introduction à ce domaine a la fois fascinant et en pleine expansion: des modèles mathématiques, en passant par les algorithmes, leur performance théorique et numérique, ainsi que leur implémentation pratique.

Période(s) du cours

SM11

Prérequis

Cours de première année de probabilités et statistiques. Niveau basique de programmation en Python.

Syllabus

Cours 1:
   Partie 1: Modèle général de l'apprentissage par renforcement: états, actions, récompenses, exemples d'applications.
   Partie 2: Problèmes de Bandits I: définitions, récompenses stochastiques vs adversarielles, algorithme EXP3.
Cours 2:
   Partie 1: Problèmes de Bandits II: borne de Lai-Robbins, algorithme Upper Confidence Bound, algorithme Thompson sampling, problèmes structurés.
   Partie 2: Problèmes de Bandits III: implémentation en Python et performance en pratique.
Cours 3:
   Partie 1: Processus de Décision Markoviens I: définitions, équation de Bellman, calcul des politiques optimales.
   Partie 2: Processus de Décision Markoviens II: résoudre les Processus de Décision Markoviens en ligne, algorithme Q-learning et plus.
Cours 4:
   Partie 1: Processus de Décision Markoviens III: fléau de la dimension , approximation de fonctions valeur, gradient de politique .
   Partie 2: Processus de Décision Markoviens IV: implémentation en Python et performance en pratique.

Composition du cours

Cours magistraux + programmation en Python.

Ressources

Cours magistraux + programmation en Python.

Résultats de l'apprentissage couverts par le cours

A l'issue de ce cours, les étudiants maîtriseront les algorithmes principaux de l'apprentissage par renforcement. Ils comprendront leur garanties théoriques de performance, ainsi que comment les implémenter et leur performance pratique.

Support de cours, bibliographie

Notes de cours

Responsable(s) :

Richard Combes

Langues du cours :

ANGLAIS

Nombre d'heure :

40 h

Nombre d'heure sur site :

21 h

Année académique :

2024-2025

Niveau avancé :