Syllabus des cursus de Centrale Lille

Theoretical foundations of machine learning 2 - Sequential Decision Making

Libellé du cours : Theoretical foundations of machine learning 2 - Sequential Decision Making
Département d'enseignement : EEA / Electronique Electrotechnique Automatique
Responsable d'enseignement : Monsieur PIERRE-ANTOINE THOUVENIN / Monsieur PIERRE CHAINAIS
Langue d'enseignement :
Ects potentiels : 0
Grille des résultats :
Code et libellé (hp) : MR_DS_S3_TF2 - Theoretical foundations of mac

Equipe pédagogique

Enseignants : Monsieur PIERRE-ANTOINE THOUVENIN / Monsieur PIERRE CHAINAIS
Intervenants extérieurs (entreprise, recherche, enseignement secondaire) : divers enseignants vacataires

Résumé

● The problem of sequential decision making under uncertainty ● Markov decision problems ● the planning problem, and algorithms ● the reinforcement learning problem, and algorithms (incl. deep reinforcement learning) ● the bandit problem, and algorithms All notions visited during the course are investigated in practical sessions. Course details can be found in: https://debabrota-basu.github.io/course_bandit_rl.html

Objectifs pédagogiques

After successfully taking this course, a student should be: ● know what the problem of sequential decision making under uncertainty is ● know the various approaches to solve, along with the associated hypothesis ● know how to recognize such a problem, and model it accordingly ● know Markov decision problems, and related problems ● know about the main planning algorithms to solve them ● know about reinforcement learning approaches ● know the bandit problem, and the main algorithms

Objectifs de développement durable

Modalités de contrôle de connaissance

Contrôle Continu
Commentaires: Labs, 1.5 credits, grading scale: (min) 0 – 20 (max) - Passing grade = 10/20 Exam, 1.5 credits, grading scale: (min) 0 – 20 (max) - Passing grade = 10/20

Ressources en ligne

Bertsekas, Dynamic programming and optimal control, MIT Press Bertsekas, Neurodynamic Programming, MIT Press Puterman, Markov decision processes, Wiley Sutton, Barto, Reinforcement Learning, MIT Press, 2nd edition Tor Lattimore and Csaba Szepesvari, Bandit Algorithms, Cambridge University Press

Pédagogie

24 hours, 12h lectures, 12h labs/tutorial sessions + English is the default language.

Séquencement / modalités d'apprentissage

Nombre d'heures en CM (Cours Magistraux) : 12
Nombre d'heures en TD (Travaux Dirigés) : 12
Nombre d'heures en TP (Travaux Pratiques) : 0
Nombre d'heures en Séminaire : 0
Nombre d'heures en Demi-séminaire : 0
Nombre d'heures élèves en TEA (Travail En Autonomie) : 0
Nombre d'heures élèves en TNE (Travail Non Encadré) : 0
Nombre d'heures en CB (Contrôle Bloqué) : 0
Nombre d'heures élèves en PER (Travail PERsonnel) : 0
Nombre d'heures en Heures Projets : 0

Pré-requis

The M1 program + Machine learning 3

Nombre maximum d'inscrits

Remarques