Libellé du cours : | Theoretical foundations of machine learning 2 - Sequential Decision Making |
---|---|
Département d'enseignement : | EEA / Electronique Electrotechnique Automatique |
Responsable d'enseignement : | Monsieur PIERRE-ANTOINE THOUVENIN / Monsieur PIERRE CHAINAIS |
Langue d'enseignement : | |
Ects potentiels : | 0 |
Grille des résultats : | |
Code et libellé (hp) : | MR_DS_S3_TF2 - Theoretical foundations of mac |
Equipe pédagogique
Enseignants : Monsieur PIERRE-ANTOINE THOUVENIN / Monsieur PIERRE CHAINAIS
Intervenants extérieurs (entreprise, recherche, enseignement secondaire) : divers enseignants vacataires
Résumé
● The problem of sequential decision making under uncertainty ● Markov decision problems ● the planning problem, and algorithms ● the reinforcement learning problem, and algorithms (incl. deep reinforcement learning) ● the bandit problem, and algorithms All notions visited during the course are investigated in practical sessions. Course details can be found in: https://debabrota-basu.github.io/course_bandit_rl.html
Objectifs pédagogiques
After successfully taking this course, a student should be: ● know what the problem of sequential decision making under uncertainty is ● know the various approaches to solve, along with the associated hypothesis ● know how to recognize such a problem, and model it accordingly ● know Markov decision problems, and related problems ● know about the main planning algorithms to solve them ● know about reinforcement learning approaches ● know the bandit problem, and the main algorithms
Objectifs de développement durable
Modalités de contrôle de connaissance
Contrôle Continu
Commentaires: Labs, 1.5 credits, grading scale: (min) 0 – 20 (max) - Passing grade = 10/20
Exam, 1.5 credits, grading scale: (min) 0 – 20 (max) - Passing grade = 10/20
Ressources en ligne
Bertsekas, Dynamic programming and optimal control, MIT Press Bertsekas, Neurodynamic Programming, MIT Press Puterman, Markov decision processes, Wiley Sutton, Barto, Reinforcement Learning, MIT Press, 2nd edition Tor Lattimore and Csaba Szepesvari, Bandit Algorithms, Cambridge University Press
Pédagogie
24 hours, 12h lectures, 12h labs/tutorial sessions + English is the default language.
Séquencement / modalités d'apprentissage
Nombre d'heures en CM (Cours Magistraux) : | 12 |
---|---|
Nombre d'heures en TD (Travaux Dirigés) : | 12 |
Nombre d'heures en TP (Travaux Pratiques) : | 0 |
Nombre d'heures en Séminaire : | 0 |
Nombre d'heures en Demi-séminaire : | 0 |
Nombre d'heures élèves en TEA (Travail En Autonomie) : | 0 |
Nombre d'heures élèves en TNE (Travail Non Encadré) : | 0 |
Nombre d'heures en CB (Contrôle Bloqué) : | 0 |
Nombre d'heures élèves en PER (Travail PERsonnel) : | 0 |
Nombre d'heures en Heures Projets : | 0 |
Pré-requis
The M1 program + Machine learning 3