2024-2025 / INFO8003-1

Reinforcement learning

Durée

25h Th, 10h Pr, 45h Proj.

Nombre de crédits

 Master en science des données, à finalité spécialisée5 crédits 
 Master : ingénieur civil électricien, à finalité spécialisée en "electronic systems and devices"5 crédits 
 Master : ingénieur civil électricien, à finalité spécialisée "Smart grids"5 crédits 
 Master : ingénieur civil en science des données, à finalité spécialisée5 crédits 
 Master : ingénieur civil en informatique, à finalité spécialisée en "management"5 crédits 
 Master : ingénieur civil en informatique, à finalité spécialisée en "intelligent systems"5 crédits 
 Master : ingénieur civil en informatique, à finalité spécialisée en "intelligent systems" (double diplômation avec HEC)5 crédits 
 Master : ingénieur civil électricien, à finalité spécialisée en Neuromorphic Engineering5 crédits 
 Master : ingénieur civil en informatique, à finalité spécialisée en "computer systems security"5 crédits 
 Master en sciences informatiques, à finalité spécialisée en "intelligent systems"5 crédits 
 Master en sciences informatiques, à finalité spécialisée en "intelligent systems" (double diplômation avec HEC)5 crédits 

Enseignant

Damien Ernst

Langue(s) de l'unité d'enseignement

Langue anglaise

Organisation et évaluation

Enseignement au deuxième quadrimestre

Horaire

Horaire en ligne

Unités d'enseignement prérequises et corequises

Les unités prérequises ou corequises sont présentées au sein de chaque programme

Contenus de l'unité d'enseignement

Dans un monde où les systèmes intelligents sont de plus en plus autonomes, l'apprentissage par renforcement (RL) révolutionne la prise de décision dans toute une série de problèmes complexes (par exemple, le contrôle des robots anti-drones sur un champ de bataille). De l'optimisation du contrôle de robots au développement de stratégies pour les marchés financiers, l'apprentissage par renforcement permet aux agents d'apprendre de leurs interactions avec leur environnement et de prendre des décisions qui maximisent les bénéfices à long terme.

Ce cours propose une introduction complète au RL, en se concentrant à la fois sur les fondements théoriques et les applications pratiques. Comme exemples de thèmes théoriques, nous pouvons mentionner l'apprentissage dans des environnements à faibles données (ce qui est particulièrement utile pour concevoir des traitements médicaux efficaces pour les maladies chroniques telles que l'obésité, l'alcoolisme et le cancer), l'étude du RL dans des environnements partiellement observables (problèmes rencontrés par exemple en robotique, dans les jeux ou lors de l'interaction avec les marchés de l'énergie) et la coordination d'agents multiples, un thème qui devient de plus en plus important avec l'industrie de la défense qui développe actuellement des technologies pour commander de manière intelligente des essaims de drones. Les applications pratiques du RL aux problèmes du monde réel incluront la robotique, les grands modèles de langage (LLM) et la planification de la gestion des infrastructures. Les étudiants acquerront une expérience pratique en mettant en œuvre, en entraînant et en évaluant des algorithmes RL, ce qui les préparera à relever des défis de pointe dans divers domaines. Le cours sera organisé autour de plusieurs leçons, dont les sujets sont les suivants :

  • Principes fondamentaux du RL
  • Processus de décision de Markov (MDP)
  • Apprentissage par renforcement en profondeur
  • Apprentissage par renforcement avec peu de données
  • Méthodes basées sur le calcul des gradients de politiques
  • Apprentissage par renforcement dans des environnements partiellement observables
  • Apprentissage par renforcement pour des environnements multi-agents (MARL)
  • RL en robotique
  • RL pour les LLMs

Acquis d'apprentissage (objectifs d'apprentissage) de l'unité d'enseignement

A la fin du cours, l'étudiant sera (i) familiarisé avec un large éventail de techniques pour résoudre les problèmes d'apprentissage par renforcement, (ii) capable d'appliquer ces techniques dans la pratique et de comprendre leurs principales caractéristiques, (iii) capable de lire et de comprendre efficacement la littérature scientifique consacrée à l'apprentissage par renforcement.

Ce cours contribue aux acquis d'apprentissage I.2, II.1, II.2, II.3, III.1, IV.1, VI.1, VI.2, VI.3, VII.2, VII.5 du programme MSc in electrical engineering.

Ce cours contribue aux acquis d'apprentissage I.2, II.1, II.2, II.3, III.1, IV.1, VI.1, VI.2, VI.3, VII.2, VII.5 of the MSc in computer science and engineering.

Savoirs et compétences prérequis

Connaissances de base en théorie des systèmes, statistiques, optimisation et apprentissage automatique.
De bonnes compétences en codage sont requises.

Il est également recommandé aux étudiants de suivre le cours INFO8010-1 Deep Learning ou d'avoir suivi un cours équivalent.

Activités d'apprentissage prévues et méthodes d'enseignement

Les cours comprendront différents éléments : des leçons théoriques, des analyses d'articles scientifiques et des exercices. Une partie de la matière théorique sera enseignée en utilisant la méthode d'enseignement inversé (inverse teaching).


Les étudiants devront également travailler tout au long de l'année sur des projets visant à appliquer les méthodologies apprises pendant l'année à des exemples assez simples.

Mode d'enseignement (présentiel, à distance, hybride)

Enseignement présentiel

Supports de cours, lectures obligatoires ou recommandées

Autre(s) site(s) utilisé(s) pour les supports de cours
- Site Web Damien Ernst (http://www.damien-ernst.be)


Informations complémentaires:

L'ensemble du matériel d'enseignement est accessible sur la page web du cours, voir: https://damien-ernst.be/teaching/
 

Modalités d'évaluation et critères

Examen(s) en session

Toutes sessions confondues

- En présentiel

évaluation orale

Travail à rendre - rapport


Informations complémentaires:

Toutes sessions confondues :

- En présentiel

évaluation orale

- En distanciel

travail à rendre

- Si évaluation en "hybride"

préférence en présentiel


Explications complémentaires:

L'évaluation se compose de deux parties : 60% pour l'examen oral de fin d'année et 40% pour les projets. Pour la deuxième session, la note finale sera calculée de la même manière et les étudiants auront la possibilité de soumettre à nouveau leurs projets s'ils souhaitent obtenir de meilleures notes pour ces derniers.

Stage(s)

Possibilité pour les étudiants motivés d'effectuer un stage de recherche (éventuellement rémunéré) sur divers sujets (défense, énergie,...) en RL.

Remarques organisationnelles et modifications principales apportées au cours

Contacts

Voir: https://damien-ernst.be/contact/

Association d'un ou plusieurs MOOCs