2024-2025 / MATH2021-1

High-dimensional statistics

Durée

30h Th, 15h Pr, 30h Proj.

Nombre de crédits

 Master en science des données, à finalité spécialisée5 crédits 
 Master : ingénieur civil en science des données, à finalité spécialisée5 crédits 

Enseignant

Gentiane Haesbroeck

Langue(s) de l'unité d'enseignement

Langue anglaise

Organisation et évaluation

Enseignement au premier quadrimestre, examen en janvier

Horaire

Horaire en ligne

Unités d'enseignement prérequises et corequises

Les unités prérequises ou corequises sont présentées au sein de chaque programme

Contenus de l'unité d'enseignement

Le cours est consacré aux thématiques suivantes:

- Analyse exploratoire des données
- Techniques de réduction de la dimension: Analyse en composantes principales, tSNE
- Estimation multivariée, avec l'estimation de la matrice de variance covariance comme cas approfondi (estimation classique sous la normalité, estimation régularisée et estimation robuste)
- Régression multiple et modèles linéaires généralisés (e.g. modèles de Poisson et logistique)
- Analyse en composantes indépendantes

 

Acquis d'apprentissage (objectifs d'apprentissage) de l'unité d'enseignement

A l'issue du cours, l'étudiant devra être capable de déterminer quelle technique statistique multivariée doit être utilisée pour réduire la dimension d'un problème, modéliser une variable dépendante en fonction de variables explicatives... 

Savoirs et compétences prérequis

Une formation en statistique univariée est indispensable. Par ailleurs, même si les justifications mathématiques ne sont pas développées en détail, les étudiants doivent connaitre les notions de base de l'algèbre linéaire (vecteur, matrice, déterminant, valeurs et vecteurs propres...).

Activités d'apprentissage prévues et méthodes d'enseignement

La théorie est exposée de manière ex-cathedra. Par ailleurs, après l'exposition théorique, les techniques disponibles dans le logiciel R (logiciel imposé dans le cadre de ce cours) sont brièvement illustrées. L'exploitation de celles-ci par les étudiants est proposée dans le cadre de travaux pratiques à réaliser à domicile. Les résultats des analyses proposées sont discutés lors des cours suivants.

Mode d'enseignement (présentiel, à distance, hybride)

Combinaison d'activités d'apprentissage en présentiel et en distanciel


Informations complémentaires:

Explications complémentaires:

Les 25h de théorie sont a priori prévues en présentiel mais certaines séances de cours pourraient être exceptionnellement remplacées par une vidéo (l'information sera disponible dans Celcat).

Les travaux pratiques sont à réaliser à domicile.

Supports de cours, lectures obligatoires ou recommandées

Il n'existe pas de notes de cours. Les transparents exploités au cours seront mis en ligne sur la plateforme eCampus. Par ailleurs, pour chaque thème, un livre de référence sera proposé pour de plus amples informations.

Modalités d'évaluation et critères

Examen(s) en session

Toutes sessions confondues

- En présentiel

évaluation écrite ( questions ouvertes )

Travail à rendre - rapport

Interrogation(s) hors session


Informations complémentaires:

Examen(s) en session

Toutes sessions confondues

- En présentiel

évaluation écrite ( questions ouvertes avec accès au logiciel R )

Travail à rendre - rapport



Explications complémentaires:

La cote finale est une moyenne pondérée calculée à partir des résultats obtenus aux épreuves suivantes:

-  Réalisation et présentation d'un projet d'analyse de données: la date de diffusion de l'énoncé et les dates imposées pour la soumission et la défense des projets seront affichées dans Celcat.  

- examen écrit combinant des analyses de données et des applications détaillées/expliquées de  méthodes vues au cours

Lorsque les cotes partielles des deux parties sont chacune supérieures ou égales à 6/20, la moyenne pondérée est calculée sur base des pondérations 50%-50%. Si au moins une des cotes est inférieure à 6/20, la pondération devient 75%-25%, le poids le plus élévé étant attribué à la moins bonne cote.




 

Stage(s)

Remarques organisationnelles et modifications principales apportées au cours

Le cours est enseigné en anglais.

Le local de cours n'étant pas équipé d'un équipement "podcast", les cours donnés en présentiel ne seront pas disponibles sous une autre forme. 

Contacts

Enseignant: Gentiane HAESBROECK, Institut de Mathématique (B37), g.haesbroeck@uliege.be

Association d'un ou plusieurs MOOCs