Durée
30h Th, 15h Pr, 30h Proj.
Nombre de crédits
Master en science des données, à finalité spécialisée | 5 crédits | |||
Master : ingénieur civil en science des données, à finalité spécialisée | 5 crédits |
Enseignant
Langue(s) de l'unité d'enseignement
Langue anglaise
Organisation et évaluation
Enseignement au premier quadrimestre, examen en janvier
Horaire
Unités d'enseignement prérequises et corequises
Les unités prérequises ou corequises sont présentées au sein de chaque programme
Contenus de l'unité d'enseignement
Le cours est consacré aux thématiques suivantes:
- Analyse exploratoire des données
- Techniques de réduction de la dimension: Analyse en composantes principales, tSNE
- Estimation multivariée, avec l'estimation de la matrice de variance covariance comme cas approfondi (estimation classique sous la normalité, estimation régularisée et estimation robuste)
- Régression multiple et modèles linéaires généralisés (e.g. modèles de Poisson et logistique)
- Analyse en composantes indépendantes
Acquis d'apprentissage (objectifs d'apprentissage) de l'unité d'enseignement
A l'issue du cours, l'étudiant devra être capable de déterminer quelle technique statistique multivariée doit être utilisée pour réduire la dimension d'un problème, modéliser une variable dépendante en fonction de variables explicatives...
Savoirs et compétences prérequis
Une formation en statistique univariée est indispensable. Par ailleurs, même si les justifications mathématiques ne sont pas développées en détail, les étudiants doivent connaitre les notions de base de l'algèbre linéaire (vecteur, matrice, déterminant, valeurs et vecteurs propres...).
Activités d'apprentissage prévues et méthodes d'enseignement
La théorie est exposée de manière ex-cathedra. Par ailleurs, après l'exposition théorique, les techniques disponibles dans le logiciel R (logiciel imposé dans le cadre de ce cours) sont brièvement illustrées. L'exploitation de celles-ci par les étudiants est proposée dans le cadre de travaux pratiques à réaliser à domicile. Les résultats des analyses proposées sont discutés lors des cours suivants.
Mode d'enseignement (présentiel, à distance, hybride)
Combinaison d'activités d'apprentissage en présentiel et en distanciel
Informations complémentaires:
Explications complémentaires:
Les 25h de théorie sont a priori prévues en présentiel mais certaines séances de cours pourraient être exceptionnellement remplacées par une vidéo (l'information sera disponible dans Celcat).
Les travaux pratiques sont à réaliser à domicile.
Supports de cours, lectures obligatoires ou recommandées
Il n'existe pas de notes de cours. Les transparents exploités au cours seront mis en ligne sur la plateforme eCampus. Par ailleurs, pour chaque thème, un livre de référence sera proposé pour de plus amples informations.
Modalités d'évaluation et critères
Examen(s) en session
Toutes sessions confondues
- En présentiel
évaluation écrite ( questions ouvertes )
Travail à rendre - rapport
Interrogation(s) hors session
Informations complémentaires:
Examen(s) en session
Toutes sessions confondues
- En présentiel
évaluation écrite ( questions ouvertes avec accès au logiciel R )
Travail à rendre - rapport
Explications complémentaires:
La cote finale est une moyenne pondérée calculée à partir des résultats obtenus aux épreuves suivantes:
- Réalisation et présentation d'un projet d'analyse de données: la date de diffusion de l'énoncé et les dates imposées pour la soumission et la défense des projets seront affichées dans Celcat.
- examen écrit combinant des analyses de données et des applications détaillées/expliquées de méthodes vues au cours
Lorsque les cotes partielles des deux parties sont chacune supérieures ou égales à 6/20, la moyenne pondérée est calculée sur base des pondérations 50%-50%. Si au moins une des cotes est inférieure à 6/20, la pondération devient 75%-25%, le poids le plus élévé étant attribué à la moins bonne cote.
Stage(s)
Remarques organisationnelles et modifications principales apportées au cours
Le cours est enseigné en anglais.
Le local de cours n'étant pas équipé d'un équipement "podcast", les cours donnés en présentiel ne seront pas disponibles sous une autre forme.
Contacts
Enseignant: Gentiane HAESBROECK, Institut de Mathématique (B37), g.haesbroeck@uliege.be