Examen – Algorithme EM pour un modèle de processus gaussiens multitâches

M2 Data Science – Statistique bayésienne et variables latentes

Durée : 1h
Documents autorisés : tout, LLM et internet inclus
Objectif : Préparer un sujet d’examen visant à implémenter un algorithme EM permettant d’entraîner un modèle GP multitâches.


1. Modèle et données

On considère le modèle suivant, pour \(i = 1, \dots, T\) :

\[ y_i(x) = \mu_0(x) + f_i(x) + \varepsilon_i \]

avec :

  • \(\mu_0 \sim \mathcal{GP}(m_0, k_0)\) : processus moyen latent,
  • \(f_i \sim \mathcal{GP}(0, k_{\theta_i})\) : processus spécifique à la tâche \(i\),
  • \(\varepsilon_i \sim \mathcal{N}(0, \sigma_i^2 I)\),
  • tous les processus sont indépendants a priori.

On observe \(T\) tâches définies sur une même grille \(x = (x_1, \dots, x_n)\).

Le modèle graphique génératif est le suivant :

L’objectif est d’estimer les paramètres \(\theta = (\{\theta_i, \sigma_i^2\}_{i=1}^T)\), ainsi que la loi a posteriori du processus latent \(\mu_0\), à partir des observations \(y = \{y_i\}_{i=1}^T\).

Consigne :

Ecrivez un sujet d’examen visant à implémenter un algorithme EM permettant d’entraîner un modèle GP multitâches. Le sujet doit inclure :

  1. Une description claire du modèle, des vraisemblances et équations importantes.
  2. La formulation mathématique de l’algorithme EM dans ce contexte, y compris les étapes E et M.
  3. Des questions guidant l’étudiant à implémenter chaque étape de l’algorithme en R, avec des indices si nécessaire.
  4. Le corrigé complet de l’examen, avec le code R nécessaire pour chaque étape. Ce code doit être fonctionnel et testé, les graphiques et résultats doivent être inclus.