Examen – Algorithme EM pour un modèle de processus gaussiens multitâches

M2 Data Science – Statistique bayésienne et variables latentes

Durée : 1h
Documents autorisés : aucun, devoir sur feuille
Objectif : Dériver les calculs nécessaires à la définition d’un algorithme EM permettant d’entraîner un modèle GP multitâches.


1. Modèle et données

On considère le modèle suivant, pour \(i = 1, \dots, T\) :

\[ y_i(x) = \mu_0(x) + f_i(x) + \varepsilon_i \]

avec :

  • \(\mu_0 \sim \mathcal{GP}(m_0, k_0)\) : processus moyen latent,
  • \(f_i \sim \mathcal{GP}(0, k_{\theta_i})\) : processus spécifique à la tâche \(i\),
  • \(\varepsilon_i \sim \mathcal{N}(0, \sigma_i^2 I)\),
  • tous les processus sont indépendants a priori.

On observe \(T\) tâches définies sur une même grille \(x = (x_1, \dots, x_n)\).

Le modèle graphique génératif est le suivant :

L’objectif est d’estimer les paramètres \(\theta = (\{\theta_i, \sigma_i^2\}_{i=1}^T)\), ainsi que la loi a posteriori du processus latent \(\mu_0\), à partir des observations \(y = \{y_i\}_{i=1}^T\).

Pour cela, il est possible d’utiliser un algorithme EM en considérant \(\mu_0\) comme une variable latente. On note \(Y = (y_1, \dots, y_T)\) la matrice des observations de taille \(n \times T\) et \(m_0 = (m_0(x_1), \dots, m_0(x_n))^T\) le vecteur des moyennes du processus moyen latent sur la grille d’observation.

La loi a posteriori de \(\mu_0\) conditionnellement aux observations et aux paramètres courants \(\theta^{(k)}\) s’écrit : \[ p(\mu_0 | Y, \theta^{(k)}) = \mathcal{N}(\hat{\mu}^{(k)}, \hat{\Sigma}^{(k)}) \] avec :

\[ \begin{aligned} \hat{\Sigma}^{(k)} &= \left( K_0^{-1} + \sum_{i=1}^T (K_{\theta_i^{(k)}} + \sigma_i^{2(k)} I)^{-1} \right)^{-1} \\ \hat{\mu}^{(k)} &= \hat{\Sigma}^{(k)} \left( K_0^{-1} m_0 + \sum_{i=1}^T (K_{\theta_i^{(k)}} + \sigma_i^{2(k)} I)^{-1} y_i \right) \end{aligned} \]

Calculer ces paramètres de moyenne et variance a posteriori correspond à l’étape E de l’algorithme EM.

Nous pouvons grâce à cette loi a posteriori calculer l’espérance de la log-vraisemblance complète :

\[\begin{aligned} Q(\theta | \theta^{(k)}) &= \mathbb{E}_{\mu_0 | Y, \theta^{(k)}} [\log p(Y, \mu_0 | \theta)] \\ &= \sum\limits_{i=1}^T \log \ \mathcal{N}(y_i; \hat{\mu}^{(k)}, K_{\theta_i} + \sigma_i^2 I) + tr \left( (K_{\theta_i} + \sigma_i^2 I)^{-1} \hat{\Sigma}^{(k)} \right) \\ \end{aligned}\]

L’étape M consiste à maximiser cette espérance par rapport aux paramètres \(\theta\) pour obtenir les nouveaux paramètres \(\theta^{(k+1)}\).

Consigne :

Ecrivez la preuve des formules données ci-dessus pour les étapes E et M de l’algorithme EM dans ce contexte. Plus concrétement, détaillez le calcul de la loi a posteriori de \(p(\mu_0 | Y, \theta^{(k)})\) jusqu’à arriver aux expressions de \(\hat{\mu}^{(k)}\) et \(\hat{\Sigma}^{(k)}\). Décrivez également les étapes intermédiaires du calcul de l’espérance conditionnelle \(\mathbb{E}_{\mu_0 | Y, \theta^{(k)}} [\log p(Y, \mu_0 | \theta)]\) permettant d’obtenir la formule finale ci-dessus.

Vous pouvez vous appuyer sur les propriétés des distributions gaussiennes et des espérances conditionnelles pour mener à bien cette dérivation.