Arthur Leroy
MAP5, Université de Paris
Projet de 3 ans (2017-2020) portant sur le développement de méthodes d’apprentissage automatique pour le sport de haut-niveau.
Une problématique:
Une opportunité :
Performances de membres de la FFN, au cours de leur carrière, sur 100m nage libre :
Performances de membres de la FFN, au cours de leur carrière, sur 100m nage libre :
Performances de membres de la FFN, au cours de leur carrière, sur 100m nage libre :
Existe-t-il des profils de progressions spécifiques parmi les nageurs?
Pour pouvoir comparer les individus il est nécessaire de définir une représentation commune, et de reconstruire des données fonctionnelles à partir des points d’observations.
L’utilisation d’algorithmes de clustering de courbes permet d’identifier différents profils de progression, correspondant bien à ce qui est observé par les experts de la natation en pratique.
Mais au fait, comment fait on pour apprendre ?
Le travail présenté ici se concentre sur deux grands problèmes de machine learning :
\[y = \color{green}{f}(x) + \epsilon\]
où :
Tout le problème de l’apprentissage supervisé consiste à trouver la bonne fonction \(\color{green}{f}\), en s’aidant de données observées \(\{(x_1, y_1), \dots, (x_n, y_n) \}\), pour pouvoir effectuer des prédictions lorsque l’on observe une nouvelle donnée \(x_{n+1}\).
L’exemple le plus simple est celui de la régression linéaire, où l’on fait l’hypothèse que :
\[\color{green}{f}(x) = a x + b\]
Trouver la meilleure fonction \(\color{green}{f}\) revient à estimer la bonne valeur de \(a\) et \(b\) pour nos données.
Cette simple formule a de grandes implications sur la façon d’apprendre à partir de données.
\[\mathbb{P}(\color{red}{T} \mid D) = \dfrac{\mathbb{P}(D \mid \color{red}{T}) \times \mathbb{P}(\color{red}{T})}{\mathbb{P}(D)}\]
avec :
La formule de Bayes indique comment mettre à jour ce que l’on pense de \(\color{red}{T}\) en tenant compte des données D :
Illustrons ce résultat avec un exemple classique. Si il existe une maladie telle que :
Alors, si vous avez un résultat positif au test, la formule de Bayes vous informe que vous avez en réalité une probabilité d’être malade égale à :
\[\mathbb{P}(\color{red}{M} \mid D) = \dfrac{\mathbb{P}(D \mid \color{red}{M}) \times \mathbb{P}(\color{red}{M})}{\mathbb{P}(D)} = \dfrac{0.99 \times 0.001}{0.99 \times 0.001 + (1-0.99) \times 0.999} \simeq 0.09\]
Ainsi, on aurait seulement 9% de chance environ d’être effectivement malade malgré un résultat positif au test.
Bien que la formule de Bayes soit connue depuis longtemps, il est général très difficile de calculer certains termes.
Cependant, les récents développements de l’informatique et les grandes puissances de calcul ont permis de le développement de la statistique Bayésienne, qui au coeur de nombreux algorithmes d’apprentissage.
Cette approche permet de raisonner en terme de probabilités, et de quantifier l’incertitude de nos prédictions.
En particulier, un algorithme très populaire pour apprendre notre fonction d’apprentissage \(\color{green}{f}\) et effectuer des prédictions probabilistes repose sur l’utilisation des processus gaussiens.
Est-il possible de prédire des performances futures (et quantifier nos certitudes) ?
Pas de restrictions sur \(\color{green}{f}\) mais des probabilités a priori parmi toutes les fonctions possibles.
Les processus gaussiens offrent un cadre de modélisation idéal mais restent insuffisants pour faire des prédictions (surtout à long terme).
Est ce que former des groupes d’individus permet d’améliorer les prédictions?