IA et sport :
Prédiction de la performance future en natation

Arthur Leroy

MAP5, Université de Paris

Maths et Sport - Mathématiques en mouvement - 19/05/2021

Les origines

Projet de 3 ans (2017-2020) portant sur le développement de méthodes d’apprentissage automatique pour le sport de haut-niveau.

Une problématique:

Plusieurs études scientifiques récentes remarquent que les meilleurs jeunes sportifs atteignent rarement (\(\approx 10\%\)) le haut niveau,
Les experts du monde sportif (fédérations, entraineurs, …) demandent de nouveaux indicateurs objectifs pour aider la détection des jeunes à fort potentiel.

Une opportunité :

La Fédération Française de Natation (FFN) propose une base de données contenant des millions de résultats issus des compétitions disputées en France depuis 2002.

Les données étudiées

Performances de membres de la FFN, au cours de leur carrière, sur 100m nage libre :

Les données étudiées

Performances de membres de la FFN, au cours de leur carrière, sur 100m nage libre :

Données temporelles irrégulières (nombre de points et temps d’observations différents),
Beaucoup de nageurs pour chaque épreuve,

Les données étudiées

Performances de membres de la FFN, au cours de leur carrière, sur 100m nage libre :

Données temporelles irrégulières (nombre de points et temps d’observations différents),
Beaucoup de nageurs pour chaque épreuve,
Peu d’observations pour chaque nageur.

Un problème, trois questions #1

Existe-t-il des profils de progressions spécifiques parmi les nageurs?

Travailler avec des fonctions et faire des groupes

Pour pouvoir comparer les individus il est nécessaire de définir une représentation commune, et de reconstruire des données fonctionnelles à partir des points d’observations.

L’utilisation d’algorithmes de clustering de courbes permet d’identifier différents profils de progression, correspondant bien à ce qui est observé par les experts de la natation en pratique.

Une question bonus

Mais au fait, comment fait on pour apprendre ?

Quelques clarifications sur les termes à la mode

Le travail présenté ici se concentre sur deux grands problèmes de machine learning :

L’apprentissage supervisé, où l’on cherche à généraliser à partir de données du type entrée-sortie pour faire des prédictions.
L’apprentissage non-supervisé (ou clustering), où l’on cherche les structures de groupe dans des données de même type.

Apprentissage supervisé, les grands principes

\[y = \color{green}{f}(x) + \epsilon\]

où :

\(x\) est la donnée d’entrée (ici l’âge du nageur),
\(y\) est la donnée de sortie (ici la performance sur 100m),
\(\epsilon\) est le bruit, un terme d’erreur aléatoire,
\(\color{green}{f}\) est une fonction inconnue qui définie la relation entre les données d’entrée et de sortie.

Tout le problème de l’apprentissage supervisé consiste à trouver la bonne fonction \(\color{green}{f}\), en s’aidant de données observées \(\{(x_1, y_1), \dots, (x_n, y_n) \}\), pour pouvoir effectuer des prédictions lorsque l’on observe une nouvelle donnée \(x_{n+1}\).

Apprentissage supervisé 1.0, le regréssion linéaire

L’exemple le plus simple est celui de la régression linéaire, où l’on fait l’hypothèse que :

\[\color{green}{f}(x) = a x + b\]

Trouver la meilleure fonction \(\color{green}{f}\) revient à estimer la bonne valeur de \(a\) et \(b\) pour nos données.

La formule de Bayes

Cette simple formule a de grandes implications sur la façon d’apprendre à partir de données.

\[\mathbb{P}(\color{red}{T} \mid D) = \dfrac{\mathbb{P}(D \mid \color{red}{T}) \times \mathbb{P}(\color{red}{T})}{\mathbb{P}(D)}\]

avec :

\(\mathbb{P}(\color{red}{T})\), la probabilité que la théorie \(\color{red}{T}\) soit vraie, ce que l’on pense a priori.
\(\mathbb{P}(D \mid \color{red}{T})\), la probabilité d’obtenir ces données si la théorie \(\color{red}{T}\) est vraie, la vraisemblance.
\(\mathbb{P}(D)\), la probabilité d’obtenir ces données, une constante de normalisation.

La formule de Bayes indique comment mettre à jour ce que l’on pense de \(\color{red}{T}\) en tenant compte des données D :

\(\mathbb{P}(\color{red}{T} \mid D)\), la probabilité que la théorie \(\color{red}{T}\) soit vraie au vu des données, ce qu’il faut penser a posteriori.

Mais comment apprend-on à bien apprendre ?

Illustrons ce résultat avec un exemple classique. Si il existe une maladie telle que :

\(\mathbb{P}(\color{red}{M}) = 0.001\), 1 personne sur 1000 est malade en moyenne,
\(\mathbb{P}(D \mid \color{red}{M}) = 0.99\), un test de dépistage est fiable à 99% si vous êtes malade,
\(\mathbb{P}(\bar{D} \mid \bar{\color{red}{M}}) = 0.99\), ce même test de dépistage est fiable à 99% si vous n’êtes malade,

Alors, si vous avez un résultat positif au test, la formule de Bayes vous informe que vous avez en réalité une probabilité d’être malade égale à :

\[\mathbb{P}(\color{red}{M} \mid D) = \dfrac{\mathbb{P}(D \mid \color{red}{M}) \times \mathbb{P}(\color{red}{M})}{\mathbb{P}(D)} = \dfrac{0.99 \times 0.001}{0.99 \times 0.001 + (1-0.99) \times 0.999} \simeq 0.09\]

Ainsi, on aurait seulement 9% de chance environ d’être effectivement malade malgré un résultat positif au test.

Apprendre une fonction grâce à Bayes ?

Bien que la formule de Bayes soit connue depuis longtemps, il est général très difficile de calculer certains termes.

Cependant, les récents développements de l’informatique et les grandes puissances de calcul ont permis de le développement de la statistique Bayésienne, qui au coeur de nombreux algorithmes d’apprentissage.

Cette approche permet de raisonner en terme de probabilités, et de quantifier l’incertitude de nos prédictions.

En particulier, un algorithme très populaire pour apprendre notre fonction d’apprentissage \(\color{green}{f}\) et effectuer des prédictions probabilistes repose sur l’utilisation des processus gaussiens.