image alt < image alt >


IA et sport :
Prédiction de la performance future en natation

Arthur Leroy

MAP5, Université de Paris

Maths et Sport - Mathématiques en mouvement - 19/05/2021

Les origines


Projet de 3 ans (2017-2020) portant sur le développement de méthodes d’apprentissage automatique pour le sport de haut-niveau.

Une problématique:

  • Plusieurs études scientifiques récentes remarquent que les meilleurs jeunes sportifs atteignent rarement (\(\approx 10\%\)) le haut niveau,
  • Les experts du monde sportif (fédérations, entraineurs, …) demandent de nouveaux indicateurs objectifs pour aider la détection des jeunes à fort potentiel.


Une opportunité :

  • La Fédération Française de Natation (FFN) propose une base de données contenant des millions de résultats issus des compétitions disputées en France depuis 2002.

Les données étudiées


Performances de membres de la FFN, au cours de leur carrière, sur 100m nage libre :

Les données étudiées


Performances de membres de la FFN, au cours de leur carrière, sur 100m nage libre :

  • Données temporelles irrégulières (nombre de points et temps d’observations différents),
  • Beaucoup de nageurs pour chaque épreuve,

Les données étudiées


Performances de membres de la FFN, au cours de leur carrière, sur 100m nage libre :

  • Données temporelles irrégulières (nombre de points et temps d’observations différents),
  • Beaucoup de nageurs pour chaque épreuve,
  • Peu d’observations pour chaque nageur.

Un problème, trois questions #1


Existe-t-il des profils de progressions spécifiques parmi les nageurs?

Travailler avec des fonctions et faire des groupes


Pour pouvoir comparer les individus il est nécessaire de définir une représentation commune, et de reconstruire des données fonctionnelles à partir des points d’observations.

L’utilisation d’algorithmes de clustering de courbes permet d’identifier différents profils de progression, correspondant bien à ce qui est observé par les experts de la natation en pratique.

Une question bonus


Mais au fait, comment fait on pour apprendre ?

Quelques clarifications sur les termes à la mode


Le travail présenté ici se concentre sur deux grands problèmes de machine learning :

  • L’apprentissage supervisé, où l’on cherche à généraliser à partir de données du type entrée-sortie pour faire des prédictions.
  • L’apprentissage non-supervisé (ou clustering), où l’on cherche les structures de groupe dans des données de même type.

Apprentissage supervisé, les grands principes



\[y = \color{green}{f}(x) + \epsilon\]

où :

  • \(x\) est la donnée d’entrée (ici l’âge du nageur),
  • \(y\) est la donnée de sortie (ici la performance sur 100m),
  • \(\epsilon\) est le bruit, un terme d’erreur aléatoire,
  • \(\color{green}{f}\) est une fonction inconnue qui définie la relation entre les données d’entrée et de sortie.


Tout le problème de l’apprentissage supervisé consiste à trouver la bonne fonction \(\color{green}{f}\), en s’aidant de données observées \(\{(x_1, y_1), \dots, (x_n, y_n) \}\), pour pouvoir effectuer des prédictions lorsque l’on observe une nouvelle donnée \(x_{n+1}\).

Apprentissage supervisé 1.0, le regréssion linéaire


L’exemple le plus simple est celui de la régression linéaire, où l’on fait l’hypothèse que :

\[\color{green}{f}(x) = a x + b\]

Trouver la meilleure fonction \(\color{green}{f}\) revient à estimer la bonne valeur de \(a\) et \(b\) pour nos données.

La formule de Bayes


Cette simple formule a de grandes implications sur la façon d’apprendre à partir de données.


\[\mathbb{P}(\color{red}{T} \mid D) = \dfrac{\mathbb{P}(D \mid \color{red}{T}) \times \mathbb{P}(\color{red}{T})}{\mathbb{P}(D)}\]

avec :

  • \(\mathbb{P}(\color{red}{T})\), la probabilité que la théorie \(\color{red}{T}\) soit vraie, ce que l’on pense a priori.
  • \(\mathbb{P}(D \mid \color{red}{T})\), la probabilité d’obtenir ces données si la théorie \(\color{red}{T}\) est vraie, la vraisemblance.
  • \(\mathbb{P}(D)\), la probabilité d’obtenir ces données, une constante de normalisation.

La formule de Bayes indique comment mettre à jour ce que l’on pense de \(\color{red}{T}\) en tenant compte des données D :

  • \(\mathbb{P}(\color{red}{T} \mid D)\), la probabilité que la théorie \(\color{red}{T}\) soit vraie au vu des données, ce qu’il faut penser a posteriori.

Mais comment apprend-on à bien apprendre ?


Illustrons ce résultat avec un exemple classique. Si il existe une maladie telle que :


  • \(\mathbb{P}(\color{red}{M}) = 0.001\), 1 personne sur 1000 est malade en moyenne,
  • \(\mathbb{P}(D \mid \color{red}{M}) = 0.99\), un test de dépistage est fiable à 99% si vous êtes malade,
  • \(\mathbb{P}(\bar{D} \mid \bar{\color{red}{M}}) = 0.99\), ce même test de dépistage est fiable à 99% si vous n’êtes malade,

Alors, si vous avez un résultat positif au test, la formule de Bayes vous informe que vous avez en réalité une probabilité d’être malade égale à :

\[\mathbb{P}(\color{red}{M} \mid D) = \dfrac{\mathbb{P}(D \mid \color{red}{M}) \times \mathbb{P}(\color{red}{M})}{\mathbb{P}(D)} = \dfrac{0.99 \times 0.001}{0.99 \times 0.001 + (1-0.99) \times 0.999} \simeq 0.09\]


Ainsi, on aurait seulement 9% de chance environ d’être effectivement malade malgré un résultat positif au test.

Apprendre une fonction grâce à Bayes ?



Bien que la formule de Bayes soit connue depuis longtemps, il est général très difficile de calculer certains termes.

Cependant, les récents développements de l’informatique et les grandes puissances de calcul ont permis de le développement de la statistique Bayésienne, qui au coeur de nombreux algorithmes d’apprentissage.

Cette approche permet de raisonner en terme de probabilités, et de quantifier l’incertitude de nos prédictions.

En particulier, un algorithme très populaire pour apprendre notre fonction d’apprentissage \(\color{green}{f}\) et effectuer des prédictions probabilistes repose sur l’utilisation des processus gaussiens.

Un problème, trois questions #2


Est-il possible de prédire des performances futures (et quantifier nos certitudes) ?

Processus gaussien, ou le miracle de l’apprentissage probabiliste



Pas de restrictions sur \(\color{green}{f}\) mais des probabilités a priori parmi toutes les fonctions possibles.

Prédiction à l’aide d’un processus gaussien


Les processus gaussiens offrent un cadre de modélisation idéal mais restent insuffisants pour faire des prédictions (surtout à long terme).

Parfois le problème concret inspire l’innovation mathématique





Un problème, trois questions #3


Est ce que former des groupes d’individus permet d’améliorer les prédictions?

Prédiction et regroupement simultanés





Et finalement pour nos nageurs ?


Si vous avez des questions…


… c’est le moment de se jeter à l’eau