image alt < image alt >

Comment utiliser les sciences du numérique pour tenter de prédire les performances sportives ?


Arthur Leroy - Department of Computer Science, The University of Manchester



Fête de la Science - Sport et numérique - Lille - 11/10/2023

Des données difficiles à analyser


Performances de membres de la FFN, au cours de leur carrière, sur 100m nage libre :

Des données difficiles à analyser


Performances de membres de la FFN, au cours de leur carrière, sur 100m nage libre :

  • Données temporelles irrégulières (nombre de points et temps d’observations différents),
  • Beaucoup de nageurs pour chaque épreuve,

Des données difficiles à analyser


Performances de membres de la FFN, au cours de leur carrière, sur 100m nage libre :

  • Données temporelles irrégulières (nombre de points et temps d’observations différents),
  • Beaucoup de nageurs pour chaque épreuve,
  • Peu d’observations pour chaque nageur.

Mais au fait, comment fait on pour apprendre ?


Quelques clarifications sur les termes à la mode


Le travail présenté ici se concentre sur deux grands problèmes de machine learning :

  • L’apprentissage supervisé, où l’on cherche à faire des prédictions à partir d’exemples.
  • L’apprentissage non-supervisé (ou clustering), où l’on cherche à définir des groupes.

Apprendre, ça veut dire quoi ?



\[y = \color{green}{f}(x)\]

  • \(x\) est la donnée d’entrée (ici l’âge du nageur),
  • \(y\) est la donnée de sortie (ici la performance sur 100m),
  • \(\color{green}{f}\) est une fonction inconnue qui définie la relation entre les données d’entrée et de sortie.

Apprendre, c’est bien mettre à jour ses connaissances


Imaginons qu’il existe une maladie telle que :

  • \(\mathbb{P}(\color{red}{M}) = 0.001,\) 1 personne sur 1000 est malade en moyenne,
  • \(\mathbb{P}(\color{blue}{D} \mid \color{red}{M}) = 0.99,\) un test de dépistage est fiable à 99% si vous êtes malade,
  • \(\mathbb{P}(\bar{\color{blue}{D}} \mid \bar{\color{red}{M}}) = 0.99,\) ce même test de dépistage est fiable à 99% si vous n’êtes malade,



D’après la formule de Bayes, la probabilité d’être malade lors d’un résultat positif au test est :

\[\mathbb{P}(\color{red}{M} \mid \color{blue}{D}) = \dfrac{\mathbb{P}(\color{blue}{D} \mid \color{red}{M}) \times \mathbb{P}(\color{red}{M})}{\mathbb{P}(\color{blue}{D})} = \dfrac{0.99 \times 0.001}{0.99 \times 0.001 + (1-0.99) \times 0.999} \simeq 0.09\]


Ainsi, on aurait seulement 9% de chance environ d’être effectivement malade malgré un résultat positif au test.

C’est super mais quel rapport avec nos nageurs ?




Apprendre une fonction grâce à Bayes ?


Apprendre une fonction grâce à Bayes ?


Apprendre une fonction grâce à Bayes ?


Apprendre une fonction grâce à Bayes ?


Encore une fois c’est super, mais toi tu fais quoi dans tout ça ?


Pour bien apprendre, rien de tel que le partage d’informations





A gauche, l’algorithme classique existant, à droite le nouvel algorithme que l’on a developpé

Pour bien apprendre, rien de tel que le partage d’informations





A gauche, l’algorithme classique existant, à droite le nouvel algorithme que l’on a developpé

Peut-on aussi découvrir des groupes pour mieux prédire ?


Et voilà les predictions de nageurs. Et si vous faisiez les vôtres ?