Comment utiliser les sciences du numérique pour tenter de prédire les performances sportives ?

Arthur Leroy - Department of Computer Science, The University of Manchester

Fête de la Science - Sport et numérique - Lille - 11/10/2023

Des données difficiles à analyser

Performances de membres de la FFN, au cours de leur carrière, sur 100m nage libre :

Des données difficiles à analyser

Performances de membres de la FFN, au cours de leur carrière, sur 100m nage libre :

Données temporelles irrégulières (nombre de points et temps d’observations différents),
Beaucoup de nageurs pour chaque épreuve,

Des données difficiles à analyser

Performances de membres de la FFN, au cours de leur carrière, sur 100m nage libre :

Données temporelles irrégulières (nombre de points et temps d’observations différents),
Beaucoup de nageurs pour chaque épreuve,
Peu d’observations pour chaque nageur.

Mais au fait, comment fait on pour apprendre ?

Quelques clarifications sur les termes à la mode

Le travail présenté ici se concentre sur deux grands problèmes de machine learning :

L’apprentissage supervisé, où l’on cherche à faire des prédictions à partir d’exemples.
L’apprentissage non-supervisé (ou clustering), où l’on cherche à définir des groupes.

Apprendre, ça veut dire quoi ?

\[y = \color{green}{f}(x)\]

\(x\) est la donnée d’entrée (ici l’âge du nageur),
\(y\) est la donnée de sortie (ici la performance sur 100m),
\(\color{green}{f}\) est une fonction inconnue qui définie la relation entre les données d’entrée et de sortie.

Apprendre, c’est bien mettre à jour ses connaissances

Imaginons qu’il existe une maladie telle que :

\(\mathbb{P}(\color{red}{M}) = 0.001,\) 1 personne sur 1000 est malade en moyenne,
\(\mathbb{P}(\color{blue}{D} \mid \color{red}{M}) = 0.99,\) un test de dépistage est fiable à 99% si vous êtes malade,
\(\mathbb{P}(\bar{\color{blue}{D}} \mid \bar{\color{red}{M}}) = 0.99,\) ce même test de dépistage est fiable à 99% si vous n’êtes malade,

D’après la formule de Bayes, la probabilité d’être malade lors d’un résultat positif au test est :

\[\mathbb{P}(\color{red}{M} \mid \color{blue}{D}) = \dfrac{\mathbb{P}(\color{blue}{D} \mid \color{red}{M}) \times \mathbb{P}(\color{red}{M})}{\mathbb{P}(\color{blue}{D})} = \dfrac{0.99 \times 0.001}{0.99 \times 0.001 + (1-0.99) \times 0.999} \simeq 0.09\]

Ainsi, on aurait seulement 9% de chance environ d’être effectivement malade malgré un résultat positif au test.