Comment utiliser les sciences du numérique pour tenter de prédire les
performances sportives ?
Arthur Leroy - Department of
Computer Science, The University of Manchester
Fête de la Science - Sport et numérique - Lille -
11/10/2023
Des données difficiles à analyser
Performances de membres de la FFN, au cours de leur carrière, sur
100m nage libre :
Des données difficiles à analyser
Performances de membres de la FFN, au cours de leur carrière, sur
100m nage libre :
-
Données temporelles irrégulières (nombre
de points et temps d’observations différents),
-
Beaucoup de nageurs pour chaque épreuve,
Des données difficiles à analyser
Performances de membres de la FFN, au cours de leur carrière, sur
100m nage libre :
-
Données temporelles irrégulières (nombre
de points et temps d’observations différents),
-
Beaucoup de nageurs pour chaque épreuve,
-
Peu d’observations pour chaque nageur.
Quelques clarifications sur les termes à la mode
Le travail présenté ici se concentre sur deux grands problèmes de
machine learning :
-
L’apprentissage supervisé, où l’on
cherche à faire des prédictions à partir d’exemples.
-
L’apprentissage non-supervisé (ou
clustering), où l’on cherche à définir des groupes.
Apprendre, ça veut dire quoi ?
\[y = \color{green}{f}(x)\]
-
\(x\) est la donnée d’entrée (ici
l’âge du nageur),
-
\(y\) est la donnée de sortie (ici la
performance sur 100m),
-
\(\color{green}{f}\) est une fonction inconnue qui définie la
relation entre les données d’entrée et de sortie.
Apprendre, c’est bien mettre à jour ses connaissances
Imaginons qu’il existe une maladie telle que :
-
\(\mathbb{P}(\color{red}{M}) = 0.001,\)
1 personne sur 1000 est malade en
moyenne,
-
\(\mathbb{P}(\color{blue}{D} \mid
\color{red}{M}) = 0.99,\) un test de dépistage est fiable à 99% si vous êtes
malade,
-
\(\mathbb{P}(\bar{\color{blue}{D}} \mid
\bar{\color{red}{M}}) = 0.99,\) ce même test de dépistage est fiable à 99% si vous n’êtes
malade,
D’après la formule de Bayes, la probabilité d’être malade lors d’un résultat positif au test est :
\[\mathbb{P}(\color{red}{M} \mid
\color{blue}{D}) = \dfrac{\mathbb{P}(\color{blue}{D} \mid
\color{red}{M})
\times \mathbb{P}(\color{red}{M})}{\mathbb{P}(\color{blue}{D})} =
\dfrac{0.99 \times 0.001}{0.99 \times 0.001 + (1-0.99) \times 0.999}
\simeq 0.09\]
Ainsi, on aurait seulement 9% de chance environ d’être effectivement
malade malgré un résultat positif au test.
C’est super mais quel rapport avec nos nageurs ?
Apprendre une fonction grâce à Bayes ?
Apprendre une fonction grâce à Bayes ?
Apprendre une fonction grâce à Bayes ?
Apprendre une fonction grâce à Bayes ?
Encore une fois c’est super, mais toi tu fais quoi dans tout ça
?
Peut-on aussi découvrir des groupes pour mieux prédire ?
Et voilà les predictions de nageurs. Et si vous faisiez les vôtres
?