Apprentissage et données fonctionnelles: Application au problème de la détection dans le sport de haut niveau

Abstract

Une grande part des données récoltées en science du sport vient de phénomènes dépendant du temps. Récemment, plusieurs structures sportives, comme les clubs ou les fédérations, ont collecté des données longitudinales dans l’espoir qu’elles puissent aider à la détection des jeunes à haut potentiel. Cependant, plusieurs études ont mis en avant le fait que la plupart des meilleurs jeunes ne restent pas au même niveau de performance une fois adulte. C’est pourquoi le problème de la détection pourrait bénéficier de méthodes d’analyse de données objectives et notamment du domaine de l’apprentissage statistique. Lors de cette étude, l’objectif réside dans la prédiction de performances futures d’un athlète à partir de ses performances passées et de l’information apportées par apprentissage sur les autres athlètes. La progression des sportifs étant intrinsèquement continue et les temps d’observations étant très irréguliers, les données seront considérées comme fonctionnelles et lissées à l’aide de fonctions de bases B-splines. Ces observations fonctionnelles sont supposées être des réalisations de processus Gaussiens, et le problème de prédiction est également traité par régression par processus Gaussien. Plus précisément, un modèle mixte est utilisé avec un processus moyen commun à tous les individus sommé à un processus d’effets aléatoires individuels. Cette approche permet d’utiliser l’information de tous les individus pour la modélisation et règle ainsi le problème du faible nombre d’observations irrégulières. Préalablement, une étape de clustering est appliquée sur les données fonctionnelles, permettant par la suite une prédiction dépendante du groupe d’appartenance d’un individu. La procédure est estimée par une approche Bayésienne, qui permet de prendre en compte l’incertitude de modélisation et de prédiction naturellement, ainsi que le calcul d’intervalles de crédibilité. Une étude sur des simulations sera présentée ainsi que l’application sur un jeu de données réelles provenant de la Fédération Française de Natation. L’intérêt de ce travail est double, offrant une meilleure compréhension du phénomène de progression dans le sport, et fournissant un outil d’aide à la décision pour la détection de jeunes talents.

Date
Jun 6, 2019
Location
Université de Lorraine
Vandœuvre-lès-Nancy, 54500
Arthur Leroy
Arthur Leroy
Researcher in Machine Learning and Statistics