Clustering de courbes : Application à la détection de
potentiel en natation


Arthur LEROY - MAP5 | IRMES

Servane GEY - MAP5

Benjamin GUEDJ - MODAL INRIA

Jean-François TOUSSAINT - IRMES

Journées de Statistique - 29 mai 2018

Problématique sportive

La détection aujourd’hui :
\(\rightarrow\) Meilleurs jeunes + intuition entraineurs


G. Boccia et al. (2017) :

\(\simeq\) 60% des top jeunes à 16 ans ne maintiennent pas leur niveau étant adultes

Philip E. Kearney & Philip R. Hayes (2018) :

\(\simeq\) 10% seulement du top 20 sénior était
top 20 en - 13 ans

Les données

Base de données de la Fédération Française de Natation sur l’exhausitivité des performances des licenciés depuis 2002 :

  • 10 000 000 performances
  • moins de 10 variables informatives
  • \(\simeq\) X0 000 observations et \(\simeq\) 1 000 individus par épreuves

Les données

Base de données de la Fédération Française de Natation sur l’exhausitivité des performances des licenciés depuis 2002 :

  • 10 000 000 performances
  • moins de 10 variables informatives
  • \(\simeq\) X0 000 observations et \(\simeq\) 1 000 individus par épreuves

Les données

Base de données de la Fédération Française de Natation sur l’exhausitivité des performances des licenciés depuis 2002 :

  • 10 000 000 performances
  • moins de 10 variables informatives
  • \(\simeq\) X0 000 observations et \(\simeq\) 1 000 individus par épreuves

Quelle modélisation ?

  • Séries temporelles très inhomogènes : comment les comparer ?
  • Nécessité d’une métrique pertinente mathématiquement et sportivement.
  • Intérêt sportif pour l’étude des dynamiques de progression.
       

\(\rightarrow\) Analyse de données fonctionnelles :

  • Lissage par fonctions de bases communes.
  • Cohérence avec la nature fonctionnelle de la progression.
  • Possibilité d’étudier les dérivées des fonctions observées.

Les B-splines

\[\begin{equation*} f(t) = \sum\limits_{i = 1}^{N}{\alpha_{i} B_{i}^n(t) } \end{equation*}\]

Choix de la base de B-splines

  • 12-20 ans | 20+ observations | 1 noeud par âge
  • 11 B-splines | Ordre 4 | Pénalité par minimisation VCG

Choix de la base de B-splines

  • 12-20 ans | 20+ observations | 1 noeud par âge
  • 11 B-splines | Ordre 4 | Pénalité par minimisation VCG

Le clustering sur les coefficients


Les caractéristiques sont contenues dans les coefficients
\(\rightarrow\) Méthodes usuelles de clustering


L’algorithme des k-means :

  • Choix du nombre de centres k
  • Choix de la position initale des centres
  • Algorithme itératif à deux étapes
  • Convergence vers un minimum local

Clustering de courbes et de dérivées

Clustering de courbes et de dérivées

Clustering de courbes et de dérivées

Clustering de courbes et de dérivées

Clustering de courbes et de dérivées

Comparaison des clusterings

Score d’adéquation moyen des clusters \(\simeq\) 45%
\(\rightarrow\) Information supplémentaire avec la dérivée

Comparaison des clusterings

Score d’adéquation moyen des clusters \(\simeq\) 45%
\(\rightarrow\) Information supplémentaire avec la dérivée

Clustering de courbes et de dérivées

Perspectives et références

  • Modèles de mélange fonctionnels
  • Modèles mixtes fonctionels
  • Classification supervisée - moyen terme
  • Prédiction - long terme


Functional Data Analysis (2005) | J. Ramsay & B.W. Silverman
Unsupervised Curve Clustering using B-Splines (2003) | C.Abraham &al
Clustering of time series data - a survey (2005) | T.Warren Liao

À retenir pour discuter à la cantine

  • Meilleur jeune \(\neq\) meilleur adulte
  • Séries temporelles modélisées par B-splines
  • Méthodes usuelles sur les coefficients
  • Clusters performances \(\neq\) clusters dynamiques