Présentation IMB V2 - Institut de Mathématiques de Bordeaux
Transcription
Présentation IMB V2 - Institut de Mathématiques de Bordeaux
Évolution de la méthode de classement au tennis : Approche par simulation probabiliste. Léo Gerville-Réache & Nicolas Paris Université de Bordeaux – UFR STAPS - IMB : UMR 5251 12, Avenue Camille Jullian 33607 Pessac Cedex [email protected] Léo Gerville-Réache Séminaire IMB 2010 1 Contexte de l’étude Depuis 1977, la procédure de classement est informatisée. Une procédure basée sur la notion de comparaison d’un bilan annuel à des seuils de descente et de montée. La méthode de calcul du bilan et les seuils ont évolué à de nombreuses reprises. 2 Problématique de la recherche : Comment analyser la méthode de classement? Plus précisément, la procédure de classement est-elle « sensible » au nombre de matches disputés durant la saison? Une première méthode utilisée pour le classement de 2001 Une généralisation pour l’analyse de 1977 à nos jours 3 Box plot du nombre de matches par échelon en 2001. Nombre de matches 150 100 50 0 N =1506810230 6219 4328 3439 3205 1946 1283 1023 734 515 366 256 165 125 92 52 70 n io ot om pr 0 -3 5 -1 /6 -4 /6 -2 0 6 1/ 6 2/ 6 3/ 6 4/ 6 5/ 15 /1 15 /2 15 /3 15 /4 15 /5 15 30 4 5 La procédure de classement actuellement 6 S’ajoutent des victoires supplémentaires : en fonction de V-E-2I-5G V : nombre total de victoires, E, I et G : nombre de défaites à échelon égal, inférieur et très inférieur. 7 8 Chaque joueur part avec un capital de départ. 9 En fin de saison, le bilan du joueur est comparé aux limites de montée et de descente. 10 Pour résumé Le bilan est la solution du système suivant Bi = Ci + max (150a + 100b + 50h + 30l + 20m + 15n ) a ≤ A,b ≤ B h ≤ H ,l ≤ L m≤ M ,n≤ N a + b + h + l + m + n = V − E − 2 I − 5G Ce bilan est ensuite comparé aux seuils de montée et de descente. 11 Les différentes approches envisagées L’analyse sur base de données FFT Corrélation nb match/bilan. Pas de preuve de cause à effet L’analyse par simulation Estimation de la distribution des bilans. Modélisation et programmation raisonnable L’analyse mathématique Analyse statistique non asymptotique délicate… 12 L’approche développée Modélisation d’un joueur de tennis « virtuel » Capable de rester constant tout au long de la saison. Capable de jouer au niveau de son classement. Capable de faire des saisons plus ou moins denses. Capable de faire suffisamment de saisons pour calculer des statistiques précises sur son classement futur. Modéliser des joueurs de tous les classements 30, 15/5, 15/4…15, 5/6,4/6…1/6, 0, -2/4, -15, -30. 13 Les variables du calcul du Bilan Le bilan dépend de chaque match disputé dans l’année. Les données intervenant dans le calcul sont pour chaque match : L’écart La de classement avec l’adversaire victoire ou la défaite face à l’adversaire 14 Profil du joueur « virtuel » Un joueur « virtuel » sera donc déterminé par un couple de lois de probabilité associé à chaque match. Un système de lois de probabilité de rencontre, conditionnelles à l’écart de classement avec l’adversaire. Loi de probabilité de victoire face à cet adversaire. En 2005, c’est à partir d’une analyse statistique du fichier de la FFT sur la saison 2001 que ces deux lois ont été estimées. Pour chaque classement, un échantillon de joueur s’étant maintenus a été utilisé. 15 Probabilités de victoire estimées sur fichier FFT 100,00% 90,00% Pourcentage de victoire 80,00% 70,00% 60,00% -30 -15 -4/6 -2/6 50,00% 40,00% 30,00% 20,00% 10,00% 0,00% 2 et + échelons supérieurs Echelon supérieur Echelon égal Echelon inférieur 2 échelons inférieurs 3 échelons inférieurs 4 échelons inférieurs 16 Probabilités de rencontre estimées sur fichier FFT 30,00% Pourcentage de rencontre 25,00% 20,00% -30 -15 -4/6 -2/6 15,00% 10,00% 5,00% 0,00% 2 et + échelons supérieurs Echelon supérieur Echelon égal Echelon inférieur 2 échelons inférieurs Niveau relatif des adversaires 3 échelons inférieurs 4 échelons inférieurs 17 Exemple de résultat : Bilan d’un joueur classé 0, de niveau 0 : nombre de matchs VS bilan 3000 2500 Zone de montée 2000 } 1500 } 1000 500 0 0 20 40 60 80 100 120 140 Zone de maintien Zone de Descente 18 Exemple de résultat : Gain de l’augmentation du niveau de jeu (Ex : un 15/2 qui vaut 15/1) Echelon considéré Nombre de 15/2 matches 10 5/6 3/6 -4/6 10 10 15 20 30 35 économisés pour le maintien Nombre de matches 30 économisés pour la montée Proportion pour le maintien 1/2 1/2 1/2 3/8 Proportion pour la montée 3/5 2/5 3/5 1/3 Tableau 16 : Nombre de matches économisés en progressant d’un échelon en terme de niveau de jeu. 19 Les limites de cette approche pour l’étude de l’évolution de la méthode depuis 1977 Utilisation de données statistiques sur des joueurs réels sur la saison 2001. Incertitude sur le niveau réel des joueurs. Non constance possible du niveau des joueurs au cours de la saison. => Calcul des probabilités de rencontre et de victoire à revoir… Base de Données FFT sur 30 ans plus que difficilement accessibles… 20 Une nouvelle approche de détermination des 2 lois de probabilités Détermination d’une loi de probabilité de victoire intrinsèque. Basée sur la définition originelle du classement. Détermination intrinsèque. Basée d’une probabilité de rencontre sur une structure de type : tournoi avec compression. 21 Les origines du classement A l’origine, le classement définissait des handicaps de jeu. Un 4/6 qui rencontrait un 0, débutait 4 jeux sur 6 avec le score de 15 à 0. Ce handicap devait équilibrer les chances des deux joueurs de remporter le match. Ce principe général du classement permet de déterminer une loi intrinsèque de probabilité de victoire. 22 Loi intrinsèque de probabilité de victoire, relative au niveau de l’adversaire (obtenu par simulation). 23 Une saison basée sur une succession de tournois avec compression au niveau H 24 Loi de probabilité de rencontre, relative au niveau de l’adversaire (obtenu par simulation) 25 Résultats tout classement pour 1977 Nombre de matches permettant d’avoir 1 chance sur 2 de se maintenir (Bleu) ou de monter (Rose) 26 Résultats tout classement pour 1996 Nombre de matches permettant d’avoir 1 chance sur 2 de se maintenir (Bleu) ou de monter (Rose) 27 Résultats tout classement pour 2006 Nombre de matches permettant d’avoir 1 chance sur 2 de se maintenir (Bleu) ou de monter (Rose) 28 Résultats : Évolution depuis 1977 pour un 15 29 Évolution depuis 1977 pour un -2/6 30 Conclusion Une procédure de classement dépendante fortement du nombre de matches. Une évolution chaotique qui traduit, sans doute, un processus de calage itératif et empirique de la FFT. L’approche par simulation probabiliste permet une analyse riche, précise et raisonnable à mettre en œuvre. Cette approche peut participer à la conception de procédures de classement plus rationnelles. 31 Problèmes étudiés ou en cours (STAPS) Modélisation de la vitesse de re-synthèse de la phosphocréatine post exercice. PCr (t ) = α − β exp(− k1t k2 ) Identifiabilité des paramètres du modèle de relation entrainementperformance de Banister. t −1 t −1 Pt = P0 + k1 ∑ w j e − k 2 ∑ w j e −( t − j ) / τ 2 + ε t j =1 j =1 14 42443 14 42443 −( t − j ) / τ1 Aptitude Fatigue Utilisation des modèles de vie accélérés et de dégradation à l’étude de la longévité de la carrière des sportifs de haut niveau. 32 Quelques références Pour disputer un match à handicap entre joueurs classés de 0 à 30. Tennis de France n°11, pp 39-42. (1954) (1972). Note explicative du mécanisme du premier classement par ordinateur, Tennis de France n°236, pp 56-58. (1972) Annuaire officiel du classement, Fédération française de tennis, (1973-2006). Klaassen, F.J.G.M. & Magnus, J.R., Forecasting the Winner of a Tennis Match. Center Discussion Paper (Int. r. no. 2001-38). Econometrics, 20 pp. (2001) Paris N., Gerville-Réache L. Étude du classement au tennis : Modélisation et analyse statistique par la méthode de Monte – Carlo. Math & Sci. hum. 170 (2) 47-55. (2005) 33