Présentation IMB V2 - Institut de Mathématiques de Bordeaux

Transcription

Présentation IMB V2 - Institut de Mathématiques de Bordeaux
Évolution de la méthode de
classement au tennis :
Approche par simulation
probabiliste.
Léo Gerville-Réache & Nicolas Paris
Université de Bordeaux – UFR STAPS - IMB : UMR 5251
12, Avenue Camille Jullian 33607 Pessac Cedex
[email protected]
Léo Gerville-Réache Séminaire IMB 2010
1
Contexte de l’étude
Depuis 1977, la procédure de classement est
informatisée.
Une procédure basée sur la notion de comparaison
d’un bilan annuel à des seuils de descente et de
montée.
La méthode de calcul du bilan et les seuils ont évolué
à de nombreuses reprises.
2
Problématique de la recherche : Comment
analyser la méthode de classement?
Plus précisément, la procédure de classement est-elle
« sensible » au nombre de matches disputés durant la
saison?
Une
première méthode utilisée pour le classement de 2001
Une
généralisation pour l’analyse de 1977 à nos jours
3
Box plot du nombre de matches par échelon en 2001.
Nombre de matches
150
100
50
0
N =1506810230 6219 4328 3439 3205 1946 1283 1023 734 515 366 256 165 125
92
52
70
n
io
ot
om
pr
0
-3
5
-1
/6
-4
/6
-2
0
6
1/
6
2/
6
3/
6
4/
6
5/
15
/1
15
/2
15
/3
15
/4
15
/5
15
30
4
5
La procédure de classement actuellement
6
S’ajoutent des victoires supplémentaires : en fonction de
V-E-2I-5G
V : nombre total de victoires, E, I et G : nombre de défaites à
échelon égal, inférieur et très inférieur.
7
8
Chaque joueur part avec un capital de départ.
9
En fin de saison, le bilan du joueur est comparé aux limites de
montée et de descente.
10
Pour résumé
Le bilan est la solution du système suivant
 Bi = Ci + max (150a + 100b + 50h + 30l + 20m + 15n )
a ≤ A,b ≤ B

h ≤ H ,l ≤ L

m≤ M ,n≤ N

a + b + h + l + m + n = V − E − 2 I − 5G
Ce bilan est ensuite comparé aux seuils de montée et de
descente.
11
Les différentes approches envisagées
L’analyse sur
base de données
FFT
Corrélation
nb match/bilan.
Pas de preuve
de cause à effet
L’analyse par
simulation
Estimation de la
distribution des
bilans.
Modélisation et
programmation
raisonnable
L’analyse
mathématique
Analyse
statistique non
asymptotique
délicate…
12
L’approche développée
Modélisation d’un joueur de tennis « virtuel »
Capable
de rester constant tout au long de la saison.
Capable de jouer au niveau de son classement.
Capable de faire des saisons plus ou moins denses.
Capable de faire suffisamment de saisons pour calculer des
statistiques précises sur son classement futur.
Modéliser des joueurs de tous les classements
30, 15/5, 15/4…15, 5/6,4/6…1/6, 0, -2/4, -15, -30.
13
Les variables du calcul du Bilan
Le bilan dépend de chaque match disputé dans
l’année.
Les données intervenant dans le calcul sont pour
chaque match :
L’écart
La
de classement avec l’adversaire
victoire ou la défaite face à l’adversaire
14
Profil du joueur « virtuel »
Un joueur « virtuel » sera donc déterminé par un
couple de lois de probabilité associé à chaque match.
Un
système de lois de probabilité de rencontre,
conditionnelles à l’écart de classement avec l’adversaire.
Loi de probabilité de victoire face à cet adversaire.
En 2005, c’est à partir d’une analyse statistique du
fichier de la FFT sur la saison 2001 que ces deux lois
ont été estimées.
Pour chaque classement, un échantillon de joueur
s’étant maintenus a été utilisé.
15
Probabilités de victoire estimées sur fichier FFT
100,00%
90,00%
Pourcentage de victoire
80,00%
70,00%
60,00%
-30
-15
-4/6
-2/6
50,00%
40,00%
30,00%
20,00%
10,00%
0,00%
2 et +
échelons
supérieurs
Echelon
supérieur
Echelon égal
Echelon
inférieur
2 échelons
inférieurs
3 échelons
inférieurs
4 échelons
inférieurs
16
Probabilités de rencontre estimées sur fichier FFT
30,00%
Pourcentage de rencontre
25,00%
20,00%
-30
-15
-4/6
-2/6
15,00%
10,00%
5,00%
0,00%
2 et +
échelons
supérieurs
Echelon
supérieur
Echelon égal
Echelon
inférieur
2 échelons
inférieurs
Niveau relatif des adversaires
3 échelons
inférieurs
4 échelons
inférieurs
17
Exemple de résultat :
Bilan d’un joueur classé 0, de niveau 0 : nombre de matchs VS bilan
3000
2500
Zone de
montée
2000
}
1500
}
1000
500
0
0
20
40
60
80
100
120
140
Zone de
maintien
Zone de
Descente
18
Exemple de résultat :
Gain de l’augmentation du niveau de jeu (Ex : un 15/2 qui vaut 15/1)
Echelon considéré
Nombre
de
15/2
matches 10
5/6
3/6
-4/6
10
10
15
20
30
35
économisés pour le maintien
Nombre
de
matches 30
économisés pour la montée
Proportion pour le maintien
1/2
1/2
1/2
3/8
Proportion pour la montée
3/5
2/5
3/5
1/3
Tableau 16 : Nombre de matches économisés en progressant d’un échelon en terme de niveau
de jeu.
19
Les limites de cette approche pour l’étude de
l’évolution de la méthode depuis 1977
Utilisation de données statistiques sur des joueurs réels
sur la saison 2001.
Incertitude
sur le niveau réel des joueurs.
Non constance possible du niveau des joueurs au cours de la
saison.
=> Calcul des probabilités de rencontre et de victoire à revoir…
Base
de Données FFT sur 30 ans plus que difficilement
accessibles…
20
Une nouvelle approche de détermination des 2
lois de probabilités
Détermination d’une loi de probabilité de victoire
intrinsèque.
Basée
sur la définition originelle du classement.
Détermination
intrinsèque.
Basée
d’une
probabilité
de
rencontre
sur une structure de type : tournoi avec compression.
21
Les origines du classement
A l’origine, le classement définissait des handicaps de
jeu.
Un
4/6 qui rencontrait un 0, débutait 4 jeux sur 6 avec le
score de 15 à 0.
Ce handicap devait équilibrer les chances des deux joueurs
de remporter le match.
Ce principe général du classement permet de
déterminer une loi intrinsèque de probabilité de
victoire.
22
Loi intrinsèque de probabilité de victoire, relative au
niveau de l’adversaire (obtenu par simulation).
23
Une saison basée sur une succession de
tournois avec compression au niveau H
24
Loi de probabilité de rencontre, relative au
niveau de l’adversaire (obtenu par simulation)
25
Résultats tout classement pour 1977
Nombre de matches permettant d’avoir 1 chance sur 2 de se maintenir
(Bleu) ou de monter (Rose)
26
Résultats tout classement pour 1996
Nombre de matches permettant d’avoir 1 chance sur 2 de se maintenir
(Bleu) ou de monter (Rose)
27
Résultats tout classement pour 2006
Nombre de matches permettant d’avoir 1 chance sur 2 de se maintenir
(Bleu) ou de monter (Rose)
28
Résultats : Évolution depuis 1977 pour un 15
29
Évolution depuis 1977 pour un -2/6
30
Conclusion
Une procédure de classement dépendante fortement du
nombre de matches.
Une évolution chaotique qui traduit, sans doute, un
processus de calage itératif et empirique de la FFT.
L’approche par simulation probabiliste permet une
analyse riche, précise et raisonnable à mettre en œuvre.
Cette approche peut participer à la conception de
procédures de classement plus rationnelles.
31
Problèmes étudiés ou en cours (STAPS)
Modélisation de la vitesse de re-synthèse de la phosphocréatine post
exercice.
PCr (t ) = α − β exp(− k1t k2 )
Identifiabilité des paramètres du modèle de relation entrainementperformance de Banister.
t −1
t −1
Pt = P0 + k1 ∑ w j e
− k 2 ∑ w j e −( t − j ) / τ 2 + ε t
j =1
j =1
14
42443 14
42443
−( t − j ) / τ1
Aptitude
Fatigue
Utilisation des modèles de vie accélérés et de dégradation à l’étude de la
longévité de la carrière des sportifs de haut niveau.
32
Quelques références
Pour disputer un match à handicap entre joueurs classés de 0 à
30. Tennis de France n°11, pp 39-42. (1954)
(1972). Note explicative du mécanisme du premier classement
par ordinateur, Tennis de France n°236, pp 56-58. (1972)
Annuaire officiel du classement, Fédération française de
tennis, (1973-2006).
Klaassen, F.J.G.M. & Magnus, J.R., Forecasting the Winner of
a Tennis Match. Center Discussion Paper (Int. r. no. 2001-38).
Econometrics, 20 pp. (2001)
Paris N., Gerville-Réache L. Étude du classement au tennis :
Modélisation et analyse statistique par la méthode de Monte –
Carlo. Math & Sci. hum. 170 (2) 47-55. (2005)
33