rapport - Ceremade

Transcription

rapport - Ceremade
UNIVERSITE PARIS DAUPHINE
DEA 127 : SYSTEME INTELLIGENT
Projet Data Mining
décembre 2004
Projet SODAS :
Etude sur les footballeurs évoluant en Ligue 1 durant la saison
2002-2003
Responsable :
Edwin DIDAY
Etudiant :
Vinh TRUONG
SOMMAIRE
INTRODUCTION............................................................................................................................................. 3
I PRESENTATION GENERALE .................................................................................................................... 4
1 BREF HISTORIQUE......................................................................................................................................... 4
2 LE LOGICIEL SODAS (SYMBOLIC OFFICIAL DATA ANALYSIS SYSTEM) ......................................................... 4
II PRESENTATION DE LA BASE DE DONNEES ....................................................................................... 5
III CONSTRUCTION DES OBJETS SYMBOLIQUES ................................................................................. 6
IV ANALYSE DE DONNEES .......................................................................................................................... 8
1 LA METHODE SOE........................................................................................................................................ 8
2 LA METHODE PCM ..................................................................................................................................... 11
3 LA METHODE TREE ................................................................................................................................... 13
4 LA METHODE DIV ...................................................................................................................................... 14
5 LA METHODE PYR ..................................................................................................................................... 15
6 LA METHODE STAT ................................................................................................................................... 17
CONCLUSION ............................................................................................................................................... 19
Projet SODAS – DATAMINING
TRUONG Tuong Vinh
Page 2
Introduction
L’analyse de données ou Data Mining a pour objectif d’extraire des informations
contenu dans un tableau de données, de les traiter et de les rendre visible, c'est-à-dire d’y
expliciter des connaissances. Ainsi en reprenant la métaphore « Data Mining », la
problématique de l’analyse de données est d’extraire des mines de connaissances enfouies
sous des amas de données. Cependant elle ne donne pas de réponse à un problème donné mais
elle fournit une représentation, une image simplifiée de l’ensemble des données permettant
une confrontation entre elles.
Nous allons dans le cadre du projet de Data Mining appliquer différentes méthodes
sur une base de données concernant les équipes de football de la ligue professionnelle de
football français. Pour cela, nous avons utilisé le logiciel SODAS, « un logiciel d’analyse de
données symboliques». L’étude se porte en effet sur des concepts, qui sont dans le cadre de ce
projet des classes d’individus. Nous allons dans un premier temps effectué un rapide
historique du domaine ainsi qu’une présentation du logiciel. Par la suite, nous vous
présenterons la base de données ainsi que les différents résultats obtenus.
Projet SODAS – DATAMINING
TRUONG Tuong Vinh
Page 3
I Présentation générale
1 Bref historique
Les bases théoriques de l’Analyse de Données ne sont pas récentes. Certaines ont ainsi
été établies au début de siècle et dans les années 1930. Elles sont nées du domaine des
statistiques et de la volonté de se libérer de certaines contraintes des statistiques considérées
comme abusives. Cependant le domaine était essentiellement connu et appliqué des
chercheurs et les moyens restèrent limités, même si le besoin de classer, de représenter, de
reconnaître les données existe depuis longtemps et dans de nombreux domaines. L’avènement
de l’informatique change la donne. Et cela pour deux raisons. D’une part, l’informatique
permet et facilite de nombreux calculs complexes (visualisation des résultats). D’autre part,
l’évolution des systèmes de base de données ainsi de leur gestion permettent un stockage
d’une quantité de plus en plus grande de données. Rapidement, cette accumulation de données
(souvent sous forme de tableaux) rend difficile leur exploitation dans leur ensemble. Cette
problématique se retrouve en particuliers au niveau des entrepôts de données dans le cadre du
décisionnel. Le data mining dépasse alors le cadre universitaire.
L’Analyse de Données concernent aujourd’hui un grand nombre de domaine. On peut
citer comme exemple la médecine, l’économie, les sciences de la vie, de l’ingénieur, de la
terre, les systèmes d’expert …
2 Le logiciel SODAS (Symbolic Official Data Analysis System)
Le logiciel SODAS est un prototype public issu du projet européen éponyme de
EUROSTAT. Le projet implique 15 équipes provenant de 9 pays européens (Allemagne,
Belgique, Luxembourg, Grèce, Italie, Espagne, Portugal, France, Finlande) et a pour objectif
de fournir un cadre aux différentes avancées récentes et futures de l’analyse de données
symboliques.
Ainsi le but du logiciel SODAS est de construire à partir d’une base de données des
objets symboliques et de les analyser par des méthodes d’Analyse de Données Symboliques.
Nous pouvons citer par exemple les méthodes suivantes qui ont été généralisées aux données
symboliques :
-
L’analyse en composantes principales (PCM).
L’analyse de données factorielle discriminante (FDA).
Des méthodes de statistiques descriptives (histogrammes, dispersion …).
Des méthodes de classifications.
Les arbres de décision.
….
Projet SODAS – DATAMINING
TRUONG Tuong Vinh
Page 4
II Présentation de la base de données
Pour notre étude, nous allons nous appuyer sur une base de données existante.
(Alexandre Beruet – Avril 2003). Elle a été créée au cours de l’année 2003 et à partir de deux
sites internet :
- Le site Yahoo Sport:
http://fr.mcgi.yahoo.com/l1/flash/fr/index1.html
- Le site du journal l’Équipe: http://www.lequipe.fr/
Elle permet de décrire les footballeurs du championnat français évoluant dans un club
professionnel de Ligue 1. Un joueur est alors caractérisé par un nom, une taille en cm, un
poids en kg, son pays d’origine (pays), le nombre de matchs joués (nbMatchsJoués), le
nombre de buts (nbButs), le nombre de cartons jaunes et rouges reçus lors de la saison
(respectivement nbCartonsJ et nbCartonsR), l’équipe dans lequel il évolue. Un joueur peut
être international ou non et peut être aussi figuré parmi les 5 meilleurs joueurs du
championnat évoluant à son poste selon le quotidien L’Equipe (top5). Un club de football est
caractérisé par son ancienneté (age), une affluence moyenne, le nombre de buts marqués et
encaissés et de leurs classes respectifs (CLButs et CLContres), son classement lors de la
conception de la base de données. Un club peut être joué une coupe européenne (europe).
La base contient alors 3 relations:
Joueur (nom, pays, age, taille, poids, poste, nbMatchsJoués, nbButs, nbCartonsJ,
nbCartonsR, top5, international, equipe).
Club (nom,age, affluence, nbButs, CLButs, nbContres, CLContres, classement, europe)
Pays_Continents (pays, continent).
On a rajouté une autre relation pour introduire des classes d’âge :
ClasseAge (AgeMin, AgeMax, ClasseAge).
Le schéma UML ci-dessous modélise la base :
Club
nom
age
affluence
nbButs
CLButs
nbContres
CLContres
Classement
europe
Projet SODAS – DATAMINING
TRUONG Tuong Vinh
Joueur
Pays
nom
pays
age
taille
poids
poste
nbMatchsJoués
nbButs
nbCartonsJ
nbCartonsR
top5
international
equipe
pays
continent
Page 5
ClasseAge
AgeMin
AgeMax
ClasseAge
III Construction des objets symboliques
On considère les joueurs de football comme individus de notre projet. Le concept
qu’on va étudier est le celui des joueurs de football appartenant à une tranche d’âge
(ClasseAge) qui correspond ainsi à une classe d’individus. On va construire à partir du
logiciel DB2SO les descriptions symboliques de ces concepts par généralisation des
propriétés des individus qui leur sont associés.
Les données en entrée du logiciel sont issues de requêtes SQL sur cette base et sa
structure va permettre d’identifier les individus et les concepts. La table de données résultant
de la requête doit être organisée de telle façon à avoir en première colonne les individus et en
deuxième les concepts :
Individu Concept
Variables
Requête SQL
Base de données
relationnelle
…
Table de données résultant de la requête
On obtient alors le contexte de notre étude c’est-à-dire les individus, les variables qui
les décrivent et les concepts associés aux classes d’individus.
Nous avons utilisé la requête ci-dessous pour construire une table appropriée :
SELECT Joueur.nom, ClasseAge.Classe, Club.nom, Joueur.pays, Joueur.taille, Joueur.poids,
Joueur.poste, Joueur.nbMatchsJoues, Joueur.nbButs, Joueur.nbCartonsJ, Joueur.nbCartonsR,
Joueur.top5, Joueur.international
FROM ClasseAge, Club INNER JOIN (Pays_Continents INNER JOIN Joueur ON
Pays_Continents.pays=Joueur.pays) ON Club.nom=Joueur.equipe
WHERE Joueur.age BETWEEN ClasseAge.AgeMin AND ClasseAge.AgeMax;
DB2SO associe alors une description à chaque concept en créant des données dites
symboliques à partir des données initiales. On a représenté ci-dessous une partie de la table
obtenue :
Projet SODAS – DATAMINING
TRUONG Tuong Vinh
Page 6
Table de données symboliques
DB2SO a ainsi généré deux types de variables symboliques :
- des intervalles pour les variables quantitatives (taille, poids, nbMatchsJoués, nbButs,
nbCartonsR, nbCartonsJ).
- des variables multivaluées avec des poids pour les variables quantitatives (Club.nom,
Joueur.pays, Joueur.poste, top5, international).
A partir de la table générée par le logiciel, nous pouvons appliquer différentes méthodes
d’Analyse de Données Symboliques.
Projet SODAS – DATAMINING
TRUONG Tuong Vinh
Page 7
IV Analyse de données
1 La méthode SOE
La méthode SOE (Symbolic Object Editor) permet de représenter les objets
symboliques construits en fournissant la table de données symboliques ou des graphes 2D/3D.
Les représentations sous forme de graphe permettent de visualiser les intervalles, les variables
multivaluées avec ou non un poids, les dépendances logiques et les taxonomies. Chaque axe
représente une variable symbolique. Nous allons dans cette partie étudier quelques classes
d’individus (les tranches d’âges 18-19 ans, 24-25 ans, 28-29 ans et 34 ans et plus).
Classe d'âge 35+
Nous avons représentés le concept 35 ans et plus. Dans le graphe en 2D, les variables sont
reliés et ne montrent pas les détails des fréquences pour les variables qualitatives (par
exemple pays). Cependant, nous avons une image générale du concept. Ainsi nous pouvoir
voir que les joueurs de plus de 35 ans sont pour la majorité des défenseurs (56%), marquent
relativement peu de but (entre 0 et 5), ne sont pas internationaux mais ils sont présents dans 4
clubs Montpellier, Nice, Guingamp et Ajaccio. Cela montre une tendance observée dans le
football : les joueurs qui font une plus longue carrière sont en majorité des défenseurs et les
gardiens. Nous pouvons le vérifier sur le graphe 3D. Il semble que ce poste soit moins exposé
aux blessures et que l’expérience permet de compenser les problèmes physiques. Ce sont des
joueurs d’expériences mais la plupart n’ont pas été sélectionné dans leur équipe nationale.
Cependant, les internationaux sont peu nombreux (de même que pour le top5). Il n’est donc
pas étonnant de voir que le profil général des joueurs de toutes classes d’âges correspond à un
footballeur français non international et ne faisant pas parti du top 5.
Projet SODAS – DATAMINING
TRUONG Tuong Vinh
Page 8
Classe d'âge 35 ans et +
Nous voyons la fréquence relativement élevée de gardiens. Ce fait est à noter puisqu’il n’y a
qu’un seul gardien sur les onze joueurs d’une équipe.
Classe d’âges 18-19 ans
Pour la tranche d’âges 18-19 ans, nous avons la tendance inverse au niveau du poste. La
plupart sont des attaquants. Cependant, ils marquent peu. Ceci s’explique par le fait qu’ils
sont jeunes et qu’ils débutent dans le milieu professionnel. De plus nous pouvons remarqués
que la plupart de ces joueurs jouent dans le club de Montpellier, club réputé pour son centre
de formation. Nous pouvons constater la ressemblance du graphe avec la classe d’âge
précédente mise à part les clubs et le poste.
Projet SODAS – DATAMINING
TRUONG Tuong Vinh
Page 9
Classe d'âge 18-19 ans
Le graphe 3D montre qu’on a bien des fréquences pratiquement opposées à la première classe
d’âges. Les jeunes qui ont joués sont pour la plupart des attaquants ou des milieux. Or comme
pour les gardiens, une équipe possède moins d’attaquants que de milieux ou des défenseurs.
Le fait qu’il y ait 55% de joueurs professionnels qui jouent attaquant est assez remarquable.
Ceci montre que le poste de défenseur demande plus d’expérience et de maturité que ceux du
milieu ou en attaque. En effet, le jeu entre les défenseurs doit être plus coordonné (alignement
des défenseurs, couverture,…).
Classe d'âges 24-25 ans
Un joueur de la classe âge 24-25 ans est un défenseur qui joue à Nice. Nous pouvons
remarquer une différence notable par rapport aux autres classes et notamment pour le nombre
de buts marqués et le nombre de cartons jaunes. Nous pouvons juste supposer qu’à cet âge, les
joueurs jouent plus souvent que les 18-19 ans et les plus de 35 ans. On peut remarquer que le
graphe en 2D n’a pas mis en valeur une tendance moyenne puisque 12% des joueurs de cette
tranche d’âge jouent à Nice. Mais elle montre la valeur de la variable qui a le plus de poids.
Projet SODAS – DATAMINING
TRUONG Tuong Vinh
Page 10
Classe d'âge 28-29 ans
De nouveau, on peut constater qu’un joueur ayant entre 28-29 ans a plus de probabilité d’être
un milieu ou un défenseur qui joue à Troyes.
2 La méthode PCM
Nous allons utiliser dans cette section la méthode d’analyse en composantes
principales qui a été généralisée à des données symboliques. La variation interne fait
apparaître non plus des points sur le graphe mais des rectangles.
Le tableau de corrélation ci-dessous a été obtenu :
taille
poids
nbMatchsJoues
nbButs
nbCartonsJ
nbCartonsR
Axe1
-0.031
-0.126
0.128
0.667
0.450
0.662
Axe2
0.648
0.591
0.324
-0.069
0.356
-0.093
Axe3
-0.490
0.139
0.848
-0.036
-0.128
-0.037
Axe4
-0.504
0.750
-0.398
0.048
0.070
0.100
L’axe 1 semble être corrélé avec le nombre de buts et le nombre de cartons reçus (rouges ou
jaunes).
L’axe 2 semble être corrélé avec la taille et le poids, le troisième avec le nombre de matchs
joués et le quatrième avec le poids.
Cependant, on obtient aussi ce résultat :
PC1:
PC2:
PC3:
PC4:
%inertie
18.65
16.89
16.62
16.54
Projet SODAS – DATAMINING
TRUONG Tuong Vinh
Page 11
Ceci montre que l’information n’est pas vraiment résumée par le premier axe et que
les 4 premiers axes résument moins de 70% de l’information.
En choisissant les 2 premiers axes, on obtient le graphe suivant :
Méthode PCM: représentation des concepts dans un plan
Dans la méthode d’Analyse en Composantes Principales, on interprète les proximités
entre les variables. Dans le cas des données symboliques, il est plus délicat de le faire pour
des rectangles à part la représentation de 2 concepts disjoints et éloignés. Dans le cas des
classes d’âges, les rectangles sont imbriqués l’une dans l’autre, ce qui peut nous permettre de
faire une interprétation sur les variations, ce que l’on peut faire avec la méthode SOE. Nous
allons essayer de visualiser les centres des rectangles :
Méthode PCM:Représentation des concepts dans un plan
Dans ce cas la nous pouvons distinguer 3 classes relativement distinctes :
- Les joueurs ayant entre 26 et 29 ans.
- Les joueurs ayant entre 24 et 25 ans
Projet SODAS – DATAMINING
TRUONG Tuong Vinh
Page 12
-
Les joueurs ayant entre 18-13 ans et 30 ans et plus
Cette discrimination se fait essentiellement sur le premier axe c'est-à-dire par le nombre
de buts et de cartons reçus. Cependant, nous avons vu que l’information n’était pas vraiment
résumée sur les axes 1 et 2. Il semble donc difficile d’exploiter cette information.
Méthode PCM:Représentation des concepts dans un plan
Dans ce cas, aucune discrimination n’est possible. Tous les concepts se ressemblent
Les données symboliques ont introduit une certaine imprécision dans l’exploitation des
résultats de la méthode et particulièrement dans le cadre de notre étude. Apres examen de la
base de données, il s’avère qu’on ne puisse pas obtenir de résultats pertinents avec la base
actuelle en utilisant la méthode PCM.
3 La méthode TREE
Nous avons introduit dans cette partie la variable classe MoyenneButsParClasse, qui
représente la moyenne des buts marqués par les joueurs français jouant dans le championnat
français pour chaque tranche d’âges. Cette variable étant construite avec des requêtes SQL est
une variable quantitative. Nous avons donc du la transformer en variable quantitative. Les
variables explicatives sont les variables quantitatives suivantes:
- taille.
- poids.
- nbMatchjoues.
- nbButs.
- nbCartonsJ.
- nbCartonsR.
Projet SODAS – DATAMINING
TRUONG Tuong Vinh
Page 13
En appliquant, la méthode d’arbre de segmentation, nous obtenons l’arbre ci-dessous :
+---- < 2 >0,8 (
0.50
0.50
1.00
0.50 )
!
!----1[ nbCartonsR <= 1.000000]
!
+---- < 3 >1,7 (
0.50
0.50
0.00
0.50 )
1.00
1.00
0.33
0.50
0.00
0.00
0.67
1.50
Ainsi le nombre de cartons rouges est la variable qui explique le mieux la moyenne de
buts. Globalement, plus on prend de cartons rouges moins on marque. On peut supposer que
ceux qui prennent le plus de cartons rouges sont les défenseurs, qui logiquement marquent
peu.
4 La méthode DIV
La méthode DIV (divisive classification) permet de faire une classification des concepts
que DB2SO a construit. Nous allons dans un premier temps sélectionner les variables
qualitatives puis les variables quantitatives.
Dans le premier cas, le logiciel trouve deux classes :
Cluster 1 (n=2) :
"34+" "30-31"
Cluster 2 (n=7) :
"24-25" "22-23" "26-27" "18-19" "20-21" "28-29" "32-33"
Explicated inertia : 19.364655
THE CLUSTERING TREE :
--------------------- the number noted at each node indicates
the order of the divisions
- Ng <-> yes and Nd <-> no
+---- Classe 1 (Ng=2)
!
!----1- [poste <= Défenseur]
!
+---- Classe 2 (Nd=7)
Le logiciel a utilisé l’ordre suivant :
Poste (Initial order)
1- Gardien
2- Défenseur
3- Milieu
4- Attaquant
Projet SODAS – DATAMINING
TRUONG Tuong Vinh
Page 14
Ainsi on retrouve les résultats qu’on a pu observer avec SOE : Les défenseurs et les gardiens
sont dans des tranches d’âges « 30-31 » et « 34 et + », ce qui correspond à des âges
relativement avancés dans le milieu du football professionnel.
Dans le cas, où on utilise des variables continues, nous obtenons le résultats suivants :
Cluster 1 (n=4) :
"34+" "18-19" "30-31" "32-33"
Cluster 2 (n=5) :
"24-25" "22-23" "26-27" "20-21" "28-29"
Explicated inertia : 57.649832
THE CLUSTERING TREE :
--------------------- the number noted at each node indicates
the order of the divisions
- Ng <-> yes and Nd <-> no
+---- Classe 1 (Ng=4)
!
!----1- [nbButs <= 4.750000]
!
+---- Classe 2 (Nd=5)
On remarque dans ce cas, que le nombre de buts permet de discriminer les joueurs. Les plus
jeunes et les plus âgés semblent moins marquer. Cela s’explique par le fait que d’une part les
jeunes sont peu expérimentés et que les joueurs de plus de 30 ans sont pratiquement en fin de
carrière. De plus, nous avons vu qu’il y a une grande proportion de défenseurs avec un âge de
plus de 30 ans.
5 La méthode PYR
La méthode PYR permet de construire un ensemble de parties appelé « pyramide » à
partir des concepts. Nous avons appliqué la méthode sur toutes les variables. On obtient alors
la pyramide ci-dessous :
Where_the_labels_are_of_the_individuals_are:
1.="34+"
2.="24-25"
3.="22-23"
4.="26-27"
5.="18-19"
6.="20-21"
7.="30-31"
8.="28-29"
9.="32-33"
Where_the_labels_are_of_the_variables_are:
y1.=nom_1
Projet SODAS – DATAMINING
TRUONG Tuong Vinh
Page 15
y2.=pays
y3.=taille
y4.=poids
y5.=poste
y6.=nbMatchsJoues
y7.=nbButs
y8.=nbCartonsJ
y9.=nbCartonsR
y10.=top5
y11.=international
On obtient l’ordre suivant (en partant du haut):
34+,18-19 ;32-33 ;30-31 ;20-21 ;22-23 ;24-25 ;26-27 ;28-29.
On remarque que les classes successives d’âges sont « proches », ce qui semble
relativement normal. Cependant, la classe 18-19 fait exception car l’algorithme l’a réunie
avec la classe 34+. On peut supposer que c’est au niveau des performances que les deux
classes sont proches et en particuliers le nombre de buts et le nombre de matchs joués.
Projet SODAS – DATAMINING
TRUONG Tuong Vinh
Page 16
6 La méthode STAT
La méthode STAT regroupe en fait plusieurs méthodes provenant de la statistique
étendues aux objets symboliques. On a représenté les fréquences des concepts pour des tailles
de joueurs. Nous pouvons constater que globalement la taille moyenne des joueurs
appartenant aux différentes classes se situent entre 1,70 et 1,90.
Nous pouvons aussi utilisé un graphe biplot. Nous avons par exemple sélectionner la
taille et le nombre de buts.
Projet SODAS – DATAMINING
TRUONG Tuong Vinh
Page 17
Nous remarquons sur le graphe que les joueurs se trouvant dans la classe 26-29 marquent le
plus de buts. De plus, les personnes relativement de petite taille sont plutôt jeune. Nous
remarquons de nouveau la similarité entre les classes d’âges 34+ et 18-19 ans.
Exemple de graphe de capacités :
On voit que dans les classes d’âges, il y a peu de gardiens. Ceci semble logique vu le nombre
peu élevé de personnes jouant à ce poste par rapport aux effectifs d’une équipe. On remarque
que la variation pour le poste de milieu est moins élevée que pour les autres postes. D’une
part, on avait vu que beaucoup de personnes jouaient milieu de terrain et d’autre part, on peut
supposer au vu des autres méthodes que la variation pour les postes de défenseurs et
d’attaquants est due aux classes 18-19 et 34+.
Projet SODAS – DATAMINING
TRUONG Tuong Vinh
Page 18
Conclusion
Le projet SODAS nous a permis d’appliquer les méthodes vues en cours sur des cas
concrets (classes d’âges des footballeurs de Ligue 1 pour cette étude). Nous n’avons pu
utiliser qu’une ancienne version du logiciel. On a en effet rencontré quelques problèmes avec
la version 2.50.
On a quand même pu obtenir des résultats sur un bon nombre de méthodes. En
particuliers, nous avons pu mettre en évidence la « ressemblance » entre les classes d’âges 1819 ans et plus de 34 ans. Malheureusement, la méthode PCM n’a pas donné des résultats
exploitables. Ceci est certainement dû au fait que la base a été construite spécifiquement pour
les concepts équipe et non classes d’âges. Ceci montre que les outils du datamining ne
peuvent se passer de l’utilisateur pour la recherche des pépites dans la base de données. De
plus, les résultats obtenus n’ont que peu de valeur sans interprétations.
Le datamining rassemble ainsi des outils qui vont permettre à l’utilisateur ou à l’aider
à trouver des informations à partir d’une grande quantité d’informations. L’analyse de
Données Symboliques permet d’étendre l’analyse de données classiques en étudiant des
concepts et non des individus.
Projet SODAS – DATAMINING
TRUONG Tuong Vinh
Page 19

Documents pareils