rapport - Ceremade
Transcription
rapport - Ceremade
UNIVERSITE PARIS DAUPHINE DEA 127 : SYSTEME INTELLIGENT Projet Data Mining décembre 2004 Projet SODAS : Etude sur les footballeurs évoluant en Ligue 1 durant la saison 2002-2003 Responsable : Edwin DIDAY Etudiant : Vinh TRUONG SOMMAIRE INTRODUCTION............................................................................................................................................. 3 I PRESENTATION GENERALE .................................................................................................................... 4 1 BREF HISTORIQUE......................................................................................................................................... 4 2 LE LOGICIEL SODAS (SYMBOLIC OFFICIAL DATA ANALYSIS SYSTEM) ......................................................... 4 II PRESENTATION DE LA BASE DE DONNEES ....................................................................................... 5 III CONSTRUCTION DES OBJETS SYMBOLIQUES ................................................................................. 6 IV ANALYSE DE DONNEES .......................................................................................................................... 8 1 LA METHODE SOE........................................................................................................................................ 8 2 LA METHODE PCM ..................................................................................................................................... 11 3 LA METHODE TREE ................................................................................................................................... 13 4 LA METHODE DIV ...................................................................................................................................... 14 5 LA METHODE PYR ..................................................................................................................................... 15 6 LA METHODE STAT ................................................................................................................................... 17 CONCLUSION ............................................................................................................................................... 19 Projet SODAS – DATAMINING TRUONG Tuong Vinh Page 2 Introduction L’analyse de données ou Data Mining a pour objectif d’extraire des informations contenu dans un tableau de données, de les traiter et de les rendre visible, c'est-à-dire d’y expliciter des connaissances. Ainsi en reprenant la métaphore « Data Mining », la problématique de l’analyse de données est d’extraire des mines de connaissances enfouies sous des amas de données. Cependant elle ne donne pas de réponse à un problème donné mais elle fournit une représentation, une image simplifiée de l’ensemble des données permettant une confrontation entre elles. Nous allons dans le cadre du projet de Data Mining appliquer différentes méthodes sur une base de données concernant les équipes de football de la ligue professionnelle de football français. Pour cela, nous avons utilisé le logiciel SODAS, « un logiciel d’analyse de données symboliques». L’étude se porte en effet sur des concepts, qui sont dans le cadre de ce projet des classes d’individus. Nous allons dans un premier temps effectué un rapide historique du domaine ainsi qu’une présentation du logiciel. Par la suite, nous vous présenterons la base de données ainsi que les différents résultats obtenus. Projet SODAS – DATAMINING TRUONG Tuong Vinh Page 3 I Présentation générale 1 Bref historique Les bases théoriques de l’Analyse de Données ne sont pas récentes. Certaines ont ainsi été établies au début de siècle et dans les années 1930. Elles sont nées du domaine des statistiques et de la volonté de se libérer de certaines contraintes des statistiques considérées comme abusives. Cependant le domaine était essentiellement connu et appliqué des chercheurs et les moyens restèrent limités, même si le besoin de classer, de représenter, de reconnaître les données existe depuis longtemps et dans de nombreux domaines. L’avènement de l’informatique change la donne. Et cela pour deux raisons. D’une part, l’informatique permet et facilite de nombreux calculs complexes (visualisation des résultats). D’autre part, l’évolution des systèmes de base de données ainsi de leur gestion permettent un stockage d’une quantité de plus en plus grande de données. Rapidement, cette accumulation de données (souvent sous forme de tableaux) rend difficile leur exploitation dans leur ensemble. Cette problématique se retrouve en particuliers au niveau des entrepôts de données dans le cadre du décisionnel. Le data mining dépasse alors le cadre universitaire. L’Analyse de Données concernent aujourd’hui un grand nombre de domaine. On peut citer comme exemple la médecine, l’économie, les sciences de la vie, de l’ingénieur, de la terre, les systèmes d’expert … 2 Le logiciel SODAS (Symbolic Official Data Analysis System) Le logiciel SODAS est un prototype public issu du projet européen éponyme de EUROSTAT. Le projet implique 15 équipes provenant de 9 pays européens (Allemagne, Belgique, Luxembourg, Grèce, Italie, Espagne, Portugal, France, Finlande) et a pour objectif de fournir un cadre aux différentes avancées récentes et futures de l’analyse de données symboliques. Ainsi le but du logiciel SODAS est de construire à partir d’une base de données des objets symboliques et de les analyser par des méthodes d’Analyse de Données Symboliques. Nous pouvons citer par exemple les méthodes suivantes qui ont été généralisées aux données symboliques : - L’analyse en composantes principales (PCM). L’analyse de données factorielle discriminante (FDA). Des méthodes de statistiques descriptives (histogrammes, dispersion …). Des méthodes de classifications. Les arbres de décision. …. Projet SODAS – DATAMINING TRUONG Tuong Vinh Page 4 II Présentation de la base de données Pour notre étude, nous allons nous appuyer sur une base de données existante. (Alexandre Beruet – Avril 2003). Elle a été créée au cours de l’année 2003 et à partir de deux sites internet : - Le site Yahoo Sport: http://fr.mcgi.yahoo.com/l1/flash/fr/index1.html - Le site du journal l’Équipe: http://www.lequipe.fr/ Elle permet de décrire les footballeurs du championnat français évoluant dans un club professionnel de Ligue 1. Un joueur est alors caractérisé par un nom, une taille en cm, un poids en kg, son pays d’origine (pays), le nombre de matchs joués (nbMatchsJoués), le nombre de buts (nbButs), le nombre de cartons jaunes et rouges reçus lors de la saison (respectivement nbCartonsJ et nbCartonsR), l’équipe dans lequel il évolue. Un joueur peut être international ou non et peut être aussi figuré parmi les 5 meilleurs joueurs du championnat évoluant à son poste selon le quotidien L’Equipe (top5). Un club de football est caractérisé par son ancienneté (age), une affluence moyenne, le nombre de buts marqués et encaissés et de leurs classes respectifs (CLButs et CLContres), son classement lors de la conception de la base de données. Un club peut être joué une coupe européenne (europe). La base contient alors 3 relations: Joueur (nom, pays, age, taille, poids, poste, nbMatchsJoués, nbButs, nbCartonsJ, nbCartonsR, top5, international, equipe). Club (nom,age, affluence, nbButs, CLButs, nbContres, CLContres, classement, europe) Pays_Continents (pays, continent). On a rajouté une autre relation pour introduire des classes d’âge : ClasseAge (AgeMin, AgeMax, ClasseAge). Le schéma UML ci-dessous modélise la base : Club nom age affluence nbButs CLButs nbContres CLContres Classement europe Projet SODAS – DATAMINING TRUONG Tuong Vinh Joueur Pays nom pays age taille poids poste nbMatchsJoués nbButs nbCartonsJ nbCartonsR top5 international equipe pays continent Page 5 ClasseAge AgeMin AgeMax ClasseAge III Construction des objets symboliques On considère les joueurs de football comme individus de notre projet. Le concept qu’on va étudier est le celui des joueurs de football appartenant à une tranche d’âge (ClasseAge) qui correspond ainsi à une classe d’individus. On va construire à partir du logiciel DB2SO les descriptions symboliques de ces concepts par généralisation des propriétés des individus qui leur sont associés. Les données en entrée du logiciel sont issues de requêtes SQL sur cette base et sa structure va permettre d’identifier les individus et les concepts. La table de données résultant de la requête doit être organisée de telle façon à avoir en première colonne les individus et en deuxième les concepts : Individu Concept Variables Requête SQL Base de données relationnelle … Table de données résultant de la requête On obtient alors le contexte de notre étude c’est-à-dire les individus, les variables qui les décrivent et les concepts associés aux classes d’individus. Nous avons utilisé la requête ci-dessous pour construire une table appropriée : SELECT Joueur.nom, ClasseAge.Classe, Club.nom, Joueur.pays, Joueur.taille, Joueur.poids, Joueur.poste, Joueur.nbMatchsJoues, Joueur.nbButs, Joueur.nbCartonsJ, Joueur.nbCartonsR, Joueur.top5, Joueur.international FROM ClasseAge, Club INNER JOIN (Pays_Continents INNER JOIN Joueur ON Pays_Continents.pays=Joueur.pays) ON Club.nom=Joueur.equipe WHERE Joueur.age BETWEEN ClasseAge.AgeMin AND ClasseAge.AgeMax; DB2SO associe alors une description à chaque concept en créant des données dites symboliques à partir des données initiales. On a représenté ci-dessous une partie de la table obtenue : Projet SODAS – DATAMINING TRUONG Tuong Vinh Page 6 Table de données symboliques DB2SO a ainsi généré deux types de variables symboliques : - des intervalles pour les variables quantitatives (taille, poids, nbMatchsJoués, nbButs, nbCartonsR, nbCartonsJ). - des variables multivaluées avec des poids pour les variables quantitatives (Club.nom, Joueur.pays, Joueur.poste, top5, international). A partir de la table générée par le logiciel, nous pouvons appliquer différentes méthodes d’Analyse de Données Symboliques. Projet SODAS – DATAMINING TRUONG Tuong Vinh Page 7 IV Analyse de données 1 La méthode SOE La méthode SOE (Symbolic Object Editor) permet de représenter les objets symboliques construits en fournissant la table de données symboliques ou des graphes 2D/3D. Les représentations sous forme de graphe permettent de visualiser les intervalles, les variables multivaluées avec ou non un poids, les dépendances logiques et les taxonomies. Chaque axe représente une variable symbolique. Nous allons dans cette partie étudier quelques classes d’individus (les tranches d’âges 18-19 ans, 24-25 ans, 28-29 ans et 34 ans et plus). Classe d'âge 35+ Nous avons représentés le concept 35 ans et plus. Dans le graphe en 2D, les variables sont reliés et ne montrent pas les détails des fréquences pour les variables qualitatives (par exemple pays). Cependant, nous avons une image générale du concept. Ainsi nous pouvoir voir que les joueurs de plus de 35 ans sont pour la majorité des défenseurs (56%), marquent relativement peu de but (entre 0 et 5), ne sont pas internationaux mais ils sont présents dans 4 clubs Montpellier, Nice, Guingamp et Ajaccio. Cela montre une tendance observée dans le football : les joueurs qui font une plus longue carrière sont en majorité des défenseurs et les gardiens. Nous pouvons le vérifier sur le graphe 3D. Il semble que ce poste soit moins exposé aux blessures et que l’expérience permet de compenser les problèmes physiques. Ce sont des joueurs d’expériences mais la plupart n’ont pas été sélectionné dans leur équipe nationale. Cependant, les internationaux sont peu nombreux (de même que pour le top5). Il n’est donc pas étonnant de voir que le profil général des joueurs de toutes classes d’âges correspond à un footballeur français non international et ne faisant pas parti du top 5. Projet SODAS – DATAMINING TRUONG Tuong Vinh Page 8 Classe d'âge 35 ans et + Nous voyons la fréquence relativement élevée de gardiens. Ce fait est à noter puisqu’il n’y a qu’un seul gardien sur les onze joueurs d’une équipe. Classe d’âges 18-19 ans Pour la tranche d’âges 18-19 ans, nous avons la tendance inverse au niveau du poste. La plupart sont des attaquants. Cependant, ils marquent peu. Ceci s’explique par le fait qu’ils sont jeunes et qu’ils débutent dans le milieu professionnel. De plus nous pouvons remarqués que la plupart de ces joueurs jouent dans le club de Montpellier, club réputé pour son centre de formation. Nous pouvons constater la ressemblance du graphe avec la classe d’âge précédente mise à part les clubs et le poste. Projet SODAS – DATAMINING TRUONG Tuong Vinh Page 9 Classe d'âge 18-19 ans Le graphe 3D montre qu’on a bien des fréquences pratiquement opposées à la première classe d’âges. Les jeunes qui ont joués sont pour la plupart des attaquants ou des milieux. Or comme pour les gardiens, une équipe possède moins d’attaquants que de milieux ou des défenseurs. Le fait qu’il y ait 55% de joueurs professionnels qui jouent attaquant est assez remarquable. Ceci montre que le poste de défenseur demande plus d’expérience et de maturité que ceux du milieu ou en attaque. En effet, le jeu entre les défenseurs doit être plus coordonné (alignement des défenseurs, couverture,…). Classe d'âges 24-25 ans Un joueur de la classe âge 24-25 ans est un défenseur qui joue à Nice. Nous pouvons remarquer une différence notable par rapport aux autres classes et notamment pour le nombre de buts marqués et le nombre de cartons jaunes. Nous pouvons juste supposer qu’à cet âge, les joueurs jouent plus souvent que les 18-19 ans et les plus de 35 ans. On peut remarquer que le graphe en 2D n’a pas mis en valeur une tendance moyenne puisque 12% des joueurs de cette tranche d’âge jouent à Nice. Mais elle montre la valeur de la variable qui a le plus de poids. Projet SODAS – DATAMINING TRUONG Tuong Vinh Page 10 Classe d'âge 28-29 ans De nouveau, on peut constater qu’un joueur ayant entre 28-29 ans a plus de probabilité d’être un milieu ou un défenseur qui joue à Troyes. 2 La méthode PCM Nous allons utiliser dans cette section la méthode d’analyse en composantes principales qui a été généralisée à des données symboliques. La variation interne fait apparaître non plus des points sur le graphe mais des rectangles. Le tableau de corrélation ci-dessous a été obtenu : taille poids nbMatchsJoues nbButs nbCartonsJ nbCartonsR Axe1 -0.031 -0.126 0.128 0.667 0.450 0.662 Axe2 0.648 0.591 0.324 -0.069 0.356 -0.093 Axe3 -0.490 0.139 0.848 -0.036 -0.128 -0.037 Axe4 -0.504 0.750 -0.398 0.048 0.070 0.100 L’axe 1 semble être corrélé avec le nombre de buts et le nombre de cartons reçus (rouges ou jaunes). L’axe 2 semble être corrélé avec la taille et le poids, le troisième avec le nombre de matchs joués et le quatrième avec le poids. Cependant, on obtient aussi ce résultat : PC1: PC2: PC3: PC4: %inertie 18.65 16.89 16.62 16.54 Projet SODAS – DATAMINING TRUONG Tuong Vinh Page 11 Ceci montre que l’information n’est pas vraiment résumée par le premier axe et que les 4 premiers axes résument moins de 70% de l’information. En choisissant les 2 premiers axes, on obtient le graphe suivant : Méthode PCM: représentation des concepts dans un plan Dans la méthode d’Analyse en Composantes Principales, on interprète les proximités entre les variables. Dans le cas des données symboliques, il est plus délicat de le faire pour des rectangles à part la représentation de 2 concepts disjoints et éloignés. Dans le cas des classes d’âges, les rectangles sont imbriqués l’une dans l’autre, ce qui peut nous permettre de faire une interprétation sur les variations, ce que l’on peut faire avec la méthode SOE. Nous allons essayer de visualiser les centres des rectangles : Méthode PCM:Représentation des concepts dans un plan Dans ce cas la nous pouvons distinguer 3 classes relativement distinctes : - Les joueurs ayant entre 26 et 29 ans. - Les joueurs ayant entre 24 et 25 ans Projet SODAS – DATAMINING TRUONG Tuong Vinh Page 12 - Les joueurs ayant entre 18-13 ans et 30 ans et plus Cette discrimination se fait essentiellement sur le premier axe c'est-à-dire par le nombre de buts et de cartons reçus. Cependant, nous avons vu que l’information n’était pas vraiment résumée sur les axes 1 et 2. Il semble donc difficile d’exploiter cette information. Méthode PCM:Représentation des concepts dans un plan Dans ce cas, aucune discrimination n’est possible. Tous les concepts se ressemblent Les données symboliques ont introduit une certaine imprécision dans l’exploitation des résultats de la méthode et particulièrement dans le cadre de notre étude. Apres examen de la base de données, il s’avère qu’on ne puisse pas obtenir de résultats pertinents avec la base actuelle en utilisant la méthode PCM. 3 La méthode TREE Nous avons introduit dans cette partie la variable classe MoyenneButsParClasse, qui représente la moyenne des buts marqués par les joueurs français jouant dans le championnat français pour chaque tranche d’âges. Cette variable étant construite avec des requêtes SQL est une variable quantitative. Nous avons donc du la transformer en variable quantitative. Les variables explicatives sont les variables quantitatives suivantes: - taille. - poids. - nbMatchjoues. - nbButs. - nbCartonsJ. - nbCartonsR. Projet SODAS – DATAMINING TRUONG Tuong Vinh Page 13 En appliquant, la méthode d’arbre de segmentation, nous obtenons l’arbre ci-dessous : +---- < 2 >0,8 ( 0.50 0.50 1.00 0.50 ) ! !----1[ nbCartonsR <= 1.000000] ! +---- < 3 >1,7 ( 0.50 0.50 0.00 0.50 ) 1.00 1.00 0.33 0.50 0.00 0.00 0.67 1.50 Ainsi le nombre de cartons rouges est la variable qui explique le mieux la moyenne de buts. Globalement, plus on prend de cartons rouges moins on marque. On peut supposer que ceux qui prennent le plus de cartons rouges sont les défenseurs, qui logiquement marquent peu. 4 La méthode DIV La méthode DIV (divisive classification) permet de faire une classification des concepts que DB2SO a construit. Nous allons dans un premier temps sélectionner les variables qualitatives puis les variables quantitatives. Dans le premier cas, le logiciel trouve deux classes : Cluster 1 (n=2) : "34+" "30-31" Cluster 2 (n=7) : "24-25" "22-23" "26-27" "18-19" "20-21" "28-29" "32-33" Explicated inertia : 19.364655 THE CLUSTERING TREE : --------------------- the number noted at each node indicates the order of the divisions - Ng <-> yes and Nd <-> no +---- Classe 1 (Ng=2) ! !----1- [poste <= Défenseur] ! +---- Classe 2 (Nd=7) Le logiciel a utilisé l’ordre suivant : Poste (Initial order) 1- Gardien 2- Défenseur 3- Milieu 4- Attaquant Projet SODAS – DATAMINING TRUONG Tuong Vinh Page 14 Ainsi on retrouve les résultats qu’on a pu observer avec SOE : Les défenseurs et les gardiens sont dans des tranches d’âges « 30-31 » et « 34 et + », ce qui correspond à des âges relativement avancés dans le milieu du football professionnel. Dans le cas, où on utilise des variables continues, nous obtenons le résultats suivants : Cluster 1 (n=4) : "34+" "18-19" "30-31" "32-33" Cluster 2 (n=5) : "24-25" "22-23" "26-27" "20-21" "28-29" Explicated inertia : 57.649832 THE CLUSTERING TREE : --------------------- the number noted at each node indicates the order of the divisions - Ng <-> yes and Nd <-> no +---- Classe 1 (Ng=4) ! !----1- [nbButs <= 4.750000] ! +---- Classe 2 (Nd=5) On remarque dans ce cas, que le nombre de buts permet de discriminer les joueurs. Les plus jeunes et les plus âgés semblent moins marquer. Cela s’explique par le fait que d’une part les jeunes sont peu expérimentés et que les joueurs de plus de 30 ans sont pratiquement en fin de carrière. De plus, nous avons vu qu’il y a une grande proportion de défenseurs avec un âge de plus de 30 ans. 5 La méthode PYR La méthode PYR permet de construire un ensemble de parties appelé « pyramide » à partir des concepts. Nous avons appliqué la méthode sur toutes les variables. On obtient alors la pyramide ci-dessous : Where_the_labels_are_of_the_individuals_are: 1.="34+" 2.="24-25" 3.="22-23" 4.="26-27" 5.="18-19" 6.="20-21" 7.="30-31" 8.="28-29" 9.="32-33" Where_the_labels_are_of_the_variables_are: y1.=nom_1 Projet SODAS – DATAMINING TRUONG Tuong Vinh Page 15 y2.=pays y3.=taille y4.=poids y5.=poste y6.=nbMatchsJoues y7.=nbButs y8.=nbCartonsJ y9.=nbCartonsR y10.=top5 y11.=international On obtient l’ordre suivant (en partant du haut): 34+,18-19 ;32-33 ;30-31 ;20-21 ;22-23 ;24-25 ;26-27 ;28-29. On remarque que les classes successives d’âges sont « proches », ce qui semble relativement normal. Cependant, la classe 18-19 fait exception car l’algorithme l’a réunie avec la classe 34+. On peut supposer que c’est au niveau des performances que les deux classes sont proches et en particuliers le nombre de buts et le nombre de matchs joués. Projet SODAS – DATAMINING TRUONG Tuong Vinh Page 16 6 La méthode STAT La méthode STAT regroupe en fait plusieurs méthodes provenant de la statistique étendues aux objets symboliques. On a représenté les fréquences des concepts pour des tailles de joueurs. Nous pouvons constater que globalement la taille moyenne des joueurs appartenant aux différentes classes se situent entre 1,70 et 1,90. Nous pouvons aussi utilisé un graphe biplot. Nous avons par exemple sélectionner la taille et le nombre de buts. Projet SODAS – DATAMINING TRUONG Tuong Vinh Page 17 Nous remarquons sur le graphe que les joueurs se trouvant dans la classe 26-29 marquent le plus de buts. De plus, les personnes relativement de petite taille sont plutôt jeune. Nous remarquons de nouveau la similarité entre les classes d’âges 34+ et 18-19 ans. Exemple de graphe de capacités : On voit que dans les classes d’âges, il y a peu de gardiens. Ceci semble logique vu le nombre peu élevé de personnes jouant à ce poste par rapport aux effectifs d’une équipe. On remarque que la variation pour le poste de milieu est moins élevée que pour les autres postes. D’une part, on avait vu que beaucoup de personnes jouaient milieu de terrain et d’autre part, on peut supposer au vu des autres méthodes que la variation pour les postes de défenseurs et d’attaquants est due aux classes 18-19 et 34+. Projet SODAS – DATAMINING TRUONG Tuong Vinh Page 18 Conclusion Le projet SODAS nous a permis d’appliquer les méthodes vues en cours sur des cas concrets (classes d’âges des footballeurs de Ligue 1 pour cette étude). Nous n’avons pu utiliser qu’une ancienne version du logiciel. On a en effet rencontré quelques problèmes avec la version 2.50. On a quand même pu obtenir des résultats sur un bon nombre de méthodes. En particuliers, nous avons pu mettre en évidence la « ressemblance » entre les classes d’âges 1819 ans et plus de 34 ans. Malheureusement, la méthode PCM n’a pas donné des résultats exploitables. Ceci est certainement dû au fait que la base a été construite spécifiquement pour les concepts équipe et non classes d’âges. Ceci montre que les outils du datamining ne peuvent se passer de l’utilisateur pour la recherche des pépites dans la base de données. De plus, les résultats obtenus n’ont que peu de valeur sans interprétations. Le datamining rassemble ainsi des outils qui vont permettre à l’utilisateur ou à l’aider à trouver des informations à partir d’une grande quantité d’informations. L’analyse de Données Symboliques permet d’étendre l’analyse de données classiques en étudiant des concepts et non des individus. Projet SODAS – DATAMINING TRUONG Tuong Vinh Page 19