1 CATHERIN GABRIEL MASTER 2 ISF
Transcription
1 CATHERIN GABRIEL MASTER 2 ISF
CATHERIN GABRIEL MASTER 2 ISF 1 SOMMAIRE I) INTRODUCTION............................................................................................................ 3 II) PRESENTATION GENERALE DU DATA MINING ET DU LOGICIEL SODAS ...................................................................................................................................... 4 1. Intérêt du Data Mining ............................................................................................. 4 2. Analyse des données symboliques ...................................................................... 6 3. Les principaux logiciels .......................................................................................... 8 4. Le projet SODAS ....................................................................................................... 9 III) APPLICATION : ANALYSE DE DONNEES SUR LA FORMULE 1 ............ 17 1. Présentation de la problématique ....................................................................... 17 2. Présentation des données ..................................................................................... 17 a) La construction de notre base......................................................................... 17 b) Présentation des trois tables de F1.mdb...................................................... 18 c) Schéma relationnel des trois tables de F1.mdb ......................................... 21 d) Présentation des requêtes effectuées sous F1.mdb ................................. 21 3. Extraction de données symboliques à partir de notre base de données relationnelle : utilisation de DB2SO........................................................................... 24 a) Qu’est-ce DB2SO ? ............................................................................................ 24 b) Mise en pratique détaillée avec notre base concernant la formule 1 .. 24 4. Exemples de méthodes sous SODAS ................................................................ 31 a) Avertissement ...................................................................................................... 31 b) La méthode VIEW : viewer............................................................................... 31 i) Présentation de la méthode VIEW .............................................................. 31 ii) Résultats obtenus avec VIEW ...................................................................... 32 c) La méthode D-STAT : Descriptive Statitics............................................... 35 i) Présentation de la méthode D-STAT........................................................ 35 ii) Résultats obtenus avec D-STAT................................................................ 35 d) La méthode HIPYR : Hierarchical and Pyramidal Clustering ................. 37 i) Présentation de la méthode HIPYR ............................................................ 37 ii) Résultats obtenus avec HIPYR .................................................................... 38 e) la méthode TREE : Decision Tree.................................................................. 39 i) Présentation de la méthode TREE ............................................................. 39 ii) Résultats obtenus avec TREE ..................................................................... 39 f) la méthode DIV : Decisive Classification ..................................................... 40 i) Présentation de la méthode DIV ................................................................. 40 ii) Résultats obtenus avec DIV ......................................................................... 40 g) la méthode SCLUST : Dynamic Clustering .................................................. 42 i) Présentation de la méthode SCLUST ........................................................ 42 ii) Résultats obtenus avec SCLUST ................................................................ 43 h) la méthode DISS : Descriptive Measures ..................................................... 45 i) Présentation de la méthode DISS ............................................................... 45 ii) Résultats obtenus avec DISS ....................................................................... 46 IV) CONCLUSION ........................................................................................................... 47 V) ANNEXES .................................................................................................................. 48 2 I) INTRODUCTION Le Data Mining est un outil de productivité assez récent, puisqu’il a commencé à s’implanter dans les entreprises en 1997. Dès lors, ce formidable outil a maturé et est présent dans la plupart des entreprises sous différents positionnements. Le Data Mining est généralement défini de quatre manières : C’est l’extraction d’informations originales, auparavant inconnues, potentiellement utiles à partir des données. Dans ce cas, cela revient à dire que le Data Mining est un outil qui permet de formaliser les connaissances déduites des données. C’est la découverte de nouvelles corrélations : tendances et modèles par le tamisage d’un large volume de données. Ainsi, le Data Mining rend possible la compréhension des interactions entre les individus, et dans une certaine mesure, il permet de prédire l’avenir. C’est un processus d’aide à la décision où les utilisateurs cherchent des modes d’interprétation dans leurs données. En ce sens, le Data Mining est un mode de traitement des données automatique. C’est l’exploration et l’analyse par des moyens automatiques d’un large volume de données afin d’y découvrir des tendances et des règles. Le Data Mining s’impose donc de nos jours dans le monde des entreprises, puisque ces dernières font face depuis quelques années à une augmentation extraordinaire de leur base de données. Ce phénomène s’est en particulier accéléré avec le développement de l’Internet. Dans le cadre de notre projet, nous utiliserons une branche du Data Mining en pleine expansion : l’analyse des données symboliques, avec notamment l’utilisation du logiciel de recherche SODAS. Notre étude portera sur l’analyse des écuries de formule 1 en 2005. Nous chercherons entre autres à décrire l’équipe type de formule 1 et à comprendre pourquoi Renault a remporté le championnat constructeur 2005, détrônant au passage Ferrari. Dans un premier temps, nous présenterons succinctement le Data Mining et ses différentes approches, les logiciels du Data Mining où nous nous attarderons sur le logiciel SODAS, puis dans un second temps nous présenterons notre étude concernant la formule 1 en 2005. 3 II) PRESENTATION GENERALE DU DATA MINING ET DU LOGICIEL SODAS 1. Intérêt du Data Mining Comme nous l’avons précédemment mentionné dans l’introduction, le Data Mining répond à une demande des entreprises en gestion, de préférence simplifiée, de bases de données toujours plus importantes en taille (en terme d’individus, mais aussi de variables) appelées Data Warehouse, ou autrement dit entrepôts de données. Cette demande en gestion de Data Warehouse s’accompagne également d’un désir d’extraire de ces données stockées des informations qui pourraient s’avérer utiles pour, par exemple, mieux connaître sa clientèle afin d’adapter son offre. En effet, autrefois, non seulement il fallait des ingénieurs hautement qualifiés afin de programmer les systèmes d’interrogation des données, mais aussi, seules les statistiques inférentielles, telles que des tris à plat, des moyennes, des écarts types ou autres, étaient employées pour essayer d’extraire des connaissances ou informations à partir de la base de données. Les domaines d’application du Data Mining sont aussi diverses qu’utiles pour les entreprises. Nous proposons ci-dessous un listing des grandes problématiques par secteur que les entreprises veulent aborder : Dans la grande distribution : l’objectif de Data Mining est de mesurer l’association produit (quelle est la probabilité d’acheter le produit B sachant que le client a acheté le produit A ?) afin d’optimiser l’espace dans le magasin, et d’améliorer la gestion des stocks. Dans la vente par correspondance : le Data Mining répond à une problématique de segmentation (mieux connaître ses clients) et de scoring tels que l’étude du score de réponse (calcul de probabilité d’acheter après un stimulus commercial). Dans la téléphonie : les Data Miners s’attachent particulièrement à l’étude des scores de Churn (ou score d’infidélité) et de valeur (déterminer le potentiel en dépenses des clients) afin d’animer les clients intéressants pour l’entreprise, i.e. ceux qui dépensent beaucoup. Etc … 4 Ainsi, à travers ces exemples, nous pouvons remarquer que le Data Mining répond à diverses problématiques que nous résumons par un schéma des applications du Data Mining : A travers ce schéma, il est clair que le Data Mining est un outil de productivité formidable, dont les applications peuvent être utiles dans toutes sortes d’entreprises. Nous proposons maintenant un schéma récapitulant les outils statistiques et les outils d’analyse automatique en ce qui concerne la partie analyse des données : Ce schéma plus difficile à comprendre que le précédent illustre les différentes techniques statistiques envisageables pour analyser les données. 5 2. Analyse des données symboliques Une nouvelle tendance est apparue dans le Data Mining : l’analyse des données symboliques dont le principe réside sur les dimensions de concepts et d’individus. En effet, l’objectif de l’analyse des données symboliques est de résumer les données à l’aide de concepts sous-jacents suffisamment décrits, tels que les écuries de Formule 1 dans le cadre de notre projet, afin de mieux les appréhender et d’en extraire de nouvelles connaissances, sachant que l’on dispose également de la description des individus (ici les pilotes). Notons que les données traitées de cette manière sont généralement plus complexes que celles utilisées en statistiques dites classiques. C’est pourquoi on les dit ‘symboliques’ : elles expriment habituellement la variation interne inéluctable des concepts et sont structurées. Ainsi, il devient évident que l’analyse des données symboliques prend une place de plus en plus importante dans le traitement de telles données, et remplace petit à petit ou tout du moins complète l’analyse des données exploratoire et plus généralement la statistique multidimensionnelle. Dans le cadre de notre projet, nous nous intéresserons uniquement à l’analyse des ‘atomes’ ou ‘unités’ de connaissance, i. e. les individus ou les concepts munis de leur description, initialement considérés comme des entités séparées les unes des autres, sans lien apparent, que nous devons organiser de façon automatique. Voici les caractéristiques et les ouvertures principales de l’analyse des données symboliques par rapport aux approches classiques (source : http://www.ceremade.dauphine.fr/%7Etouati/sodaspresentation.htm) : - Elle s'applique à des données plus complexes. En entrée, elle part de données symboliques (variables à valeurs multiples, intervalle, histogramme, distribution de probabilité, de possibilité, capacité etc.,) munies de règles et de taxonomies, et peut fournir en sortie des connaissances nouvelles sous forme d'objets symboliques présentant les avantages qui vont être développés ci-dessous. - Elle utilise des outils adaptés à la manipulation d'objets symboliques de généralisation et spécialisation, d'ordre et de treillis, de calcul d'extension, d'intension et de mesures de ressemblances ou d'adéquation tenant compte des connaissances sous-jacentes basées sur les règles et taxonomies. - Elle fournit des représentations graphiques exprimant entre autres la variation interne des descriptions symboliques. Par exemple, en analyse 6 factorielle, un objet symbolique sera représenté par une zone (ellemême exprimable sous forme d'objet symbolique) et pas seulement par un point. Les principaux avantages des objets symboliques peuvent se résumer comme suit : - Ils fournissent un résumé de la base plus riche que les données agrégées habituelles (car tenant compte de la variation interne et des règles sous-jacentes aux classes décrites, ainsi que des taxonomies fournies, on est loin des simples centres de gravités) - Ils sont explicatifs, puisqu'ils s'expriment sous forme de propriétés des variables initiales ou de variables significatives obtenues (axes factoriels), donc en termes proches de l'utilisateur. - En utilisant leur partie descriptive, ils permettent de construire un nouveau tableau de données de plus haut niveau sur lequel une analyse de données symbolique de second niveau peut s'appliquer. - Afin de modéliser des concepts, ils peuvent aisément exprimer des propriétés joignant des variables provenant de plusieurs tableaux associés à différentes populations. Par exemple, pour construire un objet symbolique associé à une ville, on peut utiliser des propriétés issues d'une relation décrivant les habitants de chaque ville et une autre relation décrivant les foyers de chaque ville. - Plutôt que de fusionner plusieurs bases pour étudier ensuite la base synthétique obtenue, il peut être plus avantageux d'extraire d'abord des objets symboliques de chaque base puis d'étudier l'ensemble des objets symboliques ainsi obtenus. - Ils peuvent être facilement transformés sous forme de requête d'une Base de Données. Ceci a au moins les deux conséquences suivantes : Ils peuvent donc propager les concepts qu'ils représentent d'une base à une autre (par exemple, d'un pays à l'autre de la communauté européenne, EUROSTAT ayant fait un grand effort de normalisation des différents types d'enquête sociodémographiques). Alors qu'habituellement on pose des questions sous forme de requête à la base de données pour fournir des informations intéressant l'utilisateur, les objets symboliques formés à partir de la base par les outils de l'Analyse des Données Symboliques permettent à l'inverse de définir des requêtes et donc de fournir des questions qui peuvent être pertinentes à l'utilisateur. 7 3. Les principaux logiciels Afin d’appréhender l’étude et l’analyse de Data Warehouse, plusieurs logiciels ont été développé, et chacun a sa spécialité. Nous proposons ici une liste non exhaustive des principaux logiciels usités pour le Data Mining avec leur(s) spécialité(s) : Notre étude se fera sous le logiciel SODAS que nous présentons donc de manière plus approfondie au paragraphe suivant : 8 4. Le projet SODAS Le contexte scientifique SODAS signifie Symbolic Object Data Analysis System, ou en français : Structures de classification ordonnées et discrimination : algorithmes et simulations. Notons que le projet SODAS a été arrêté le 31 décembre 1999 pour être remplacé par le projet ADOPT. L’objectif du projet SODAS est à partir de données observées, qui peuvent être parfois de grande taille et munies de connaissances expertes, d'en extraire une vue concise et structurée, ainsi que des représentations facilement interprétables par l'utilisateur. Le thème privilégié étant la recherche d'une structure de classification, les applications sont nombreuses et dans des domaines aussi variés que le traitement d'enquêtes, la reconnaissances de formes, le génome humain, l'environnement, l'océanographie. Le projet Esprit SODAS appartient au programme Dosis de la DG III et est piloté par EUROSTAT. L'objectif de ce projet est de faciliter l'utilisation des techniques d'analyse des données numériques et/ou symboliques dans les grands organismes de statistiques européens. Un logiciel du même nom a été mis au point afin de répondre à ces problématiques, issu de la collaboration entre plusieurs organismes de l’Europe entière : CISIA, France DIB-UNIBA, Italie DMS, Italie EDF France FUNDP-INFO, Belgique FUNDP-MATHS, Belgique INRIA, France LEAD, Espagne LISE DAUPHINE, France THOMSON, France UCM, Espagne RWTH, Allemagne 9 Voici les axes de recherche de projet SODAS, projet pour lequel le logiciel a été développé : Nouvelles représentations de données. Il s'agit de proposer des outils mathématiques et informatiques permettant de modéliser et traiter des objets complexes, i.e. des données structurées exprimant parfois une variation interne, et qui ne sont pas représentables naturellement par un point dans un espace euclidien. Structures classificatoires. o Utilisation des arbres de décision sur des ensembles d'objets complexes et optimisation de cette fonction de décision par des algorithmes neuronaux. o Caractérisations théoriques et développement de méthodologies permettant la mise en évidence de structures de classification respectant des contraintes d'ordre. Validation des résultats d'une classification. L'approche actuelle est de tester l'existence de la structure obtenue, à l'aide de nombreuses simulations effectuées sous l'hypothèse nulle d'une absence de cette structure. La sensibilité des résultats aux variations ou perturbations sur les données, est évaluée par des techniques de ré-échantillonnage. Le logiciel SODAS : Le principe de conception de ce logiciel consiste à construire un tableau de données symboliques, parfois muni de règles et de taxonomies, à partir d’une base de données, dans le but de décrire des concepts résumant un vaste ensemble de données, analyser ensuite ce tableau pour en extraire des connaissances par des méthodes d’analyse de données symboliques. Ce logiciel est un prototype (logiciel de recherche) téléchargeable gratuitement à l’adresse suivante : http://www.ceremade.dauphine.fr/~touati/sodas-pagegarde.htm où sont disponibles deux versions. Dans le cadre de notre projet, nous avons utilisé la version 2.5. 10 Voici les principales étapes que nous suivrons et par conséquent détaillerons au cours de notre projet : Construction de la base de données relationnelle sous ORACLE, ACCESS, …. Dans le cadre de notre projet nous utiliserons ACCESS. Définir un contexte par : - des unités statistiques de premier niveau, ici les pilotes, et les variables qui les décrivent, - des concepts, ici les écuries, et les variables qui les décrivent dont les valeurs peuvent être des histogrammes, des intervalles, des valeurs uniques, etc, ... selon le type de variable et le choix de l’utilisateur. Notons que chaque unité de premier niveau est associée à un concept, i. e. une unité de deuxième niveau : chaque pilote est membre d’une écurie, et que ce contexte est défini par des requêtes effectuées dans la base. Ceci forme donc les tableaux nécessaires à DB2SO. Construction d’un tableau de données symboliques dont les nouvelles unités statistiques sont les concepts décrits par une généralisation des propriétés des unités statistiques de premier niveau qui leur sont associés par l’importation des données dans DB2SO Insertion des méthodes disponibles sous SODAS et paramétrage de ces dernières avant de les exécuter, et d’interpréter alors les résultats pour chacune d’entre elles. 11 Voici un schéma récapitulant les étapes de mise en œuvre d’analyse de données symboliques par le logiciel SODAS : Interface du logiciel SODAS : 12 Avant toute chose, nous rappelons qu’il faut importer la base de données (sous ACCESS) choisie pour l’étude à l’aide de DB2SO (Data Base To Symbolic Objects). La procédure à suivre sera amplement détaillée au paragraphe concernant l’importation de notre base F1.mdb. Tout d’abord, nous proposons de définir une filière sous SODAS : c’est une représentation graphique des calculs que l’on souhaite effectuer et qu’il est possible de visionner dans la fenêtre Chaining. Voici la procédure suivie pour créer une filière : Chargement de la base : Voici comment on procède : Puis s’ouvre alors une fenêtre dans laquelle nous devons indiquer où se trouve la base à importer dont l’extension est .sds et la sélectionner : Une fois cette étape effectuée, la filière va nous permettre de pouvoir exécuter des méthodes sur cette base. A ce moment là, l’interface graphique de la filière est la suivante : Le nom de la base sur laquelle la filière s’appuiera est F1.sds. 13 Insertion d’une méthode On clique sur l’onglet Method puis Insert Method. On obtient suivante : alors la fenêtre Il ne reste plus qu’à faire glisser la méthode que l’on veut exécuter avec la souris. Les méthodes étant choisies dans la fenêtre Methods. Elles sont regroupées par ‘thème’. Nous prenons l’exemple de la méthode View (thème : Descriptive Statistic dont l’explication et l’interprétation des résultats seront faites ultérieurement : Nous remarquons que les méthodes sont numérotées. Ainsi, la méthode 1 est la méthode View. Le ‘carré’ de cette méthode est gris, ceci signifie que la méthode n’est pas encore paramétrée. En effet, le paramétrage des méthodes est une étape nécessaire pour pouvoir l’exécuter. Paramétrage d’une méthode Une fois la méthode ‘glissée’, nous devons la paramétrer. Pour cela, il suffit de faire un clic droit sur la ‘carré’ de la méthode, ici View puis de cliquer sur Parameters. Nous obtenons alors la fenêtre suivante : 14 Il ne reste plus qu’à rentrer les paramètres voulus et de faire OK. Nous obtenons suivante : alors la fenêtre Nous remarquons que le carré de la méthode est rouge, ce qui signifie que la méthode a été paramétrée et est donc exécutable. Cependant, nous devons enregistrer la filière préalablement à toute exécution de la filière. Pour cela, on clique sur l’onglet Chaining puis sur Save Chaining, nous devons alors indiquer un emplacement de sauvegarde pour la filière. Une fois la filière enregistrée et nommée, nous pouvons exécuter la méthode en faisant un clic droit sur la méthode puis Run method, ou si l’on veut paramétrer toutes les méthodes puis les exécuter en même temps, on doit cliquer sur l’onglet Chaining puis sur Run Chaining. 15 Nous obtenons alors un carré copiant une feuille dactylographiée sur fond jaune qui permet d’accéder aux résultats numériques par un double clic, et un carré avec un graphe sur fond rouge dans le cas de cette méthode, qui permet d’afficher les graphiques de cette méthode par un double clic. Résultat final Après exécution de toutes les méthodes nous obtenons la fenêtre suivante : 16 III) APPLICATION : ANALYSE DE DONNEES SUR LA FORMULE 1 1. Présentation de la problématique Comme nous l’avons mentionné dans l’introduction, nous cherchons dans le cadre de notre projet effectuer l’analyse des données symboliques, à l’aide du logiciel SODAS, du championnat 2005 de formule 1. 2. Présentation des données a) La construction de notre base La base de données F1.mdb est une base de données relationnelle sous format Access. Nous avons entièrement créé cette base à partir des données trouvées sur les sites Internet suivants : - http://www.f1-legend.com/ - http://www.f1classement.com/ - http://fr.wikipedia.org/wiki/Championnat_du_monde_de_Formu le_1_2005 - http://f1.lalibre.be/ - http://europe1r.football365.fr/Sports_Mecaniques/F1/?module =pilotes&id=32 - http://fr.sports.yahoo.com/f1/drivers/626.html La construction de cette base a été l’étape la plus longue et la plus fastidieuse de notre projet. En effet, certains renseignements tels que la situation maritale des pilotes a constitué une tâche assez ardue, car ceci a trait à la vie personnelle des pilotes, or ce n’est que rarement le propos dans les sites consacrés à la F1, même sur les sites de fans. Ce type d’information peut paraître futile, mais ceci nous permet de créer des variables qualitatives, essentielles pour montrer l’intérêt du logiciel SODAS. Une fois les informations désirées recueillies, nous avons donc construit notre base de données relationnelle qui nous servira de support tout au long de notre étude. Cette base de données regroupe ainsi les 10 écuries concurrentes lors du championnat et leurs 25 pilotes. Nous proposons aux paragraphes suivants le détail de la base de données F1.mdb. 17 b) Présentation des trois tables de F1.mdb Nous présentons tout d’abord un listing complet des trois tables constituant notre base de données, avant de présenter les relations qui les lient entre elles. La table ecuries Nous voyons grâce au Mode Création le libellé de chaque variable descriptive de la table ecuries. nom ecurie : nom de l’écurie en 2005, c’est la clé primaire de cette table puisque cette variable constitue l’identifiant unique. Nous proposons ci-dessous un listing avec des explications de ces variables descriptives de l’écurie considérée : - nb points : nombre de points inscrits au totale en 2005, variable quantitative - nb victoires : nombre de victoires inscrites au palmarès 2005, variable quantitative - GP disputes : nombre de grands prix disputés depuis les débuts de l’écurie considérée en F1, variable quantitative - titre pilote O/N : est-ce que cette équipe a déjà gagné un titre pilote depuis ses débuts en F1 ?, variable qualitative binaire - titre constructeur O/N : est-ce que cette équipe a déjà gagné un titre constructeur depuis ses débuts en F1 ?, variable qualitative binaire - debut en F1 : année de début en F1, variable qualitative 18 - moteur : marque du moteur sur les véhicules de l’équipe, variable qualitative - pneus : marque des pneus sur les véhicules de l’équipe, variable qualitative - nationalite : nationalité de l’écurie, variable qualitative - classement constructeur 2005 - nb victoires 2005 : nombre de courses remportées par l’écurie au cours du championnat 2005, variable quantitative - nb podiums 2005 : nombre de fois que l’écurie est arrivée première, seconde ou troisième à une course, variable quantitative - nb abandons 2005 : nombre de fois que l’écurie a déclaré forfait, variable quantitative - nb poles position 2005 : nombre de fois où l’écurie est parti en pôle position, variable quantitative - nb meilleurs tours 2005 : nombre de fois que l’écurie a eu le meilleur temps sur un tour, variable quantitative - nb meilleures places en GP 2005 : id mais pour meilleures places - carburant : marque de carburant utilisé, variable qualitative - lubrifiant : marque de lubrifiant utilisé, variable qualitative - nom 2006 : nom de l’écurie pour le championnat 2006 - podium 2005 O/N : est-ce que cette équipe a été sur un podium au cours de la saison 2005? Oui : premier, second ou troisième du classement constructeur, moyen : quatrième, cinquième ou sixième du classement constructeur ou non : au-delà du sixième rang au classement général constructeur, variable qualitative à trois modalités. Notons que certaines de ces variables sont redondantes, mais que c’est une volonté de notre part car ceci nous servira dans la partie : utilisation du logiciel SODAS. Et que d’autre part, certaines de ces variables ne nous seront d’aucune utilité pour la suite. Par ailleurs, le faible nombre de victoires de l’équipe Renault peut paraître anormal à nos lecteurs, mais ceci s’explique que ‘la grande époque’ de Renault avec Alain Prost était au temps du partenariat Renault Williams, ainsi les victoires ont été attribuées à Williams et non à Renault. La table ecuries regroupe donc les individus de second ordre, i.e. les concepts sont les écuries de formule 1 en 2005. 19 La table pilotes Nous voyons grâce au Mode Création le libellé de chaque variable descriptive de la table pilotes. nom : nom du pilote, c’est la clé primaire de cette table puisque cette variable constitue l’identifiant unique. Notons que pour que cet identifiant soit unique et valide sous SODAS, qui n’accepte pas de clé primaire constitué de plus de un attribut, que nous avons dû rajouter l’initiale du prénom pour les frères Schumacher. Nous proposons ci-dessous un listing avec des explications de ces variables descriptives du pilote considéré : - nom ecurie : nom de l’écurie du pilote en 2005, le libellé de cette variable doit être le même que l’identifiant de la table ecuries pour pouvoir relier les deux tables entre elles. De plus, cette variable doit être en seconde position afin de pouvoir correctement importer notre base sous SODAS. - prenom : prénom du pilote, variable qualitative - pays : pays d’origine du pilote, variable qualitative - nb de points : nombre de points marqués au championnat 2005, variable quantitative - annee naissance : année de naissance du pilote - taille : taille en cm du pilote - poids : poids en kg du pilote - situation maritale : est ce que le pilote est marié, fiancé ou célibataire ?, variable qualitative - debut en F1 : année de début de carrière en F1 - nb de GP : nombre de grands prix remportés par la pilote au cours du championnat 2005, sachant qu’il y avait 19 courses, variable quantitative 20 - poles : nombre de fois que le pilote a obtenu la pole positione, variable quantitative - nb victoires 2005 : nombre de fois que la pilote a gagné, variable quantitative - titre : est-ce que ce pilote a déjà eu un titre au cours de sa carrière en F1?, variable qualitative La table pays_continent Cette table a été créée pour répondre aux critères de taxonomies, cette table sera reliée à la table pilotes : Nous voyons grâce au Mode Création le libellé de chaque variable descriptive de la table pays_continent. - pays : pays d’origine du pilote - continent : continent correspondant au pays d’origine du pilote c) Schéma relationnel des trois tables de F1.mdb d) Présentation des requêtes effectuées sous F1.mdb 21 La requête sdsf1 Cette requête renvoie une table du type : individus concepts description des individus Nous avons créé cette requête par l’assistant de cette manière : Cette requête nous sera essentielle pour la suite de notre projet. En effet, cette requête doit retourner une ligne pour chaque individu, chaque ligne ayant donc le nom (unique) de l’individu, le concept auquel il appartient et une description précise (poids, taille, âge, ...). Nous avons fait attention à ce qu’il y ait des variables quantitatives et qualitatives. La requête s’exécute dans la base de données et le résultat est stocké en mémoire et un tableau de concepts sera généré sous SODAS (cf : la partie consacrée à DB2SO). 22 La requête addecuries Cette requête permet de renvoyer la description complète des concepts. La requête a été créée par le mode Assistant de Access de la manière suivante : La requête taxo Cette requête nous permettra d’extraire des taxonomies. En effet, cette requête renvoie en première colonne les variables filles et en deuxième colonne la variable parente. Voici le mode Création de la requête taxo : 23 3. Extraction de données symboliques à partir de notre base de données relationnelle : utilisation de DB2SO a) Qu’est-ce DB2SO ? DB2SO (Data Base To Symbolic Objects) est un module de SODAS qui permet de créer comme son nom l’indique un ensemble de concepts à partir des données stockées dans la base de données relationnelle, grâce à son système de liaison ODBC lui permettant d’accéder directement à la base de données, notamment aux bases de données crées sous Access. Dans notre base de données, et en particulier grâce à la requête sdsf1 les individus ont été répartis selon des groupes. Ainsi DB2SO peut construire des concepts à partir de ces groupes d’individus. Des variables mères/filles et taxonomiques peuvent également y être adjointes via les requêtes addecuries et taxo. b) Mise en pratique détaillée avec notre base concernant la formule 1 Les étapes de l’importation sont illustrées par des captures d’écran, les explications manuscrites seront donc très succinctes. Importation de la base f1.mdb 24 Cette manipulation nous permet de basculer sous le module DB2SO qui se présente de la manière suivante : Une fois que l’on est sur cette interface, il faut cliquer sur l’onglet File, puis New, s’ouvre alors la fenêtre qui nous permet de choisir le type de base de données que l’on veut importer. Dans notre cas, nous devons sélectionner le type MS Access, puis cliquer sur OK : 25 Nous devons alors sélectionner notre base, en indiquant où se situe cette base Access dans l’architecture du disque dur : A partir de là, nous avons indiqué à DB2SO le type de données auquel il a affaire et où les trouver. Nous devons donc passer à l’étape suivante qui consiste en l’extraction des individus. Extraction des individus Nous devons donc indiquer à DB2SO la requête qui lui permettra de construire un tableau de la forme : individus/concepts/description des individus. Nous faisons donc appel à la requête sdsf1 : Cette étape fondamentale pour créer un tableau symboliques permet justement de créer le tableau de concepts. de données 26 Notons qu’à l’issue de l’extraction des individus, il est possible de visualiser les résultats en sélectionnant l’onglet View, puis Individuals. Adjonction de variables Nous désirons extraire les variables de la base de données relationnelle décrivant le concept retenu, ici les écuries de F1. Pour cela nous devons utiliser l’onglet Modify puis Add single-valued variables de la manière suivante : S’ouvre alors une deuxième fenêtre dans laquelle nous devons indiquer quelle requête préalablement programmée sous Access dans notre base de données F1.mdb : addecuries : 27 Adjonction de taxonomie Nous désirons enfin rajouter un variable taxonomique dont la mère sera le continent d’origine du pilote et la fille le pays d’origine de ce même pilote, sachant que le pays d’origine du pilote est une variable renseignée dans la description des individus. Afin de procéder à l’ajout de cette taxonomie, nous faisons appel à la requête taxo programmée dans notre base en cliquant sur l’onglet Modify puis Create a taxonomy : 28 S’ouvre alors la fenêtre suivante où l’on choisit évidemment la requête taxo et la variable continent : Résultat Après avoir exécuté toutes les requêtes, DB2SO nous fournit un tableau récapitulatif reprenant toutes les variables et tous les concepts ainsi définis : 29 Ainsi, nous apprenons que l’étape de l’extraction des individus, étape charnière dans la construction du tableau de données symboliques, a créé 14 variables dont 5 qualitatives et 9 quantitatives. Quant à l’étape addsingle, elle a rajouté 9 variables qualitatives et 11 variables quantitatives. Enfin, l’ajout d’une taxonomie a bien été fait. Dès lors, nous devons enregistrer le tableau de données symboliques en cliquant l’onglet File puis Save As afin de lui indiquer l’endroit précis où l’on désire que la base ainsi créée soit sauvegardée sous l’extension .gaj. Nous l’avons nommée f1.gaj. Enfin, nous devons l’exporter afin de pouvoir l’utiliser sous SODAS. Le fichier prend donc l’extension .sds, ainsi son nom sera f1.sds. Voici comment procède-t-on : Nota Bene : la dernière ligne de la sortie nous informe que le fichier de sauvegarde f1.gaj a bien été créé. 30 4. Exemples de méthodes sous SODAS a) Avertissement Nous précisons que dans le cadre de notre projet nous ne cherchons pas résoudre précisément notre problématique, mais essentiellement à démontrer l’intérêt du logiciel SODAS. Par ailleurs, pour chacune des méthodes présentées ci-dessous nous nous attarderons que sur les résultats les plus porteurs d’informations quant à notre problématique. b) La méthode VIEW : viewer i) Présentation de la méthode VIEW Cette méthode permet à l’utilisateur de visionner facilement dans un tableau tous les objets symboliques ainsi que les variables sélectionnées. Voici l’éditeur ce la méthode VIEW : L’éditeur ci-dessus fournit également la possibilité à l’utilisateur de représenter les différents objets symboliques sous forme d’étoile zoom en deux dimensions ou trois dimensions. Cette étoile zoom est une sorte de photo synthétique de l’objet, et ainsi de pouvoir comparer les concepts entre eux. Notons que pour que la lisibilité des étoiles soit optimale nous nous devons de ne pas prendre trop de variables en paramètres. Nous nous attacherons particulièrement à l’étude des trois plus grandes équipes de formule 1. Notons que sur les étoiles en deux dimensions les variables qualitatives sont représentées par des points de taille proportionnelle au nombre d’occurrence rencontrées dans l’étude pour une valeur donnée, et que les variables quantitatives sont reliées entre elles (d’où le nom d’étoile) au niveau de leur valeur. 31 ii) Résultats obtenus avec VIEW Renault Nous proposons agrandissement du d’origine du pilote : un pays L’étoile à deux dimensions nous apprend que l’équipe Renault a eu le plus de pôles positions, de podiums et de points au cours du championnat 2005. De plus, Renault n’a fait aucun abandon lors de la saison. Renault a également eu le meilleur classement, c’est donc l’équipe qui a remporté le titre de constructeur 2005. Enfin, ses deux pilotes, d’origine espagnole et italienne, ont été classé premier et cinquième du championnat. Le graphique en 3D ne nous apporte aucune information quant à l’explication de l’écrasante victoire de Renault au championnat 2005 de formule 1, si ce n’est la confirmation que les deux pilotes de Renault sont d’excellent niveau quand bien même l’un n’est que cinquième du championnat alors que l’autre est le meilleur d’origine espagnole et italienne. En conclusion, ces éléments nous montre l’excellence de l’écurie Renault au cours de la saison 2005. 32 McLaren Nous proposons la distribution des pays d’origine des pilotes : L’étoile à deux dimensions nous informe que l’écurie McLaren est celle qui a eu le plus de meilleurs tours au cours de la saison 2005, de pôles position, à égalité avec Renault, et de podiums, comme Renault. Malheureusement, McLaren a déclaré forfait plusieurs fois au cours du championnat, ce qui explique peut être pourquoi McLaren n’a été que second au championnat constructeur. Nous apprenons également que l’équipe McLaren dispose de quatre pilotes de nationalités différentes : espagnole, finlandaise, colombienne et autrichienne. Les classements des quatre pilotes, plus lisible sur ce graphique, oscillent entre deuxième et vingt-quatrième du championnat des pilotes 2005. 33 Ferrari L’analyse de l’étoile en 2D nous apprend que l’équipe Ferrari n’a pas eu une bonne saison 2005 : seulement 3 meilleurs tours, une pole position, quelques abandons, 9 podiums. Ferrari est donc troisième au championnat constructeur, et leurs pilotes d’origine allemande et brésilienne sont troisième et huitième du championnat des pilotes 2005. D’autre part, si l’on compare le nombre de points de Ferrari obtenu lors du championnat à ceux de ces deux rivaux, il est nettement inférieur. L’étoile en 3D n’a pas été représentée car elle n’apportait rien de plus à notre analyse sur l’écurie Ferrari. Conclusion Nous remarquons que Renault n’a pas nettement dominé ce championnat, car l’écurie McLaren a été également très performante lors de cette saison. En revanche, pour Ferrari cette saison n’a pas été glorieuse, puisque l’écart avec ces deux principaux rivaux : Renault et McLaren est assez conséquent. Si nous avions étudié les autres concurrents nous nous serions aperçus que les équipes ont eu de moins bons résultats en termes de nombre de pôles positions, nombre de meilleurs tours, nombre de podiums, plus d’abandons, ... 34 c) La méthode D-STAT : Descriptive Statitics i) Présentation de la méthode D-STAT La méthode D-STAT permet d’obtenir des statistiques, habituellement faites sur des données classiques à des objets symboliques, c’est-à-dire des concepts. Elle permet notamment de fournir : - les fréquences relatives pour les variables multimodales - les fréquences relatives pour les variables intervalles - les capacités : le minimum, le maximum et la moyenne pour les variables modales - des bi-plot pour les variables intervalles. ii) Résultats obtenus avec D-STAT Fréquences relatives pour les variables intervalles Voici la sortie graphique : Nous apprenons que : - les classements sont hétéroclites, - les écuries ayant moins de 13 points sont majoritaires, puisqu’elles représentent 40%, et qu’il y a très peu d’équipes ayant un nombre de points supérieur à 75, 35 - les équipes ont souvent un grand nombre de participations aux grands prix, de l’ordre de plus de 16, à leur actif, - une large majorité des écuries a eu zéro ou une pôle position, - de même en ce qui concerne le nombre de victoires En conclusion, nous pouvons en déduire que les trois écuries leaders (Renault, McLaren et Ferrari) dominent largement le championnat. Bi-plot pour les variables intervalles Nous avons choisi d’étudier le rapport entre les classements et le nombre de points des pilotes et entre le nombre de points et le nombre de pôles positions d’une écurie : Clairement, ce graphique montre que plus les pilotes d’une écurie a de points plus ils ont un bon classement, et d’autre part que plus une équipe a de pôles position plus elle a de points au classement général des constructeurs. Ces variables sont donc corrélées entre elles. Ce graphique montre là encore la prédominance de McLaren et de Renault lors de la saison 2005. 36 Capacités pour les variables modales Voici le graphique obtenu grâce à la méthode D-STAT pour la variable ‘titre’, les autres variables modales étant dépourvues d’intérêt : Les résultats principaux sont : - Que le pilote qui a été 7 fois champion de monde appartient à une équipe composant deux pilotes, - Que 75% des écuries de F1 n’a jamais eu de pilote ayant obtenu un titre de champion ou de vice champion, et qu’il existe au moins un écurie dont les pilotes n’ont jamais eu de titres. Ainsi, il se pourrait que la voiture y soit beaucoup dans le fait de remporter ou non le titre de champion. d) La méthode HIPYR : Hierarchical and Pyramidal Clustering i) Présentation de la méthode HIPYR La méthode HIPYR permet à l’utilisateur de classifier les objets symboliques sous forme de pyramide ou de hiérarchie. Nous nous intéresserons dans le cadre de notre projet uniquement à la classification pyramidale. 37 Les échantillons de la pyramide sont des intervalles. La méthode consiste à échantillonner des données plutôt complexes, en considérant la variation des valeurs prises par les variables. L’algorithme de classification pyramidale est une méthode d’agglomération des concepts en partant de la base de la pyramide composée de tous les concepts jusqu’au sommet où il n’y a plus qu’une classe regroupant tous les concepts. Dans la classification pyramidale, chaque classe formée est définie par l’ensemble de ses éléments, ce qui constitue son extension, et par l’objet symbolique qui décrit ses propriétés : l’intension de la classe. L’intension est alors héritée d’un prédécesseur par un successeur et nous obtenons ainsi une structure d’héritage, qui permet l’identification de concepts intermédiaires. ii) Résultats obtenus avec HIPYR Dans notre cas, nous avons choisi d’étudier la matrice des données symboliques dont le critère d’agrégation est ‘generality degree’ (degré de généralité). Voici la classification pyramidale obtenue : Les premiers regroupements ne sont pas lisibles, il faut donc lire le listing également pour connaître les regroupements faits ou faire des agrandissements successifs. Néanmoins, sur ce graphique nous voyons que les écuries sont tout d’abord regroupées en fonction de leurs résultats obtenus à cette saison : les ‘bons’ avec les ‘bons’, les ‘moyens’ avec les ‘moyens’, et les ‘mauvais’ avec les ‘mauvais’. Puis, nous remarquons que la hiérarchie regroupe d’abord les meilleurs avec les ‘un peu moins bons’ et les ‘moyens hauts’ avec les ‘moyens bas’, pour ensuite fusionner ces nouveaux groupes au sein d’un même palier. Enfin, ce dernier palier est regroupé avec le groupe des ‘mauvais’. 38 e) la méthode TREE : Decision Tree i) Présentation de la méthode TREE L’arbre de décision propose un algorithme par agrandissement d’arbre appliqué aux données imprécises, décrites par des assertions dans l’analyse des données symboliques. Dans ce contexte, la procédure de partition récursive peut être interprétée comme une recherche itérative pour un ensemble organisé d’objets symboliques correspondant le plus aux données initiales. A chaque itération de l’algorithme, la meilleure partition est obtenue par l’utilisation d’une mesure donnée en paramètre. Nous obtenons ainsi une nouvelle liste d’objets symboliques qui permet d’assigner aux futurs nouveaux objets une classe de la partition précédemment connue. ii) Résultats obtenus avec TREE Nous cherchons ici à étudier l’influence de certaines variables sur les résultats obtenus par une écurie lors de la saison 2005 : l’expérience des pilotes de l’écurie et les performances records de l’écurie. Pour notre étude, nous avons choisi les paramètres suivants : - variable à expliquer : poduim O/N (N.B. : cette variable doit obligatoirement être issue de l’adjonction de nouvelles variables : addsingle ) - variables explicatives : debut en F1, nb GP, nb abandons 2005, nb pôles position 2005, nb meilleurs tours 2005. Voici l’arbre obtenu : ================================== | EDITION OF DECISION TREE | ================================== PARAMETERS : Learning Set : 10 Number of variables : 5 Max. number of nodes: 5 Soft Assign : ( 1 ) FUZZY Criterion coding : ( 3 ) LOG-LIKELIHOOD Min. number of object by node : 5 Min. size of no-majority classes : 2 Min. size of descendant nodes : 1 Frequency of test set : 0.00 + --- IF ASSERTION IS TRUE (up) ! --- x [ ASSERTION ] ! + --- IF ASSERTION IS FALSE (down) 39 +---- [ 2 ]Non ( 0.00 0.00 4.00 ) ! !----1[ nb_poles_positions_2005 <= 0.000000] ! ! +---- < 6 >moyen ( 0.00 3.00 0.00 ) ! ! !----3[ nb_meilleurs_tours_2005 <= 1.000000] ! +---- < 7 >Oui ( 3.00 0.00 0.00 ) ------- END OF PROGRAM TREE --------- Ainsi, si l’écurie n’a pas eu de au moins une pôle position au cours de la saison, nous pouvons affirmer que cette dernière a un mauvais classement constructeur : soit septième, soit huitième soit neuvième soit dixième. Sinon, si, l’écurie a fait au moins deux meilleurs tours au cours du championnat, alors elle est montée sur le podium. Dans le cas contraire, l’écurie a eu des résultats honorables : quatrième, cinquième ou sixième au classement général. N.B. : le listing complet de la sortie de la méthode TREE est disponible en annexe. f) la méthode DIV : Decisive Classification i) Présentation de la méthode DIV La méthode DIV est une méthode d’échantillonnage hiérarchique qui regroupe tous les objets symboliques en un seul échantillon et procède par division successive de chaque échantillon formé. A chaque étape, un échantillon est divisé en deux selon une question binaire. Cette dernière induit la meilleure partition en deux selon l’extension du critère d’inertie : maximiser la variance inter-classe et minimiser la variance intra-classe. Nous avons pris en entrée le tableau de données symboliques, mais nous pouvons également prendre un tableau de données classiques. ii) Résultats obtenus avec DIV Nous avons cherché ici à séparer nos concepts, les écuries de F1, par des variables moins évidentes que le nombre de victoires en 2005, ou l’ordre du classement général des constructeurs ou pilotes. 40 Application à des variables quantitatives Voici les variables choisies : THE SELECTED SPLIT-VARIABLES ARE : -------------------------( 17) :GP_disputes ( 20) :debut en F1_1 ( 27) :nb_abandons_2005 ( 28) :nb_poles_positions_2005 ( 29) :nb_meilleurs_tours_2005 ( 30) :nb_meilleurs_places_en_GP_2005 Voici les résultats obtenus pour ces variables quantitatives : THE CLUSTERING TREE : --------------------- the number noted at each node indicates the order of the division - Ng <-> yes and Nd <-> no +---- Classe 1 (Ng=3) ! !----2- [GP_disputes <= 155.500000] ! ! ! ! +---- Classe 3 (Ng=3) ! ! ! ! !----4- [nb_abandons_2005 <= 11.000000] ! ! ! +---- Classe 5 (Nd=1) ! !----1- [GP_disputes <= 402.500000] ! ! +---- Classe 2 (Ng=2) ! ! !----3- [nb_abandons_2005 <= 10.000000] ! +---- Classe 4 (Nd=1) NAME OF INTERNAL VT0 FILE : C:\Perso\Fac\Master\SODAS\projet\EIPDP901.vt0 ------- END OF PROGRAM DIV --------- Ainsi, les concepts peuvent se séparer clairement par leur nombre de grands prix disputes depuis les débuts en F1 de l’écurie considérée, et par son nombre d’abandons au cours de la saison 2005. Nous pouvons donc conclure que l’expérience et la performance des écuries sont des variables essentielles pour pouvoir espérer gagner le championnat 2005. Application à des variables intervalles Voici les variables choisies : THE SELECTED SPLIT-VARIABLES ARE : -------------------------( 6) :annee_naissance ( 7) :taille ( 8) :poids ( 10) :debut_en_F1 ( 11) :nb_GP 41 Voici les résultats obtenus pour ces variables quantitatives : THE CLUSTERING TREE : --------------------- the number noted at each node indicates the order of the division - Ng <-> yes and Nd <-> no +---- Classe 1 (Ng=2) ! !----2- [nb_GP <= 10.500000] ! ! ! +---- Classe 3 (Nd=2) ! !----1- [nb_GP <= 16.750000] ! ! +---- Classe 2 (Ng=1) ! ! !----3- [debut_en_F1 <= 1994.500000] ! ! +---- Classe 4 (Ng=2) ! ! !----4- [taille <= 169.750000] ! +---- Classe 5 (Nd=3) NAME OF INTERNAL VT0 FILE : C:\Perso\Fac\Master\SODAS\projet\EIPDP901.vt0 ------- END OF PROGRAM DIV --------- Ainsi l’expérience et la performance du pilote au cours de la saison 2005 contribuent également au fait d’obtenir de bons résultats. Néanmoins, notons que la variable explicative de la taille est plutôt saugrenue. Conclusion C’est l’alliance d’un bon pilote et d’une bonne écurie qui peut mener une écurie à la victoire. g) la méthode SCLUST : Dynamic Clustering i) Présentation de la méthode SCLUST Le module SCLUST permet de partitionner un tableau de données symboliques en un certain nombre de classes homogènes, que l’on doit paramétrer, ou autrement dit c’est un algorithme de nuées dynamiques à partir du tableau de données similaires. Les classes sont donc des moyennes. 42 ii) Résultats obtenus avec SCLUST Etoiles Ce tableau représente le centre ou la moyenne de la population totale. Ainsi, nous apprenons que en moyenne les pilotes des écuries entre 27 et 30 ans, ont des tailles et des poids très disparates, ont commencé leur carrière en F1 il y a entre 5 et 8 ans, ont fait 17 grands prix sur les 19 de cette saison 2005, ont fait zéro ou une pôle position et ont connu aucune victoire cette année, ont un classement plutôt médiocre et donc un nombre de points faible. Ce graphique nous renseigne sur les caractéristiques des meilleures écuries de la saison 2005 : un bon classement (du premier au cinquième). Nous apprenons que parmi les meilleurs, le nombre de points, de pôles de position et de victoires sont très disparates. Nous remarquons également que les caractéristiques physiques : taille et poids des pilotes de ces écuries sont assez similaires. En revanche certains ont beaucoup d’expérience : jusqu’à 9 ans alors que d’autres n’ont que 5 ans d’expérience en F1. 43 Voici les caractéristiques des écuries ayant obtenu de mauvais résultats au cours de la saison 2005 : peu de points, derniers dans le classement général des constructeurs, pas de victoires en 2005. Les pilotes ont peu d’expérience en moyenne, et sont plutôt jeunes dans l’ensemble. Enfin, voici les caractéristiques des écuries ayant obtenu des résultats moyens lors du championnat 2005. Nous apprenons que en moyenne les pilotes de ces écuries sont plutôt âgés par rapport aux autres pilotes, et qu’ils sont plus gros que les autres. 44 Représentation des prototypes dans une même fenêtre Nous nous intéressons ici à l’influence du nombre de points sur le classement des écuries regroupées sous forme de classe. Grâce à ce graphique, nous avons confirmation précédemment énoncés dans le paragraphe ci-dessus : - prototype 1/1 : moyenne des classes - prototype 1/3 : les écuries moyennes - prototype 2/3 : les mauvaises écuries - prototype 3/3 : les meilleures écuries des résultats h) la méthode DISS : Descriptive Measures i) Présentation de la méthode DISS Le module DISS a été développé pour la méthode ‘Dissimilarity and Matching’. Cette méthode a été faite pour comparer les objets symboliques : quantifier les corrélations, classer et discriminer les concepts entre eux. Les résultats de ce genre d’analyse ayant pour objectif de clairement comprendre, mesurer et identifier les groupes d’objets symboliques, peut aussi être appelé ‘représentation graphique des données symboliques’ et peut être appliqué à d’autres méthodes statistiques ou d’autres tâches de Data Mining. La méthode DISS permet de mesurer les dissimilarités entre les différents concepts. Nous devons sauvegarder la base de données 45 symboliques créée par cette méthode avant de pouvoir l’exécuter. Nous pourrions ainsi appliquer la méthode DCLUST sur cette nouvelle base (que nous n’avons pas réussie à implémenter). ii) Résultats obtenus avec DISS Nous avons choisi comme mesure de dissimilarité la distance de Ichino et Yaguchi. Voici le graphique Nous remarquons que les meilleures écuries de F1 sont les plus éloignées des plus mauvaises et vice versa, ce qui est logique. En revanche, les écuries ayant obtenu des résultats moyens sont moins éloignées des mauvaises écuries que des meilleures. 46 IV) CONCLUSION Nous avons montré au travers de cette étude sur la saison 2005 de formule 1 l’intérêt et la puissance d’un logiciel du type de celui de SODAS. L’analyse des données symboliques nous a permis entre autres de bien décrire les écuries de F1, qui représentaient les concepts ou individus de second ordre formés grâce aux individus de premier ordre : les pilotes. Ainsi, l’agrégation des données sous forme de concepts nous permet d’obtenir de nouveaux résultats que nous n’aurions peut être pas pu dégagé à l’aide d’une analyse de données classique. Le principal résultat de cette étude est que les bons résultats d’une équipe sont le fruit d’une expérience certaine et d’une performance sans faille de la part non seulement de l’écurie mais aussi des pilotes de cette écurie. En ce qui concerne le logiciel SODAS utilisé dans le cadre de ce projet, il ressort que ses atouts majeurs pour l’utilisateur est sa simplicité, ses multiples sorties : graphiques ou listings avec interactions possibles telles que le choix des variables, agrandissement, 2D ou 3D, ... et surtout l’emploi de l’analyse des données symboliques dans ses différentes méthodes. Pratiquement, il serait intéressant de faire une analyse de données dite classique sur notre base, et de la compléter par notre étude. Les résultats seraient alors plus complets, car l’analyse des données symboliques n’est pas mieux que l’analyse exploratoire des données, elle est un complément. 47 V) ANNEXES listing complet de la méthode TREE ------------------------------------------------------BASE= C:\Perso\Fac\Master\SODAS\projet\f11.sds Number of OS = 10 Number of variables = 34 METHOD=TREE Version 2.0 INRIA 2003 -------------------------------------------------------Learning Set : 10 Number of variables : 5 Max. number of nodes: 5 Soft Assign : ( 1 ) FUZZY Criterion coding : ( 3 ) LOG-LIKELIHOOD Min. number of object by node : 5 Min. size of no-majority classes : 2 Min. size of descendant nodes : 1 Frequency of test set : 0.00 GROUP ( 10 ( 11 ( 27 ( 28 ( 29 OF PREDICATE VARIABLES : ) debut_en_F1 ) nb_GP ) nb_abandons_2005 ) nb_poles_positions_2005 ) nb_meilleurs_tours_2005 CLASSIFICATION VARIABLE : ( 34 ) podium_2005_O/N NUMBER OF A PRIORI CLASSES : ID_CLASS NAME_CLASS 1 Oui 2 moyen 3 Non 3 LIST OF SYMBOLIC OBJECTS IN THE LEARNING SET : renault mclaren ferrari toyota BAR minardi Jordan CLASS SIZE LEARNING williams red bull sauber TEST 1 2 3 3 3 4 3 3 4 0 0 0 TOTAL 10 10 0 48 ================================= | SPLIT OF A NODE : 1 | ================================= LEARNING SET ======================================================= | | N(k/t) | N(k) | P(k/t) | P(t/k) | ======================================================= | Oui | 3.00 | 3.00 | 30.00 | 100.00 | | moyen | 3.00 | 3.00 | 30.00 | 100.00 | | Non | 4.00 | 4.00 | 40.00 | 100.00 | ======================================================= TREE CRITERION 4.729033 ======================================================================= | Ord | variable | value | criterion | ======================================================================= | 1 |( 28) nb_poles_positions_2005 | 0.0000 | 1.8062 | | 2 |( 29) nb_meilleurs_tours_2005 | 1.0000 | 2.0761 | | 3 |( 10) debut_en_F1 | 2001.0000 | 3.7754 | | 4 |( 27) nb_abandons_2005 | 8.0000 | 4.1095 | | 5 |( 11) nb_GP | 14.0000 | 4.1929 | ======================================================================= SPLITTING NODE: VARIABLE SPLIT CRITERION 1 : ( 28) nb_poles_positions_2005 : 0.000000 : 1.806180 LEARNING SET ================================================== | | left node | right node | Row totals | | node | 2 | 3 | 1 | ================================================== | Oui | 0.00 | 3.00 | 3.00 | | moyen | 0.00 | 3.00 | 3.00 | | Non | 4.00 | 0.00 | 4.00 | ================================================== | Total | 4.00 | 6.00 | 10.00 | ================================================== ================================= | SPLIT OF A NODE : 2 | ================================= LEARNING SET ======================================================= | | N(k/t) | N(k) | P(k/t) | P(t/k) | ======================================================= | Oui | 0.00 | 3.00 | 0.00 | 0.00 | | moyen | 0.00 | 3.00 | 0.00 | 0.00 | | Non | 4.00 | 4.00 | 100.00 | 100.00 | ======================================================= THIS STOP-SPLITTING RULE IS TRUE : The size of the node is too small SIZE OF THE NODE 4.000000 VALUE OF STOP-SPLITTING RULE 5.000000 THIS STOP-SPLITTING RULE IS TRUE : The size of the no-majority classes is too small SIZE OF THE NO-MAJORITY CLASSES 0.000000 VALUE OF STOP-SPLITTING RULE 2.000000 THIS NODE IS A TERMINAL NODE No object in this node 49 ================================= | SPLIT OF A NODE : 3 | ================================= LEARNING SET ======================================================= | | N(k/t) | N(k) | P(k/t) | P(t/k) | ======================================================= | Oui | 3.00 | 3.00 | 50.00 | 100.00 | | moyen | 3.00 | 3.00 | 50.00 | 100.00 | | Non | 0.00 | 4.00 | 0.00 | 0.00 | ======================================================= TREE CRITERION 1.806180 ======================================================================= | Ord | variable | value | criterion | ======================================================================= | 1 |( 29) nb_meilleurs_tours_2005 | 1.0000 | 0.0000 | | 2 |( 28) nb_poles_positions_2005 | 2.0000 | 0.9769 | | 3 |( 10) debut_en_F1 | 2001.0000 | 1.3044 | | 4 |( 11) nb_GP | 18.0000 | 1.6826 | | 5 |( 27) nb_abandons_2005 | 6.0000 | 1.8062 | ======================================================================= SPLITTING NODE: VARIABLE SPLIT CRITERION 3 : ( 29) nb_meilleurs_tours_2005 : 1.000000 : 0.000000 LEARNING SET ================================================== | | left node | right node | Row totals | | node | 6 | 7 | 3 | ================================================== | Oui | 0.00 | 3.00 | 3.00 | | moyen | 3.00 | 0.00 | 3.00 | | Non | 0.00 | 0.00 | 0.00 | ================================================== | Total | 3.00 | 3.00 | 6.00 | ================================================== STOP . MAXIMUM TERMINAL NODES IS OBTAINED : 5 Node Partition Editing 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 2 6 7 Prototypes Editing Class : 1 Number 0 Class : 2 Number 0 Class : 3 Number 0 50 RESULTS BY LEAF LEAF : 2 ============== ======================================================= | | N(k/t) | N(k) | P(k/t) | P(t/k) | ======================================================= | Oui | 0.00 | 3.00 | 0.00 | 0.00 | | moyen | 0.00 | 3.00 | 0.00 | 0.00 | | Non | 4.00 | 4.00 | 100.00 | 100.00 | ======================================================= CLASS LABEL ( 3) Non r(t)= 0.000000 p(t)= 0.400000 R(t)= 0.000000 LEAF : 6 ============== ======================================================= | | N(k/t) | N(k) | P(k/t) | P(t/k) | ======================================================= | Oui | 0.00 | 3.00 | 0.00 | 0.00 | | moyen | 3.00 | 3.00 | 100.00 | 100.00 | | Non | 0.00 | 4.00 | 0.00 | 0.00 | ======================================================= CLASS LABEL ( 2) Non r(t)= 0.000000 p(t)= 0.300000 R(t)= 0.000000 LEAF : 7 ============== ======================================================= | | N(k/t) | N(k) | P(k/t) | P(t/k) | ======================================================= | Oui | 3.00 | 3.00 | 100.00 | 100.00 | | moyen | 0.00 | 3.00 | 0.00 | 0.00 | | Non | 0.00 | 4.00 | 0.00 | 0.00 | ======================================================= CLASS LABEL ( 1) Non r(t)= 0.000000 p(t)= 0.300000 R(t)= 0.000000 51 RESULTS BY SYMBOLIC OBJECT ================================================================================== | No | Nom |Leaf | Class | Oui | moyen | Non | criterion| | | | No | true | assig.| ( 1) | ( 2) | ( 3) | | ================================================================================== | 1 | renault | 7 | 1 | 1 | 100.00 | 0.00 | 0.00 | 0.50 | | 2 | mclaren | 7 | 1 | 1 | 100.00 | 0.00 | 0.00 | 0.50 | | 3 | ferrari | 7 | 1 | 1 | 100.00 | 0.00 | 0.00 | 0.50 | | 4 | toyota | 6 | 2 | 2 | 0.00 | 100.00 | 0.00 | 0.50 | | 5 | williams | 6 | 2 | 2 | 0.00 | 100.00 | 0.00 | 0.50 | | 6 | red bull | 2 | 3 | 3 | 0.00 | 0.00 | 100.00 | 1.00 | | 7 | sauber | 2 | 3 | 3 | 0.00 | 0.00 | 100.00 | 1.00 | | 8 | BAR | 6 | 2 | 2 | 0.00 | 100.00 | 0.00 | 0.50 | | 9 | minardi | 2 | 3 | 3 | 0.00 | 0.00 | 100.00 | 1.00 | | 10 | Jordan | 2 | 3 | 3 | 0.00 | 0.00 | 100.00 | 1.00 | ================================================================================== R(T)= 0.0000 52 CONFUSION MATRIX FOR TRAINNING SET ========================================================== | | Oui | moyen | Non | Total | ========================================================== | Oui | 3 | 0 | 0 | 3 | | moyen | 0 | 3 | 0 | 3 | | Non | 0 | 0 | 4 | 4 | ========================================================== | Total | 3 | 3 | 4 | 10 | ========================================================== MISCLASSIFICATION RATE BY CLASS TRUE CLASS Oui moyen Non ( ( ( ( TOTAL ( ERROR 0 0 0 /SIZE / / / 0 / ) 3 ) 3 ) 4 ) 10 ) FREQUENCY 0.00 0.00 0.00 0.00 NAME OF INTERNAL TREE FILE : tree.tex NAME OF INTERNAL VT0 FILE : C:\Perso\Fac\Master\SODAS\projet\EIO0RK01.vt0 53 ================================== | EDITION OF DECISION TREE | ================================== PARAMETERS : Learning Set : 10 Number of variables : 5 Max. number of nodes: 5 Soft Assign : ( 1 ) FUZZY Criterion coding : ( 3 ) LOG-LIKELIHOOD Min. number of object by node : 5 Min. size of no-majority classes : 2 Min. size of descendant nodes : 1 Frequency of test set : 0.00 + --- IF ASSERTION IS TRUE (up) ! --- x [ ASSERTION ] ! + --- IF ASSERTION IS FALSE (down) +---- [ 2 ]Non ( 0.00 0.00 4.00 ) ! !----1[ nb_poles_positions_2005 <= 0.000000] ! ! +---- < 6 >moyen ( 0.00 3.00 0.00 ) ! ! !----3[ nb_meilleurs_tours_2005 <= 1.000000] ! +---- < 7 >Oui ( 3.00 0.00 0.00 ) ------- END OF PROGRAM TREE --------- 54