1 CATHERIN GABRIEL MASTER 2 ISF

Transcription

1 CATHERIN GABRIEL MASTER 2 ISF
CATHERIN GABRIEL
MASTER 2 ISF
1
SOMMAIRE
I) INTRODUCTION............................................................................................................ 3
II)
PRESENTATION GENERALE DU DATA MINING ET DU LOGICIEL
SODAS ...................................................................................................................................... 4
1. Intérêt du Data Mining ............................................................................................. 4
2. Analyse des données symboliques ...................................................................... 6
3. Les principaux logiciels .......................................................................................... 8
4. Le projet SODAS ....................................................................................................... 9
III)
APPLICATION : ANALYSE DE DONNEES SUR LA FORMULE 1 ............ 17
1. Présentation de la problématique ....................................................................... 17
2. Présentation des données ..................................................................................... 17
a) La construction de notre base......................................................................... 17
b) Présentation des trois tables de F1.mdb...................................................... 18
c) Schéma relationnel des trois tables de F1.mdb ......................................... 21
d) Présentation des requêtes effectuées sous F1.mdb ................................. 21
3. Extraction de données symboliques à partir de notre base de données
relationnelle : utilisation de DB2SO........................................................................... 24
a) Qu’est-ce DB2SO ? ............................................................................................ 24
b) Mise en pratique détaillée avec notre base concernant la formule 1 .. 24
4. Exemples de méthodes sous SODAS ................................................................ 31
a) Avertissement ...................................................................................................... 31
b) La méthode VIEW : viewer............................................................................... 31
i) Présentation de la méthode VIEW .............................................................. 31
ii) Résultats obtenus avec VIEW ...................................................................... 32
c) La méthode D-STAT : Descriptive Statitics............................................... 35
i) Présentation de la méthode D-STAT........................................................ 35
ii) Résultats obtenus avec D-STAT................................................................ 35
d) La méthode HIPYR : Hierarchical and Pyramidal Clustering ................. 37
i) Présentation de la méthode HIPYR ............................................................ 37
ii) Résultats obtenus avec HIPYR .................................................................... 38
e) la méthode TREE : Decision Tree.................................................................. 39
i) Présentation de la méthode TREE ............................................................. 39
ii) Résultats obtenus avec TREE ..................................................................... 39
f) la méthode DIV : Decisive Classification ..................................................... 40
i) Présentation de la méthode DIV ................................................................. 40
ii) Résultats obtenus avec DIV ......................................................................... 40
g) la méthode SCLUST : Dynamic Clustering .................................................. 42
i) Présentation de la méthode SCLUST ........................................................ 42
ii) Résultats obtenus avec SCLUST ................................................................ 43
h) la méthode DISS : Descriptive Measures ..................................................... 45
i) Présentation de la méthode DISS ............................................................... 45
ii) Résultats obtenus avec DISS ....................................................................... 46
IV)
CONCLUSION ........................................................................................................... 47
V)
ANNEXES .................................................................................................................. 48
2
I)
INTRODUCTION
Le Data Mining est un outil de productivité assez récent, puisqu’il a
commencé à s’implanter dans les entreprises en 1997. Dès lors, ce formidable
outil a maturé et est présent dans la plupart des entreprises sous différents
positionnements.
Le Data Mining est généralement défini de quatre manières :
 C’est l’extraction d’informations originales, auparavant inconnues,
potentiellement utiles à partir des données. Dans ce cas, cela revient à dire
que le Data Mining est un outil qui permet de formaliser les connaissances
déduites des données.
 C’est la découverte de nouvelles corrélations : tendances et modèles par le
tamisage d’un large volume de données. Ainsi, le Data Mining rend possible
la compréhension des interactions entre les individus, et dans une certaine
mesure, il permet de prédire l’avenir.
 C’est un processus d’aide à la décision où les utilisateurs cherchent des
modes d’interprétation dans leurs données. En ce sens, le Data Mining est
un mode de traitement des données automatique.
 C’est l’exploration et l’analyse par des moyens automatiques d’un large
volume de données afin d’y découvrir des tendances et des règles.
Le Data Mining s’impose donc de nos jours dans le monde des
entreprises, puisque ces dernières font face depuis quelques années à une
augmentation extraordinaire de leur base de données. Ce phénomène s’est en
particulier accéléré avec le développement de l’Internet.
Dans le cadre de notre projet, nous utiliserons une branche du Data
Mining en pleine expansion : l’analyse des données symboliques, avec
notamment l’utilisation du logiciel de recherche SODAS.
Notre étude portera sur l’analyse des écuries de formule 1 en 2005.
Nous chercherons entre autres à décrire l’équipe type de formule 1 et à
comprendre pourquoi Renault a remporté le championnat constructeur 2005,
détrônant au passage Ferrari.
Dans un premier temps, nous présenterons succinctement le Data
Mining et ses différentes approches, les logiciels du Data Mining où nous nous
attarderons sur le logiciel SODAS, puis dans un second temps nous
présenterons notre étude concernant la formule 1 en 2005.
3
II)
PRESENTATION GENERALE DU DATA MINING ET DU LOGICIEL
SODAS
1. Intérêt du Data Mining
Comme nous l’avons précédemment mentionné dans l’introduction, le
Data Mining répond à une demande des entreprises en gestion, de préférence
simplifiée, de bases de données toujours plus importantes en taille (en terme
d’individus, mais aussi de variables) appelées Data Warehouse, ou autrement
dit entrepôts de données.
Cette demande en gestion de Data Warehouse s’accompagne également
d’un désir d’extraire de ces données stockées des informations qui pourraient
s’avérer utiles pour, par exemple, mieux connaître sa clientèle afin d’adapter
son offre.
En effet, autrefois, non seulement il fallait des ingénieurs hautement
qualifiés afin de programmer les systèmes d’interrogation des données, mais
aussi, seules les statistiques inférentielles, telles que des tris à plat, des
moyennes, des écarts types ou autres, étaient employées pour essayer
d’extraire des connaissances ou informations à partir de la base de données.
Les domaines d’application du Data Mining sont aussi diverses qu’utiles
pour les entreprises. Nous proposons ci-dessous un listing des grandes
problématiques par secteur que les entreprises veulent aborder :
 Dans la grande distribution : l’objectif de Data Mining est de
mesurer l’association produit (quelle est la probabilité d’acheter
le produit B sachant que le client a acheté le produit A ?) afin
d’optimiser l’espace dans le magasin, et d’améliorer la gestion
des stocks.
 Dans la vente par correspondance : le Data Mining répond à une
problématique de segmentation (mieux connaître ses clients) et
de scoring tels que l’étude du score de réponse (calcul de
probabilité d’acheter après un stimulus commercial).
 Dans la téléphonie : les Data Miners s’attachent particulièrement à
l’étude des scores de Churn (ou score d’infidélité) et de valeur
(déterminer le potentiel en dépenses des clients) afin d’animer les
clients intéressants pour l’entreprise, i.e. ceux qui dépensent
beaucoup.
 Etc …
4
Ainsi, à travers ces exemples, nous pouvons remarquer que le Data
Mining répond à diverses problématiques que nous résumons par un schéma
des applications du Data Mining :
A travers ce schéma, il est clair que le Data Mining est un outil de
productivité formidable, dont les applications peuvent être utiles dans toutes
sortes d’entreprises.
Nous proposons maintenant un schéma récapitulant les outils
statistiques et les outils d’analyse automatique en ce qui concerne la partie
analyse des données :
Ce schéma plus difficile à comprendre que le précédent illustre les différentes
techniques statistiques envisageables pour analyser les données.
5
2. Analyse des données symboliques
Une nouvelle tendance est apparue dans le Data Mining : l’analyse des
données symboliques dont le principe réside sur les dimensions de concepts
et d’individus. En effet, l’objectif de l’analyse des données symboliques est de
résumer les données à l’aide de concepts sous-jacents suffisamment décrits,
tels que les écuries de Formule 1 dans le cadre de notre projet, afin de mieux
les appréhender et d’en extraire de nouvelles connaissances, sachant que l’on
dispose également de la description des individus (ici les pilotes). Notons que
les données traitées de cette manière sont généralement plus complexes que
celles utilisées en statistiques dites classiques. C’est pourquoi on les dit
‘symboliques’ : elles expriment habituellement la variation interne inéluctable
des concepts et sont structurées.
Ainsi, il devient évident que l’analyse des données symboliques prend
une place de plus en plus importante dans le traitement de telles données, et
remplace petit à petit ou tout du moins complète l’analyse des données
exploratoire et plus généralement la statistique multidimensionnelle.
Dans le cadre de notre projet, nous nous intéresserons uniquement à
l’analyse des ‘atomes’ ou ‘unités’ de connaissance, i. e. les individus ou les
concepts munis de leur description, initialement considérés comme des entités
séparées les unes des autres, sans lien apparent, que nous devons organiser
de façon automatique.
Voici les caractéristiques et les ouvertures principales de l’analyse des
données
symboliques
par
rapport
aux
approches
classiques
(source : http://www.ceremade.dauphine.fr/%7Etouati/sodaspresentation.htm) :
- Elle s'applique à des données plus complexes. En entrée, elle part de
données symboliques (variables à valeurs multiples, intervalle,
histogramme, distribution de probabilité, de possibilité, capacité etc.,)
munies de règles et de taxonomies, et peut fournir en sortie des
connaissances nouvelles sous forme d'objets symboliques présentant
les avantages qui vont être développés ci-dessous.
- Elle utilise des outils adaptés à la manipulation d'objets symboliques de
généralisation et spécialisation, d'ordre et de treillis, de calcul
d'extension, d'intension et de mesures de ressemblances ou
d'adéquation tenant compte des connaissances sous-jacentes basées
sur les règles et taxonomies.
- Elle fournit des représentations graphiques exprimant entre autres la
variation interne des descriptions symboliques. Par exemple, en analyse
6
factorielle, un objet symbolique sera représenté par une zone (ellemême exprimable sous forme d'objet symbolique) et pas seulement par
un point.
Les principaux avantages des objets symboliques peuvent se résumer
comme suit :
- Ils fournissent un résumé de la base plus riche que les données
agrégées habituelles (car tenant compte de la variation interne et des
règles sous-jacentes aux classes décrites, ainsi que des taxonomies
fournies, on est loin des simples centres de gravités)
- Ils sont explicatifs, puisqu'ils s'expriment sous forme de propriétés des
variables initiales ou de variables significatives obtenues (axes
factoriels), donc en termes proches de l'utilisateur.
- En utilisant leur partie descriptive, ils permettent de construire un
nouveau tableau de données de plus haut niveau sur lequel une analyse
de données symbolique de second niveau peut s'appliquer.
- Afin de modéliser des concepts, ils peuvent aisément exprimer des
propriétés joignant des variables provenant de plusieurs tableaux
associés à différentes populations. Par exemple, pour construire un
objet symbolique associé à une ville, on peut utiliser des propriétés
issues d'une relation décrivant les habitants de chaque ville et une autre
relation décrivant les foyers de chaque ville.
- Plutôt que de fusionner plusieurs bases pour étudier ensuite la base
synthétique obtenue, il peut être plus avantageux d'extraire d'abord des
objets symboliques de chaque base puis d'étudier l'ensemble des objets
symboliques ainsi obtenus.
- Ils peuvent être facilement transformés sous forme de requête d'une
Base de Données. Ceci a au moins les deux conséquences suivantes :


Ils peuvent donc propager les concepts qu'ils représentent d'une
base à une autre (par exemple, d'un pays à l'autre de la
communauté européenne, EUROSTAT ayant fait un grand effort
de normalisation des différents types d'enquête sociodémographiques).
Alors qu'habituellement on pose des questions sous forme de
requête à la base de données pour fournir des informations
intéressant l'utilisateur, les objets symboliques formés à partir de
la base par les outils de l'Analyse des Données Symboliques
permettent à l'inverse de définir des requêtes et donc de fournir
des questions qui peuvent être pertinentes à l'utilisateur.
7
3. Les principaux logiciels
Afin d’appréhender l’étude et l’analyse de Data Warehouse, plusieurs
logiciels ont été développé, et chacun a sa spécialité. Nous proposons ici une
liste non exhaustive des principaux logiciels usités pour le Data Mining avec
leur(s) spécialité(s) :
Notre étude se fera sous le logiciel SODAS que nous présentons donc
de manière plus approfondie au paragraphe suivant :
8
4. Le projet SODAS
Le contexte scientifique
SODAS signifie Symbolic Object Data Analysis System, ou en français :
Structures de classification ordonnées et discrimination : algorithmes et
simulations. Notons que le projet SODAS a été arrêté le 31 décembre 1999
pour être remplacé par le projet ADOPT.
L’objectif du projet SODAS est à partir de données observées, qui
peuvent être parfois de grande taille et munies de connaissances expertes,
d'en extraire une vue concise et structurée, ainsi que des représentations
facilement interprétables par l'utilisateur. Le thème privilégié étant la
recherche d'une structure de classification, les applications sont nombreuses
et dans des domaines aussi variés que le traitement d'enquêtes, la
reconnaissances de formes, le génome humain, l'environnement,
l'océanographie.
Le projet Esprit SODAS appartient au programme Dosis de la DG III et
est piloté par EUROSTAT. L'objectif de ce projet est de faciliter l'utilisation
des techniques d'analyse des données numériques et/ou symboliques dans les
grands organismes de statistiques européens. Un logiciel du même nom a été
mis au point afin de répondre à ces problématiques, issu de la collaboration
entre plusieurs organismes de l’Europe entière :












CISIA, France
DIB-UNIBA, Italie
DMS, Italie
EDF France
FUNDP-INFO, Belgique
FUNDP-MATHS, Belgique
INRIA, France
LEAD, Espagne
LISE DAUPHINE, France
THOMSON, France
UCM, Espagne
RWTH, Allemagne
9
Voici les axes de recherche de projet SODAS, projet pour lequel le logiciel a
été développé :



Nouvelles représentations de données. Il s'agit de proposer des outils
mathématiques et informatiques permettant de modéliser et traiter des
objets complexes, i.e. des données structurées exprimant parfois une
variation interne, et qui ne sont pas représentables naturellement par un
point dans un espace euclidien.
Structures classificatoires.
o Utilisation des arbres de décision sur des ensembles d'objets
complexes et optimisation de cette fonction de décision par des
algorithmes neuronaux.
o Caractérisations théoriques et développement de méthodologies
permettant la mise en évidence de structures de classification
respectant des contraintes d'ordre.
Validation des résultats d'une classification. L'approche actuelle est de
tester l'existence de la structure obtenue, à l'aide de nombreuses
simulations effectuées sous l'hypothèse nulle d'une absence de cette
structure. La sensibilité des résultats aux variations ou perturbations
sur les données, est évaluée par des techniques de ré-échantillonnage.
Le logiciel SODAS :
Le principe de conception de ce logiciel consiste à construire un tableau
de données symboliques, parfois muni de règles et de taxonomies, à partir
d’une base de données, dans le but de décrire des concepts résumant un vaste
ensemble de données, analyser ensuite ce tableau pour en extraire des
connaissances par des méthodes d’analyse de données symboliques.
Ce logiciel est un prototype (logiciel de recherche) téléchargeable
gratuitement à l’adresse suivante :
http://www.ceremade.dauphine.fr/~touati/sodas-pagegarde.htm
où
sont
disponibles deux versions. Dans le cadre de notre projet, nous avons utilisé la
version 2.5.
10
Voici les principales étapes que nous suivrons et par conséquent
détaillerons au cours de notre projet :
 Construction de la base de données relationnelle sous ORACLE,
ACCESS, …. Dans le cadre de notre projet nous utiliserons
ACCESS.
 Définir un contexte par :
- des unités statistiques de premier niveau, ici les pilotes, et les
variables qui les décrivent,
- des concepts, ici les écuries, et les variables qui les décrivent
dont les valeurs peuvent être des histogrammes, des
intervalles, des valeurs uniques, etc, ... selon le type de
variable et le choix de l’utilisateur.
Notons que chaque unité de premier niveau est associée à un
concept, i. e. une unité de deuxième niveau : chaque pilote est
membre d’une écurie, et que ce contexte est défini par des
requêtes effectuées dans la base. Ceci forme donc les tableaux
nécessaires à DB2SO.
 Construction d’un tableau de données symboliques dont les
nouvelles unités statistiques sont les concepts décrits par une
généralisation des propriétés des unités statistiques de premier
niveau qui leur sont associés par l’importation des données dans
DB2SO
 Insertion des méthodes disponibles sous SODAS et paramétrage
de ces dernières avant de les exécuter, et d’interpréter alors les
résultats pour chacune d’entre elles.
11
Voici un schéma récapitulant les étapes de mise en œuvre d’analyse de
données symboliques par le logiciel SODAS :
Interface du logiciel SODAS :
12
Avant toute chose, nous rappelons qu’il faut importer la base de
données (sous ACCESS) choisie pour l’étude à l’aide de DB2SO (Data Base To
Symbolic Objects). La procédure à suivre sera amplement détaillée au
paragraphe concernant l’importation de notre base F1.mdb.
Tout d’abord, nous proposons de définir une filière sous SODAS : c’est
une représentation graphique des calculs que l’on souhaite effectuer et qu’il
est possible de visionner dans la fenêtre Chaining.
Voici la procédure suivie pour créer une filière :

Chargement de la base :
Voici comment on procède :
Puis s’ouvre alors une fenêtre dans laquelle nous devons indiquer où se
trouve la base à importer dont l’extension est .sds et la sélectionner :
Une fois cette étape effectuée, la filière va nous permettre de pouvoir
exécuter des méthodes sur cette base. A ce moment là, l’interface graphique
de la filière est la suivante :
Le nom de la base sur laquelle la
filière s’appuiera est F1.sds.
13

Insertion d’une méthode
On clique sur l’onglet Method
puis Insert Method.
On obtient
suivante :
alors
la
fenêtre
Il ne reste plus qu’à faire glisser la
méthode que l’on veut exécuter
avec la souris. Les méthodes étant
choisies dans la fenêtre Methods.
Elles sont regroupées par ‘thème’.
Nous prenons l’exemple de la
méthode
View
(thème :
Descriptive Statistic dont
l’explication et l’interprétation des
résultats seront faites
ultérieurement :
Nous
remarquons
que
les
méthodes sont numérotées. Ainsi,
la méthode 1 est la méthode View.
Le ‘carré’ de cette méthode est
gris, ceci signifie que la méthode
n’est pas encore paramétrée. En
effet,
le
paramétrage
des
méthodes
est
une
étape
nécessaire
pour
pouvoir
l’exécuter.

Paramétrage d’une méthode
Une fois la méthode ‘glissée’, nous devons la paramétrer. Pour cela, il
suffit de faire un clic droit sur la ‘carré’ de la méthode, ici View puis de
cliquer sur Parameters. Nous obtenons alors la fenêtre suivante :
14
Il ne reste plus qu’à rentrer les
paramètres voulus et de faire OK.
Nous obtenons
suivante :
alors
la
fenêtre
Nous remarquons que le carré de la
méthode est rouge, ce qui signifie
que la méthode a été paramétrée et
est donc exécutable.
Cependant, nous devons enregistrer la
filière préalablement à toute exécution
de la filière. Pour cela, on clique sur
l’onglet Chaining puis sur Save Chaining,
nous
devons
alors
indiquer
un
emplacement de sauvegarde pour la
filière.
Une fois la filière enregistrée et
nommée, nous pouvons exécuter la
méthode en faisant un clic droit sur la
méthode puis Run method, ou si l’on
veut paramétrer toutes les méthodes
puis les exécuter en même temps, on
doit cliquer sur l’onglet Chaining puis
sur Run Chaining.
15
Nous obtenons alors un carré copiant une feuille dactylographiée sur
fond jaune qui permet d’accéder aux résultats numériques par un double clic,
et un carré avec un graphe sur fond rouge dans le cas de cette méthode, qui
permet d’afficher les graphiques de cette méthode par un double clic.

Résultat final
Après exécution de toutes les méthodes nous obtenons la fenêtre suivante :
16
III)
APPLICATION : ANALYSE DE DONNEES SUR LA FORMULE 1
1. Présentation de la problématique
Comme nous l’avons mentionné dans l’introduction, nous cherchons
dans le cadre de notre projet effectuer l’analyse des données symboliques, à
l’aide du logiciel SODAS, du championnat 2005 de formule 1.
2. Présentation des données
a) La construction de notre base
La base de données F1.mdb est une base de données relationnelle sous
format Access. Nous avons entièrement créé cette base à partir des données
trouvées sur les sites Internet suivants :
- http://www.f1-legend.com/
- http://www.f1classement.com/
- http://fr.wikipedia.org/wiki/Championnat_du_monde_de_Formu
le_1_2005
- http://f1.lalibre.be/
- http://europe1r.football365.fr/Sports_Mecaniques/F1/?module
=pilotes&id=32
- http://fr.sports.yahoo.com/f1/drivers/626.html
La construction de cette base a été l’étape la plus longue et la plus
fastidieuse de notre projet. En effet, certains renseignements tels que la
situation maritale des pilotes a constitué une tâche assez ardue, car ceci a
trait à la vie personnelle des pilotes, or ce n’est que rarement le propos dans
les sites consacrés à la F1, même sur les sites de fans. Ce type d’information
peut paraître futile, mais ceci nous permet de créer des variables qualitatives,
essentielles pour montrer l’intérêt du logiciel SODAS.
Une fois les informations désirées recueillies, nous avons donc construit
notre base de données relationnelle qui nous servira de support tout au long
de notre étude. Cette base de données regroupe ainsi les 10 écuries
concurrentes lors du championnat et leurs 25 pilotes.
Nous proposons aux paragraphes suivants le détail de la base de
données F1.mdb.
17
b) Présentation des trois tables de F1.mdb
Nous présentons tout d’abord un listing complet des trois tables
constituant notre base de données, avant de présenter les relations qui les
lient entre elles.

La table ecuries
Nous voyons grâce au Mode Création le libellé de chaque variable descriptive
de la table ecuries.
nom ecurie : nom de l’écurie en 2005, c’est la clé primaire de
cette table puisque cette variable constitue l’identifiant unique.
Nous proposons ci-dessous un listing avec des explications de ces
variables descriptives de l’écurie considérée :
- nb points : nombre de points inscrits au totale en 2005,
variable quantitative
- nb victoires : nombre de victoires inscrites au palmarès 2005,
variable quantitative
- GP disputes : nombre de grands prix disputés depuis les
débuts de l’écurie considérée en F1, variable quantitative
- titre pilote O/N : est-ce que cette équipe a déjà gagné un titre
pilote depuis ses débuts en F1 ?, variable qualitative binaire
- titre constructeur O/N : est-ce que cette équipe a déjà gagné
un titre constructeur depuis ses débuts en F1 ?, variable
qualitative binaire
- debut en F1 : année de début en F1, variable qualitative
18
- moteur : marque du moteur sur les véhicules de l’équipe,
variable qualitative
- pneus : marque des pneus sur les véhicules de l’équipe,
variable qualitative
- nationalite : nationalité de l’écurie, variable qualitative
- classement constructeur 2005
- nb victoires 2005 : nombre de courses remportées par
l’écurie au cours du championnat 2005, variable quantitative
- nb podiums 2005 : nombre de fois que l’écurie est arrivée
première, seconde ou troisième à une course, variable
quantitative
- nb abandons 2005 : nombre de fois que l’écurie a déclaré
forfait, variable quantitative
- nb poles position 2005 : nombre de fois où l’écurie est parti
en pôle position, variable quantitative
- nb meilleurs tours 2005 : nombre de fois que l’écurie a eu le
meilleur temps sur un tour, variable quantitative
- nb meilleures places en GP 2005 : id mais pour meilleures
places
- carburant : marque de carburant utilisé, variable qualitative
- lubrifiant : marque de lubrifiant utilisé, variable qualitative
- nom 2006 : nom de l’écurie pour le championnat 2006
- podium 2005 O/N : est-ce que cette équipe a été sur un
podium au cours de la saison 2005? Oui : premier, second ou
troisième du classement constructeur, moyen : quatrième,
cinquième ou sixième du classement constructeur ou non :
au-delà du sixième rang au classement général constructeur,
variable qualitative à trois modalités.
Notons que certaines de ces variables sont redondantes, mais que c’est
une volonté de notre part car ceci nous servira dans la partie : utilisation du
logiciel SODAS. Et que d’autre part, certaines de ces variables ne nous seront
d’aucune utilité pour la suite. Par ailleurs, le faible nombre de victoires de
l’équipe Renault peut paraître anormal à nos lecteurs, mais ceci s’explique que
‘la grande époque’ de Renault avec Alain Prost était au temps du partenariat
Renault Williams, ainsi les victoires ont été attribuées à Williams et non à
Renault.
La table ecuries regroupe donc les individus de second ordre, i.e. les
concepts sont les écuries de formule 1 en 2005.
19

La table pilotes
Nous voyons grâce au Mode Création le libellé de chaque variable descriptive
de la table pilotes.
nom : nom du pilote, c’est la clé primaire de cette table puisque
cette variable constitue l’identifiant unique. Notons que pour que
cet identifiant soit unique et valide sous SODAS, qui n’accepte
pas de clé primaire constitué de plus de un attribut, que nous
avons dû rajouter l’initiale du prénom pour les frères
Schumacher.
Nous proposons ci-dessous un listing avec des explications de ces
variables descriptives du pilote considéré :
- nom ecurie : nom de l’écurie du pilote en 2005, le libellé de
cette variable doit être le même que l’identifiant de la table
ecuries pour pouvoir relier les deux tables entre elles. De
plus, cette variable doit être en seconde position afin de
pouvoir correctement importer notre base sous SODAS.
- prenom : prénom du pilote, variable qualitative
- pays : pays d’origine du pilote, variable qualitative
- nb de points : nombre de points marqués au championnat
2005, variable quantitative
- annee naissance : année de naissance du pilote
- taille : taille en cm du pilote
- poids : poids en kg du pilote
- situation maritale : est ce que le pilote est marié, fiancé ou
célibataire ?, variable qualitative
- debut en F1 : année de début de carrière en F1
- nb de GP : nombre de grands prix remportés par la pilote au
cours du championnat 2005, sachant qu’il y avait 19 courses,
variable quantitative
20
- poles : nombre de fois que le pilote a obtenu la pole positione,
variable quantitative
- nb victoires 2005 : nombre de fois que la pilote a gagné,
variable quantitative
- titre : est-ce que ce pilote a déjà eu un titre au cours de sa
carrière en F1?, variable qualitative

La table pays_continent
Cette table a été créée pour répondre aux critères de taxonomies, cette table
sera reliée à la table pilotes :
Nous voyons grâce au Mode Création le libellé de chaque variable descriptive
de la table pays_continent.
- pays : pays d’origine du pilote
- continent : continent correspondant au pays d’origine du
pilote
c) Schéma relationnel des trois tables de F1.mdb
d) Présentation des requêtes effectuées sous F1.mdb
21

La requête sdsf1
Cette requête renvoie une table du type :
individus
concepts
description des individus












Nous avons créé cette requête par l’assistant de cette manière :
Cette requête nous sera essentielle pour la suite de notre projet. En
effet, cette requête doit retourner une ligne pour chaque individu, chaque
ligne ayant donc le nom (unique) de l’individu, le concept auquel il appartient
et une description précise (poids, taille, âge, ...). Nous avons fait attention à ce
qu’il y ait des variables quantitatives et qualitatives. La requête s’exécute
dans la base de données et le résultat est stocké en mémoire et un tableau de
concepts sera généré sous SODAS (cf : la partie consacrée à DB2SO).
22

La requête addecuries
Cette requête permet de renvoyer la description complète des concepts.
La requête a été créée par le mode Assistant de Access de la manière
suivante :

La requête taxo
Cette requête nous permettra d’extraire des taxonomies. En effet, cette
requête renvoie en première colonne les variables filles et en deuxième
colonne la variable parente.
Voici le mode Création de la requête taxo :
23
3. Extraction de données symboliques à partir de notre base de
données relationnelle : utilisation de DB2SO
a) Qu’est-ce DB2SO ?
DB2SO (Data Base To Symbolic Objects) est un module de SODAS qui
permet de créer comme son nom l’indique un ensemble de concepts à partir
des données stockées dans la base de données relationnelle, grâce à son
système de liaison ODBC lui permettant d’accéder directement à la base de
données, notamment aux bases de données crées sous Access.
Dans notre base de données, et en particulier grâce à la requête sdsf1
les individus ont été répartis selon des groupes. Ainsi DB2SO peut construire
des concepts à partir de ces groupes d’individus. Des variables mères/filles et
taxonomiques peuvent également y être adjointes via les requêtes addecuries
et taxo.
b) Mise en pratique détaillée avec notre base concernant la formule 1
Les étapes de l’importation sont illustrées par des captures d’écran, les
explications manuscrites seront donc très succinctes.

Importation de la base f1.mdb
24
Cette manipulation nous permet de basculer sous le module DB2SO qui
se présente de la manière suivante :
Une fois que l’on est sur cette interface, il faut cliquer sur l’onglet File,
puis New, s’ouvre alors la fenêtre qui nous permet de choisir le type de base
de données que l’on veut importer. Dans notre cas, nous devons sélectionner
le type MS Access, puis cliquer sur OK :
25
Nous devons alors sélectionner notre base, en indiquant où se situe
cette base Access dans l’architecture du disque dur :
A partir de là, nous avons indiqué à DB2SO le type de données auquel il
a affaire et où les trouver. Nous devons donc passer à l’étape suivante qui
consiste en l’extraction des individus.

Extraction des individus
Nous devons donc indiquer à DB2SO la requête qui lui permettra de
construire un tableau de la forme : individus/concepts/description des
individus. Nous faisons donc appel à la requête sdsf1 :
Cette étape fondamentale pour créer un tableau
symboliques permet justement de créer le tableau de concepts.
de
données
26
Notons qu’à l’issue de l’extraction des individus, il est possible de visualiser
les résultats en sélectionnant l’onglet View, puis Individuals.

Adjonction de variables
Nous désirons extraire les variables de la base de données relationnelle
décrivant le concept retenu, ici les écuries de F1. Pour cela nous devons
utiliser l’onglet Modify puis Add single-valued variables de la manière
suivante :
S’ouvre alors une deuxième fenêtre dans laquelle nous devons indiquer
quelle requête préalablement programmée sous Access dans notre base de
données F1.mdb : addecuries :
27

Adjonction de taxonomie
Nous désirons enfin rajouter un variable taxonomique dont la mère sera
le continent d’origine du pilote et la fille le pays d’origine de ce même pilote,
sachant que le pays d’origine du pilote est une variable renseignée dans la
description des individus.
Afin de procéder à l’ajout de cette taxonomie, nous faisons appel à la requête
taxo programmée dans notre base en cliquant sur l’onglet Modify puis Create
a taxonomy :
28
S’ouvre alors la fenêtre suivante où l’on choisit évidemment la requête taxo et
la variable continent :

Résultat
Après avoir exécuté toutes les requêtes, DB2SO nous fournit un tableau
récapitulatif reprenant toutes les variables et tous les concepts ainsi définis :
29
Ainsi, nous apprenons que l’étape de l’extraction des individus, étape
charnière dans la construction du tableau de données symboliques, a créé 14
variables dont 5 qualitatives et 9 quantitatives.
Quant à l’étape addsingle, elle a rajouté 9 variables qualitatives et 11 variables
quantitatives.
Enfin, l’ajout d’une taxonomie a bien été fait.
Dès lors, nous devons enregistrer le tableau de données symboliques en
cliquant l’onglet File puis Save As afin de lui indiquer l’endroit précis où l’on
désire que la base ainsi créée soit sauvegardée sous l’extension .gaj. Nous
l’avons nommée f1.gaj.
Enfin, nous devons l’exporter afin de pouvoir l’utiliser sous SODAS. Le
fichier prend donc l’extension .sds, ainsi son nom sera f1.sds. Voici comment
procède-t-on :
Nota Bene : la dernière ligne de la sortie nous informe que le fichier de
sauvegarde f1.gaj a bien été créé.
30
4. Exemples de méthodes sous SODAS
a) Avertissement
Nous précisons que dans le cadre de notre projet nous ne cherchons
pas résoudre précisément notre problématique, mais essentiellement à
démontrer l’intérêt du logiciel SODAS. Par ailleurs, pour chacune des
méthodes présentées ci-dessous nous nous attarderons que sur les résultats
les plus porteurs d’informations quant à notre problématique.
b) La méthode VIEW : viewer
i)
Présentation de la méthode VIEW
Cette méthode permet à l’utilisateur de visionner facilement dans un
tableau tous les objets symboliques ainsi que les variables sélectionnées.
Voici l’éditeur ce la méthode VIEW :
L’éditeur ci-dessus fournit également la possibilité à l’utilisateur de
représenter les différents objets symboliques sous forme d’étoile zoom en
deux dimensions ou trois dimensions. Cette étoile zoom est une sorte de
photo synthétique de l’objet, et ainsi de pouvoir comparer les concepts entre
eux. Notons que pour que la lisibilité des étoiles soit optimale nous nous
devons de ne pas prendre trop de variables en paramètres.
Nous nous attacherons particulièrement à l’étude des trois plus grandes
équipes de formule 1.
Notons que sur les étoiles en deux dimensions les variables qualitatives
sont représentées par des points de taille proportionnelle au nombre
d’occurrence rencontrées dans l’étude pour une valeur donnée, et que les
variables quantitatives sont reliées entre elles (d’où le nom d’étoile) au niveau
de leur valeur.
31
ii)
Résultats obtenus avec VIEW

Renault
Nous
proposons
agrandissement du
d’origine du pilote :
un
pays
L’étoile à deux dimensions nous apprend que l’équipe Renault a eu le
plus de pôles positions, de podiums et de points au cours du championnat
2005. De plus, Renault n’a fait aucun abandon lors de la saison. Renault a
également eu le meilleur classement, c’est donc l’équipe qui a remporté le
titre de constructeur 2005. Enfin, ses deux pilotes, d’origine espagnole et
italienne, ont été classé premier et cinquième du championnat.
Le graphique en 3D ne nous apporte aucune information quant à
l’explication de l’écrasante victoire de Renault au championnat 2005 de
formule 1, si ce n’est la confirmation que les deux pilotes de Renault sont
d’excellent niveau quand bien même l’un n’est que cinquième du championnat
alors que l’autre est le meilleur d’origine espagnole et italienne.
En conclusion, ces éléments nous montre l’excellence de l’écurie
Renault au cours de la saison 2005.
32

McLaren
Nous proposons la
distribution des pays
d’origine des pilotes :
L’étoile à deux dimensions nous informe que l’écurie McLaren est celle
qui a eu le plus de meilleurs tours au cours de la saison 2005, de pôles
position, à égalité avec Renault, et de podiums, comme Renault.
Malheureusement, McLaren a déclaré forfait plusieurs fois au cours du
championnat, ce qui explique peut être pourquoi McLaren n’a été que second
au championnat constructeur. Nous apprenons également que l’équipe
McLaren dispose de quatre pilotes de nationalités différentes : espagnole,
finlandaise, colombienne et autrichienne.
Les classements des quatre pilotes, plus lisible sur ce graphique,
oscillent entre deuxième et vingt-quatrième du championnat des pilotes 2005.
33

Ferrari
L’analyse de l’étoile en 2D nous apprend que l’équipe Ferrari n’a pas eu
une bonne saison 2005 : seulement 3 meilleurs tours, une pole position,
quelques abandons, 9 podiums. Ferrari est donc troisième au championnat
constructeur, et leurs pilotes d’origine allemande et brésilienne sont troisième
et huitième du championnat des pilotes 2005. D’autre part, si l’on compare le
nombre de points de Ferrari obtenu lors du championnat à ceux de ces deux
rivaux, il est nettement inférieur.
L’étoile en 3D n’a pas été représentée car elle n’apportait rien de plus à
notre analyse sur l’écurie Ferrari.

Conclusion
Nous remarquons que Renault n’a pas nettement dominé ce
championnat, car l’écurie McLaren a été également très performante lors de
cette saison. En revanche, pour Ferrari cette saison n’a pas été glorieuse,
puisque l’écart avec ces deux principaux rivaux : Renault et McLaren est
assez conséquent. Si nous avions étudié les autres concurrents nous nous
serions aperçus que les équipes ont eu de moins bons résultats en termes de
nombre de pôles positions, nombre de meilleurs tours, nombre de podiums,
plus d’abandons, ...
34
c) La méthode D-STAT : Descriptive Statitics
i)
Présentation de la méthode D-STAT
La méthode D-STAT permet d’obtenir des statistiques, habituellement
faites sur des données classiques à des objets symboliques, c’est-à-dire des
concepts.
Elle permet notamment de fournir :
- les fréquences relatives pour les variables multimodales
- les fréquences relatives pour les variables intervalles
- les capacités : le minimum, le maximum et la moyenne pour
les variables modales
- des bi-plot pour les variables intervalles.
ii)
Résultats obtenus avec D-STAT

Fréquences relatives pour les variables intervalles
Voici la sortie graphique :
Nous apprenons que :
- les classements sont hétéroclites,
- les écuries ayant moins de 13 points sont majoritaires,
puisqu’elles représentent 40%, et qu’il y a très peu d’équipes
ayant un nombre de points supérieur à 75,
35
- les équipes ont souvent un grand nombre de participations aux
grands prix, de l’ordre de plus de 16, à leur actif,
- une large majorité des écuries a eu zéro ou une pôle position,
- de même en ce qui concerne le nombre de victoires
En conclusion, nous pouvons en déduire que les trois écuries leaders
(Renault, McLaren et Ferrari) dominent largement le championnat.

Bi-plot pour les variables intervalles
Nous avons choisi d’étudier le rapport entre les classements et le
nombre de points des pilotes et entre le nombre de points et le nombre de
pôles positions d’une écurie :
Clairement, ce graphique montre que plus les pilotes d’une écurie a de
points plus ils ont un bon classement, et d’autre part que plus une équipe a de
pôles position plus elle a de points au classement général des constructeurs.
Ces variables sont donc corrélées entre elles.
Ce graphique montre là encore la prédominance de McLaren et de
Renault lors de la saison 2005.
36

Capacités pour les variables modales
Voici le graphique obtenu grâce à la méthode D-STAT pour la variable
‘titre’, les autres variables modales étant dépourvues d’intérêt :
Les résultats principaux sont :
- Que le pilote qui a été 7 fois champion de monde appartient à une
équipe composant deux pilotes,
- Que 75% des écuries de F1 n’a jamais eu de pilote ayant obtenu
un titre de champion ou de vice champion, et qu’il existe au moins
un écurie dont les pilotes n’ont jamais eu de titres.
Ainsi, il se pourrait que la voiture y soit beaucoup dans le fait de
remporter ou non le titre de champion.
d) La méthode HIPYR : Hierarchical and Pyramidal Clustering
i)
Présentation de la méthode HIPYR
La méthode HIPYR permet à l’utilisateur de classifier les objets
symboliques sous forme de pyramide ou de hiérarchie. Nous nous
intéresserons dans le cadre de notre projet uniquement à la classification
pyramidale.
37
Les échantillons de la pyramide sont des intervalles. La méthode
consiste à échantillonner des données plutôt complexes, en considérant la
variation des valeurs prises par les variables.
L’algorithme de classification pyramidale est une méthode
d’agglomération des concepts en partant de la base de la pyramide composée
de tous les concepts jusqu’au sommet où il n’y a plus qu’une classe
regroupant tous les concepts.
Dans la classification pyramidale, chaque classe formée est définie par
l’ensemble de ses éléments, ce qui constitue son extension, et par l’objet
symbolique qui décrit ses propriétés : l’intension de la classe. L’intension est
alors héritée d’un prédécesseur par un successeur et nous obtenons ainsi une
structure d’héritage, qui permet l’identification de concepts intermédiaires.
ii)
Résultats obtenus avec HIPYR
Dans notre cas, nous avons choisi d’étudier la matrice des données
symboliques dont le critère d’agrégation est ‘generality degree’ (degré de
généralité).
Voici la classification pyramidale obtenue :
Les premiers regroupements ne sont pas lisibles, il faut donc lire le
listing également pour connaître les regroupements faits ou faire des
agrandissements successifs.
Néanmoins, sur ce graphique nous voyons que les écuries sont tout
d’abord regroupées en fonction de leurs résultats obtenus à cette saison : les
‘bons’ avec les ‘bons’, les ‘moyens’ avec les ‘moyens’, et les ‘mauvais’ avec
les ‘mauvais’. Puis, nous remarquons que la hiérarchie regroupe d’abord les
meilleurs avec les ‘un peu moins bons’ et les ‘moyens hauts’ avec les ‘moyens
bas’, pour ensuite fusionner ces nouveaux groupes au sein d’un même palier.
Enfin, ce dernier palier est regroupé avec le groupe des ‘mauvais’.
38
e) la méthode TREE : Decision Tree
i)
Présentation de la méthode TREE
L’arbre de décision propose un algorithme par agrandissement d’arbre
appliqué aux données imprécises, décrites par des assertions dans l’analyse
des données symboliques. Dans ce contexte, la procédure de partition
récursive peut être interprétée comme une recherche itérative pour un
ensemble organisé d’objets symboliques correspondant le plus aux données
initiales. A chaque itération de l’algorithme, la meilleure partition est obtenue
par l’utilisation d’une mesure donnée en paramètre. Nous obtenons ainsi une
nouvelle liste d’objets symboliques qui permet d’assigner aux futurs nouveaux
objets une classe de la partition précédemment connue.
ii)
Résultats obtenus avec TREE
Nous cherchons ici à étudier l’influence de certaines variables sur les
résultats obtenus par une écurie lors de la saison 2005 : l’expérience des
pilotes de l’écurie et les performances records de l’écurie.
Pour notre étude, nous avons choisi les paramètres suivants :
- variable à expliquer : poduim O/N (N.B. : cette variable doit
obligatoirement être issue de l’adjonction de nouvelles variables :
addsingle )
- variables explicatives : debut en F1, nb GP, nb abandons 2005, nb
pôles position 2005, nb meilleurs tours 2005.
Voici l’arbre obtenu :
==================================
| EDITION OF DECISION TREE
|
==================================
PARAMETERS :
Learning Set
:
10
Number of variables :
5
Max. number of nodes:
5
Soft Assign
: ( 1 ) FUZZY
Criterion coding
: ( 3 ) LOG-LIKELIHOOD
Min. number of object by node
:
5
Min. size of no-majority classes :
2
Min. size of descendant nodes
:
1
Frequency of test set
:
0.00
+ --- IF ASSERTION IS TRUE (up)
!
--- x [ ASSERTION ]
!
+ --- IF ASSERTION IS FALSE (down)
39
+---- [ 2 ]Non (
0.00
0.00
4.00 )
!
!----1[ nb_poles_positions_2005 <= 0.000000]
!
!
+---- < 6 >moyen (
0.00
3.00
0.00 )
!
!
!----3[ nb_meilleurs_tours_2005 <= 1.000000]
!
+---- < 7 >Oui (
3.00
0.00
0.00 )
------- END OF PROGRAM TREE ---------
Ainsi, si l’écurie n’a pas eu de au moins une pôle position au cours de la
saison, nous pouvons affirmer que cette dernière a un mauvais classement
constructeur : soit septième, soit huitième soit neuvième soit dixième.
Sinon, si, l’écurie a fait au moins deux meilleurs tours au cours du
championnat, alors elle est montée sur le podium. Dans le cas contraire,
l’écurie a eu des résultats honorables : quatrième, cinquième ou sixième au
classement général.
N.B. : le listing complet de la sortie de la méthode TREE est disponible
en annexe.
f) la méthode DIV : Decisive Classification
i)
Présentation de la méthode DIV
La méthode DIV est une méthode d’échantillonnage hiérarchique qui
regroupe tous les objets symboliques en un seul échantillon et procède par
division successive de chaque échantillon formé. A chaque étape, un
échantillon est divisé en deux selon une question binaire. Cette dernière induit
la meilleure partition en deux selon l’extension du critère d’inertie : maximiser
la variance inter-classe et minimiser la variance intra-classe.
Nous avons pris en entrée le tableau de données symboliques, mais
nous pouvons également prendre un tableau de données classiques.
ii)
Résultats obtenus avec DIV
Nous avons cherché ici à séparer nos concepts, les écuries de F1, par
des variables moins évidentes que le nombre de victoires en 2005, ou l’ordre
du classement général des constructeurs ou pilotes.
40

Application à des variables quantitatives
Voici les variables choisies :
THE SELECTED SPLIT-VARIABLES ARE :
-------------------------( 17) :GP_disputes
( 20) :debut en F1_1
( 27) :nb_abandons_2005
( 28) :nb_poles_positions_2005
( 29) :nb_meilleurs_tours_2005
( 30) :nb_meilleurs_places_en_GP_2005
Voici les résultats obtenus pour ces variables quantitatives :
THE CLUSTERING TREE :
--------------------- the number noted at each node indicates
the order of the division
- Ng <-> yes and Nd <-> no
+---- Classe 1 (Ng=3)
!
!----2- [GP_disputes <= 155.500000]
!
!
!
!
+---- Classe 3 (Ng=3)
!
!
!
!
!----4- [nb_abandons_2005 <= 11.000000]
!
!
!
+---- Classe 5 (Nd=1)
!
!----1- [GP_disputes <= 402.500000]
!
!
+---- Classe 2 (Ng=2)
!
!
!----3- [nb_abandons_2005 <= 10.000000]
!
+---- Classe 4 (Nd=1)
NAME OF INTERNAL VT0 FILE : C:\Perso\Fac\Master\SODAS\projet\EIPDP901.vt0
------- END OF PROGRAM DIV ---------
Ainsi, les concepts peuvent se séparer clairement par leur nombre de
grands prix disputes depuis les débuts en F1 de l’écurie considérée, et par son
nombre d’abandons au cours de la saison 2005. Nous pouvons donc conclure
que l’expérience et la performance des écuries sont des variables essentielles
pour pouvoir espérer gagner le championnat 2005.

Application à des variables intervalles
Voici les variables choisies :
THE SELECTED SPLIT-VARIABLES ARE :
-------------------------( 6) :annee_naissance
( 7) :taille
( 8) :poids
( 10) :debut_en_F1
( 11) :nb_GP
41
Voici les résultats obtenus pour ces variables quantitatives :
THE CLUSTERING TREE :
--------------------- the number noted at each node indicates
the order of the division
- Ng <-> yes and Nd <-> no
+---- Classe 1 (Ng=2)
!
!----2- [nb_GP <= 10.500000]
!
!
!
+---- Classe 3 (Nd=2)
!
!----1- [nb_GP <= 16.750000]
!
!
+---- Classe 2 (Ng=1)
!
!
!----3- [debut_en_F1 <= 1994.500000]
!
!
+---- Classe 4 (Ng=2)
!
!
!----4- [taille <= 169.750000]
!
+---- Classe 5 (Nd=3)
NAME OF INTERNAL VT0 FILE : C:\Perso\Fac\Master\SODAS\projet\EIPDP901.vt0
------- END OF PROGRAM DIV ---------
Ainsi l’expérience et la performance du pilote au cours de la saison
2005 contribuent également au fait d’obtenir de bons résultats. Néanmoins,
notons que la variable explicative de la taille est plutôt saugrenue.

Conclusion
C’est l’alliance d’un bon pilote et d’une bonne écurie qui peut mener une
écurie à la victoire.
g) la méthode SCLUST : Dynamic Clustering
i)
Présentation de la méthode SCLUST
Le module SCLUST permet de partitionner un tableau de données
symboliques en un certain nombre de classes homogènes, que l’on doit
paramétrer, ou autrement dit c’est un algorithme de nuées dynamiques à partir
du tableau de données similaires.
Les classes sont donc des moyennes.
42
ii)
Résultats obtenus avec SCLUST

Etoiles
Ce tableau représente le centre ou la moyenne de la population totale.
Ainsi, nous apprenons que en moyenne les pilotes des écuries entre 27 et 30
ans, ont des tailles et des poids très disparates, ont commencé leur carrière
en F1 il y a entre 5 et 8 ans, ont fait 17 grands prix sur les 19 de cette saison
2005, ont fait zéro ou une pôle position et ont connu aucune victoire cette
année, ont un classement plutôt médiocre et donc un nombre de points faible.
Ce graphique nous renseigne sur les caractéristiques des meilleures
écuries de la saison 2005 : un bon classement (du premier au cinquième).
Nous apprenons que parmi les meilleurs, le nombre de points, de pôles de
position et de victoires sont très disparates. Nous remarquons également que
les caractéristiques physiques : taille et poids des pilotes de ces écuries sont
assez similaires. En revanche certains ont beaucoup d’expérience : jusqu’à 9
ans alors que d’autres n’ont que 5 ans d’expérience en F1.
43
Voici les caractéristiques des écuries ayant obtenu de mauvais résultats
au cours de la saison 2005 : peu de points, derniers dans le classement
général des constructeurs, pas de victoires en 2005. Les pilotes ont peu
d’expérience en moyenne, et sont plutôt jeunes dans l’ensemble.
Enfin, voici les caractéristiques des écuries ayant obtenu des résultats
moyens lors du championnat 2005. Nous apprenons que en moyenne les
pilotes de ces écuries sont plutôt âgés par rapport aux autres pilotes, et qu’ils
sont plus gros que les autres.
44

Représentation des prototypes dans une même fenêtre
Nous nous intéressons ici à l’influence du nombre de points sur le
classement des écuries regroupées sous forme de classe.
Grâce à ce graphique, nous avons confirmation
précédemment énoncés dans le paragraphe ci-dessus :
- prototype 1/1 : moyenne des classes
- prototype 1/3 : les écuries moyennes
- prototype 2/3 : les mauvaises écuries
- prototype 3/3 : les meilleures écuries
des
résultats
h) la méthode DISS : Descriptive Measures
i)
Présentation de la méthode DISS
Le module DISS a été développé pour la méthode ‘Dissimilarity and
Matching’. Cette méthode a été faite pour comparer les objets symboliques :
quantifier les corrélations, classer et discriminer les concepts entre eux. Les
résultats de ce genre d’analyse ayant pour objectif de clairement comprendre,
mesurer et identifier les groupes d’objets symboliques, peut aussi être appelé
‘représentation graphique des données symboliques’ et peut être appliqué à
d’autres méthodes statistiques ou d’autres tâches de Data Mining.
La méthode DISS permet de mesurer les dissimilarités entre les
différents concepts. Nous devons sauvegarder la base de données
45
symboliques créée par cette méthode avant de pouvoir l’exécuter. Nous
pourrions ainsi appliquer la méthode DCLUST sur cette nouvelle base (que
nous n’avons pas réussie à implémenter).
ii)
Résultats obtenus avec DISS
Nous avons choisi comme mesure de dissimilarité la distance de Ichino
et Yaguchi.
Voici le graphique
Nous remarquons que les meilleures écuries de F1 sont les plus
éloignées des plus mauvaises et vice versa, ce qui est logique. En revanche,
les écuries ayant obtenu des résultats moyens sont moins éloignées des
mauvaises écuries que des meilleures.
46
IV)
CONCLUSION
Nous avons montré au travers de cette étude sur la saison 2005 de
formule 1 l’intérêt et la puissance d’un logiciel du type de celui de SODAS.
L’analyse des données symboliques nous a permis entre autres de bien
décrire les écuries de F1, qui représentaient les concepts ou individus de
second ordre formés grâce aux individus de premier ordre : les pilotes. Ainsi,
l’agrégation des données sous forme de concepts nous permet d’obtenir de
nouveaux résultats que nous n’aurions peut être pas pu dégagé à l’aide d’une
analyse de données classique.
Le principal résultat de cette étude est que les bons résultats d’une
équipe sont le fruit d’une expérience certaine et d’une performance sans faille
de la part non seulement de l’écurie mais aussi des pilotes de cette écurie.
En ce qui concerne le logiciel SODAS utilisé dans le cadre de ce projet,
il ressort que ses atouts majeurs pour l’utilisateur est sa simplicité, ses
multiples sorties : graphiques ou listings avec interactions possibles telles que
le choix des variables, agrandissement, 2D ou 3D, ... et surtout l’emploi de
l’analyse des données symboliques dans ses différentes méthodes.
Pratiquement, il serait intéressant de faire une analyse de données dite
classique sur notre base, et de la compléter par notre étude. Les résultats
seraient alors plus complets, car l’analyse des données symboliques n’est pas
mieux que l’analyse exploratoire des données, elle est un complément.
47
V)
ANNEXES

listing complet de la méthode TREE
------------------------------------------------------BASE= C:\Perso\Fac\Master\SODAS\projet\f11.sds
Number of OS = 10
Number of variables = 34
METHOD=TREE Version 2.0
INRIA 2003
-------------------------------------------------------Learning Set
:
10
Number of variables :
5
Max. number of nodes:
5
Soft Assign
: ( 1 ) FUZZY
Criterion coding
: ( 3 ) LOG-LIKELIHOOD
Min. number of object by node
:
5
Min. size of no-majority classes :
2
Min. size of descendant nodes
:
1
Frequency of test set
:
0.00
GROUP
( 10
( 11
( 27
( 28
( 29
OF PREDICATE VARIABLES :
) debut_en_F1
) nb_GP
) nb_abandons_2005
) nb_poles_positions_2005
) nb_meilleurs_tours_2005
CLASSIFICATION VARIABLE :
( 34 ) podium_2005_O/N
NUMBER OF A PRIORI CLASSES :
ID_CLASS
NAME_CLASS
1
Oui
2
moyen
3
Non
3
LIST OF SYMBOLIC OBJECTS IN THE LEARNING SET :
renault
mclaren
ferrari
toyota
BAR
minardi
Jordan
CLASS
SIZE
LEARNING
williams
red bull
sauber
TEST
1
2
3
3
3
4
3
3
4
0
0
0
TOTAL
10
10
0
48
=================================
| SPLIT OF A NODE
:
1 |
=================================
LEARNING SET
=======================================================
|
| N(k/t) |
N(k)
| P(k/t) | P(t/k) |
=======================================================
| Oui
|
3.00 |
3.00 |
30.00 |
100.00 |
| moyen
|
3.00 |
3.00 |
30.00 |
100.00 |
| Non
|
4.00 |
4.00 |
40.00 |
100.00 |
=======================================================
TREE CRITERION
4.729033
=======================================================================
| Ord |
variable
|
value
|
criterion |
=======================================================================
|
1 |( 28) nb_poles_positions_2005 |
0.0000 |
1.8062 |
|
2 |( 29) nb_meilleurs_tours_2005 |
1.0000 |
2.0761 |
|
3 |( 10) debut_en_F1
|
2001.0000 |
3.7754 |
|
4 |( 27) nb_abandons_2005
|
8.0000 |
4.1095 |
|
5 |( 11) nb_GP
|
14.0000 |
4.1929 |
=======================================================================
SPLITTING NODE:
VARIABLE
SPLIT
CRITERION
1
: ( 28) nb_poles_positions_2005
: 0.000000
: 1.806180
LEARNING SET
==================================================
|
| left node | right node | Row totals |
| node
|
2 |
3
|
1
|
==================================================
| Oui
|
0.00 |
3.00 |
3.00 |
| moyen
|
0.00 |
3.00 |
3.00 |
| Non
|
4.00 |
0.00 |
4.00 |
==================================================
| Total |
4.00 |
6.00 |
10.00 |
==================================================
=================================
| SPLIT OF A NODE
:
2 |
=================================
LEARNING SET
=======================================================
|
| N(k/t) |
N(k)
| P(k/t) | P(t/k) |
=======================================================
| Oui
|
0.00 |
3.00 |
0.00 |
0.00 |
| moyen
|
0.00 |
3.00 |
0.00 |
0.00 |
| Non
|
4.00 |
4.00 |
100.00 |
100.00 |
=======================================================
THIS STOP-SPLITTING RULE IS TRUE : The size of the node is too small
SIZE OF THE NODE 4.000000 VALUE OF STOP-SPLITTING RULE 5.000000
THIS STOP-SPLITTING RULE IS TRUE : The size of the no-majority classes is too small
SIZE OF THE NO-MAJORITY CLASSES 0.000000 VALUE OF STOP-SPLITTING RULE 2.000000
THIS NODE IS A TERMINAL NODE
No object in this node
49
=================================
| SPLIT OF A NODE
:
3 |
=================================
LEARNING SET
=======================================================
|
| N(k/t) |
N(k)
| P(k/t) | P(t/k) |
=======================================================
| Oui
|
3.00 |
3.00 |
50.00 |
100.00 |
| moyen
|
3.00 |
3.00 |
50.00 |
100.00 |
| Non
|
0.00 |
4.00 |
0.00 |
0.00 |
=======================================================
TREE CRITERION
1.806180
=======================================================================
| Ord |
variable
|
value
|
criterion |
=======================================================================
|
1 |( 29) nb_meilleurs_tours_2005 |
1.0000 |
0.0000 |
|
2 |( 28) nb_poles_positions_2005 |
2.0000 |
0.9769 |
|
3 |( 10) debut_en_F1
|
2001.0000 |
1.3044 |
|
4 |( 11) nb_GP
|
18.0000 |
1.6826 |
|
5 |( 27) nb_abandons_2005
|
6.0000 |
1.8062 |
=======================================================================
SPLITTING NODE:
VARIABLE
SPLIT
CRITERION
3
: ( 29) nb_meilleurs_tours_2005
: 1.000000
: 0.000000
LEARNING SET
==================================================
|
| left node | right node | Row totals |
| node
|
6 |
7
|
3
|
==================================================
| Oui
|
0.00 |
3.00 |
3.00 |
| moyen
|
3.00 |
0.00 |
3.00 |
| Non
|
0.00 |
0.00 |
0.00 |
==================================================
| Total |
3.00 |
3.00 |
6.00 |
==================================================
STOP . MAXIMUM TERMINAL NODES IS OBTAINED : 5
Node Partition Editing
0 0 0 0 0 0 0 0 0 0
1 1 1 1 1 1 1 1 1 1
2 6 7
Prototypes Editing
Class : 1 Number 0
Class : 2 Number 0
Class : 3 Number 0
50
RESULTS BY LEAF
LEAF
:
2
==============
=======================================================
|
| N(k/t) |
N(k)
| P(k/t) | P(t/k) |
=======================================================
| Oui
|
0.00 |
3.00 |
0.00 |
0.00 |
| moyen
|
0.00 |
3.00 |
0.00 |
0.00 |
| Non
|
4.00 |
4.00 |
100.00 |
100.00 |
=======================================================
CLASS LABEL (
3) Non
r(t)= 0.000000 p(t)= 0.400000
R(t)= 0.000000
LEAF
:
6
==============
=======================================================
|
| N(k/t) |
N(k)
| P(k/t) | P(t/k) |
=======================================================
| Oui
|
0.00 |
3.00 |
0.00 |
0.00 |
| moyen
|
3.00 |
3.00 |
100.00 |
100.00 |
| Non
|
0.00 |
4.00 |
0.00 |
0.00 |
=======================================================
CLASS LABEL (
2) Non
r(t)= 0.000000 p(t)= 0.300000
R(t)= 0.000000
LEAF
:
7
==============
=======================================================
|
| N(k/t) |
N(k)
| P(k/t) | P(t/k) |
=======================================================
| Oui
|
3.00 |
3.00 |
100.00 |
100.00 |
| moyen
|
0.00 |
3.00 |
0.00 |
0.00 |
| Non
|
0.00 |
4.00 |
0.00 |
0.00 |
=======================================================
CLASS LABEL (
1) Non
r(t)= 0.000000 p(t)= 0.300000
R(t)= 0.000000
51
RESULTS BY SYMBOLIC OBJECT
==================================================================================
| No |
Nom
|Leaf
| Class
| Oui
| moyen | Non
| criterion|
|
|
| No
| true | assig.| ( 1) | ( 2) | ( 3) |
|
==================================================================================
| 1 | renault
|
7 |
1 | 1
| 100.00 |
0.00 |
0.00 |
0.50 |
| 2 | mclaren
|
7 |
1 | 1
| 100.00 |
0.00 |
0.00 |
0.50 |
| 3 | ferrari
|
7 |
1 | 1
| 100.00 |
0.00 |
0.00 |
0.50 |
| 4 | toyota
|
6 |
2 | 2
|
0.00 | 100.00 |
0.00 |
0.50 |
| 5 | williams
|
6 |
2 | 2
|
0.00 | 100.00 |
0.00 |
0.50 |
| 6 | red bull
|
2 |
3 | 3
|
0.00 |
0.00 | 100.00 |
1.00 |
| 7 | sauber
|
2 |
3 | 3
|
0.00 |
0.00 | 100.00 |
1.00 |
| 8 | BAR
|
6 |
2 | 2
|
0.00 | 100.00 |
0.00 |
0.50 |
| 9 | minardi
|
2 |
3 | 3
|
0.00 |
0.00 | 100.00 |
1.00 |
| 10 | Jordan
|
2 |
3 | 3
|
0.00 |
0.00 | 100.00 |
1.00 |
==================================================================================
R(T)=
0.0000
52
CONFUSION MATRIX FOR TRAINNING SET
==========================================================
|
| Oui
| moyen
| Non
| Total
|
==========================================================
| Oui
|
3 |
0 |
0 |
3 |
| moyen |
0 |
3 |
0 |
3 |
| Non
|
0 |
0 |
4 |
4 |
==========================================================
| Total |
3 |
3 |
4 |
10 |
==========================================================
MISCLASSIFICATION RATE BY CLASS
TRUE CLASS
Oui
moyen
Non
(
(
(
(
TOTAL
(
ERROR
0
0
0
/SIZE
/
/
/
0 /
)
3 )
3 )
4 )
10 )
FREQUENCY
0.00
0.00
0.00
0.00
NAME OF INTERNAL TREE FILE : tree.tex
NAME OF INTERNAL VT0 FILE : C:\Perso\Fac\Master\SODAS\projet\EIO0RK01.vt0
53
==================================
| EDITION OF DECISION TREE
|
==================================
PARAMETERS :
Learning Set
:
10
Number of variables :
5
Max. number of nodes:
5
Soft Assign
: ( 1 ) FUZZY
Criterion coding
: ( 3 ) LOG-LIKELIHOOD
Min. number of object by node
:
5
Min. size of no-majority classes :
2
Min. size of descendant nodes
:
1
Frequency of test set
:
0.00
+ --- IF ASSERTION IS TRUE (up)
!
--- x [ ASSERTION ]
!
+ --- IF ASSERTION IS FALSE (down)
+---- [ 2 ]Non (
0.00
0.00
4.00 )
!
!----1[ nb_poles_positions_2005 <= 0.000000]
!
!
+---- < 6 >moyen (
0.00
3.00
0.00 )
!
!
!----3[ nb_meilleurs_tours_2005 <= 1.000000]
!
+---- < 7 >Oui (
3.00
0.00
0.00 )
------- END OF PROGRAM TREE ---------
54