DATAMINING - Ceremade - Université Paris

Transcription

DATAMINING - Ceremade - Université Paris
Université Paris Dauphine
UFR Informatique de Gestion
IUP 3 MIAGE
DATAMINING
Quel auteur doit-on éditer ?
Enseignant : Monsieur DIDAY
Johanna GARCIA
Johanna GOLD
27 Juin 2005
Projet de Data Mining
SOMMAIRE
SOMMAIRE ..................................................................................................................................................... 2
INTRODUCTION............................................................................................................................................. 3
1
ETAT DE L’ART DATA MINING ........................................................................................................ 4
1.1
PRESENTATION DU DATA MINING...................................................................................................... 4
1.2
LES TACHES DU DATA MINING .......................................................................................................... 5
1.2.1
La classification........................................................................................................................... 5
1.2.2
L’estimation ................................................................................................................................. 6
1.2.3
La prédiction ............................................................................................................................... 6
1.2.4
Le regroupement par similitudes .................................................................................................. 6
1.2.5
L’analyse des clusters .................................................................................................................. 6
1.2.6
La description .............................................................................................................................. 7
1.2.7
L’optimisation.............................................................................................................................. 7
2
POSITIONNEMENT DE SODAS ET DES AUTRES LOGICIELS ..................................................... 8
2.1
2.2
LE LOGICIEL SODAS ( SYMBOLIC OFFICIAL DATA ANALYSE SYSTEM) .............................................. 8
LES AUTRES OUTILS D ’EXTRACTION DE DONNEES............................................................................. 10
3
LA BASE DE DONNEES ...................................................................................................................... 11
4
PROBLEMATIQUE ............................................................................................................................. 12
5
CREATION DES REQUETES ............................................................................................................. 13
6
PEPITES TROUVEES AU COURS DES FONCTIONS ..................................................................... 15
6.1
6.2
6.3
6.4
6.5
7
LA METHODE SOE (SYMBOLIC OBJECT EDITORS) ............................................................................ 15
LA METHODE PCM (PRINCIPAL COMPONENTS ANALYSIS) ............................................................... 17
LA METHODE STAT (ELEMENTARY STATISTICS ON SYMBOLIC OBJECTS)......................................... 20
LA METHODE SCLUST ................................................................................................................... 21
LA METHODE PYR (PYRAMIDAL CLUSTERING ON SYMBOLIC OBJECTS) ........................................... 24
SYNTHESE DES RESULTATS ET INFLUENCE.............................................................................. 25
BIBLIOGRAPHIE .......................................................................................................................................... 26
Université Paris Dauphine
MIAGE IUP 3
2
Projet de Data Mining
INTRODUCTION
L’objectif de ce rapport est d’analyser des données grâce à un logiciel de Data
Mining : SODAS (Symbolic Official Data Analyse System).
Le Data Mining est apparu dans les années 90, pour extraire des connaissances
nouvelles à partir d’une base de données. Le Data Mining tire, à partir d’une vaste base de
données, des « pépites », c’est-à-dire des conclusions nouvelles quant aux données entrées
dans le logiciel.
Notre analyse porte sur l’étude de prix de littérature attribués aux écrivains et nous
allons essayer d’extraire de nouvelles informations à partir de la base de données.
Tout d’abord nous présenterons le Data Mining en général ainsi que les logiciels
permettant d’analyser de grandes masses de données. Ensuite, nous décrirons la base sur
laquelle nous allons travailler et nous en déduirons une problématique. Enfin, après avoir
exposé nos différentes requêtes, nous analyserons les différents résultats obtenus via le
logiciel SODAS pour en tirer de nouvelles conclusions et de nouvelles informations.
Université Paris Dauphine
MIAGE IUP 3
3
Projet de Data Mining
1
Etat de l’art Data Mining
1.1
Présentation du Data Mining
Le terme de Data Mining est souvent employé pour désigner l’ensemble des outils
permettant à l’utilisateur d’accéder aux données de l’entreprise, de les analyser. Nous
restreindrons ici le terme de Data Mining aux outils ayant pour objet de générer des
informations riches à partir des données de l’entreprise, notamment des données historiques,
de découvrir des modèles implicites dans les données. Ils peuvent permettre par exemple à un
magasin de dégager des profils de client et des achats types et de prévoir ainsi les ventes
futures.
Les outils d’aide à la décision laissent l’initiative à l’utilisateur, qui choisit les
éléments qu’il veut observer ou analyser. Au contraire, dans le cas du Data Mining, le
système a l’initiative et découvre lui-même les associations entre données, sans que
l’utilisateur ait à lui dire de rechercher plutôt dans telle ou telle direction ou à poser des
hypothèses. Il est alors possible de prédire l’avenir, par exemple le comportement d’un client,
et de détecter, dans le passé, les données inusuelles, exceptionnelles.
Ces outils ne sont plus destinés aux seuls experts statisticiens mais doivent pouvoir
être employés par des utilisateurs connaissant leur métier et voulant l’analyser, l’explorer.
Seul un utilisateur connaissant le métier peut déterminer si les modèles, les règles, les
tendances trouvées par l’outil sont pertinents, intéressantes et utiles à l’entreprise. Ces
utilisateurs n’ont donc pas obligatoirement un bagage statistique important. L’outil doit donc
soit être ergonomique, facile à utiliser et rendant transparentes toutes les formules
mathématiques et termes techniques utilisés, soit permettre de construire une application «clé
en main», rendant à l’utilisateur transparentes toutes les techniques utilisées.
On pourrait définir le Data Mining comme une démarche ayant pour objet de
découvrir des relations et des faits, à la fois nouveaux et significatifs, sur de grands ensembles
de données.
On devrait ajouter que la pertinence et l'intérêt du Data Mining sont conditionnés par
les enjeux attachés à la démarche entreprise, qui doit être guidée par des objectifs directeurs
clairement explicités ("améliorer la performance commerciale", "mieux cibler les prospects",
"fidéliser la clientèle", "mieux comprendre les performances de production"...).
Le terme de Data Mining signifie littéralement forage de données. Comme dans tout
forage, son but est de pouvoir extraire un élément : la connaissance. Ces concepts s’appuient
sur le constat qu’il existe au sein de chaque entreprise des informations cachées dans le
gisement de données. Ils permettent, grâce à un certain nombre de techniques spécifiques, de
faire apparaître des connaissances.
Nous appellerons Data Mining l'ensemble des techniques qui permettent de
transformer les données en connaissances.
Université Paris Dauphine
MIAGE IUP 3
4
Projet de Data Mining
L'exploration se fait sur l'initiative du système, par un utilisateur métier, et son but est
de remplir l'une des tâches suivantes : classification, estimation, prédiction, regroupement par
similitudes, segmentation (ou clusterisation), description et, dans une moindre mesure,
l'optimisation.
1.2
Les tâches du Data Mining
Contrairement aux idées reçues, le Data Mining n’est pas le remède miracle capable de
résoudre toutes les difficultés ou besoins de l’entreprise. Cependant, une multitude de
problèmes d’ordre intellectuel, économique ou commercial peuvent être regroupés, dans leur
formalisation, dans l’une des tâches suivantes :
-
Classification
-
Estimation
-
Prédiction
-
Groupement par similitudes
-
Segmentation (ou clusterisation),
-
Description
-
Optimisation
1.2.1 La classification
La classification se fait naturellement depuis déjà bien longtemps pour comprendre et
communiquer notre vision du monde (par exemple les espèces animales, minérales ou
végétales).
« La classification consiste à examiner des caractéristiques d’un élément
nouvellement présenté afin de l’affecter à une classe d’un ensemble prédéfini. » [BERRY97]
Dans le cadre informatique, les éléments sont représentés par un enregistrement et le résultat
de la classification viendra alimenter un champ supplémentaire.
La classification permet de créer des classes d’individus (terme à prendre dans son
acception statistique). Celles-ci sont discrètes : homme / femme, oui / non, rouge / vert /
bleu, ...
Les techniques les plus appropriées à la classification sont :
- les arbres de décision
- le raisonnement basé sur la mémoire
- l’analyse de liens.
Université Paris Dauphine
MIAGE IUP 3
5
Projet de Data Mining
1.2.2 L’estimation
Contrairement à la classification, le résultat d’une estimation permet d’obtenir une
variable continue. Celle-ci est obtenue par une ou plusieurs fonctions combinant les données
en entrée. Le résultat d’une estimation permet de procéder aux classifications grâce à un
barème. Par exemple, on peut estimer le revenu d’un ménage selon divers critères (type de
véhicule et nombre, profession ou catégorie socioprofessionnelle, type d’habitation, etc.).
Il sera ensuite possible de définir des tranches de revenus pour classifier les individus.
Un des intérêts de l’estimation est de pouvoir ordonner les résultats pour ne retenir si
on le désire que les n meilleures valeurs. Cette technique sera souvent utilisée en marketing,
combinée à d’autres, pour proposer des offres aux meilleurs clients potentiels. Enfin, il est
facile de mesurer la position d’un élément dans sa classe si celui-ci a été estimé, ce qui peut
être particulièrement important pour les cas limitrophes.
La technique la plus appropriée à l’estimation est : le réseau de neurones.
1.2.3 La prédiction
La prédiction ressemble à la classification et à l’estimation mais dans une échelle
temporelle différente. Tout comme les tâches précédentes, elle s’appuie sur le passé et le
présent mais son résultat se situe dans un futur généralement précisé. La seule méthode pour
mesurer la qualité de la prédiction est d’attendre !
Les techniques les plus appropriées à la prédiction sont :
- l’analyse du panier de la ménagère (ou règles d’association)
- le raisonnement basé sur la mémoire
- les arbres de décision
- les réseaux de neurones.
1.2.4 Le regroupement par similitudes
Le regroupement par similitudes consiste à grouper les éléments qui vont
naturellement ensembles. La technique la plus appropriée au regroupement par similitudes est
l’analyse du panier de la ménagère.
1.2.5 L’analyse des clusters
L’analyse des clusters consiste à segmenter une population hétérogène en sous
populations homogènes. Contrairement à la classification, les sous populations ne sont pas
préétablies.
La technique la plus appropriée à la clusterisation est l’analyse des clusters
Université Paris Dauphine
MIAGE IUP 3
6
Projet de Data Mining
1.2.6 La description
C’est souvent l’une des premières tâches demandées à un outil de Data Mining. On lui
demande de décrire les données d’une base complexe. Cela engendre souvent une exploitation
supplémentaire en vue de fournir des explications.
La technique la plus appropriée à la description est l’analyse du panier de la ménagère.
1.2.7 L’optimisation
Pour résoudre de nombreux problèmes, il est courant pour chaque solution potentielle
d’y associer une fonction d’évaluation. Le but de l’optimisation est de maximiser ou
minimiser cette fonction. Quelques spécialistes considèrent que ce type de problème ne relève
pas du Data Mining.
La technique la plus appropriée à l’optimisation est le réseau de neurones
Université Paris Dauphine
MIAGE IUP 3
7
Projet de Data Mining
2
Positionnement de SODAS et des autres logiciels
2.1
Le logiciel SODAS ( Symbolic Official Data Analyse System)
Il s’agit d’un logiciel prototype public apte à analyser des données symboliques. Il est
issu d’un projet de EUROSTAT appelé SODAS comme le logiciel qui en est issu.
Ce logiciel a pour vocation de fournir un cadre aux différentes avancées récentes et
futures dans le domaine de l’analyse de données symboliques.
L’idée générale de ce projet est de construire, à partir d’une base de données
relationnelle, un tableau de données symboliques muni éventuellement de règles et de
taxonomies, le but étant de décrire des concepts résumant un vaste ensemble de données et
d’analyser ensuite ce tableau pour en extraire des connaissances par des méthodes d’analyse
de données symboliques.
Une analyse des données dans Sodas suit les étapes suivantes :
- partir d’une base de données relationnelle (Oracle, Access, …)
- définir ensuite un contexte par :
 des unités statistiques de premier niveau (habitants, familles, entreprises,
accidents,…)
 les variables qui les décrivent
 des concepts (villes, groupes socio-économiques, scénario d’accident,…).
Chaque unité statistique de premier niveau est associée à un concept (par exemple,
chaque habitant est associé à sa ville). Ce contexte est défini par une requête sur notre base de
données relationnelle.
On construit alors un tableau de données symboliques dont les nouvelles unités
statistiques sont les concepts décrits par généralisation des propriétés des unités statistiques de
premier niveau qui leur sont associés.
Ainsi, chaque concept est décrit par des variables dont les valeurs peuvent être des
histogrammes, des intervalles, des valeurs uniques (éventuellement munies de règles et de
taxonomies) selon le type de variables et le choix de l’utilisateur.
On peut ainsi créer un fichier d’objet symboliques sur lequel une douzaine de
méthodes d’analyse de données symboliques peuvent déjà s’appliquer au sein du logiciel
Sodas (histogrammes des variables symboliques, classification automatique, analyse
factorielle, analyse discriminante, visualisations graphiques, …).
Le schéma ci-dessous illustre les étapes successives d’une étude avec le logiciel
Sodas.
Université Paris Dauphine
MIAGE IUP 3
8
Projet de Data Mining
Université Paris Dauphine
MIAGE IUP 3
9
Projet de Data Mining
2.2
Les autres outils d’extraction de données
Le Data Mining est encore assez récent, mais le marché est en très forte croissance. De
plus en plus d’entreprises investissent pour utiliser cet outil. Segmenté en trois principaux
segments, ce marché touche la grande majorité des entreprises.
En effet, le segment des plus petits outils (à moins de 2000 €) peut être accessibles à
des entreprises assez modestes. Ces petits outils comme Solo, DataMind, Scenario, Alice
représentent soit des versions allégées de logiciels plus consistants, soit des produits d’appel
et n’utilisent qu’un seul type d’algorithme.
Les outils les plus populaires, qui représentent le second segment de marché, sont de
l’ordre de 10 fois plus chers. Outils intermédiaires, ils sont les plus populaires. Avec
Clémentine, Knowledge Seeker, SPAD et DataMind Pro parmi les plus connus, ils constituent
un compromis entre les petits outils et les poids lourds.
Le dernier segment, avec des prix encore plus élevés, est partagés principalement entre
IBM Intelligent Miner, Neo Vista, Silicon Graphics, SAS Enterprise Miner. Ce segment est
destiné aux spécialistes et fonctionnent surtout sur des machines Unix et mainframes. Ils
s’axent surtout sur les performances et sur les algorithmes et nécessite de solides
connaissances dans le domaine.
Université Paris Dauphine
MIAGE IUP 3
10
Projet de Data Mining
3
La base de données
Nous avons voulu étudier les prix reçus par des écrivains. Pour cela, nous avons créé
une base sous Access. Afin de remplir cette base, nous avons fait des recherches sur Internet.
Toutes les données se trouvant dans cette base sont véridiques. En revanche, elle n’est pas
totalement complète. En effet, nous n’avons pas trouvé tous les prix donnés en littérature.
Cependant, nous avons fait tout notre possible pour garder un échantillon représentatif.
Notre base de données est composée de trois classes reliées entre elles, comme vous
pouvez le voir ci-dessous.
La classe principale est PrixRecu. Elle comporte le nom du livre, de son auteur, le nom
du prix reçu, le type du livre (Roman ou Nouvelle), la note donnée par les lecteurs (entre 1 et
9), l’appréciation générale (Excellent, Très bon, Bon, Moyen ou Nul), si l’auteur a reçu ou
non un autre prix, son pays, sa date de naissance, l’année où le prix a été donné, l’âge de
l’auteur quand il a reçu ce prix et le nombre de romans écrits par le même auteur.
Il y a ensuite la classe Langue qui associe à chaque pays la langue du livre. Enfin, il y
a la dernière classe PrixDescr qui pour chaque prix donne sa notoriété : connu ou pas des
lecteurs.
Nos concepts sont ici les prix reçus.
Université Paris Dauphine
MIAGE IUP 3
11
Projet de Data Mining
4
Problématique
Nous nous intéressons dans ce projet aux livres, à leur auteur, mais surtout aux prix
qu’ils reçoivent. En effet, nous nous plaçons dans la peau d’une maison d’édition. L’étude que
nous allons réaliser va tout d’abord nous permettre d’établir le profil des auteurs qui
obtiennent des prix, mais surtout de comprendre ce qui fait la notoriété d’un prix.
Ainsi, lorsqu’un auteur se présentera avec un livre, la maison d’édition pourra tout de
suite savoir si cette personne est susceptible de gagner un prix, et de connaître la notoriété de
ce prix.
Cette étude permettra donc à la maison d’édition de mieux sélectionner les auteurs
qu’elle éditera.
Université Paris Dauphine
MIAGE IUP 3
12
Projet de Data Mining
5
Création des requêtes
Après la création de notre base sous Access, nous avons créé trois requêtes. La requête
principale Prix est composée de l’identifiant des concepts, des concepts, et enfin des variables
descriptives. Nous avons ainsi 5 variables qualitatives (le nombre de livres écrits, la date de
naissance de l’auteur, l’âge de l’auteur lorsqu’il a reçu son prix, la date à laquelle le prix a été
donné et la note attribuée au livre) et 4 variables quantitatives (le type du livre, son
appréciation générale, le pays et si l’auteur a reçu ou non d’autres prix).
Requête Prix :
SELECT PrixRecu.Identifiant, PrixRecu.[Prix reçu], PrixRecu.Type, PrixRecu.[Note du
livre], PrixRecu.[appréciation générale], PrixRecu.[Autre prix], PrixRecu.Pays,
PrixRecu.[Date de naissance], PrixRecu.[Année du prix], PrixRecu.[Age quand prix reçu],
PrixRecu.[Nombre de romans écrit]
FROM PrixRecu;
La deuxième requête Taxonomie, comme son nom l’indique, sert à effectuer une
taxonomie. En effet, pour chaque pays, nous avons la langue originale dans laquelle le livre a
été écrit. Vous avez ci-dessous toutes les langues existantes. En guise d’exemple, nous avons
étendu le « Français » afin de montrer tous les pays dans lesquels on parle français :
Requête Taxonomie :
SELECT Langue.*
FROM Langue;
La troisième et dernière requête AddSingle permet d’ajouter la variable à expliquer. Il
s’agit ici de la notoriété d’un prix. Sur les 21 concepts que l’on a, douze sont connus et neuf
ne le sont pas.
Université Paris Dauphine
MIAGE IUP 3
13
Projet de Data Mining
Requête AddSingle :
SELECT PrixDescr.*
FROM PrixDescr;
Université Paris Dauphine
MIAGE IUP 3
14
Projet de Data Mining
6
Pépites trouvées au cours des fonctions
A l’aide de Sodas, nous avons exécuté plusieurs méthodes qui nous ont permis de
trouver de nouvelles relations entre les variables de la base.
6.1
La méthode SOE (Symbolic Object Editors)
La méthode SOE va nous permettre de visualiser de façon graphique nos concepts.
C’est une manière intuitive de présenter le profil des prix de littérature.
Nous avons décidé de comparer des prix connus à des prix inconnus afin de voir s’il
existait des différences notables entre leurs variables. En effet, c’est en les comparant que l’on
peut comprendre quels sont les meilleurs critères, et trouver ainsi des pépites.
Nous avons comparé un premier prix connu avec un prix inconnu des lecteurs.
Université Paris Dauphine
MIAGE IUP 3
15
Projet de Data Mining
Voici une autre comparaison entre un prix connu et un prix inconnu :
On a comparé ici des prix connus du public en vert avec des prix inconnus du public
en rose. On remarque que les notes données par les lecteurs sont plus élévés lorsque le prix est
connu. Cela se confirme lorsqu’on regarde les histogrammes de l’appréciation générale. En
effet, quand on regarde de plus près la distribution, les prix connus ont reçu plus souvent
l’appréciation « Excellent » ou « Très bon », à l’inverse des prix non connus qui reçoivent
plus de « Moyen » et de « Nul » (plus particulièrement sur la 2ème étoile).
On remarque également que les auteurs recevant des prix connus sont en moyenne
plus vieux (l’axe de la date de naissance nous le montre), et ils reçoivent ces prix à un âge
plus avancé en moyenne, d’après l’axe « âge quand prix reçu ». De plus, ils ont écrit plus de
livres.
En revanche, le type du livre n’a pas l’air d’influer sur sa notoriété. De même, le fait
qu’un auteur ait ou non reçu un autre prix ne semble pas être un critère.
Université Paris Dauphine
MIAGE IUP 3
16
Projet de Data Mining
6.2
La méthode PCM (Principal Components Analysis)
Cette méthode permet de projeter les nuages de points existant dans un espace de n
dimensions (n variables) sur un plan. Cette méthode statistique classique permet, en perdant le
moins de données possibles (inertie maximales), de représenter les délimitations des concepts
de façon à ce qu’elles soient compréhensibles, une représentation en n dimensions étant pour
ainsi dire impossible à analyser.
SO-PCA
Eigenvalues
Explained
Inertia
%
25%--------50%-------75%-------100%
Ev.1
0.64002
57.32620
57.32620
Ev.2
0.26948
24.13721
81.46342
Ev.3
0.12533
11.22548
92.68890
Cumulated
%
Histogram
0-------
|**********************
|*********
|****
Ce 1er tableau nous permet de connaître les variables qui expliquent le mieux la
notoriété d’un livre, parmi les cinq variables quantitatives que nous avons : l’âge de l’auteur
quand il a reçu son prix, son année de naissance, l’année où il a reçu le prix, le nombre de
livres écrits et la note donnée par les lecteurs. Nous pouvons conclure que les trois premières
variables expliquent plus de 92%, avec la 1ère qui explique à elle seule plus de la moitié.
MIX-PCA
Eigenvalues
Explained
Inertia
%
25%--------50%-------75%-------100%
Ev.1
0.49206
65.64861
65.64861
Ev.2
0.18359
24.49400
90.14262
Ev.3
0.06532
8.71466
98.85728
Cumulated
%
Histogram
0-------
|**************************
|*********
|***
Après le changement d’axe, les trois premières variables expliquent maintenant près
de 99%.
Université Paris Dauphine
MIAGE IUP 3
17
Projet de Data Mining
Ce schéma nous permet d’affirmer que ces cinq variables sont plus ou moins corrélées,
mais cela s’explique facilement pour certaines d’entre elles. En effet, en ce qui concerne
l’année du prix et la date de naissance de l’auteur, il semble logique qu’un auteur né en 1950
n’ait pas pu recevoir de prix en 1960.
En revanche nous pouvons tirer de ce schéma quelque chose de très intéressant : le
nombre de romans écrit est fortement corrélé à la note du livre. Or apparemment, la note du
livre est un critère pour la notoriété d’un prix. C’est donc sûrement aussi le cas pour le
nombre de romans écrit.
Université Paris Dauphine
MIAGE IUP 3
18
Projet de Data Mining
En utilisant deux axes, nous arrivons à représenter plus de 90 % des prix. On est passé
d’une dimension 5 à une dimension 2.
Université Paris Dauphine
MIAGE IUP 3
19
Projet de Data Mining
6.3
La méthode STAT (Elementary Statistics on Symbolic Objects)
La méthode STAT de Sodas permet d’utiliser des statistiques classiques étendues aux
variables symboliques. Cette application de statistiques évoluées doit nous permettre de
continuer notre apprentissage à partir de la base de données.
STAT est donc un ensemble de méthodes permettant de voir sous forme de document
texte ou de graphe les statistiques élémentaires relatives à nos données symboliques. Cette
méthode va nous permettre de préciser et de confirmer les interprétations de la méthode SOE.
STAT va bien au-delà en nous permettant de regrouper les valeurs de nos variables
symboliques en classes, sous forme d’histogrammes, ce que nous avons utilisé ici pour les
variables quantitatives : la note du livre, la date de naissance de l’auteur, l’année où le prix a
été reçu, l’âge de l’auteur quand il a reçu son prix, et le nombre de romans écrit.
Cette fonction nous permet de faire des statistiques sur les variables quantitatives de
notre base. Pour les cinq variables, nous pouvons donc voir les histogrammes et observer leur
répartition. Ainsi, nous constatons que la note la plus attribuée à un livre est un peu plus de
5,5 (d’après les valeurs exactes fournies en plus des diagrammes). On remarque également
qu’on donne de plus en plus de prix au fil des années (courbe rouge).
En ce qui concerne le nombre de livres écrits, plus de la moitié des auteurs se situe en
dessous de 15, la moyenne étant à 37 mais avec un écart type de 34,8.
Quant à l’âge de l’auteur lorsqu’il reçoit un prix, plus de 50 % ont aux alentours de 45
ans, la moyenne étant à 47 ans.
Université Paris Dauphine
MIAGE IUP 3
20
Projet de Data Mining
6.4
La méthode SCLUST
La fonction SCLUST nous a permis de séparer les objets symboliques en deux
prototypes qui correspondent à la notoriété des prix.
En vert, nous avons le prototype 1/1 qui correspond aux prix connus, et en rose, le
prototype 2/2 correspondant aux prix non connus.
Ce diagramme nous permet de tirer à peu près les mêmes conclusions que la fonction
SOE. En effet, nous remarquons que la note des livres est nettement supérieure lorsque le prix
est connu, et cela rejoint l’appréciation générale qui montre que les livres ayant reçu un prix
connu ont également reçu de meilleures appréciations (« Excellent », « Très bon », et
« Bon »).
Concernant les auteurs, ceux qui reçoivent des prix connus ont en moyenne écrit plus
de romans, et sont plus vieux au jour d’aujourd’hui. En revanche, contrairement à ce que l’on
pensait précédemment, l’âge qu’ils ont lorsqu’ils reçoivent leur prix, n’est pas
significativement différent. On ne peut donc pas en tenir compte.
De même, nous retrouvons le fait que le type du livre n’est pas un critère. Ce n’est pas
non plus le cas du fait d’avoir reçu ou non une autre prix.
Université Paris Dauphine
MIAGE IUP 3
21
Projet de Data Mining
Ce dernier prototype 1/2 correspond à tous les objets symboliques à la fois. On
remarque qu’il y a beaucoup plus de romans que de nouvelles, et beaucoup plus de livres
français. En ce qui concerne l’appréciation générale, la grande majorité des livres sont
« Bons » ou « Moyens », et très peu sont « Nuls ».
Université Paris Dauphine
MIAGE IUP 3
22
Projet de Data Mining
D’après ce schéma, nous pouvons voir où se situent nos trois prototypes par rapport à
la note du livre en fonction du nombre de romans écrits. On retrouve à nouveau le fait que
pour les prix connus, le nombre de romans écrits ainsi que la note du livre sont plus élevés.
Mais ce schéma nous montre également que ces variables peuvent être corrélées. En revanche,
la note du livre ne semble pas être liée à l’âge de l’auteur (cf. schéma ci-dessous).
Université Paris Dauphine
MIAGE IUP 3
23
Projet de Data Mining
6.5
La méthode PYR (Pyramidal Clustering on Symbolic Objects)
Après avoir étudié les classes de nos variables symboliques avec STAT, nous allons
utiliser la méthode PYR de Sodas qui permet de caractériser les classes en les organisant sous
forme de paliers. La pyramide est outil puissant pour représenter les classes empiétantes et
situer les prix de littérature les uns par rapport aux autres en fonction de critères définis.
Nous avons voulu vérifier si les pépites que nous pensions avoir trouvé jusque là sont
exactes. Pour cela, nous avons utilisé la méthode PYR de Sodas.
Nous avons fait une première pyramide en se basant sur deux variables : la note du
livre et l’appréciation. Voici ce que nous avons obtenu :
Hormis deux objets symboliques sur la gauche, nous pouvons observer deux classes
bien distinctes. Les deux critères choisis sont donc bons.
En revanche, si l’on choisit deux autres variables telles que l’âge de l’auteur lorsqu’il a
reçu le prix et s’il a reçu ou non d’autres prix, nous obtenons cela :
Cela nous confirme donc que ces deux critères ne sont pas bons : ce ne sont pas des
critères explicatifs de la notoriété d’un livre.
Cette méthode nous a permis de confirmer ce que nous pensions.
Université Paris Dauphine
MIAGE IUP 3
24
Projet de Data Mining
7
Synthèse des résultats et influence
Parmi toutes les variables explicatives que nous avions au départ, toutes ne pouvaient
pas être des critères. En effet, au cours des différentes fonctions, nous avons pu remarquer que
certaines variables étaient bien meilleures que d’autres pour expliquer la notoriété d’un prix.
Les deux critères les plus importants sont la note attribuée au livre, ainsi que son
appréciation générale. Pour une maison d’édition, cela est une excellente chose si le livre a
déjà été édité auparavant et donc lu par un certain nombre de personnes. Mais si l’auteur se
présente pour une première édition, alors ces critères ne sont plus valables.
D’autres critères sont donc bons. Il s’agit du nombre de livres écrit par ce même
auteur. Plus ce nombre est élevé, plus l’auteur a des chances de recevoir un prix. Il y a
également l’âge de l’auteur. Cela s’explique facilement car un auteur plus âgé a plus
d’expérience, mais est surtout plus reconnu dans le monde de la littérature.
En revanche, le type du livre n’est pas un critère décisif, de même que si l’auteur a
déjà reçu ou non d’autres prix.
Université Paris Dauphine
MIAGE IUP 3
25
Projet de Data Mining
Bibliographie
Site Internet :

http://www.ceremade.dauphine.fr

http://www.dicodunet.com/informations/32-data-mining.htm

http://sawww.epfl.ch/SIC/SA/publications/FI98/fi-5-98/5-98-page5.html

http://www.web-datamining.net/forum/faq.asp

http://www.nodesway.com/business-intelligence/datamining.htm

www.hec.be/~ffontaine/sid/data_mining.ppt

http://www.univ-angers.fr/docs/etudquassi/Datamining.pdf
Université Paris Dauphine
MIAGE IUP 3
26