DATAMINING - Ceremade - Université Paris
Transcription
DATAMINING - Ceremade - Université Paris
Université Paris Dauphine UFR Informatique de Gestion IUP 3 MIAGE DATAMINING Quel auteur doit-on éditer ? Enseignant : Monsieur DIDAY Johanna GARCIA Johanna GOLD 27 Juin 2005 Projet de Data Mining SOMMAIRE SOMMAIRE ..................................................................................................................................................... 2 INTRODUCTION............................................................................................................................................. 3 1 ETAT DE L’ART DATA MINING ........................................................................................................ 4 1.1 PRESENTATION DU DATA MINING...................................................................................................... 4 1.2 LES TACHES DU DATA MINING .......................................................................................................... 5 1.2.1 La classification........................................................................................................................... 5 1.2.2 L’estimation ................................................................................................................................. 6 1.2.3 La prédiction ............................................................................................................................... 6 1.2.4 Le regroupement par similitudes .................................................................................................. 6 1.2.5 L’analyse des clusters .................................................................................................................. 6 1.2.6 La description .............................................................................................................................. 7 1.2.7 L’optimisation.............................................................................................................................. 7 2 POSITIONNEMENT DE SODAS ET DES AUTRES LOGICIELS ..................................................... 8 2.1 2.2 LE LOGICIEL SODAS ( SYMBOLIC OFFICIAL DATA ANALYSE SYSTEM) .............................................. 8 LES AUTRES OUTILS D ’EXTRACTION DE DONNEES............................................................................. 10 3 LA BASE DE DONNEES ...................................................................................................................... 11 4 PROBLEMATIQUE ............................................................................................................................. 12 5 CREATION DES REQUETES ............................................................................................................. 13 6 PEPITES TROUVEES AU COURS DES FONCTIONS ..................................................................... 15 6.1 6.2 6.3 6.4 6.5 7 LA METHODE SOE (SYMBOLIC OBJECT EDITORS) ............................................................................ 15 LA METHODE PCM (PRINCIPAL COMPONENTS ANALYSIS) ............................................................... 17 LA METHODE STAT (ELEMENTARY STATISTICS ON SYMBOLIC OBJECTS)......................................... 20 LA METHODE SCLUST ................................................................................................................... 21 LA METHODE PYR (PYRAMIDAL CLUSTERING ON SYMBOLIC OBJECTS) ........................................... 24 SYNTHESE DES RESULTATS ET INFLUENCE.............................................................................. 25 BIBLIOGRAPHIE .......................................................................................................................................... 26 Université Paris Dauphine MIAGE IUP 3 2 Projet de Data Mining INTRODUCTION L’objectif de ce rapport est d’analyser des données grâce à un logiciel de Data Mining : SODAS (Symbolic Official Data Analyse System). Le Data Mining est apparu dans les années 90, pour extraire des connaissances nouvelles à partir d’une base de données. Le Data Mining tire, à partir d’une vaste base de données, des « pépites », c’est-à-dire des conclusions nouvelles quant aux données entrées dans le logiciel. Notre analyse porte sur l’étude de prix de littérature attribués aux écrivains et nous allons essayer d’extraire de nouvelles informations à partir de la base de données. Tout d’abord nous présenterons le Data Mining en général ainsi que les logiciels permettant d’analyser de grandes masses de données. Ensuite, nous décrirons la base sur laquelle nous allons travailler et nous en déduirons une problématique. Enfin, après avoir exposé nos différentes requêtes, nous analyserons les différents résultats obtenus via le logiciel SODAS pour en tirer de nouvelles conclusions et de nouvelles informations. Université Paris Dauphine MIAGE IUP 3 3 Projet de Data Mining 1 Etat de l’art Data Mining 1.1 Présentation du Data Mining Le terme de Data Mining est souvent employé pour désigner l’ensemble des outils permettant à l’utilisateur d’accéder aux données de l’entreprise, de les analyser. Nous restreindrons ici le terme de Data Mining aux outils ayant pour objet de générer des informations riches à partir des données de l’entreprise, notamment des données historiques, de découvrir des modèles implicites dans les données. Ils peuvent permettre par exemple à un magasin de dégager des profils de client et des achats types et de prévoir ainsi les ventes futures. Les outils d’aide à la décision laissent l’initiative à l’utilisateur, qui choisit les éléments qu’il veut observer ou analyser. Au contraire, dans le cas du Data Mining, le système a l’initiative et découvre lui-même les associations entre données, sans que l’utilisateur ait à lui dire de rechercher plutôt dans telle ou telle direction ou à poser des hypothèses. Il est alors possible de prédire l’avenir, par exemple le comportement d’un client, et de détecter, dans le passé, les données inusuelles, exceptionnelles. Ces outils ne sont plus destinés aux seuls experts statisticiens mais doivent pouvoir être employés par des utilisateurs connaissant leur métier et voulant l’analyser, l’explorer. Seul un utilisateur connaissant le métier peut déterminer si les modèles, les règles, les tendances trouvées par l’outil sont pertinents, intéressantes et utiles à l’entreprise. Ces utilisateurs n’ont donc pas obligatoirement un bagage statistique important. L’outil doit donc soit être ergonomique, facile à utiliser et rendant transparentes toutes les formules mathématiques et termes techniques utilisés, soit permettre de construire une application «clé en main», rendant à l’utilisateur transparentes toutes les techniques utilisées. On pourrait définir le Data Mining comme une démarche ayant pour objet de découvrir des relations et des faits, à la fois nouveaux et significatifs, sur de grands ensembles de données. On devrait ajouter que la pertinence et l'intérêt du Data Mining sont conditionnés par les enjeux attachés à la démarche entreprise, qui doit être guidée par des objectifs directeurs clairement explicités ("améliorer la performance commerciale", "mieux cibler les prospects", "fidéliser la clientèle", "mieux comprendre les performances de production"...). Le terme de Data Mining signifie littéralement forage de données. Comme dans tout forage, son but est de pouvoir extraire un élément : la connaissance. Ces concepts s’appuient sur le constat qu’il existe au sein de chaque entreprise des informations cachées dans le gisement de données. Ils permettent, grâce à un certain nombre de techniques spécifiques, de faire apparaître des connaissances. Nous appellerons Data Mining l'ensemble des techniques qui permettent de transformer les données en connaissances. Université Paris Dauphine MIAGE IUP 3 4 Projet de Data Mining L'exploration se fait sur l'initiative du système, par un utilisateur métier, et son but est de remplir l'une des tâches suivantes : classification, estimation, prédiction, regroupement par similitudes, segmentation (ou clusterisation), description et, dans une moindre mesure, l'optimisation. 1.2 Les tâches du Data Mining Contrairement aux idées reçues, le Data Mining n’est pas le remède miracle capable de résoudre toutes les difficultés ou besoins de l’entreprise. Cependant, une multitude de problèmes d’ordre intellectuel, économique ou commercial peuvent être regroupés, dans leur formalisation, dans l’une des tâches suivantes : - Classification - Estimation - Prédiction - Groupement par similitudes - Segmentation (ou clusterisation), - Description - Optimisation 1.2.1 La classification La classification se fait naturellement depuis déjà bien longtemps pour comprendre et communiquer notre vision du monde (par exemple les espèces animales, minérales ou végétales). « La classification consiste à examiner des caractéristiques d’un élément nouvellement présenté afin de l’affecter à une classe d’un ensemble prédéfini. » [BERRY97] Dans le cadre informatique, les éléments sont représentés par un enregistrement et le résultat de la classification viendra alimenter un champ supplémentaire. La classification permet de créer des classes d’individus (terme à prendre dans son acception statistique). Celles-ci sont discrètes : homme / femme, oui / non, rouge / vert / bleu, ... Les techniques les plus appropriées à la classification sont : - les arbres de décision - le raisonnement basé sur la mémoire - l’analyse de liens. Université Paris Dauphine MIAGE IUP 3 5 Projet de Data Mining 1.2.2 L’estimation Contrairement à la classification, le résultat d’une estimation permet d’obtenir une variable continue. Celle-ci est obtenue par une ou plusieurs fonctions combinant les données en entrée. Le résultat d’une estimation permet de procéder aux classifications grâce à un barème. Par exemple, on peut estimer le revenu d’un ménage selon divers critères (type de véhicule et nombre, profession ou catégorie socioprofessionnelle, type d’habitation, etc.). Il sera ensuite possible de définir des tranches de revenus pour classifier les individus. Un des intérêts de l’estimation est de pouvoir ordonner les résultats pour ne retenir si on le désire que les n meilleures valeurs. Cette technique sera souvent utilisée en marketing, combinée à d’autres, pour proposer des offres aux meilleurs clients potentiels. Enfin, il est facile de mesurer la position d’un élément dans sa classe si celui-ci a été estimé, ce qui peut être particulièrement important pour les cas limitrophes. La technique la plus appropriée à l’estimation est : le réseau de neurones. 1.2.3 La prédiction La prédiction ressemble à la classification et à l’estimation mais dans une échelle temporelle différente. Tout comme les tâches précédentes, elle s’appuie sur le passé et le présent mais son résultat se situe dans un futur généralement précisé. La seule méthode pour mesurer la qualité de la prédiction est d’attendre ! Les techniques les plus appropriées à la prédiction sont : - l’analyse du panier de la ménagère (ou règles d’association) - le raisonnement basé sur la mémoire - les arbres de décision - les réseaux de neurones. 1.2.4 Le regroupement par similitudes Le regroupement par similitudes consiste à grouper les éléments qui vont naturellement ensembles. La technique la plus appropriée au regroupement par similitudes est l’analyse du panier de la ménagère. 1.2.5 L’analyse des clusters L’analyse des clusters consiste à segmenter une population hétérogène en sous populations homogènes. Contrairement à la classification, les sous populations ne sont pas préétablies. La technique la plus appropriée à la clusterisation est l’analyse des clusters Université Paris Dauphine MIAGE IUP 3 6 Projet de Data Mining 1.2.6 La description C’est souvent l’une des premières tâches demandées à un outil de Data Mining. On lui demande de décrire les données d’une base complexe. Cela engendre souvent une exploitation supplémentaire en vue de fournir des explications. La technique la plus appropriée à la description est l’analyse du panier de la ménagère. 1.2.7 L’optimisation Pour résoudre de nombreux problèmes, il est courant pour chaque solution potentielle d’y associer une fonction d’évaluation. Le but de l’optimisation est de maximiser ou minimiser cette fonction. Quelques spécialistes considèrent que ce type de problème ne relève pas du Data Mining. La technique la plus appropriée à l’optimisation est le réseau de neurones Université Paris Dauphine MIAGE IUP 3 7 Projet de Data Mining 2 Positionnement de SODAS et des autres logiciels 2.1 Le logiciel SODAS ( Symbolic Official Data Analyse System) Il s’agit d’un logiciel prototype public apte à analyser des données symboliques. Il est issu d’un projet de EUROSTAT appelé SODAS comme le logiciel qui en est issu. Ce logiciel a pour vocation de fournir un cadre aux différentes avancées récentes et futures dans le domaine de l’analyse de données symboliques. L’idée générale de ce projet est de construire, à partir d’une base de données relationnelle, un tableau de données symboliques muni éventuellement de règles et de taxonomies, le but étant de décrire des concepts résumant un vaste ensemble de données et d’analyser ensuite ce tableau pour en extraire des connaissances par des méthodes d’analyse de données symboliques. Une analyse des données dans Sodas suit les étapes suivantes : - partir d’une base de données relationnelle (Oracle, Access, …) - définir ensuite un contexte par : des unités statistiques de premier niveau (habitants, familles, entreprises, accidents,…) les variables qui les décrivent des concepts (villes, groupes socio-économiques, scénario d’accident,…). Chaque unité statistique de premier niveau est associée à un concept (par exemple, chaque habitant est associé à sa ville). Ce contexte est défini par une requête sur notre base de données relationnelle. On construit alors un tableau de données symboliques dont les nouvelles unités statistiques sont les concepts décrits par généralisation des propriétés des unités statistiques de premier niveau qui leur sont associés. Ainsi, chaque concept est décrit par des variables dont les valeurs peuvent être des histogrammes, des intervalles, des valeurs uniques (éventuellement munies de règles et de taxonomies) selon le type de variables et le choix de l’utilisateur. On peut ainsi créer un fichier d’objet symboliques sur lequel une douzaine de méthodes d’analyse de données symboliques peuvent déjà s’appliquer au sein du logiciel Sodas (histogrammes des variables symboliques, classification automatique, analyse factorielle, analyse discriminante, visualisations graphiques, …). Le schéma ci-dessous illustre les étapes successives d’une étude avec le logiciel Sodas. Université Paris Dauphine MIAGE IUP 3 8 Projet de Data Mining Université Paris Dauphine MIAGE IUP 3 9 Projet de Data Mining 2.2 Les autres outils d’extraction de données Le Data Mining est encore assez récent, mais le marché est en très forte croissance. De plus en plus d’entreprises investissent pour utiliser cet outil. Segmenté en trois principaux segments, ce marché touche la grande majorité des entreprises. En effet, le segment des plus petits outils (à moins de 2000 €) peut être accessibles à des entreprises assez modestes. Ces petits outils comme Solo, DataMind, Scenario, Alice représentent soit des versions allégées de logiciels plus consistants, soit des produits d’appel et n’utilisent qu’un seul type d’algorithme. Les outils les plus populaires, qui représentent le second segment de marché, sont de l’ordre de 10 fois plus chers. Outils intermédiaires, ils sont les plus populaires. Avec Clémentine, Knowledge Seeker, SPAD et DataMind Pro parmi les plus connus, ils constituent un compromis entre les petits outils et les poids lourds. Le dernier segment, avec des prix encore plus élevés, est partagés principalement entre IBM Intelligent Miner, Neo Vista, Silicon Graphics, SAS Enterprise Miner. Ce segment est destiné aux spécialistes et fonctionnent surtout sur des machines Unix et mainframes. Ils s’axent surtout sur les performances et sur les algorithmes et nécessite de solides connaissances dans le domaine. Université Paris Dauphine MIAGE IUP 3 10 Projet de Data Mining 3 La base de données Nous avons voulu étudier les prix reçus par des écrivains. Pour cela, nous avons créé une base sous Access. Afin de remplir cette base, nous avons fait des recherches sur Internet. Toutes les données se trouvant dans cette base sont véridiques. En revanche, elle n’est pas totalement complète. En effet, nous n’avons pas trouvé tous les prix donnés en littérature. Cependant, nous avons fait tout notre possible pour garder un échantillon représentatif. Notre base de données est composée de trois classes reliées entre elles, comme vous pouvez le voir ci-dessous. La classe principale est PrixRecu. Elle comporte le nom du livre, de son auteur, le nom du prix reçu, le type du livre (Roman ou Nouvelle), la note donnée par les lecteurs (entre 1 et 9), l’appréciation générale (Excellent, Très bon, Bon, Moyen ou Nul), si l’auteur a reçu ou non un autre prix, son pays, sa date de naissance, l’année où le prix a été donné, l’âge de l’auteur quand il a reçu ce prix et le nombre de romans écrits par le même auteur. Il y a ensuite la classe Langue qui associe à chaque pays la langue du livre. Enfin, il y a la dernière classe PrixDescr qui pour chaque prix donne sa notoriété : connu ou pas des lecteurs. Nos concepts sont ici les prix reçus. Université Paris Dauphine MIAGE IUP 3 11 Projet de Data Mining 4 Problématique Nous nous intéressons dans ce projet aux livres, à leur auteur, mais surtout aux prix qu’ils reçoivent. En effet, nous nous plaçons dans la peau d’une maison d’édition. L’étude que nous allons réaliser va tout d’abord nous permettre d’établir le profil des auteurs qui obtiennent des prix, mais surtout de comprendre ce qui fait la notoriété d’un prix. Ainsi, lorsqu’un auteur se présentera avec un livre, la maison d’édition pourra tout de suite savoir si cette personne est susceptible de gagner un prix, et de connaître la notoriété de ce prix. Cette étude permettra donc à la maison d’édition de mieux sélectionner les auteurs qu’elle éditera. Université Paris Dauphine MIAGE IUP 3 12 Projet de Data Mining 5 Création des requêtes Après la création de notre base sous Access, nous avons créé trois requêtes. La requête principale Prix est composée de l’identifiant des concepts, des concepts, et enfin des variables descriptives. Nous avons ainsi 5 variables qualitatives (le nombre de livres écrits, la date de naissance de l’auteur, l’âge de l’auteur lorsqu’il a reçu son prix, la date à laquelle le prix a été donné et la note attribuée au livre) et 4 variables quantitatives (le type du livre, son appréciation générale, le pays et si l’auteur a reçu ou non d’autres prix). Requête Prix : SELECT PrixRecu.Identifiant, PrixRecu.[Prix reçu], PrixRecu.Type, PrixRecu.[Note du livre], PrixRecu.[appréciation générale], PrixRecu.[Autre prix], PrixRecu.Pays, PrixRecu.[Date de naissance], PrixRecu.[Année du prix], PrixRecu.[Age quand prix reçu], PrixRecu.[Nombre de romans écrit] FROM PrixRecu; La deuxième requête Taxonomie, comme son nom l’indique, sert à effectuer une taxonomie. En effet, pour chaque pays, nous avons la langue originale dans laquelle le livre a été écrit. Vous avez ci-dessous toutes les langues existantes. En guise d’exemple, nous avons étendu le « Français » afin de montrer tous les pays dans lesquels on parle français : Requête Taxonomie : SELECT Langue.* FROM Langue; La troisième et dernière requête AddSingle permet d’ajouter la variable à expliquer. Il s’agit ici de la notoriété d’un prix. Sur les 21 concepts que l’on a, douze sont connus et neuf ne le sont pas. Université Paris Dauphine MIAGE IUP 3 13 Projet de Data Mining Requête AddSingle : SELECT PrixDescr.* FROM PrixDescr; Université Paris Dauphine MIAGE IUP 3 14 Projet de Data Mining 6 Pépites trouvées au cours des fonctions A l’aide de Sodas, nous avons exécuté plusieurs méthodes qui nous ont permis de trouver de nouvelles relations entre les variables de la base. 6.1 La méthode SOE (Symbolic Object Editors) La méthode SOE va nous permettre de visualiser de façon graphique nos concepts. C’est une manière intuitive de présenter le profil des prix de littérature. Nous avons décidé de comparer des prix connus à des prix inconnus afin de voir s’il existait des différences notables entre leurs variables. En effet, c’est en les comparant que l’on peut comprendre quels sont les meilleurs critères, et trouver ainsi des pépites. Nous avons comparé un premier prix connu avec un prix inconnu des lecteurs. Université Paris Dauphine MIAGE IUP 3 15 Projet de Data Mining Voici une autre comparaison entre un prix connu et un prix inconnu : On a comparé ici des prix connus du public en vert avec des prix inconnus du public en rose. On remarque que les notes données par les lecteurs sont plus élévés lorsque le prix est connu. Cela se confirme lorsqu’on regarde les histogrammes de l’appréciation générale. En effet, quand on regarde de plus près la distribution, les prix connus ont reçu plus souvent l’appréciation « Excellent » ou « Très bon », à l’inverse des prix non connus qui reçoivent plus de « Moyen » et de « Nul » (plus particulièrement sur la 2ème étoile). On remarque également que les auteurs recevant des prix connus sont en moyenne plus vieux (l’axe de la date de naissance nous le montre), et ils reçoivent ces prix à un âge plus avancé en moyenne, d’après l’axe « âge quand prix reçu ». De plus, ils ont écrit plus de livres. En revanche, le type du livre n’a pas l’air d’influer sur sa notoriété. De même, le fait qu’un auteur ait ou non reçu un autre prix ne semble pas être un critère. Université Paris Dauphine MIAGE IUP 3 16 Projet de Data Mining 6.2 La méthode PCM (Principal Components Analysis) Cette méthode permet de projeter les nuages de points existant dans un espace de n dimensions (n variables) sur un plan. Cette méthode statistique classique permet, en perdant le moins de données possibles (inertie maximales), de représenter les délimitations des concepts de façon à ce qu’elles soient compréhensibles, une représentation en n dimensions étant pour ainsi dire impossible à analyser. SO-PCA Eigenvalues Explained Inertia % 25%--------50%-------75%-------100% Ev.1 0.64002 57.32620 57.32620 Ev.2 0.26948 24.13721 81.46342 Ev.3 0.12533 11.22548 92.68890 Cumulated % Histogram 0------- |********************** |********* |**** Ce 1er tableau nous permet de connaître les variables qui expliquent le mieux la notoriété d’un livre, parmi les cinq variables quantitatives que nous avons : l’âge de l’auteur quand il a reçu son prix, son année de naissance, l’année où il a reçu le prix, le nombre de livres écrits et la note donnée par les lecteurs. Nous pouvons conclure que les trois premières variables expliquent plus de 92%, avec la 1ère qui explique à elle seule plus de la moitié. MIX-PCA Eigenvalues Explained Inertia % 25%--------50%-------75%-------100% Ev.1 0.49206 65.64861 65.64861 Ev.2 0.18359 24.49400 90.14262 Ev.3 0.06532 8.71466 98.85728 Cumulated % Histogram 0------- |************************** |********* |*** Après le changement d’axe, les trois premières variables expliquent maintenant près de 99%. Université Paris Dauphine MIAGE IUP 3 17 Projet de Data Mining Ce schéma nous permet d’affirmer que ces cinq variables sont plus ou moins corrélées, mais cela s’explique facilement pour certaines d’entre elles. En effet, en ce qui concerne l’année du prix et la date de naissance de l’auteur, il semble logique qu’un auteur né en 1950 n’ait pas pu recevoir de prix en 1960. En revanche nous pouvons tirer de ce schéma quelque chose de très intéressant : le nombre de romans écrit est fortement corrélé à la note du livre. Or apparemment, la note du livre est un critère pour la notoriété d’un prix. C’est donc sûrement aussi le cas pour le nombre de romans écrit. Université Paris Dauphine MIAGE IUP 3 18 Projet de Data Mining En utilisant deux axes, nous arrivons à représenter plus de 90 % des prix. On est passé d’une dimension 5 à une dimension 2. Université Paris Dauphine MIAGE IUP 3 19 Projet de Data Mining 6.3 La méthode STAT (Elementary Statistics on Symbolic Objects) La méthode STAT de Sodas permet d’utiliser des statistiques classiques étendues aux variables symboliques. Cette application de statistiques évoluées doit nous permettre de continuer notre apprentissage à partir de la base de données. STAT est donc un ensemble de méthodes permettant de voir sous forme de document texte ou de graphe les statistiques élémentaires relatives à nos données symboliques. Cette méthode va nous permettre de préciser et de confirmer les interprétations de la méthode SOE. STAT va bien au-delà en nous permettant de regrouper les valeurs de nos variables symboliques en classes, sous forme d’histogrammes, ce que nous avons utilisé ici pour les variables quantitatives : la note du livre, la date de naissance de l’auteur, l’année où le prix a été reçu, l’âge de l’auteur quand il a reçu son prix, et le nombre de romans écrit. Cette fonction nous permet de faire des statistiques sur les variables quantitatives de notre base. Pour les cinq variables, nous pouvons donc voir les histogrammes et observer leur répartition. Ainsi, nous constatons que la note la plus attribuée à un livre est un peu plus de 5,5 (d’après les valeurs exactes fournies en plus des diagrammes). On remarque également qu’on donne de plus en plus de prix au fil des années (courbe rouge). En ce qui concerne le nombre de livres écrits, plus de la moitié des auteurs se situe en dessous de 15, la moyenne étant à 37 mais avec un écart type de 34,8. Quant à l’âge de l’auteur lorsqu’il reçoit un prix, plus de 50 % ont aux alentours de 45 ans, la moyenne étant à 47 ans. Université Paris Dauphine MIAGE IUP 3 20 Projet de Data Mining 6.4 La méthode SCLUST La fonction SCLUST nous a permis de séparer les objets symboliques en deux prototypes qui correspondent à la notoriété des prix. En vert, nous avons le prototype 1/1 qui correspond aux prix connus, et en rose, le prototype 2/2 correspondant aux prix non connus. Ce diagramme nous permet de tirer à peu près les mêmes conclusions que la fonction SOE. En effet, nous remarquons que la note des livres est nettement supérieure lorsque le prix est connu, et cela rejoint l’appréciation générale qui montre que les livres ayant reçu un prix connu ont également reçu de meilleures appréciations (« Excellent », « Très bon », et « Bon »). Concernant les auteurs, ceux qui reçoivent des prix connus ont en moyenne écrit plus de romans, et sont plus vieux au jour d’aujourd’hui. En revanche, contrairement à ce que l’on pensait précédemment, l’âge qu’ils ont lorsqu’ils reçoivent leur prix, n’est pas significativement différent. On ne peut donc pas en tenir compte. De même, nous retrouvons le fait que le type du livre n’est pas un critère. Ce n’est pas non plus le cas du fait d’avoir reçu ou non une autre prix. Université Paris Dauphine MIAGE IUP 3 21 Projet de Data Mining Ce dernier prototype 1/2 correspond à tous les objets symboliques à la fois. On remarque qu’il y a beaucoup plus de romans que de nouvelles, et beaucoup plus de livres français. En ce qui concerne l’appréciation générale, la grande majorité des livres sont « Bons » ou « Moyens », et très peu sont « Nuls ». Université Paris Dauphine MIAGE IUP 3 22 Projet de Data Mining D’après ce schéma, nous pouvons voir où se situent nos trois prototypes par rapport à la note du livre en fonction du nombre de romans écrits. On retrouve à nouveau le fait que pour les prix connus, le nombre de romans écrits ainsi que la note du livre sont plus élevés. Mais ce schéma nous montre également que ces variables peuvent être corrélées. En revanche, la note du livre ne semble pas être liée à l’âge de l’auteur (cf. schéma ci-dessous). Université Paris Dauphine MIAGE IUP 3 23 Projet de Data Mining 6.5 La méthode PYR (Pyramidal Clustering on Symbolic Objects) Après avoir étudié les classes de nos variables symboliques avec STAT, nous allons utiliser la méthode PYR de Sodas qui permet de caractériser les classes en les organisant sous forme de paliers. La pyramide est outil puissant pour représenter les classes empiétantes et situer les prix de littérature les uns par rapport aux autres en fonction de critères définis. Nous avons voulu vérifier si les pépites que nous pensions avoir trouvé jusque là sont exactes. Pour cela, nous avons utilisé la méthode PYR de Sodas. Nous avons fait une première pyramide en se basant sur deux variables : la note du livre et l’appréciation. Voici ce que nous avons obtenu : Hormis deux objets symboliques sur la gauche, nous pouvons observer deux classes bien distinctes. Les deux critères choisis sont donc bons. En revanche, si l’on choisit deux autres variables telles que l’âge de l’auteur lorsqu’il a reçu le prix et s’il a reçu ou non d’autres prix, nous obtenons cela : Cela nous confirme donc que ces deux critères ne sont pas bons : ce ne sont pas des critères explicatifs de la notoriété d’un livre. Cette méthode nous a permis de confirmer ce que nous pensions. Université Paris Dauphine MIAGE IUP 3 24 Projet de Data Mining 7 Synthèse des résultats et influence Parmi toutes les variables explicatives que nous avions au départ, toutes ne pouvaient pas être des critères. En effet, au cours des différentes fonctions, nous avons pu remarquer que certaines variables étaient bien meilleures que d’autres pour expliquer la notoriété d’un prix. Les deux critères les plus importants sont la note attribuée au livre, ainsi que son appréciation générale. Pour une maison d’édition, cela est une excellente chose si le livre a déjà été édité auparavant et donc lu par un certain nombre de personnes. Mais si l’auteur se présente pour une première édition, alors ces critères ne sont plus valables. D’autres critères sont donc bons. Il s’agit du nombre de livres écrit par ce même auteur. Plus ce nombre est élevé, plus l’auteur a des chances de recevoir un prix. Il y a également l’âge de l’auteur. Cela s’explique facilement car un auteur plus âgé a plus d’expérience, mais est surtout plus reconnu dans le monde de la littérature. En revanche, le type du livre n’est pas un critère décisif, de même que si l’auteur a déjà reçu ou non d’autres prix. Université Paris Dauphine MIAGE IUP 3 25 Projet de Data Mining Bibliographie Site Internet : http://www.ceremade.dauphine.fr http://www.dicodunet.com/informations/32-data-mining.htm http://sawww.epfl.ch/SIC/SA/publications/FI98/fi-5-98/5-98-page5.html http://www.web-datamining.net/forum/faq.asp http://www.nodesway.com/business-intelligence/datamining.htm www.hec.be/~ffontaine/sid/data_mining.ppt http://www.univ-angers.fr/docs/etudquassi/Datamining.pdf Université Paris Dauphine MIAGE IUP 3 26