rapport - Ceremade - Université Paris

Transcription

rapport - Ceremade - Université Paris
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
DESS 220 – Informatique de Gestion
Université Paris Dauphine
DATAMINING
Etude et analyse
des ventes d’une chaîne de
magasins
Tuteur : Monsieur Edwin DIDAY
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
Promotion 2002
DESS 220
Informatique de Gestion
Sommaire
Sommaire
Introduction ............................................................................................1
PARTIE 1 : Méthode et Outils
A. Le datamining ....................................................................................2
1. Objectif................................................................................................................ 2
2. Le logiciel SODAS (Symbolic Official Data Analysis System) ............................. 4
B. Les outils : Le logiciel SODAS .........................................................6
1. Présentation........................................................................................................ 6
2. Méthode d’utilisation ........................................................................................... 6
a. Généralités ............................................................................................................6
b. Sélection d’une base d’étude ................................................................................7
c. Choix des méthodes à appliquer ...........................................................................8
PARTIE 2 : L'analyse : Etude Statistique
A. Présentation de l’étude ...................................................................11
1. Contexte de l’étude et présentation des données ............................................. 11
2. Les objectifs ...................................................................................................... 12
B. L’analyse ..........................................................................................13
1. DB2SO : extraction de données symboliques de la base de données
relationnelles......................................................................................................... 13
a. Généralités ..........................................................................................................13
b. Présentation de DB2SO ......................................................................................13
2. SOE : Symbolic Objects Editor ........................................................................ 20
a. Présentation de la méthode SOE ........................................................................20
b. Mise en œuvre de la méthode SOE ....................................................................21
2. STAT ................................................................................................................ 25
a. Présentation de la méthode STAT ......................................................................25
b. Mise en oeuvre de la méthode STAT ..................................................................26
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
DESS 220
Informatique de Gestion
Sommaire
3. DIV : Divisive Clustering on Symbolic Objects .................................................. 34
a. Présentation de la méthode DIV..........................................................................34
b. Mise en oeuvre de la méthode DIV .....................................................................35
4. DSD : Discrimant Symbolic Descriptions .......................................................... 39
a. Présentation de la méthode DSD ........................................................................39
5. TREE : Decision Tree ....................................................................................... 40
a. Présentation de la méthode TREE ......................................................................40
b. Mise en oeuvre de la méthode TREE..................................................................40
6. PYR : Pyramical Clustering on Symbolic Objects ............................................. 42
a. Présentation de la méthode PYR ........................................................................42
b. Mise en oeuvre de la méthode PYR....................................................................43
7. PCM : Principal Component Analysis................................................................ 44
a. Présentation de la méthode PCM........................................................................44
b. Mise en œuvre de la méthode PCM....................................................................44
8. FDA : Factorial Discriminant Analysis ............................................................... 47
a. Présentation de la méthode FDA ........................................................................47
b. Mise en œuvre de la méthode FDA.....................................................................47
Conclusion............................................................................................52
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
DESS 220
Informatique de Gestion
Introduction
Introduction
Désormais, le Datamining est au cœur de toutes les préoccupations du monde
économique.
Le Datamining est un processus qui permet de découvrir, dans de grosses bases de
données consolidées, des informations jusque là inconnues mais qui peuvent être utiles et
lucratives et d'utiliser ces informations pour soutenir des décisions commerciales tactiques et
stratégiques.
Les techniques statistiques du datamining sont bien connues. Il s'agit notamment de
la régression linéaire et logistique, de l'analyse multivariée, de l'analyse des composantes
principale, des arbres décisionnels et des réseaux de neurones. Cependant, les approches
traditionnelles de l'inférence statistique échouent avec les grosses bases de données, car en
présence de milliers ou de millions de cas et de centaines ou de milliers de variables, on
trouvera forcément un niveau élevé de redondance parmi les variables, certaines relations
seront fausses, et mêmes les relations les plus faibles paraîtront statistiquement importantes
dans tout test statistique. L'objectif est de construire un modèle dont le pouvoir de prédiction
soit satisfaisant. Il ne suffit pas de savoir quelles relations sont statistiquement importantes.
Prenons le cas d'une campagne qui offre à la vente un produit ou un service et qui
cible une base de clientèle donnée. En règle générale, environ 1% de la base de clientèle
"réagiront", c'est-à-dire achèteront le produit ou le service s'il leur est proposé. Un
publipostage envoyé à 100 000 clients choisis au hasard générera ainsi environ 1 000
ventes. Les techniques de datamining permettent un marketing fondé sur la relation avec la
clientèle, en identifiant quels clients risquent le plus de réagir à la campagne. Si le taux de
réponse peut être augmenté de 1% à 1,5%, par exemple, alors 1 000 ventes pourront être
réalisées avec 66 666 envois seulement, ce qui réduit le coût du publipostage d'un tiers.
L’analyse de données symboliques prend actuellement de plus en plus d’importance,
en témoigne le développement du logiciel spécifique SODAS. Nous allons utiliser ce logiciel
afin d’extraire des informations concentrées dans une base de données relationnelle. Notre
base d’étude concerne les ventes réalisées par une chaîne de 13 magasins présents en
Europe.
Le présent rapport est constitué de deux parties principales. La première est une
présentation générale du datamining et du logiciel SODAS que nous utilisons pour notre
étude. Nous expliquerons, ensuite, le contexte de l’étude et nous analyserons les données
de notre base en appliquant diverses méthodes offertes par le logiciel SODAS.
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
DESS 220
Informatique de Gestion
Partie 1
Méthodes et outils
Partie 1 : Méthodes et Outils
A. Le datamining
1. Objectif
Les progrès de la technologie informatique dans le recueil et le transport de données,
font que dans tous les grands domaines de l'activité humaine, nous réunissons maintenant
des données de toutes sortes (numériques, textuelles, graphiques...) et en quantité souvent
gigantesque.
Partout dans le monde, il se constitue ainsi de considérables gisements de
connaissances. En particulier sur le réseau mondial Internet, des ensembles de données
(sociales, économiques, commerciales, médicales, biologiques, industrielles…) qui étaient
difficiles d'accès voire inaccessibles auparavant apparaissent désormais à la portée de tous.
De plus, des systèmes d'interrogation des données, qui n'étaient autrefois réalisables
qu'à l'aide de langages informatiques nécessitant l'intervention d'ingénieurs informaticiens de
haut niveau, deviennent de plus en plus simples d'accès et d’utilisation.
Résumer ces données, à l'aide de concepts sous-jacents (une ville, un type de
chômeur, un produit industriel, une catégorie de panne ...), afin de mieux les appréhender et
d'en extraire de nouvelles connaissances constitue une question cruciale. Ces concepts sont
décrits par des données plus complexes que celles habituellement rencontrées en
statistique. Elles sont dites "symboliques", car elles expriment la variation interne inéluctable
des concepts et sont structurées. Dans ce contexte, l'extension des méthodes de "l'Analyse
des Données Exploratoires" et plus généralement, de la "Statistique Multidimensionnelle" à
de telles données, pour en extraire des connaissances d'interprétation aisée, devient une
tâche d'importance grandissante.
Nous ne nous intéressons pas ici à la représentation des connaissances considérée
comme un tout, dès le départ et organisé par un expert, ce qui a constitué l'un des domaines
de prédilection de l'Intelligence Artificielle, mais plutôt à des "atomes" ou "unités" de
connaissances (les individus ou concepts munis de leur description) considérés au départ
comme des entités séparées les unes des autres et qu'il s'agit pour nous d'analyser et
d'organiser de façon automatique.
Par rapport aux approches classiques, l'Analyse des Données Symboliques présente les
caractéristiques et ouvertures suivantes :
- Elle s'applique à des données plus complexes. En entrée elle part de données symboliques
(variables à valeurs multiples, intervalle, histogramme, distribution de probabilité, de
possibilité, capacité …) munies de règles et de taxonomies et peut fournir en sortie des
connaissances nouvelles sous forme d'objets symboliques présentant les avantages qui
vont être développés ci-dessous.
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
2 / 52
DESS 220
Informatique de Gestion
Partie 1 : Méthodes et Outils
- Elle utilise des outils adaptés à la manipulation d'objets symboliques de généralisation et de
spécialisation, d'ordre et de treillis, de calcul d'extension, d'intension et de mesures de
ressemblances ou d'adéquation tenant compte des connaissances sous-jacentes basées
sur les règles et taxonomies.
- Elle fournit des représentations graphiques exprimant, entre autres, la variation interne des
descriptions symboliques. Par exemple, en analyse factorielle, un objet symbolique sera
représenté par une zone (elle même exprimable sous forme d'objet symbolique) et pas
seulement par un point.
Les principaux avantages des objets symboliques peuvent se résumer comme suit :
- Ils fournissent un résumé de la base, plus riche que les données agrégées habituelles car
ils tiennent compte de la variation interne et des règles sous-jacentes aux classes décrites,
mais aussi des taxonomies fournies. Nous sommes donc loin des simples centres de
gravités.
- Ils sont explicatifs, puisqu'ils s'expriment sous forme de propriétés des variables initiales ou
de variables significatives obtenues (axes factoriels), donc en termes proches de
l'utilisateur.
- En utilisant leur partie descriptive, ils permettent de construire un nouveau tableau de
données de plus haut niveau sur lequel une analyse de données symbolique de second
niveau peut s'appliquer.
- Afin de modéliser des concepts, ils peuvent aisément exprimer des propriétés joignant des
variables provenant de plusieurs tableaux associés à différentes populations. Par exemple,
pour construire un objet symbolique associé à une ville, on peut utiliser des propriétés
issues d'une relation décrivant les habitants de chaque ville et une autre relation décrivant
les foyers de chaque ville.
- Plutôt que de fusionner plusieurs bases pour étudier ensuite la base synthétique obtenue, il
peut être plus avantageux d'extraire d'abord des objets symboliques de chaque base puis
d'étudier l'ensemble des objets symboliques ainsi obtenus.
- Ils peuvent être facilement transformés sous forme de requête sur une Base de Données.
Ceci a au moins les deux conséquences suivantes :
- Ils peuvent donc propager les concepts qu'ils représentent d'une base à une autre (par
exemple, d'un pays à l'autre de la communauté européenne, EUROSTAT ayant fait un
grand effort de normalisation des différents types d'enquête socio-démographiques).
- Alors qu'habituellement on pose des questions sous forme de requête à la base de
données pour fournir des informations intéressant l'utilisateur, les objets symboliques
formés à partir de la base par les outils de l'Analyse des Données Symbolique permettent
à l'inverse de définir des requêtes et donc de fournir des questions qui peuvent être
pertinentes à l'utilisateur.
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
3 / 52
DESS 220
Informatique de Gestion
Partie 1 : Méthodes et Outils
2. Le logiciel SODAS (Symbolic Official Data Analysis System)
Il s'agit d'un logiciel prototype public apte à analyser des données symboliques. Il est
téléchargeable à l’adresse : http://www.ceremade.dauphine.fr/~touati/sodas-pagegarde.htm.
Il est issu d’un projet de EUROSTAT appelé SODAS comme le logiciel qui en est issu. Ce
logiciel a pour vocation de fournir un cadre aux différentes avancées récentes et futures
dans le domaine de l’analyse de données symbolique.
L’idée générale de ce projet est de construire, à partir d'une base de données relationnelle,
un tableau de données symboliques muni éventuellement de règles et de taxonomies. Le but
étant de décrire des concepts résumant un vaste ensemble de données et d’analyser ensuite
ce tableau pour en extraire des connaissances par des méthodes d'analyse de données
symboliques.
Une analyse des données dans SODAS suit les étapes suivantes :
-
Partir d'une base de données relationnelle (ORACLE, ACCESS, ...)
-
Définir ensuite un contexte par :
o
des unités statistiques de premier niveau (habitants, familles, entreprises,
accidents, ...),
o
les variables qui les décrivent
o
des concepts (villes, groupes socio-économiques, scénario d'accident,...)
Chaque unité statistique de premier niveau est associée à un concept (par exemple, chaque
habitant est associé à sa ville). Ce contexte est défini par une requête sur notre base de
données relationnelle..
On construit alors un tableau de données symboliques dont les nouvelles unités statistiques
sont les concepts décrits par généralisation des propriétés des unités statistiques de premier
niveau qui leur sont associés.
Ainsi, chaque concept est décrit par des variables dont les valeurs peuvent être des
histogrammes, des intervalles, des valeurs uniques (éventuellement munies de règles et de
taxonomies) selon le type de variables et le choix de l'utilisateur.
On peut ainsi créer un fichier d'objets symboliques sur lequel une douzaine de méthodes
d'analyse de données symboliques peuvent déjà s'appliquer au sein du logiciel SODAS
(histogrammes des variables symboliques, classification automatique, analyse factorielle,
analyse discriminante, visualisations graphiques,...).
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
4 / 52
DESS 220
Informatique de Gestion
Partie 1 : Méthodes et Outils
Le schéma ci dessous illustre les étapes successives d’une étude avec le logiciel SODAS.
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
5 / 52
DESS 220
Informatique de Gestion
Partie 1 : Méthodes et Outils
B. Les outils : Le logiciel SODAS
1. Présentation
La fenêtre principale de SODAS se compose de 3 éléments principaux :
1
2
3
1. La barre d’outils de la fenêtre principale comporte 5 menus.
2. La fenêtre Methods de la fenêtre principale propose, par groupe, les différentes
méthodes disponibles.
3. La fenêtre Chaining de la fenêtre principale gère l’enchaînement des méthodes
appliquées à la base choisie.
2. Méthode d’utilisation
a. Généralités
Il est tout d’abord important de définir ce qu’est une filière dans le logicielle SODAS. Il
s’agit d’une représentation graphique des calculs que nous souhaitons effectuer qu’il nous
est possible de visionner dans la fenêtre Chaining.
En tête d’une filière, figure l’icône BASE représentant notre fichier SODAS (.sds) sur lequel
les calculs vont être effectués. A la suite de cette icône BASE, viendront se placer les icônes
des méthodes représentant les calculs souhaités.
Après le paramétrage des méthodes et l’enregistrement de la filière, les résultats figureront
sous forme d’icônes, à droite de chacune des méthodes.
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
6 / 52
DESS 220
Informatique de Gestion
Partie 1 : Méthodes et Outils
b. Sélection d’une base d’étude
Icône
BASE
Tout fichier SODAS possède l’extension .sds. C’est un fichier
de ce type qui va constituer la BASE de notre étude.
Pour sélectionner un tel fichier, il faut :
1
2
double-cliquer sur l’icône BASE
sélectionner
notre
fichier
dans
la
liste
de
bases
disponibles
3
cliquer sur OK.
Notre filière a été modifiée et maintenant nous pouvons lire le nom de la base associée à
notre filière ainsi que son chemin d’accès sur le disque dur.
Identification
de la BASE
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
7 / 52
DESS 220
Informatique de Gestion
Partie 1 : Méthodes et Outils
c. Choix des méthodes à appliquer
Nous allons enrichir la filière définie précédemment grâce à des méthodes (Methods)
afin d’analyser les données de notre base.
Pour cela nous pouvons utiliser des filières prédéfinies (Model \ Predefined chaining) ou
bien composer nous-mêmes une filière en enchaînant des méthodes issues de la fenêtre
Methods.
Pour insérer de nouvelles méthodes, il suffit de choisir le menu Method et de cliquer sur
Insert Method. Un carré vide apparaît alors sous l’icône BASE ; nous sélectionnons ensuite
la méthode que nous souhaitons appliquer, dans la fenêtre Methods et nous la faions glisser
jusqu’à l’emplacement vide.
Les méthodes constituant maintenant la filière sont affichées à la suite de l’icône BASE,
selon l’ordre défini par l’utilisateur, dans lequel elles vont s’enchaîner. Chaque méthode est
représentée par une icône à gauche de laquelle se trouve son nom ainsi qu’une description
sommaire.
La couleur de l’icône de la méthode nous renseigne sur son état :
-
gris
: la méthode n’est pas encore paramétrée
-
rouge : la méthode est paramétrée
Par défaut, les méthodes qui viennent d’être insérée sont grisées.
Chaque Méthodes est numérotées dans la filière : ce numéro apparaît dans une petite boîte
située à gauche de la méthodes.
La couleur de cette boîte indique le statut de la méthode :
-
gris
: la méthode ne peut être exécutée car elle n’est pas paramétrée
-
vert
: la méthode est exécutable car elle est paramétrée
-
rouge : la méthode est désactivée. Elle est exécutable mais l’utilisateur en interdit
l’exécution (menu Methods puis Desactivate method).
Ensuite, il faut paramétrer la méthode. Il suffit de double cliquer sur l’icône de la méthode.
Alors, une fenêtre structurée en fiches à onglets s’ouvre ; elle regroupe l’ensemble des
différents paramètres de la méthode.
Après le paramétrage des diverses méthodes, l’affichage de la filière a changé. Toutes les
méthodes sont maintenant exécutables, car paramétrées (les icônes sont rouges).
Le paramétrage de toutes les méthodes de la filière étant terminé, nous pouvons l’exécuter.
Par contre, toute exécution d’une filière doit être obligatoirement précédée de sa sauvegarde
(menu Chaining puis Save chaining as et saisie d’un nom dont l’extension est .FIL).
Une fois cette opération effectuée, nous exécutons la filière en cliquant sur le sous menu
Run chaining du menu Chaining.
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
8 / 52
DESS 220
Informatique de Gestion
Partie 1 : Méthodes et Outils
1
2
3
4
Avant exécution de la filière
Après exécution de la filière
Suite à l’exécution de la filière PROJET.FIL (dont le nom apparaît en haut à gauche de la
fenêtre), de nouvelles icônes sont apparues dans la fenêtre Chaining, à droite des icônes
Méthodes. Ces nouvelles icônes permettent d’accéder aux résultats numériques et, le cas
échéant, aux résultats graphiques de chaque Méthode exécutée.
1
un double-clic sur cette icône permet de d’accéder aux résultats numériques
(dans l’éditeur de texte, Wordpad) de la méthode SOE
2
3
cette icône permet d’accéder à l’éditeur graphique de la méthode SOE
4
un double-clic sur cette icône affiche une représentation graphique de la méthode
STAT suivant les paramètres saisis précédemment
cette icône entraîne l’affichage de la représentation graphique de la classification
pyramidale
Toutes ces méthodes, ainsi que d’autres, seront expliquées plus en détails dans la partie
suivante du présent rapport.
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
9 / 52
DESS 220
Informatique de Gestion
Partie 2
L’analyse : Etude statistique
Partie 2 : L’analyse : Etude Statistique
A. Présentation de l’étude
1. Contexte de l’étude et présentation des données
La base de données relationnelle, sur laquelle nous avons choisi de baser notre étude, est
une base exemple du logiciel Business Objects.
Elle regroupe les ventes sur 3 années (1999, 2000 et 2001) d’une chaîne de 13 magasins de
vêtements et accessoires, répartis dans 6 pays différents.
Elle est constituée de 6 groupes de tables :
- article : Liste tous les caractères descriptifs des articles (étiquette, couleur, catégorie,
prix...)
- promotion_produit et promotion_forme : Présentent le type et la période de promotion
subit par certains articles.
- vente_article : Liste les articles vendus, le magasin de la vente ainsi que diverses
indications sur le chiffre d’affaires.
- calendrier et mois : Permettent d’associer à chaque numéro de semaine de la tabel
vente_article, notamment, un mois et une année.
- liste_magasin, code_postal, ville, region et pays : Listent les magasins dans lesquels
sont vendus les articles vendus et apportent diverses informations identifiant le magasin
(nom, adresse…).
- bilan_ventes : Contient différents résultats des ventes réalisées (marge, quantité
vendue…).
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
11 / 52
DESS 220
Informatique de Gestion
Partie 2 : L’analyse : Etude Statistique
Nous présentons ci-dessous le schéma relationnel de notre base de données afin de mieux
la définir:
2. Les objectifs
L’objectif de notre étude est d’analyser les ventes d’une chaîne de 13 magasins.
La base Access sur laquelle nous avons travaillé, associait à chaque article vendu,
un numéro de vente. Ainsi, le nombre d’enregistrements devenait très important puisque
l’étude porte sur les ventes de 13 magasins sur une durée de 3 années. Nous avons donc
décidé de regrouper sous un numéro de ventes, les ventes d’un même article, pour un
magasin donné et pour un mois donné d’une année donnée.
Nos individus, c’est-à-dire nos unités statistiques de premier niveau, seront donc
constitués par les numéros de chaque vente et ils seront décrits, notamment, par l’intitulé de
l’article vendu, sa couleur, la quantité vendue (puisque que nous agrégeons les résultats sur
un mois), le montant total de la vente, la marge réalisée... La majorité de ces variables de
description se trouvent dans la table vente_article.
Nos concepts apparaissent alors de façon presque naturelle ; il s’agit des noms de
magasins.
Nous avons réalisé plusieurs requêtes sur cette base afin de créer notre contexte d’étude.
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
12 / 52
DESS 220
Informatique de Gestion
Partie 2 : L’analyse : Etude Statistique
B. L’analyse
Une fois notre cadre d’étude parfaitement défini, il nous est alors possible de débuter
l’analyse de nos données à l’aide du logiciel SODAS.
1. DB2SO : extraction de données symboliques de la base de
données relationnelles
a. Généralités
DB2SO est le module du logiciel SODAS qui permet à l’utilisateur de créer un
ensemble de concepts à partir de données stockées dans une base de données
relationnelles.
On présuppose bien évidemment qu’une série d’individus est stockée dans la base de
données et que ces individus sont répartis entre plusieurs groupes. Ainsi, DB2SO va pouvoir
construire un concept pour chaque groupe d’individus. Dans ce processus, les variables
mères / filles ainsi que les taxonomies sur les variables pourront également être associées
avec les concepts créés.
b. Présentation de DB2SO
Le système de liaisons ODBC de SODAS lui permet d’accéder directement aux
bases de données et en particulier aux bases Microsoft Access.
Pour importer notre base, il faut sélectionner la commande Importation(DB2SO) dans le
sous menu Import du menu SODAS file.
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
13 / 52
DESS 220
Informatique de Gestion
Partie 2 : L’analyse : Etude Statistique
Un premier écran d’importation apparaît alors dans lequel il faut sélectionner le menu File
puis New.
L’écran suivant nous invite à sélectionner une source de données machine. Dans notre cas,
il s’agit d’une base Microsoft Access.
Notre projet a, en effet, pour objet l’étude d’une base de données Microsoft Access. Ce
SGBD inclut le driver ODBC permettant l’accès de DB2SO à la base de données
relationnelles.
SODAS ne propose aucun menu de connexion à la base de données car l’utilisateur est
automatiquement invité à s’y connecter quand cela est nécessaire, c’est-à-dire lorsqu’il
souhaite exécuter une requête.
A tout moment, l’utilisateur peut décider de changer de base de données en choisissant le
menu File\Disconnect de l’écran ci-dessus. Il sera alors invité à spécifier une nouvelle base
de données.
Une fois, le bon driver choisi, il faut indiquer le fichier .mdb. Pour ce faire, nous cliquons sur
OK.
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
14 / 52
DESS 220
Informatique de Gestion
Partie 2 : L’analyse : Etude Statistique
L’étape suivante consiste à rechercher la base de travail et à la sélectionner.
Lorsque ces étapes préliminaires ont été exécutées, nous allons procéder à l’extraction des
individus. Pour ce faire, il faut taper une requête SQL dans l’écran qui se présente alors à
nous.
Cette requête est de la forme : select * from requête1 avec requête1 une
requête qui nous renvoie une table : individus | concepts | description des individus
Résultat de la requête1 :
1ère colonne = individus
2nde colonne = concepts
3ème colonne et suivante = description des individus
Individus
concepts
////
////
////
////
Description des individus
Dans notre projet, il s’agit de la requête : db2so_annee_00_promo
SELECT db2so_annee_00.id_vente, db2so_annee_00.nom_magasin,
db2so_annee_00.etiquette_article, db2so_annee_00.categorie,
db2so_annee_00.famille_produit,
db2so_annee_00.etiquette_couleur,
db2so_annee_00.gamme_couleur, db2so_annee_00.mois,
db2so_annee_00.quantite_vendue, db2so_annee_00.total_vente,
db2so_annee_00.niv_vente, db2so_annee_00.marge,
promotion_00.numero, promotion_00.cout_promotion
FROM
db2so_annee_00
LEFT
JOIN
promotion_00
ON
(db2so_annee_00.code_article = promotion_00.code_article)
AND (db2so_annee_00.mois = promotion_00.mois_promo);
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
15 / 52
DESS 220
Informatique de Gestion
Partie 2 : L’analyse : Etude Statistique
La requête doit retourner une ligne pour chaque individu ; chaque ligne ayant la structure
précisée à la page précédente : identifiant de l’individu, groupe auquel appartient l’individu et
ensuite les différents attributs décrivant les individus. Le nombre de ces attributs est variable
mais un minimum d’un attribut est requis.
Ce bouton permet
changer de base
données de travail.
Requête SQL renvoyant
les
individus,
les
concepts et la description
des individus.
Si la dernière colonne de la table résultant de la requête représente un poids associé à
chaque individu, nous pourrons cocher la première checkbox « Last column is ponderation »
de la fenêtre.
La seconde checkbox est, elle, utilisée si notre requête est supposée renvoyée un grand
nombre de tuples (qui pourrait surcharger la mémoire). Dans ce cas, l’utilisateur cochera
l’option Sampling et il devra spécifier le nombre d’individus maximum pour chaque groupe
(par défaut, ce nombre est fixé à 1000). Nous avons dû l’utiliser en raison du trop grand
nombre d’individus de notre étude.
Une fois la requête SQL tapée, nous cliquons sur le bouton OK et la requête est envoyée à
la base de données ; les individus sont alors extraits de la base de donnée, ils sont stockés
en mémoire et un tableau des concepts est généré.
A l’issue de l’extraction de nos individus, il est possible de visualiser les résultats de
l’extraction, à savoir les tableaux des individus et des concepts en sélectionnant le menu
View et en choisissant Individuals ou bien Assertions suivant ce que nous souhaitons voir.
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
16 / 52
DESS 220
Informatique de Gestion
de
de
Partie 2 : L’analyse : Etude Statistique
A ce stade, nous pouvons sauvegarder notre travail en
choisissant File\Save as ; le fichier sera alors enregistré avec
l’extension .gaj. Cette opération permet à l’utilisateur de
retrouver son travail dans l’état actuel s’il souhaite s’arrêter et
continuer plus tard. Il lui suffira alors de cliquer sur File\Open et
de sélectionner le fichier voulu.
Les fichiers SODAS, utilisés en entrée des méthodes de
SODAS, sont des fichiers avec l’extension .sds. Pour créer de
tels fichiers, il faut utiliser le menu File\Export. Il est alors
demandé de saisir un titre et un sous-titre afin de commenter le
contenu de notre fichier.
Le menu suivant File\Export and view crée également le fichier
.sds, comme précédemment, mais il permet aussi de visualiser
le fichier généré dans un éditeur de texte.
Le menu Modify, lui, permet à l’utilisateur de modifier les concepts à l’aide de
plusieurs opérations. Nous pouvons, par exemple, ajouter ou supprimer des variables
singled-valued et multi-valued aux concepts, ajouter des taxonomies, spécifier des variables
mères / filles en indiquant des règles. Par exemple, une variable n’aura de sens que si une
autre variable a une certaine valeur.
9 Si nous sélectionnons le menu Modify\Add single valued variables, une fenêtre
s’ouvre nous invitant à écrire une requête SQL destinée à extraire de notre base
relationnelle les variables associées aux concepts. La requête SQL renvoie une ligne par
concept : la première colonne représente l’identifiant du concept et les colonnes
suivantes correspondent aux variables de description des concepts.
En ce qui nous concerne, nous avons créé la requête add_single_magasin_pays :
SELECT DISTINCT nom_magasin, pays
FROM liste_magasin, code_postal INNER JOIN (ville INNER JOIN
(region INNER JOIN pays ON region.pays_id=pays.pays_id) ON
ville.region_id=region.region_id) ON code_postal.ville_id =
ville.ville_id
WHERE
liste_magasin.code_postal_id=code_postal.code_postal_id;
Cette requête renvoie une table qui nous donne les noms des magasins et les pays où
sont situés ces magasins.
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
17 / 52
DESS 220
Informatique de Gestion
Partie 2 : L’analyse : Etude Statistique
9 Concernant le menu Modify\Add one set-valued multiple variable, la requête à utiliser
doit renvoyer exactement un attribut multi-valué (qualitatif) en relation avec une variable
multi-valuée et décrivant les concepts.
La première colonne de la requête décrit le concept, la seconde contient les modalités de
l’attribut multi-valué et la troisième est la cardinalité de la modalité considérée, au sein du
concept.
Nous avons 3 requêtes de ce type :
-
requête add_mulitple_qte_00 : nom_magasin | quantité vendue totale sur l’année 00
SELECT bilan_annee_00.nom_magasin, Str([Qte vendue]) AS
quantite_vendue, 1 AS ponderation
FROM bilan_annee_00;
-
requête add_mulitple_revenu_vente_00 : nom_magasin | montant total des ventes
sur l’année 00
SELECT bilan_annee_00.nom_magasin, Str([Total vente]) AS
revenu_vente, 1 AS ponderation
FROM bilan_annee_00;
-
requête add_mulitple_marge_00 : nom_magasin | marge totale sur l’année 00
SELECT bilan_annee_00.nom_magasin, Str([Marge total]) AS
marge_tot, 1 AS ponderation
FROM bilan_annee_00;
9 l est également possible de rentrer des taxonomies (menu Modify\Create taxonomy).
Pour ce faire, nous passons toujours par des requêtes SQL. Celles-ci doivent nous
donner en première colonne la variable enfant et en deuxième colonne la variable parent.
Nous avons 2 taxonomies :
-
requête taxo_article : etiquette_article | categorie | famille_article
SELECT DISTINCT article.etiquette_article,
article.categorie, article.famille_produit
FROM article
ORDER BY article.famille_produit;
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
18 / 52
DESS 220
Informatique de Gestion
Partie 2 : L’analyse : Etude Statistique
-
requête taxo_couleur : etiquette_couleur | gamme_couleur
SELECT DISTINCT article.etiquette_couleur,
article.gamme_couleur
FROM article
ORDER BY article.gamme_couleur;
Une fois toutes ces opérations réalisées, il est possible, à nouveau, de visualiser les
Individus, les concepts, les taxonomies les règles établies … à l’aide du menu View.
Une fois que nous avons effectué toutes ces manipulations dans le module DB2SO, un
résume de toutes les opérations apparaît dans l’écran principal :
1
2
3
4
1
2
résultat de la requête de base : db2so_annee_00_promo
ici, nous voyons s’afficher les 2 taxonomies portant sur les articles et sur les
couleurs, présentées précédemment
3
ces 2 variables ont été insérées en utilisant le menu Modify\Add single valued
variables
4
nous avons effectué 3 fois la manipulation Modify\Add one set-valued multiple
variable afin d’insérer 3 variables multimodales. Il est à noter que nous avons
changé le type de nos variables grâce à l’interface de DB2SO (menu
View\Variables Properties). Par défaut, ces variables sont multimodale
probabiliste et nous les avons transformées en variables multimodales booléennes.
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
19 / 52
DESS 220
Informatique de Gestion
Partie 2 : L’analyse : Etude Statistique
2. SOE : Symbolic Objects Editor
a. Présentation de la méthode SOE
L’éditeur d’objets symboliques (SOE) permet aux utilisateurs de visualiser, dans un
tableau, tous les objets symboliques présents dans un fichier SODAS et d’effectuer quelques
modifications sur les données. Cet éditeur permet aussi de visualiser des représentations
graphiques en 2 et 3 dimensions et une représentation SOL (Symbolic Object Language) de
chaque objet symbolique se trouvant dans le tableau.
Dans la table, il faut alors sélectionner les concepts (au moins 1) et les variables (au moins
3) que nous souhaitons voir représentés à l’écran.
Ensuite, suivant notre choix (bouton
zoom, en 2 ou 3 dimensions.
ou
), nous voyons apparaître à l’écran une étoile
Nous pouvons noter que les variables quantitatives sont représentées par des intervalles et
que les variables qualitatives sont représentées par des histogrammes.
Le bouton SOL (
dans le tableau.
), lui, renvoie une description SOL des objets symboliques sélectionnés
Les taxonomies sont signalées sur les étoiles zoom par le symbole
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
20 / 52
DESS 220
Informatique de Gestion
Partie 2 : L’analyse : Etude Statistique
b. Mise en œuvre de la méthode SOE
Nous présentons tout d’abord l’étude sur un magasin précis « E-fashion – Paris
8
» pour l’année 2000. Ceci nous permettra d’expliciter les différentes fonctionnalités que
nous aurons choisies. Ensuite, nous ferons une analyse identique pour d’autres magasins
afin de comparer les résultats et éventuellement d’en tirer quelques conclusions concernant
l’activité des différents magasins objets de notre étude.
ème
Nous avons choisi d’afficher à l’écran seulement les indications les plus importantes
et surtout les plus exploitables. Par exemple, afficher les étiquettes des articles vendus n’est
pas envisageables car il y en a beaucoup trop et le graphique devient alors illisible. Par
contre, afficher les familles de produits vendus est beaucoup plus pertinent ; en effet, ceci
nous permet d’en déduire des tendances.
Les résultats peuvent être présentés à l’aide d’une étoile zoom en 2 dimensions :
Une variable qualitative est représentée par un point de taille proportionnelle au
nombre d’occurrences rencontrées dans l’étude. Le graphique relie l’occurrence la plus
importante. Si nous souhaitons nous rendre compte plus précisément de la répartition de la
variable considérée, nous pouvons faire appel à l’autre type de représentation : l’étoile zoom
en 3 dimensions.
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
21 / 52
DESS 220
Informatique de Gestion
Partie 2 : L’analyse : Etude Statistique
L’étoile Zoom en 3 dimensions, représente les variables qualitatives sous forme
d’histogrammes et les variables quantitatives par un intervalle, matérialisé par un trait épais
sur un axe (avec mention également des valeurs extrêmes rencontrées pour l’ensemble des
concepts).
Globalement, nous pouvons dire que les ventes de ce magasin, pour un article vendu
et par mois, sont très faibles. Il ne s’agit pas ici d’une étude globale des ventes (nous verrons
cela plutôt avec la méthode STAT). La remarque précédente ne signifie donc pas que le
magasin ne vend pas beaucoup d’articles globalement mais que pour un mois donné et un
article donné, le niveau de vente est très faible ( ie : inférieur ou égal à 5 articles vendus).
Cette représentation est un peu condensée ; nous pouvons cliquer sur les intervalles
pour avoir les valeurs exactes ou bien sur les histogrammes pour en avoir une
représentation plein écran.
Les plus grosses ventes ont visé les Accessoires et concernant les vêtements, elles
se répartissent entre les les pulls, les sweats & Tee-Shirts, les chemises, les robes et enfin
les blousons. Aucun vêtement de cuir ne s’est vendu dans ce magasin et très peu de
pantalons, vestes et jupes.
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
22 / 52
DESS 220
Informatique de Gestion
Partie 2 : L’analyse : Etude Statistique
Les couleurs de prédilections des clients (du moins dans ce magasin) sont le blanc,
observation relativement classique, ainsi que les couleurs foncées (noir, bleu, marron). Par
contre, aucun article de couleur écru et aucun article à motif n’ont été vendus. Le gris, le
bordeaux et les rayures n’ont pas eu de succès auprès des clients.
Si nous souhaitons obtenir une analyse plus précise, il est possible d’afficher les
catégories d’articles, voire les étiquettes des articles et les étiquettes de couleurs des
articles. Nous ne le présenterons pas ici car il y a trop d’informations qui apparaissent à
l’écran et le résultat ne serait pas probant. Mais il est important de préciser que cela est
possible puisque nous l’avons prévu au moment de l’extraction de nos individus dans le
module DB2SO.
Une autre observation intéressante concerne les promotions. Les différentes
promotions réalisées sur des articles sont regroupées en 6 catégories représentées sur
l’étoile Zoom par leur numéro. Elles sont différenciées par le nombre le type de média
utilisé :
-
type 1 : promotion dans le magasin (rabais sur le prix, ventes promotionnelles : 2
articles pour le prix d’1 …)
-
type 2 : promotion + publicité à la radio
-
type 3 : promotion + envoie de publicité par email
-
type 4 : promotion + publicité à la radio + publicité à la télévision
-
type 5 : promotion + impression (affiche, tracts …) + publicité à la radio + publicité TV
-
type 6 : tous les types de média
L’histogramme concernant les types de promotions représentent l’impact d’une
certaine forme de promotion sur les ventes des articles et non le nombre de promotions
utilisées de tel ou tel type.
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
23 / 52
DESS 220
Informatique de Gestion
Partie 2 : L’analyse : Etude Statistique
Ainsi, nous voyons sur l’histogramme précédent que 58% des promotions de type 5
(sur l’ensemble de toutes les promotions réalisées) ont coïncidé avec des ventes d’articles.
Par contre, aucune promotion de type 6 n’est présente. Cela signifie certainement que le
magasin n’a pas utilisé ce type de promotions au cours de l’année 2000.
L’étoile zoom nous indique également que le prix des promotions s’étend sur un
intervalle allant de 650 FF à 12000 FF.
Nous pouvons également voir que le nombre d’articles vendus, par mois s’étale entre
-1 et 56, pour un montant total des ventes compris entre -199 FF et 7944 FF et une marge
réalisée entre -171.4 FF et 2887 FF. Observer des chiffres négatifs et même nuls peut
paraître déroutant. En fait, il s’agit, dans le premier cas, d’articles qui ont disparus
(probablement volés) et dans le second cas, d’articles renvoyés à la maison mère (articles
tâchés, déchirés par les clients.
Enfin, la visualisation de l’histogramme représentant les mois avec les pourcentages
des ventes réalisées nous permet de voir les périodes de l’année où les ventes sont les plus
importantes.
Il s’agit essentiellement de la période s’étalant de Décembre à Mai, avec un léger
ralentissement en Février.
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
24 / 52
DESS 220
Informatique de Gestion
Partie 2 : L’analyse : Etude Statistique
2. STAT
a. Présentation de la méthode STAT
STAT permet d’appliquer des méthodes, habituellement utilisées pour des données
conventionnelles, à des objets symboliques représentés par leur description.
Ces méthodes dépendent du type des variables présentes dans la base SODAS avec
laquelle nous travaillons.
1. les fréquences relatives pour les variables multi nominales
2. les fréquences relatives pour les variables intervalles
3. les capacités et min/max/mean pour les variables multi nominales probabilistes
4. biplot pour les variables intervalles
Le format de sortie des données sera, suivant le choix de l’utilisateur, un listing ou bien un
graphique.
Les graphiques peuvent être modifiés et personnalisés (figures, formes, couleurs, texte,
commentaires ...) par l’utilisateur et ils peuvent également être copiés et sauvegardés.
™ Les fréquences relatives pour les variables multi-nominales
Dans cette méthode, nous étudions la fréquence relative des différentes modalités de
la variable multi nominale en prenant en compte les éventuelles règles relatives à la
base sur laquelle nous travaillons.
Le graphique associé à la distribution de la variable pourra, suivant le choix de
l’utilisateur, être soit un diagramme bâton, soit un diagramme en camembert.
™ Les fréquences relatives pour les variables intervalles
Cette méthode a besoin, en entrée, de 2 paramètres :
-
une variable intervalle I
-
un nombre de classes k
Nous pouvons construire un histogramme pour la variable I sur un intervalle [a,b]
découpé en k classes et où a représente la borne inférieure de I et b sa borne
supérieure. La méthode va permettre le calcul de la fréquence relative associée à la
classe Ck tout en tenant compte du recouvrement de cette classe Ck par les valeurs
intervalles de I et ceci pour tous les objets symboliques.
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
25 / 52
DESS 220
Informatique de Gestion
Partie 2 : L’analyse : Etude Statistique
™ Les capacités
probabilistes
et
min/max/mean
pour
les
variables
multi
nominales
La méthode permet de construire un histogramme des capacités des différentes
modalités de la variable considérée.
Dans l’histogramme capacité, la capacité d’une modalité est représentée par l’union
des différentes capacités.
En ce qui concerne le graphique min/max/mean, il associe un diagramme
représentant l’étendue et la moyenne de la probabilité de chaque modalité.
™ Biplot pour les variables intervalles
Ce graphique représente un objet symbolique par un rectangle dans le plan de 2
variables sélectionnées par l’utilisateur. La dimension de chaque côté du rectangle
correspond à l’étendue de la variation de l’objet symbolique relativement à la variable
de l’axe considéré.
b. Mise en oeuvre de la méthode STAT
™ Les fréquences relatives pour les variables multi-nominales
Nous avons 3 variables de ce type :
- la quantité totale d’articles vendus
- le montant total des ventes réalisées
- la marge totale que ces ventes ont engendrée
Nous avons choisi la représentation sous forme de camembert. L’intérêt des
graphiques que nous allons voir ci-après est de pouvoir comparer sur une même
représentation, les différents résultats, liés à chaque magasin. Les pourcentages
indiqués ne sont pas intéressants vu que les observations concernent chaque
magasin et que nous avons un seul résultat par magasin, tous ces pourcentages
sont alors identiques.
Les résultats se répartissent entre 902
articles vendus (e-fashion London) et
9866
articles
vendus
(e-fashion
Barcelona). On obtient donc des
résultats s’étalant sur une échelle de 1
à 10. Le magasin de Londres n’a pas
de bons résultats.
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
26 / 52
DESS 220
Informatique de Gestion
Partie 2 : L’analyse : Etude Statistique
Les deux autres représentations confirment ce résultats puisqu’ils sont en relation
directe avec le nombre d’articles vendus ; en effet, il s’agit du montant total des
ventes et de la marge totale réalisée.
™ Les fréquences relatives pour les variables intervalles
Nous appliquons cette méthode pour visualiser le coût des promotions. Nous
étudions donc la variable cout_promotion et nous avons découpé notre intervalle en
10 classes.
Le coût des promotions s’étend entre 650 FF et 13.000 FF.
Cependant, nous constatons qu’il y a plus de promotions dont le coût se situe entre
8.050 FF et 12.000 FF. Les extrêmes sont peu représentés : la politique des
magasins est donc de privilégier une prestation de milieu de gamme (concernant les
promotions). Ils choisissent peu la formule la plus simple (et donc la moins la moins
chère) et la formule la plus chère, consistant en l’utilisation de l’ensemble des médias
à disposition.
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
27 / 52
DESS 220
Informatique de Gestion
Partie 2 : L’analyse : Etude Statistique
™ Les capacités
probabilistes
et
min/max/mean
pour
les
variables
multi
nominales
La première variable que nous avons décidé d’étudier concerne la famille de produit
des articles vendus.
Il apparaît nettement que ce sont les Accessoires qui se vendent le plus ; la moyenne
de la probabilité de cette modalité de notre variable d’étude est bien supérieure aux
autres moyennes. Ensuite, arrivent les Sweat & Tee-shirts, suivis de très près par les
Chemisiers. Nous trouvons ensuite les Robes et les Pulls, puis les Pantalons, les
Vestes & Blazers et enfin les Jupes de Villes.
Nous avons ensuite étudié la variable gamme de couleurs des articles afin de
connaître les nuances de couleur que préfèrent les clients.
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
28 / 52
DESS 220
Informatique de Gestion
Partie 2 : L’analyse : Etude Statistique
Les articles noirs sont les plus vendus. Ensuite, nous avons les articles bleus, puis
marrons, vert et blanc.
Nous pouvons remarquer également que certains magasins n’ont vendu aucun
article de couleur pierre, kaki, écru et gris. En effet, le minimum des proportions
associées à ces modalités de la variable gamme_couleur est nul.
™ Biplot pour les variables intervalles
Etant donné que nous étudions 13 magasins et que les résultats de l’application de
cette méthode se superposent, nous allons faire 3 études : les magasins situés à
Paris, les magasins dans les autres villes de France et les magasins dans les autres
villes européennes.
Nous remarquons que les magasins e-fashion 6ème et e-fashion 8ème ont fait des
promotions dont le coût s’étend dans les mêmes intervalles, cependant les ventes du
magasin e-fashion Paris 8ème ont été supérieures. Concernant le magasin e-fashion
Paris 15ème, il a opté pour des promotions dont les tarifs sont supérieurs mais le
nombre de ses ventes est inférieur au magasin e-fashion Paris 8ème. Il est possible
que les promotions de haut de gamme (les plus chères) n’aient pas les résultats
escomptés.
Nous allons maintenant observer les résultats concernant les autres magasins
présents en France :
-
e-fashion Aix Marseille
-
e-fashion Lyon
-
e-fashion Toulouse
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
29 / 52
DESS 220
Informatique de Gestion
Partie 2 : L’analyse : Etude Statistique
Un résultat intéressant : e-fashion Aix Marseille et e-fashion Toulouse ont encore
choisi des gammes de promotions de prix identiques mais les ventes ont été plus
importantes. Le budget promotion est donc mieux utilisé par el magasin de Toulouse
que par celui de Aix Marseille.
Par contre, e-fashion Lyon a choisi une large gamme de promotion et les ventes
d’articles sont nettement plus importantes. On peut donc imaginer que les promotions
ont une influence non négligeable sur les ventes.
Pour les 4 magasins de Milan, Rome, Madrid et Barcelone, nous pouvons considérer
que les résultats sont à peu près équivalents.
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
30 / 52
DESS 220
Informatique de Gestion
Partie 2 : L’analyse : Etude Statistique
Le magasin e-fashion Londres n’a opté que pour un seul type de promotion,
contrairement à e-fashion Berlin qui réalise, pourtant, moins de vente que e-fashion
Londres. Le magasin de Bruxelles utilise des promotions dont l’étendue de gamme
est sensiblement équivalente aux deux autres magasins mais le total des ventes est
supérieur.
Une autre étude intéressante consiste à afficher en ordonnée les marges réalisées et
en abscisse le total des ventes. Les résultats sont, cependant assez classiques :
lorsque le nombre de ventes varie dans une large plage de valeurs, la marge réalisée
varie dans une plage similaire.
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
31 / 52
DESS 220
Informatique de Gestion
Partie 2 : L’analyse : Etude Statistique
Sur le graphique précédent, il apparaît que e-fashion Paris 15ème réalise des ventes
dont les montants sont équivalents à ceux réalisés par e-fashion Paris 6ème mais les
marges du premier magasin sont plus importantes. Il a peut-être vendu des articles à
plus forte valeur ajoutée ou bien il a fait moins de vente ciblée par une promotion.
Là encore, nous voyons que le magasin de Lyon réalise des marges importantes ; ce
qui coïncide avec les montants des ventes réalisées.
Les marges réalisées par e-fashion Roma sont équivalentes à celles de e-fashion
Madrid mais les montants des ventes dans le magasin de Rome sont inférieurs à
ceux du magasin de Madrid ; les bénéfices seront donc plus importants.
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
32 / 52
DESS 220
Informatique de Gestion
Partie 2 : L’analyse : Etude Statistique
Les résultats concernant ces 3 derniers pays sont sensiblement proportionnels.
Une autre étude intéressante aurait été l’affichage des quantités d’articles vendues
en fonction des marges réalisées ou bien en fonction du montant total des ventes.
Ces études complémentaires ne feraient que confirmer les résultats précédemment
énoncés.
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
33 / 52
DESS 220
Informatique de Gestion
Partie 2 : L’analyse : Etude Statistique
3. DIV : Divisive Clustering on Symbolic Objects
a. Présentation de la méthode DIV
DIV est une méthode de classification hiérarchique qui part de tous les objets
symboliques réunis dans une seule classe et procède ensuite par division successive de
chaque classe. A chaque étape, une classe est divisée en deux classes suivant une question
binaire ; ceci permet d’obtenir le meilleur partitionnement en deux classes, conformément à
l’extension du critère d’inertie.
L’algorithme s’arrête après avoir effectuer k-1 division ; k étant le nombre de classes donné,
en entrée, à la méthode par l’utilisateur.
Il ne s’agit pas du seul paramètre à saisir, en entrée de la méthode. L’utilisateur doit
également choisir les variables qui seront utilisées pour calculer la matrice de dissimilarité,
l’extension du critère d’inertie et pour définir l’ensemble des questions binaires utiles pour
effectuer le découpage.
Au moment de choisir nos variables, il faut être attentif à deux choses principales :
-
le domaine de définition des variables doit être ordonné car dans le cas contraire, les
résultats obtenus seront totalement faux
-
il n’est pas possible de mélanger des variables dont le domaine de définition est
continu avec des variables dont le domaine de définition est discret. Dans la fenêtre
de définition des paramètres de la méthode DIV du logiciel SODAS, l’utilisateur doit
choisir entre des variables qualitatives et des variables continues.
Trois paramètres doivent également être définis :
-
la dissimilarité entre 2 objets peut être normalisée ou non. Elle peut être normalisée
en choisissant l’inverse de la dispersion ou bien l’inverse du maximum de la
déviation. La dispersion des variables est, ici, une extension aux objets symboliques
de la notion de variance
-
le nombre k de classes de la dernière partition. La division s’arrêtera après k-1
itérations et la méthode DIV aura calculer des partitions de la classe 2 à la classe k
-
la méthode DIV offre également la possibilité de créer un fichier partition ; il s’agit
d’un fichier texte contenant une matrice (aij) dans laquelle, chaque ligne i∈[1,n]
correspond à un objet et chaque rangée j∈[2,k-1] correspond à une partition en j
classes. Ainsi, (aij) signifie que l’objet j appartient à la classe k, dans la partition en j
classes.
Une fois ces différents paramètres définis, nous pouvons exécuter la méthode DIV. Nous
obtenons, en sortie, un listing contenant les informations suivantes :
-
une liste de la « variance » des variables sélectionnées, à condition que ces variables
soient continues
-
pour chaque partitions de 2 à k classes, une liste des objets contenus dans chaque
classe ainsi que l’inertie expliquée relative à la partition
-
l’arbre de classification.
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
34 / 52
DESS 220
Informatique de Gestion
Partie 2 : L’analyse : Etude Statistique
b. Mise en oeuvre de la méthode DIV
La méthode DIV va nous permettre de réaliser une classification hiérarchique des
magasins par division successive de chaque classe, en partant d’une seule classe
réunissant tous les magasins.
Cette méthode ne permet pas d’étudier à la fois les variables qualitatives et les variables
quantitatives. Nous procéderons alors en deux temps correspondant à chacun des types de
variables.
1) Les variables qualitatives : Description des articles
- Catégorie de l’article
- Gamme de couleur de l’article
- Mois de vente de l’article
Nous choisissons une partition en 5 classes
La cinquième division nous apporte ainsi les classes suivantes :
Cluster 1 (n=2) :
"e-Fashion Lyon" "e-Fashion Barcelona"
Cluster 2 (n=1) :
"e-Fashion London"
Cluster 3 (n=4) :
"e-Fashion Roma" "e-Fashion Toulouse" "e-Fashion Madrid" "e-Fashion Berlin"
Cluster 4 (n=4) :
"e-Fashion Paris 6ème" "e-Fashion Aix-Marseille" "e-Fashion Paris 15ème"
"e-Fashion Paris 8ème"
Cluster 5 (n=2) :
"e-Fashion Milano" "e-Fashion Bruxelles"
Explicated inertia : 95.484718
Le pourcentage d’inertie est élevé.
Le magasin de Londres se distingue des autres.
Par contre, les autres classes montrent un regroupement des magasins sur les critères
choisis, notamment entre le magasin de Milan et de Bruxelles ou bien entre le magasin de
Lyon et de Barcelone.
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
35 / 52
DESS 220
Informatique de Gestion
Partie 2 : L’analyse : Etude Statistique
L’arbre de décision révèle, comme nous le supposions, des ventes différentes selon le mois
de l’année.
+---- Classe 1 (Ng=2)
!
!----3- [mois <= Mai]
!
!
!
!
+---- Classe 4 (Ng=4)
!
!
!
!
!----4- [famille_produit <= Accessoires]
!
!
!
+---- Classe 5 (Nd=2)
!
!----2- [mois <= Juin]
!
!
!
+---- Classe 3 (Nd=4)
!
!----1- [famille_produit <= Pulls]
!
+---- Classe 2 (Nd=1)
Nous avons également fait une autre étude en choisissant d’autres paramètres en entrée de
la méthode.
Nous avons choisi comme paramètres de la méthode :
- les variables :
o le mois
o la franchise (le magasin est-il franchisé ou non)
o le numéro des promotions pratiquées
o la quantité d’articles vendus
-
le nombre de classes : 5
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
36 / 52
DESS 220
Informatique de Gestion
Partie 2 : L’analyse : Etude Statistique
Les résultats que nous obtenons sont représentés par l’arbre ci-dessous :
L’état « franchisé ou non » représente la première variable de découpage. En avançant dans
la hiérarchie, nous nous rendons compte que le type de promotion utilisée constitue les 2
facteurs suivants de découpage. Vient ensuite le mois où est réalisé la promotion puis enfin,
la quantité vendue.
2) Les variables continues : Résultat des ventes
- le total des ventes
- le coût de la promotion
- la marge réalisée
Nous choisissons à nouveau une partition en 5 classes afin de détecter un éventuel
changement dans le regroupement des magasins.
Cluster 1 (n=8) :
"e-Fashion Roma" "e-Fashion Barcelona" "e-Fashion Toulouse" "e-Fashion AixMarseille" "e-Fashion Madrid" "e-Fashion Berlin" "e-Fashion Milano" "eFashion Paris 15ème"
Cluster 2 (n=1) :
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
37 / 52
DESS 220
Informatique de Gestion
Partie 2 : L’analyse : Etude Statistique
"e-Fashion London"
Cluster 3 (n=1) :
"e-Fashion Paris 6ème"
Cluster 4 (n=1) :
"e-Fashion Lyon"
Cluster 5 (n=2) :
"e-Fashion Bruxelles" "e-Fashion Paris 8ème"
Explicated inertia : 91.536877
Les magasins ont des similarités ou des dissimilarités entre eux. En effet, le magasin de
Londres se distingue à nouveau des autres mais il n’est plus le seul. La première classe,
quant à elle, regroupe un grand ensemble de magasin.
L’arbre de décision ci-dessous révèle la liaison entre le coût de promotion subit par le
magasin et le niveau de vente réalisé.
+---- Classe 1 (Ng=8)
!
!----2- [total_vente <= 3597.000000]
!
!
!
!
+---- Classe 3 (Ng=1)
!
!
!
!
!
!---4- [cout_promotion <= 5950.000000]
!
!
!
!
!
!
!
+---- Classe 5 (Nd=2)
!
!
!
!
!----3- [total_vente <= 6072.250000]
!
!
!
+---- Classe 4 (Nd=1)
!
!----1- [cout_promotion <= 9412.500000]
!
+---- Classe 2 (Nd=1)
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
38 / 52
DESS 220
Informatique de Gestion
Partie 2 : L’analyse : Etude Statistique
4. DSD : Discrimant Symbolic Descriptions
a. Présentation de la méthode DSD
Cette méthode consiste à trouver des descriptions qui permettent de généraliser et
de discriminer des classes données sur un ensemble d’observations. Ces descriptions sont
formalisées par des objets symboliques probabilistes.
La méthode DSD construit un ou plusieurs objets symboliques, pour chaque classe, à partir
de seuils calculés par la comparaison de l’extension de l’objet symbolique avec sa classe.
Ces objets créés peuvent éventuellement se superposés.
Dans le modèle symbolique, la description générale d’une classe correspond à une
disjonction d’objets symboliques.
La méthode DSD demande, en entrée, une matrice de données dans laquelle toutes les
variables doivent être de type nominal.
L’utilisateur est invité à sélectionner les variables qui seront utilisées par DSD. Ensuite, il doit
choisir une « variable de partition », appelée « Variable Class Identifier », parmi la liste des
variables de la matrice de données. Ce choix est unique et les valeurs prises par cette
variable correspondent aux classes évoquées précédemment. Des variables de description
permettront de décrire chaque classe du domaine de la variable de partition. Cet ensemble
de variables est appelé « Variable Set Identifier ». L’utilisateur est invité à choisir le nombre
de variables de description qu’il désire tout en sachant qu’il est interdit de choisir la variable
de partition comme variable de description.
Trois paramètres doivent également être définis :
-
Disc : il s’agit d’un pourcentage représenté par un entier (de 0 à 100). C’est un ratio
d’erreur des objets symboliques, dans la couverture des individus en dehors de la
classe.
Disc = 20 signifie que, pour chaque classe, l’union de l’extension des objets
symboliques couvre 20% des individus non présents dans la classe.
-
Ext : il s’agit également d’un pourcentage représenté par un entier (de 0 à 100). C’est
le seuil correspondant à la couverture de chaque classe par les objets symboliques.
Par exemple, Ext = 80 signifie que, pour chaque classe, l’union de l’extension des
objets symboliques recouvre 80% des individus de la classe.
-
Idind : ce paramètre a la valeur “yes” si les individus, dans la matrice, sont nommés
et non, dans le cas contraire.
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
39 / 52
DESS 220
Informatique de Gestion
Partie 2 : L’analyse : Etude Statistique
5. TREE : Decision Tree
a. Présentation de la méthode TREE
La méthode Tree nous propose un algorithme par agrandissement d’arbres, appliqué
à des données imprécises décrites par des concepts probabilistes. La procédure récursive
de partitionnement peut être vue comme une recherche itérative d’un ensemble organisé
d’objets symboliques, répondant au mieux aux données initiales. A chaque étape, le
découpage optimal est obtenu en utilisant une mesure générale, donnée en paramètre.
En sortie, nous obtenons une nouvelle liste d’objets symboliques qui permet éventuellement
d’assigner de nouveaux objets à une classe.
Avant d’exécuter la méthode, l’utilisateur doit choisir l’ensemble des variables prédictives
parmi :
- un ensemble de variables quantitatives ou de variables intervalles
- un ensemble de variables qualitative, multi valuées ou modales
Ensuite, nous obtenons en sortie un listing contenant les informations suivantes :
- la liste des variables utilisées
- la liste des objets symboliques appartenant à un « training set »
- la liste des objets symboliques appartenant à un « test set»
- la liste des nœuds ; chaque nœud étant décrit par une règle
- la liste des nœuds terminaux
b. Mise en oeuvre de la méthode TREE
La méthode TREE va nous permettre de définir un ensemble organisé des concepts
(magasins) grâce à une procédure récursive de partitionnement.
Nous choisissons comme variable de partitionnement : les mois
Les variables explicatives choisies sont des variables continues :
- le total des ventes
- la marge réalisée
- le coût de promotion subi
- les quantités vendues
L’arbre de décision obtenu se lit de la manière suivante :
+ --- si ASSERTION est vrai (en haut)
!
--- x [ ASSERTION ]
!
+ --- si ASSERTION est vrai (en bas)
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
40 / 52
DESS 220
Informatique de Gestion
Partie 2 : L’analyse : Etude Statistique
Les résultats obtenus sont représentés par l’arbre suivant :
+----
[ 16 ]Italie
(
0.83
0.06
0.26
0.00
0.65
1.22 )
!
!----8[ quantite_vendue <= 20.000000]
!
!
!
+---- [ 17 ]France (
0.60
0.23
0.07
0.08
0.00
0.11 )
!
!----4[ cout_promotion <= 9500.000000]
!
!
!
+---- [ 9 ]Royaume-Uni (
0.27
0.16
0.28
0.05
1.00
0.44 )
!
!----2[ quantite_vendue <= 22.000000]
!
!
!
+---- [ 5 ]France (
1.28
0.48
0.00
0.25
0.00
0.11 )
!
!----1[ quantite_vendue <= 22.000000]
!
!
+---- [ 12 ]France (
1.29
0.70
0.00
0.21
0.00
0.12 )
!
!
!
!----6[ total_vente <= 4475.000000]
!
!
!
!
!
+---- [ 13 ]France (
0.85
0.17
0.00
0.19
0.00
0.00 )
!
!
!----3[ total_vente <= 6008.700195]
!
+---- [ 7 ]France (
0.89
0.00
0.00
0.16
0.00
0.00 )
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
41 / 52
DESS 220
Informatique de Gestion
Partie 2 : L’analyse : Etude Statistique
6. PYR : Pyramical Clustering on Symbolic Objects
a. Présentation de la méthode PYR
Il s’agit d’une classification pyramidale qui généralise la hiérarchisation en autorisant
les classes non disjointes à un niveau donné.
La pyramide constitue un modèle intermédiaire entre les arbres et les structures en treillis.
Cette méthode permet de classer des données plus complexes que ce que nous autorisait le
modèle tabulaire et ceci en considérant la variation des valeurs prises par les variables. La
pyramide est construite par un algorithme d’agglomération opérant du bas (les objets
symboliques) vers le haut (à chaque niveau, des classes sont agglomérées).
Dans une classification pyramidale, chaque classe formée est définie non seulement par son
extension (l’ensemble de ses éléments) mais aussi par un objet symbolique qui décrit ses
propriétés (l’intension de la classe). L’intension est héritée d’un prédécesseur vers son
successeur et nous obtenons ainsi une structure d’héritage.
La structure d’ordre permet l’identification de concepts intermédiaires ; c’est-à-dire de
concepts qui comblent un vide entre des classes bien identifiées.
En entrée
construire
intervalles
entre des
mélanger.
de cette méthode, l’utilisateur doit choisir les variables qui seront utilisées pour
la pyramide. Ces variables peuvent être continues (des valeurs réelles), des
de valeurs réelles ou bien des histogrammes. L’utilisateur sera invité à choisir
variables qualitatives et continues mais il lui est également possible de les
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
42 / 52
DESS 220
Informatique de Gestion
Partie 2 : L’analyse : Etude Statistique
b. Mise en oeuvre de la méthode PYR
Nous avons choisi les variables famille_produit, categorie_couleur, total_vente et
marge comme paramètres en entrée de la méthode.
La pyramide obtenue est la suivante :
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
43 / 52
DESS 220
Informatique de Gestion
Partie 2 : L’analyse : Etude Statistique
7. PCM : Principal Component Analysis
a. Présentation de la méthode PCM
La méthode PCM correspond à l’analyse en composante principale classique.
Mais au lieu d’obtenir une représentation par points sur un plan factoriel, PCM propose une
visualisation de chaque concept par des rectangles. L’objectif est d’étudier l’intensité des
liaisons entre les variables et de repérer les concepts présentant des caractéristiques
voisines.
La PCM est donc une méthode factorielle de réduction du nombre de caractères permettant
des représentations géométriques des individus et des variables. La réduction se fait par la
construction de nouveaux caractères synthétiques obtenus en combinant les variables
initiales au moyen des « facteurs ».
Les éléments de la matrice de données sont des intervalles et chacun décrit la variation de la
variable observée (minimum et maximum). La méthode n’accepte que les variables
continues. Pour chacune, l’utilisateur choisit ainsi son maximum et son minimum.
L’exécution de la méthode nous donne deux résultats :
1 - Le listing qui contient :
- La description de la matrice de données par une table : chaque ligne correspond
à une classe.
- Les valeurs propres, le pourcentage d’inertie et les premières composantes
principales. Chaque classe est caractérisée d’abord par deux composantes
principales et visualisée dans un plan factoriel par un rectangle.
- Les corrélations entre chaque variable descriptive et les composantes principales.
2 - Une représentation graphique des objets symboliques.
b. Mise en œuvre de la méthode PCM
La méthode accepte seulement les variables continues, en entrée.
Nous avons choisi d’analyser pour chacun des magasins de la chaîne :
- les quantité vendues
- le total des ventes
- la marge réalisée
- le coût de la promotion effectuée
Les intervalles des variables descriptives sont les suivants :
- 0 à 107 pour les quantités vendues
- 0 à 14 238 pour le total des ventes
- 0 à 4 037 pour la marge réalisée
- 650 à 13 000 pour le coût de la promotion
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
44 / 52
DESS 220
Informatique de Gestion
Partie 2 : L’analyse : Etude Statistique
Nous obtenons alors la matrice de données ci-dessous représentant l’ensemble des
intervalles des variables pour chacun des concepts :
Matrix of input data:
quantite_vendue
total_vente
marge
cout_promotion
"e-Fashion Paris 6ème" [0.00 , 59.00] [0.00 , 10051.00] [0.00 , 3161.70]
[650.00 , 9500.00]
"e-Fashion Lyon" [0.00 , 107.00] [0.00 , 14238.00] [0.00 , 3807.60] [650.00
, 13000.00]
"e-Fashion Roma" [0.00 , 20.00] [0.00 , 3580.00] [0.00 , 1598.40] [650.00 ,
12000.00]
"e-Fashion Barcelona" [0.00 , 34.00] [0.00 , 5038.00] [0.00 , 2068.30]
[650.00 , 12000.00]
"e-Fashion Toulouse" [0.00 , 36.00] [0.00 , 5633.00] [0.00, 2131.60]
[650.00 , 13000.00]
"e-Fashion Aix-Marseille" [0.00 , 28.00] [0.00 , 4932.60] [-213.00 ,
1633.90] [1200.00 , 9500.00]
"e-Fashion Madrid" [0.00 , 46.00] [0.00 , 6008.70] [0.00 , 2070.80] [650.00
, 13000.00]
"e-Fashion Berlin" [0.00 , 22.00] [0.00 , 2864.00] [0.00 , 1286.40] [650.00
, 13000.00]
"e-Fashion Milano" [0.00 , 25.00] [0.00 , 4475.00] [0.00 , 1925.80] [650.00
, 13000.00]
"e-Fashion Bruxelles" [0.00 , 50.00] [0.00 , 8470.90] [0.00 , 2639.20]
[650.00 , 13000.00]
"e-Fashion Paris 15ème" [0.00 , 36.00] [0.00 , 6444.00] [0.00 , 2786.30]
[650.00 , 13000.00]
"e-Fashion Paris 8ème" [0.00 , 56.00] [0.00 , 7944.00] [0.00, 2887.00]
[650.00 , 13000.00]
"e-Fashion London" [0.00 , 19.00] [0.00 , 3245.20] [0.00, 1288.70]
[12000.00 , 12000.00]
Les corrélations entre nos 4 variables sont étonnamment faibles. En effet, nous
soupçonnions une forte liaison entre les quantités vendues et le total des ventes.
Toutes les corrélations (coût de la promotion exclu) sont positives. L’évolution entre les
quantités vendues, le total des ventes et la marge dégagée vont dans le même sens. Plus
les quantités et le chiffre d’affaires augmentent, plus le magasin réalise des bénéfices.
Par contre, la corrélation entre la marge, le total des ventes ou les quantités vendues et le
coût de la promotion est négative. Ceci signifie que plus le magasin réalise de grands
volumes de ventes et dégage une marge, plus le coût de sa promotion baisse.
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
45 / 52
DESS 220
Informatique de Gestion
Partie 2 : L’analyse : Etude Statistique
Correlations Matrix :
quantite_vendue
total_vente
marge
cout_promotion
1.0000
0.1678
0.1086
-0.0284
0.1678
1.0000
0.1028
-0.0317
0.1086
0.1028
1.0000
-0.0214
-0.0284
-0.0317
-0.0214
1.0000
Le graphique représentant les concepts sur le plan factoriel n’apporte pas beaucoup de
résultats.
Les magasins sont tous regroupés vers le même angle du plan. Ils ne se distinguent donc
pas les uns des autres selon la marge réalisée, les ventes, les quantités vendues ou le coût
de la promotion.
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
46 / 52
DESS 220
Informatique de Gestion
Partie 2 : L’analyse : Etude Statistique
8. FDA : Factorial Discriminant Analysis
a. Présentation de la méthode FDA
La méthode FDA permet de mettre en évidence les liaisons existant entre une
variable à expliquer qualitative et un ensemble de variables explicatives quantitatives, à
l’aide d’un plan factoriel approprié. L’objectif est de déterminer q classes se différenciant au
mieux.
De même que pour la méthode PCM, on détermine un nouveau caractère, combinaison
linéaire des anciens caractères. Cependant, il ne s’agit plus d’obtenir un caractère de
variance maximale mais un caractère séparant au mieux les groupes entre eux.
Il faut spécifier :
- des variables (ou une) CLASS_ID qui permettront d’identifier les différentes classes.
Celles-ci devront être nominales (on multinominales) et non probabilistes.
- le nombre NVARS de variables explicatives. Il en faut au moins deux.
- SELECT les variables qui seront utilisées dans la détermination des axes factoriels
discriminants. Ces variables peuvent être nominales, multinominales, probabilistes,
modales ou bien des intervalles.
- des variables illustratives SET_ID si besoin. Elles sont obligatoirement nominales et non
probabilistes.
- le nombre d’axes factoriels NUMB de l’analyse. Il en faut au moins deux.
b. Mise en œuvre de la méthode FDA
Nous allons définir une partition de l’ensemble des magasins en q classes disjointes.
Nous allons par ailleurs mesurer sur ces concepts p caractères quantitatifs.
Nous avons choisi les pays des magasins comme variable de partition.
Nous avons essayé deux groupes de variables descriptives :
1) des variables qualitatives définissant les articles vendus
- la famille de l’article
- le mois de vente de l’article
- la couleur de l’article
Nous n’ajoutons pas de variables illustratives et nous sélectionnons deux axes factoriels.
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
47 / 52
DESS 220
Informatique de Gestion
Partie 2 : L’analyse : Etude Statistique
Nous obtenons les résultats suivants :
™ La matrice de dissimilarités :
-------------------------------------------------------------------------Test\Classes
|France |Espagne |Allemagn|Belgique|Royaume-|Italie
-------------------------------------------------------------------------"e-Fashion Paris 6èm|0.000
0.165
0.002
1.000
0.590
0.275
"e-Fashion Lyon"
|0.000
0.165
0.002
1.000
0.590
0.275
"e-Fashion Roma"
|0.229
1.000
0.179
0.398
0.372
0.000
"e-Fashion Barcelona|0.138
0.000
0.273
0.047
0.576
1.000
"e-Fashion Toulouse"|0.000
0.165
0.002
1.000
0.590
0.275
"e-Fashion Aix-Marse|0.000
0.165
0.002
1.000
0.590
0.275
"e-Fashion Madrid" |0.138
0.000
0.273
0.047
0.576
1.000
"e-Fashion Berlin" |0.002
0.393
0.000
1.000
0.598
0.257
"e-Fashion Milano" |0.229
1.000
0.179
0.398
0.372
0.000
"e-Fashion Bruxelles|1.000
0.057
0.834
0.000
0.068
0.478
"e-Fashion Paris 15è|0.000
0.165
0.002
1.000
0.590
0.275
"e-Fashion Paris 8èm|0.000
0.165
0.002
1.000
0.590
0.275
"e-Fashion London" |0.854
1.000
0.722
0.099
0.000
0.646
--------------------------------------------------------------------------
™ La matrice de classification :
Classification table:
-------------------------------------------------------------------------Test\Classes
|France |Espagne |Allemagn|Belgique|Royaume-|Italie
-------------------------------------------------------------------------"e-Fashion Paris 6èm| 1
0
0
0
0
0
"e-Fashion Lyon"
| 1
0
0
0
0
0
"e-Fashion Roma"
| 0
0
0
0
0
1
"e-Fashion Barcelona| 0
1
0
0
0
0
"e-Fashion Toulouse"| 1
0
0
0
0
0
"e-Fashion Aix-Marse| 1
0
0
0
0
0
"e-Fashion Madrid" | 0
1
0
0
0
0
"e-Fashion Berlin" | 0
0
1
0
0
0
"e-Fashion Milano" | 0
0
0
0
0
1
"e-Fashion Bruxelles| 0
0
0
1
0
0
"e-Fashion Paris 15è| 1
0
0
0
0
0
"e-Fashion Paris 8èm| 1
0
0
0
0
0
"e-Fashion London" | 0
0
0
0
1
0
--------------------------------------------------------------------------
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
48 / 52
DESS 220
Informatique de Gestion
Partie 2 : L’analyse : Etude Statistique
™ Le compte rendu de la classification et le ratio de classification :
Classification Summary :
-------------------------------------------------------------------------Class\Class
|France |Espagne |Allemagn|Belgique|Royaume-|Italie
-------------------------------------------------------------------------France
| 6
0
0
0
0
0
Espagne
| 0
2
0
0
0
0
Allemagne
| 0
0
1
0
0
0
Belgique
| 0
0
0
1
0
0
Royaume-Uni
| 0
0
0
0
1
0
Italie
| 0
0
0
0
0
2
-------------------------------------------------------------------------Classification Ratio : 100.0%
--------------------------------------------------------------------------
Le graphique permet la visualisation de la classification sur le plan factoriel.
Nous remarquons que, suivant les caractères descriptifs choisis, les magasins en Allemagne
et en France présentent des similarités et s’opposent aux magasins de Belgique et du
Royaume-Uni. De même, les magasins d’Italie et d’Espagne présentent d’importantes
dissimilarités.
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
49 / 52
DESS 220
Informatique de Gestion
Partie 2 : L’analyse : Etude Statistique
2) Des variables continues expliquant les résultats des magasins :
- le total des ventes
- les quantités vendues
- la marge réalisée
Nous allons ainsi observer les changements dans les similarités ou dissimilarités des
magasins.
™ Matrice de dissimilaritiés :
-------------------------------------------------------------------------Test\Classes
|France |Espagne |Allemagn|Belgique|Royaume-|Italie
-------------------------------------------------------------------------"e-Fashion Paris 6èm|0.000
0.722
0.947
0.510
1.000
0.670
"e-Fashion Lyon"
|0.000
0.828
0.945
0.757
1.000
0.897
"e-Fashion Roma"
|0.241
0.605
0.000
1.000
0.103
0.000
"e-Fashion Barcelona|0.000
0.000
0.000
1.000
0.753
0.002
"e-Fashion Toulouse"|0.000
0.016
0.000
0.694
1.000
0.027
"e-Fashion Aix-Marse|0.000
0.530
0.000
1.000
0.245
0.130
"e-Fashion Madrid" |0.000
0.000
0.000
1.000
0.881
0.002
"e-Fashion Berlin" |0.467
0.704
0.000
1.000
0.215
0.375
"e-Fashion Milano" |0.066
0.413
0.000
1.000
0.297
0.000
"e-Fashion Bruxelles|0.000
0.299
0.774
0.000
1.000
0.478
"e-Fashion Paris 15è|0.000
0.337
0.652
0.184
1.000
0.416
"e-Fashion Paris 8èm|0.000
0.491
0.849
0.316
1.000
0.580
"e-Fashion London" |0.418
0.678
0.000
1.000
0.000
0.259
--------------------------------------------------------------------------
™ Matrice de classification :
-------------------------------------------------------------------------Test\Classes
|France |Espagne |Allemagn|Belgique|Royaume-|Italie
-------------------------------------------------------------------------"e-Fashion Paris 6èm| 1
0
0
0
0
0
"e-Fashion Lyon"
| 1
0
0
0
0
0
"e-Fashion Roma"
| 0
0
1
0
0
0
"e-Fashion Barcelona| 1
0
0
0
0
0
"e-Fashion Toulouse"| 1
0
0
0
0
0
"e-Fashion Aix-Marse| 1
0
0
0
0
0
"e-Fashion Madrid" | 1
0
0
0
0
0
"e-Fashion Berlin" | 0
0
1
0
0
0
"e-Fashion Milano" | 0
0
1
0
0
0
"e-Fashion Bruxelles| 1
0
0
0
0
0
"e-Fashion Paris 15è| 1
0
0
0
0
0
"e-Fashion Paris 8èm| 1
0
0
0
0
0
"e-Fashion London" | 0
0
1
0
0
0
--------------------------------------------------------------------------
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
50 / 52
DESS 220
Informatique de Gestion
Partie 2 : L’analyse : Etude Statistique
™ Compte rendu de la classification et ratio de classification :
-------------------------------------------------------------------------Class\Class
|France |Espagne |Allemagn|Belgique|Royaume-|Italie
-------------------------------------------------------------------------France
| 6
0
0
0
0
0
Espagne
| 2
0
0
0
0
0
Allemagne
| 0
0
1
0
0
0
Belgique
| 1
0
0
0
0
0
Royaume-Uni
| 0
0
1
0
0
0
Italie
| 0
0
2
0
0
0
-------------------------------------------------------------------------Classification Ratio : 53.8%
--------------------------------------------------------------------------
Le listing nous indique que la classification obtenue est nettement différente. Le ratio de
classification a par ailleurs beaucoup diminué.
Observons la classification sur le plan factoriel :
Les classes ne regroupent pas les mêmes magasins. Les magasins se distinguent donc par
leur niveau de ventes ou les marges obtenues. Si certains magasins peuvent être
rapprochés par certains caractères de leurs articles, ils se distinguent alors par leur
comportement de vente.
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
51 / 52
DESS 220
Informatique de Gestion
Conclusion
Conclusion
La réalisation de ce projet a été pour nous l’occasion de découvrir un logiciel puissant
d’analyse de données symboliques : le logiciel SODAS. Cet outil nous a permis d’extraire
des connaissances d’une importante base de données relationnelles.
La grande flexibilité de ce logiciel associée à la puissance de ses diverses
représentations graphiques a mis en évidence des résultats pertinents et facilement
interprétables.
Cependant, l’utilisation optimale de ce logiciel nécessite une bonne maîtrise de
l’environnement des bases relationnelles ainsi que du langage SQL permettant d’exécuter
des requêtes. Ces requêtes sont en effet indispensables pour extraire, au sein du module
DB2SO, les individus, leurs variables de description et les concepts de notre étude.
Enfin, réaliser ce projet en équipe a été tout à fait intéressant et productif. En effet,
nous avons pu confronter nos idées sur l’étude et effectuer ainsi une analyse plus détaillée.
SILVI Stéphanie
WAREMBOURG Pierre-Alexandre
52 / 52
DESS 220
Informatique de Gestion

Documents pareils