Conception d`un outil décisionnel pour la gestion de la relation client

Transcription

Conception d`un outil décisionnel pour la gestion de la relation client
SETIT 2005
3RD INTERNATIONAL CONFERENCE: SCIENCES OF
ELECTRONIC,
TECHNOLOGIES OF INFORMATION AND
TELECOMMUNICATIONS
MARCH 27-31, 2005 – TUNISIA
Conception d’un outil décisionnel pour la gestion de
la relation client dans un site de e-commerce
Nazih SELMOUNE*, Saida BOUKHEDOUMA* and Zaia ALIMAZIGHI*
*
Laboratoire des Systèmes Informatiques(LSI )- USTHB - ALGER
[email protected]
[email protected]
[email protected]
Résumé
Les entreprises soucieuses de leur progrès tentent à satisfaire continuellement leurs clients potentiels.
L’utilisation du e-commerce, l’essor des technologies liées à l’internet fait naître de nouvelles attentes de la part
des clients et des collaborateurs. Ceci oblige ces entreprises à prendre les décisions adéquates en vue de
répondre aux exigences de leurs clients, en examinant leur comportement sur son site de e-commerce. L’analyse
du marché pour une entreprise donnée repose sur la quantité importante d’informations provenant de son site
web marchand. Cette analyse peut se faire en exploitant les entrepôts de données (ED) ou data warehouse (DW)
d’une part et les outils de data mining ou de fouille de données pour une classification (profilage) des clients
d’autre part, car l’aide à la décision peut nécessiter de comprendre plus profondément les chiffres et les faits de
l’entreprise. Le présent article décrit la conception, l’architecture et quelques fonctionnalités d’un outil d’aide à
la décision pour la gestion de la relation client sur un site de e-commerce.
Mots clés
E-CRM , Data warehouse, Data Mining, modèle multidimensionnel, OLAP.
1. Introduction
De nombreuses entreprises ont bâti en partie leurs
succès grâce à une politique de constante
innovation technologique et ont su utiliser les
nouvelles technologies, depuis longtemps, pour
acquérir de nouveaux marchés et viser de nouveaux
clients. De plus en plus sensibilisés au web, ils
veulent accéder directement de façon personnalisée
et sécurisée, au service de l’entreprise et de ses
partenaires.
Partant de ce fait, les entreprises ont senti le besoin
et la nécessité de prendre certaines décisions pour
répondre aux attentes de ce nouveau type de clients
qui se manifeste via ce nouveau canal
d’interactions. La connaissance de l’environnement
décisionnel est un élément vital dans la prise de
décision. Par exemple la connaissance de clients et
de leur comportement d’achat constitue un élément
décisionnel pour le lancement d’un produit.
L’anayse du marché pour une entreprise donnée
aura comme référence les données qui découlent de
son site web marchand.
Les entreprises possèdent donc, d’importants
volumes de données aux formats généralement
hétérogènes, ce qui nécessite l’utilisation d’un outil
permettant l’exploitation efficace et performante de
ces données pour aider l’entreprise à la prise de
décision, d’où la naissance des entrepôts de
données (ED) ou data warehouse (DW) (Inmon,
1996b), (Kimball & al, 2000). Cette approche vise à
extraire des données de bases de production, à les
assembler, par sujet, à les organiser, à les
transformer et à les résumer pour l’aide à la
décision. L’entrepôt doit pouvoir mémoriser
l’histoire de l’entreprise.
Pour mieux connaître sa clientèle, une entreprise
peut décider d’effectuer une classification basée sur
le comportement des clients. Ceci implique la
nécessité de mettre en place des outils de data
mining ou fouille de données . Ces outils reposent
en général sur des techniques basées sur les
2
SETIT2005
statistiques, la classification ou l’extraction de
règles associatives (Gardarin, 2000).
Le travail présenté dans cet article consiste en la
conception et la mise en œuvre d’un outil d’aide à
la décision basé sur les techniques de DW et de data
mining, susceptible d’assister les entreprises de
ventes sur internet , dans la prise de leurs décisions.
La suite du document est organisée comme suit :
La section 2 présente les concepts de base du
décisionnel, à savoir les entrepôts de données (ED)
et le data mining.
La section 3 présente le concept d’aide à la décision
dans la gestion de la relation client.
La section 4 décrit la conception de l’outil réalisé
pour l’aide à la décision. En effet, elle présente les
vues statique et dynamique du système en utilisant
quelques diagrammes d’UML, le modèle
multidimensionnel selon deux axes ventes et
visites. Une description d’un algorithme de
groupage est aussi donnée dans cette section. Enfin,
quelques figures montrant les principales
fonctionnalités de l’outil sont données dans la
section 5.
2. Concepts de base des systèmes d’aide
à la décision :
Nous présentons dans ce qui suit quelques concepts
de base, concernant les systèmes d’aide à la
décision et notamment, les entrepôts de données :
2.1 Entrepôt de données (data warehouwse) :
Un entrepôt de données (ED) ou data warehouse
(DW) se définit selon W. INMON comme étant un
ensemble de données intégrées, orientées sujet, non
volatiles, gérées dans un environnement de
stockage
particulier,
historisées,
résumées,
disponibles pour l’interrogation et l’analyse et
organisées pour le support d’un processus d’aide à
la décision (Bret & al, 2001) .
Les données d’un ED possèdent les caractéristiques
suivantes (Teste, 2000) , (Raval & al, 2001) :
Chaque décideur d’une entreprise doit disposer
d’une vue sur les informations qui lui sont
pertinentes, et qui peuvent influer dans ses
décisions pour une meilleure exploitation de
ces données.
Non volatiles
Tout se conserve, rien ne se perd : cette
caractéristique est primordiale dans les ED. En
effet, et contrairement aux bases de données
classiques, un ED est accessible en ajout ou en
consultation uniquement. Les modifications ne
sont autorisées que pour des cas particuliers
(correction d’erreurs…etc.).
Historisées
La conservation de l’évolution des données
dans le temps, constitue une caractéristique
majeure des ED. Elle consiste à s’appuyer sur
les résultats passés pour la prise de décision et
faire des prédictions ; autrement dit, la
conservation des données afin de mieux
appréhender le présent et d’anticiper le futur.
Résumées
Les informations issues des sources de données
doivent être agrégées et réorganisées afin de
faciliter le processus de prise de décision.
Disponibles
l’analyse
pour
l’interrogation
et
Les utilisateurs doivent pouvoir consulter les
données en fonction de leurs droits d’accès.
L’ED doit comporter un module de traitement
des requêtes, exprimées dans un langage, doté
d’opérateurs puissants, pour l’exploitation de la
richesse du modèle.
2.2 Architecture d’un entrepôt de données :
L’architecture d’un ED, représentée dans la
figure 1, s’articule autour de trois phases :
l’intégration, la restructuration, et l’exploitation
(Inmon, 1996b).
Intégrées
Les données de l’entrepôt proviennent de
différentes
sources
éventuellement
hétérogènes. L’intégration consiste à résoudre
les problèmes d’hétérogénéité des systèmes de
stockage, des modèles de données, de
sémantique de données.
Orientées sujet
Après leur intégration dans une sorte de source
globale, les données sont réorganisées autour
de thèmes tels que : client, vendeur,
produit…etc.
Figure 1.1 : Architecture d’un entrepôt de données
3
SETIT2005
Intégration :
Cette première étape, est assez délicate, car elle
consiste à extraire et regrouper les données,
provenant de sources multiples, et hétérogènes.
Un certain nombre de problèmes est à résoudre
à ce niveau : les données doivent être filtrées,
triées, homogénéisées et nettoyées.
Structuration :
Cette étape consiste à réorganiser les données,
dans des magasins afin de supporter
efficacement les processus d’analyse et
d’interrogation, et d’offrir aux différents
utilisateurs, des vues appropriées à leurs
besoins.
Interrogation et Analyse :
L’exploitation de l’entrepôt, pour l’aide à la
décision peut se faire de différentes façons, dont :
l’interrogation à travers un langage de
requêtes,
La connexion à des composants de
report, pour des représentations
graphiques et tabulaires,
L’utilisation des techniques OLAP
(OnLine Analytical Process ),
L’utilisation des techniques de fouille
de données (Data Mining).
2.3 Modèle Multidimensionnel (Bret & al, 2001):
Les
modèles
basés
sur
le
concept
multidimensionnel, sont les plus appropriés, à
capturer les caractéristiques des DW. Ils permettent
en effet, de donner une vision simple, et facilement
interprétable par des non informaticiens, et de
visualiser les données selon différentes dimensions.
Le modèle multidimensionnel contient deux types
d’attributs : les dimensions et les mesures. Les
dimensions sont les valeurs numériques que l’on
compare, les dimensions sont les points de vue
depuis lesquels les mesures peuvent être observées.
La modélisation multidimensionnelle est illustrée
par des cubes de données ou des hypercubes.
mesure
Les données représentées sur l’hypercube peuvent
être sujettes à une analyse OLAP.
Le terme OLAP (OnLine Analytical Process)
désigne communément, un ensemble de
fonctionnalités qui servent à faciliter l’analyse
multidimensionnelle, opérations réalisables sur
l’hypercube, parmi lesquelles nous citons : la
rotation, la coupe, le pliage et le dépliage (Codd,
1993 ), (Chaudrui,1997).
2.4 La fouille de données (Data mining)
Le data mining fait référence à un ensemble de
techniques d’exploration et d’analyse, par des
moyens automatiques ou semi-automatiques, d’une
masse importante de données dans le but de
découvrir des tendances cachées ou des règles
significatives (non triviales, implicites et
potentiellement utiles) (Gardarin, 2000), (Inmon,
1996a). Les outils de data mining reposent en
général, sur des techniques basées sur les
statistiques, la classification ou l’extraction de
règles associatives.
Objectifs du data mining
Les objectifs du Data Mining peuvent être
regroupés dans trois axes importants :
1.
2.
3.
Prédiction (What-if) : consiste à prédire les
conséquences d’un événement (ou d’une
décision), se basant sur le passé.
Découverte de règles cachées : découvrir des
règles associatives, entre différents événements
(Exemple : corrélation entre les ventes de deux
produits).
Confirmation d’hypothèses : confirmer des
hypothèses proposées par les analystes et
décideurs, et les doter d’un degré de confiance.
3. Aide à la décision dans le CRM
CRM est un acronyme pour Customer Relationship
Management - GRC ou Gestion de la Relation
Client en français -.
3.1 Définition CRM :
C’est un terme de l’industrie des systèmes
d’information englobant des méthodologies, du
software et habituellement des capacités Internet
qui aident une entreprise à gérer les relations avec
ses clients d’une manière structurée.
3.2 E-CRM :
L'e-crm est un processus continu d'amélioration de
la relation client sur Internet. C’est un domaine en
pleine expansion au vu de l’impact d’Internet sur le
e-commerce. Voici quelques chiffres justifiant
l’intérêt porté à ce domaine (Source: META Group,
Business Week, Forrester Research, Jupiter
Communication):
Figure 2.1 : Exemple d’un cube de données
4
SETIT2005
4.2 Diagrammes de séquence:
66% des acheteurs potentiels abandonnent
le processus d'achat en cours
59% des internautes acheteurs se disent
insatisfaits du service client de leur site
d'achat
Moins de 5% des visiteurs uniques
deviennent clients
En 2004, chaque foyer recevra en
moyenne 9 e-mails par jour, 6 visant à
fidéliser et 3 à créer de nouveaux clients
L'utilisation d'outils de gestion de
campagnes d'e-mail permet de multiplier
par quatre le taux d'achat engendré
Les campagnes par e-mail coûtent 80%
moins cher que le publipostage direct
classique
Dans cette phase, et après identification des cas
d’utilisation, et des scénarios associés à chaque cas,
nous les représentons à l’aide des diagrammes de
séquence :
4. Conception de l’outil d’aide à la
décision OAD
Dans ce qui suit, nous présentons la conception de
notre outil d’aide à la décision, associé, à un site de
e-commerce. Deux volets constituent notre
solution, le premier est consacré à l’analyse
multidimensionnelle, et le second, à l’utilisation
d’une technique de fouille de données basée sur un
algorithme de groupage .
Nous utiliserons des diagrammes UML, pour
illustrer les aspects statiques, dynamiques et
fonctionnels de notre conception.
4.1 Diagrammes de cas d’utilisation :
Le commerçant, étant l’acteur principal. Les cas
d’utilisation de base qui vont être mis en évidence
pour l’assister dans la prise de décision seront :
Figure 4.2 : Diagramme de séquence « Visualiser
les cubes de données »
Accéder à l’OAD.
Visualiser les données en cube
(choisir un magasin de données).
Appliquer les opérations OLAP sur le
cube de données.
Appliquer les techniques du data
mining.
Figure 4.1 : Diagramme des use case de l’OAD
Figure
4.3 : Diagramme de séquence
« Appliquer les opérateurs OLAP »
5
SETIT2005
Figure
4.5 : Diagramme de séquence
« Appliquer algorithme de data
mining »
4.2 Diagrammes de classes participantes (DCP) :
La phase suivante, consiste à identifier l’ensemble
des diagramme de classes participantes :
Figure 4.7 : DCP du cas d'utilisation
« Appliquer opérateur OLAP »
Classe
d’interface
Classe de
contrôle
Figure 4.8 : DCP du cas d'utilisation « Appliquer un
algorithme de data mining»
Figure 4.6 : DCP du cas d'utilisation
« visualiser les données en cube »
6
SETIT2005
4.4 Modèle multidimensionnel :
Le premier module de l’OAD, est consacré à
l’analyse multidimensionnelle des données issues
d’un site de e-commerce.
Les magasins de données choisis, depuis lesquels
le décideur visualise les cubes de données sont les
magasins ventes et visites.
Les tables de faits et de dimensions des deux
magasins sont structurés selon les deux schémas en
étoile présentés ci-dessous :
Représentation des clients
Les clients sont représentés par des vecteurs de
ℜ n , où n et le nombre de variables (dimensions)
selon lesquelles on perçoit le client. On associe à
chaque client, un vecteur.
(
x j = x1j
. . . x nj
)
t
On considère que chaque individu est muni d’un
poids pi avec pi > 0 et ∑ pi = 1 .
i
Nuage d’individus
Dans l’espace des individus, l’ensemble N =
{ xi / xi ∈ ℜ , pi > 0 et ∑ pi = 1 } est appelé
n
i
nuage d’individus.
Centre de gravité
Le centre de gravité g d’un nuage N ou encore le
« Barycentre » des points Xi (ou Xi et le ième
individu du nuage N) affectés aux poids pi est
donné par la formule suivante :
n
g = ∑ pi * xi qui s’écrit :
i =1
⎛ xi1 ⎞ ⎛ x1 ⎞
⎜ ⎟ ⎜ ⎟
⎜ . ⎟ ⎜ . ⎟
n
⎜ ⎟
g = ∑ pi * ⎜ . ⎟ = ⎜ . ⎟
⎜ ⎟
i =1
⎜ . ⎟ ⎜ . ⎟
⎜ p ⎟ ⎜⎜ p ⎟⎟
⎝ xi ⎠ ⎝ x ⎠
Figure 4.10 : schéma en étoile du magasin de
données des ventes
Où x =
j
n
∑p
i =1
i
* xij est la moyenne de la jième
variable.
Inertie du nuage
L’inertie d’un nuage d’individus N par rapport à un
point (individu) X ∈ ℜ est la quantité notée par :
n
n
I x ( N ) = ∑ pi * d 2 ( xi , x) Où d 2 ( xi , x) est
i =1
Figure 4.11 : Schéma en étoile du magasin de
données des visites
4.5 Module de Data Mining
Le deuxième module de l’OAD, est basé sur un
algorithme de groupage (Gardarin, 2000),
permettant de construire des groupes de clients en
fonction de critères de similarité.
Avant de détailler le fonctionnement de
l’algorithme de groupage, il faut éclaircir certains
points et rappeler quelques définitions de base
utilisées dans les étapes de calcul des groupes
d’individus.
la distance entre Xi et X.
I x ( N ) mesure la dispersion du nuage autour de x.
Remarques
− Le poids pi dans notre cas est identique pour
tous les individus et est égal à
−
1
.
N
Pour l’algorithme de groupage nous avons
utilisé la distance euclidienne qui est donnée
par la formule suivante :
d ( x, y ) =
n
∑ (x
i =1
i
− y i ) Avec x et y deux
vecteurs de ℜ
n
7
SETIT2005
−
Si x = g centre de gravité du nuage N alors
I x (N ) = I g (N )
−
est appelée inertie du
nuage.
L’inertie est minimale au point g.
Algorithme de groupage
Début
Choisir le nombre k
de groupes
Choisir k individus comme centres
initiaux des k groupes
Pour chaque
individu faire
Principe général :
L’algorithme consiste à grouper les clients selon un
critère bien déterminé par exemple : par catégorie
d’achats (i.e le vecteur x représentant la quantité
achetée de chaque produit).
L’entrée de l’algorithme est le nombre k de groupes
(représentant les catégories de clients). Une fois le
nombre de groupes saisi, l’algorithme choisit
arbitrairement k clients comme centres « initiaux »
des k groupes.
L’étape suivante consiste à calculer la distance
entre chaque individu (client) et les k centres ; la
plus petite distance est retenue pour inclure cet
individu dans le groupe ayant le centre le plus
proche.
Une fois tous les individus groupés, on aura k
sous-nuages disjoints du nuage total. Pour chaque
groupe (sous-nuage), l’algorithme calcule le
nouveau centre de gravité.
L’algorithme s’arrête lorsque les groupes construits
deviennent stables.
5. Implémentation et mise en œuvre :
i := 2 ;
d := distance entre l’individu et le 1er centre
l’individu ∈ au 1er groupe ;
Non
i <= k
5.1 Architecture du système :
L’architecture montre l’ensemble des composants,
outils et matériels interconnectés permettant
d’obtenir une architecture simple et évolutive.
Comme illustré dans la figure 5.1, l’architecture est
composée de parties différentes.
i := i + 1 ;
tmp:= distance entre l’individu et le
kème centre ;
tmp < d
Non
Oui
L’individu ∈ au kème groupe ;
Non
Fin
Les groupes sont
stables
Non
Figure 5.1 : Architecture du système
Tous les individus
sont groupés
Nombre d’itération > 1
Non
Recalculer les centres des différents
groupes ;
Figure 4.12 : Organigramme de
l’algorithme de groupage
La première partie constitue l’interface du site web
marchand de l’entreprise. Les clients qui se
connectent au site et ayant déjà effectué une
identification pourraient effectuer différentes
actions durant leurs visites telles que le passage
d’une commande, la consultation et/ou la
modification de leurs paniers, etc. Ces actions vont
se traduire par une génération des données sous
format xml. Le commerçant, au niveau de son
entreprise se connecte au site pour télécharger ces
fichiers xml qui seront récupérés par l’outil d’aide
à la décision (livré au commerçant lors de
génération de son site), pour être enfin stockés
8
SETIT2005
dans l’entrepôt de données après conversion au
format relationnel.
Figure 5.4 : Choix des dimensions
Figure 5.2 : Téléchargement des données XML
à partir du site marchand
5.2 Analyse multidimensionnelle :
L’analyse multidimensionnelle, consiste dans un
premier temps à choisir un magasin de données
parmi ceux proposés, ainsi que les dimensions et les
mesures à prendre en compte.
Figure 5.6 : Représentation multidimensionnelle
Figure 5.3: Choix du magasin de données
9
SETIT2005
Il est alors possible d’appliquer les différentes
opérations OLAP, telles que : pliage, dépliage,
rotation…etc.
Figure 5.9 : Rapport du résultat du groupage
Figure 5.7 : Application d’une opération OLAP
Conclusion
5.3 Module de data mining :
L'objet de cette analyse est de regrouper les
individus en fonction de leurs actions et de
renseignements propres aux personnes. L'intérêt est
de former des groupes de personnes ayant des
comportements similaires. Dans un premier temps,
à des fins d'analyse (qui sont mes visiteurs ? quelles
sont les pages les plus visités ? les produits les plus
visités ?) et dans un second temps à des fins
d'anticipation (proposer le produit le plus adapté à
un individu).
Le travail présenté dans cet article consiste en la
conception et la réalisation d’un outil d’aide à la
décision dans la gestion de la relation client sur
internet. L’intérêt principal d’un tel outil est d’offrir
aux décideurs une meilleure vision de leurs clients
leur permettant ainsi, une meilleure gestion de leurs
entreprises. Comme perspective à ce travail, nous
proposons un enrichissement du module data
mining
en intégrant d’autres techniques de
classification telles que les réseaux de neurones.
Remerciements : nous tenons à remercier Mrs
K. ALLOUN & O. CHOUIB pour leur contribution
dans la réalisation de l’outil.
Références
(Bret & al, 2001) : Groupe EVOLUTION. F. Bret. T.
Cruanees. I. Guessarian. E. Metais. M-C. Rousset. S.
Schwer. O. Teste. G. Zurfluh, Ingénerie des systèmes
d’information , édition HERMES, 2001
(Chaudrui,1997) : S. Chaudhuri , Data Warehousing
and OLAP for Decision Support (Microsoft Research,
Redmont), SIGMOD AZ, USA, 1997.
(Codd, 1993) : E. F. Codd, Providing OLAP to useranalysts: an IT mandate, Technical Report, E. F. Codd
and associates, 1993.
Figure 5.8 : Application de la technique de
groupage
Le décideur va donc donner en entrée le nombre k
de groupes, pour valider ensuite son choix, le
résultat de cette opération est affiché sous forme de
rapports imprimables à la demande du décideur.
(Gardarin, 2000) : Georges Gardarin, Internet,Intranet
et bases de données, Edition DUNOD, 2000.
(Inmon,1996a) : W. H. Inmon, The Data Warehouse
and Data Mining , communication of the ACM, , Vol. 39,
N° 11, Novembre 1996
(Inmon,1996b) :W. Inmon. Building the Data
Warehouse. QED Technical Publishing Group,
Wellesley, Massachusetts, U.S.A., 1996
SETIT2005
(Jarke & al,2000) : Matthias Jarke, Thomas List, Jörg
Köller, The Challenge of Process Data Warehousing,
26th International Conference on Very Large Databases,
Caire, Egypt, 2000
(Kimball & al, 2000) : R. Kimball, L. Reeves, M. Ross,
W. Thornthwaite, Concevoir et déployer un data
warehouse, Editions Eyrolles, 2000
(Ravat & al, 2001) : Frank Ravat, Olivier Teste, Gilles
Zurfluh : Modélisation et extraction de données pour un
entrepôt objet , Université Paul Sabatier (Toulouse III),
IRIT (Institut de Recherche en informatique de
Toulouse), équipe SIG, Toulouse, France 2001
(Teste, 2000) : Olivier Teste, Modélisation et
Manipulation d’Entrepôts de Données Complexes et
Historisés, Thèse de Doctorat de l’université Paul
Sabatier, Décembre 2000.
10