Règle d`association généralisée

Transcription

Règle d`association généralisée
Extraction des bases génériques des
règles généralisées
Slim Bouker, Ghada Gasmi, Sadok Ben Yahia et Yahya
Slimani
Département des sciences de l’Informatique
Faculté des Sciences de Tunis
Campus Universitaire, 1060 Tunis, Tunisie.
{slimkrm, ghada_gasmi}@yahoo.fr,
{sadok.benyahia, yahya.slimani}@fst.rnu.tn
Atelier F. D. C. EGC 2007 Namur
1
Plan
Introduction
Notions de base
État de l’art
Contribution
- Calcul du support d’un littéralset
- GenBGR
Résultats Expérimentaux
Conclusion et perspectives
Atelier F. D. C. EGC 2007 Namur
2
Introduction(1/2)
ƒ Extraction des règles d’association (Agrawal et al 1993).
• Exemple : 70% des clients qui achètent des chips et des boissons achètent
aussi à 90% des pizzas.
• Algorithmes :
Apriori
Close
A-Close
Titanic
Charm
Prince
Etc.
Atelier F. D. C. EGC 2007 Namur
3
Introduction(2/2)
ƒ Limite :
Les algorithmes traditionnels ne prennent pas en considération
les items absents dans une transaction.
• Exemple : 60% des clients qui n’achètent pas des chocolats
n’achètent pas aussi à 80% des jouets.
Besoin d’une approche permettant de générer
les règles d’association généralisées
Atelier F. D. C. EGC 2007 Namur
4
Notions de bases (1/2)
Règle d’association généralisée
Un littéralset est une conjonction d’items positifs et d’items négatifs (absents).
Une règle d’association généralisée est une implication entre deux littéralsets.
R : littéralset → littéralset.
Exemple :
A→C
ID
Items
1
2
3
4
5
A,C,D
B,C,E
B,C,E
B,E
A,B,C,E
B→ED
BC→ED
CD→BE
C A → B E D ….
Atelier F. D. C. EGC 2007 Namur
5
Notions de bases (2/2)
{CA}
ID
Items
1
2
3
4
5
A,C,D
B,C,E
B,C,E
B,E
A,B,C,E
(BCEAD;2)
{A}
{BC} ,{CE} ,{CD}
{A}
(AC;2)
(BEAD;3)
(BCED;3)
Contexte d’extraction k
{B}, {E}, {D}
{C}
(C;4)
(BED;4)
Générateurs minimaux
Les éléments les plus petits dans
Itemset fermé fréquent
(∅;5)
une classe d’équivalence
L’élément le plus large dans
une classe d’équivalence
Treillis d’Iceberg de Galois
Atelier F. D. C. EGC 2007 Namur
6
État de l’art (1/4)
Algorithmes permettant d’extraire les règles d’association généralisées :
Algorithmes utilisant une Taxonomie.
Algorithmes utilisant des mesures d’intérêt autres que minsup et minconf.
Algorithme utilisant seulement minsup et minconf.
Atelier F. D. C. EGC 2007 Namur
7
État de l’art (2/4)
Algorithmes utilisant une Taxonomie
(Savasere et al., 1998) & (Yuan et al., 2002)
ƒ
Principe :
•
Extraction de l’ensemble des règles d’association positives.
•
•
Extraction des règles généralisées à partir de l’ensemble des règles positives.
Génération des règles généralisées ayant dans la prémisse ou dans
conclusion une négation d’une conjonction de littéraux positifs.
Forme : littéralset positif → littéralset positif
exemple : A B → C D
Extraction avec perte d’information
Atelier F. D. C. EGC 2007 Namur
8
État de l’art (3/4)
Algorithmes utilisant des mesures d’intérêt
autres que minsup et minconf.
• Algorithme de Wu et al., 2004, utilise la mesure d’intérêt de Piatesky-Shapiro.
Génération des règles généralisées ayant dans la prémisse ou dans
la conclusion une négation d’une conjonction de littéraux positifs.
Forme : littéralset positif → littéralset positif
exemple : A B → C D
• Algorithme de Antonie et Zaïane., 2004, utilise le coefficient de corrélation de
Pearson.
Génération des règles généralisées ayant dans la prémisse ou dans
la conclusion une conjonction de littéraux négatifs.
Forme : littéralset négatif → littéralset positif
exemple: A B → C D
Extraction avec perte d’information
Atelier F. D. C. EGC 2007 Namur
9
État de l’art (4/4)
Algorithmes utilisant seulement les mesures
minsup et minconf.
L’algorithme PNAR (Cornelis et al., 2006)
ƒ Principe
• Extraction des littéralsets fréquents X Y, X Y, X Y et X Y.
• Génération des règles généralisées X → Y, X → Y, X → Y et X → Y.
• Génération des règles généralisées ayant dans la prémisse ou dans
conclusion une négation d’une conjonction de littéraux.
Forme : littéralset positif → littéralset positif
exemple : A B → C D
Extraction avec perte d’information
Atelier F. D. C. EGC 2007 Namur
10
Contributions (1/7)
Motivations
•
Coût élevé du calcul du support d’un littéralset.
•
Extraction des règles d’association généralisées avec perte d’information.
•
Nombre important des règles d’association généralisées.
Atelier F. D. C. EGC 2007 Namur
11
Contributions (2/7)
Objectifs
•
Définir une nouvelle méthode de calcul des supports des littéralsets.
•
Extraire les règles d’association généralisées de la forme littéralset → littéralset
•
Sélection d’un sous-ensemble de règles non redondant appelé base générique,
et ce sans perte d’information.
Le couple (GB, RI) (Bastide et al., 2000).
IGB (Gasmi et al., 2005)
Atelier F. D. C. EGC 2007 Namur
12
Contributions (3/7)
Problème : Comment calculer le support d’un littéralset ?
• Proposition : (H.Toivonen 1996)
Soit un littéralset L = P1 ,...Pi ,...,Pn ,N1 ,...,Nj ,...,Nm, tels que P1 ,...Pi ,...,Pn
désignent les littéraux positifs et N1 ,...,Nj ,...,Nm les littéraux négatifs.
supp(L) =
∑
S∈{1,...,m}
|S|
(-1) supp({P1 ,...Pi ,...,Pn } U {N j | j∈ S})
Exemple : supp(B A D) = supp(B) – supp(A B) – supp(B D) + supp(A B D) = 3
Le support d’un littéralset s’écrit en fonction des
supports des littéralsets positifs.
Atelier F. D. C. EGC 2007 Namur
13
Contributions (4/7)
„
Brute Force IE & Combined IE (Calders & Goethals, 2005)
utilisent la méthode de Toivonen.
„
Inconvénient de la méthode de Toivonen :
Le support d’un littéralset candidat fréquent peut dépendre
des supports des littéralsets infréquents.
Exemple : pour minsup=2, le support du littéralset fréquent B A D dépend
respectivement des supports des littéralsets infréquents supp(A B) = 1,
supp(B D) = 0 et supp(A B D) = 0.
Atelier F. D. C. EGC 2007 Namur
14
Contributions (5/7)
Faster IE : Nouvelle méthode de calcul de support
•
Proposition :
Soit un littéralset L = P ,...P ,...,Pn ,N ,...,N ,...,Nm , tels que P ,...P ,...,Pn
1
i
1
j
1
i
désignent les littéraux positifs et N ,...,N ,...,N les littéraux négatifs.
m
1
j
supp(L) =
+
(-1)m supp(P1 ,...Pi ,...,Pn ,N1 ,...N j ,...Nm )
∑
S∈{1,...,m}
|S'|
(-1) supp({P1 ,...Pi ,...,Pn } U {N j | j∈ S})
|S’| = |S| si m (le nombre de littéraux négatifs) est pair.
|S’| = |S| si m est impair.
Atelier F. D. C. EGC 2007 Namur
15
Contributions (6/7)
Nouvelle méthode de calcul de support
Exemple : supp(B A D) = -supp(B) + supp(B A) + supp(B D) + supp (A B D)
Avantage : Le support du littéralset candidat B A D s’écrit en fonction
des supports des littéralsets fréquents supp(B) = 4, supp (B A) = 3
et supp(B D) = 4.
Un seul accès au contexte d’extraction
pour calculer le support de A B D
Atelier F. D. C. EGC 2007 Namur
16
Contributions (7/7)
Extraction des bases génériques des règles d’association
généralisées
Algorithme GenBGR (Generic Basis of Generalised Association Rules)
(Adaptation de l’algorithme Prince (Hamrouni et al., 2005)).
Atelier F. D. C. EGC 2007 Namur
17
GenBGR (1/5)
• Principe :
Déterminer l’ensemble des générateur minimaux (en
utilisant Faster IE).
Ordonner partiellement les générateurs minimaux
fréquents sous forme d’un treillis.
Extraire les bases génériques des règles
d’association généralisées.
Atelier F. D. C. EGC 2007 Namur
18
GenBGR (2/5)
Extraction des générateurs minimaux
Exemple : minsup = 2
ID
Items
1-GMFs
Support
2-GMFs
Support
1
2
3
4
5
A,C,D
B,C,E
B,C,E
B,E
A,B,C,E
A
2
BC
3
B
4
CE
3
C
4
CA
2
E
4
CD
3
A
3
D
4
Atelier F. D. C. EGC 2007 Namur
19
GenBGR (3/5)
Ordonner partiellement les générateurs minimaux fréquents
sous forme d’un treillis.
supp(Ø)> supp(B) = supp(BUØ)
(CA,2)
supp(B) = supp(E) = supp(BE)
supp(B) = supp (D) = supp(BD)
(A,2)
(BC,3),(CE,3),(CD ,3)
(A,3)
supp(B) = supp(C) ≠ supp(BC)
(C,4)
(B,4),(E,4),(D,4)
(Ø,5)
Treillis des générateurs minimaux généralisés
Atelier F. D. C. EGC 2007 Namur
20
GenBGR (4/5)
Extraire les bases génériques des règles d’association généralisées
Calcul des fermetures
(B C E A D,2)
(CA,2)
(A C,2)
(B E A D,3)
(A,2)
(BC,3),(CE,3),(CD ,3)
(A,3)
(C,4)
(B E D,4)
(C,4)
(B,4),(E,4),(D,4)
(Ø,5)
(Ø,5)
Treillis d’Iceberg
Atelier F. D. C. EGC 2007 Namur
21
GenBGR (5/5)
Extraire les bases génériques des règles d’association généralisées
Règles
Support
Confiance
Règles
Support
Confiance
B
ED
4
1
Ø
BED
4
0,8
E
BD
4
1
Ø
C
4
0,8
D
BE
4
1
B
CED
3
0,75
BC
ED
3
1
B
EAD
3
0,75
CE
BD
3
1
C
BED
3
0,75
CD
BE
3
1
E
BC
3
0,75
BED
2
1
E
BAD
2
0,75
A
A
C
2
1
D
BCE
2
0,75
CA
BED
2
1
D
BEA
2
0,75
GB
RI
Atelier F. D. C. EGC 2007 Namur
22
Résultats expérimentaux (1/3)
•
Tests réalisés sur les jeux de données suivants :
Base
Type
# de transactions
# d’items
Taille moyenne
Des transactions
Contexte 1
dense
50
45
40
Contexte 2
dense
100
85
50
Contexte 3
épars
30
30
5
Contexte 4
épars
50
45
3
Atelier F. D. C. EGC 2007 Namur
23
Résultats expérimentaux (2/3)
Base
minsup
#de GenMins
Combined IE
en (ms)
Brute Force IE
en (ms)
Faster IE
en (ms)
Contexte 1
4%
3%
2%
1%
980
4885
27739
150803
16
453
1015
4422
78
828
2844
18875
0
15
203
1610
Contexte 2
50%
40%
30%
20%
4171
29836
327572
7347213
-
2406
19500
207625
-
31
328
5656
448937
Contexte 3
70%
60%
50%
40%
994
6195
33179
224596
32
344
2453
71178
266
2766
25344
323078
0
46
312
4125
Contexte 4
90%
85%
80%
75%
4231
53323
228026
1811263
-
3828
99281
675297
-
31
781
5938
66000
Faster IE vs Combined IE & Brute Force IE
Atelier F. D. C. EGC 2007 Namur
24
Résultats expérimentaux (3/3)
minsup
#de règles génériques
exactes
Temps d’exécution
en (s)
Contexte 2
(dense)
70%
60%
50%
40%
30%
20%
135
689
3889
28613
321339
7230235
0
0
1
2
45
3780
Contexte 4
(épars)
95%
90%
85%
80%
75%
70%
Base
37
2234
38271
181649
1554135
7100454
0
0
4
24
222
3862
GenBGR
Atelier F. D. C. EGC 2007 Namur
25
Conclusion et perspective
• Faster IE : Une nouvelle méthode permettant de calculer le support
d’un littéralset.
• GenBGR : Extraction des bases génériques des règles d’association généralisées.
• Utiliser une nouvelle métrique permettant de réduire d’avantage le nombre
de règles généralisées.
Atelier F. D. C. EGC 2007 Namur
26
Merci Pour Votre Attention
Atelier F. D. C. EGC 2007 Namur
27

Documents pareils