Règle d`association généralisée

Transcription

Extraction des bases génériques des
règles généralisées
Slim Bouker, Ghada Gasmi, Sadok Ben Yahia et Yahya
Slimani
Département des sciences de l’Informatique
Faculté des Sciences de Tunis
Campus Universitaire, 1060 Tunis, Tunisie.
{slimkrm, ghada_gasmi}@yahoo.fr,
{sadok.benyahia, yahya.slimani}@fst.rnu.tn
Atelier F. D. C. EGC 2007 Namur
1
Plan
Introduction
Notions de base
État de l’art
Contribution
- Calcul du support d’un littéralset
- GenBGR
Résultats Expérimentaux
Conclusion et perspectives
2
Introduction(1/2)
Extraction des règles d’association (Agrawal et al 1993).
• Exemple : 70% des clients qui achètent des chips et des boissons achètent
aussi à 90% des pizzas.
• Algorithmes :
Apriori
Close
A-Close
Titanic
Charm
Prince
Etc.
3
Introduction(2/2)
Limite :
Les algorithmes traditionnels ne prennent pas en considération
les items absents dans une transaction.
• Exemple : 60% des clients qui n’achètent pas des chocolats
n’achètent pas aussi à 80% des jouets.
Besoin d’une approche permettant de générer
les règles d’association généralisées
4
Notions de bases (1/2)
Règle d’association généralisée
Un littéralset est une conjonction d’items positifs et d’items négatifs (absents).
Une règle d’association généralisée est une implication entre deux littéralsets.
R : littéralset → littéralset.
Exemple :
A→C
ID
Items
1
2
3
4
5
A,C,D
B,C,E
B,C,E
B,E
A,B,C,E
B→ED
BC→ED
CD→BE
C A → B E D ….
5
Notions de bases (2/2)
{CA}
ID
Items
1
2
3
4
5
A,C,D
B,C,E
B,C,E
B,E
A,B,C,E
(BCEAD;2)
{A}
{BC} ,{CE} ,{CD}
{A}
(AC;2)
(BEAD;3)
(BCED;3)
Contexte d’extraction k
{B}, {E}, {D}
{C}
(C;4)
(BED;4)
Générateurs minimaux
Les éléments les plus petits dans
Itemset fermé fréquent
(∅;5)
une classe d’équivalence
L’élément le plus large dans
une classe d’équivalence
Treillis d’Iceberg de Galois
6
État de l’art (1/4)
Algorithmes permettant d’extraire les règles d’association généralisées :
Algorithmes utilisant une Taxonomie.
Algorithmes utilisant des mesures d’intérêt autres que minsup et minconf.
Algorithme utilisant seulement minsup et minconf.
7
Algorithmes utilisant une Taxonomie
(Savasere et al., 1998) & (Yuan et al., 2002)

Principe :
•
Extraction de l’ensemble des règles d’association positives.
•
•
Extraction des règles généralisées à partir de l’ensemble des règles positives.
Génération des règles généralisées ayant dans la prémisse ou dans
conclusion une négation d’une conjonction de littéraux positifs.
Forme : littéralset positif → littéralset positif
exemple : A B → C D
Extraction avec perte d’information
8
Algorithmes utilisant des mesures d’intérêt
autres que minsup et minconf.
• Algorithme de Wu et al., 2004, utilise la mesure d’intérêt de Piatesky-Shapiro.
la conclusion une négation d’une conjonction de littéraux positifs.
• Algorithme de Antonie et Zaïane., 2004, utilise le coefficient de corrélation de
Pearson.
la conclusion une conjonction de littéraux négatifs.
Forme : littéralset négatif → littéralset positif
exemple: A B → C D
9
Algorithmes utilisant seulement les mesures
minsup et minconf.
L’algorithme PNAR (Cornelis et al., 2006)
Principe
• Extraction des littéralsets fréquents X Y, X Y, X Y et X Y.
• Génération des règles généralisées X → Y, X → Y, X → Y et X → Y.
• Génération des règles généralisées ayant dans la prémisse ou dans
conclusion une négation d’une conjonction de littéraux.
10
Contributions (1/7)
Motivations
•
Coût élevé du calcul du support d’un littéralset.
•
Extraction des règles d’association généralisées avec perte d’information.
•
Nombre important des règles d’association généralisées.
11
Contributions (2/7)
Objectifs
•
Définir une nouvelle méthode de calcul des supports des littéralsets.
•
Extraire les règles d’association généralisées de la forme littéralset → littéralset
•
Sélection d’un sous-ensemble de règles non redondant appelé base générique,
et ce sans perte d’information.
Le couple (GB, RI) (Bastide et al., 2000).
IGB (Gasmi et al., 2005)
12
Contributions (3/7)
Problème : Comment calculer le support d’un littéralset ?
• Proposition : (H.Toivonen 1996)
Soit un littéralset L = P1 ,...Pi ,...,Pn ,N1 ,...,Nj ,...,Nm, tels que P1 ,...Pi ,...,Pn
désignent les littéraux positifs et N1 ,...,Nj ,...,Nm les littéraux négatifs.
supp(L) =
∑
S∈{1,...,m}
|S|
(-1) supp({P1 ,...Pi ,...,Pn } U {N j | j∈ S})
Exemple : supp(B A D) = supp(B) – supp(A B) – supp(B D) + supp(A B D) = 3
Le support d’un littéralset s’écrit en fonction des
supports des littéralsets positifs.
13
Contributions (4/7)

Brute Force IE & Combined IE (Calders & Goethals, 2005)
utilisent la méthode de Toivonen.

Inconvénient de la méthode de Toivonen :
Le support d’un littéralset candidat fréquent peut dépendre
des supports des littéralsets infréquents.
Exemple : pour minsup=2, le support du littéralset fréquent B A D dépend
respectivement des supports des littéralsets infréquents supp(A B) = 1,
supp(B D) = 0 et supp(A B D) = 0.
14
Contributions (5/7)
Faster IE : Nouvelle méthode de calcul de support
•
Proposition :
Soit un littéralset L = P ,...P ,...,Pn ,N ,...,N ,...,Nm , tels que P ,...P ,...,Pn
1
i
1
j
1
i
désignent les littéraux positifs et N ,...,N ,...,N les littéraux négatifs.
m
1
j
supp(L) =
+
(-1)m supp(P1 ,...Pi ,...,Pn ,N1 ,...N j ,...Nm )
∑
S∈{1,...,m}
|S'|
(-1) supp({P1 ,...Pi ,...,Pn } U {N j | j∈ S})
|S’| = |S| si m (le nombre de littéraux négatifs) est pair.
|S’| = |S| si m est impair.
15
Contributions (6/7)
Nouvelle méthode de calcul de support
Exemple : supp(B A D) = -supp(B) + supp(B A) + supp(B D) + supp (A B D)
Avantage : Le support du littéralset candidat B A D s’écrit en fonction
des supports des littéralsets fréquents supp(B) = 4, supp (B A) = 3
et supp(B D) = 4.
Un seul accès au contexte d’extraction
pour calculer le support de A B D
16
Contributions (7/7)
Extraction des bases génériques des règles d’association
généralisées
Algorithme GenBGR (Generic Basis of Generalised Association Rules)
(Adaptation de l’algorithme Prince (Hamrouni et al., 2005)).
17
GenBGR (1/5)
• Principe :
Déterminer l’ensemble des générateur minimaux (en
utilisant Faster IE).
Ordonner partiellement les générateurs minimaux
fréquents sous forme d’un treillis.
Extraire les bases génériques des règles
d’association généralisées.
18
GenBGR (2/5)
Extraction des générateurs minimaux
Exemple : minsup = 2
ID
Items
1-GMFs
Support
2-GMFs
Support
1
2
3
4
5
A,C,D
B,C,E
B,C,E
B,E
A,B,C,E
A
2
BC
3
B
4
CE
3
C
4
CA
2
E
4
CD
3
A
3
D
4
19
GenBGR (3/5)
Ordonner partiellement les générateurs minimaux fréquents
sous forme d’un treillis.
supp(Ø)> supp(B) = supp(BUØ)
(CA,2)
supp(B) = supp(E) = supp(BE)
supp(B) = supp (D) = supp(BD)
(A,2)
(BC,3),(CE,3),(CD ,3)
(A,3)
supp(B) = supp(C) ≠ supp(BC)
(C,4)
(B,4),(E,4),(D,4)
(Ø,5)
Treillis des générateurs minimaux généralisés
20
GenBGR (4/5)
Extraire les bases génériques des règles d’association généralisées
Calcul des fermetures
(B C E A D,2)
(CA,2)
(A C,2)
(B E A D,3)
(A,2)
(BC,3),(CE,3),(CD ,3)
(A,3)
(C,4)
(B E D,4)
(C,4)
(B,4),(E,4),(D,4)
(Ø,5)
(Ø,5)
Treillis d’Iceberg
21
GenBGR (5/5)
Extraire les bases génériques des règles d’association généralisées
Règles
Support
Confiance
Règles
Support
Confiance
B
ED
4
1
Ø
BED
4
0,8
E
BD
4
1
Ø
C
4
0,8
D
BE
4
1
B
CED
3
0,75
BC
ED
3
1
B
EAD
3
0,75
CE
BD
3
1
C
BED
3
0,75
CD
BE
3
1
E
BC
3
0,75
BED
2
1
E
BAD
2
0,75
A
A
C
2
1
D
BCE
2
0,75
CA
BED
2
1
D
BEA
2
0,75
GB
RI
22
Résultats expérimentaux (1/3)
•
Tests réalisés sur les jeux de données suivants :
Base
Type
# de transactions
# d’items
Taille moyenne
Des transactions
Contexte 1
dense
50
45
40
Contexte 2
dense
100
85
50
Contexte 3
épars
30
30
5
Contexte 4
épars
50
45
3
23
Base
minsup
#de GenMins
Combined IE
en (ms)
Brute Force IE
en (ms)
Faster IE
en (ms)
Contexte 1
4%
3%
2%
1%
980
4885
27739
150803
16
453
1015
4422
78
828
2844
18875
0
15
203
1610
Contexte 2
50%
40%
30%
20%
4171
29836
327572
7347213
-
2406
19500
207625
-
31
328
5656
448937
Contexte 3
70%
60%
50%
40%
994
6195
33179
224596
32
344
2453
71178
266
2766
25344
323078
0
46
312
4125
Contexte 4
90%
85%
80%
75%
4231
53323
228026
1811263
-
3828
99281
675297
-
31
781
5938
66000
Faster IE vs Combined IE & Brute Force IE
24
minsup
#de règles génériques
exactes
Temps d’exécution
en (s)
Contexte 2
(dense)
70%
60%
50%
40%
30%
20%
135
689
3889
28613
321339
7230235
0
0
1
2
45
3780
Contexte 4
(épars)
95%
90%
85%
80%
75%
70%
Base
37
2234
38271
181649
1554135
7100454
0
0
4
24
222
3862
GenBGR
25
Conclusion et perspective
• Faster IE : Une nouvelle méthode permettant de calculer le support
d’un littéralset.
• GenBGR : Extraction des bases génériques des règles d’association généralisées.
• Utiliser une nouvelle métrique permettant de réduire d’avantage le nombre
de règles généralisées.
26
Merci Pour Votre Attention
27