Règle d`association généralisée
Transcription
Règle d`association généralisée
Extraction des bases génériques des règles généralisées Slim Bouker, Ghada Gasmi, Sadok Ben Yahia et Yahya Slimani Département des sciences de l’Informatique Faculté des Sciences de Tunis Campus Universitaire, 1060 Tunis, Tunisie. {slimkrm, ghada_gasmi}@yahoo.fr, {sadok.benyahia, yahya.slimani}@fst.rnu.tn Atelier F. D. C. EGC 2007 Namur 1 Plan Introduction Notions de base État de l’art Contribution - Calcul du support d’un littéralset - GenBGR Résultats Expérimentaux Conclusion et perspectives Atelier F. D. C. EGC 2007 Namur 2 Introduction(1/2) Extraction des règles d’association (Agrawal et al 1993). • Exemple : 70% des clients qui achètent des chips et des boissons achètent aussi à 90% des pizzas. • Algorithmes : Apriori Close A-Close Titanic Charm Prince Etc. Atelier F. D. C. EGC 2007 Namur 3 Introduction(2/2) Limite : Les algorithmes traditionnels ne prennent pas en considération les items absents dans une transaction. • Exemple : 60% des clients qui n’achètent pas des chocolats n’achètent pas aussi à 80% des jouets. Besoin d’une approche permettant de générer les règles d’association généralisées Atelier F. D. C. EGC 2007 Namur 4 Notions de bases (1/2) Règle d’association généralisée Un littéralset est une conjonction d’items positifs et d’items négatifs (absents). Une règle d’association généralisée est une implication entre deux littéralsets. R : littéralset → littéralset. Exemple : A→C ID Items 1 2 3 4 5 A,C,D B,C,E B,C,E B,E A,B,C,E B→ED BC→ED CD→BE C A → B E D …. Atelier F. D. C. EGC 2007 Namur 5 Notions de bases (2/2) {CA} ID Items 1 2 3 4 5 A,C,D B,C,E B,C,E B,E A,B,C,E (BCEAD;2) {A} {BC} ,{CE} ,{CD} {A} (AC;2) (BEAD;3) (BCED;3) Contexte d’extraction k {B}, {E}, {D} {C} (C;4) (BED;4) Générateurs minimaux Les éléments les plus petits dans Itemset fermé fréquent (∅;5) une classe d’équivalence L’élément le plus large dans une classe d’équivalence Treillis d’Iceberg de Galois Atelier F. D. C. EGC 2007 Namur 6 État de l’art (1/4) Algorithmes permettant d’extraire les règles d’association généralisées : Algorithmes utilisant une Taxonomie. Algorithmes utilisant des mesures d’intérêt autres que minsup et minconf. Algorithme utilisant seulement minsup et minconf. Atelier F. D. C. EGC 2007 Namur 7 État de l’art (2/4) Algorithmes utilisant une Taxonomie (Savasere et al., 1998) & (Yuan et al., 2002) Principe : • Extraction de l’ensemble des règles d’association positives. • • Extraction des règles généralisées à partir de l’ensemble des règles positives. Génération des règles généralisées ayant dans la prémisse ou dans conclusion une négation d’une conjonction de littéraux positifs. Forme : littéralset positif → littéralset positif exemple : A B → C D Extraction avec perte d’information Atelier F. D. C. EGC 2007 Namur 8 État de l’art (3/4) Algorithmes utilisant des mesures d’intérêt autres que minsup et minconf. • Algorithme de Wu et al., 2004, utilise la mesure d’intérêt de Piatesky-Shapiro. Génération des règles généralisées ayant dans la prémisse ou dans la conclusion une négation d’une conjonction de littéraux positifs. Forme : littéralset positif → littéralset positif exemple : A B → C D • Algorithme de Antonie et Zaïane., 2004, utilise le coefficient de corrélation de Pearson. Génération des règles généralisées ayant dans la prémisse ou dans la conclusion une conjonction de littéraux négatifs. Forme : littéralset négatif → littéralset positif exemple: A B → C D Extraction avec perte d’information Atelier F. D. C. EGC 2007 Namur 9 État de l’art (4/4) Algorithmes utilisant seulement les mesures minsup et minconf. L’algorithme PNAR (Cornelis et al., 2006) Principe • Extraction des littéralsets fréquents X Y, X Y, X Y et X Y. • Génération des règles généralisées X → Y, X → Y, X → Y et X → Y. • Génération des règles généralisées ayant dans la prémisse ou dans conclusion une négation d’une conjonction de littéraux. Forme : littéralset positif → littéralset positif exemple : A B → C D Extraction avec perte d’information Atelier F. D. C. EGC 2007 Namur 10 Contributions (1/7) Motivations • Coût élevé du calcul du support d’un littéralset. • Extraction des règles d’association généralisées avec perte d’information. • Nombre important des règles d’association généralisées. Atelier F. D. C. EGC 2007 Namur 11 Contributions (2/7) Objectifs • Définir une nouvelle méthode de calcul des supports des littéralsets. • Extraire les règles d’association généralisées de la forme littéralset → littéralset • Sélection d’un sous-ensemble de règles non redondant appelé base générique, et ce sans perte d’information. Le couple (GB, RI) (Bastide et al., 2000). IGB (Gasmi et al., 2005) Atelier F. D. C. EGC 2007 Namur 12 Contributions (3/7) Problème : Comment calculer le support d’un littéralset ? • Proposition : (H.Toivonen 1996) Soit un littéralset L = P1 ,...Pi ,...,Pn ,N1 ,...,Nj ,...,Nm, tels que P1 ,...Pi ,...,Pn désignent les littéraux positifs et N1 ,...,Nj ,...,Nm les littéraux négatifs. supp(L) = ∑ S∈{1,...,m} |S| (-1) supp({P1 ,...Pi ,...,Pn } U {N j | j∈ S}) Exemple : supp(B A D) = supp(B) – supp(A B) – supp(B D) + supp(A B D) = 3 Le support d’un littéralset s’écrit en fonction des supports des littéralsets positifs. Atelier F. D. C. EGC 2007 Namur 13 Contributions (4/7) Brute Force IE & Combined IE (Calders & Goethals, 2005) utilisent la méthode de Toivonen. Inconvénient de la méthode de Toivonen : Le support d’un littéralset candidat fréquent peut dépendre des supports des littéralsets infréquents. Exemple : pour minsup=2, le support du littéralset fréquent B A D dépend respectivement des supports des littéralsets infréquents supp(A B) = 1, supp(B D) = 0 et supp(A B D) = 0. Atelier F. D. C. EGC 2007 Namur 14 Contributions (5/7) Faster IE : Nouvelle méthode de calcul de support • Proposition : Soit un littéralset L = P ,...P ,...,Pn ,N ,...,N ,...,Nm , tels que P ,...P ,...,Pn 1 i 1 j 1 i désignent les littéraux positifs et N ,...,N ,...,N les littéraux négatifs. m 1 j supp(L) = + (-1)m supp(P1 ,...Pi ,...,Pn ,N1 ,...N j ,...Nm ) ∑ S∈{1,...,m} |S'| (-1) supp({P1 ,...Pi ,...,Pn } U {N j | j∈ S}) |S’| = |S| si m (le nombre de littéraux négatifs) est pair. |S’| = |S| si m est impair. Atelier F. D. C. EGC 2007 Namur 15 Contributions (6/7) Nouvelle méthode de calcul de support Exemple : supp(B A D) = -supp(B) + supp(B A) + supp(B D) + supp (A B D) Avantage : Le support du littéralset candidat B A D s’écrit en fonction des supports des littéralsets fréquents supp(B) = 4, supp (B A) = 3 et supp(B D) = 4. Un seul accès au contexte d’extraction pour calculer le support de A B D Atelier F. D. C. EGC 2007 Namur 16 Contributions (7/7) Extraction des bases génériques des règles d’association généralisées Algorithme GenBGR (Generic Basis of Generalised Association Rules) (Adaptation de l’algorithme Prince (Hamrouni et al., 2005)). Atelier F. D. C. EGC 2007 Namur 17 GenBGR (1/5) • Principe : Déterminer l’ensemble des générateur minimaux (en utilisant Faster IE). Ordonner partiellement les générateurs minimaux fréquents sous forme d’un treillis. Extraire les bases génériques des règles d’association généralisées. Atelier F. D. C. EGC 2007 Namur 18 GenBGR (2/5) Extraction des générateurs minimaux Exemple : minsup = 2 ID Items 1-GMFs Support 2-GMFs Support 1 2 3 4 5 A,C,D B,C,E B,C,E B,E A,B,C,E A 2 BC 3 B 4 CE 3 C 4 CA 2 E 4 CD 3 A 3 D 4 Atelier F. D. C. EGC 2007 Namur 19 GenBGR (3/5) Ordonner partiellement les générateurs minimaux fréquents sous forme d’un treillis. supp(Ø)> supp(B) = supp(BUØ) (CA,2) supp(B) = supp(E) = supp(BE) supp(B) = supp (D) = supp(BD) (A,2) (BC,3),(CE,3),(CD ,3) (A,3) supp(B) = supp(C) ≠ supp(BC) (C,4) (B,4),(E,4),(D,4) (Ø,5) Treillis des générateurs minimaux généralisés Atelier F. D. C. EGC 2007 Namur 20 GenBGR (4/5) Extraire les bases génériques des règles d’association généralisées Calcul des fermetures (B C E A D,2) (CA,2) (A C,2) (B E A D,3) (A,2) (BC,3),(CE,3),(CD ,3) (A,3) (C,4) (B E D,4) (C,4) (B,4),(E,4),(D,4) (Ø,5) (Ø,5) Treillis d’Iceberg Atelier F. D. C. EGC 2007 Namur 21 GenBGR (5/5) Extraire les bases génériques des règles d’association généralisées Règles Support Confiance Règles Support Confiance B ED 4 1 Ø BED 4 0,8 E BD 4 1 Ø C 4 0,8 D BE 4 1 B CED 3 0,75 BC ED 3 1 B EAD 3 0,75 CE BD 3 1 C BED 3 0,75 CD BE 3 1 E BC 3 0,75 BED 2 1 E BAD 2 0,75 A A C 2 1 D BCE 2 0,75 CA BED 2 1 D BEA 2 0,75 GB RI Atelier F. D. C. EGC 2007 Namur 22 Résultats expérimentaux (1/3) • Tests réalisés sur les jeux de données suivants : Base Type # de transactions # d’items Taille moyenne Des transactions Contexte 1 dense 50 45 40 Contexte 2 dense 100 85 50 Contexte 3 épars 30 30 5 Contexte 4 épars 50 45 3 Atelier F. D. C. EGC 2007 Namur 23 Résultats expérimentaux (2/3) Base minsup #de GenMins Combined IE en (ms) Brute Force IE en (ms) Faster IE en (ms) Contexte 1 4% 3% 2% 1% 980 4885 27739 150803 16 453 1015 4422 78 828 2844 18875 0 15 203 1610 Contexte 2 50% 40% 30% 20% 4171 29836 327572 7347213 - 2406 19500 207625 - 31 328 5656 448937 Contexte 3 70% 60% 50% 40% 994 6195 33179 224596 32 344 2453 71178 266 2766 25344 323078 0 46 312 4125 Contexte 4 90% 85% 80% 75% 4231 53323 228026 1811263 - 3828 99281 675297 - 31 781 5938 66000 Faster IE vs Combined IE & Brute Force IE Atelier F. D. C. EGC 2007 Namur 24 Résultats expérimentaux (3/3) minsup #de règles génériques exactes Temps d’exécution en (s) Contexte 2 (dense) 70% 60% 50% 40% 30% 20% 135 689 3889 28613 321339 7230235 0 0 1 2 45 3780 Contexte 4 (épars) 95% 90% 85% 80% 75% 70% Base 37 2234 38271 181649 1554135 7100454 0 0 4 24 222 3862 GenBGR Atelier F. D. C. EGC 2007 Namur 25 Conclusion et perspective • Faster IE : Une nouvelle méthode permettant de calculer le support d’un littéralset. • GenBGR : Extraction des bases génériques des règles d’association généralisées. • Utiliser une nouvelle métrique permettant de réduire d’avantage le nombre de règles généralisées. Atelier F. D. C. EGC 2007 Namur 26 Merci Pour Votre Attention Atelier F. D. C. EGC 2007 Namur 27