Web Data Mining - Maria Malek

Transcription

Web Data Mining
Wrapper Induction
Maria Malek
Options GL, ISICO & IdSI
EISTI
Web Data Mining – p. 1/2
Fouille des Données de la Toile ?!!
Découverte de la connaissance à
partir des hyperliens.
Web Structure Mining
Web Content Mining
Analyse des contenus des pages
web :
Classer et/ou segmenter les pages selon le thème
Chercher des descriptions de produits, etc.
Web Content Mining
Analyse des contenus des pages
web :
Classer et/ou segmenter les pages selon le thème
Chercher des descriptions de produits, etc.
Web Usage Mining
Analyse les traces de navigations des
internautes (logs)
Algorithmes d’analyse et de traitement de séquences
Besoin d’une phase de pré-traitement
Extraction des données structurées
Deux problèmes :
Deux problèmes :
1. Extraction de l’information à partir du texte (langage
naturel)
Deux problèmes :
naturel)
2. Extraction des données structurées en enregistrements
Deux problèmes :
naturel)
Techniques utilisées : "Wrapper"?
Deux problèmes :
naturel)
Pourquoi ?
Deux problèmes :
naturel)
Pourquoi ?
1. Extraction des champs voulus,
Deux problèmes :
naturel)
Pourquoi ?
1. Extraction des champs voulus,
2. Intégration de plusieurs ressources : Services,
meta-recherche, comparaisons etc.
Extraction des données structurées - "Wrapp
Trois approches :
Trois approches :
Programmeur écrit le programme
en utilisant des patrons déjà spécifiés et leurs
interfaces.
Approche manuelle, 1990
Trois approches :
interfaces.
”Wrapper induction”, 1995-1996 Une approche
d’apprentissage supervisé semi automatique, extraire
des règles à partir d’une collection de pages
étiquetées manuellement
Trois approches :
interfaces.
”Wrapper induction”, 1995-1996 Une approche
d’apprentissage supervisé semi automatique, extraire
des règles à partir d’une collection de pages
étiquetées manuellement
Extraction automatique, 1998-. Approche non
supervisée,Trouver automatiquement les patrons à
extraire des données,
DEUX Types de pages
Les pages listes
DEUX Types de pages
Les pages listes
Les pages détails
Modèle des données
Des relations imbriquées
Les types sont définis ainsi :
Un ensemble de types de base B = {B1 , B2 , ..., Bk },
dom(Bi )est l’ensemble de constante
Si T1 , T2 , ..., Tn sont des types de base ou des types
ensembles alors [T1 , T2 , ..., Tn ] est un type tuple avec
dom([T1 , T2 , ..., Tn ]) = {[v1 , v2 , ..., vn ], vi ∈ dom(Ti )}
Si T est un type tuple alors {T } est un type ensemble
Les types sont définis ainsi :
Un ensemble de types de base B = {B1 , B2 , ..., Bk },
dom(Bi )est l’ensemble de constante
Si T1 , T2 , ..., Tn sont des types de base ou des types
ensembles alors [T1 , T2 , ..., Tn ] est un type tuple avec
dom([T1 , T2 , ..., Tn ]) = {[v1 , v2 , ..., vn ], vi ∈ dom(Ti )}
Si T est un type tuple alors {T } est un type ensemble
Exemple : produit=[]
nom : string ;
image : image-file;
tailles :{[ taille : string; prix : string;]}
Modèle des données - instance
Une instance d’un type de base correspond à une feuille
dans l’arbre
dans l’arbre
Une instance tuple [v1 , v2 , ..., vn ] est un nœud ayant n fils
qui correspondent à v1 ,v2 ,...,vn
dans l’arbre
Une instance ensemble {e1 , e2 , ..., en } est un nœud ayant
n fils qui correspondent à e1 ,e2 ,...,en
dans l’arbre
Étiqueter récursivement un arbre de types :
dans l’arbre
1. Si un nœud ensemble est étiqueté ϕ alors les fils
seront étiquetés ϕ · 0
dans l’arbre
1. Si un nœud ensemble est étiqueté ϕ alors les fils
seront étiquetés ϕ · 0
2. Si un nœud tuple est étiqueté ϕ alors les fils seront
étiquetés ϕ · 1,ϕ · 2,..,ϕ · n
Coder les instances en HTML
Pour une feuille étiquetée par ϕ, une instance c est
codée par
enc(ϕ · c) = OP EN − T AGS c CLOSE − T AGS
codée par
Pour un nœud tuple étiqueté ϕ enc(ϕ : [v1 , v2 , ..., vn ]) =
OPEN-TAGS1 enc(v1 ) .... enc(ve ) CLOSE-TAGS1
OPEN-TAGS2 enc(ve+1 ) .... enc(vg ) CLOSE-TAGS2
OPEN-TAGSh enc(vk+1 ) .... enc(vn ) CLOSE-TAGSh
codée par
Pour un nœud tuple étiqueté ϕ enc(ϕ : [v1 , v2 , ..., vn ]) =
OPEN-TAGS1 enc(v1 ) .... enc(ve ) CLOSE-TAGS1
OPEN-TAGS2 enc(ve+1 ) .... enc(vg ) CLOSE-TAGS2
OPEN-TAGSh enc(vk+1 ) .... enc(vn ) CLOSE-TAGSh
Pour un nœud ensemble étiqueté ϕ
enc(ϕ : {e1 , e2 , ..., en }) =
OP EN − T AGSenc(ej1 ), ...enc(ej1 )CLOSE − T AGS
Exemple en HTML
Restaurant Name : Good Noodles
205 Willow, Glen, Phone 1-773-366-1987
25 Oak, Forest, Phone (800) 234-7903
324 Halsted St., Chicago, Phone 1-800-996-5023
700 Lake St., Oak Park, Phone : (708) 798-0008
Exemple en HTML - Codage
 Restaurant Name : Good Noodles 
<li> 205 Willow, Glen , Phone
1-773-366-1987 </li>
<li> 25 Oak, Forest, Phone (800)
234-7903</li>
<li> 324 Halsted St., Chicago, Phone
1-800-996-5023</li>
<li> 700 Lake St., Oak Park, Phone : (708)
798-0008 </li>
"Wrapper Induction"
Approche supervisée pour l’extraction de règles à partir
d’un ensemble d’exemples
"Wrapper Induction"
Marquer les items de données "manuellement"
"Wrapper Induction"
Marquer les items de données "manuellement"
Utilisation de la structure arborescente de description de
types (Tuple : Restaurant)
STRING : Name
Set : Addresses - Tuple : Address
String : Steet
String : City
Integer : Area-code
String : Phone-No.
Extraction des règles
Utilisation de l’arbre pour naviguer dans la page et
extraire les éléments recherchés
Chaque élément recherché est extrait par deux règles
une règle de début et une règle de fin
Une règle est fondée sur l’idée de marqueurs. Un
marqueur est un ensemble de tokens qui détermine le
début et la fin de l’élément
Exemple : extraction du nom du restaurant (règles
forward & backword) :
R1
SkipTo()
SkipTo()
R2 SkipTo()
R1
Extraction des règles - marqueurs et Jokers
Règles de début, alternatives ?
R3 SkipTo(<Name_Punctuation__HtmlTag_>)
R4 SkipTo(Name)SkipTo()
On appelle _Punctuation & _HtmlTag : wildcards (jokers)
Exemple : Extraction du la donnée : Area-code :
R5 SkipTo(()or SkipTo(-)
R5 SkipTo(()or SkipTo(-)
R6 SkipTo())or SkipTo()
Les Jokers
Les jokers
_Numeric_
_AlphaNum_
_Alphabetic_
_Capitalized_
_AllCaps_
_HtmlTag_
_Punctuation_
Exemple en HTML - Codage - Area-code
 Restaurant Name : Good Noodles 
<li> 205 Willow, Glen , Phone
1-773-366-1987 </li>
<li> 25 Oak, Forest, Phone (800)
234-7903</li>
<li> 324 Halsted St., Chicago, Phone
1-800-996-5023</li>
<li> 700 Lake St., Oak Park, Phone : (708)
798-0008 </li>
Génération de règles - 1
Algorithm
LearnRule (Examples)
Rule ← φ
While Example <> φ do
Disjunct ← LearnDisjunt(Examples)
Supprimer de Examples les exemples couverts par
Disjunct
Ajouter Disjunct à Rule
Retourner Rule
Algorithm
LearnDisjunct (Examples)
seed ∈ Examples l’exemple le moins long
Candidates ← getInitial(seed)
While Candidates <> φ do
D ← BestDisjunct(Candidates)
If
D est parfait Then Retourner D
Candidates ← Candidates ∪ Refine(D, seed)
Retourner D
BestDisjunct :
qui correspond le plus correctement,le moindre
d’exemples négatifs
le moindre de Jokers, les marqueurs les plus longs
seed est l’exemple 2
Les règles candidates suivantes sont générées
D1
SkipTo(()
SkipTo(()
D2 SkipTo(_Punctuation_)
D1
SkipTo(()
D1
choix de D1
SkipTo(()
D1
choix de D1
Cela couvre 2 et 4
SkipTo(()
D1
choix de D1
Cela couvre 2 et 4
SkipTo(()
D1
choix de D1
Cela couvre 2 et 4
D3
SkipTo()
SkipTo(()
D1
choix de D1
Cela couvre 2 et 4
SkipTo()
D4 SkipTo(_HTMLTag_)
D3
SkipTo(()
D1
choix de D1
Cela couvre 2 et 4
SkipTo()
D4 SkipTo(_HTMLTag_)
Besoin de la phase de raffinement
D3
La phase de raffinement
Raffinement de marqueurs
augmente la taille du marqueur
Raffinements typologiques augmente le nombre de
marqueur
marqueur
A partir de D3 on obtient comme raffinements de
marqueurs :
marqueur
marqueurs :
D5 SkipTo(-)
marqueur
marqueurs :
D5 SkipTo(-)
D6 SkipTo(_Punctuation_)
A partir de D3 on obtient comme raffinements
typologiques (jusqu’à D21):
D10 SkipTo()SkipTo()
D12 SkipTo(1)SkipTo()
D12 SkipTo(1)SkipTo()
On choisit finalement la règle début : SkipTo(()or
SkipTo(-)
Identification des exemples informatifs
Choisir au hasard un sous ensemble L de U
Marquer manuellement L, U=U-L
Trouver le Wrapper W à partir de L
Appliquer W sur U et trouver un nouveau sous ensemble
L
L
S’arrêter si L est vide
L
S’arrêter si L est vide
Pour trouver L appliquer la méthode co-testing des
règles forward et backward..

Web Data Mining - Maria Malek

Transcription

Documents pareils

Opinion Mining and Sentiment Analysis

Plaquette - Université Lyon 2

12.30 : A Fund Managers View : What Criteria must mining

Énoncé du travail personnel

Application for Lease Demande de location à bail

Quels sont les nouveaux termes du marketing digital

Demande de rétrocession des terrains miniers/droits miniersVeuillez

Architecture et Outils de Data Mining

Web Mining - HEIG-VD