L`algorithme Hilltop

Transcription

L`algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
L’algorithme Hilltop
Nabil Stendardo
16 novembre 2008
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Table des matières
Introduction
Explication de l’algorithme
Determination des experts (calcul hors ligne)
Traitement de la requête
Conclusion
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Notre article
I
Titre : Hilltop : A Search Engine based on Expert Documents.
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Notre article
I
Titre : Hilltop : A Search Engine based on Expert Documents.
I
Auteurs : Krishna Bharat, George A. Mihaila
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Notre article
I
Titre : Hilltop : A Search Engine based on Expert Documents.
I
Auteurs : Krishna Bharat, George A. Mihaila
I
2001, Université de Toronto, Canada
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Notre article
I
Titre : Hilltop : A Search Engine based on Expert Documents.
I
Auteurs : Krishna Bharat, George A. Mihaila
I
2001, Université de Toronto, Canada
I
ftp ://ftp.cs.toronto.edu/pub/reports/csri/405/hilltop.html
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Le web
I
Collection hétérogène de documents
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Le web
I
Collection hétérogène de documents
I
Qualité et ”autorité” des pages variable
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Le web
I
Collection hétérogène de documents
I
Qualité et ”autorité” des pages variable
I
Les techniques habituelles de recherche d’information
(vectorielle, booléenne, probabiliste, etc.) ne fonctionnent pas
pour des requêtes vagues.
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Determination d’un rang pour les pages (ranking)
I
Ranking basé sur une classification humaine
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Determination d’un rang pour les pages (ranking)
I
Ranking basé sur une classification humaine
I
Ranking basé sur les informations d’utilisation
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Determination d’un rang pour les pages (ranking)
I
Ranking basé sur une classification humaine
I
Ranking basé sur les informations d’utilisation
I
Ranking basé sur la connectivité
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Ranking basé sur une classification humaine
I
Exemples : Yahoo, Open Directory Project (dmoz.org)
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Ranking basé sur une classification humaine
I
Exemples : Yahoo, Open Directory Project (dmoz.org)
I
Le Web grandit plus rapidement que ce que les juges humains
ne peuvent classifier.
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Ranking basé sur une classification humaine
I
Exemples : Yahoo, Open Directory Project (dmoz.org)
I
Le Web grandit plus rapidement que ce que les juges humains
ne peuvent classifier.
I
Problème de subjectivité.
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Ranking basé sur les informations d’utilisation
I
Exemple : le moteur de recherche défunt DirectHit.
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Ranking basé sur les informations d’utilisation
I
Exemple : le moteur de recherche défunt DirectHit.
I
Mesure des internautes sortants sur chaque lien en fonction de
la requête.
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Ranking basé sur les informations d’utilisation
I
Exemple : le moteur de recherche défunt DirectHit.
I
Mesure des internautes sortants sur chaque lien en fonction de
la requête.
I
Pas assez de données sur la plupart des requêtes.
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Ranking basé sur les informations d’utilisation
I
Exemple : le moteur de recherche défunt DirectHit.
I
Mesure des internautes sortants sur chaque lien en fonction de
la requête.
I
Pas assez de données sur la plupart des requêtes.
I
Sensible au Spamming.
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Ranking basé sur la connectivité : Hypothèses
I
Des pages parlant d’un thème se connectent souvent à
d’autres pages qui parlent aussi de ce thème.
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Ranking basé sur la connectivité : Hypothèses
I
Des pages parlant d’un thème se connectent souvent à
d’autres pages qui parlent aussi de ce thème.
I
Des pages d’autorité pointent souvent sur d’autres pages
d’autorité (Assomption de PageRank).
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Ranking basé sur la connectivité : PageRank
I
Chaque page a un indice de façon indépendante de la requête.
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Ranking basé sur la connectivité : PageRank
I
Chaque page a un indice de façon indépendante de la requête.
I
Critique : Une page peut être une autorité sur un sujet et pas
sur un autre.
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Ranking basé sur la connectivité : Topic Distillation
I
Calcul d’un sous-graphe du web correspondant, puis execute
un algorithme basé sur la connectivité.
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Ranking basé sur la connectivité : Topic Distillation
I
Calcul d’un sous-graphe du web correspondant, puis execute
un algorithme basé sur la connectivité.
I
Nécessite un temps de calcul en-ligne non négligeable.
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Ranking basé sur la connectivité : Topic Distillation
I
Calcul d’un sous-graphe du web correspondant, puis execute
un algorithme basé sur la connectivité.
I
Nécessite un temps de calcul en-ligne non négligeable.
I
Ne fonctionne que pour des requêtes générales.
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Determination des experts (calcul hors ligne)
Traitement de la requête
Experts
I
Pages pointant sur plusieurs pages non-affiliées.
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Determination des experts (calcul hors ligne)
Traitement de la requête
Experts
I
Pages pointant sur plusieurs pages non-affiliées.
I
Aussi appelés Hubs dans d’autres terminologies.
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Determination des experts (calcul hors ligne)
Traitement de la requête
Experts
I
Pages pointant sur plusieurs pages non-affiliées.
I
Aussi appelés Hubs dans d’autres terminologies.
I
Il devrait être impossible (en théorie) de biaiser une page pour
qu’elle soit considérée experte sur un sujet alors qu’elle ne
l’est pas.
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Determination des experts (calcul hors ligne)
Traitement de la requête
Détermination de l’affiliation entre des hôtes
I
Si les 3 premiers octets de l’adresse IP sont identiques, alors
les hôtes font partie du même réseau, donc ils sont affiliés (ex.
1.2.3.1 et 1.2.3.80)
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Determination des experts (calcul hors ligne)
Traitement de la requête
Détermination de l’affiliation entre des hôtes
I
Si les 3 premiers octets de l’adresse IP sont identiques, alors
les hôtes font partie du même réseau, donc ils sont affiliés (ex.
1.2.3.1 et 1.2.3.80)
I
Le dernier Token non générique du nom de domaine est
identique, il est possible qu’ils fassent partie de la même
organisation, donc ils sont affiliés (ex. www.ibm.com et
ibm.co.mx)
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Determination des experts (calcul hors ligne)
Traitement de la requête
Détermination de l’affiliation entre des hôtes
I
Si les 3 premiers octets de l’adresse IP sont identiques, alors
les hôtes font partie du même réseau, donc ils sont affiliés (ex.
1.2.3.1 et 1.2.3.80)
I
Le dernier Token non générique du nom de domaine est
identique, il est possible qu’ils fassent partie de la même
organisation, donc ils sont affiliés (ex. www.ibm.com et
ibm.co.mx)
I
L’affiliation est transitive : si A est affilié à B et B est affilié à
C, alors A est considéré comme affilié à C.
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Determination des experts (calcul hors ligne)
Traitement de la requête
Détermination de l’affiliation entre des hôtes
I
Si les 3 premiers octets de l’adresse IP sont identiques, alors
les hôtes font partie du même réseau, donc ils sont affiliés (ex.
1.2.3.1 et 1.2.3.80)
I
Le dernier Token non générique du nom de domaine est
identique, il est possible qu’ils fassent partie de la même
organisation, donc ils sont affiliés (ex. www.ibm.com et
ibm.co.mx)
I
L’affiliation est transitive : si A est affilié à B et B est affilié à
C, alors A est considéré comme affilié à C.
I
Par le point précédent, l’affiliation est conservative (peut avoir
des faux positifs).
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Determination des experts (calcul hors ligne)
Traitement de la requête
Sélection et indexation des experts
I
Une expert est défini comme une page qui pointe sur k (p.ex.
5) autres pages distinctes et non-affiliées entre elles.
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Determination des experts (calcul hors ligne)
Traitement de la requête
Sélection et indexation des experts
I
Une expert est défini comme une page qui pointe sur k (p.ex.
5) autres pages distinctes et non-affiliées entre elles.
I
Les experts et les mots clés qui y sont contenus sont indexés
dans un fichier inversé.
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Determination des experts (calcul hors ligne)
Traitement de la requête
Le score expert
Étant donné une requête q, chaque expert possède un triplet
(S0 , S1 , S2 ) calculé ainsi :
Si =
X
L(p)F (p, q)
p∈K (k−i)
où k est la taille de la requête q, K(x) est l’ensemble des phrases
clés (Titre, en-tête ou lien) contenant exactement x éléments des
termes de la requête, L(x) est une pondération de la phrase clé x,
et F(p,q) est une mesure du nombre de termes de p couverts par
les termes de q.
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Determination des experts (calcul hors ligne)
Traitement de la requête
Le score expert
L’on calcule ensuite le score expert (Expert Score(E)) par la
formule suivante :
232 ∗ S0 + 216 ∗ S1 + S2
formule qui permet de garantir une certaine cohérence à partir du
sujet de la requête.
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Determination des experts (calcul hors ligne)
Traitement de la requête
Qualification des liens
I
Un titre (élément title) qualifie tous les liens.
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Determination des experts (calcul hors ligne)
Traitement de la requête
Qualification des liens
I
Un titre (élément title) qualifie tous les liens.
I
Une en-tête (éléments h1 à h6) qualifie tous les liens après
celui-ci jusqu’à une en-tête d’importance supérieure ou égale.
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Determination des experts (calcul hors ligne)
Traitement de la requête
Qualification des liens
I
Un titre (élément title) qualifie tous les liens.
I
Une en-tête (éléments h1 à h6) qualifie tous les liens après
celui-ci jusqu’à une en-tête d’importance supérieure ou égale.
I
Le texte d’un lien ne qualifie que celui-ci.
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Determination des experts (calcul hors ligne)
Traitement de la requête
Le score cible
On considère les top N (p.ex. 200) experts sur la requête.
Les cibles considérées doivent être pointés par au moins 2 experts
non affiliés avec elles, et non affiliés entre eux.
Soit : occ(w , T ) le nombre de phrases clés distinctes dans l’expert
E contenant le terme w et qualifiant (E,T), alors, Edge Score(E,T)
vaut.
I
0 si pour chaque terme w de de la requête, occ(w,T) = 0
I
sinon Expert Score(E ) ∗ Σw ∈q occ(w , T )
La pertinance de l’une de ces cibles est determinée par la somme
des scores des arêtes pointant vers cette requête.
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Determination des experts (calcul hors ligne)
Traitement de la requête
Résultats obtenus dans le rapport
I
Aussi bon que Google à l’époque (algorithme PageRank).
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Determination des experts (calcul hors ligne)
Traitement de la requête
Résultats obtenus dans le rapport
I
Aussi bon que Google à l’époque (algorithme PageRank).
I
Meilleur que DirectHit et AltaVista.
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Determination des experts (calcul hors ligne)
Traitement de la requête
Résultats obtenus dans le rapport
I
Aussi bon que Google à l’époque (algorithme PageRank).
I
Meilleur que DirectHit et AltaVista.
I
Pour des requêtes assez générales et pour trouver la page
principale d’une organisation.
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Determination des experts (calcul hors ligne)
Traitement de la requête
Hilltop Actuellement
I
Google possède un brevet sur cet algorithme.
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Determination des experts (calcul hors ligne)
Traitement de la requête
Hilltop Actuellement
I
Google possède un brevet sur cet algorithme.
I
Considéré une pièce maı̂tresse de Google.
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Determination des experts (calcul hors ligne)
Traitement de la requête
Hilltop Actuellement
I
Google possède un brevet sur cet algorithme.
I
Considéré une pièce maı̂tresse de Google.
I
Difficile, mais pas impossible, à biaiser (p.ex. Link Bombing)
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Conclusion
I
Manière objective de classer les sites par rapport à une
requête.
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Conclusion
I
Manière objective de classer les sites par rapport à une
requête.
I
Possibilité d’abus
Nabil Stendardo
L’algorithme Hilltop
Table des matières
Introduction
Explication de l’algorithme
Conclusion
Conclusion
I
Manière objective de classer les sites par rapport à une
requête.
I
Possibilité d’abus
I
Problème de la poule et de l’oeuf.
Nabil Stendardo
L’algorithme Hilltop

Documents pareils