L`algorithme Hilltop
Transcription
L`algorithme Hilltop
Table des matières Introduction Explication de l’algorithme Conclusion L’algorithme Hilltop Nabil Stendardo 16 novembre 2008 Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Table des matières Introduction Explication de l’algorithme Determination des experts (calcul hors ligne) Traitement de la requête Conclusion Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Notre article I Titre : Hilltop : A Search Engine based on Expert Documents. Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Notre article I Titre : Hilltop : A Search Engine based on Expert Documents. I Auteurs : Krishna Bharat, George A. Mihaila Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Notre article I Titre : Hilltop : A Search Engine based on Expert Documents. I Auteurs : Krishna Bharat, George A. Mihaila I 2001, Université de Toronto, Canada Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Notre article I Titre : Hilltop : A Search Engine based on Expert Documents. I Auteurs : Krishna Bharat, George A. Mihaila I 2001, Université de Toronto, Canada I ftp ://ftp.cs.toronto.edu/pub/reports/csri/405/hilltop.html Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Le web I Collection hétérogène de documents Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Le web I Collection hétérogène de documents I Qualité et ”autorité” des pages variable Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Le web I Collection hétérogène de documents I Qualité et ”autorité” des pages variable I Les techniques habituelles de recherche d’information (vectorielle, booléenne, probabiliste, etc.) ne fonctionnent pas pour des requêtes vagues. Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Determination d’un rang pour les pages (ranking) I Ranking basé sur une classification humaine Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Determination d’un rang pour les pages (ranking) I Ranking basé sur une classification humaine I Ranking basé sur les informations d’utilisation Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Determination d’un rang pour les pages (ranking) I Ranking basé sur une classification humaine I Ranking basé sur les informations d’utilisation I Ranking basé sur la connectivité Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Ranking basé sur une classification humaine I Exemples : Yahoo, Open Directory Project (dmoz.org) Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Ranking basé sur une classification humaine I Exemples : Yahoo, Open Directory Project (dmoz.org) I Le Web grandit plus rapidement que ce que les juges humains ne peuvent classifier. Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Ranking basé sur une classification humaine I Exemples : Yahoo, Open Directory Project (dmoz.org) I Le Web grandit plus rapidement que ce que les juges humains ne peuvent classifier. I Problème de subjectivité. Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Ranking basé sur les informations d’utilisation I Exemple : le moteur de recherche défunt DirectHit. Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Ranking basé sur les informations d’utilisation I Exemple : le moteur de recherche défunt DirectHit. I Mesure des internautes sortants sur chaque lien en fonction de la requête. Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Ranking basé sur les informations d’utilisation I Exemple : le moteur de recherche défunt DirectHit. I Mesure des internautes sortants sur chaque lien en fonction de la requête. I Pas assez de données sur la plupart des requêtes. Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Ranking basé sur les informations d’utilisation I Exemple : le moteur de recherche défunt DirectHit. I Mesure des internautes sortants sur chaque lien en fonction de la requête. I Pas assez de données sur la plupart des requêtes. I Sensible au Spamming. Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Ranking basé sur la connectivité : Hypothèses I Des pages parlant d’un thème se connectent souvent à d’autres pages qui parlent aussi de ce thème. Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Ranking basé sur la connectivité : Hypothèses I Des pages parlant d’un thème se connectent souvent à d’autres pages qui parlent aussi de ce thème. I Des pages d’autorité pointent souvent sur d’autres pages d’autorité (Assomption de PageRank). Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Ranking basé sur la connectivité : PageRank I Chaque page a un indice de façon indépendante de la requête. Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Ranking basé sur la connectivité : PageRank I Chaque page a un indice de façon indépendante de la requête. I Critique : Une page peut être une autorité sur un sujet et pas sur un autre. Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Ranking basé sur la connectivité : Topic Distillation I Calcul d’un sous-graphe du web correspondant, puis execute un algorithme basé sur la connectivité. Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Ranking basé sur la connectivité : Topic Distillation I Calcul d’un sous-graphe du web correspondant, puis execute un algorithme basé sur la connectivité. I Nécessite un temps de calcul en-ligne non négligeable. Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Ranking basé sur la connectivité : Topic Distillation I Calcul d’un sous-graphe du web correspondant, puis execute un algorithme basé sur la connectivité. I Nécessite un temps de calcul en-ligne non négligeable. I Ne fonctionne que pour des requêtes générales. Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Determination des experts (calcul hors ligne) Traitement de la requête Experts I Pages pointant sur plusieurs pages non-affiliées. Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Determination des experts (calcul hors ligne) Traitement de la requête Experts I Pages pointant sur plusieurs pages non-affiliées. I Aussi appelés Hubs dans d’autres terminologies. Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Determination des experts (calcul hors ligne) Traitement de la requête Experts I Pages pointant sur plusieurs pages non-affiliées. I Aussi appelés Hubs dans d’autres terminologies. I Il devrait être impossible (en théorie) de biaiser une page pour qu’elle soit considérée experte sur un sujet alors qu’elle ne l’est pas. Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Determination des experts (calcul hors ligne) Traitement de la requête Détermination de l’affiliation entre des hôtes I Si les 3 premiers octets de l’adresse IP sont identiques, alors les hôtes font partie du même réseau, donc ils sont affiliés (ex. 1.2.3.1 et 1.2.3.80) Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Determination des experts (calcul hors ligne) Traitement de la requête Détermination de l’affiliation entre des hôtes I Si les 3 premiers octets de l’adresse IP sont identiques, alors les hôtes font partie du même réseau, donc ils sont affiliés (ex. 1.2.3.1 et 1.2.3.80) I Le dernier Token non générique du nom de domaine est identique, il est possible qu’ils fassent partie de la même organisation, donc ils sont affiliés (ex. www.ibm.com et ibm.co.mx) Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Determination des experts (calcul hors ligne) Traitement de la requête Détermination de l’affiliation entre des hôtes I Si les 3 premiers octets de l’adresse IP sont identiques, alors les hôtes font partie du même réseau, donc ils sont affiliés (ex. 1.2.3.1 et 1.2.3.80) I Le dernier Token non générique du nom de domaine est identique, il est possible qu’ils fassent partie de la même organisation, donc ils sont affiliés (ex. www.ibm.com et ibm.co.mx) I L’affiliation est transitive : si A est affilié à B et B est affilié à C, alors A est considéré comme affilié à C. Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Determination des experts (calcul hors ligne) Traitement de la requête Détermination de l’affiliation entre des hôtes I Si les 3 premiers octets de l’adresse IP sont identiques, alors les hôtes font partie du même réseau, donc ils sont affiliés (ex. 1.2.3.1 et 1.2.3.80) I Le dernier Token non générique du nom de domaine est identique, il est possible qu’ils fassent partie de la même organisation, donc ils sont affiliés (ex. www.ibm.com et ibm.co.mx) I L’affiliation est transitive : si A est affilié à B et B est affilié à C, alors A est considéré comme affilié à C. I Par le point précédent, l’affiliation est conservative (peut avoir des faux positifs). Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Determination des experts (calcul hors ligne) Traitement de la requête Sélection et indexation des experts I Une expert est défini comme une page qui pointe sur k (p.ex. 5) autres pages distinctes et non-affiliées entre elles. Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Determination des experts (calcul hors ligne) Traitement de la requête Sélection et indexation des experts I Une expert est défini comme une page qui pointe sur k (p.ex. 5) autres pages distinctes et non-affiliées entre elles. I Les experts et les mots clés qui y sont contenus sont indexés dans un fichier inversé. Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Determination des experts (calcul hors ligne) Traitement de la requête Le score expert Étant donné une requête q, chaque expert possède un triplet (S0 , S1 , S2 ) calculé ainsi : Si = X L(p)F (p, q) p∈K (k−i) où k est la taille de la requête q, K(x) est l’ensemble des phrases clés (Titre, en-tête ou lien) contenant exactement x éléments des termes de la requête, L(x) est une pondération de la phrase clé x, et F(p,q) est une mesure du nombre de termes de p couverts par les termes de q. Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Determination des experts (calcul hors ligne) Traitement de la requête Le score expert L’on calcule ensuite le score expert (Expert Score(E)) par la formule suivante : 232 ∗ S0 + 216 ∗ S1 + S2 formule qui permet de garantir une certaine cohérence à partir du sujet de la requête. Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Determination des experts (calcul hors ligne) Traitement de la requête Qualification des liens I Un titre (élément title) qualifie tous les liens. Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Determination des experts (calcul hors ligne) Traitement de la requête Qualification des liens I Un titre (élément title) qualifie tous les liens. I Une en-tête (éléments h1 à h6) qualifie tous les liens après celui-ci jusqu’à une en-tête d’importance supérieure ou égale. Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Determination des experts (calcul hors ligne) Traitement de la requête Qualification des liens I Un titre (élément title) qualifie tous les liens. I Une en-tête (éléments h1 à h6) qualifie tous les liens après celui-ci jusqu’à une en-tête d’importance supérieure ou égale. I Le texte d’un lien ne qualifie que celui-ci. Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Determination des experts (calcul hors ligne) Traitement de la requête Le score cible On considère les top N (p.ex. 200) experts sur la requête. Les cibles considérées doivent être pointés par au moins 2 experts non affiliés avec elles, et non affiliés entre eux. Soit : occ(w , T ) le nombre de phrases clés distinctes dans l’expert E contenant le terme w et qualifiant (E,T), alors, Edge Score(E,T) vaut. I 0 si pour chaque terme w de de la requête, occ(w,T) = 0 I sinon Expert Score(E ) ∗ Σw ∈q occ(w , T ) La pertinance de l’une de ces cibles est determinée par la somme des scores des arêtes pointant vers cette requête. Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Determination des experts (calcul hors ligne) Traitement de la requête Résultats obtenus dans le rapport I Aussi bon que Google à l’époque (algorithme PageRank). Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Determination des experts (calcul hors ligne) Traitement de la requête Résultats obtenus dans le rapport I Aussi bon que Google à l’époque (algorithme PageRank). I Meilleur que DirectHit et AltaVista. Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Determination des experts (calcul hors ligne) Traitement de la requête Résultats obtenus dans le rapport I Aussi bon que Google à l’époque (algorithme PageRank). I Meilleur que DirectHit et AltaVista. I Pour des requêtes assez générales et pour trouver la page principale d’une organisation. Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Determination des experts (calcul hors ligne) Traitement de la requête Hilltop Actuellement I Google possède un brevet sur cet algorithme. Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Determination des experts (calcul hors ligne) Traitement de la requête Hilltop Actuellement I Google possède un brevet sur cet algorithme. I Considéré une pièce maı̂tresse de Google. Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Determination des experts (calcul hors ligne) Traitement de la requête Hilltop Actuellement I Google possède un brevet sur cet algorithme. I Considéré une pièce maı̂tresse de Google. I Difficile, mais pas impossible, à biaiser (p.ex. Link Bombing) Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Conclusion I Manière objective de classer les sites par rapport à une requête. Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Conclusion I Manière objective de classer les sites par rapport à une requête. I Possibilité d’abus Nabil Stendardo L’algorithme Hilltop Table des matières Introduction Explication de l’algorithme Conclusion Conclusion I Manière objective de classer les sites par rapport à une requête. I Possibilité d’abus I Problème de la poule et de l’oeuf. Nabil Stendardo L’algorithme Hilltop