The MetaCrawler Architecture for Resource Aggregation on
Transcription
The MetaCrawler Architecture for Resource Aggregation on
The MetaCrawler Architecture for Resource Aggregation on the Web Erik Selberg, Oren Etzioni Dept. of Computer Science And Engineering University of Washigton (Seattle, WA) 1996 Algorithmes pour le Web J.P. Rolim Christian Darabos UNIL 27 janvier 2003 PDF created with FinePrint pdfFactory trial version http://www.pdffactory.com Sommaire 1. Le problème de maman 2. Idée de génie (?) 3. Comment ça marche ? 4. Quelques détails 5. Et après… 6. J’ai testé pour vous 7. Ce qu’on en dit finalement 8. Le top 2 PDF created with FinePrint pdfFactory trial version http://www.pdffactory.com Problème - Solution P: S: [P: S: P: S: Il y a trop d’info sur le web, comment trouver ce que je cherche ? Utiliser un moteur de recherche :) Je ne sais pas faire de recherche efficace sur le web… Plusieurs mot clé, utiliser le bon moteur de recherche] Ben ça aussi, il y en a trop et chacun donne des résultats très différents. Passe au slide suivant… PDF created with FinePrint pdfFactory trial version http://www.pdffactory.com 3 Idée Une interface unique (web ou application) pour plusieurs moteurs de recherches et annuaires 4 PDF created with FinePrint pdfFactory trial version http://www.pdffactory.com www.metacrawler.com • Metacrawler est un SoftBot (application robot) • Soumet la requête de l’utilisateur aux moteurs de recherches et annuaires • Récupère les différents résultats • Filtre les résultats • Classe les résultats dans une liste unique • Retourne la liste à l’utilisateur PDF created with FinePrint pdfFactory trial version http://www.pdffactory.com 5 Entrées/Sorties • Comprendre les formats d’entrée-sortie • Entrée facile à comprendre • Sortie doit être formatée de manière cohérente, nonrépétitive dans une liste unique ... • Une fois que c’est fait • Manque de fonctionnalité • Metacrawler en implémente certaines en téléchargeant la page PDF created with FinePrint pdfFactory trial version http://www.pdffactory.com 6 Téléchargement de pages • Avantages de télécharger des pages • • • • Nouvelles fonctionnalités possibles Assure l'existence des pages visitées Rapide affinage des recherches Facilite l’identification de pages identiques 7 PDF created with FinePrint pdfFactory trial version http://www.pdffactory.com Doublons • Assemblage et élimination des doublons • Difficile à cause des alias, liens symboliques, … • Algorithme de comparaison utilisé (pageA et pageB venant de 2 moteurs de recherches différents): if(pageA.domaine == pageB.domaine) if(pageA.stdAliasPath != pageB.stdAliasPath) if(pageA.title == pageB.title) idem = true; else idem = false; else idem = true; else idem = false; • Si idem == true, pageB est référencée dans la rubrique de pageA. • Dépistage grandement amélioré si les pages ont été téléchargées. PDF created with FinePrint pdfFactory trial version http://www.pdffactory.com 8 Le PageRank • Metacrawler à son propre algorithme de détermination de la qualité des pages: confidence score 1. Fait correspondre le PageRank retourné pour chaque référence sur l’intervalle [0..1000]. Le meilleur aura le score de 1000. 2. Elimine les doublons et additionne les score des éliminés à la référence gardée 9 PDF created with FinePrint pdfFactory trial version http://www.pdffactory.com Interface utilisateur • Interface 2003 • Au plus simple. • Peu d’options (any, all, phrase) • Pas d’attente quant aux connaissances des utilisateurs (logique booléenne, …) • Quelques liens utiles 10 PDF created with FinePrint pdfFactory trial version http://www.pdffactory.com Interface des résultats • Autres propositions (Google style) • Publicité • Liste des moteurs utilisés • Résultats sponsorisés • Pour chaque référence, le(s) moteur(s) qui l’ont trouvé 11 PDF created with FinePrint pdfFactory trial version http://www.pdffactory.com Performance • La vitesse est cruciale • Affichage de résultats préliminaires au cours de la recherche • Téléchargement de pages seulement si nécessaire • Timeouts • Chiffres obsolètes 12 PDF created with FinePrint pdfFactory trial version http://www.pdffactory.com Architecture Design modulaire de Metacrawler 13 PDF created with FinePrint pdfFactory trial version http://www.pdffactory.com Modularité Avantages: • Degré d’abstraction supplémentaire, pour plus: • d’adaptabilité • de portabilité • de scalabilité (adaptation à la taille) 14 PDF created with FinePrint pdfFactory trial version http://www.pdffactory.com Projets d’avenir • Sélectionner les moteurs de recherche et annuaires selon la requête • Approche basée sur l’apprentissage • Informations supplémentaires fournies par les moteurs de recherche • Améliorer l’interface des résultats 15 PDF created with FinePrint pdfFactory trial version http://www.pdffactory.com Un petit test… • • • • • • MetaCrawler Results Être ou ne pas être "F" - ... plus besoin. Dernière parution du. Contrats de performance: L'empiètement du savoir. Etre ou ne pas etre féministe? Étudiant-es ... http://www.education-action.net/fwordfr.htm (Google, Fast) | More like this ETRE OU NE PAS ETRE PATASSISTE - ETRE OU NE PAS ETRE PATASSISTE. La question n'est pas d'en vouloir à un individu. Mais qu'incarne l'individu ? Et surtout celui ... http://www.sangonet.com/FichPartisRCA/EtreNepasetreP.html (Google) | More like this JBC© corp. [être ou ne pas être, telle est la question[Hamlet, Shakespeare]] - jbc corporation unlimited, un site dapprentisage a la programation et au design http://www.jbc-unlimited.net/ (Fast) | More like this CNRS-Info n394 - Professeur chercheur : etre ou ne pas etre ... - Profession chercheur : être ou ne pas être communicant ? Pour des informations complémentaires, contacter les chercheurs, en cliquant ici, Page précédente. ... http://www.cnrs.fr/Cnrspresse/n394/html/n394a18.htm (Google) | More like this être ou ne pas être Sahraoui - Edito - Afrik - afrique - maghreb - http://www.afrik.com/journal/edito/ed-135-1.htm (Fast) | More like this CNRS-Info n394 - Professeur chercheur : etre ou ne pas etre ... - Contacts. Contact Michel Weinfeld, Laboratoire d'informatique de l'Ecole polytechnique (LIX), CNRS-école polytechnique, tél. : 01 ... http://www.cnrs.fr/Cnrspresse/n394/html/n394a18c.htm (Google) | More like this • • • • • • Être ou ne pas être "F" - [ Translate this page ] ... plus besoin. Dernière parution du. Contrats de performance: L'empiètement du savoir. Etre ou ne pas etre féministe? Étudiant-es ... www.education-action.net/fwordfr.htm - 26k - Cached - Similar pages ETRE OU NE PAS ETRE PATASSISTE - [ Translate this page ] ETRE OU NE PAS ETRE PATASSISTE. La question n'est pas d'en vouloir à un individu. Mais qu'incarne l'individu ? Et surtout celui ... www.sangonet.com/FichPartisRCA/EtreNepasetreP.html - 14k - Cached - Similar pages CNRS-Info n394 - Professeur chercheur : etre ou ne pas etre ... - [ Translate this page ] Profession chercheur : être ou ne pas être communicant ? Pour des informations complémentaires, contacter les chercheurs, en cliquant ici, Page précédente. ... www.cnrs.fr/Cnrspresse/n394/html/n394a18.htm - 12k - Cached - Similar pages CNRS-Info n394 - Professeur chercheur : etre ou ne pas etre ... - [ Translate this page ] Contacts. Contact Michel Weinfeld, Laboratoire d'informatique de l'Ecole polytechnique (LIX), CNRS-école polytechnique, tél. : 01 ... www.cnrs.fr/Cnrspresse/n394/html/n394a18c.htm - 3k - Cached - Similar pages [PDF]Communauté française de Belgique ETRE OU NE PAS ETRE DANS LA ... File Format: PDF/Adobe Acrobat - View as HTML ... de Belgique Ministère de la Communauté française Administration générale de l'Enseignement et de la Recherche scientifique ETRE OU NE PAS ETRE DANS LA LUNE ... www.agers.cfwb.be/pedag/recheduc/point/point05/5_5.pdf - Similar pages News - [NuQuE] - [ Translate this page ] News. ne pas etre ou ne pas etre... un roxor by Cyp - 2002-02-11 01:13:37 Ok team, il faut que vs checkiez cette vidéo de penduzecat ... nuque.foufurieux.com/nuque_news.php?news_id=62 - 12k - Cached - Similar pages PDF created with FinePrint pdfFactory trial version http://www.pdffactory.com 16 …et un autre • • • • • • • • • • • • MetaCrawler Results Centre Universitaire d'Informatique - Bienvenue au CUI. Centre Universitair e d ' Informa tique. ... http://cui.unige.ch/ (Google, Inktomi) | More like this W3 Search Engines XML - CUI University of Geneva What is the CUI ? W3 Search Engines. This documents collects some of the most useful search engines available ... http://cui.unige.ch/meta-index.html (Google) | More like this IEEE Workshop on Integrating Data Mining and Knowledge Management - Please send them electronically (PDF or PostScript files) to [email protected] or [email protected] on or before September 14, 2001. http://cui.unige.ch/~hilario/icdm-01/cfp.html (Teoma) | More like this [email protected] from January to March 2001: embeding SGV with - embeding SGV with the tag. From: [email protected] Date: Wed, Mar 14 2001. Next message: Rzepa, Henry: "Re: embeding ... http://lists.w3.org/Archives/Public/www-amaya/2001JanMar/0179.html (Google) | More like this Atomic Transactions for the Internet - Cuneiform Cylinder... http://cui.unige.ch/tios/trans_obj.html (Teoma) | More like this W3 Search Engines XML CUI University of Geneva What is the CUI ? W3 Search Engines. This documents collects some of the most useful search engines available ... Description: Over 100 search engines and directories, with many falling outside the 'traditional' search engine... Category: Computers > Internet > ... > Search Engines > Link Compilations cui.unige.ch/meta-index.html - 32k - Cached - Similar pages Centre Universitaire d'Informatique - [ Translate this page ] Bienvenue au CUI. Centre Universitair e d ' Informa tique. ... Category: Computers > Computer Science > ... > Europe > Switzerland cui.unige.ch/ - 8k - Cached - Similar pages [ More results from cui.unige.ch ] [email protected] from January to March 2001: embeding SGV with embeding SGV with the <object> tag. From: [email protected] Date: Wed, Mar 14 2001. Next message: Rzepa, Henry: "Re: embeding ... lists.w3.org/Archives/Public/www-amaya/ 2001JanMar/0179.html - 7k - Cached - Similar pages [email protected] from July to September 1998: bug in colored li From: [email protected] Date: Tue, Sep 29 1998: ... Previous message: [email protected]: "Amaya printing with smaller fonts"; ... lists.w3.org/Archives/Public/www-amaya/ 1998JulSep/0123.html - 6k - Cached - Similar pages [ More results from lists.w3.org ] Professor People. Professor. Prof. Michel LEONARD, [email protected]. Reseacher. Jolita RALYTE, [email protected]. Research and Teaching Assistants. ... matis.unige.ch/matis/matis.nsf/people?OpenPage - 9k - Cached - Similar pages Linklint - urlok.html ... berkeley.edu/frame/research/mpeg/ http://bucky.aa.uic.edu/ http://clips.imag.fr/mrim/georges.quenot/articles/cbmi99b.ps http://cui.unige.ch/AI-group/ http://cui ... vision.unige.ch/linklintdocs/urlok.html - 16k - Cached - Similar pages Linklint - urlfailF.html ... html had 2 failed urls http://cui.unige.ch/~vision/Publications/postscript/2000/KutterVoloshynovskiyHerrigel_spie2000.pdf not found (404) http://cui.unige.ch ... vision.unige.ch/linklintdocs/urlfailF.html - 8k - Cached - Similar pages [ More results from vision.unige.ch ] PDF created with FinePrint pdfFactory trial version http://www.pdffactory.com 17 Conclusions • Plutôt une bonne idée, mais comment n’y at-on pas pensé nous-même ? • Relativement bien développé • Un peu plus lent que Google • Un peu trop de pub • Finalement pas vraiment plus efficace que Google – généralement les 2 premiers resultats proviennent de Google 18 PDF created with FinePrint pdfFactory trial version http://www.pdffactory.com Le top… Searches Per Day 1. 2. 3. 4. 5. 6. 7. 8. Google - 150 million Inktomi - 80 million AltaVista - 50 million FindWhat - 33 million Direct Hit - 20 million FAST - 12 million Overture (GoTo) - 6.5 million Ask Jeeves - 4 million3/00 Report from: http://searchenginewatch.com/reports/perday.html 2002 19 PDF created with FinePrint pdfFactory trial version http://www.pdffactory.com