The MetaCrawler Architecture for Resource Aggregation on

Transcription

The MetaCrawler Architecture for Resource Aggregation on
The MetaCrawler Architecture
for Resource Aggregation on
the Web
Erik Selberg, Oren Etzioni
Dept. of Computer Science And Engineering
University of Washigton (Seattle, WA)
1996
Algorithmes pour le Web
J.P. Rolim
Christian Darabos
UNIL
27 janvier 2003
PDF created with FinePrint pdfFactory trial version http://www.pdffactory.com
Sommaire
1.
Le problème de maman
2.
Idée de génie (?)
3.
Comment ça marche ?
4.
Quelques détails
5.
Et après…
6.
J’ai testé pour vous
7.
Ce qu’on en dit finalement
8.
Le top
2
PDF created with FinePrint pdfFactory trial version http://www.pdffactory.com
Problème - Solution
P:
S:
[P:
S:
P:
S:
Il y a trop d’info sur le web, comment
trouver ce que je cherche ?
Utiliser un moteur de recherche :)
Je ne sais pas faire de recherche efficace sur le
web…
Plusieurs mot clé, utiliser le bon moteur de
recherche]
Ben ça aussi, il y en a trop et chacun donne
des résultats très différents.
Passe au slide suivant…
PDF created with FinePrint pdfFactory trial version http://www.pdffactory.com
3
Idée
Une interface unique (web ou application) pour
plusieurs moteurs de recherches et annuaires
4
PDF created with FinePrint pdfFactory trial version http://www.pdffactory.com
www.metacrawler.com
• Metacrawler est un SoftBot
(application robot)
• Soumet la requête de
l’utilisateur aux moteurs de
recherches et annuaires
• Récupère les différents
résultats
• Filtre les résultats
• Classe les résultats dans
une liste unique
• Retourne la liste à
l’utilisateur
PDF created with FinePrint pdfFactory trial version http://www.pdffactory.com
5
Entrées/Sorties
• Comprendre les formats
d’entrée-sortie
• Entrée facile à comprendre
• Sortie doit être formatée de
manière cohérente, nonrépétitive dans une liste
unique
...
• Une fois que c’est fait
• Manque de fonctionnalité
• Metacrawler en implémente
certaines en téléchargeant la
page
PDF created with FinePrint pdfFactory trial version http://www.pdffactory.com
6
Téléchargement de pages
• Avantages de télécharger des pages
•
•
•
•
Nouvelles fonctionnalités possibles
Assure l'existence des pages visitées
Rapide affinage des recherches
Facilite l’identification de pages identiques
7
PDF created with FinePrint pdfFactory trial version http://www.pdffactory.com
Doublons
• Assemblage et élimination des doublons
• Difficile à cause des alias, liens symboliques, …
• Algorithme de comparaison utilisé (pageA et pageB venant
de 2 moteurs de recherches différents):
if(pageA.domaine == pageB.domaine)
if(pageA.stdAliasPath != pageB.stdAliasPath)
if(pageA.title == pageB.title) idem = true;
else idem = false;
else idem = true;
else idem = false;
• Si idem == true, pageB est référencée dans la
rubrique de pageA.
• Dépistage grandement amélioré si les pages ont été
téléchargées.
PDF created with FinePrint pdfFactory trial version http://www.pdffactory.com
8
Le PageRank
•
Metacrawler à son propre algorithme de
détermination de la qualité des pages:
confidence score
1. Fait correspondre le PageRank retourné pour
chaque référence sur l’intervalle [0..1000]. Le
meilleur aura le score de 1000.
2. Elimine les doublons et additionne les score des
éliminés à la référence gardée
9
PDF created with FinePrint pdfFactory trial version http://www.pdffactory.com
Interface utilisateur
•
Interface 2003
•
Au plus simple.
•
Peu d’options (any, all,
phrase)
•
Pas d’attente quant aux
connaissances des
utilisateurs (logique
booléenne, …)
•
Quelques liens utiles
10
PDF created with FinePrint pdfFactory trial version http://www.pdffactory.com
Interface des résultats
• Autres propositions
(Google style)
• Publicité
• Liste des moteurs
utilisés
• Résultats sponsorisés
• Pour chaque référence,
le(s) moteur(s) qui
l’ont trouvé
11
PDF created with FinePrint pdfFactory trial version http://www.pdffactory.com
Performance
• La vitesse est cruciale
• Affichage de résultats préliminaires au
cours de la recherche
• Téléchargement de pages seulement si
nécessaire
• Timeouts
• Chiffres obsolètes
12
PDF created with FinePrint pdfFactory trial version http://www.pdffactory.com
Architecture
Design modulaire de Metacrawler
13
PDF created with FinePrint pdfFactory trial version http://www.pdffactory.com
Modularité
Avantages:
• Degré d’abstraction supplémentaire, pour plus:
• d’adaptabilité
• de portabilité
• de scalabilité (adaptation à la taille)
14
PDF created with FinePrint pdfFactory trial version http://www.pdffactory.com
Projets d’avenir
• Sélectionner les moteurs de recherche et
annuaires selon la requête
• Approche basée sur l’apprentissage
• Informations supplémentaires fournies par les
moteurs de recherche
• Améliorer l’interface des résultats
15
PDF created with FinePrint pdfFactory trial version http://www.pdffactory.com
Un petit test…
•
•
•
•
•
•
MetaCrawler Results
Être ou ne pas être "F" - ... plus besoin. Dernière parution du. Contrats de performance: L'empiètement du savoir. Etre ou ne pas etre
féministe? Étudiant-es ... http://www.education-action.net/fwordfr.htm (Google, Fast) | More like this
ETRE OU NE PAS ETRE PATASSISTE - ETRE OU NE PAS ETRE PATASSISTE. La question n'est pas d'en vouloir à un individu.
Mais qu'incarne l'individu ? Et surtout celui ... http://www.sangonet.com/FichPartisRCA/EtreNepasetreP.html (Google) | More like this
JBC© corp. [être ou ne pas être, telle est la question[Hamlet, Shakespeare]] - jbc corporation unlimited, un site dapprentisage a la
programation et au design http://www.jbc-unlimited.net/ (Fast) | More like this
CNRS-Info n394 - Professeur chercheur : etre ou ne pas etre ... - Profession chercheur : être ou ne pas être communicant ? Pour des
informations complémentaires, contacter les chercheurs, en cliquant ici, Page précédente. ...
http://www.cnrs.fr/Cnrspresse/n394/html/n394a18.htm (Google) | More like this
être ou ne pas être Sahraoui - Edito - Afrik - afrique - maghreb - http://www.afrik.com/journal/edito/ed-135-1.htm (Fast) | More like this
CNRS-Info n394 - Professeur chercheur : etre ou ne pas etre ... - Contacts. Contact Michel Weinfeld, Laboratoire d'informatique de l'Ecole
polytechnique (LIX), CNRS-école polytechnique, tél. : 01 ... http://www.cnrs.fr/Cnrspresse/n394/html/n394a18c.htm (Google) | More like
this
•
•
•
•
•
•
Être ou ne pas être "F" - [ Translate this page ]
... plus besoin. Dernière parution du. Contrats de performance: L'empiètement
du savoir. Etre ou ne pas etre féministe? Étudiant-es ...
www.education-action.net/fwordfr.htm - 26k - Cached - Similar pages
ETRE OU NE PAS ETRE PATASSISTE - [ Translate this page ]
ETRE OU NE PAS ETRE PATASSISTE. La question n'est pas d'en vouloir
à un individu. Mais qu'incarne l'individu ? Et surtout celui ...
www.sangonet.com/FichPartisRCA/EtreNepasetreP.html - 14k - Cached - Similar pages
CNRS-Info n394 - Professeur chercheur : etre ou ne pas etre ... - [ Translate this page ]
Profession chercheur : être ou ne pas être communicant ? Pour des informations
complémentaires, contacter les chercheurs, en cliquant ici, Page précédente. ...
www.cnrs.fr/Cnrspresse/n394/html/n394a18.htm - 12k - Cached - Similar pages
CNRS-Info n394 - Professeur chercheur : etre ou ne pas etre ... - [ Translate this page ]
Contacts. Contact Michel Weinfeld, Laboratoire d'informatique de l'Ecole
polytechnique (LIX), CNRS-école polytechnique, tél. : 01 ...
www.cnrs.fr/Cnrspresse/n394/html/n394a18c.htm - 3k - Cached - Similar pages
[PDF]Communauté française de Belgique ETRE OU NE PAS ETRE DANS LA ...
File Format: PDF/Adobe Acrobat - View as HTML
... de Belgique Ministère de la Communauté française Administration générale de
l'Enseignement et de la Recherche scientifique ETRE OU NE PAS ETRE DANS LA LUNE ...
www.agers.cfwb.be/pedag/recheduc/point/point05/5_5.pdf - Similar pages
News - [NuQuE] - [ Translate this page ]
News. ne pas etre ou ne pas etre... un roxor by Cyp - 2002-02-11 01:13:37
Ok team, il faut que vs checkiez cette vidéo de penduzecat ...
nuque.foufurieux.com/nuque_news.php?news_id=62 - 12k - Cached - Similar pages
PDF created with FinePrint pdfFactory trial version http://www.pdffactory.com
16
…et un autre
•
•
•
•
•
•
•
•
•
•
•
•
MetaCrawler Results
Centre Universitaire d'Informatique - Bienvenue au CUI. Centre Universitair e d ' Informa tique. ... http://cui.unige.ch/ (Google, Inktomi) | More like this
W3 Search Engines XML - CUI University of Geneva What is the CUI ? W3 Search Engines. This documents collects some of the most useful search
engines available ... http://cui.unige.ch/meta-index.html (Google) | More like this
IEEE Workshop on Integrating Data Mining and Knowledge Management - Please send them electronically (PDF or PostScript files) to
[email protected] or [email protected] on or before September 14, 2001. http://cui.unige.ch/~hilario/icdm-01/cfp.html (Teoma) | More like this
[email protected] from January to March 2001: embeding SGV with - embeding SGV with the tag. From: [email protected] Date: Wed,
Mar 14 2001. Next message: Rzepa, Henry: "Re: embeding ... http://lists.w3.org/Archives/Public/www-amaya/2001JanMar/0179.html (Google) | More like
this
Atomic Transactions for the Internet - Cuneiform Cylinder... http://cui.unige.ch/tios/trans_obj.html (Teoma) | More like this
W3 Search Engines XML
CUI University of Geneva What is the CUI ? W3 Search Engines. This documents
collects some of the most useful search engines available ...
Description: Over 100 search engines and directories, with many falling outside the 'traditional' search engine...
Category: Computers > Internet > ... > Search Engines > Link Compilations
cui.unige.ch/meta-index.html - 32k - Cached - Similar pages
Centre Universitaire d'Informatique - [ Translate this page ]
Bienvenue au CUI. Centre Universitair e d ' Informa tique. ...
Category: Computers > Computer Science > ... > Europe > Switzerland
cui.unige.ch/ - 8k - Cached - Similar pages
[ More results from cui.unige.ch ]
[email protected] from January to March 2001: embeding SGV with
embeding SGV with the <object> tag. From: [email protected]
Date: Wed, Mar 14 2001. Next message: Rzepa, Henry: "Re: embeding ...
lists.w3.org/Archives/Public/www-amaya/ 2001JanMar/0179.html - 7k - Cached - Similar pages
[email protected] from July to September 1998: bug in colored li
From: [email protected] Date: Tue, Sep 29 1998: ... Previous message:
[email protected]: "Amaya printing with smaller fonts"; ...
lists.w3.org/Archives/Public/www-amaya/ 1998JulSep/0123.html - 6k - Cached - Similar pages
[ More results from lists.w3.org ]
Professor
People. Professor. Prof. Michel LEONARD, [email protected]. Reseacher.
Jolita RALYTE, [email protected]. Research and Teaching Assistants. ...
matis.unige.ch/matis/matis.nsf/people?OpenPage - 9k - Cached - Similar pages
Linklint - urlok.html
... berkeley.edu/frame/research/mpeg/ http://bucky.aa.uic.edu/ http://clips.imag.fr/mrim/georges.quenot/articles/cbmi99b.ps
http://cui.unige.ch/AI-group/ http://cui ...
vision.unige.ch/linklintdocs/urlok.html - 16k - Cached - Similar pages
Linklint - urlfailF.html
... html had 2 failed urls http://cui.unige.ch/~vision/Publications/postscript/2000/KutterVoloshynovskiyHerrigel_spie2000.pdf
not found (404) http://cui.unige.ch ...
vision.unige.ch/linklintdocs/urlfailF.html - 8k - Cached - Similar pages
[ More results from vision.unige.ch ]
PDF created with FinePrint pdfFactory trial version http://www.pdffactory.com
17
Conclusions
• Plutôt une bonne idée, mais comment n’y at-on pas pensé nous-même ?
• Relativement bien développé
• Un peu plus lent que Google
• Un peu trop de pub
• Finalement pas vraiment plus efficace que
Google – généralement les 2 premiers
resultats proviennent de Google
18
PDF created with FinePrint pdfFactory trial version http://www.pdffactory.com
Le top…
Searches Per Day
1.
2.
3.
4.
5.
6.
7.
8.
Google - 150 million
Inktomi - 80 million
AltaVista - 50 million
FindWhat - 33 million
Direct Hit - 20 million
FAST - 12 million
Overture (GoTo) - 6.5 million
Ask Jeeves - 4 million3/00
Report from:
http://searchenginewatch.com/reports/perday.html
2002
19
PDF created with FinePrint pdfFactory trial version http://www.pdffactory.com