A.HABACHI 4 Février 2003
Transcription
A.HABACHI 4 Février 2003
Search Engine For the World Wide Web: A Comparative Study and Evaluation Methodology A.HABACHI 4 Février 2003 Plan de la présentation Auteurs Introduction Etudes déjà accomplies Critères de Performances Caractéristiques des 3 Moteurs de Recherche Choisis Requêtes et Environnement de Test Evaluation des Performances Conclusion 0. Auteurs Pas beaucoup d’information sur les auteurs sur internet. Heting CHU: Palmer School of Library & Science d’Information, Université de Long Island (New York). Elle a écrit beaucou d’articles sur le Web dans le domaine de la recherche et d’extraction des informations. Marilyn ROSENTHAL: Département de référence de bibliothèque à l’Université de Long Island (New York). 1. Introduction L’article compare 3 moteurs de recherche populaires à l’époque: Alta Vista, Excite et Lycos. Les auteurs les évaluent selon différents critères dont les 2 plus importants sont: a.) Capacité de recherche (logique booléenne, troncation, mots et phrases) b.) Performances d’extraction d’information (précision et le temps de réponse) Les auteurs utilisent des requêtes basées sur celles effectuées dans leur domaine de travail de bibliothèque. Difficile d’avoir une métrique pour évaluer la précision des résultats pour une requête donnée (mesure subjective). On ne sait pas combien de résultats pertinents existent pour une requête donnée, car la taille du Web est énorme et le Web change constamment. 1. Introduction (suite) L’article a été écrit en 1996, époque où le Web connaissait une forte croissance et popularité. Beaucoup de moteur de recherche se sont dévelopés rapidement (~ une vingtaine) face à la demande des internautes pour rechercher toute forme d’information. Google n’existait pas encore (en développement) et Alta Vista avait beaucoup de succès. Les auteurs tentent de démontrer parmi les trois moteurs de recherche qu’Alta Vista est le plus pratique et performant en ce qui concerne la récolte d’information. 2. Études déjà accomplies Les moteurs de recherche ont réellement fait leur apparition en 1994, donc la littérature est assez récente sur ce sujet. Les études sont peu nombreuses et pas très détaillées en général. NOTES (1995) a examiné Lycos, WebCrawler, Wold Wide Web Worm, Harvest Broker, CUSI, etc... . Il a conclu que pour les mots simples, Lycos est le plus approprié. Pour les recherches à mots multiples, il conseille WebCrawler. Pour les recherches qui prennent du temps, il conseille CUSI. COURTOIS, BAER et STARK (1995) ont évalué les performances de 10 moteurs de recherche (CUI, Harvest, Lycos ,Open Text, World Wide Web Worm,Yahoo, etc..). L’évaluation était basée sur 3 requêtes et les informations disponibles sur les moteurs de recherche. Open Text était le meilleur par la qualité de son interface et sa rapidité de recherche. Pour les novices, Web Crawler possède l’interface la plus simple. 2. Études déjà accomplies (suite) LEIGHTON (1995) a utilisé comme critère d’évaluation la précision. Il a évalué Infoseek, Lycos, WebCrawler and World Wide Web Worm en utilisant 8 questions de référence d’une bibliothèque universitaire. Il a conclu que Lycos a la meilleure précision juste devant Infoseek, alors que WebCrawler donnait de mauvais résultats. C|net, une companie spécialisée dans l’évaluation des produits et services online, a testé 19 moteurs de recherche. Les critères d’évaluation étaient la précision, facilité d’utilisation. Elle a utilisé 15 requêtes basées sur des questions posées dans des bibliothèques publiques. Ils ont conclu qu’Alta Vista est le meilleur parmi ces moteurs de recherches. On remarque que les différentes études n’ont pas les mêmes résultats, voire même contradictoires. Les critères d’évaluation varient d’une étude à l’autre. Question: Es-ce qu’il existe vraiment un moteur de recherche sur le Web qui soit le plus approprié pour les besoins de l’utilisateur? 3. Critères de performances Indexer: Généré par les spiders, ils sont utilisés pour extraire l’information des pages Web. Les trois caractéristiques importantes d’un indexer sont: la couverture, la fréquence de mise à jour et la portion de page indexée (page entière ou une partie de la page). Ces trois caractéristiques dépendent de la technologie software et hardware des indexers. Capacité de recherche: Un bon moteur de recherche doit avoir ces différentes options: logique booléenne (AND et OR), recherche de mots et phrases, troncation. L’absence de ces différentes options handicapent les performances. Performance d’extraction: Elle est caractérisée par deux paramètres: 1.) Précision (subjective) 2.) Temps de réponse Affichage des résultats: Il s’agit du mode d’affichage des différents résultats (standard, détaillé, etc..) et du contenu. Documentation et interface: Joue un rôle important dans le choix d’un moteur de recherche par les utilisateurs. 4. Caractéristiques des moteurs de recherche choisis Parmi les trois moteurs de recherche, Lycos est le plus ancien, alors qu’Alta Vista est le plus récent. Lycos est celui qui affiche le plus d’informations dans les résultats trouvés. En regardant de près, on remarque que les informations sont parfois redondantes et pas très pertinantes. Lycos a la meilleure documentation et interface. L’interface d’Alta Vista peut être améliorée et la documentation de Excite aussi. Fin Janvier 1996, Lycos est celui qui indexe le plus de ressources Web. Seul Alta Vista supporte vraiment les phrases. Excite ne supporte pas la troncation, alors que Lycos le fait automatiquement à chaque fois que c’est possible (ex.: violence -> violenced -> violenceo -> violences). Ce qui amène parfois à de mauvais résultats. 4. Caractéristiques des moteurs de recherche choisis (suite) Alta Vista: Commencé à être développé en été 1995 aux laboratoires de Recherche de Digital en Californie. Il est devenu fonctionnel sur le Web en décembre 1995. Supporte la recherche booléene, de phrases, recherche par champs (titre:…; url:…), troncation à droite et option de casse si la première lettre est en majuscule. 3 options d’affichage: compacte, standard et détaillé. Critères de ranking: position du mot (titre, corps du texte), fréquence et distance entre les mots. Affiche seulement les quelques premiers mots trouvés. Mots de recherche générals sont ignorés (« computer », « analysis »). 4. Caractéristiques des moteurs de recherche choisis (suite) Excite: Développé par Architext Software. A partir d’une recherche donnée, il est capable de retourner les documents traitant le même sujet (topic) que la requête. Les documents peuvent ne pas contenir les mots de la requête. Ex.: Une requête comme « intellectual property rights » retournera des doc. sur le même sujet même si les termes « software piracy » ou « copyright law » apparaissent dans le doc. plutôt que les termes de la requête. Il contient un dictionnaire de synonymes. Cette caractéristique s’appelle le « Concept Searching ». Les auteurs le jugent satisfaisant. Si la requête est composée de plusieurs mots, il applique le AND et aussi le OR comme opérateur logique pour les termes. Il donne un poids plus important pour les résultats avec l’opérateur AND. 4. Caractéristiques des moteurs de recherche choisis (suite) Il peut générer une sorte de résumé (abstract) des pages Web qu’il indexent. C’est une caractéristique que la plupart n’ont pas. Pas différentes options d’affichage pour les résultats. Sa documentation online n’est pas très bien structurée. Lycos: Conçu à l’Université de Carnegie Mellon, il a été vendu plus tard à America Online et on le nomma Lycos. Bien qu’il soit commercialisé, il continue à fournir des services gratuits. Il n’indexe pas tout le contenu d’une page. Il extrait seulement le titre et et une portion du document (20% du document). Cette pratique est considérée comme une grande faiblese par ses compétiteurs. L’utilisateur n’a pas besoin d’écrire les AND’s, mais juste à chosir l’option « match all terms (AND) ». 4. Caractéristiques des moteurs de recherche choisis (suite) 5 niveaux différents de matching pour les requêts: Loose, Fair, Good, Close, Strong match. Recherche de phrase mal suportée. Plusieurs options d’affichage: summary, standard et détaillé. Le format détaillé contient comme information: URL, titre, outlines, description, date et clés. 5. Requêtes et Environnement de Test Les requêtes de test ont été basées sur celles effectuées par les bibliothécaires de l’Université de Long Island. Elles ont pour but de tester les différentes caractéristiques des moteurs de recherche. Questions de référence: 1. volunteerism in society 2. classical Greek philosophy 3. memory and neurobiology 4. sexual differences and mathematical ability 5. psychological analysis of contemporary British artist Francis Bacon 6. violence among athletes 7. computers and learning disabilities 8. NAFTA 9. plagiarism 10. Long Island University 5. Requêtes et Environnement de Test (suite) Certaines requêtes sont composées d’un seul mot et d’autres de plusieurs mots. Certaines demandent l’utilisation de la logique booléenne (1&6). Certaines concernent un thème général alors que d’autres concernent un thème spécifique. Requêtes: Il faut écrire les requêtes différemment selon la syntaxe du moteur de recherche. Lycos et Excite ont une synthaxe très proche. #1 Alta Vista: volunteerism +society Excite: volunteerism society Lycos: volunteerism society #2 Alta Vista: "classical Greek philosophy" Excite: classical Greek philosophy Lycos: classical Greek philosophy #3 Alta Vista: memory +neurobiology Excite: memory neurobiology Lycos: memory neurobiology #4 Alta Vista: "sexual difference*" +"mathematical ability" 5. Requêtes et Environnement de Test (suite) Excite: sexual differences mathematical ability Lycos: sexual differences mathematical ability #5 Alta Vista: "psychological analysis" +"British artist" +"Francis Bacon" Excite: British artist Francis Bacon Lycos: British artist Francis Bacon #6 Alta Vista: violence +athlete* Excite: violence athletes Lycos: violence athletes #7 Alta Vista: computers +"learning disabilit*" Excite: computers learning disabilities Lycos: computer learning disabilities #8 Alta Vista: NAFTA Excite: NAFTA Lycos: NAFTA #9 Alta Vista: plagiarism Excite: plagiarism Lycos: plagiarism #10 Alta Vista: title:"Long Island University" Excite: Long Island University Lycos: Long Island University 5. Requêtes et Environnement de Test (suite) Environnement de Test: Ils ont utilisé Netscape et Lynx comme browser. Ils choisissent l’option d’affichage la plus détaillée pour l’affichage des résultats (meilleure évaluation). Pour des raisons de simplicité, ils ne considèrent que les 10 premiers meilleurs résultats ayant le ranking le plus élevé. 6. Evaluation des Performances Temps de Réponse: Les tesdmps de réponse des trois moteurs de recherche sont assez proches les uns des autres et se situent entre 1 et 5 seondes. Pas de différence significatives entre les heures où il y a beaucoup et peu d’utilisateurs sur le Web. (Dimanche après-midi, Lundi dans la journée). Toutefois, les résultats montrent qu’alta Vista est le plus rapide suvi de Lycos et Excite. Précision des Résultats: Les auteurs ont fait chacun leur évaluation de précision et ont fait une moyenne de leur résultat. Si une page est pertinante –>1, un peu -> 0.5, sinon ->0. Ils n’ont pas utilisé les lien hypertextes des documents pour évaluer la précision (ça prendrait trop de temps et le manque d’importance de certains liens). Alta Vista et Excite trouvent toujours au moins 10 résultats, alors que Lycos trouve parfois 0 résultat. 6. Evaluation des Performances (suite) Alta Vista a la meilleure précision suivie de Lycos et de Excite. On voit que les recherches avec mots simples donnent de bons résultats, tandis que les longues phrases donnent de mauvais résultats. 6. Evaluation des Performances (suite) 7. Conclusion Le champ de recherche de l’étude est limité à 3 moteurs de recherche -> pas exhaustif. Pour leurs évaluations, les auteurs se basent sur des études déjà faites. On ne connaît pas trop la fiabilité de leurs résultats. Cette étude permet aussi au dévelopeur d’améliorer leur moteur de recherche en se basant sur les différents critères d’évaluation. Il n’y a pas beaucoup de requêtes pour évaluer les performances. Il aurait fallu en prendre plus et ne pas les restreindre uniquement au domaine de la bibliothèque. L’évaluation de la pertinance des résultats est assez subjective. Il aurait fallu plus de personne pour l’évaluation. La méthodologie appliquée (critères) pour l’évaluation semble bonne. Avec les résultats obtenus, on conclu qu’Alta Vista est le moteur de recherche le plus performant et complet dans l’année 1996.