Open source - Wikipédia
Transcription
Open source - Wikipédia
Moteurs de recherche - Wiki http://tecfaseed.unige.ch/~oberson/mediawiki/index.php?title=Mote... Moteurs de recherche Un article de Wiki. Mali Sommaire 1 Généralités 2 Veille sur les moteurs de recherche 3 Limites 4 Troncatures & opérateurs booléens: AND, OR, NOT, NEAR 5 Near 6 Opérateurs sur chaînes de caractères 7 Multimédia 8 Recherche DANS une page web 9 Google 10 Moteurs de recherche sémantiques / topic maps Généralités lire les notices descriptives des opérateurs de recherche, et consulter régulièrement les sites donnant des informations sur les moteurs de recherche, p. ex. Search Engine Watch ou Abondance (en français) Types d'outils disponibles + exemples moteurs de recherche Google, Altavista moteurs régionaux Virgilio (Italie) répertoires (les données sont classées par catégories, disciplines etc.) Yahoo encyclopédies (généralistes) Britannica bases de données spécialisées dans un domaine particulier IMDb (Internet Movie Database) semantic crawlers: kartoo, teoma métamoteurs: Metacrawler, copernic wikis: wikipedia http://scholar.google.com/ What is Google Scholar? Google Scholar provides a simple way to broadly search for scholarly literature. From one place, you can search across many disciplines and sources: peer-reviewed papers, theses, books, abstracts and articles, from academic publishers, professional societies, preprint repositories, universities and other scholarly organizations. Google Scholar helps you identify the most relevant research across the world of scholarly research. http://scholar.google.com/ Veille sur les moteurs de recherche 2 services anglophone (the best): http://www.searchenginewatch.com/ francophone (pas mal): http://www.abondance.com/ 1 sur 5 14.9.2006 0:30 Moteurs de recherche - Wiki http://tecfaseed.unige.ch/~oberson/mediawiki/index.php?title=Mote... Limites temps, indexation = forte fluctuabilité ex. "Andrei Roublev" sous Metacrawler donne 27 occurrences dont 0 pour Altavista, même recherche avec Altavista = 139 occurrences; à 30 secondes d'intervalle, Metacrawler donne 77 occurrences! Troncatures & opérateurs booléens: AND, OR, NOT, NEAR AND OR NOT NEAR(=NEAR) AND OR NOT Source images: http://www.nifl.gov/nifl/fellowship/reports/susanc/boole1.htm Source images: http://chid.nih.gov/help/help.html Troncatures: particulièrement utiles, puisqu'elles permettent de définir un critère de recherche variable, p. ex. bogomil* AND bulgar* identifiera bogomil, bogomile, bogomiles, bogomilian et idem pour bulgar*. Attention, les troncatures (wildcards en anglais) varient d'un système à l'autre (en général *, parfois $ ou encore ?). Le NOT peut être particulièrement intéressant lorsque les résultats de la recherche donnent un grand nombre d'occurrences, où l'on souhaite éliminer certaines occurrences qui sont responsables en majorité du bruit. Attention, sur certains sites francophones, le NOT s'écrit SANS. On peut parfois aussi utiliser des opérateurs mathématiques (+ pour ET, - pour NOT). De manière générale, il faut TOUJOURS consulter les rubriques d'aides avancées qui expliquent le fonctionnement du moteur de recherche et des options booléennes. Sur altavista p. ex., l'opérateur NOT s'écrit AND NOT. Near (nettement moins utilisé, pas disponible sur google) L'opérateur de proximité NEAR permet de trouver des sites contenant 2 ou plusieurs termes situés à une "distance" évaluée en nombre de mots. Combinaison de plusieurs opérateurs: soit une recherche francophone portant sur la notion de "sang du christ", "christ en sang" etc.; on veut exclure les occurrences commerciales, ainsi que les sites français, canadiens, belges et suisses, les .org, les .net ainsi que les références au sida ou au saint-suaire: on peut imaginer la ligne de commande suivante: (Christ NEAR sang) AND NOT (sida OR ".it" or suaire or ".be" or ".ch" or ".com" or ".ca" or ".fr" OR ".org" OR ".net") (altavista nous donne 285 000 résultats pour cette recherche, alors qu'il nous donne 3 660 000 résultats pour +sang +Christ) Opérateurs sur chaînes de caractères "La passion selon Saint-Matthieu" Google 12 100 résultats, idem avec "La passion selon Saint Matthieu" La passion selon Saint-Matthieu Google 170 000 résultats Orthographe "La passion selon Saint-Mathieu" Google 490 pages Langues & pays Translitérations: distinguer p. ex. Roublev (env. 56 300 occurrences sur Google) de Rublev (278 000 occurrences), Rubliov donne 11 000 occurrences et Google suggère "Essayez avec cette orthographe : Rublyov ", 29 100 pour Rublyov, alors que Rublef ("Essayez avec cette orthographe : Rublev ") et Rubleff (Essayez avec cette orthographe : Rouble !!!!) ne donnent que respectivement 91 occurrences et 174 De manière générale, il peut toujours être utile de chercher dans des moteurs de recherches nationaux Caractères non-latins & autres langues moteurs russes: aport.ru , metabot.ru (v. angl. dispo.), www.ru (angl.), krusenstern.de (ru/angl/all) moteurs asiatiques 2 sur 5 14.9.2006 0:30 Moteurs de recherche - Wiki http://tecfaseed.unige.ch/~oberson/mediawiki/index.php?title=Mote... Multimédia images, sons, mp3 ex. napoléon (image), churchill (audio) Recherche DANS une page web Une fois la page chargée, vous pouvez utiliser l'outil de recherche interne de votre navigateur, qui vous permet de situer précisément l'emplacement de la chaîne de caractères recherchée (Ctrl-F ou menu Edition-Rechercher); de plus, toutes les pages chargées par cette éditeur accepteront la même chaîne de recherche par défaut, si vous tapez Ctrl-F. exemple: CTRL-F "paresse" dans le droit à la paresse de P. Lafargue Google Google est aujourd'hui le moteur le plus performant, tant au niveau de la rapidité des résultats que de leur quantité et surtout de leur qualité. Cette qualité se base notamment sur le système original de Google dans le classement des résultats. La pondération se fait sur 2 critères: * la popularité, comme c'est le cas sur la plupart des autres moteurs, calculée en fonction de la demande * l'importance (qualité du contenu) est calculée de manière intéressante, selon le principe suivant: "Essentiellement, Google interprète un lien de la page A vers la page B comme un vote, de la page A, en ATTENTION: malgré une renommée moins commerciale, Google, comme ses concurrents, propose à ses clients "d'acheter" une place dans sa hiérarchie. Moyennant paiement, vous pouvez contraindre la pondération en votre faveur et ainsi pousser le moteur à vous placer dans les premiers résultats. Opérateurs spéciaux chez Google Choisir en haut à droite "Recherche avancée" ou "Advanced Search". Vous disposez maintenant d'un formulaire vous facilitant la recherche avancée. Toutes les options sont aussi disponibles "manuellement", c'est-à-dire en tapant directement dans la fenêtre de recherche et la grammaire est spécifiée à http://www.google.com/help/operators.html. Parmi les opérateurs intéressants, relevons: cache: permet de visualiser le cache de Google (les archives de la base), très utile lorsque la ressource n'est plus ou pas disponible sur internet. On obtient le même résultat en clickant sur l'option "Cached" dans la liste de résultats d'une recherche Google standard. link: permet de visualiser les pages recensées par google qui pointent sur l'adresse spécifiée spell: lorsque vous n'êtes pas sûr de l'orthographe d'un terme, Google vous propose termes approchants site: TRES utile, restreint la recherche au site spécifié allintitle: permet de spécifier que l'on ne recherche que dans le titre de la page (ce qui apparaît tout en haut de la fenêtre de votre navigateur quand vous affichez la page); défaut: certains sites ne spécifient rien dans le titre. Avantage: discriminant. filetype:pdf permet de limiter la recherche au fichiers PDF (portable document format), utile pour la recherche de texte intégral 3 sur 5 14.9.2006 0:30 Moteurs de recherche - Wiki http://tecfaseed.unige.ch/~oberson/mediawiki/index.php?title=Mote... Veille sur ressources, liens & textes intégraux Enfin, vous êtes parvenus sur un ou plusieurs sites qui semblent contenir de l'information sur votre requête. Enregistrez leur adresse - les sites bougent, et sont susceptibles de s'enrichir - ou, malheureusement, de disparaître, nécessitant ainsi un travail de veille. Dans l'idéal, il faut enregistrer aussi les données localement, les sites intéressants ayant une fâcheuse tendance à bouger ou pire à disparaître. Retournez régulièrement sur vos signets de référence: à titre d'exemple, le site Athena de Genève, qui proposait quelques grands classiques de la littérature française en texte intégral il y a quelques années, propose maintenant de très nombreux classiques. D'autre part, les sites ressources sont très utiles pour trouver directement de l'information pertinente, à travers leur page de liens: exemple, par la page de liens d'Athena j'ai découvert Gallica. (voir liens sur texte intégral / full text) Suivre l'actualité des développements, sur des sites de veille spécialisés comme slashdot.org afin de savoir quel système à le vent en poupe, et lequel est moribond (permet d'éviter de faire de grosses erreurs); utiliser les RSS S'abonner à des forums / veilles automatiques, ex. google accueil personnalisé Prendre le café avec des informaticiens de temps en temps (pas trop souvent sinon ça donne des céphalées) Moteurs de recherche sémantiques / topic maps Citons engin quelques outils intéressants pour l'avenir de la recherche web: 1. Oingo, un "meaning-based crawler" - racheté par Google en 2003 et plus opérationnel depuis... 2. Teoma, un moteur sémantique très performant (la relève d'oingo) 3. Kartoo, métamoteur de recherche qui présente ses résultats sous la forme d'une carte Topic Maps: http://aqua.queenslibrary.org/ Exemple: recherche du point de vue du Vatican sur génocide arménien Opération difficile s'il en est, on peut "bricoler" - avec les imperfections de ce genre d'approche. Prenons l'exemple suivant: comment savoir quelle est la prise de position du Vatican sur la décision, fin 2000, du gouvernement français de reconnaître le génocide arménien, si possible en français. Solution: Il faut d'abord localiser le site web du vatican, on peut p. ex. taper dans Google "website vatican" et on obtient en tête de liste l'adresse, soit www.vatican.va. Ensuite, il faut chercher dans le site du Vatican si l'information est disponible. Pour ce faire, taper (toujours dans Google): "site:vatican.va génocide arménien" Lors de ma première recherche (2000), on n'obtenait qu'une seule occurrence - la bonne, à savoir la prise de position officielle de Jean-Paul II sur la question, en français de surcroît. Depuis, d'autres pages sont venues "parasiter" la recherche, s'inscrivant après celle du Vatican, mais la procédure reste valable puisque le premier résultat est le bon. Exemple plus complexe: Calvin & Hobbes google teoma (ask.com) kartoo Problème des faux amis, limites du booléen: "The worm of conscience" il y a un concept qui concerne Thomas Hobbes et Jean Calvin: Récupérée de « http://tecfaseed.unige.ch/~oberson/mediawiki/index.php/Moteurs_de_recherche » Dernière modification de cette page le 1 mai 2006 à 21:02. Cette page a été consultée 40 fois. Privacy policy 4 sur 5 14.9.2006 0:30 Moteurs de recherche - Wiki http://tecfaseed.unige.ch/~oberson/mediawiki/index.php?title=Mote... À propos de Wiki Avertissements 5 sur 5 14.9.2006 0:30