Open source - Wikipédia

Transcription

Open source - Wikipédia
Moteurs de recherche - Wiki
http://tecfaseed.unige.ch/~oberson/mediawiki/index.php?title=Mote...
Moteurs de recherche
Un article de Wiki.
Mali
Sommaire
1 Généralités
2 Veille sur les moteurs de recherche
3 Limites
4 Troncatures & opérateurs booléens: AND, OR, NOT, NEAR
5 Near
6 Opérateurs sur chaînes de caractères
7 Multimédia
8 Recherche DANS une page web
9 Google
10 Moteurs de recherche sémantiques / topic maps
Généralités
lire les notices descriptives des opérateurs de recherche, et consulter régulièrement les sites donnant des
informations sur les moteurs de recherche, p. ex. Search Engine Watch ou Abondance (en français)
Types d'outils disponibles + exemples
moteurs de recherche Google, Altavista
moteurs régionaux Virgilio (Italie)
répertoires (les données sont classées par catégories, disciplines etc.) Yahoo
encyclopédies (généralistes) Britannica
bases de données spécialisées dans un domaine particulier IMDb (Internet Movie Database)
semantic crawlers: kartoo, teoma
métamoteurs: Metacrawler, copernic
wikis: wikipedia
http://scholar.google.com/
What is Google Scholar? Google Scholar provides a simple way to broadly search for scholarly literature.
From one place, you can search across many disciplines and sources: peer-reviewed papers, theses,
books, abstracts and articles, from academic publishers, professional societies, preprint repositories,
universities and other scholarly organizations. Google Scholar helps you identify the most relevant
research across the world of scholarly research.
http://scholar.google.com/
Veille sur les moteurs de recherche
2 services anglophone (the best): http://www.searchenginewatch.com/
francophone (pas mal): http://www.abondance.com/
1 sur 5
14.9.2006 0:30
Moteurs de recherche - Wiki
http://tecfaseed.unige.ch/~oberson/mediawiki/index.php?title=Mote...
Limites
temps, indexation = forte fluctuabilité ex. "Andrei Roublev" sous Metacrawler donne 27 occurrences
dont 0 pour Altavista, même recherche avec Altavista = 139 occurrences; à 30 secondes d'intervalle,
Metacrawler donne 77 occurrences!
Troncatures & opérateurs booléens: AND, OR, NOT, NEAR
AND OR NOT NEAR(=NEAR) AND OR NOT Source images:
http://www.nifl.gov/nifl/fellowship/reports/susanc/boole1.htm
Source images: http://chid.nih.gov/help/help.html Troncatures: particulièrement utiles, puisqu'elles
permettent de définir un critère de recherche variable, p. ex. bogomil* AND bulgar* identifiera bogomil,
bogomile, bogomiles, bogomilian et idem pour bulgar*. Attention, les troncatures (wildcards en anglais)
varient d'un système à l'autre (en général *, parfois $ ou encore ?).
Le NOT peut être particulièrement intéressant lorsque les résultats de la recherche donnent un grand
nombre d'occurrences, où l'on souhaite éliminer certaines occurrences qui sont responsables en majorité
du bruit. Attention, sur certains sites francophones, le NOT s'écrit SANS. On peut parfois aussi utiliser des
opérateurs mathématiques (+ pour ET, - pour NOT). De manière générale, il faut TOUJOURS consulter
les rubriques d'aides avancées qui expliquent le fonctionnement du moteur de recherche et des options
booléennes. Sur altavista p. ex., l'opérateur NOT s'écrit AND NOT.
Near
(nettement moins utilisé, pas disponible sur google) L'opérateur de proximité NEAR permet de trouver
des sites contenant 2 ou plusieurs termes situés à une "distance" évaluée en nombre de mots.
Combinaison de plusieurs opérateurs: soit une recherche francophone portant sur la notion de "sang du
christ", "christ en sang" etc.; on veut exclure les occurrences commerciales, ainsi que les sites français,
canadiens, belges et suisses, les .org, les .net ainsi que les références au sida ou au saint-suaire: on peut
imaginer la ligne de commande suivante: (Christ NEAR sang) AND NOT (sida OR ".it" or suaire or ".be"
or ".ch" or ".com" or ".ca" or ".fr" OR ".org" OR ".net") (altavista nous donne 285 000 résultats pour cette
recherche, alors qu'il nous donne 3 660 000 résultats pour +sang +Christ)
Opérateurs sur chaînes de caractères
"La passion selon Saint-Matthieu" Google 12 100 résultats, idem avec "La passion selon Saint Matthieu"
La passion selon Saint-Matthieu Google 170 000 résultats
Orthographe "La passion selon Saint-Mathieu" Google 490 pages
Langues & pays Translitérations: distinguer p. ex. Roublev (env. 56 300 occurrences sur Google) de
Rublev (278 000 occurrences), Rubliov donne 11 000 occurrences et Google suggère "Essayez avec
cette orthographe : Rublyov ", 29 100 pour Rublyov, alors que Rublef ("Essayez avec cette orthographe :
Rublev ") et Rubleff (Essayez avec cette orthographe : Rouble !!!!) ne donnent que respectivement 91
occurrences et 174
De manière générale, il peut toujours être utile de chercher dans des moteurs de recherches nationaux
Caractères non-latins & autres langues moteurs russes: aport.ru , metabot.ru (v. angl. dispo.), www.ru
(angl.), krusenstern.de (ru/angl/all) moteurs asiatiques
2 sur 5
14.9.2006 0:30
Moteurs de recherche - Wiki
http://tecfaseed.unige.ch/~oberson/mediawiki/index.php?title=Mote...
Multimédia
images, sons, mp3 ex. napoléon (image), churchill (audio)
Recherche DANS une page web
Une fois la page chargée, vous pouvez utiliser l'outil de recherche interne de votre navigateur, qui vous
permet de situer précisément l'emplacement de la chaîne de caractères recherchée (Ctrl-F ou menu
Edition-Rechercher); de plus, toutes les pages chargées par cette éditeur accepteront la même chaîne de
recherche par défaut, si vous tapez Ctrl-F. exemple: CTRL-F "paresse" dans le droit à la paresse de P.
Lafargue
Google
Google est aujourd'hui le moteur le plus performant, tant au niveau de la rapidité des résultats que de leur
quantité et surtout de leur qualité. Cette qualité se base notamment sur le système original de Google dans
le classement des résultats. La pondération se fait sur 2 critères:
* la popularité, comme c'est le cas sur la plupart des autres moteurs, calculée en fonction de la demande
* l'importance (qualité du contenu) est calculée de manière intéressante, selon le principe suivant:
"Essentiellement, Google interprète un lien de la page A vers la page B comme un vote, de la page A, en
ATTENTION: malgré une renommée moins commerciale, Google, comme ses concurrents, propose à ses
clients "d'acheter" une place dans sa hiérarchie. Moyennant paiement, vous pouvez contraindre la
pondération en votre faveur et ainsi pousser le moteur à vous placer dans les premiers résultats.
Opérateurs spéciaux chez Google Choisir en haut à droite "Recherche avancée" ou "Advanced Search".
Vous disposez maintenant d'un formulaire vous facilitant la recherche avancée. Toutes les options sont
aussi disponibles "manuellement", c'est-à-dire en tapant directement dans la fenêtre de recherche et la
grammaire est spécifiée à http://www.google.com/help/operators.html.
Parmi les opérateurs intéressants, relevons:
cache: permet de visualiser le cache de Google (les archives de la base), très utile lorsque la ressource
n'est plus ou pas disponible sur internet. On obtient le même résultat en clickant sur l'option "Cached"
dans la liste de résultats d'une recherche Google standard.
link: permet de visualiser les pages recensées par google qui pointent sur l'adresse spécifiée
spell: lorsque vous n'êtes pas sûr de l'orthographe d'un terme, Google vous propose termes approchants
site: TRES utile, restreint la recherche au site spécifié
allintitle: permet de spécifier que l'on ne recherche que dans le titre de la page (ce qui apparaît tout en
haut de la fenêtre de votre navigateur quand vous affichez la page); défaut: certains sites ne spécifient
rien dans le titre. Avantage: discriminant.
filetype:pdf permet de limiter la recherche au fichiers PDF (portable document format), utile pour la
recherche de texte intégral
3 sur 5
14.9.2006 0:30
Moteurs de recherche - Wiki
http://tecfaseed.unige.ch/~oberson/mediawiki/index.php?title=Mote...
Veille sur ressources, liens & textes intégraux Enfin, vous êtes parvenus sur un ou plusieurs sites qui
semblent contenir de l'information sur votre requête.
Enregistrez leur adresse - les sites bougent, et sont susceptibles de s'enrichir - ou, malheureusement, de
disparaître, nécessitant ainsi un travail de veille. Dans l'idéal, il faut enregistrer aussi les données
localement, les sites intéressants ayant une fâcheuse tendance à bouger ou pire à disparaître.
Retournez régulièrement sur vos signets de référence: à titre d'exemple, le site Athena de Genève, qui
proposait quelques grands classiques de la littérature française en texte intégral il y a quelques années,
propose maintenant de très nombreux classiques.
D'autre part, les sites ressources sont très utiles pour trouver directement de l'information pertinente, à
travers leur page de liens: exemple, par la page de liens d'Athena j'ai découvert Gallica. (voir liens sur
texte intégral / full text)
Suivre l'actualité des développements, sur des sites de veille spécialisés comme slashdot.org afin de savoir
quel système à le vent en poupe, et lequel est moribond (permet d'éviter de faire de grosses erreurs);
utiliser les RSS S'abonner à des forums / veilles automatiques, ex. google accueil personnalisé
Prendre le café avec des informaticiens de temps en temps (pas trop souvent sinon ça donne des
céphalées)
Moteurs de recherche sémantiques / topic maps
Citons engin quelques outils intéressants pour l'avenir de la recherche web:
1. Oingo, un "meaning-based crawler" - racheté par Google en 2003 et plus opérationnel depuis...
2. Teoma, un moteur sémantique très performant (la relève d'oingo)
3. Kartoo, métamoteur de recherche qui présente ses résultats sous la forme d'une carte
Topic Maps: http://aqua.queenslibrary.org/
Exemple: recherche du point de vue du Vatican sur génocide arménien
Opération difficile s'il en est, on peut "bricoler" - avec les imperfections de ce genre d'approche. Prenons
l'exemple suivant: comment savoir quelle est la prise de position du Vatican sur la décision, fin 2000, du
gouvernement français de reconnaître le génocide arménien, si possible en français. Solution: Il faut
d'abord localiser le site web du vatican, on peut p. ex. taper dans Google "website vatican" et on obtient
en tête de liste l'adresse, soit www.vatican.va. Ensuite, il faut chercher dans le site du Vatican si
l'information est disponible. Pour ce faire, taper (toujours dans Google):
"site:vatican.va génocide arménien" Lors de ma première recherche (2000), on n'obtenait qu'une seule
occurrence - la bonne, à savoir la prise de position officielle de Jean-Paul II sur la question, en français
de surcroît. Depuis, d'autres pages sont venues "parasiter" la recherche, s'inscrivant après celle du Vatican,
mais la procédure reste valable puisque le premier résultat est le bon.
Exemple plus complexe: Calvin & Hobbes google teoma (ask.com) kartoo
Problème des faux amis, limites du booléen: "The worm of conscience" il y a un concept qui concerne
Thomas Hobbes et Jean Calvin:
Récupérée de « http://tecfaseed.unige.ch/~oberson/mediawiki/index.php/Moteurs_de_recherche »
Dernière modification de cette page le 1 mai 2006 à 21:02.
Cette page a été consultée 40 fois.
Privacy policy
4 sur 5
14.9.2006 0:30
Moteurs de recherche - Wiki
http://tecfaseed.unige.ch/~oberson/mediawiki/index.php?title=Mote...
À propos de Wiki
Avertissements
5 sur 5
14.9.2006 0:30

Documents pareils