Moteur de recherche: c`est quoi - Association Baccon Informatique

Transcription

Moteur de recherche: c`est quoi - Association Baccon Informatique
Moteur de recherche: c'est quoi ?
Un moteur de recherche est une application web permettant de retrouver des ressources (pages web, articles de
forums Usenet, images, vidéo, fichiers, etc.) associées à des mots quelconques. Certains sites web offrent un moteur
de recherche comme principale fonctionnalité ; on appelle alors moteur de recherche le site lui-même (Google
Video par exemple est un moteur de recherche vidéo).
Instrument de recherche sur le web constitué de « robots », encore appelés bots, spiders, crawlers ou agents qui
parcourent les sites à intervalles réguliers et de façon automatique (sans intervention humaine, ce qui les distingue
des annuaires) pour découvrir de nouvelles adresses (URL). Ils suivent les liens hypertextes (qui relient les pages les
unes aux autres) rencontrés sur chaque page atteinte. Chaque page identifiée est alors indexée dans une base de
données, accessible ensuite par les internautes à partir de mots-clés.
Fonctionnement des moteurs de recherche
Avant de passer à l’optimisation d’un site Internet pour les moteurs de recherche, il importe dans un premier temps de bien sonder
le fonctionnement d’un moteur de recherche.
De manière schématique, un moteur de recherche se divise en quatre parties :
Un robot (araignée) qui cherche des sites Web sur Internet
Un indexeur qui analyse les pages trouvées
Une base de données dans laquelle sont stockés les pages et le résultat de l’analyse
Un site Internet sur lequel les internautes peuvent consulter la base de données à partir d’un mot clé
L’araignée
L’araignée (spider), également appelée ‘crawler’ ou ‘robot’ en anglais, est un logiciel qui cherche des sites et pages
Web sur Internet. Pour ce faire, le robot suit les liens à partir des sites Internet qu’il a trouvés plus tôt. En suivant les liens
il passe d’une page Web à l’autre. Les pages trouvées sont transmises à l’indexeur pour être traitées.
L’araignée de Google s’appelle ‘GoogleBot’. L’analyse des statistiques concernant le nombre de visiteurs ou des fichiers
historiques d’un site Web permet souvent d’identifier la visite d’une araignée. Le terme ‘GoogleBot’ est dans ce cas
indiqué à la place du nom du navigateur Web du visiteur du site. MSNBot et Yahoo sont deux autres araignées bien
connues
L’araignée cherche non seulement des nouvelles pages Web, mais se rend également régulièrement sur les pages
connues pour contrôler si de nouvelles informations ont été ajoutées. Le GoogleBot visite chaque page Web toutes les six
semaines environ. Si le site renouvelle régulièrement ses informations, l’araignée y reviendra plus souvent. Les sites
d’actualité qui publient chaque jour de nouvelles informations sont par conséquent visités chaque jour (ou presque) par les
robots balayeurs.
Lors de la visite d’un nouveau site Web, le robot de Google parcourt uniquement la page d’accueil. Ce n’est que quelques
jours plus tard qu’il reviendra pour télécharger le reste du site. En d’autres termes, il est normal que, dans un premier
temps, seule la page d’accueil de votre nouveau site Internet soit répertoriée dans Google, les autres suivant seulement
quelques jours plus tard. Pour savoir si votre site a déjà reçu la visite d’une araignée, le plus simple est d’entrer la requête
suivante dans Google : ‘site:www.monsite.be’, www.monsite.be étant l’URL de votre site Internet. Google procédera à
l’affichage de toutes les pages Web du site qui ont été trouvées par l’araignée.
L’indexeur
Commentaire [CD1]: En informatique
, une application web (aussi
appelée web app, de l'anglais) est
une application manipulable grâce à
un navigateur web.
Commentaire [CD2]: Usenet est un
système en réseau de forums, inventé
en 1979
Commentaire [CD3]: Un robot
d'indexation (ou araignée du Web ;
en anglais web crawler ou web
spider) est un logiciel qui explore
automatiquement le Web
Commentaire [CD4]: Un annuaire
web, répertoire web, annuaire
Internet ou répertoire Internet est
un site Web proposant une liste classée
de sites Web.
Commentaire [CD5]: de
l'anglais Uniform Resource Locator
désigne une chaîne de
caractères utilisée pour désigner une
adresse web
Commentaire [CD6]: Les hyperliens
sont notamment utilisés dans le World
Wide Web pour permettre le passage
d'une page Web à une autre d'un clic.
L’indexeur est le composant le plus puissant d’un moteur de recherche. Après avoir analysé le contenu et le contexte des pages
trouvées, il essaie de déterminer les mots clés en rapport avec le contenu de la page Web.
Chaque moteur de recherche possède sa propre équipe de mathématiciens qui développent des algorithmes à partir desquels
l’indexeur peut analyser le contenu des pages Web. C’est la puissance de cet algorithme qui détermine si le moteur de recherche
est en mesure de proposer des résultats pertinents à ses utilisateurs. Inutile de dire qu’un moteur de recherche garde secret le
fonctionnement exact de son algorithme et que des adaptations et améliorations ont lieu régulièrement. Une page Web est
analysée suivant une liste d’une quarantaine de points afin de trouver les mots clés pertinents :
L’URL de la page
Le titre de la page
La répétition de certains mots clés
Les métadonnées de la page
Les descriptions des images qui figurent sur la page
...
Google et la pertinence des résultats
Google utilise un système de classement appelé PageRank pour classer les résultats d'une recherche du site le plus
pertinent au moins pertinent. En fait ,plus l'adresse d'un site est répertorié par d'autres sites, plus ce site est pertinent:
chaque lien pointant vers une page est considéré comme un vote pour cette page.
Ainsi, les premiers résultats affichés par Google ne sont pas toujours les plus pertinents. Aucun moteur de recherche
ne prend en compte le contenu réel des sites pour évaluer leur pertinence…ce ne sont que des machines !
Les Opérateurs boléens
Les requêtes simples:
o
Avec Google mais aussi avec la plupart des moteurs de recherche, l’opérateur « AND » ou « ET » peut être
résumé par un espace.
Exemple : pour obtenir les résultats pour canard et orange :
Canard orange
o
Obtenir une phrase exacte ou un nom propre il suffit de mettre l’expression entre guillemets. Le moteur de
recherche comprend alors qu’il doit chercher exactement la même expression que celle décrit entre les
guillemets. Il faut donc faire attention aux fautes d’orthographe, et penser en amont à ce qu’aurait pu écrire le
webmaster.
Exemple : pour obtenir les résultats pour un canard à l’orange :
« Canard à l’orange »
o
Ne pas inclure de mots
Lorsque l’on effectue certaines recherches, la nature de certains mots clefs bruite les résultats. Par exemple,
lorsque l’on effectue une recherche sur les moteurs de recherche, les sites sur les moteurs de voiture peuvent
sortir dans les résultats. Pour éviter cela, il suffit d’inclure l’opérateur – devant le mot à enlever.
Exemple : pour obtenir les résultats de moteur de recherche sans voiture:
Moteur recherche –voiture
Requêtes avancées:
o
Trouver des synonymes ou des termes approchant
Lors de la création d’une requête, il est parfois nécessaire d’utiliser des mots approchants. Pour cela, il est
possible d’utiliser l’opérateur ~ qui cherchera les synonymes du mot principal.
Exemple : pour obtenir les résultats approchant de beau bateau :
Bateau ~beau
o
Rechercher des alternatives
Afin d’avoir dans les résultats le maximum d’informations disponible sur un sujet donné, l’opérateur OR ou |
permet de rechercher des alternatives.
Exemple : pour obtenir des fraises sauvages ou des fraises des bois
Fraises (sauvages OR « des bois »)
o
Utilisation des parenthèses
Les parenthèses, comme en mathématiques, permettent de prioriser des éléments. Dans une requête, elles
permettront de mettre en confrontation deux mots ou expression.
Exemple : pour obtenir des résultats sur l’intelligence économique ou stratégique :
Intelligence (économique OU stratégique)
o
Rechercher entre deux « périodes »
Google permet de rechercher des termes entre deux périodes numériques.
Exemple : acheter un vélo entre 150 et 250€. Il faut utiliser l’opérateur
« .. »
Vélo 150€..250€
Les métamoteurs
Un métamoteur (ou méta-moteur) ou un méta-chercheur est un moteur de recherche qui puise ses
informations à travers plusieurs moteurs de recherche généralistes. De manière plus précise, le métamoteur
envoie ses requêtes à plusieurs moteurs de recherche et retourne les résultats de chacun d'eux. Le
métamoteur permet aux utilisateurs de n'entrer le sujet de leur recherche qu'une seule fois tout en accédant
aux réponses de plusieurs moteurs de recherche différents.
Un métamoteur élimine les résultats similaires ; par exemple, si Google et Yahoo! renvoient sur les deux
mêmes liens, le métamoteur ne va l'afficher qu'une seule fois dans la liste des résultats. Enfin, un métamoteur
trie les résultats pour fournir en premier les pages fournies par plusieurs moteurs. Certains métamoteurs
permettent en outre de mélanger une fonction annuaire (les résultats sont classés par thèmes) et une fonction
moteur. Cela permet d'avoir une double vue sur les résultats.
Les différents métamoteurs
Copernic Agent (logiciel pour Windows)
http://www.metamoteur.net/
https://ixquick.fr/ (Métamoteur international avec la possibilité de rechercher en 14 langues. Option
pour trouver des fichier MP3, les images et les news.)
http://www.seek.fr/
http://mamma.com/
http://www.tinooo.com/index.php?h=fr
http://www.startissimo.com/
Commentaire [CD7]: Ixquick, de la
société Surfboard Holding BV, est
un métamoteur de recherche sur
le Web. Sa spécificité est le respect de
la vie privée de l'utilisateur : Ixquick
affirme ne conserver aucune trace
numérique des recherches effectuées1,
pas même l'adresse IP2.
Commentaire [CD8]: métamoteur
personnalisable
Commentaire [CD9]: Ce service
centralise la recherche depuis une
dizaine de moteurs. Option pour
trouver des sons et des images. A
la fois moteur de recherche et
multimoteur.

Documents pareils

Rechercher une information sur l`Internet

Rechercher une information sur l`Internet Les principaux moteurs de recherche Son adresse Ses caractéristiques www.google.fr Sobre, il classe les sites par cote de popularité Ne prend pas en compte les majuscules Tous les termes d’une expr...

Plus en détail