et Métamoteurs

Transcription

et Métamoteurs
Moteurs
et Métamoteurs
de recherche
Sommaire :
P. 2
P. 3
P. 4
P. 5
P. 6
Principe & Mode d’emploi
Opérateurs logiques
Evaluation de l’information
Principaux moteurs
Principaux métamoteurs
1
Gérard Moisan / Alain Larhant - [email protected]
www.tic22.net
INFORMATIQUE et MULTIMEDIA
Moteurs et métamoteurs de recherche
Sommaire :
P. 2 Principe & mode
d’emploi
P. 3 Opérateurs logiques
P. 4 Evaluation de l’information
P. 5 Principaux moteurs
P. 6 Principaux métamoteurs
Définition
Le Web met à la disposition des internautes trois types d’outils afin de leur permettre de mener à terme
leurs recherches :
Moteur de recherche :
Il s’agit d’un programme qui indexe de façon automatique le contenu de différentes ressources Internet,
plus particulièrement de sites Web, et qui permet, à l'aide d'un navigateur, de rechercher de l'information en se servant de mots-clés ou de requêtes en texte libre, et d'avoir accès à l'information ainsi trouvée.
Annuaire ou catalogue :
L’indexation des sites y est assurée par des documentalistes. La recherche peut donc s’opérer à partir
d’une classification raisonnée sur des catégories pré-établies où sur les sites eux-mêmes.
De par la nature même de l’indexation, le nombre de sites répertoriés y est moins important qu’avec un
moteur de recherche.
Métamoteur :
Un métamoteur permet à partir d’une même requête, d’effectuer une recherche simultanée sur plusieurs moteurs et annuaires.
Principe
Classement des sites
Français les
plus visités :
Avril 2004
1. Google 70.3%
2. Yahoo 10.6%
3. MSN 4.5%
4. AOL 4.2%
5. Wanadoo 3.47%
6. Free 2.2%
7. Lycos 1.0%
8. Altavista 0.8%
9. Tiscali 0.7%
10. Club Internet 0.6%
11. Autres 0.4%
Souvent assimilés à d’énormes archives, les moteurs
de recherche constituent la principale ressource à
disposition des utilisateurs pour la recherche d'informations sur Internet.
Les moteurs de recherche mémorisent la plupart
du contenu des pages recensées. Grâce à ce
système, l’actualisation des données est assurée
presque en temps réel.
La collecte de ces informations se fait au travers
d’un référencement de pages Web.
Dans la plupart des cas, cette opération est automatique.
Elle est assurée par l’intermédiaire de robots logiciels dédiés qui scrutent en permanence la toile à
la recherche de nouvelles données destinées à
enrichir les bases.
Pour autant, il est pratiquement impossible de
répertorier tout le Web.
A titre d’exemple, le nombre total de pages recensées par Altavista est de 550 millions, celui de
Google (le moteur ayant l'archive la plus complète) de 1.3 milliards. On estime à environ 5 milliards le nombre de pages Web disponibles sur le
Web (2002).
Mode d’emploi
Le principe d’utilisation d’un moteur de recherche reste invariable quel que soit le logiciel utilisé :
Un ou plusieurs mots-clés portant sur un thème choisi permettent en quelques secondes d’obtenir une
liste de pages Web contenant les mots demandés.
Quelques règles élémentaires :
Commencez votre recherche en utilisant des termes ou des phrases spécifiques. Si la recherche s’avère infructueuse, utilisez alors des termes plus généraux.
S’il vous arrive de rechercher un nom propre (ville, nom de famille), mettez la lettre initiale en majuscule.
Placez les phrases entre guillemets (ex. : " technologie de l’information et de la communication"). De
cette façon, les moteurs de recherche prendront en compte la totalité de la chaîne de caractères
introduite.
L'ordre dans lequel vous positionnez les termes pour la recherche est significatif. Placez les mots les
plus importants d'abord.
Si vous n’obtenez pas ce que vous recherchez dans les 20 premiers sites, changez les mots utilisés
dans la recherche ou essayez un autre moteur de recherche.
2
Gérard Moisan / Alain Larhant - [email protected]
www.tic22.net
INFORMATIQUE et MULTIMEDIA
Moteurs et métamoteurs de recherche
Sommaire :
Recherche avancée
P. 2 Principe & mode
d’emploi
P. 3 Opérateurs logiques
P. 4 Evaluation de l’information
P. 5 Principaux moteurs
P. 6 Principaux métamoteurs
Le contenu d'un site est décrit soit par son emplacement dans une catégorie spécifique d'un catalogue
(annuaire) soit par les mots qui le composent ou le décrivent.
Ainsi, pour retrouver un document, on peut demander au catalogue d’afficher tous les sites appartenant à une certaine catégorie ou demander au moteur de recherche tous ceux liés à une requête spécifique. Si l’une des qualités d'un catalogue est que son utilisation est assez intuitive, l'interrogation d'un
moteur de recherche peut s'avérer plus problématique.
Un moteur de recherche associe à chaque document les mots qu'il contient ainsi que les mots ajoutés
par l'auteur pour sa description (Meta balises).
Par une idée précise et claire de l’objet de la recherche, il est possible de déterminer de quels mots le
document peut être composé ou lesquels peuvent le décrire. La meilleure manière de procéder
consiste à commencer la recherche avec un mot, une phrase très spécifique, comme pourrait l'être un
terme technique ou le nom d'une personne. Dans la plupart des cas, cette procédure est suffisante.
Il peut être utile d’affiner la recherche en modifiant le mot-clé avec ses déclinaisons grammaticales
(masculin/féminin, singulier/pluriel, changement de temps pour les verbes, etc.).
Opérateurs logiques
Les fonctions de recherche avancée varient selon le moteur de recherche. Tous acceptent cependant
les opérateurs logiques. Pour les utiliser, il est souvent nécessaire d'accéder à une interface spéciale
pour les recherches avancées où sont, en règle générale, présentes beaucoup d'autres fonctions.
Les opérateurs logiques ou booléens tirent leur nom de George Boole, mathématicien anglais de la première moitié du dix-huitième siècle. Il formalisa la logique binaire qui est à la base des calculateurs
modernes.
ASTERISQUE ( * )
Certains moteurs de recherche acceptent l'astérisque à
la place d'une ou de plusieurs lettres.
Il peut donc être utilisé pour rechercher toutes les déclinaisons d'un mot, comme le genre et le nombre de substantifs ou le temps des verbes.
Par exemple, "anim*" trouvera animal, animation, animaux, animalier et tous les autres mots qui commencent
par "anim".
L'astérisque peut aussi être utilisé également à l'intérieur
d'un mot en cas de doute sur l'orthographe de ce dernier.
GUILLEMETS ( " " )
Ils indiquent au moteur de recherche que leur contenu
doit être traité comme une phrase, comme une séquence de mots qui doivent apparaître dans le texte
comme un bloc unique (chaîne) (par exemple
"Technologie de l’information et de la communication").
Si nous insérons une phrase sans l'entourer de guillemets,
le moteur de recherche interprétera les mots composant
la phrase, comme liés par OR, et ainsi, au lieu de resserrer le champs de recherche, il l'élargira.
NEAR ou ADJ
Deux ou plusieurs mots liés par NEAR doivent apparaître
ensemble dans le texte et à une distance limitée
(généralement la distance maximum est de 10 mots).
Cette fonction peut être utile pour chercher des noms
de personnes, où le nom et le prénom peuvent apparaître dans un ordre différent ou encore séparés par des
articles ou des titres.
AND (ET)
L’association de plusieurs mots avec
l'opérateur AND, restreint la recherche
aux documents contenant tous les mots
indiqués (celui-ci ET celui-là). Les mots
sont introduits par ordre d'importance.
NOT (Sauf)
l'opérateur NOT (AND NOT) permet
d’exclure un mot, une expression de la
recherche. Dans l’interface du moteur
de recherche, Not peut être remplacé
par le signe (-)
OR (OU)
Cet opérateur induit une condition de
choix dans une requête de recherche.
L'utilisation de OR permet d’élargir le
champ de recherche. Dans l'interface
de recherche, OR est peut être remplacé par le signe (+).
PARENTHESES
Tous les opérateurs logiques peuvent
être insérés dans des expressions complexes du type :
technologie AND (information OR communication)
Comme en algèbre, il est possible d'ouvrir des parenthèses à l'intérieur d'autres
parenthèses.
3
Gérard Moisan / Alain Larhant - [email protected]
www.tic22.net
INFORMATIQUE et MULTIMEDIA
Moteurs et métamoteurs de recherche
Sommaire :
P. 2 Principe & mode
d’emploi
P. 3 Opérateurs logiques
P. 4 Evaluation de l’information
P. 5 Principaux moteurs
P. 6 Principaux métamoteurs
Evaluation de l’information
La multiplicité et la diversité de la nature des sources disponibles sur le Web invitent à la plus grande
prudence quant à la validité des informations obtenues.
Il n’existe à ce jour aucun organisme ni aucune forme de contrôle à même d’authentifier la validité des
documents mis à la disposition de la communauté.
.
Le protocole de validation proposé ci-dessous met l’accent sur quelques points clés pouvant vous guider dans l’évaluation des documents obtenus.
Auteur
L'auteur du document est-il identifié ?
Peut-on le contacter ?
Est-ce un spécialiste du domaine ?
S'exprime-t-il au nom d'une institution ou à titre personnel ?
Site Web
S'agit-il s'un site institutionnel, d'un site associatif ou d'un site
commercial ?
Sa compétence sur le sujet et/ou sa fiabilité sont-elles reconnues ?
Ce site pointe-il vers des sites fiables ?
Les sites fiables pointent-ils vers lui ?
S'agit-il d'un site français ?
S'agit-il d'un site francophone ? européen ? autre ?
Quels sont les objectifs du site et quel est le public visé ?
Information
Est-ce bien le type d'informations dont j'ai besoin ?
Le niveau des informations est-il adapté ?
Est-il suffisamment simple ou au contraire suffisamment approfondi ?
Document
Le document présente-t-il un intérêt réel ?
Apporte-t-il des éléments nouveaux ?
La date du document est-elle indiquée ?
Le document nécessite-t-il une actualisation ?
Si oui, quelle est la date de mise à jour ?
Dans quel but le document a-t-il été réalisé ?
Quel est le public visé ?
Présentation
L'information est-elle rédigée clairement ?
Le document est-il bien structuré ?
Les sources sont-elles clairement identifiées ?
4
Gérard Moisan / Alain Larhant - [email protected]
www.tic22.net
INFORMATIQUE et MULTIMEDIA
Moteurs et métamoteurs de recherche
Sommaire :
P. 2 Principe & mode
d’emploi
P. 3 Opérateurs logiques
P. 4 Evaluation de l’information
P. 5 Principaux moteurs
P. 6 Principaux métamoteurs
www.google.fr
www.altavista.com
Principaux moteurs de recherche
Google est l’un des moteurs de recherche les plus utilisés sur la planète.
Réellement opérationnel en juin 1999, Google a été créé en septembre 1998 par 2 étudiants de l'Université de Stanford (Californie)
Le moteur de recherche est disponible dans plus de 84 pays et supporte plus de 96 langues.
Il compte à ce jour plus de 4 milliards de pages indexées.
Depuis le printemps 2002, Google propose un correcteur orthographique de requête. Google affirme
être en outre "La solution de recherche d'image la plus complète du Web". Ce moteur permet en
effet d’effectuer des recherches parmi plus de 880 millions d'images.
AltaVista (vu d'en haut) est né au cours du printemps 1995 de l’imagination d’une équipe de scientifiques du laboratoire de recherche en informatique de Palo Alto, en Californie. Ces derniers ont imaginé une méthode de stockage dans un index de recherche rapide de n'importe quel mot issu de
n'importe quelle page HTML d'Internet.
Ce moteur « poids lourd » du net comptait plus de 1,9 milliard de pages indexées à l'été 2003 (dont
plus de 200 millions de pages multimédia : image, audio, video)
AltaVista se caractérise aussi par d'autres inventions notables, comme la première fonction de
recherche multilingue jamais créée sur Internet et la première technologie de recherche prenant en
charge le chinois et les langues coréennes. Altavista est l’inventeur de « BabelFish », le premier
service de traduction machine sur le Web, capable de traduire des mots, des phrases ou des sites
Web entiers en anglais, espagnol, français, allemand, portugais, italien et russe, et vice-versa.
Avec plus de 135 000 sites indexés, Yahoo est l'un des sites les plus connus, les plus copiés et les plus
fréquentés du web.
Idéal pour rechercher des informations sur un sujet que l'on connaît déjà, pour trouver des entreprises ou institutions, yahoo est en fait un annuaire.
Sur ce portail, on trouve de tout (mail, actualités, club...).
www.yahoo.fr
Depuis début 2004, Yahoo devient un moteur de recherche.
En choisissant un des 4 onglets, il est possible d’effectuer des recherches au sein du Web français et
mondial, du guide Web (annuaire Yahoo!), d'une banque d'images et parmi des dépêches d'actualités des grandes agences de presse. Il est possible d’affiner une recherche à l'aide de mots clés associés.
Voila est le moteur d'origine française le plus utilisé. Il Indexe plus de 120 millions de pages en français
et propose un annuaire thématique (le Guide Voila) comme la plupart de ses concurrents.
Avec le temps, les résultats sont de plus en plus pertinents. Voila représente un bon complément à la
base "française" de Google. Ce moteur est idéal pour les recherches "grand public".
www.voila.fr
Voila est développé par la société Echo, filiale de Wanadoo.
www.exalead.fr
Initiative française en matière de moteur de recherche, Exalead n'est pas à proprement parler un
moteur on-line. La société Exalead met à disposition sur son site, depuis l'été 2001, des démonstrations de sa technologie.
Cette start-up créée par un ancien chercheur de l'Ecole des Mines propose un moteur qui repose
essentiellement sur l'analyse statistique. La technologie utilisée analyse les documents trouvés à l'issue d'une requête pour y déceler les mots les plus fréquents ou "groupes nominaux significatifs". Ces
groupes s'affichent sur la colonne de gauche sous la rubrique "mots-clés". Un clic sur une catégorie
permet d'affiner la recherche.
5
Gérard Moisan / Alain Larhant - [email protected]
www.tic22.net
INFORMATIQUE et MULTIMEDIA
Moteurs et métamoteurs de recherche
Sommaire :
P. 2 Principe & mode
d’emploi
P. 3 Opérateurs logiques
P. 4 Evaluation de l’information
P. 5 Principaux moteurs
P. 6 Principaux métamoteurs
Métamoteurs de recherche
Un métamoteur est un logiciel permettant de lancer une requête dans plusieurs moteurs de recherche
simultanément.
Les métamoteurs présentent généralement leurs résultats, indexés sous forme de résumés classés par
catégories. Certains métamoteurs peuvent éliminer les doublons, les liens brisés et les encarts publicitaires.
Considéré actuellement comme l'un des meilleurs métamoteurs en terme de pertinence et de présentation des résultats, Vivisimo peut interroger simultanément 9 moteurs mais également des sites
de news (YahooNews, NY Times, Wired, CNN...). La forme des résultats est entièrement paramétrable.
www.vivisimo.com
Url : (Uniform Ressource
Locator)
Adressage standartd de
n’importe quel document
multimédia...
L'originalité de Vivisimo est de proposer une "auto catégorisation des résultats" : Ceux-ci sont automatiquement classés par catégories permettant de visualiser les différents domaines contextuels
abordés par la requête. La page de résultats se divise donc en 2 parties : les urls dans la fenêtre principale ; à gauche, des dossiers présentant les différents sujets abordés par la requête.
La navigation se voit donc très simplifiée et pratique.
KartOO est certainement le plus beau mais aussi le plus déroutant des métamoteurs de recherche.
Lancé en avril 2001 par une société française de Clermont-Ferrand, Kartoo recherche sur le web
mondial ou français (Google, Voila, AlltheWeb, AltaVista, Exalead, MSN, Nomade, Open Directory,
Lycos, Yahoo!, Hotbot, Looksmart, Teoma et Wisenut).
www.kartoo.com
www.ixquick.com
Il présente les résultats sous la forme d'une carte reliant entre eux les concepts voisins de la thématique de recherche. L'affichage s'effectue au choix en Flash ou Html (selon la puissance de l’ordinateur et la qualité de la connexion Internet).
Le graphisme de la carte est paramétrable (formes, couleurs, liens). Les résultats sont pertinents, le
choix de représentation graphique assez clair.
Ixquick est un métamoteur rapide, pertinent, à la présentation claire.
Il interroge des moteurs différents selon la version choisie (moteur anglais et américains, français, espagnols, portugais, suédois, italiens, néerlandais, turcs, etc...!). Il recherche également des images et
fichiers Mp3.
Dans sa version "française", il interroge notamment l'Open Directory , All the Web, LookSmart, La Toile
du Québec, Lycos.fr et aussi Ask Jeeves, Espotting et FindWhat.
Lancé en 2001, MapStan Search présente les résultats de la recherche sur un "plan de quartier" où les
pages sont regroupées par sites.
Les places représentent les sites et sont reliées par des rues indiquant leur similarité.
www.mapstan.net
Lorsque plusieurs sites sont toujours associés dans les mêmes recherches, ils sont regroupés au sein
d'une même place.
Il est ainsi possible de bénéficier d'une synthèse visuelle des résultats et des proximités entre les pages.
Sources :
www.intelligence-center.com
6
Gérard Moisan / Alain Larhant - [email protected]
www.tic22.net