et Métamoteurs
Transcription
et Métamoteurs
Moteurs et Métamoteurs de recherche Sommaire : P. 2 P. 3 P. 4 P. 5 P. 6 Principe & Mode d’emploi Opérateurs logiques Evaluation de l’information Principaux moteurs Principaux métamoteurs 1 Gérard Moisan / Alain Larhant - [email protected] www.tic22.net INFORMATIQUE et MULTIMEDIA Moteurs et métamoteurs de recherche Sommaire : P. 2 Principe & mode d’emploi P. 3 Opérateurs logiques P. 4 Evaluation de l’information P. 5 Principaux moteurs P. 6 Principaux métamoteurs Définition Le Web met à la disposition des internautes trois types d’outils afin de leur permettre de mener à terme leurs recherches : Moteur de recherche : Il s’agit d’un programme qui indexe de façon automatique le contenu de différentes ressources Internet, plus particulièrement de sites Web, et qui permet, à l'aide d'un navigateur, de rechercher de l'information en se servant de mots-clés ou de requêtes en texte libre, et d'avoir accès à l'information ainsi trouvée. Annuaire ou catalogue : L’indexation des sites y est assurée par des documentalistes. La recherche peut donc s’opérer à partir d’une classification raisonnée sur des catégories pré-établies où sur les sites eux-mêmes. De par la nature même de l’indexation, le nombre de sites répertoriés y est moins important qu’avec un moteur de recherche. Métamoteur : Un métamoteur permet à partir d’une même requête, d’effectuer une recherche simultanée sur plusieurs moteurs et annuaires. Principe Classement des sites Français les plus visités : Avril 2004 1. Google 70.3% 2. Yahoo 10.6% 3. MSN 4.5% 4. AOL 4.2% 5. Wanadoo 3.47% 6. Free 2.2% 7. Lycos 1.0% 8. Altavista 0.8% 9. Tiscali 0.7% 10. Club Internet 0.6% 11. Autres 0.4% Souvent assimilés à d’énormes archives, les moteurs de recherche constituent la principale ressource à disposition des utilisateurs pour la recherche d'informations sur Internet. Les moteurs de recherche mémorisent la plupart du contenu des pages recensées. Grâce à ce système, l’actualisation des données est assurée presque en temps réel. La collecte de ces informations se fait au travers d’un référencement de pages Web. Dans la plupart des cas, cette opération est automatique. Elle est assurée par l’intermédiaire de robots logiciels dédiés qui scrutent en permanence la toile à la recherche de nouvelles données destinées à enrichir les bases. Pour autant, il est pratiquement impossible de répertorier tout le Web. A titre d’exemple, le nombre total de pages recensées par Altavista est de 550 millions, celui de Google (le moteur ayant l'archive la plus complète) de 1.3 milliards. On estime à environ 5 milliards le nombre de pages Web disponibles sur le Web (2002). Mode d’emploi Le principe d’utilisation d’un moteur de recherche reste invariable quel que soit le logiciel utilisé : Un ou plusieurs mots-clés portant sur un thème choisi permettent en quelques secondes d’obtenir une liste de pages Web contenant les mots demandés. Quelques règles élémentaires : Commencez votre recherche en utilisant des termes ou des phrases spécifiques. Si la recherche s’avère infructueuse, utilisez alors des termes plus généraux. S’il vous arrive de rechercher un nom propre (ville, nom de famille), mettez la lettre initiale en majuscule. Placez les phrases entre guillemets (ex. : " technologie de l’information et de la communication"). De cette façon, les moteurs de recherche prendront en compte la totalité de la chaîne de caractères introduite. L'ordre dans lequel vous positionnez les termes pour la recherche est significatif. Placez les mots les plus importants d'abord. Si vous n’obtenez pas ce que vous recherchez dans les 20 premiers sites, changez les mots utilisés dans la recherche ou essayez un autre moteur de recherche. 2 Gérard Moisan / Alain Larhant - [email protected] www.tic22.net INFORMATIQUE et MULTIMEDIA Moteurs et métamoteurs de recherche Sommaire : Recherche avancée P. 2 Principe & mode d’emploi P. 3 Opérateurs logiques P. 4 Evaluation de l’information P. 5 Principaux moteurs P. 6 Principaux métamoteurs Le contenu d'un site est décrit soit par son emplacement dans une catégorie spécifique d'un catalogue (annuaire) soit par les mots qui le composent ou le décrivent. Ainsi, pour retrouver un document, on peut demander au catalogue d’afficher tous les sites appartenant à une certaine catégorie ou demander au moteur de recherche tous ceux liés à une requête spécifique. Si l’une des qualités d'un catalogue est que son utilisation est assez intuitive, l'interrogation d'un moteur de recherche peut s'avérer plus problématique. Un moteur de recherche associe à chaque document les mots qu'il contient ainsi que les mots ajoutés par l'auteur pour sa description (Meta balises). Par une idée précise et claire de l’objet de la recherche, il est possible de déterminer de quels mots le document peut être composé ou lesquels peuvent le décrire. La meilleure manière de procéder consiste à commencer la recherche avec un mot, une phrase très spécifique, comme pourrait l'être un terme technique ou le nom d'une personne. Dans la plupart des cas, cette procédure est suffisante. Il peut être utile d’affiner la recherche en modifiant le mot-clé avec ses déclinaisons grammaticales (masculin/féminin, singulier/pluriel, changement de temps pour les verbes, etc.). Opérateurs logiques Les fonctions de recherche avancée varient selon le moteur de recherche. Tous acceptent cependant les opérateurs logiques. Pour les utiliser, il est souvent nécessaire d'accéder à une interface spéciale pour les recherches avancées où sont, en règle générale, présentes beaucoup d'autres fonctions. Les opérateurs logiques ou booléens tirent leur nom de George Boole, mathématicien anglais de la première moitié du dix-huitième siècle. Il formalisa la logique binaire qui est à la base des calculateurs modernes. ASTERISQUE ( * ) Certains moteurs de recherche acceptent l'astérisque à la place d'une ou de plusieurs lettres. Il peut donc être utilisé pour rechercher toutes les déclinaisons d'un mot, comme le genre et le nombre de substantifs ou le temps des verbes. Par exemple, "anim*" trouvera animal, animation, animaux, animalier et tous les autres mots qui commencent par "anim". L'astérisque peut aussi être utilisé également à l'intérieur d'un mot en cas de doute sur l'orthographe de ce dernier. GUILLEMETS ( " " ) Ils indiquent au moteur de recherche que leur contenu doit être traité comme une phrase, comme une séquence de mots qui doivent apparaître dans le texte comme un bloc unique (chaîne) (par exemple "Technologie de l’information et de la communication"). Si nous insérons une phrase sans l'entourer de guillemets, le moteur de recherche interprétera les mots composant la phrase, comme liés par OR, et ainsi, au lieu de resserrer le champs de recherche, il l'élargira. NEAR ou ADJ Deux ou plusieurs mots liés par NEAR doivent apparaître ensemble dans le texte et à une distance limitée (généralement la distance maximum est de 10 mots). Cette fonction peut être utile pour chercher des noms de personnes, où le nom et le prénom peuvent apparaître dans un ordre différent ou encore séparés par des articles ou des titres. AND (ET) L’association de plusieurs mots avec l'opérateur AND, restreint la recherche aux documents contenant tous les mots indiqués (celui-ci ET celui-là). Les mots sont introduits par ordre d'importance. NOT (Sauf) l'opérateur NOT (AND NOT) permet d’exclure un mot, une expression de la recherche. Dans l’interface du moteur de recherche, Not peut être remplacé par le signe (-) OR (OU) Cet opérateur induit une condition de choix dans une requête de recherche. L'utilisation de OR permet d’élargir le champ de recherche. Dans l'interface de recherche, OR est peut être remplacé par le signe (+). PARENTHESES Tous les opérateurs logiques peuvent être insérés dans des expressions complexes du type : technologie AND (information OR communication) Comme en algèbre, il est possible d'ouvrir des parenthèses à l'intérieur d'autres parenthèses. 3 Gérard Moisan / Alain Larhant - [email protected] www.tic22.net INFORMATIQUE et MULTIMEDIA Moteurs et métamoteurs de recherche Sommaire : P. 2 Principe & mode d’emploi P. 3 Opérateurs logiques P. 4 Evaluation de l’information P. 5 Principaux moteurs P. 6 Principaux métamoteurs Evaluation de l’information La multiplicité et la diversité de la nature des sources disponibles sur le Web invitent à la plus grande prudence quant à la validité des informations obtenues. Il n’existe à ce jour aucun organisme ni aucune forme de contrôle à même d’authentifier la validité des documents mis à la disposition de la communauté. . Le protocole de validation proposé ci-dessous met l’accent sur quelques points clés pouvant vous guider dans l’évaluation des documents obtenus. Auteur L'auteur du document est-il identifié ? Peut-on le contacter ? Est-ce un spécialiste du domaine ? S'exprime-t-il au nom d'une institution ou à titre personnel ? Site Web S'agit-il s'un site institutionnel, d'un site associatif ou d'un site commercial ? Sa compétence sur le sujet et/ou sa fiabilité sont-elles reconnues ? Ce site pointe-il vers des sites fiables ? Les sites fiables pointent-ils vers lui ? S'agit-il d'un site français ? S'agit-il d'un site francophone ? européen ? autre ? Quels sont les objectifs du site et quel est le public visé ? Information Est-ce bien le type d'informations dont j'ai besoin ? Le niveau des informations est-il adapté ? Est-il suffisamment simple ou au contraire suffisamment approfondi ? Document Le document présente-t-il un intérêt réel ? Apporte-t-il des éléments nouveaux ? La date du document est-elle indiquée ? Le document nécessite-t-il une actualisation ? Si oui, quelle est la date de mise à jour ? Dans quel but le document a-t-il été réalisé ? Quel est le public visé ? Présentation L'information est-elle rédigée clairement ? Le document est-il bien structuré ? Les sources sont-elles clairement identifiées ? 4 Gérard Moisan / Alain Larhant - [email protected] www.tic22.net INFORMATIQUE et MULTIMEDIA Moteurs et métamoteurs de recherche Sommaire : P. 2 Principe & mode d’emploi P. 3 Opérateurs logiques P. 4 Evaluation de l’information P. 5 Principaux moteurs P. 6 Principaux métamoteurs www.google.fr www.altavista.com Principaux moteurs de recherche Google est l’un des moteurs de recherche les plus utilisés sur la planète. Réellement opérationnel en juin 1999, Google a été créé en septembre 1998 par 2 étudiants de l'Université de Stanford (Californie) Le moteur de recherche est disponible dans plus de 84 pays et supporte plus de 96 langues. Il compte à ce jour plus de 4 milliards de pages indexées. Depuis le printemps 2002, Google propose un correcteur orthographique de requête. Google affirme être en outre "La solution de recherche d'image la plus complète du Web". Ce moteur permet en effet d’effectuer des recherches parmi plus de 880 millions d'images. AltaVista (vu d'en haut) est né au cours du printemps 1995 de l’imagination d’une équipe de scientifiques du laboratoire de recherche en informatique de Palo Alto, en Californie. Ces derniers ont imaginé une méthode de stockage dans un index de recherche rapide de n'importe quel mot issu de n'importe quelle page HTML d'Internet. Ce moteur « poids lourd » du net comptait plus de 1,9 milliard de pages indexées à l'été 2003 (dont plus de 200 millions de pages multimédia : image, audio, video) AltaVista se caractérise aussi par d'autres inventions notables, comme la première fonction de recherche multilingue jamais créée sur Internet et la première technologie de recherche prenant en charge le chinois et les langues coréennes. Altavista est l’inventeur de « BabelFish », le premier service de traduction machine sur le Web, capable de traduire des mots, des phrases ou des sites Web entiers en anglais, espagnol, français, allemand, portugais, italien et russe, et vice-versa. Avec plus de 135 000 sites indexés, Yahoo est l'un des sites les plus connus, les plus copiés et les plus fréquentés du web. Idéal pour rechercher des informations sur un sujet que l'on connaît déjà, pour trouver des entreprises ou institutions, yahoo est en fait un annuaire. Sur ce portail, on trouve de tout (mail, actualités, club...). www.yahoo.fr Depuis début 2004, Yahoo devient un moteur de recherche. En choisissant un des 4 onglets, il est possible d’effectuer des recherches au sein du Web français et mondial, du guide Web (annuaire Yahoo!), d'une banque d'images et parmi des dépêches d'actualités des grandes agences de presse. Il est possible d’affiner une recherche à l'aide de mots clés associés. Voila est le moteur d'origine française le plus utilisé. Il Indexe plus de 120 millions de pages en français et propose un annuaire thématique (le Guide Voila) comme la plupart de ses concurrents. Avec le temps, les résultats sont de plus en plus pertinents. Voila représente un bon complément à la base "française" de Google. Ce moteur est idéal pour les recherches "grand public". www.voila.fr Voila est développé par la société Echo, filiale de Wanadoo. www.exalead.fr Initiative française en matière de moteur de recherche, Exalead n'est pas à proprement parler un moteur on-line. La société Exalead met à disposition sur son site, depuis l'été 2001, des démonstrations de sa technologie. Cette start-up créée par un ancien chercheur de l'Ecole des Mines propose un moteur qui repose essentiellement sur l'analyse statistique. La technologie utilisée analyse les documents trouvés à l'issue d'une requête pour y déceler les mots les plus fréquents ou "groupes nominaux significatifs". Ces groupes s'affichent sur la colonne de gauche sous la rubrique "mots-clés". Un clic sur une catégorie permet d'affiner la recherche. 5 Gérard Moisan / Alain Larhant - [email protected] www.tic22.net INFORMATIQUE et MULTIMEDIA Moteurs et métamoteurs de recherche Sommaire : P. 2 Principe & mode d’emploi P. 3 Opérateurs logiques P. 4 Evaluation de l’information P. 5 Principaux moteurs P. 6 Principaux métamoteurs Métamoteurs de recherche Un métamoteur est un logiciel permettant de lancer une requête dans plusieurs moteurs de recherche simultanément. Les métamoteurs présentent généralement leurs résultats, indexés sous forme de résumés classés par catégories. Certains métamoteurs peuvent éliminer les doublons, les liens brisés et les encarts publicitaires. Considéré actuellement comme l'un des meilleurs métamoteurs en terme de pertinence et de présentation des résultats, Vivisimo peut interroger simultanément 9 moteurs mais également des sites de news (YahooNews, NY Times, Wired, CNN...). La forme des résultats est entièrement paramétrable. www.vivisimo.com Url : (Uniform Ressource Locator) Adressage standartd de n’importe quel document multimédia... L'originalité de Vivisimo est de proposer une "auto catégorisation des résultats" : Ceux-ci sont automatiquement classés par catégories permettant de visualiser les différents domaines contextuels abordés par la requête. La page de résultats se divise donc en 2 parties : les urls dans la fenêtre principale ; à gauche, des dossiers présentant les différents sujets abordés par la requête. La navigation se voit donc très simplifiée et pratique. KartOO est certainement le plus beau mais aussi le plus déroutant des métamoteurs de recherche. Lancé en avril 2001 par une société française de Clermont-Ferrand, Kartoo recherche sur le web mondial ou français (Google, Voila, AlltheWeb, AltaVista, Exalead, MSN, Nomade, Open Directory, Lycos, Yahoo!, Hotbot, Looksmart, Teoma et Wisenut). www.kartoo.com www.ixquick.com Il présente les résultats sous la forme d'une carte reliant entre eux les concepts voisins de la thématique de recherche. L'affichage s'effectue au choix en Flash ou Html (selon la puissance de l’ordinateur et la qualité de la connexion Internet). Le graphisme de la carte est paramétrable (formes, couleurs, liens). Les résultats sont pertinents, le choix de représentation graphique assez clair. Ixquick est un métamoteur rapide, pertinent, à la présentation claire. Il interroge des moteurs différents selon la version choisie (moteur anglais et américains, français, espagnols, portugais, suédois, italiens, néerlandais, turcs, etc...!). Il recherche également des images et fichiers Mp3. Dans sa version "française", il interroge notamment l'Open Directory , All the Web, LookSmart, La Toile du Québec, Lycos.fr et aussi Ask Jeeves, Espotting et FindWhat. Lancé en 2001, MapStan Search présente les résultats de la recherche sur un "plan de quartier" où les pages sont regroupées par sites. Les places représentent les sites et sont reliées par des rues indiquant leur similarité. www.mapstan.net Lorsque plusieurs sites sont toujours associés dans les mêmes recherches, ils sont regroupés au sein d'une même place. Il est ainsi possible de bénéficier d'une synthèse visuelle des résultats et des proximités entre les pages. Sources : www.intelligence-center.com 6 Gérard Moisan / Alain Larhant - [email protected] www.tic22.net