Recherches sur internet

Transcription

Recherches sur internet
Service informatique
Enseignement
Recherche
Recherches sur internet
Fiche n°44, 23 mars 2003
Florence Le Priol
Responsable du Service informatique Enseignement Recherche
PARIS IV - 1, rue Victor Cousin 75005 PARIS - Tél.: 01 40 46 22 11 - Fax : 01 49 46 25 88 - www.paris4.sorbonne.fr
Service informatique Enseignement Recherche - 96, bd Raspail 75006 PARIS - Tél.: 01 44 39 35 92 - Fax : 01 44 39 35 91
[email protected] - www.paris4.sorbonne.fr/ser/
Fiche N°44
Recherches sur Internet
Service informatique Enseignement Recherche, ©FLP
Table des matières
TABLE DES MATIERES .................................................................................................................................... 2
LE WEB…............................................................................................................................................................. 3
NAVIGUER SUR LE WEB ................................................................................................................................. 3
QUE PEUT-ON TROUVER ? .................................................................................................................................... 3
Moteurs de recherche, portails et annuaires.................................................................................................. 3
Catalogues et bases de données : Telnet........................................................................................................ 3
Recherche de fichiers : FTP........................................................................................................................... 4
Recherche d’adresses électroniques............................................................................................................... 4
Recherche de listes de discussion et news ...................................................................................................... 5
COMMENT TROUVER LA BONNE INFORMATION ? ................................................................................................. 5
LES MOTEURS DE RECHERCHE................................................................................................................... 5
FONCTIONNEMENT .............................................................................................................................................. 5
QUELQUES MOTEURS ........................................................................................................................................... 6
Moteurs généralistes ...................................................................................................................................... 6
Moteurs de recherche spécialisés................................................................................................................... 6
PRINCIPES D'INTERROGATION DES BASES DE DONNEES ........................................................................................ 7
Les opérateurs booléens................................................................................................................................. 7
Les opérateurs de proximité ........................................................................................................................... 7
La troncature.................................................................................................................................................. 7
METHODES DE TRI DES RESULTATS ........................................................................................................... 7
LES META-MOTEURS DE RECHERCHE...................................................................................................... 8
FONCTIONNEMENT .............................................................................................................................................. 8
QUELQUES META-MOTEURS EN LIGNE ................................................................................................................. 8
QUELQUES META-MOTEURS « CLIENT » .............................................................................................................. 9
TROIS OUTILS PARTICULIERS ..................................................................................................................... 9
LE MOTEUR DE RECHERCHE LE PLUS UTILISE ACTUELLEMENT : GOOGLE ......................................................... 9
UN META-MOTEUR CLIENT POUR PC : COPERNIC........................................................................................... 11
UN META-MOTEUR INTEGRE AU SYSTEME MAC : SHERLOCK ....................................................................... 12
Sous MacOS 9 .............................................................................................................................................. 12
Sous MacOS X.............................................................................................................................................. 12
ASPIRATEURS DE SITES................................................................................................................................ 13
LA RECHERCHE EN LANGAGE NATUREL .............................................................................................. 14
Fiche N°44
Recherches sur Internet
Service informatique Enseignement Recherche, ©FLP
Le web…
Le World Wide Web (www ou W3) ou Web est un réseau d’ordinateurs à l’échelle mondiale crée dans
les années 60 formant internet, c’est-à-dire la toile mondiale.
Au départ, internet nécessitait la connaissance de nombreuses commandes pour son utilisation mais
aussi pour récupérer les données sur des ordinateurs distants. En 1992, Tim Berners-Lee et d’autres
chercheurs ont été à l’origine du lancement du Web qui permettait de parcourir internet sans
connaissance de commandes complexes. Dans les années qui suivirent l’apparition des navigateurs
(Internet Explorer et Netscape) a accentué la simplification de l’utilisation du Web.
La clé du Web est l’hypertexte, une méthode conçue dans les années 60 pour des blocs ou des pages
de données. Au cours des années 90, Berners-Lee et ses collègues appliquent le concept de
l’hypertexte à internet grâce à ce qu’ils nomment http. Si l’hypertexte et l’http sont à la base de la
création du Web, c’est le HTML qui est à la source des pages web. L’évolution des pages et
l’intégration de dynamisme font appel à des scripts écrits en javascript, au format DHTML (Dynamic
HTML), PHP, Flash…
Tout bouge très vite sur l'internet. Par conséquent, la taille du web n’est qu’une estimation : le cap du
milliard de pages web serait atteint d'après une étude annoncée le 18 Janvier 2000 . Depuis août, 200
millions de pages ont vu le jour. Et pas moins de 5 millions de sites Web sont nécessaires pour
héberger ce milliard de pages. Le pourcentage de documents en anglais est de 86.55% et en Français
de 2.36%.
Naviguer sur le web
Que peut-on trouver ?
Moteurs de recherche, portails et annuaires
Les appellations commerciales, les glissements sémantiques et le flou, parfois savamment entretenu
par les acteurs, ne permettent pas de tirer une frontière claire entre les annuaires, les portails et les
moteurs de recherche.
Pour simplifier, disons que le point d’entrée pour l’utilisateur est de plus en plus souvent un portail,
que celui-ci appartienne à son fournisseur d’accès à internet (FAI), ou qu’il soit offert spontanément
en libre service avec une personnalisation plus ou moins poussée.
Sur un portail, parmi des services d’information en ligne ou des rubriques d’aides (des publicités, bien
sûr), on trouve forcément au moins l’accès à un annuaire ou moteur de recherche (par exemple Voilà
sur Wanadoo, ou Yahoo sur MyYahoo).
Mais en fait ces " moteurs " ou " annuaires " sont de plus en plus souvent une compilation
commerciale de bases de données, elles-mêmes générées sous contrat par des opérateurs spécialisés
extérieurs (Inktomi par exemple).
Ainsi Yahoo, portail et moteur de recherche avec le plus fort taux de fréquentation de la planète, a
commencé comme moteur de recherche, est rapidement devenu un annuaire, c’est-à-dire qu’il
comporte des rubriques par arborescence comme une encyclopédie.
BigPortail (http://www.bigportail.com/) est un annuaire de portails.
Catalogues et bases de données : Telnet
Telnet donne accès essentiellement à des bases de données bibliographiques et à des catalogues de
bibliothèques. La plupart du temps l'accès est libre et gratuit mais demande toutefois un login .
De nombreux catalogues qui étaient accessibles auparavant uniquement par la fenêtre de connexion
telnet sont désormais accessibles via une interface utilisateur conviviale.
Fiche N°44
Recherches sur Internet
Service informatique Enseignement Recherche, ©FLP
Par exemple :
Bibliothèque en ligne de l’Agence Universitaire http://www.bibliotheque.refer.org/
de la Francophonie
Bibliothèque Publique d’Information, Centre http://www.bpi.fr/
Georges Pompidou
BNF
http://www.bnf.fr
Recherche de fichiers : FTP
Le protocole FTP (File Transfert Protocole) permet de télécharger des fichiers à partir d’un site. C’est
ce protocole qui est utilisé sur la plupart des sites offrant le téléchargement de logiciels.
Dans certains cas, un logiciel spécifique est indispensable pour mettre en œuvre le protocole FTP (voir
fiches n°37 et n°38).
Quelques adresses de sites où l’on peut télécharger des fichiers (sharewares et freewares) :
http://telecharger.01net.com/,
http://www.versiontracker.com,
http://www.megagiciel.com/,
http://www.anshare.com/…
Recherche d’adresses électroniques
Trouver une adresse électronique a été et continue à être un problème. Aucun annuaire général n'existe
mais on dispose maintenant de plusieurs types d'outils :
1. une solution consiste à alimenter une base de données en extrayant les adresses des messages
de News ou des pages des serveurs W3 et en proposant l'inscription volontaire. Actuellement
ces services atteignent plus de 7 millions d'adresses. Compte tenu des erreurs, fausses adresses
ou adresses plus valables, on est loin d'atteindre l'exhaustivité,
2. récemment a été adopté un protocole d'échange d'information entre annuaires : il s'agit de
LDAP (Protocole allégé d'accès aux répertoires) issu de la norme X500.
Quelques annuaires d’adresses éléctroniques :
• Bigfoot (http://www.bigfoot.com/) créé en 1995, est à l'origine un annuaire d'adresses électroniques.
Des millions de fiches sont à votre disposition pour effectuer vos recherches. Les formulaires simples
et avancés sont succints. Le système élargit la question en tronquant les termes lorsque la recherche
stricte donne aucun résultat.
• Yahoo !People Search (http://people.yahoo.com/) : créé en 1994 (Four11), a été acheté par Yahoo
en octobre 97. La recherche avancée offre un masque de saisie de 7 champs : Prénom, Nom, Ville,
Etat et Pays, Domaine internet et compagnie. L'expérience montre qu'il vaut mieux ne pas être trop
précis. Yahoo! People Search se présente aussi comme le répertoire de pages blanches (numéros de
téléphone américains) le plus important de l'internet avec plus de 10,5 millions d'inscriptions.
• Internet Address Finder (http://www.iaf.net/frames/email.htm) : IAF revendique 6 720 664
d'enregistrements. IAF alimente sa base de données en extrayant les adresses des messages échangés
dans les News et par l'ajout volontaire. Le masque de saisie est réduit à 4 champs : Nom (au mois 3
caractères), Prénom, Organisation et domaine. IAF différencie minuscules et majuscules. La
troncature est disponible à gauche, à l'intérieur et à droite.
• Lycos : WhoWhere (http://french.whowhere.lycos.com/) a été racheté par Lycos. Ce service propose
la recherche d'adresses électroniques, de numéros de téléphone personnels et d'entreprises pour les
Etats-Unis et de sites d'entreprises sur internet. Le formulaire change en fonction du type de recherche
mais reste très simple.
• MESA (MetaEmailSearchAgent) (http://mesa.rrzn.uni-hannover.de/) est un méta-moteur spécialisé
dans la recherche d'adresses électroniques.
• France Telecom (http://www.annuairemail.pagesjaunes.fr/) propose un annuaire mails (inscription
volontaire) pour rechercher dans 200 000 adresses électroniques.
Fiche N°44
Recherches sur Internet
Service informatique Enseignement Recherche, ©FLP
Recherche de listes de discussion et news
Les conférences électroniques sont une source d'informations ponctuelles. Elles permettent aussi un
suivi, une veille sur un sujet. Mais le flot ininterrompu et massif de messages rend leur utilisation
difficile, bien que des systèmes de filtrage des messages commencent à se mettre en place.
Comment trouver la bonne information ?
Pour trouver la bonne information sur le web, c’est-à-dire l’information qu’on recherche, il faut avoir
un point d’entrée.
Deux cas se présentent :
- On a l’adresse d’un site consacré au domaine qui nous intéresse.
- On n’a aucune information précise.
Dès lors qu’on a une adresse, on a un point d’entrée. La visite du premier site peut répondre à la
question. Les différents liens présents dans le site permettent de naviguer dans des sites proches du site
d’entrée et à priori consacré au même domaine.
La plupart du temps, on n’a pas de point d’entrée, on peut alors utiliser un moteur ou un méta-moteur
de recherche.
Plus généralement, on utilise un moteur de recherche, essentiellement :
-
pour trouver les sites évoquant, ou mieux, développant un thème (mot-clé ou concept) défini
par le chercheur ;
pour élargir les frontières d'un domaine de départ, de façon à aider le chercheur soit à mieux
cerner son problème, soit à le recentrer, soit au contraire à le relativiser ou l'élargir ;
pour ouvrir des horizons totalement à l'opposé ou dans d'autres domaines (opposition,
association) pour renverser son approche ;
pour une veille permanente ou momentanée ;
pour un état de l'art, "espionnage" sur concurrents, pillage d'idées,...
Les moteurs de recherche
Fonctionnement
Les moteurs de recherche sont des bases de données constituées automatiquement grâce aux logiciels
robots qui scrutent à intervalles réguliers les serveurs déclarés sur l'internet. Ils indexent mot à mot les
documents localisés permettant ainsi des interrogations par sujet. Selon le moteur de recherche utilisé,
l'indexation porte sur :
- le titre, l'entête des documents ou quelques lignes,
- les documents complets.
Le moteur de recherche proprement dit n’explore pas le web au moment où l’utilisateur lui pose sa
question. Il est en fait l'interface d'interrogation entre le formulaire présenté à l'utilisateur sur un portail
ou sur un site et les bases de données construites par les moteurs ci-dessus. La mission du moteur se
limite à interroger ces bases externes et à les mettre sous forme html pour les injecter sur l’écran de
l’utilisateur.
Ces outils très utiles sont maintenant assez nombreux. L'utilisation de ces index se veut simple et
rapide : pas question d'apprendre un langage de commande pour les interroger comme pour les bases
de données bibliographiques des années 80. En général la question se pose en une fois et il est
impossible d'affiner petit à petit une recherche. Le volume d'information disponible fait qu'il y a
presque toujours des réponses, mais au prix d'un bruit important. Pour être efficace il est utile de
connaître la manière dont la question est traitée. Malheureusement chaque moteur a son propre mode
d'indexation.
Fiche N°44
Recherches sur Internet
Service informatique Enseignement Recherche, ©FLP
En général une question sera constituée d'un terme simple ou composé sans opérateur booléen et sans
caractère de troncature. L'opérateur implicite par défaut est le ou (il y aura ainsi rarement des réponses
nulles) et les termes sont tronqués selon des règles fonctionnant sur l'anglais. Des règles d'écriture
particulières permettent d'utiliser des opérateurs d'adjacence.
Les termes les plus fréquents de l'anglais sont filtrés grâce à un dictionnaire de mots vides.
La réponse à une question est une liste des adresses (URL) de sites ou de documents html en bouton
hypertexte. Cette liste est en général classée par ordre de pertinence reposant sur une pondération des
documents calculée à partir des critères de recherche :
- les documents contenant tous les termes de recherche,
- ceux les contenant dans le titre ou au début du texte,
- ceux où les critères de recherche sont proches les uns des autres,
- ceux où les critères de recherche sont présents le plus grand nombre de fois.
L'ordre exact de présentation dépend du moteur de recherche et d'une combinaison de ces divers
critères de tri.
Le nombre de réponses est soit limité par l'utilisateur, soit imposé par le système.
Quelques moteurs
Moteurs généralistes
AltaVista
AOL France
Club internet
Excite
Google
HotBot
Lycos
MSN France
Multimania
Netscape France
Tiscali
Voila
Wanadoo
Yahoo
http://www.altavista.fr
http://www.france.aol.com
http://www.club-internet.fr
http://www.excite.fr/
http://www.google.fr
http://www.hotbot.lycos.fr
http://www.lycos.fr
http://www.msn.fr/homepage.asp
http://www.multimania.fr
http://home.netscape.com/fr/
http://www.nomade.tiscali.fr/nomadeter.asp
http://www.voila.fr
http://www.wanadoo.fr/bin/frame.cgi
http://fr.yahoo.com/
Moteurs de recherche spécialisés
Aleph
AssoFrance
CogitiSearch
Mappy
Mapquest
WebSeek
http://www.aleph.ens.fr/
http://www.assofrance.net
http ://www.cogitosearch.com/
http://www.mappy.fr
http://www.mapquest.fr
http://disney.ctr.columbia.edu/webseek/
Littérature
Associations en France
Philosophie, sociologie, psychologie
Cartes et itinéraires
Cartes et itinéraires
Images, vidéo et outils pour le web
Fiche N°44
Recherches sur Internet
Service informatique Enseignement Recherche, ©FLP
Principes d'interrogation des bases de données
Les outils de recherche reposent tous sur les principes de recherche booléenne mise au point au cours
des années 50. Les améliorations ont porté sur les opérateurs de proximité (ou d'adjacence) pour la
recherche en texte intégral, la gestion des index et surtout le classement des résultats.
Les opérateurs booléens
La recherche booléenne repose sur les trois opérations suivantes :
- l'union (OU/OR) permet de rechercher des concepts proches, des synonymes ce qui est
important pour des questions posées en vocabulaire libre
- l'intersection (ET/AND) impose la présence de tous les critères de recherche dans la réponse
- l'exclusion (SAUF/NOT) permet d'éliminer des notions non pertinentes.
La plupart des moteurs de recherche propose l'écriture suivante :
- le signe + collé à gauche du terme impose sa présence dans la réponse
- le signe - collé à droite du terme exclu les documents le contenant.
Les opérateurs de proximité
Dès que l'on recherche dans des documents en texte intégral, l'opérateur ET est insuffisant car peu
précis. Les opérateurs de proximité ou d'adjacence permettent de préciser la position de deux termes
l'un par rapport à l'autre. On trouve les opérateurs suivants :
- NEAR : les 2 termes sont proches (en général à 10 mots l'un de l'autre au maximum), l'ordre
n'est pas pris en compte
- NEAR/n : n indique le nombre maximum de mots admis entre les 2 critères de recherche
- FOLLOWED BY : l'ordre des termes est pris en compte.
Le nom de l'opérateur et la syntaxe diffèrent d'un moteur de recherche à l'autre.
La troncature
En général l'étoile * sert de caractère de troncature explicite. Certains outils tronquent les termes de
recherche sans prévenir. Cela peut produire du bruit.
Méthodes de tri des résultats
Les outils de recherche ont développé des méthodes de tri des résultats pour améliorer leur utilisation
en évitant aux utilisateurs d'être noyés sous des flots de références mais aussi pour se distinguer les
uns des autres. En fait aucune méthode de tri ne fait vraiment la différence mais, cette variété offre à
l'utilisateur la possibilité de traquer l'information de différentes manières. Pour cela il faut comprendre
les mécanismes sous-jacents pour en tirer profit. Plusieurs méthodes de tri sont utilisées actuellement
par les outils de recherche. On peut distinguer trois grandes techniques :
- le tri par pertinence (relevance ranking), méthode la plus ancienne et la plus utilisée : Voila,
Lycos, AltaVista, Inktomi, Excite, Infoseek, Lokace, Ecila ... Elle est basée sur le nombre
d'occurrences des termes de recherche dans les pages, de leur proximité les uns par rapport
aux autres, de leur place dans le texte.
- le tri par popularité avec 2 variantes : en fonction du nombre de liens pointant sur une page
(méthode de Google,) ou en fonction du nombre de visites et du temps passé (méthode de
DirectHit).
- le tri par calcul dynamique de catégories : Classement des documents trouvés dans des
dossiers (clustering) constitués automatiquement en fonction des réponses (méthode de
NorthernLight).
Fiche N°44
Recherches sur Internet
Service informatique Enseignement Recherche, ©FLP
Les portails proposent souvent des résultats combinant ces différentes approches avec aussi des
résultats provenant d'annuaires. Il est important pour l'utilisateur de bien savoir "décortiquer" les
réponses proposées par AltaVista ou Voila. En tirant profil de ces différentes méthodes, on tombera
plus vite sur des informations pertinentes.
Les méta-moteurs de recherche
Fonctionnement
Les méta-moteurs interrogent, en une fois, différents outils de recherche pour fournir la réponse la plus
exhaustive à une question. Le problème n'est pas simple car chaque outil de recherche a ses
particularités. Les méta-moteurs sont disponibles soit en ligne, soit sous forme de logiciel à installer
sur son ordinateur. Ils permettent d’effectuer une recherche rapide en considérant les différentes
stratégies de recherche des moteurs de recherche utilisés et permettent ainsi un bon repérage du sujet.
Quelques méta-moteurs en ligne
Les méta-moteurs en ligne sont utilisables sur tous les ordinateurs (MAC, PC) et avec tous les
systèmes d’exploitations (MacOS 9, MacOS X, Windows 98, NT, 2000, XP).
1. Debriefing (http://www.debriefing.com/), d'origine canadienne, utilise actuellement
AltaVista, Yahoo, Infoseek, Excite, Webcrawler, Lycos et Hotbot. En mode de recherche
avancée, on a la possibilité d'interroger aussi Yahoo France, Voila, Ecila, Infoseek France,
Excite France et Lokace. Debriefing envoie des requêtes en parallèle à ces outils. Les moteurs
de recherche utilisés ayant des temps de réponse très variables, Debriefing utilise une valeur
d'expiration ou timeout. En mode avancé, l'utilisateur a un contrôle total sur la durée de la
recherche. En mode basique, la valeur du timeout est automatiquement ajustée en fonction des
temps de réponse des requêtes précédentes. Il s'adapte donc à la congestion du réseau. Après
récupération des différents résultats, il les trie, élimine les pages dupliquées et donne le
domaine le plus significatif pour la recherche. Les résultats sont classés par pertinence et
indiquent le(s) moteur(s) utilisé(s).
2. Ixquick (http://www.ixquick.com/) utilise des outils de recherche francophone. La syntaxe est
riche : Ixquick comprend les recherches complexes, incluant les modificateurs tels que ET,
AND, +, OU, OR, PAS, NOT, -, PRES, NEAR, les jokers, les expressions, les parenthèses et
les limiteurs de champs. Ixquick affirme s'adresser à chaque outil de recherche dans la syntaxe
propre ce qui lève un des principaux reproches fait aux méta-moteurs :Ixquick connaît les
capacités de chaque moteur de recherche et envoie seulement les recherches aux moteurs qui
peuvent assumer la complexité de la recherche. Ixquick traduit individuellement votre requête
dans la syntaxe préférée de chaque moteur. Ceci augmente la pertinence des résultats, élimine
ceux qui sont inutiles, et enfin vous évite d’avoir à mémoriser la syntaxe exigée par chaque
moteur de recherche.
3. MetaCrawler (http://www.webcrawler.com) : C'est le premier outil de ce type, développé à
l'Université de Washington par Erik Selberg et Oren Etzioni. MetaCrawler est un outil
permettant d'interroger en une fois plusieurs index. Il organise les résultats en une liste unique
après avoir éliminé les URL en double. Actuellement les services interrogés sont Lycos,
Yahoo, InfoSeek, Excite, HotBot, WebCrawler et EINet Galaxy. On peut choisir entre une
recherche de mots composés (phrase), un ET (all) ou bien un OU (any) entre les termes.
4. Zworks (http://www.zworks.com) est un métamoteur récent qui formate les requêtes suivant
l'outil de recherche utilisé comme Ixquick et classe les résultats suivant leurs placements sur
chaque outil.
Fiche N°44
Recherches sur Internet
Service informatique Enseignement Recherche, ©FLP
Quelques méta-moteurs « client »
De nombreux logiciels à installer sur son poste de travail permettent de localiser des documents
répondant à une question. Les méta-moteurs installés sur l’ordinateur (méta-moteurs clients)
permettent de garder les recherches en mémoire, de faire de la veille…
1. BullsEye version 2.5 (http://www.intelliseek.com/) le logiciel très élaboré intègre
l'interrogation thématique de plusieurs moteurs (plus de 800), mais aussi de bases de données
(pour acheter, s'informer, trouver des logiciels ou des livres etc). Les recherches se font par
étapes successives et sont expliquées pas à pas. Elles peuvent faire l'objet d'une veille
systématique (de même que les signets ou les favoris de l'utilisateur). Les résultats sont fournis
dans 15 langues. Version d’essai de 30 jours, V 1 à 49 $, V pro à 149 $.
2. Copernic (http://www.copernic.com) Les recherches sont lancées simultanément sur 32
moteurs de recherche et annuaires. Il affiche les résultats au fur et à mesure qu'il les trouve.
Pour chacun apparaît le titre, une description, l'URL, le nombre d'occurrences, la date de la
recherche, "trouvé par", ainsi que l'état (accessible, inaccessible, nouveau...). Ils sont classés
par ordre de pertinence, les doublons et les liens périmés étant automatiquement éliminés. Une
fonction de recherche par mots-clés sur les résultats obtenus est disponible. Pour la
consultation hors ligne, il est possible de téléchargement tout ou partie des documents trouvés.
Un historique détaillé des résultats, classés dans des dossiers, peut être crée et mis à jour au
fur et à mesure. Version Basic gratuite (uniquement pour PC)
3. Hurricane Websearch (http://www.gatecomm.com/) Ce méta-moteur de recherche interroge
12 outils (Hot Bot, Altavista,...). Son interface est simple. Il permet de régler le temps de
recherche, le nombre de liens à récupérer et surtout, il accepte soit une recherche sur une
combinaison de mots (booléen), soit sur plusieurs (multiple search). Un code de couleurs
informe de l'avancée des explorations. Le choix des pages à afficher se fait avec la souris à
partir d'un historique des aspirations. Version Light gratuite (uniquement pour PC)
4. Sherlock est l’utilitaire, intégré dans le système d'exploitation du MAC, permettant la
recherche sur internet et sur le disque dur de l’ordinateur (uniquement pour MAC).
Trois outils particuliers
Le moteur de recherche le plus utilisé actuellement : GOOGLE
GOOGLE (http://www.google.fr) est actuellement le moteur de recherche le plus utilisé dans le
monde.
Fiche N°44
Recherches sur Internet
Service informatique Enseignement Recherche, ©FLP
Ce moteur de recherche permet de faire des recherches de sites (onglet web), des recherches d’images
(onglet images), des recherches de newsgroups (onglet groupe) et de recherche par l’intermédiaire
d’index (onglet répertoire). Quel que soit la question, pour effectuer une recherche simple, il suffit de
taper les mots clés correspondants à sa question.
Pour les recherches sur le web, le moteur de recherche propose une interface permettant de faire des
recherches avancées sans pour autant utiliser des expressions booléennes. Ces expressions seront en
fait générées par le moteur lui-même afin de contraindre la recherche.
En plus des fonctions de recherche, GOOGLE propose un outil linguistique.
Il permet d’une part de rechercher des syntagmes nominaux à l’intérieur des pages, d’autre part de
traduire du texte ou des pages web.
Fiche N°44
Recherches sur Internet
Service informatique Enseignement Recherche, ©FLP
Un méta-moteur client pour PC : COPERNIC
Copernic (http://www.copernic.com/fr/) est un méta-moteur pour PC dont la version Basic est gratuite.
Dans cette version de base, la recherche peut s’effectuer dans différents moteurs (Altavista, aol,
compuserve, euroseek, fastsearch, google…) selon la catégorie sélectionnée (web entier, web français,
achat de livres, de logiciels…).
Principales fonctionnalités :
- Conservation dans des dossiers d’un historique des recherches
- Filtrage des résultats selon ces champs : état des résultats, validité des liens
- Tri des résultats selon plusieurs champs
- Recherche dans les résultats trouvés, à l’aide de mots clés ou de requêtes booléennes
- Sauvegarde et archivage des pages Web trouvées
- Production de rapports détaillés des résultats de recherche
- Surlignage des mots clés dans les listes de résultats et les pages Web
- Partage, importation et exportation de résultats
- Sélection possible des moteurs de recherche pour chaque catégorie
- Divers modes de présentation des résultats (compact, standard et détaillé)
- Intégration dans Internet Explorer
Fiche N°44
Recherches sur Internet
Service informatique Enseignement Recherche, ©FLP
Un méta-moteur intégré au système MAC : SHERLOCK
Sous MacOS 9
Sherlock offre plusieurs services de recherche sur internet: recherche de sites, de personne; achats en
ligne, consultation de dictionnaires et permet également de rechercher des fichiers sur le disque dur de
l’ordinateur.
La recherche de sites est le résultat de plusieurs moteurs de recherche (AltaVista, BestSite1st, Cnet,
DirectHit, Excite, HotBot, Lycos). Les résultats sont classés par ordre de pertinence.
Sous MacOS X
Sherlock offre plusieurs services de recherche sur internet: recherche de sites, d’images, d’horaires de
vol ; achats en ligne, consultation de dictionnaires, outils de traduction.
La recherche de sites est le résultat de plusieurs moteurs de recherche (About, AskFeeves,
BestSites1st, lôôksmart, lycos, ouverture, Sprinks). Les résultats sont classés par ordre de pertinence.
La recherche des images est le résultat de la recherche dans les moteurs GettyImages et Lycos.
Fiche N°44
Recherches sur Internet
Service informatique Enseignement Recherche, ©FLP
A noter, cette nouvelle version ne permet plus de rechercher sur le disque dur. Cette fonction se trouve
maintenant dans le Finder, menu Fichier, rechercher…
Aspirateurs de sites
En complément des outils précédents, il peut être utile de rapatrier le contenu d'un site pour en étudier
le contenu localement et ainsi économiser du temps de connexion. C'est à cela que servent les
aspirateurs de sites.
1. BlackWidow (http://www.softbytelabs.com/index.fr.html) est un explorateur de site, un outil
de cartographie, un outil d'extraction de site, un outil de site miroir, un navigateur hors ligne.
Utilisez BlackWidow pour explorer un site et pour créer un profil complet de la structure de ce
site, de ses fichiers, des adresses E-mail, des liens externes et même des liens erronés.
BlackWidow peut aussi explorer les sites HTTP, les sites SSL (HTTPS) et les sites FTP. 40 $
2. eCatch (http://www.ecatch.com) est un navigateur hors ligne et un logiciel de veille. Il permet
d'optimiser rapidement l'utilisation d'internet : téléchargement hors ligne, capture de sites,
veille sur les nouveautés, recherche évoluée dans les pages chargées, annotations. eCatch 2.1
est disponible en version française et internationale - gratuit.
3. HTTrack (http://www.httrack.com) HTTrack est un aspirateur de sites web facile d'utilisation
et libre (open source). Il vous permet de télécharger un site web d'Internet vers votre disque
dur, en construisant récursivement tous les répertoires, récupérant html, images et fichiers du
serveur vers votre ordinateur. HTTrack réorganise la structure des liens en relatif. Ouvrez
simplement une page du site "aspiré" dans votre navigateur, et vous pourrez browser librement
à l'intérieur, comme si vous étiez connecté. HTTrack peut aussi mettre à jour (update) un site
existant, ou continuer un download interrompu. Le robot est entièrement configurable, avec un
système d'aide intégré.
4. MemoWeb (http://www.goto.com) Développé par GOTO Software, il permet la capture de
pages web au sens large (images, applets, VRML, FTP), la gestion complète de la connexion
Fiche N°44
Recherches sur Internet
Service informatique Enseignement Recherche, ©FLP
(déconnexion automatique, proxies), les captures configurables (Filtres d'inclusion/exclusion,
choix de profondeur, choix des types de fichiers ou de domaines) ainsi que l'intégration dans
l'environnement 95/NT (accessible depuis le browser par le menu contextuel, raccourcis des
captures sur le bureau).
5. Offline Explorer (http://www.metaproducts.com/mpFrames.html) gratuit
6. WebCopier (http://www.maximumsoft.com) gratuit
La recherche en langage naturel
Vieux serpent de mer de la recherche documentaire, l'interrogation en langage naturel est proposée par
quelques outils. Oubliez les expressions booléennes et les dizaines de syntaxes utilisées par les outils
de recherche et les serveurs de bases de données. Il n'est plus nécessaire de connaître la syntaxe des
opérateurs booléens, des opérateurs de proximité, des opérateurs de thesaurus, des troncatures… La
consultation est accessible à tous les utilisateurs, même occasionnels en leur évitant d’apprendre un
langage spécialisé.
Les systèmes réalisent des traitements linguistiques minimum, comme, par exemple, la suppression
des mots vides (les articles, les prépositions…) ou la transformation des mots en leur racine par
troncature. Ils permettent aussi de rapprocher automatiquement les formes conjuguées des formes
infinitives (courir et couru), de distinguer les homographes ("livre" nom ou verbe), de détecter les
locutions ("Chemin de fer"), les expressions idiomatiques ("A l'occasion de...").
Utiliser le langage naturel semble plus pratique pour des recherches d'intérêt général tandis que les
expressions booléennes s'imposent pour des recherches spécifiques.
Les principaux outils :
1. T-GID (http://www.t-gid.com/produits) propose le moteur de recherche en langage naturel
SPIRIT. La question, posée en langage parlé, est analysée comme les textes, assurant ainsi la
cohérence et la performance du traitement. SPIRIT V2 s'appuie pour le français sur un
dictionnaire de 500 000 entrées comprenant des mots avec toutes leurs formes dérivées. Pour
l'anglais, un dictionnaire d'environ 100 000 entrées est utilisé. SPIRIT V2 possède un
dictionnaire de reformulation qui permet un élargissement de la recherche aux synonymes et
termes de même famille. Exemple : Je recherche "Les meubles de cuisine"et je retrouve "Le
mobilier de cuisine", Je recherche "La sécurité des installations..." et je retrouve "La sûreté des
installations... " SPIRIT V2 est livré en standard avec plus de 130.000 règles de reformulation
françaises correspondant aux synonymes usuels de la langue, termes de la même famille, etc.
2. Lexiquest (http://www.lexiquest.com/french/home.html) a créé des technologies de pointe en
matière de traitement linguistique. La technologie de base est le fruit de plus de vingt ans de
recherche. Résultat : les applications de traitement linguistique évoluées sont plus
performantes et plus satisfaisantes. La technologie LexiQuest est la seule capable de gravir les
échelons du langage :
- Morphologique : Compréhension du mot, y compris des différentes formes du mot,
des mots composés et des catégories grammaticales.
- Syntaxique : Identification du rôle des mots dans une phrase (nom, verbe, adjectif,
etc.)
- Sémantique : Identification de la signification du mot selon son utilisation
- Conceptuel : Organisation des concepts indépendamment de la langue
3. AltaVista (http://www.altavista.com) et Northern Light (http://www.nlsearch.com)
supportent le langage naturel.
4. Ask Jeeves () possède une base de plusieurs millions de questions pré-définies. Il n'y a donc
pas de traitement linguistique.

Documents pareils

Guide de recherche web

Guide de recherche web Exemple si vous saisissez un mot tout en minuscule la recherche portera indifféremment sur tous les mots sans soucis de case.

Plus en détail