Guide de recherche web

Transcription

Guide de recherche web
Comment trouver la bonne
information sur le WEB..
1
SOMMAIRE
1. les annuaires ou moteurs de recherche par thèmes
1.1 les principaux annuaires.
2. les moteurs de recherche
2.1 les principaux moteurs
3. le langage des outils ?
3.1. Les mots clés
3.2. Les opérateurs booléens et autres fonctions de recherche
A) Les guillemets
B) Les opérateurs booléens
C) La troncature
D) Les combinaisons
E) Les parenthèses
4 les métachercheurs
4.1 principaux métachercheurs
4.2 métachercheurs en ligne
4.3 métachercheurs clients
4.4 autres outils
5 les Agents intelligents
5.1 Quelques Agents
5.2 Les agents d’alerte par e-mail
6 Les aspirateurs ou la navigation off ligne
7 Les outils de recherche sur le web invisible
2
1. les annuaires ou moteurs de recherche par thèmes.
Ils permettent une recherche sur le web par une classification « intellectuelle » des sites qui
sont agencés selon une hiérarchie thématique (thèmes, sous-thèmes, etc.
L’enrichissement des répertoires des annuaires se fait essentiellement par deux méthodes :
_la première par l’inscription des sites par leurs auteurs et dans ce cas les recherches
se font en texte intégrale et non pas sur le contenu des pages web ( à la différence des
moteurs), mais sur les indications fournies par les créateurs des site ( titre de la page,
commentaires..)
_la seconde par la classifications des moteurs de recherche eux mêmes. Celle-ci
implique une vérifications des données recueillies par des opérateurs humains afin de
valider l’information.
Toutefois la majorité des annuaires permettent d’effectuer une recherche globale dans toute
la base de données de l’annuaire. Dans le cas de la recherche globale l’annuaire procède à la
recherche de l’information selon le mot clé indiqué ; ensuite il classe les résultats par
pertinence selon le nombre de mots clés trouvées dans le titre, le commentaires.
Ce type de recherche est assez efficace pour trouver des informations générales, son
utilisation est simple cependant on peut reprocher aux annuaires un manque d’exhaustivité, et
une certaine faiblesse en ce qui concerne des recherches plus précises.
A partir de là l’utilisation des moteurs de recherches me paraît indispensable.
3
Les principaux annuaires de recherches :
Noms
Nombres de
thèmes
Références indexées
Vocation
www.yahoo.com
Inconnus
1.800.000
International
www.looksmart.com
170.000
1.800.000
International
www.snap.com
60.000
1.500.000
International
www.dmoz.org
Inconnus
2.000.000
International
www.about.com
Inconnus
International
http://magellan.existe.com*
International
www.yahoo.fr
95.000
Francophone
www.voilà.fr
65.000
Francophone
www.nomade.fr
90.000
Francophone
http://pre.sympatico.ca
Francophone
* il s’agit d’un guide Internet.
4
2. les moteurs de recherche
l’objectif des moteurs de recherches : indexer l’ensemble des pages Web de façon exhaustive.
Cette indexation est opérée de manière totalement automatique par des robots appelés spider
qui parcourent l’univers du web en commençant par un certain nombre de pages de départ. De
plus leur efficacité ne se limitent pas à l’indexation mais ils testent tous les liens hypertexte
qu’ils trouvent. Cette indexation se fait en texte intégrale.
Une fois terminé, ils recommencent afin d’opérer une actualisation des anciennes pages
indexées. Cette capture d’informations est ensuite stockée dans une base de données
appartenant au moteur de recherche. L’utilisateur en soumettant une requête, lance la
recherche sur toute la base.
1 le spider parcourt le
web et renvoie les
informations au serveur
2. Le serveur stocke
les informations
trouvées par le web.
3.Le serveur web prend en
compte les requêtes des
utilisateurs et les transmet au
serveur d’index qui renvoie
les résultats
Il faut toutefois relativiser l’information délivrée par ces serveur car celle-ci peut parfois être
dépassée : notamment quand il s’agit des informations actualisées en permanence. De plus ces
moteurs indexent les pages HTML statiques et ne traitent pas les informations contenues dans
les pages dynamiques (le web invisible, les bases de données accessibles par code, par un
formulaire, par exemple le serveur du CFCE). Ce web invisible représente une masse
d’informations énorme qui nécessite des outils de recherche spécialisés.
5
Les principaux moteurs de recherche.
Noms
Références indexées
Vocation
www.altavista.com ou .fr
350 millions de pages
International/Francophone.fr
www.exicite.com
250 millions de pages
International
www.google.com
560 millions de pages
International
www.lycos.com
340 millions de pages
International/Francophone.fr
www.hotbot.com
500 millions de pages
International
www.northernlight.com
+ de 250 millions de pages
international
www.webtop.com
500 millions de pages
International avec une
orientation business
www.go.com
International.
6
3. le langage des outils ?
3.1. Les mots clés
Avant de nous lancer dans une recherche hasardeuse et sans savoir exactement quelle est
l’information recherchée, nous devenons définir l’axe de notre stratégie de recherche en
fonction du sujet.
Un mot clé doit être précis et explicites. En effet la qualité de l’information dépend
directement de ce choix. Toutefois notre recherche peut se basée par l’emploi de plusieurs
mots qui définissent le sujet ou qui cerne le sujet.
L’utilisation de mot clé peut parfois se révéler infructueuse, alors l’utilisateur doit définir une
nouvelle stratégie de recherche.
Attention : conventions à prendre en compte lors de la recherche.
Pour un moteur de recherche, un mot est une suite de lettres et/ou de chiffre séparés d’un
autres mot par un espace, un signe de ponctuation ou un caractère non alphabétique. Les
signes de ponctuations ne sont pas indexés par le moteur.
•
L’emploi des minuscules et majuscules est important pour certains moteurs
Exemple si vous saisissez un mot tout en minuscule la recherche portera indifféremment sur
tous les mots sans soucis de case.
lyon
lyon / Lyon / LYON
Lyon
Lyon
LYON
LYON
Afin de ne pas restreindre votre champ de recherche, il est recommandé de saisir votre
mot clé tout en minuscule.
7
Par ailleurs l’emploi des lettres accentuées a une importance pour la plupart des moteurs de
recherche. Certains moteurs en tiennent compte d’autres pas.
Par exemple :
Yahoo
été
été
/
ete
ete
ete
/
été
pour Hotbot :
eté
été
ete
ete
3.2. Les opérateurs booléens et autres fonctions de recherche
Les guillemets « »
L’emploi des guillemets lors de la saisie d’une suite de mots (mot composé, expression)
permet d’effectuer une recherche ciblée définissant les mots contenues dans une expression
comme des mots clés. Afin que la recherche porte sur l’expression exacte demandée il faut
encadrer l’expression par des doubles guillemets.
Exemple : « « évasion fiscale » » la recherche du web portera sur cette expression exacte.
8
Les opérateurs booléens
La majorité des outils de recherche fonctionnent selon les principes de recherches booléennes
(sauf dans le cas d’une recherche par thèmes hiérarchiques à partir d’un annuaire). Ils
reposent sur le OU, le ET, le SAUF.
opération
Union
Exclusion
Opérateur
equivalents
O
OR
SAUF NOT
Intersection
ET
AND
Proximité
PROCHE
DE
NEAR
-
Leur utilisation :
Le « OU »
Cette opérateur placé entre deux termes permet de rechercher les pages contenant soit l’un ou
l’autre mot soit les deux mots dans une page web. Certains moteurs de recherche l’utilise par
défaut, il suffit de taper les deux mots séparés par un espace ; pour les autres moteurs de
recherche l’utilisateur doit préciser l’équation de recherche par « OU , OR » lorsqu’il s’agit
d’un outil international.
Le « SAUF »
Lorsqu’on lance une recherche avec l’opérateur « SAUF » entre deux mots clés, la moteur
doit trouver les pages contenant le premier terme mais pas le second. Celui-ci peut être
remplacé par le signe « _ » ou par le NOT.
Le « ET »
La recherche cible alors toutes les pages contenant impérativement les deux termes.
Evasion + fiscalité soit évasion ET fiscalité soit évasion AND fiscalité
9
La troncature
La commande * peut être utilisé pour remplacer une lettre ou une série de lettres.
Fisc*
fisc/fiscalité/fiscale/….
Les combinaisons
Toutes ces opérateurs de recherche peuvent être combinés afin d’affiner le plus possible sa
recherche.
Les parenthèses
L’utilisation des parenthèses permet de regrouper des expressions booléennes complexes.
(évasion & fiscalité) & (France)
10
4 les métachercheurs
un métachercheur ou un métamoteur est en réalité un outil de recherche qui permet de
solliciter une même requête sur plusieurs moteurs de recherche simultanément .en utilisant
ce type de recherche on appréciera forcément la démultiplication de la recherche cependant on
peut toutefois déplorer un certain manque de contrôle sur le recherche. En effet cette
inconvénient provient du fait que les différentes bases interrogées ont des propriétés et des
fonctionnalités différentes : notamment en ce qui concerne les opérateurs booléens.
De plus des différences existe entre les outils. Certains, encore rudimentaire, posteront leur
requête et se contenteront de rapatrier les réponses. Tandis que d’autres plus avancés,
permettront à l’utilisateur d’effectuer une sélection des moteurs à solliciter et effectueront un
traitement des résultats ( tri par pertinence, suppression des redondances)
Il faut noter que certains de ces outils ne sont pas directement en ligne et il faudra les acquérir
et les installer sur son poste pour pouvoir les utiliser.
Les métachercheurs sont des outils incontournables.
4.1 Principaux métachercheurs
11
4.2 Métachercheurs en ligne
Nom
www.metacrawler.com
Moteurs interrogés
Lycos
Yahoo
InfoSeek
Existe
Hotbot
WebCrawler
EINet Galaxy.
24 moteurs.
www.savysearch.com
www.profusion.com
AltaVista
Excite
Magellan
InfoSeek
Lycos
Yahoo
Snap
GoTo
WebCrawler
commentaire
MetaCrawler organise les résultats en
une liste unique après avoir éliminé les
URL en double. On peut choisir entre
une recherche de mots composés
(phrase), un ET (all) ou bien un OU
(any) entre les termes. Les résultats sont
triés par pertinence.
Disponible en 23 langues dont le
français. A partir d’une même requête
SavySearch interroge 24 moteur de
recherche. Il choisit de les interroger en
fonction des critères suivants :
_le texte de la question, les sources et
types d’information sélectionnés, une
estimation du trafic d’Internet
_une anticipation des temps de réponse
des index, la charge du serveur. Dans le
résultats on peut éliminer les doublons
et définir le nombre de document à
afficher par outil.
L’utilisation de profusion est simple; en
effet l’utilisateur peut choisir trios
moteurs ou laisser ProFusion choisir à
sa place. Les doublons sont supprimés
et possibilité de vérifier les liens.
Il interroge plusieurs moteur en même
temps et classe les résultats en
catégories : soit les pages canadiennes,
soit les sites commerciaux, ect.
Métamoteur francophone
www.infind.com
www.ariane6.com
Permet des recherches géographiques.
www.dogpile.com
www.all4one.com
AltaVista
Lycos
Yahoo
Excite
Il propose l’utilisation des frames
HTML pour afficher simultanément le
résultat des recherches.
12
4.3 Métachercheurs clients
www.copernic.com
www.strategicfinder.com
Les recherches sont lancés simultanément sur 32 moteur de
recherche et annuaires. Il affiche le résultats au fur et à
mesure qu’il les trouve. Pour chacun apparaît le titre, une
description, l’URL, le nombre d’occurrences, la date de la
recherche, la date de la recherche, « trouvé par », ainsi que
l’état (lien valide ou pas) ; les doublons sont éliminés. Pour
une consultation hors ligne, il est possible de télécharger tout
ou une partie des documents. Un historique détaillé des
résultats, classés dans des dossiers, peut être crée et mis à jour
au fur et à mesure.
Téléchargeable en version démo.
Même fonctionnalités.
Téléchargeable en version démo.
13
4.4 Autres outils utiles
1. Recherche d’e-mail
Bigfoot
http://fr.bigfoot.com
possibilité de recherches sur le mail, les pages blanches ou les deux. Version mondiale
disponible
Internet address finder
http://www.iaf.net/searchresults.htm
Meta Agent Search E-mail
http://mesa.rrzn.uni-hannover.de/
2. Moteurs de recherché géographiques
Virtual Tourist
http://www.virtualtourist.com
3. revues de Presse
Individual
Possibilité de se créer sa propre revue de presse en fonction de ses centres d’interêts.
http://www.individual.com/
Entry Point
Nouvelle version de Pointcast en mode Push.
http://www.entrypoint.com/
14
5 les Agents intelligents
selon les professionnelles il s’agit simplement d’outils utilisant
l’intelligence artificielle, et qui répondent à certaines caractéristiques :
les
applications
de
Autonomie : capacité à s’autogérer en prenant des initiatives et à agir sans
l’intervention de l’utilisateur (même quand l’utilisateur est déconnecté)
Capacité à communiquer et à coopérer : en vue d’échanger des informations avec
d’autres Agents, d’autres serveurs ; et intégrer les nouvelles demandes ou suggestions
de l’utilisateur.
Raisonner et réagir à son environnement : capacité d’analyse de son environnement
et faculté d’adaptation à ses évolutions.
Mobilité : dans le but de se déplacer sur le réseau pour accomplir des tâches sur
lesquelles l’utilisateur n’a pas de contrôle direct.
Actuellement sur le marché aucun agent ne répond à tous ces critères. Les produits actuels
sont encore un peu éloignés de l’intelligence Artificielle. Toutefois, ils sont capables de
remplir certaines tâches de recherche à la place de l’utilisateur. C’est cette dernière caractérise
qui sert actuellement de dénominateur commun pour les applications d’agent.
On distingue aujourd’hui sur le marché :
Les agents sociables qui ont des applications dans le domaine du commerce électronique
parallèlement à la fourniture d’informations, l’agent « apprend » les goûts de l’utilisateur afin
de lui proposer des résultats d’avantages pertinents. Ils observent les recherches, notent les
choix successifs, les recoupent et en déduisent des centres d’interêt.
On retrouvent dans cette catégorie les shopping agents dont les services permettent de
comparer les prix de produits proposés en ligne sur le réseau.
Les agents pour la recherche d’information regroupent quand à eux les utilitaires spécifiques
pour la recherche de l’information et dont les caractéristiques permettent d’automatiser les
tâches.
La recherche d’information (Copernic _ Webseeker _ Digout4U) : la plupart des agents
travaillent en fait sur la base d’un métamoteur qui sollicite plusieurs outils de recherche en
même temps. Les recherches sont donc effectuées selon les modalités que nous avons
évoquées auparavant.
Ils se différencient cependant d’un simple métachercheur par d’avantage de rapidité, des
possibilités de fonctionnement plus souples (l’agent fonctionne la nuit) et pour certains une
analyse linguistique des requêtes faites en langage naturel qui évite l’usage des opérateurs
booléens classique.
15
Ils se différencient cependant d'un simple métachercheur par d'avantage de rapidité, des
possibilités de fonctionnement plus souples (l'agent fonctionne durant la nuit) et pour certains,
une analyse linguistique des requêtes faites en langage naturel qui évite l'usage des opérateurs
booléens classiques.
Un classement des résultats peut être fait selon le modèle d’une carte.
L'analyse des informations récupérées (DigOut4U, Webcompass) : par l'analyse
sémantique (les pages récupérées sont classées par thèmes) ou le résumé automatique
(extraction de passages pertinents ou analyse statistique des contenus des pages).
Le filtrage, l'édition, l'archivage, la veille et la mise à jour des résultats (Webseeker,
Copernic) : les résultats obtenus peuvent être traités de façon à supprimer les
doublons, les "liens morts" et les documents non désirés par l'utilisateur. Certains
agents proposent aussi de programmer des visites périodiques sur des sources
pertinentes afin d'en vérifier le contenu (mises à jour, nouvelles pages, ... ) les résultats
peuvent ensuite être archivés ou édités en HTML.
La consultation hors ligne : les documents les plus pertinents peuvent être
téléchargés en local (sur la poste de travail de l'utilisateur) en vue d'une exploitation
ultérieure.
Les fonctions automatiques de ces outils sont particulièrement utiles pour la mise à jour de
certaines données, compte tenu de leur évolution constante sur le réseau. Leur utilisation se
justifie donc par l'automatisation des tâches routinières. Ils restent cependant un outil
complémentaire pour la recherche d'informations car ils sont généralement moins performants
que les moteurs "traditionnels".
Comme pour toute recherche sur le réseau, l'important est de cibler le mieux possible ce que
l'on cherche. Les agents interviennent donc soit à priori lorsque l'utilisateur cherche à réaliser
un tour d'horizon sur un s 'et particulier, soit à posteriori lorsque les sources pertinentes ont ni
été identifiées et qu'il s'agit de les suivre au quotidien (veille).
Leur utilisation nécessite donc une bonne connaissance du réseau (afin de savoir si
l'information recherchée y est présente, et s'il est par conséquent utile d'engager des
recherches) ainsi qu'une bonne maîtrise du fonctionnement des outils "classiques" (annuaires
et moteurs) car rappelons-le, les agents reposent en partie sur l'utilisation de ces derniers.
16
Quelques agents :
BullsEyes
http://intelliseek.com
DigOut4U
http://arisen.com
Net Attache Pro
http://tympani.com
Plus de 450 sources couvrant le web mondial :
Robots, annaires, métamoreurs, banques de données, sites
intéressants, …
Le logiciel est constitué d’un assistant de recherche et de
gestion des résultats ainsi que d’un module disponible
uniquement en version professionnelle qui posséde elle des
options de veille.
Version démo gratuite.
Même principe de fonctionnement qu’un métamoteur
cependant sa technologie est basée sur le l’analyse
sémantique multilingue.
Version démo gratuite.
A mi-chemin entre le logiciel de recherche et de
l’aspirateur de sites. Il permet aussi de surveiller à la fois
l’évolution de certains sites ou de certaines questions.
Version démo gratuite.
17
Les agents d’alertes par e-mail.
Ils vous envoie un courrier électronique chaque fois qu’une page web que vous avez
sélectionnée est modifiée ou bien quand une recherche d’informations produits de nouveaux
résultats au sein d’un ou plusieurs moteurs.
Il est possible de filtrer les changements qui ont eu lieu en choisissant des mots clés
appropriés.
Les agents :
NetMind
http://www.netmind.com
The informant
http://www.informant.darmouth.edu
Alerte par e-mail sur la fonction Mind-it.
Même système.
18
6 Les aspirateurs ou la navigation off ligne
les aspirateurs sont des outils qui permettent de télécharger les pages web de n’importe quel
site Internet et de les sauvegarder sur votre disque dur. Le principal argument de ces outils est
de pouvoir surfer sur un ou plusieurs sites sans avoir à payer les coûts de connexion. D e plus
ils peuvent en outre informer de la mise à jours d’un site.
Memoweb
http://www.goto.com
WebCopier
http://www.maximumsoft.com
WebZip
http://www.spider.com
E-Catch
http://www.ecatch.com
Il télécharge un site sur votre disque dur et
vous permet de surfer off line.
Téléchargeable gratuitement.
Mêmes fonctions.
Téléchargeable gratuitement.
Très pratiques d’utilisation, il vous permet de
programmer ce que vous voulez télécharger.
Version démo gratuite.
Mêmes fonctions.
Téléchargeable gratuitement.
7 Les outils de recherche sur le web invisible
comme nous l’avons évoqués précédemment le web invisible représente une source
d’information considérable. Les méthodes classiques d’indexation ne permettent pas de
répertorier cette masse d’information car il se heurte aux formulaires de recherches propres à
chaque site constituant le web invisible.
Par « web invisible » on entend généralement :
_Les sites diffusant de l’information mais il demande une identification au préalable.
_Les banques de données hébergées sur les grands serveurs (Dialog, Datastar, ect.)
disposant d’interfaces d’interrogations sur le réseau.
_Les sites constitués par une base de données interne.
Pour pallier les insuffisances des moteurs classiques, des outils ont été développés et sont
aujourd’hui disponibles. Deux sources principalement :
Les sites spécialisés qui compilent des adresses de sites pertinents. Ils recensent les
différentes base de données existantes.
Les outils de recherche spécialisées : la plupart sont conçus selon le principe de annuaires de
recherche classiques (description de sites, classement par rubrique et sous-rubriques), à la
différence que les sites sont sélectionnées selon des critères rigoureux par des professionnels
de l’information, et font l’objet d’une évaluation qualitative. Ils ne retiennent théoriquement
que les sites à valeur ajoutée.
19
Les outils de recherche du web invisible
20
21

Documents pareils

Les agents de recherche sur Internet

Les agents de recherche sur Internet d’archivage) offertes par une solution sur poste. On distinguera quatre fonctions principales : Recherche d'informations : celle-ci peut se faire de manière "intelligente" par l'utilisation de méta...

Plus en détail

Optimiser ses recherches sur Internet

Optimiser ses recherches sur Internet temps. Ils ne possèdent pas leur propre base mais se contentent de transmettre votre requête sur d’autres moteurs et de vous renvoyer les réponses. Bien entendu, les résultats affichés ne représent...

Plus en détail

Recherches sur internet

Recherches sur internet mais on dispose maintenant de plusieurs types d'outils : 1. une solution consiste à alimenter une base de données en extrayant les adresses des messages de News ou des pages des serveurs W3 et en p...

Plus en détail