la recherche d`information sur l`internet

Transcription

la recherche d`information sur l`internet
CAO- BENIN
Programme de Promotion de la Démocratie par l’appui aux Organisations de la Société Civile (ProDOSC)
LA RECHERCHE D’INFORMATION
SUR L’INTERNET
nt
Livret sous licence Creative Commons. Inspiré de Aeris
(http://aeris.11vm-serv.net/) et de l’Encyclopédie Comment
ça Marche (http://www.commentcamarche.net/)
Avril 2007, Simon Florentin Adjatan Disponible sur
http://sadjatan.free.fr
La recherche d’information sur l’internet
Contrat de licence Creative commons
Paternité - Pas d'Utilisation Commerciale - Partage des Conditions Initiales à l'Identique
Vous êtes libre :
•
•
de reproduire, distribuer et communiquer cette création au public
de modifier cette création
Selon les conditions suivantes :
Paternité. Vous devez citer le nom de l'auteur original.
Pas d'utilisation commerciale. Vous n'avez pas le droit d'utiliser cette
création à des fins commerciales.
Partage des Conditions Initiales à l'Identique. Si vous modifiez,
transformez ou adaptez cette création, vous n'avez le droit de distribuer
la création qui en résulte que sous un contrat identique à celui-ci.
•
•
A chaque réutilisation ou distribution, vous devez faire apparaître clairement aux autres les
conditions contractuelles de mise à disposition de cette création.
Chacune de ces conditions peut être levée si vous obtenez l'autorisation du titulaire des
droits.
Ce qui précède n'affecte en rien vos droits en tant qu'utilisateur (exceptions au droit
d'auteur : copies réservées à l'usage privé du copiste, courtes citations, parodie...)
Ceci est le Résumé Explicatif du
Code Juridique (la version intégrale du contrat
http://creativecommons.org/licenses/by-nc-sa/2.0/be/legalcode.fr).
2
La recherche d’information sur l’internet
Table des matières
1.
INTRODUCTION AU WORLD WIDE WEB...................................................................................... 4
QU'EST-CE QU'UN SITE WEB ? ........................................................................................................................... 4
LE NAVIGATEUR WEB ....................................................................................................................................... 4
COMMENT NAVIGUER SUR INTERNET .............................................................................................................. 6
LES FAVORIS..................................................................................................................................................... 6
COMMENT CREER UN MARQUE-PAGE ? ............................................................................................................ 6
2.
LES MOTEURS DE RECHERCHE...................................................................................................... 7
LA RECHERCHE PAR LES MOTEURS .................................................................................................................. 7
ƒ
Classement des résultats................................................................................................................... 8
ƒ
Présentation des résultats................................................................................................................. 9
3.
LES ANNUAIRES OU REPERTOIRES............................................................................................... 9
LA RECHERCHE PAR LES ANNUAIRES ............................................................................................................... 9
ƒ
Par mots-clés .................................................................................................................................... 9
ƒ
Par catégories................................................................................................................................. 10
ƒ
Présentation des résultats............................................................................................................... 10
4.
LA RECHERCHE PAR LES METAMOTEURS .............................................................................. 10
PREMIERE GENERATION ................................................................................................................................. 10
SECONDE GENERATION .................................................................................................................................. 10
TROISIEME GENERATION ................................................................................................................................ 11
LA RECHERCHE PAR LES ENCYCLOPEDIES EN LIGNES .................................................................................... 12
LES SITES FEDERATEURS ET LES GUIDES - RECHERCHE LARGE DANS UN DOMAINE PRECIS ........................... 12
LES WEBRINGS - RECHERCHE LARGE DANS UN DOMAINE PRECIS.................................................................. 13
SPECIFICITES DE CERTAINS MOTEURS ............................................................................................................ 13
ƒ
Fonctionnalités intéressantes ......................................................................................................... 13
ƒ
Spécificités de Google <www.google.com> .................................................................................. 14
ƒ
Spécificité de Yahoo! Search <search.yahoo.com> ...................................................................... 16
ORGANISER SA BOITE A OUTILS AU SUD......................................................................................................... 16
ƒ
La consultation de sites en mode hors-ligne .................................................................................. 16
ƒ
Organiser les favoris ...................................................................................................................... 16
5.
METHODOLOGIE DE LA RECHERCHE DOCUMENTAIRE.................................................... 17
PREPARATIFS .................................................................................................................................................. 17
ƒ
Délimiter le sujet............................................................................................................................. 17
ƒ
Indicateurs d’un sujet bien délimité ............................................................................................... 17
REQUETE COMPLEXE ET OPERATEURS BOOLEENS ......................................................................................... 18
ƒ
Généralités...................................................................................................................................... 18
ƒ
Les opérateurs booléens ................................................................................................................. 20
ƒ
Recherche d'une expression ou d'une phrase................................................................................. 21
ƒ
Langage naturel.............................................................................................................................. 21
6.
EVALUER LES RESSOURCES .......................................................................................................... 22
L'URL ............................................................................................................................................................ 23
SOURCE DU DOCUMENT ................................................................................................................................. 23
ACTUALITE ..................................................................................................................................................... 23
PRESENCE DE REFERENCES BIBLIOGRAPHIQUES ............................................................................................ 24
7.
GLOSSAIRE ........................................................................................................................................... 24
3
La recherche d’information sur l’internet
1. Introduction
au World Wide Web
On
appelle
«Web»
(nom
anglais
signifiant
«toile»),
contraction de «World Wide Web» (d'où l'acronyme www), une
des possibilités offertes par le réseau Internet de naviguer
entre des documents reliés par des liens hypertextes.
Le concept du Web a été mis au point au CERN (Centre
Européen de Recherche Nucléaire) en 1991 par une équipe de
chercheurs à laquelle appartenait Tim-Berners LEE, le
créateur du concept d'hyperlien, considéré aujourd'hui comme
le père fondateur du Web.
Le principe du web repose sur l'utilisation d'hyperliens
pour naviguer entre des documents (appelés «pages web»)
grâce à un logiciel appelé navigateur (ou en anglais
browser). Une page web est ainsi un simple fichier texte
écrit dans un langage de description (appelé HTML),
permettant de décrire la mise en page du document et
d'inclure des éléments graphiques ou bien des liens vers
d'autres documents à l'aide de balises.
Au-delà des liens reliant des documents formatés, le web
prend tout son sens avec le protocole HTTP permettant de
lier des documents hébergés par des ordinateurs distants
(appelés serveurs web, par opposition au client que
représente le navigateur). Sur Internet les documents sont
ainsi repérés par une adresse unique, appelée URL (Uniform
Ressource Locator), permettant de localiser une ressource
sur n'importe quel serveur du réseau internet.
Qu'est-ce qu'un site web ?
Un site web (aussi appelé site internet) est un ensemble de
fichiers stockés sur un ordinateur connecté en permanence à
internet et hébergeant les pages web (serveur web).
Un site web est habituellement architecturé autour d'une
page centrale, appelée «page d'accueil» et proposant des
liens vers un ensemble d'autres pages hébergées sur le même
serveur, et parfois des liens dits «externes», c'est-à-dire
de pages hébergées par un autre serveur.
Une URL se présente sous la forme suivante :
http://www.yahoo.com
http://
Indique le protocole
utilisé. Il existe
d'autres protocoles,
correspondant à
d'autres usages de
l'Internet. (ftp,
Irc, gopher…)
www.
Symbolise un
serveur dédié à
l’usage du Web.
Cependant une
URL peut ne pas
comporter le
www.
yahoo
Cette
partie
s’appelle
nom de
domaine.
.fr
C’est l’extension. Elle
exprime l’appartenance à une
zone géographique ou à un
domaine d’activité. .fr pour
la France, .bj pour le
Bénin, .org pour les
organisations, .info pour
les sites d’information etc…
Le navigateur web
4
La recherche d’information sur l’internet
Le «navigateur» est le logiciel qui permet de surfer entre
les pages web des sites présents sur la toile. Il possède
une interface graphique composée de boutons de navigation,
d'une barre d'adresse, d'une barre d'état (généralement en
bas de fenêtre) et dont la majeure partie de la surface sert
à afficher les pages web.
Barre des
outils
Barre
d’adresse+URL
Barre du titre
Barre du menu
Hyperlien + main
Page
Barre d’état
Lorsque le curseur de la souris passe sur un lien
hypertexte, celui-ci se transforme généralement en icône en
forme de main afin d'indiquer qu'il est cliquable. L'adresse
de destination de ce lien est alors indiquée dans la barre
d'état. Il peut ainsi être utile de prendre l'habitude de
surveiller la barre d'état avant de cliquer sur les liens
afin de savoir où ils conduisent.
Les flèches de navigation permettent de naviguer dans
l'historique des différents liens visités. Le bouton de
rechargement permet de rafraîchir l'affichage de la page web
en cours et le bouton d'arrêt de chargement permet
d'interrompre le téléchargement en cours de la page.
Enfin le bouton en forme de maison permet de se rendre à la
page
de
démarrage,
c'est-à-dire
la
page
chargée
à
l'ouverture du navigateur. Il est conseillé de modifier la
page de démarrage de son navigateur afin qu'elle corresponde
au site que l'on visite le plus régulièrement où qui
5
La recherche d’information sur l’internet
comporte des informations que l'on souhaite voir lors de la
première connexion.
Il existe plusieurs navigateurs. Ces logiciels jouent le
même rôle mais sont très diversifiés suivant la plateforme
utilisée ou le goût de l’utilisateur. Quelques navigateurs :
Internet Explorer, Netscape, Mozilla, Konqueror, Opera,
Lynx…
Comment naviguer sur Internet
Il existe trois façons de naviguer :
1. L’on connaît l'adresse du site à visiter : il suffit
alors de taper l'adresse dans la barre d'adresse du
navigateur et de valider en appuyant sur la touche Entrée ou
bien en cliquant sur le bouton de validation du navigateur.
2. L’on recherche une information sans connaître a priori
un site susceptible d’y conduire : il est alors nécessaire
d'utiliser un moteur de recherche et d’y introduire des
mots-clés.
3. L’on souhaite naviguer sur Internet sans but précis :
il suffit de partir d'une page Internet et de suivre les
liens au fur et à mesure de la navigation.
Les favoris
En navigant sur le Web, il est courant de « tomber » sur une
page intéressante et de vouloir en noter l’adresse afin d’y
revenir ultérieurement. Il convient d’utiliser les favoris,
également appelés marque-pages (traduction littérale du mot
anglais bookmark) ou encore signets.
Comment créer un marque-page ?
La pratique varie d’un navigateur à l’autre :
Sous Internet Explorer les favoris sont accessibles via la
barre de menus ou la barre des tâches. Mais la plupart du
temps, le raccourci-clavier CTRL-D permet d'ouvrir une boîte
de dialogue proposant le marquage de la page en cours.
6
La recherche d’information sur l’internet
2.
Les moteurs de recherche
Les moteurs de recherche sont les outils à utiliser quand on
cherche une information précise. Leur couverture est
beaucoup plus importante que celle des annuaires, mais reste
très parcellaire (environ 20% du Web pour les meilleurs
d'entre eux). Il est indispensable de bien connaître la
façon de les utiliser, leurs avantages et leurs limites.
Les moteurs de recherche indexent régulièrement des millions
de PAGES Web dans une base de données. Pour cela, la plupart
des moteurs de recherche utilisent des robots (programmes
automatiques
aussi
appelés
spiders
ou
crawlers)
qui
inventorient les pages Web et ajoutent les nouvelles
adresses à leur base de données. Ces informations sont
complétées par les auteurs de pages Web qui informent, de
leur propre initiative, les moteurs de recherche de
l'existence de leurs pages (référencement).
En plus des moteurs généralistes, il existe maintenant de
nombreux
moteurs
de
recherche
spécialisés
dans
une
discipline donnée, ou pour un type de document particulier
(images, vidéos,...)
Chaque robot fonctionne à sa manière. Voilà pourquoi les
résultats peuvent être différents pour une même requête
selon que l'on utilise tel ou tel moteur. Les trois
principaux systèmes d'indexation utilisés par les robots
sont les suivants (certains en utilisent plusieurs):
•
Par mots clés. Lors de la conception d'une page Web,
l'auteur peut indiquer une liste de mots clés (non
affichée à l'écran : balise META keywords) qui sera
recherchée par le moteur.
• Par titre. De même, la balise TITLE indique aux moteurs de
recherche le titre du document.
• Dans le texte. Le robot indexe touts les mots (ou les mots
des premières lignes) des pages Web.
Exemples :
Moteurs généralistes :
Altavista www.altavista.com,
Google www.google.com
Moteur géographique :
Excite www.excite.fr
La recherche par les moteurs
Les moteurs de recherche proposent un formulaire
recherche simple disponible sur la page d'accueil.
de
7
La recherche d’information sur l’internet
Exemple
:
AlltheWebÆ
www.alltheWeb.com,
formulaire
de
recherche simple. Un formulaire de recherche avancée,
beaucoup plus puissant est généralement proposé par un lien.
Exemple :
Google recherche avancéeÆ www.google.com/advanced_search?hl=fr
Au cours d’une recherche le moteur cherchera l'occurrence du
(des) mot(s) recherché(s) dans sa base de données contenant
plusieurs millions de pages.
Attention, la recherche s'effectue dans la base de données
du moteur et pas sur la totalité de l'Internet ! De plus il
existe
une
part
non-négligeable
du
Web
totalement
inaccessible aux moteurs : le Web invisible.
ƒ Classement des résultats
Les résultats seront classés selon un algorithme de
pertinence propre au moteur (présence du mot dans le titre,
dans le texte, dans les balises métas, dans l'url, indice de
popularité...).
Attention cependant, de nombreux moteurs proposent sur leurs
pages de résultats des liens sponsorisés. Dans le milieu du
e-commerce et du e-marketing, c'est ce qu'on appelle le
positionnement payant : des sociétés achètent aux enchères
certains mots clés afin de se retrouver dans les premiers
résultats d'une requête comprenant ce mot. Ces liens ne sont
pas nécessairement les plus pertinents pour la recherche en
tant que telle et n'ont en général pour but que de ramener
des clients potentiels à la société.
8
La recherche d’information sur l’internet
ƒ Présentation des résultats
La façon de présenter les résultats est, elle aussi, propre
à chaque moteur (titre de la page, petite description,
adresse, mais aussi date de mise à jour, auteur, sites
similaires, pertinence en %, ...).
Enfin, la plupart des moteurs effectuent un clustering
(c'est-à-dire qu'ils ne proposent qu'un seul lien pour un
site même si plusieurs pages de ce site correspondent à la
requête). On peut en général accéder aux autres pages du
site à l'aide d'un lien du type "Autres pages de ce site".
3.
Les annuaires ou répertoires
Les répertoires ou annuaires sont très différents des
moteurs. Alors que ces derniers indexent automatiquement des
PAGES Web, les annuaires recensent des SITES classés par
catégories et sous catégories. Ce classement est effectué
par des humains (par opposition aux robots) et, dès lors, la
pertinence et la qualité des sites sont en général bien
meilleures que sur un moteur de recherche.
Les responsables construisent donc une base de données de
fiches descriptives contenant des informations comme le
titre, l'adresse URL, les sujets traités (sport, éducation,
arts et spectacles, etc.), une description et éventuellement
un commentaire et des mots-clés.
A côté des annuaires généraux, il existe aussi de nombreux
annuaires spécialisés dans des domaines précis (un pays, la
médecine, l'éducation, ...).
Exemples :
Généralistes : http://www.google.fr/dirhp?hl=fr
http://fr.dir.yahoo.com
Géographiques : http://www.woyaa.com/
La recherche par les annuaires
ƒ
Par mots-clés
La recherche par mots-clés dans un annuaire s'effectue sur
l'occurrence
des
mots
dans
le
contenu
des
fiches
descriptives et non sur le contenu des pages du site (à la
différence des moteurs).
9
La recherche d’information sur l’internet
ƒ Par catégories
La recherche peut aussi se faire en descendant la hiérarchie
de catégories de la plus générale à la plus spécifique. Une
recherche sur la ville de Cotonou peut se décomposer comme
suit : Afrique > Afrique de l’Ouest > Bénin > Cotonou.
ƒ
Présentation des résultats
Par mots-clés:
L’annuaire proposera d'abord une liste de catégories
contenant le(s) mots(s) demandé(s), suivie d'une liste de
sites dont la fiche correspond à la recherche, classés par
pertinence.
Exemple :
Par catégories :
Le résultat sera une liste de sites pertinents du domaine
recherché, classés par ordre alphabétique.
4.
La recherche par les métamoteurs
Ils permettent de survoler rapidement un sujet et de repérer
les outils qui y répondent le mieux.
On distingue généralement 3 générations de métamoteurs :
Première
génération : ils rassemblent sur une même
interface un certain nombre de moteurs et outils de
recherche.
Ils
ne
permettent
pas
une
interrogation
simultanée mais offrent néanmoins un gain de temps.
Seconde
génération
simultanément
affichent les
les doublons
L'utilisateur
site par site.
:
ces
métamoteurs
interrogent
plusieurs outils de recherche. Mais ils
résultats moteurs par moteurs sans éliminer
ni procéder à l'analyse de pertinence.
doit évaluer les résultats en se connectant
10
La recherche d’information sur l’internet
Troisième
génération : ces métamoteurs, les plus
sophistiqués,
sélectionnent
les
sites
dans
différents
moteurs, éliminent les doublons et affichent les résultats
selon des critères de pertinence ou par type de document.
Les
métamoteurs
permettent
d'interroger
simultanément
plusieurs moteurs de recherche avec une même requête (du
moins pour les métamoteurs de génération 2 et 3. Les
résultats de la requête sont issus de plusieurs bases de
données, ce qui permet une plus grande couverture de
l'Internet. Le principal avantage des métamoteurs est donc
l'exhaustivité.
Cependant, la même requête étant envoyée à tous les moteurs,
il est dès lors impossible de faire une requête complexe
puisque chaque moteur utilise une syntaxe propre. L'usage
des métamoteurs se limite donc souvent à des recherches
simples.
Exemple :
- http://www.metacrawler.com
Il existe d'autres outils faisant de la "métarecherche" :
les agents dits intelligents (les métamoteurs sont qualifiés
d'agents "semi-intelligents"). Ceux-ci sont en général des
logiciels payants que l'on installe sur sa machine.
La définition exacte d'un agent intelligent est "Objet
utilisant les techniques de l'intelligence artificielle : il
adapte son comportement à son environnement et en mémorisant
ses expériences, se comporte comme un sous-système capable
d'apprentissage : il enrichit le système qui l'utilise en
ajoutant, au cours du temps, des fonctions automatiques de
traitement, de contrôle, de mémorisation ou de transfert
d'information." (AFNOR)
11
La recherche d’information sur l’internet
Les agents de recherche intelligents sont spécialisés dans
la recherche d'information, plus ou moins autonomes et qui
assistent l'utilisateur dans la recherche d'information,
soit qu'ils opèrent directement en lieu et place de
l'utilisateur, soit qu'ils aient une connaissance au moins
partielle des objectifs ou du profil de l'utilisateur. Ils
sont le plus souvent programmés avec des technologies
d'intelligence artificielle. (Définition tiré de Strategicroad.com)
Exemple :
Copernic <http://www.copernic.com/fr/index.html>
La recherche par les encyclopédies en lignes
Gratuites ou payantes, les encyclopédies en ligne ne sont
pas à proprement parler des outils de recherche (même si
certaines d'entre elles en intègrent). Elles sont néanmoins
une source sûre, l'information y est de qualité et
permanente. Elles sont donc souvent un passage obligé lors
d'une recherche d'information.
Exemples :
- http://en.wikipedia.org,
- http://www.britannica.com,
- http://www.quid.fr
Les sites fédérateurs et les
large dans un domaine précis
guides
-
recherche
Aucun outil n'est exhaustif et bien souvent, il faut en
utiliser plusieurs pour arriver à ses fins. Les sites
fédérateurs (Gateway, Portail, passerelle thématique) et les
guides thématiques sélectionnent des sources de qualité dans
un
domaine
précis.
Créés
par
des
professionnels
de
l'information ou des passionnés, ces sites proposent en
général un recensement complet des meilleures ressources
concernant un domaine. Par ailleurs, ils recensent bien
souvent des ressources appartenant au Web invisible. Un site
fédérateur peut donc proposer des répertoires spécialisés,
des
liens
vers
des
répertoires
ou
pages
de
liens
spécialisées, des articles en texte intégral ou une
bibliographie en ligne, les actualités du secteur, les
événements du secteur, des accès à des base de données, des
offres/demandes d'emploi, un forum, des données chiffrées,
des statistiques, des synthèses concernant le secteur, une
liste de périodiques spécialisés, une liste d'experts, des
cours, des conseils, des informations juridiques, etc. Un
site fédérateur très actif rassemble souvent une communauté
de spécialistes autour de lui et devient donc un point de
référence du domaine.
12
La recherche d’information sur l’internet
Exemples :
- Plant Pathology Internet Guide Book http://www.pk.unibonn.de/ppigb/ppigb.htm,
- All the Virology on the WWW http://www.tulane.edu/~dmsander/garryfavWeb.html,
- Map History http://www.maphistory.info
Les Webrings
précis
-
recherche
large
dans
un
domaine
Les Webrings permettent de découvrir une multitude de sites
correspondant à un thème donné. Il est possible depuis
n'importe quel site membre d'obtenir la liste détaillée de
tous les sites. Le Webring est géré manuellement et fait
l'objet d'une sélection : gage de qualité et fiabilité.
Exemples :
- Geology & Earth Science Webring http://d.Webring.com/hub?ring=geoesring&list
Spécificités de certains moteurs
ƒ
Fonctionnalités intéressantes
Page archivée en mémoire, version cache
Cette fonctionnalité a été lancée pour la première fois par
Google. La version cache d'une page est la page telle
qu'elle était lors du dernier passage du moteur, archivée
par ce dernier. Très pratique pour retrouver des pages
disparues mais aussi pour des pages qui changent très
souvent et dont le contenu est archivé ailleurs au fur et à
mesure (cas des blogs par exemple), utile aussi dans le cas
de pages accessibles sur abonnement mais publiées d'abord
gratuitement.
Cette version cache permet aussi de mettre en évidence les
mots recherchés dans la page en les surlignant, ce qui
s'avère particulièrement utile avec de longs documents.
Moteurs concernés : Google (http://www.google.com), Yahoo!
Search
(http://search.yahoo.com),
Gigablast
(http://www.gigablast.com)
Format de fichiers
Cette fonctionnalité très intéressante a été inaugurée par
Google mais est disponible maintenant sur quelques autres
moteurs. Elle permet de ne chercher que des fichiers .pdf ou
.doc par exemple, ce qui est particulièrement intéressant
quand on sait que de nombreux dossiers de fond, rapports,
articles ... sont sous ces formats.
13
La recherche d’information sur l’internet
Regroupement thématique à la volée
Lancée pour la première fois par Northern Light, cette
fonctionnalité permet d'affiner sa recherche. En effet, une
fois la recherche lancée, les résultats similaires (d'après
le moteur) sont regroupés automatiquement dans des dossiers
thématiques.
Par exemple, une recherche sur
proposera les dossiers suivants :
"benin"
dans
Vivismo
Moteurs concernés : Wisenut (http://www.wisenut.com), Teoma
(http://www.teoma.com), Ez2find (métamoteur) (http://ez2find.com),
Vivismo (métamoteur) (http://vivisimo.com), KillerInfo (métamoteur)
(http://www.killerinfo.com).
ƒ Spécificités de Google <www.google.com>
"Recherche rapide et facile. [...] google a fait un
compromis entre son extrême simplicité d'utilisation et la
complexité de son système de classement de résultats"
Algorithme de pertinence : Rank page
L'algorithme de pertinence de Google se base essentiellement
sur l'indice de popularité. Ce système est utilisé à la fois
pour les résultats du moteur et pour le classement des sites
dans son répertoire.
"Le principe de PageRank est simple : tout lien pointant de
la page A à la page B est considéré comme un vote de la page
A en faveur de la page B. Toutefois, Google ne limite pas
son évaluation au nombre de « votes » (liens) reçus par la
page ; il procède également à une analyse de la page qui
contient le lien. Les liens présents dans des pages jugées
importantes par Google ont plus de « poids », et contribuent
ainsi à « élire » d'autres pages. "
14
La recherche d’information sur l’internet
Avantage
Les pages trouvées sont en quelque sorte évaluées par des
pairs puisqu'un site référencé par de nombreux sites du même
domaine
sera
bien
classé.
A
l'usage
on
constate
qu'effectivement
les
résultats
de
Google
sont
très
pertinents.
Inconvénients
Les pages récentes et méconnues sont négligées, de même que
les pages traitant d'un sujet peu populaire.
J'ai de la chance
Le bouton "j'ai de la chance" du formulaire de recherche de
Google permet d'afficher directement la page que Google
considère comme la plus pertinente pour une recherche
donnée.
Formats de fichiers
Google était jusqu'il y a peu le seul moteur à indexer
d'autres formats en dehors des pages Web (en gras les plus
fréquents) :
Adobe Portable Document DBase dbf
Format pdf
Lotus WordPro lwp
Adobe Postscript eps, ps
Lotus 123 wk, wk1, wk2, Mac Write mw
wk3, wk4, wk5, wki, wku
CorelWorldPerfect wp
Lotus Amipro sam
Microsoft Excel xls
Microsoft Word doc
Microsoft PowerPoint ppt Microsoft Access mdb
Works Spreadsheet wps
Rich Text Format (RTF) WordPad wri
rtf
Works Database wdb
WorksText wks
WordStar ws
Il suffit de taper filetype:ppt pour trouver des documents
powerpoint ou utiliser le formulaire de recherche avancée
http://www.google.com/advanced_search?hl=fr.
Pages archivées en mémoires
Dans ces résultats, Google propose un lien vers la version
de la page telle qu'elle était lors de son indexation ce qui
est extrêmement utile pour les pages disparues (erreurs
404).
Recherche incluant les synonymes
Depuis août 2003, Google propose une recherche incluant les
synonymes par l'intermédiaire du tilde (~). Par exemple, une
recherche sur biology ~course cherchera des pages comprenant
le mot biology associé à des termes comme course(s),
classe(s), tutorial, lecture(s), training, ... La recherche
incluant les synonymes n'est pas encore très efficace en
français.
15
La recherche d’information sur l’internet
Pour savoir quels synonymes sont utilisés il suffit de faire
une recherche incluant les synonymes en excluant le mot dont
on recherche les synonymes, puis de regarder les pages de
résultats :
Exemple :
~help -help : guide, manual, faq, support, tutorial,
helping, helper, tips, problems, troubleshooting
~search -search : finder, listings, searcher, database
ƒ
Spécificité de Yahoo! Search <search.yahoo.com>
Recherche sur le nom de domaine du site
hostname:
Exemple : hostname:autos.honda.com recherchera les documents
disponibles sur le site autos.honda.com.
Ordre des mots
L’ordre des mots est important : paris dakar donne un
résultat
différent
de
dakar
paris.
Une
plus
grande
importance est donnée au premier mot choisi.
Organiser sa boîte à outils au sud
Du fait de la fracture numérique, les internautes du sud se
connectent le plus souvent à partir d’ordinateurs publics.
Cela rend impossible toute personnalisation. Il existe
cependant
des
moyens
simples
à
utiliser
en
toutes
circonstances.
ƒ La consultation de sites en mode hors-ligne :
- Enregistrement de la page Web sur un disque amovible
- Export vers un document Word.
- Impression de données
ƒ
Organiser les favoris
Il est possible, sur un disque amovible, d’organiser ses
favoris et de les avoir partout sur soi en s’appuyant sur
les dossiers, sous dossiers et raccourcis de Windows. (Voir
TP).
Les outils suivants devraient être idéalement classés dans
ces favoris au sein d’un répertoire "Recherche":
- Quelques moteurs de recherche
- Des moteurs de recherche régionaux
- Un moteur de recherche spécialisé pour chaque centre
d'intérêt
- Un métamoteurs
- Des dictionnaires en ligne
- Des outils de traduction
- Une encyclopédie
16
La recherche d’information sur l’internet
- Des annuaires, etc.
5.
Méthodologie de la recherche documentaire
Préparatifs
ƒ Délimiter le sujet
Avant toute recherche complexe, il convient de comprendre et
préciser le sujet par :
- La définition claire de la discipline et des thèmes
concernés, de la période et de la zone géographique
couvertes.
- La définition des mots-clés :
Consulter
les
ouvrages
de
références
(dictionnaires,
encyclopédies, atlas...) permet de définir les termes
spécifiques à la recherche, les synonymes, les notions
proches...
L’on peut, dans le choix des mots-clés, utiliser Rameau
http://noticesrameau.bnf.fr
(Répertoire
d'autorité-matière
encyclopédique et alphabétique unifié : langage d'indexation
élaboré et utilisé par la Bibliothèque nationale de France),
Le
grand
dictionnaire
terminologique
http://www.granddictionnaire.com/ et la section Dictionnaires et
encyclopédies des outils.
- Le choix de bons outils
- Une bonne formulation des requêtes
A partir de cette démarche préalable, il est utile de se
demander quels sont les types de documents qui peuvent le
mieux fournir l'information pertinente (thèses et mémoires,
articles scientifiques, publications officielles, livres,
documents iconographiques, audiovisuels, sonores...).
Ces types de document se trouvent-ils plus facilement en
bibliothèque ou sur Internet ?
Ensuite il faut utiliser les outils les mieux adaptés à
cette recherche en utilisant les bons mots clés dans des
requêtes bien formulées.
ƒ Indicateurs d’un sujet bien délimité
Après la démarche préalable (Délimiter le sujet) L’on doit
pouvoir répondre aux questions suivantes :
-
Quel est le type d'information recherchée?
Quel est le type de document ?
Quelle est la quantité d'information désirée ?
Quel temps faut-il consacrer à la recherche ?
Quelles limites présente la recherche ?
Comment formuler la question ?
Quel outil est le mieux adapté ?
Quel est le type d'information recherchée?
A partir du type de recherche à effectuer (recherche de
renseignements–exploration–démonstration-analyse-synthèse),
17
La recherche d’information sur l’internet
l’on peut définir le type d’information
générale-spécifique-url-références)
(Information
Quel est le type de document ?
- Textuel (html, doc, rtf, pdf)
- Images (gif, jpeg, png, autres formats)
- Multimedia (mp3, mpeg, avi, wav,…)
Quelle est la quantité d'information désirée ?
Exhaustive-Ponctuelle
Quel temps faut-il consacrer à la recherche ?
Beaucoup de temps-Peu de temps
Quelles limites présente la recherche ?
Langues-Période couverte-Date de publication-Région couverte
-Zone géographique des pages.
Comment formuler la question ?
- En une phrase
- Puis à l'aide de mots clés
- Organiser ensuite ces mots selon leur importance dans
la recherche (ceux qui délimitent le domaine de
recherche et ceux qui précisent la recherche)
- Traduire ces termes en anglais
- Chercher des synonymes (en anglais et en français) de
ces mots.
Ecrire la requête de différentes manières à l'aide des
opérateurs booléens.
L’on peut recourir dans le choix des mots clefs et des
synonymes (français et anglais), à Rameau, au Grand
dictionnaire terminologique et à la section Dictionnaires et
encyclopédies des outils.
Requête complexe et opérateurs booléens
Attention, vu la spécificité des outils, des mots-clés
génériques peuvent être utilisés dans un annuaire et générer
du bruit sur un moteur. Inversement, des termes trop précis
dans un annuaire risquent de ne pas donner de réponse.
D'autre part, les différents outils de recherche n'utilisent
pas toutes ces possibilités et chacun possède un langage
d'interrogation spécifique. Cette remarque peut donc aussi
déterminer le choix de l'outil approprié.
ƒ
Généralités
Importance de l'ordre des mots
Pour la plupart des outils, global change donnera les mêmes
résultats que change global. Mais ce n'est pas le cas pour
tous. En effet, certains outils accordent un poids au mot en
18
La recherche d’information sur l’internet
fonction de sa position : le premier mot sera plus important
que le deuxième. Le nombre de résultats sera le même mais
ils seront triés différemment. Si l'on utilise un outil qui
ne tient pas compte de l'ordre des mots, l'utilisation des
griffes permet de l'y obliger : "global change"
Mots fréquents
Beaucoup de moteurs excluent les mots fréquents ou vides
(le, la, et, les, ou, je, tu, a...) ce qui peut être
problématique
pour
certaines
recherches
(par
exemple
vitamine A en français).
Attention aussi en utilisant un moteur non francophone, les
mots tels que "le, la, les, ..." seront pris comme un mot
clé (bruit)!
Q. Recherche sur la vitamine A
Avec Google (avril 2007) :
La casse (majuscule/minuscule)
La plupart des moteurs sont insensibles à la casse (il y'a
quelques temps la plupart des moteurs la respectait !).
Il semble que désormais, seul AltaVista soit entièrement
sensible à la casse à condition de mettre le mot recherché
entre " ou en utilisant le formulaire de recherche avancé ou
l'assistant de recherche.
Les caractères accentués
La plupart des moteurs tiennent compte des accents,
particulièrement les outils francophones, mais pas tous.
- Pour certains, électrophorèse cherchera électrophorèse et
electrophorese.
- Pour d'autres électrophorèse cherchera électrophorèse
uniquement.
- Pour certains, electrophorese cherchera electrophorese et
électrophorèse.
- Pour d'autres electrophorese cherchera electrophorese
uniquement.
Q. Recherche de site sur Star Wars épisode 1
avec google (02/2005):
star wars épisode 1--> 1 370 000 résultats
Star Wars Episode 1 --> 693 000 résultats
Stars Wars Épisode 1--> 1 370 000 résultats
Conclusion : Google n'est pas sensible à la casse mais tient
compte des accents.
19
La recherche d’information sur l’internet
Pluriel
Certains moteurs cherchent automatiquement le pluriel d'un
mot au singulier (en fait ils effectuent une troncature par
défaut c'est-à-dire que chat cherchera chat, chats, chatte,
chattes, chaton, chatière, chatouille, chateaubriand...).
Pour ceux qui ne le font pas, l'utilisation de la troncature
permet de chercher le pluriel et le singulier.
ƒ
Les opérateurs booléens
Opérateurs par défaut
Les internautes ont pris l'habitude de taper un ou deux
mots-clés séparés par un espace. L'espace est compris de
deux manières différentes par les outils de recherche : un
ET ou un OU, le OU par défaut étant le plus fréquent.
Attention donc, lorsque l'on cherche global change, beaucoup
d'outil chercheront en fait les pages contenant global,
change ou les 2 c'est-à-dire beaucoup de bruit.
- AND (ET)
Associer deux mots (ou plus) à une recherche est une
excellente méthode, qui donne en général d'assez bons
résultats en réduisant considérablement le nombre de pages
trouvées. Pour effectuer une recherche AND, chaque outil a
sa méthode. Voici les plus courantes :
Q. Informations sur la migration des cigognes
migration AND cigogne
+cigogne +migration
cigogne WITH migration
cigogne migration (recherche AND par défaut)
cigogne migration avec un bouton vous permettant de choisir
all the words
- OR (OU)
Associer deux mots différents avec l'opérateur OR n'est pas
vraiment à conseiller dans la mesure où le nombre de
résultats trouvés est en général impressionnant. Cela peut
cependant être utile dans le cas où la recherche peut
s'exprimer de différentes manières (synonymes et concepts
liés). De même, les méthodes diffèrent en fonction de
l'outil:
Q. Informations sur le SIDA (en anglais)
AIDS OR HIV
AIDS HIV (OR par défaut)
AIDS HIV avec un menu déroulant (any of the words)
- NOT (SAUF)
Ce peut être une excellente solution aux mots désignant
plusieurs concepts ou lorsque l'on sait que tel type
d'information ne nous sera d'aucune utilité. Cette méthode
permet de réduire le bruit.
20
La recherche d’information sur l’internet
Q.Information sur la chimie mais pas la chimie organique (en
anglais)
chemistry not organic
chemistry -organic
chemistry AND NOT organic
chemistry BUT NOT organic
chemistry avec un champs permettant d'exclure le mot organic
ƒ Recherche d'une expression ou d'une phrase
Pour rechercher une expression, il suffit de la mettre entre
griffes.
Q.Informations sur le Mont Saint Michel
S."Mont Saint Michel"
ƒ
Langage naturel
La recherche en langage naturel consiste à poser une
question sous forme de phrase au moteur comme "quelle est la
capitale du Bénin ?". Il interroge alors une base de données
composée de questions déjà posées par les internautes et
dont il possède la réponse. L'outil tente de rapprocher la
question de l'une de celle de sa base de données. Les
résultats sont composés d'une liste de ces questions.
Ce principe est intéressant mais est décevant pour des
questions pointues.
La recherche intuitive
Pour beaucoup de sites, il n'est pas nécessaire de consulter
un annuaire ou un moteur. En effet, lorsque l'on cherche un
site
dont
on
connaît
l'institution,
la
société
ou
l'organisation, il est relativement facile de deviner
l'adresse de ce site, à condition de bien comprendre comment
sont formées les URL.
- Pour commencer, taper http://www.
- Puis inscrire le nom ou l'acronyme de l'organisation
Terminer
par
le
domaine
le
plus
évident
http://www.nom.domaine(com pour une société commerciale, org
pour une ONG, ...)
Q. Site de BeninTelecoms
R. Recherche intuitive : c’est une entreprise d’Etat
béninoise dont l’ancienne appellation était OPT
--> http://www.opt.bj
Q. Site de Microsoft
R. Recherche intuitive : c'est une société commerciale
--> http://www.microsoft.com
Q. Site de la FAO
R.
Recherche
intuitive
:
c'est
une
organisation
internationale --> http://www.fao.org/
Couper les URL (remonter l'adresse)
21
La recherche d’information sur l’internet
La recherche intuitive permet aussi de retrouver une page
qui n'existe plus (erreur 404) ou des liens morts.
Coupez l'url à partir de la droite jusqu'à chaque /.
Q. Dans le répertoire Darwin de mes bookmarks, j'ai la page
suivante
http://www2.lucidcafe.com/lucidcafe/library/96feb/charlesdar
win.html qui ne fonctionne pas et me renvoie sur la page
d'accueil http://www.lucidcafe.com/ (ce qui revient à couper
l'url jusqu'au nom de l'hôte). Comment retrouver ma page à
partir de là?
R. Dans la première url, le mot Library apparaît, or sur la
page
une
rubrique
porte
ce
nom.
Sur
la
page
http://www.lucidcafe.com/library/library.html, il existe un
lien
vers
un
index
http://www.lucidcafe.com/library/categoryindex.html,
une
recherche dans cette page (ctrl+F:Darwin) me permet de
retrouver la page cherchée :
http://www.lucidcafe.com/lucidcafe/library/96feb/darwin.html
Q. Avec une recherche sur les trous noirs, un moteur me
propose
parmi
ses
résultats
la
page
suivante
http://membres.lycos.fr/bholes/trous-noirs.html
qui
me
renvoie l'erreur 404 de son hébergeur. Comment faire pour
retrouver la page ?
R. Copier l'url et la coller dans la barre d'adresse du
navigateur.
En
coupant
l'url
jusque
http://membres.lycos.fr/bholes/
on
tombe
sur
la
page
d'accueil d'un site d'étudiants du secondaire consacré aux
trous noirs. En cliquant sur le lien plan du menu, on
constate que le lien "developpement du sujet" répondra entre
autre
à
la
question
Qu'est-ce
qu'un
trou
noir?
http://membres.lycos.fr/bholes/dvpt1.html
6.
Evaluer les ressources
S'il est vrai que sur l'Internet on trouve en général ce que
l'on cherche, on y trouve aussi n'importe quoi. Or il n'est
pas si évident de distinguer les informations fiables de
celles qui relèvent de la désinformation ou du manque
d'information.
Contrairement aux éditions papier ou même électroniques (CDROM), l'Internet ne bénéficient en général pas de la revue
par les pairs ni d'aucune autre évaluation. La facilité de
créer un site Web permet à n'importe qui d'éditer, via
l'Internet, ce qu'il veut.
On trouve ainsi, sur un sujet déterminé, des pages
personnelles (qui ne sont pas toujours les moins fiables),
des sites commerciaux, des sites universitaires, des sites
22
La recherche d’information sur l’internet
gouvernementaux,
des
sites
d'organisations
internationales... La qualité des informations disponibles
est donc, elle aussi, très variable.
D'autre part, les informations peuvent être disponibles dans
différents formats et peuvent changer ou disparaître d'un
jour à l'autre.
L'URL
Premier indice de crédibilité, l'URL. Comme vu, l’on peut
déduire beaucoup de choses d'une URL, en particulier le
domaine
d'activité
(société
commerciale,
université,
ONG,...). Cependant, si l'analyse de l'URL d'un site donne
de bons indices, ceux-ci sont loin d'être suffisants pour se
faire une opinion définitive sur la qualité de l'information
que l'on y trouve.
Source du document
La source d'un document doit pouvoir être identifiée avec
certitude. Si elle ne se trouve pas sur la page concernée,
il convient de remonter les pages jusqu'à obtenir le nom de
l'auteur (si possible ses qualifications sur le sujet
concerné : son CV) et le nom de l'institution s'il y a lieu.
Une fois la source obtenue, vérifier si le nom de
l'institution correspond à l'URL, si l'adresse de contact de
l'auteur est l'adresse de l'institution, si le mail de
contact correspond à l'institution. Attention ce n'est pas
toujours le cas, mais ce sont de bons indices de
crédibilité.
Exemple :
Vous trouvez un article intéressant sur la neuropsychologie
de Martin Jacques, qui se dit étudiant en dernière année de
doctorat de médecine à l'ULB (Université de Bruxelles).
Si cet article se trouve sur une page Web dont l'adresse est
www.ulb.ac.be/~jacques/neuropsy.html
ou
www.ulb.ac.be/facmed/labos/neuropsy/jacques.html et que le
mail de ce Monsieur Jacques est [email protected], c'est
bon signe.
Si la source ne peut-être obtenue, il vaut mieux ne pas
utiliser l'information. De toute façon, ces informations
sont nécessaires pour citer le document.
Actualité
La date de création et la date de dernière mise à jour sont
aussi des critères essentiels pour évaluer la crédibilité
d'une information. Attention, il faut bien distinguer la
date de mise à jour de la forme de celle du contenu, mais
bien souvent ces deux dates ne sont pas distinguées. Si la
date ne se trouve pas sur la page concernée (généralement
visible dans le pied de la page) se fier dès lors à des
23
La recherche d’information sur l’internet
éléments internes au texte du site : par exemple des
nouvelles datées, des allusions à des faits passés, présents
ou futurs (" en 2001 les travaux porteront sur… ") Etc.
D'autre part, l'actualité d'une information doit être
relativisée en fonction du sujet. Il est des sciences qui
évoluent au jour le jour (c'est souvent le cas en médecine
et en biologie moléculaire), d'autre qui ne change pas
pendant des années (systématique).
De plus, des sites peuvent être de qualité lors de leur
création
et
se
laisser
rapidement
dépasser
par
les
événements.
Présence de références bibliographiques
Si le contenu de la page n'est pas original ou contient des
informations relatives à d'autres travaux (informations
secondaires), les sources originales doivent être indiquées.
Pour finir, l'évaluation d'un document électronique
pouvoir répondre aux questions suivantes :
-
doit
Qui (Who) : auteurs
Où (Where) : lieux
Quoi (What) : analyse du discours
Quand (When) : date de publication ou de mise à jour
Comment (How) : organisation et qualité de l'information
Pourquoi (Why) : objectifs du site
Outils
Evaluation Wizard http://21cif.imsa.edu/evaluate
Grilles d'analyse de sites Web.
7.
Glossaire
- AGENT INTELLIGENT
Logiciel visant à faciliter la recherche et la gestion de
l'information sur l'Internet. IL possède des attributs
propres et agit dans le but d'accomplir un certain nombre de
tâches pour un autre agent logiciel ou un humain.
- ANNUAIRE
Voir Répertoire
- BRUIT
Réponse
non
pertinente
fournie
lors
d'une
recherche
d'information.
- CONTENU DYNAMIQUE
Il s'agit de pages Web avec des informations qui changent ou
sont changées automatiquement en fonction d'une base de
données ou d'éléments provenant de l'utilisateur.
24
La recherche d’information sur l’internet
- EN-TETE heading tags
Ce sont les commandes qui se trouvent en tête des pages
HTML.
Certains
moteurs
de
recherche
donnent
plus
d'importance et de poids au texte qui s'y trouve.
- LIEN MORT
Un lien qui ne mène plus à une page ou à un site, soit parce
que le serveur est en panne, soit parce que la page a été
déplacée ou bien n'existe plus. La plupart des outils de
recherche ont des techniques pour ôter de telles pages de
leur liste automatiquement. Mais l'Internet continuant à
croître quotidiennement, il leur devient de plus en plus
difficile de contrôler régulièrement toutes ces pages.
- MOT CLE ou keyword
Mot ou groupe de mot, éventuellement dans une forme
lexicographique normalisée, choisi dans le titre ou le texte
d'un document, caractérisé par le contenu et permettant la
recherche de ce document.
- OPERATEUR BOOLEEN
Pour effectuer une recherche par mots-clés, on couple
souvent une suite de mots grâce à des opérateurs booléens.
Venant du nom de George Boole (mathématicien britannique)
ces opérateurs permettent d'élargir ou de restreindre la
recherche en imposant certains mots et en excluant d'autres.
Il existe plusieurs opérateurs booléens :
ET [AND] (la recherche se fait obligatoirement sur les deux
mots saisis);
OU [OR] (la recherche se fait soit sur l'un des mots saisis,
soit sur l'autre, soit sur les deux);
SAUF [WITHOUT] (qui exclut le terme en question de la
recherche).
PORTAIL
Terme générique pour désigner un site qui sert de point
d'entrée
sur
l'Internet
pour
un
nombre
important
d'utilisateurs.
- REGROUPEMENT ou cluster ou méthode de clustering
Affichage d'une seule adresse pour chaque site Web sur la
page des résultats d'un outil de recherche. Cette méthode
permet d'éviter qu'un petit nombre de sites occupe toutes
les premières positions de résultats et en facilite la
lecture pour l'utilisateur.
- ROBOT
Programmes de navigation qui suivent les liens hypertextes
des pages Web mais qui ne sont par directement sous contrôle
humain.
- URL
Uniform Resource Locator : adresse d'un site Web.
25