Informatique en bibliothèque

Transcription

Informatique en bibliothèque
Informatique en bibliothèque
Un cours de Brigitte Baléo et Eric Pichon
III/ La recherche sur Internet
1. Introduction
2. Panorama des outils de recherche
3. Vérification de l'information
Objectifs du cours
Connaître les outils pour effectuer une recherche documentaire sur Internet
.
_________________________________________________________________________________________________
____
1
Mediadix – Informatique en bibliothèque — III. La recherche sur Internet
I / Introduction
→ Outils de recherche, définitions
Sur Internet, le terme '"outils de recherche" évoque des sites Internet permettant
d'accéder à d'autres sites (Google, Yahoo!, etc.) plus fréquemment que des logiciels à
installer sur un ordinateur (comme Copernic).
Parmi ces sites, on établit une distinction entre :
les "annuaires" (répertoires de sites) ;
les "moteurs".
On pouvait, il y a plusieurs années, répartir assez aisément les sites de recherche dans
l'une ou l'autre de ces catégories. Aujourd'hui, ces sites sont des outils hybrides,
combinant les fonctionnalités des annuaires et des moteurs, ainsi que d'autres services
(actualités, encyclopédie, ...).
Aussi, la distinction annuaire (répertoire)/moteur est-elle plus difficile à opérer ; elle n'en
est pas moins essentielle.
Mode de
sélections
Type de
documents
Nombre
Moteurs
Indexation automatique donc
moins avisée que dans les
annuaires
pages
Annuaires
Sélection de
sites par des
indexeurs
documentalistes
sites
milliards
milliers
Outre ces outils (moteurs, annuaires), il existe aussi des répertoires spécialisés
permettant de repérer des informations mal indexées par les moteurs de recherche ("web
invisible" qui comporte notamment le contenu des bases de données en ligne).
Pensez aussi à utiliser les outils de veille documentaire.
→ Pour une bonne utilisation des outils de recherche
Lire le mode d'emploi
Le mode de recherche, la syntaxe, les champs couverts varient suivants les outils, aussi
il est plus important de bien maîtriser quelques-uns d'entre eux, plutôt que de les utiliser
tous, mais incorrectement.
Pensez à consulter les pages d'aide ou les FAQ que la plupart de ces sites mettent à votre
disposition.
Situer et sélectionner les parties d'un site de recherche que l'on interroge
La plupart des sites de recherche tendent aujourd'hui à se constituer en "portails" afin de
fidéliser l'internaute. Ils proposent, outre un outil de recherche sur les sites Internet, une
encyclopédie, des dépêches d'agence, des dossiers d'actualité ou des fils d’actualités mais
aussi des liens "commerciaux" vers des sites partenaires (cybercommerce...) et différents
services (adresses mail gratuites, stockage de fichiers...) .
_________________________________________________________________________________________________
____
2
Mediadix – Informatique en bibliothèque — III. La recherche sur Internet
Lors d'une recherche documentaire, il faut donc faire particulièrement attention : à la
partie du site que l'on interroge (l'annuaire, le moteur, l'encyclopédie, les actualités, ...)
aux types de réponses trouvées : (sites sélectionnés par des professionnels pour
l'annuaire, page indexée automatiquement de la base de données du moteur, liens
sponsorisés mis en évidence non pour leur qualité intrinsèque mais pour des raisons
commerciales).
Déterminer le contexte du sujet et choisir le bon outil
Généralement,
les annuaires sont utilisés pour une recherche sur un sujet général,
les moteurs pour un sujet plus spécifique.
MAIS : la distinction se fera en fonction de votre propre connaissance du sujet.
Moteur, annuaire ? Un exemple de recherche
Sujet : Recherche de documents sur la végétation de l'edelweiss.
1. Vous pouvez choisir de chercher dans un annuaire s'il existe des sites spécialisés sur
la flore alpine (... mais cela suppose que vous savez déjà que l'edelweiss est une fleur
alpine) ;
2. Si vous connaissez mal le sujet, vous pouvez procéder par exploration. Essayez
d'interroger un moteur pour identifier le contexte puis utilisez un annuaire pour chercher
des sites spécialisés sur le sujet.
Que cherche-t-on ? Quels outils utiliser ?
Je cherche
Une synthèse
Des chiffres
Des documents
originaux
Un spécialiste à
interviewer
Une analyse
Un point de vue
officiel ou au
contraire dissident
Une anecdote à
placer dans un
discours
Un dossier complet
sur un sujet
J'utilise
Les fils d'actualité des sites de recherche (Yahoo!,...).
Dans un annuaire, une rubrique "statistiques" en
rapport avec le sujet.
Les bases de données dans le domaine.
Je m'interroge sur l'existence d'un site "officiel" sur le
sujet ? Offre-t-il des documents téléchargeables ?
(souvent au format PDF, qu'on peut rechercher par
ex. sur Google)
Un répertoire spécialisé qui permettra de repérer les
auteurs de sites sur le sujet.
J'interroge des sites universitaires pour localiser des
enseignants du domaine ; des annuaires de
journalistes spécialisés ou ceux de sites
d'associations professionnelles ; ...
Les sites de journaux (quotidiens, magazines) ;
Des répertoires de thèses universitaires ; ...
Les sites officiels des gouvernements, des sociétés.
Les listes de discussion, les forums des sites
alternatifs
Voir http://rezo.net/
http://www.evene.fr/citations/index.php
Plusieurs outils combinés.
Des répertoires spécialisés du domaine.
_________________________________________________________________________________________________
____
3
Mediadix – Informatique en bibliothèque — III. La recherche sur Internet
Toute la chronologie
d'un événement y
compris ses derniers
rebondissements
Adresses de
personnes
Les archives et dossiers des journaux
Les fils d'actualités.
Adresses mel :
Copernic, logiciel téléchargeable, offre aussi une
option de recherche simultanée sur plusieurs
annuaires d'adresses électroniques). Certains sites
permettent de retrouver les e-mails de personnes à
partir des contributions aux forums de discussion :
http://usenet-addresses.mit.edu
Le développement du "spam" (courrier non désiré
envoyé à des adresses récoltées sur Internet) incite, à
juste titre, de nombreuses personnes à refuser la
publication de leur adresse. Il est parfois plus aisé de
retrouver l'e-mail de quelqu'un par le biais de
l'entreprise où il travaille ou bien en lui téléphonant...
Numéros de téléphone
En France, les pages jaunes et blanches sont
disponibles sur Internet http://www.pagesblanches.fr/ ;
ainsi que les annuaires inversés http://www.quidonc.fr
qui sont eux payants.
Pour les téléphones mobiles, il n'existe pas encore
d'annuaire inter-réseau.
Des sites recensent les annuaires des autres pays
"Annuaires du monde" sur pagesjaunes.fr
www.phonenumbers.net
Images, sons, videos
Cartes
géographiques
Forums
Plusieurs moteurs de recherche disposent d'un
module de recherche d'images ou d'autres fichiers
audiovisuels : ex. : les onglets 'pictures', 'video',
'audio' sur Alltheweb www.alltheweb.com [interface en
anglais.
Les cartothèques de Sciences Po
http://www.sciences-po.fr/cartographie
ou de la Perry Castaneda Library
http://www.utexas.edu/maps (en anglais)
Des sites spécialisés permettent de rechercher des
forums et des listes de diffusion sur un thème donné,
et d'interroger directement dans les contributions à
ces débats.
:
_________________________________________________________________________________________________
____
4
Mediadix – Informatique en bibliothèque — III. La recherche sur Internet
2. Panorama des outils de recherche
→ Moteurs de recherche : principes et règles de recherche
Les moteurs de recherche sont des sites qui lancent des requêtes sur une base de
données constituée de façon automatique d'après le contenu des pages recensées par
les "spiders", outils qui parcourent régulièrement le web en se basant sur les liens
hypertexte.
Exemples de moteurs de recherche
Moteur
Google
Adresse
http://www.google.fr/
Voila (onglet "tout le web")
http://www.voila.fr/
Yahoo! Recherche (partie "tout le
web")
Alltheweb (en anglais)
http://fr.yahoo.com/
http://www.alltheweb.com/
Indexation
Les données contenues dans les pages rencontrées sont indexées et pondérées
automatiquement, selon différents critères :
_ Structuration du code source de la page. Les termes reçoivent une pondération plus
ou moins importante selon les "zones" de la page où ils sont placés.
— "Notoriété" de la page qui est déterminée par le nombre de liens hypertexte pointant
vers celle-ci
— Fréquentation de la page.
Ces critères varient également selon les outils.
Tri des réponses
Lorsque l'on interroge un moteur de recherche, c'est dans cette base préconstituée qu'il
va puiser pour proposer une liste de réponses, triées en fonction de leur adéquation
supposée (c'est à dire calculée) avec la question.
Les moteurs se distinguent entre eux non seulement par les résultats trouvés, mais aussi
par la façon dont ils évaluent la pertinence de ceux-ci.
Les méthodes de tri des résultats combinent à des degrés divers selon les moteurs
différents éléments. Le classement des moteurs de recherche dépend donc largement de
la façon dont on formule sa question (choix et ordre des mots).
Moteurs : méthodes de tri des résultats
Place du mot dans le document : plus important s'il est dans le titre ou le début du texte
Densité : fréquence du mot dans la page (un mot qui figure 2 fois sur une page de 200
mots est plus "dense" qu'un mot qui figure 3 fois sur une page de 500 mots)
Rareté : un mot rare dans la base de données du moteur sera mieux "considéré"
Expression et proximité : plus les termes de la requête sont proches dans un document,
mieux cette page sera classée ; les pages contenant l'expression exacte arrivent en tête
Notoriété : plus une page est citée (i.e. référencée par un lien hypertexte) par d'autres,
plus elle est importante ; cette importance est accrue si les pages qui pointent vers elle
sont elles-mêmes très citées Popularité : le moteur augmente la pondération des pages
qui ont été jugées pertinentes par l'internaute pour une question donnée (quels liens de
_________________________________________________________________________________________________
____
5
Mediadix – Informatique en bibliothèque — III. La recherche sur Internet
la liste ont été visités et pendant combien de temps avant que l'internaute ne reviennent
à la liste des résultats).
D'après : Recherche d'information sur internet / Jean-Pierre Lardy. - ADBS, 2001
Limites
Les robots ne peuvent pas parcourir toutes les pages existantes : il faut qu'au moins un
lien les conduise sur une page donnée. Le délai de mise à jour de la base de donnés
entre deux visites d'un robot à une page web varie de un jour à quelques semaines. Ainsi
des bases très importantes peuvent contenir des informations périmées. Certaines
informations accessibles par requête leur échappent : cas de certaines pages
"dynamiques" et du contenu des bases de données (on parle de "web invisible") Enfin, la
structuration des pages HTML ne permet pas une indexation très poussée des
documents.
Règles de recherche
— Déterminer les règles de la requête
— Employer les opérateurs booléens et les possibilités de recherche avancée
Moteurs : règles de recherche
•
•
•
•
•
•
•
•
Déterminer les termes de la requête
Faire ressortir les termes les plus significatifs de la question.
Penser aux synonymes, aux équivalents anglais
Il peut être utile de jeter un coup d'oeil sur les premières réponses et de regarder les
termes employés dans les pages trouvées. On peut ainsi réutiliser ces termes pour
reformuler sa question.
Employer les opérateurs booléens et les possibilités de recherche avancée
La plupart des moteurs peuvent être interrogés en utilisant les opérateurs booléns et
d'autres requêtes avancées. Cependant, il est nécessaire de consulter l'aide (guide,
help, tips,...) de chaque moteur car chacun a ses propres règles de recherche,
concernant notamment :
La prise en compte des majuscules et des lettres accentuées
Le traitement des mots vides (le moteur, par exemple, fait abstraction des articles
dans la recherche)
Les opérateurs utilisables (OU, +, OR)
→ Annuaires (répertoires de sites)
Sur Internet, il n'y pas centralisation, pas d'organisme chargé du "dépôt légal" des sites. Il
n'existe donc pas exister d'annuaire général officiel des sites internet.
Les contenus des annuaires (ou répertoires de sites) ne peuvent donc qu'être partiels et
subjectifs.
Exemples d'annuaires (répertoires de sites)
Annuaires
Yahoo!Recherche (partie guide
web)
Adresse
http://fr.search.yahoo.com/search/fr/dir/index.ht
ml
Nomade (partie annuaire des
sites)
http://www.nomade.tiscali.fr/
_________________________________________________________________________________________________
____
6
Mediadix – Informatique en bibliothèque — III. La recherche sur Internet
Open Directory
http://dmoz.org/
Limites des annuaires
Le contenu des annuaires se limite généralement à une zone géographique ou
linguistique
Le travail de classement et d'indexation est fait par des "cyberdocumentalistes" — ou par
des internautes, dans le cas du répertoire collaboratif Open Directory (qui se trouve sur le
lien "annuaire" de Google) —, sur la base d'une liste de propositions faites par les
internautes ou les auteurs des sites
• Généralement, les sites inscrits sur une liste de soumission payante ont plus de
chance d'être évalués (sans que cela leur garantisse d'être retenus).
Principes
Les annuaires, ou la partie "annuaire", "répertoire", "guide web" ou "sélection de sites"
des sites de recherche, se présentent sous forme d'une arborescence de rubriques
aboutissant chacune à une liste de sites.
Sur la plupart des répertoires, on peut rechercher soit en parcourant l'arborescence
jusqu'au thème cherché ou recherche par mots clés sur tout l'annuaire ou sur l'une de
ses catégories (ou sur tout le web mais dans ce cas-là, on sort de la sélection de sites
pour utiliser la fonctionnalité "Moteur de recherche".
→ Répertoires spécialisés et bases de données
Bases de données payantes
Sur Internet, on trouve de nombreuses informations gratuites sur des sites de qualité
variable. On peut également accéder à des bases de données payantes qui ont
l'avantage de regrouper des informations rangées par des professionnels et des
documentalistes. Certes, on paye, mais on gagne du temps.
Les outils spécialisés et les bases de données disponibles gratuitement sur Internet
Il existe beaucoup de répertoires qui recensent uniquement des sites spécialisés sur un
domaine de connaissance particulier (droit, éducation, ...). Plus riches dans leur
spécialité que les répertoires généralistes, ces sites offrent en outre l'avantage de vous
orienter vers des ressources que les moteurs généralistes ont du mal à repérer (on parle
de "web invisible"). Il s'agit notamment de sites exploitant des bases de données — c'est
par exemple le cas des librairies et des catalogues de bibliothèques en ligne — les pages
présentant le formulaire d'interrogation sont indexées par les moteurs de recherche mais
pas le contenu de la base elle-même.
Il est intéressant de connaître les sites spécialisés disponibles dans son domaine sur
internet.
Certains outils comme les "répertoires de répertoires" s'efforcent de les recenser et de
les exploiter.
_________________________________________________________________________________________________
____
7
Mediadix – Informatique en bibliothèque — III. La recherche sur Internet
Des "répertoires de répertoires"
Répertoires de répertoires (anglais)
Internet Public Library (subject
collections)
Beaucoup.com
Bubl Link 5:15. Il offre plusieurs
classifications : alphabétique, par
rubriques, Dewey, etc.
Répertoires de répertoires (français)
Enfin.fr
Adresse
http://www.ipl.org/div/subjec
t/
http://www.beaucoup.com/
http://www.bubl.ac.uk/link/
Adresse
http://www.enfin.fr/
Les annuaires généralistes renvoient très souvent, dans chacune de leurs rubriques, à
une liste d'annuaires spécialisés (cf. la sous-rubrique "Portails et annuaires" de certaines
rubriques du guide web de Yahoo!)
Sites recensant les bases de données en ligne
Répertoires de bases de données en
ligne (anglais)
Profusion.com (ex-The invisible web)
Direct search
Bases de données (français)
Bdd Formist (cours en ligne avec
exemple)
Dadi (bdd gratuites
Carel (consortium d’achat de bdd)
sur le site de la BPI dans espace
professionnel, puis espace international.
Adresse
http://www.profusion.com/
http://www.freepint.com/gar
y/direct.htm
Adresse
http://bdd.formist.enssib.fr/i
ndex.html
http://dadi.enssib.fr
http://www.bpi.fr/ress.php?i
d_c=34&id_r1=372&id_c2=
34&id_rubrique1=58&id_rub
rique2=
Recherche dans plusieurs bases de données
Des outils téléchargeables, comme Copernic ou Strategic finder, peuvent lancer une
requête simultanément dans plusieurs bases de données (notamment dans celles des
librairies en ligne).
_________________________________________________________________________________________________
____
8
Mediadix – Informatique en bibliothèque — III. La recherche sur Internet
Bases de données à connaître en bibliothèque
Catalogues de bibliothèque
Liens vers des catalogues en ligne des bibliothèques
du monde entier : Libdex.com
Les outils de référence
Les catalogues des librairies en ligne, ou les bases
recensant :
la production mondiale de films
la production mondiale de CD (Gracenote.com)
Adresse
http://www.libdex.com/
Adresse
http://www.imdb.com/
http://www.gracenote.com/m
usic/
Les répertoires d'adresses
Adresses mel :
certains outils de recherche généralistes ont des
formulaires permettant de retrouver des adresses de
messagerie électronique (mél ou e-mail), mais cela
nécessite souvent que la personne recherchée se soit
inscrite auprès d'eux. Il faudra donc parfois recourir à
plusieurs annuaires.
(NB : Copernic offre aussi une option de recherche
simultanée sur plusieurs annuaires d'adresses
électroniques). D'autres sites permettent de retrouver
les e-mails de personnes à partir des contributions aux
forums de discussion :(*)
Téléphone : en France
Les pages jaunes
Les pages blanches
Les annuaires inversés (www.quidonc.fr)
Adresse
http://usenetaddresses.mit.edu
http://www.pagesjaunes.fr/
http://www.pagesblanches.fr/
http://www.quidonc.fr
Téléphone : dans d'autres pays
Les pages jaunes (annuaires du monde)
Infobel.com
http://www.pagesjaunes.fr
http://www.infobel.com/teldir/
→ Les outils de veille documentaire
L'activité de documentaliste ou de bibliothécaire exige d'être constamment informé(e)
des évolutions d'un site ou d'un sujet donné. Il existe des outils qui permettent assez
facilement de faire de la veille
Pour être informé de l'évolution d'un site
Vous pouvez "surveiller" des pages précises de sites pour être alerté de leur mise à jour.
Des outils téléchargeables peuvent vous informer par mail sur la mise à jour des pages
sélectionnées (ex. Check&get)
Pensez aussi à vous abonner aux "lettres d'information" des sites qui vous intéressent.
_________________________________________________________________________________________________
____
9
Mediadix – Informatique en bibliothèque — III. La recherche sur Internet
Pour être informé des nouvelles réponses à une question :
GoogleAlert, indépendant de Google, vous avertit par courriel des nouvelles réponses
trouvées par Google à une question enregistrée par vos soins.
Yahoo Alerts alerte sur l'actualité, ...
Google NewsAlert propose également une alerte sur l'actualité
Des sites spécialisés permettent de rechercher des forums et des listes de diffusion sur
un thème donné, ainsi que d'interroger directement dans les contributions à ces débats
[cf. le cours d'introduction à Internet].
_________________________________________________________________________________________________
____
10
Mediadix – Informatique en bibliothèque — III. La recherche sur Internet
3. Vérification de l'information
Avant d'utiliser ou de répertorier un site, vous devrez évaluer son intérêt en vous basant
sur des éléments objectifs et des critères subjectifs.
Les principaux éléments à prendre de toutes façons en considération sont : l'outil utilisé
pour trouver l'information, le domaine, la mise à jour, l'auteur, la qualité du site.
L'outil utilisé pour trouver l'information
Rappels :
— Dans un annuaire, les sites ont été sélectionnés ;
— Dans un répertoire spécialisé, les sites ont en principe retenus par un spécialiste du
domaine. La sélection proposée par un répertoire spécialisé est d'autant plus fiable qu'il
lui-même bien évalué dans un "répertoire de répertoires" ;
— En revanche, un moteur n'évalue pas les pages qu'il vous propose en réponse à
une question (même si le fait qu'elle soit très souvent citée peut être un critère de
pertinence, par ex dans Google)
Le domaine
Le nom de domaine peut vous aider à déterminer l'origine du site, bien qu'il existe un
certain nombre de "pavillons de complaisance" (.tv, .tk, ...).
La mise à jour
Vérifier sur la page qui vous intéresse si le webmestre a indiqué la date de mise à jour ou
si des éléments de contexte permettent de l'évaluer.
Dans leurs résultats, certains moteurs (Voila.fr par exemple) mentionnent également la
date de mise à jour.
L'auteur
Retrouver la page d'accueil pour en savoir plus sur l'auteur du site :
Pages personnelles : (--.free.fr, www.chez.com/--, etc) ;
— S'interroger les compétences de l'auteur de la page ? (CV) ,
— Voir s'il est possible de le joindre (adresse mail) ?
— Voir s'il participe à des forums ? Si oui, lesquels ?
— Evaluer si sa page est souvent citée par ailleurs ? (recherche de type link: sur un
moteur)
Pages institutionnelles
— L'utilitaire WhoIs [par ex. sur le site de l'Afnic] peut vous permettre d'identifier l'origine
d'un site.
— S'interroger sur la vocation de cette institution ? Son "intérêt" à publier des
informations sur le web
— Rechercher sur son nom
— Rechercher les sites qui pointent vers le sien (recherche de type link: sur un moteur)
— Rechercher (prudemment...) les informations sur cette société dans les forums.
La qualité du site
— Si vous proposez un site à votre public vérifiez ses qualités esthétiques, et surtout son
ergonomie. Trouve-t-on facilement l'information, est-elle clairement présentée ?,
accessible au public handicapé, en particulier malvoyant ?
_________________________________________________________________________________________________
____
11
Mediadix – Informatique en bibliothèque — III. La recherche sur Internet