la recherche documentaire sur internet - e

Transcription

la recherche documentaire sur internet - e
BULCO – Méthodologie documentaire 2012/2013 - TD4 : Rechercher de l’information sur Internet – L1 LEA
LA RECHERCHE DOCUMENTAIRE SUR INTERNET
INTERNET C’EST QUOI ?
Internet = Web + messageries + … autres protocoles
Depuis son invention dans les années 90, le Web a beaucoup évolué : on est passé du web 1.0
statique des années 90 au Web 2.0 depuis 2004 qui se caractérise par les possibilité
d’intéraction qui rendent les pages web « dynamiques »
Aujourd’hui on parle même de web 3.0 !
Problème de la recherche sur le WEB : Le web est énorme
La difficulté provient en partie de la taille du Web et du nombre considérable de documents
qui s’y trouvent hébergés, répartis sur de nombreux sites. Il est impossible de connaître le
nombre exact de ces sites et de ces documents, qui augmentent de façon exponentielle.
Voici quelques chiffres valables en sept. 2005. :
 Nombre de sites Web
 Nombre de "pages" Web
:
:
70 millions.
20 milliards.
Distinguer sites web et pages web (important pour la bibliographie) :
Des pages web = une adresse précise à l’intérieur d’un site (= un chapitre d’un livre ou une page d’un livre)
Un site web = ensemble de pages web (= un livre : une adresse source + des ramifications dans les adresses
URL)
De plus, Internet n’est pas un ensemble organisé et structuré comme une bibliothèque :
il n’est pas facile d’y trouver des documents d’information par thème.
Google n’est pas un catalogue de bibliothèque !
Pas de classification des sites par genre, par auteurs, par thèmes …
On ne recherche jamais directement sur le Web
Ce qu’on peut faire seulement avec un navigateur c’est accéder aux outils de recherche
intermédiaires qui sont disponibles et qui indexent, chacun à leur manière, les sites Web.
Cette base n’est qu’une petite partie de la totalité des documents Web existants.
Il faut distinguer le WEB VISIBLE du WEB INVISIBLE
- Web visible : ce qui est indexé par les moteurs de recherche de type Google
- Web invisible : ce qui n’est pas indexé par les moteurs de recherche de type Google
Google n’indexe que 20% de tout le contenu du Web !
De plus, les sites n’ont pas tous une caution intellectuelle ou scientifique : il faut
EVALUER l’information que vous trouvez sur le web
1
BULCO – Méthodologie documentaire 2012/2013 - TD4 : Rechercher de l’information sur Internet – L1 LEA
I.
CONNAITRE LES OUTILS DE RECHERCHE SUR LE WEB
1. Annuaires de recherche - Répertoires de sites - Signets
Historiquement, les annuaires sont les plus anciens des outils de recherche. Cet outil recense
des sites web. Il est constitué de rubriques (ou catégories), elles-mêmes subdivisées en sousrubriques. A l’intérieur de ces sous-rubriques, nous trouvons des listes de sites web :
Catégorie
Sous-rubrique
Sous-sous rubrique
Listes de sites web
On circule dans ces catégories et rubriques en développant des ARBORESCENCES
Un annuaire est libre de prendre ou de refuser un site. Une condition d’efficacité
de l’annuaire est sa taille, c’est à dire le nombre de sites référencés dans son index.
L’annuaire peut s’utiliser de deux façons :
 soit l’internaute consulte les catégories : il navigue alors de rubriques en sousrubriques jusqu’aux sites
 soit il effectue sa recherche grâce à des mots clefs.
Avantage :
Cet outil de recherche permet une navigation simple et l’internaute est guidé par un
fil conducteur. De plus, les sites de l’annuaire ont été sélectionnés. Ils fournissent
des réponses de qualité.
Inconvénient :
Le gros inconvénient de l’annuaire, c’est qu’il est construit manuellement. De ce
fait, sa taille est réduite, il est difficile de le tenir à jour. Enfin, les sujets très
spécifiques et très pointus sont difficiles à localiser.
En conclusion, l’annuaire fournit des résultats pertinents
mais peu nombreux.
2
BULCO – Méthodologie documentaire 2012/2013 - TD4 : Rechercher de l’information sur Internet – L1 LEA
a) L’annuaire généraliste Dmoz (http://dmoz.org) :
Ce répertoire est géré par une vaste communauté d’éditeurs bénévoles. Il répertorie 5.089.427
(au 18/10/12) adresses Internet classées dans plus de 1 million de catégories.
NB : Dmoz est en anglais !
Exercices sur Dmoz
http://www.dmoz.org/
1) Dans la catégorie « Regional », en descendant dans
l’arborescence, trouvez la sous-catégorie « Péru » et
la rubrique « Literature ». Combien de sites trouvezvous dans cette rubrique ? Ré-écrivez en détail les
chemins de l’arborescence
------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------2) Dans la catégorie Society, sous-catégorie History,
retrouvez les sites consacrés à l’empire inca.
Combien en trouvez-vous ? Ecrivez le chemin de
l’arborescence développée.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------3) Entrez dans la barre de recherche générale "Mario
Vargas Llosa". Combien de sites classés dans combien
de catégories trouvez-vous ? Limitez les résultats
aux sites de la catégorie « World: Español: Artes:
Literatura: Autores: Grandes escritores de la lengua
hispana: Vargas Llosa, Mario ». Combien y en a-t-il ?
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------Attention : la recherche se fait par simple reconnaissance de mots, donc cela va sortir tout les
résultats comprenant Mario, Vargas, Llosa et toutes les combinaisons.
Pour n’avoir que les résultats concernant Mario Vargas Llosa, il faut le mettre entre
guillemets.
3
BULCO – Méthodologie documentaire 2012/2013 - TD4 : Rechercher de l’information sur Internet – L1 LEA
b)Les signets de la BNF (http://signets.bnf.fr)
RAPPEL : les signets sont des sites recommandés par des institutions culturelles ou éducatives
La Bibliothèque nationale de France propose sur son site un répertoire de 7000 ressources
mises à jour et contrôlées régulièrement : les sites recommandés sont peu nombreux mais
d’une très grande qualité.
La navigation s’effectue dans l’arborescence thématique. Il est également possible
d’effectuer une recherche de sites par mots-clefs (« recherche ») ou de consulter l’index
alphabétique des mots clés
« Recherche » :
pour effectuer une
recherche par mots
dans les signets de la
BnF
Les signets sont classés
soit par ordre
alphabétique, avec des
renvois, soit par thème
4
BULCO – Méthodologie documentaire 2012/2013 - TD4 : Rechercher de l’information sur Internet – L1 LEA
Exercices sur le site des signets de la BnF
http://signets.bnf.fr/
ou à partir du portail, rubrique Les incontournables, sous rubrique Signets
4)Dans la catégorie « langues et littératures étrangères », retrouvez un site consacré aux
revues des langues indigènes d’Amérique. Ecrivez l’arborescence utilisée. Quel est le
nom de ce site ? Quand a t-il été contrôlé par la BnF la dernière fois ?
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------5) Grâce au classement alphabétique, retrouvez la catégorie consacrée à l’histoire de
l’Amérique latine. Dans cette catégorie, relevez un site dédié à l’étude des civilisations
méso-américaines.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------6) Sur le site trouvé dans la question 5), retrouvez les liens proposés sur d’autres sites
web consacrés à l’étude des société précolombiennes. En particulier, relevez l’adresse du
site Mesoweb sur lequel vous rechercherez l’article intitulé « Life and Death in Ancient
Mexico ». Qui est l’auteur de cet article ?
-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
7) Repérez également sur le site Mesoweb la partie encyclopédie. A la lettre A, retrouvez
l’article sur la légende de la migration aztèque. Quel est le titre du recueil d’où est issue
cette légende ?
-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
5
BULCO – Méthodologie documentaire 2012/2013 - TD4 : Rechercher de l’information sur Internet – L1 LEA
2. Les moteurs de recherche
Les moteurs de recherche sont des robots qui indexent automatiquement des millions de
pages web, sans intervention humaine. Contrairement aux annuaires, les moteurs
permettent de trouver sur le web une quantité considérable de sites Internet, mais dont la
qualité et la fiabilité n’est jamais ni contrôlée ni vérifiée.
La recherche s’effectue uniquement par mots-clés. Celle-ci peut être simple ou avancée.
Toutefois, la couverture du web par les moteurs de recherche reste parcellaire : seulement
20% du web est indexé par les robots. Toute la partie du Web qui n’est pas indexée par les
robots s’appelle le WEB INVISIBLE
Chaque moteur de recherche a son propre robot et fonctionne donc à sa manière : c’est
pourquoi les résultats peuvent être différents pour une même requête selon le moteur
utilisé.
Il existe des moteurs de recherche
- généralistes : Google, Exalead, Yahoo…..
- spécialisés : Google maps, Google images, Google Scholar….
- Google Book ou Gallica pour les livres libres de droit et numérisés
A. Les moteurs de recherche généralistes
1) Google : moteur de recherche généraliste le plus connu et le plus performant en
terme de pages indexées.
Le critère de classement des résultats se fait par rapport à la popularité du site :
Page-Rank. Construit sur le principe du « Page Rank » = l’indice de popularité
d’une page
Page Rank
Page Rank : calcule le nombre de fois qu’un site X est cité par d’autres sites
A, B, C, D…
Mais il prend aussi en compte la popularité des sites A, B, C, D: être cité par
des sites qui sont eux mêmes populaires augmente la popularité de X
Inconvénient : des sites récents n’apparaîtront pas tout de suite (pas le temps
d’être cités)
Astuce : « J’ai de la chance » ouvre tout de suite le premier site
2) Exalead : moteur de recherche francophone. Possibilité de pré visualiser les
pages. Les termes ou expressions associés aux mots clefs de la requête
s’affichent, de même que les catégories en relation avec la requête.
3) Yahoo Search !
6
BULCO – Méthodologie documentaire 2012/2013 - TD4 : Rechercher de l’information sur Internet – L1 LEA
B. Les moteurs de recherche spécialisés
Les avatars de Google :
Google maps/ earth : cartes et localisations satellites. Vue piétonne.
Google images/video : recherches d’images et de documents audiovisuels
présents dans les pages qui contiennent le mot recherché
Google Scholar : moteur de recherche spécialisé sur les documents
scientifiques et académiques. Il existe une grande variété de documents :
articles, livres, thèses, rapports… Le domaine des sciences techniques et
médicales est mieux couvert que celui des sciences sociales et humaines.
 Outil de recherche de travaux universitaires en ligne : thèses, articles,
rapports de recherche…
 Recherche dans le texte intégral, même si le texte intégral n’est pas
accessible à tout le monde
 Indique entre crochets le type de résultat : citation, livre…
Google books (Google Livres) : ouvrages numérisés
 Numérisation d’un grand nombre d’ouvrages de plusieurs grandes
bibliothèques (Harvard, Oxford, BM Lyon)
 Ouvrages dans le domaine public en entier
 Ouvrages encore sous droits partiellement disponibles (sommaire,
introduction)
 Options de recherche avancée
Les enjeux de Google Books
Conditions d’accès : autoroute où on peut à tout moment mettre un péage
Choix des ouvrages : risque de prédominance anglo-saxonne, perte de
diversité culturelle
But de la numérisation : accords avec les plateformes de vente (Amazon),
plus une incitation d’achat qu’un pas en faveur de l’accès libre
Outils de recherche : moteur de recherche, ce n’est pas un catalogue donc
pas d’indexation
Les alternatives à Google
Suite à l’offensive de Google en 2004, appel de J. N. Jeanneney (ex-président
de la BNF) en faveur d’une véritable politique européenne de numérisation
Importance de préserver la pluralité de langues et de cultures
Nécessité d’organiser et de structurer « l’océan » du web
 Gallica (Bibliothèque numérique de la BNF)
www.gallica.bnf.fr
Ouvrages dans le domaine public (<1939)
Beaucoup en mode texte (recherche dans le texte intégral)
Aperçu possible d’ouvrages récents
Un compte pour sélectionner et gérer les documents
Possibilité de charger des e-books
7
BULCO – Méthodologie documentaire 2012/2013 - TD4 : Rechercher de l’information sur Internet – L1 LEA
Exercice sur les moteurs de recherche
8. Faites
une
recherche
sur
la
civilisation
précolombienne dans ces trois moteurs de recherche et
comparez les résultats
Recherche « civilisation précolombienne »
Google
Exalead
Google scholar
http://www.google.fr/ http://www.exalead.com/ http://scholar.google.fr
Nombre
réponses
total
de
Référence du
article trouvé
1er
Rang de classement
du
1er
article
intéressant
Avantages
moteur
de
ce
Inconvénients de ce
moteur
9.Rechercher le journal d’une femme
d’Octave Mirbeau dans Google Books.
de
chambre
-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
8
BULCO – Méthodologie documentaire 2012/2013 - TD4 : Rechercher de l’information sur Internet – L1 LEA
3.Les métamoteurs de recherche
Les métamoteurs sont des outils qui interrogent plusieurs moteurs de recherche
simultanément. Ils n’ont pas d’index propre mais utilisent les index des moteurs de recherche
qu’ils interrogent : lors de l’affichage des résultats ils éliminent les doublons.
Exemples de métamoteurs : Copernic (téléchargement obligatoire, gratuit pour certaines
versions), Clusty, Findloo, Ixquick…
Avantages
 La recherche est plus rapide car elle interroge simultanément plusieurs moteurs de
recherche à la fois.
 La recherche est plus exhaustive car une plus grande couverture du web est couverte.
Inconvénients
 Ils filtrent moins qu’un seul moteur de recherche généraliste
 Les recherches sont moins pointues.
Exercices sur un métamoteur
10. Connectez-vous sur http://fr.findloo.com/fr/ . Recherchez des documents sur Tristes
tropiques, de Claude Lévi-Strauss. Comment sont présentés les résultats ? Quels sont les
moteurs de recherche utilisés ?
------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------11. Toujours sur ce métamoteur, recherchez la définition de l'anthropologie culturelle.
Quels sont les dictionnaires en ligne utilisés ?
---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Quel outil de recherche privilégier pour ses requêtes ?
Vous pouvez choisir l’annuaire pour débuter une recherche ou pour vous faire une
idée des sites existants dans un domaine que vous découvrez. De plus, l’annuaire
permet de repérer des ressources du web invisible.
Vous privilégierez le moteur de recherche pour la taille de son index et la rapidité
de mise à jour. Le moteur de recherche va vous servir a effectuer une recherche
pointue à partir de mots clefs précis ou d’élargir la portée de votre requête à une
grande partie du web. Mieux vaut dans ce cas privilégier la recherche avancée.
9
BULCO – Méthodologie documentaire 2012/2013 - TD4 : Rechercher de l’information sur Internet – L1 LEA
II.
ORGANISER UNE VEILLE DOCUMENTAIRE
Définition d’une veille documentaire :
« La veille documentaire s’appuie sur des techniques de « surveillance automatisée » de type
push ou pull et permet d’être régulièrement et automatiquement informé des nouvelles
publications dans son domaine de recherche ou dans des champs d’intérêt précis. »
(www.bib.umontreal.ca/infosphere/sciences/glossaire.html)
= Lorsqu’un site nous intéresse, il est possible d’être automatiquement informé des
nouveautés qui paraissent sur ce site sans être obligé d’aller le consulter.
Plusieurs méthodes :
- on s’abonne à la lettre d’information de ce site (newsletter) : un mél sur les
nouveautés arrivera dans notre boite mél
- On peut se créer un agrégateur de flux (ex : iGoole, ou Netvives) sur lequel
viendront régulièrement s’afficher tous les flux RSS auxquels on est abonnée
Exemple : http://culturel.mal217.org/fr/
S’abonner à la lettre
d’information qu’on
recevra sur notre boite
mél dès qu’il y aura
une nouveauté sur ce
site
S’abonner au flux
RSS qui viendra
alimenter l’agrégateur
de flux qu’on se sera
fabriqué
Le site de la maison d’Amérique
latine propose 2 manières de
rester informé régulièrement de
leur nouveautés :
10
BULCO – Méthodologie documentaire 2012/2013 - TD4 : Rechercher de l’information sur Internet – L1 LEA
Quand on s’abonne à un flux RSS, le système nous demande de choisir l’agrégateur qu’on
utilise :
Le flux de la Maison de
l’Amérique Latine vient
se positionner dans mon
agrégateur personnalisé
Exercices d’application : se créer un agrégateur de flux i-Google
(condition : avoir une adresse mél sur Gmail)
11
BULCO – Méthodologie documentaire 2012/2013 - TD4 : Rechercher de l’information sur Internet – L1 LEA
III.
UTILISER LES SERVICES DE REPONSE EN LIGNE
= Faire faire les recherches par d’autres que vous
Un service de renseignements en ligne vous permet d’obtenir une aide personnalisée à
distance lors d’une recherche documentaire.
Plusieurs bibliothèques en France organisent ces services :
UBIB, le service tchat de la BULCO : cf présentation au TD1 et sur le site
www.ubib.fr et sur le portail
La Bibliothèque Publique d’Information (BPI : BiblioSésame),
La BnF (Sindbad : Service d' INformation Des Bibliothécaires A Distance)
La bibliothèque municipale de Lyon (Le guichet du Savoir)
Le Guichet du Savoir de la Bibliothèque municipale de Lyon :
http://www.guichetdusavoir.org/
contient en particulier : Accès thématique aux Questions / Réponses
Le Guichet du Savoir comprend :
- un service questions-réponses permettant de poser tout type de questions d'ordre
documentaire
- une base de connaissances, qui permet des recherches fines sur les informations capitalisées
par le Guichet : les questions et réponses sélectionnées sont accessibles à la fois via un accès
thématique sur la page d’accueil du Guichet du Savoir et à partir d’un moteur de recherche
élargie
Le service est soumis à inscription : "L'inscription est ouverte à tous, sans contrainte
géographique, inscrits à la Bibliothèque municipale de Lyon ou non. Elle est gratuite."
Le GDS donne une réponse dans les 72 heures
Le GDS se caractérise par l’ouverture de sa politique de service et l’étendue des questions
traitées : les seules questions exclues sont les consultations juridiques ou médicales et les
travaux scolaires ; le GDS répond y compris à des questions sur la vie pratique ou à des
questions de simple curiosité.
12
BULCO – Méthodologie documentaire 2012/2013 - TD4 : Rechercher de l’information sur Internet – L1 LEA
Accès thématique possible
Possibilité recherche par mot clé
Ex : mites
« Bonjour,
petite question qui a l'air bête et qui l'est sûrement, mais sait-on jamais...
J'ai plusieurs fois découvert des petits trous sur mes vêtements, ce qui n'a pas manqué de
m'agacer car à chaque fois il s'agissait des vêtements tout juste achetés. Et aujourd'hui,
illumination, je me suis rendue compte que absolument toutes les fringues trouées sont de
couleur verte!!!
Existerait-il des mites (ou autre insecte textilovore) chromosensible, avec une préférence pour
le vert?
Je me rends bien compte que ça a l'air stupide
mais je vous jure que c'est vrai!
Merci beaucoup et bonne journée »
13