la recherche documentaire sur internet - e
Transcription
la recherche documentaire sur internet - e
BULCO – Méthodologie documentaire 2012/2013 - TD4 : Rechercher de l’information sur Internet – L1 LEA LA RECHERCHE DOCUMENTAIRE SUR INTERNET INTERNET C’EST QUOI ? Internet = Web + messageries + … autres protocoles Depuis son invention dans les années 90, le Web a beaucoup évolué : on est passé du web 1.0 statique des années 90 au Web 2.0 depuis 2004 qui se caractérise par les possibilité d’intéraction qui rendent les pages web « dynamiques » Aujourd’hui on parle même de web 3.0 ! Problème de la recherche sur le WEB : Le web est énorme La difficulté provient en partie de la taille du Web et du nombre considérable de documents qui s’y trouvent hébergés, répartis sur de nombreux sites. Il est impossible de connaître le nombre exact de ces sites et de ces documents, qui augmentent de façon exponentielle. Voici quelques chiffres valables en sept. 2005. : Nombre de sites Web Nombre de "pages" Web : : 70 millions. 20 milliards. Distinguer sites web et pages web (important pour la bibliographie) : Des pages web = une adresse précise à l’intérieur d’un site (= un chapitre d’un livre ou une page d’un livre) Un site web = ensemble de pages web (= un livre : une adresse source + des ramifications dans les adresses URL) De plus, Internet n’est pas un ensemble organisé et structuré comme une bibliothèque : il n’est pas facile d’y trouver des documents d’information par thème. Google n’est pas un catalogue de bibliothèque ! Pas de classification des sites par genre, par auteurs, par thèmes … On ne recherche jamais directement sur le Web Ce qu’on peut faire seulement avec un navigateur c’est accéder aux outils de recherche intermédiaires qui sont disponibles et qui indexent, chacun à leur manière, les sites Web. Cette base n’est qu’une petite partie de la totalité des documents Web existants. Il faut distinguer le WEB VISIBLE du WEB INVISIBLE - Web visible : ce qui est indexé par les moteurs de recherche de type Google - Web invisible : ce qui n’est pas indexé par les moteurs de recherche de type Google Google n’indexe que 20% de tout le contenu du Web ! De plus, les sites n’ont pas tous une caution intellectuelle ou scientifique : il faut EVALUER l’information que vous trouvez sur le web 1 BULCO – Méthodologie documentaire 2012/2013 - TD4 : Rechercher de l’information sur Internet – L1 LEA I. CONNAITRE LES OUTILS DE RECHERCHE SUR LE WEB 1. Annuaires de recherche - Répertoires de sites - Signets Historiquement, les annuaires sont les plus anciens des outils de recherche. Cet outil recense des sites web. Il est constitué de rubriques (ou catégories), elles-mêmes subdivisées en sousrubriques. A l’intérieur de ces sous-rubriques, nous trouvons des listes de sites web : Catégorie Sous-rubrique Sous-sous rubrique Listes de sites web On circule dans ces catégories et rubriques en développant des ARBORESCENCES Un annuaire est libre de prendre ou de refuser un site. Une condition d’efficacité de l’annuaire est sa taille, c’est à dire le nombre de sites référencés dans son index. L’annuaire peut s’utiliser de deux façons : soit l’internaute consulte les catégories : il navigue alors de rubriques en sousrubriques jusqu’aux sites soit il effectue sa recherche grâce à des mots clefs. Avantage : Cet outil de recherche permet une navigation simple et l’internaute est guidé par un fil conducteur. De plus, les sites de l’annuaire ont été sélectionnés. Ils fournissent des réponses de qualité. Inconvénient : Le gros inconvénient de l’annuaire, c’est qu’il est construit manuellement. De ce fait, sa taille est réduite, il est difficile de le tenir à jour. Enfin, les sujets très spécifiques et très pointus sont difficiles à localiser. En conclusion, l’annuaire fournit des résultats pertinents mais peu nombreux. 2 BULCO – Méthodologie documentaire 2012/2013 - TD4 : Rechercher de l’information sur Internet – L1 LEA a) L’annuaire généraliste Dmoz (http://dmoz.org) : Ce répertoire est géré par une vaste communauté d’éditeurs bénévoles. Il répertorie 5.089.427 (au 18/10/12) adresses Internet classées dans plus de 1 million de catégories. NB : Dmoz est en anglais ! Exercices sur Dmoz http://www.dmoz.org/ 1) Dans la catégorie « Regional », en descendant dans l’arborescence, trouvez la sous-catégorie « Péru » et la rubrique « Literature ». Combien de sites trouvezvous dans cette rubrique ? Ré-écrivez en détail les chemins de l’arborescence ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------2) Dans la catégorie Society, sous-catégorie History, retrouvez les sites consacrés à l’empire inca. Combien en trouvez-vous ? Ecrivez le chemin de l’arborescence développée. ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------3) Entrez dans la barre de recherche générale "Mario Vargas Llosa". Combien de sites classés dans combien de catégories trouvez-vous ? Limitez les résultats aux sites de la catégorie « World: Español: Artes: Literatura: Autores: Grandes escritores de la lengua hispana: Vargas Llosa, Mario ». Combien y en a-t-il ? ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------Attention : la recherche se fait par simple reconnaissance de mots, donc cela va sortir tout les résultats comprenant Mario, Vargas, Llosa et toutes les combinaisons. Pour n’avoir que les résultats concernant Mario Vargas Llosa, il faut le mettre entre guillemets. 3 BULCO – Méthodologie documentaire 2012/2013 - TD4 : Rechercher de l’information sur Internet – L1 LEA b)Les signets de la BNF (http://signets.bnf.fr) RAPPEL : les signets sont des sites recommandés par des institutions culturelles ou éducatives La Bibliothèque nationale de France propose sur son site un répertoire de 7000 ressources mises à jour et contrôlées régulièrement : les sites recommandés sont peu nombreux mais d’une très grande qualité. La navigation s’effectue dans l’arborescence thématique. Il est également possible d’effectuer une recherche de sites par mots-clefs (« recherche ») ou de consulter l’index alphabétique des mots clés « Recherche » : pour effectuer une recherche par mots dans les signets de la BnF Les signets sont classés soit par ordre alphabétique, avec des renvois, soit par thème 4 BULCO – Méthodologie documentaire 2012/2013 - TD4 : Rechercher de l’information sur Internet – L1 LEA Exercices sur le site des signets de la BnF http://signets.bnf.fr/ ou à partir du portail, rubrique Les incontournables, sous rubrique Signets 4)Dans la catégorie « langues et littératures étrangères », retrouvez un site consacré aux revues des langues indigènes d’Amérique. Ecrivez l’arborescence utilisée. Quel est le nom de ce site ? Quand a t-il été contrôlé par la BnF la dernière fois ? ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------5) Grâce au classement alphabétique, retrouvez la catégorie consacrée à l’histoire de l’Amérique latine. Dans cette catégorie, relevez un site dédié à l’étude des civilisations méso-américaines. ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------6) Sur le site trouvé dans la question 5), retrouvez les liens proposés sur d’autres sites web consacrés à l’étude des société précolombiennes. En particulier, relevez l’adresse du site Mesoweb sur lequel vous rechercherez l’article intitulé « Life and Death in Ancient Mexico ». Qui est l’auteur de cet article ? ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- 7) Repérez également sur le site Mesoweb la partie encyclopédie. A la lettre A, retrouvez l’article sur la légende de la migration aztèque. Quel est le titre du recueil d’où est issue cette légende ? ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- 5 BULCO – Méthodologie documentaire 2012/2013 - TD4 : Rechercher de l’information sur Internet – L1 LEA 2. Les moteurs de recherche Les moteurs de recherche sont des robots qui indexent automatiquement des millions de pages web, sans intervention humaine. Contrairement aux annuaires, les moteurs permettent de trouver sur le web une quantité considérable de sites Internet, mais dont la qualité et la fiabilité n’est jamais ni contrôlée ni vérifiée. La recherche s’effectue uniquement par mots-clés. Celle-ci peut être simple ou avancée. Toutefois, la couverture du web par les moteurs de recherche reste parcellaire : seulement 20% du web est indexé par les robots. Toute la partie du Web qui n’est pas indexée par les robots s’appelle le WEB INVISIBLE Chaque moteur de recherche a son propre robot et fonctionne donc à sa manière : c’est pourquoi les résultats peuvent être différents pour une même requête selon le moteur utilisé. Il existe des moteurs de recherche - généralistes : Google, Exalead, Yahoo….. - spécialisés : Google maps, Google images, Google Scholar…. - Google Book ou Gallica pour les livres libres de droit et numérisés A. Les moteurs de recherche généralistes 1) Google : moteur de recherche généraliste le plus connu et le plus performant en terme de pages indexées. Le critère de classement des résultats se fait par rapport à la popularité du site : Page-Rank. Construit sur le principe du « Page Rank » = l’indice de popularité d’une page Page Rank Page Rank : calcule le nombre de fois qu’un site X est cité par d’autres sites A, B, C, D… Mais il prend aussi en compte la popularité des sites A, B, C, D: être cité par des sites qui sont eux mêmes populaires augmente la popularité de X Inconvénient : des sites récents n’apparaîtront pas tout de suite (pas le temps d’être cités) Astuce : « J’ai de la chance » ouvre tout de suite le premier site 2) Exalead : moteur de recherche francophone. Possibilité de pré visualiser les pages. Les termes ou expressions associés aux mots clefs de la requête s’affichent, de même que les catégories en relation avec la requête. 3) Yahoo Search ! 6 BULCO – Méthodologie documentaire 2012/2013 - TD4 : Rechercher de l’information sur Internet – L1 LEA B. Les moteurs de recherche spécialisés Les avatars de Google : Google maps/ earth : cartes et localisations satellites. Vue piétonne. Google images/video : recherches d’images et de documents audiovisuels présents dans les pages qui contiennent le mot recherché Google Scholar : moteur de recherche spécialisé sur les documents scientifiques et académiques. Il existe une grande variété de documents : articles, livres, thèses, rapports… Le domaine des sciences techniques et médicales est mieux couvert que celui des sciences sociales et humaines. Outil de recherche de travaux universitaires en ligne : thèses, articles, rapports de recherche… Recherche dans le texte intégral, même si le texte intégral n’est pas accessible à tout le monde Indique entre crochets le type de résultat : citation, livre… Google books (Google Livres) : ouvrages numérisés Numérisation d’un grand nombre d’ouvrages de plusieurs grandes bibliothèques (Harvard, Oxford, BM Lyon) Ouvrages dans le domaine public en entier Ouvrages encore sous droits partiellement disponibles (sommaire, introduction) Options de recherche avancée Les enjeux de Google Books Conditions d’accès : autoroute où on peut à tout moment mettre un péage Choix des ouvrages : risque de prédominance anglo-saxonne, perte de diversité culturelle But de la numérisation : accords avec les plateformes de vente (Amazon), plus une incitation d’achat qu’un pas en faveur de l’accès libre Outils de recherche : moteur de recherche, ce n’est pas un catalogue donc pas d’indexation Les alternatives à Google Suite à l’offensive de Google en 2004, appel de J. N. Jeanneney (ex-président de la BNF) en faveur d’une véritable politique européenne de numérisation Importance de préserver la pluralité de langues et de cultures Nécessité d’organiser et de structurer « l’océan » du web Gallica (Bibliothèque numérique de la BNF) www.gallica.bnf.fr Ouvrages dans le domaine public (<1939) Beaucoup en mode texte (recherche dans le texte intégral) Aperçu possible d’ouvrages récents Un compte pour sélectionner et gérer les documents Possibilité de charger des e-books 7 BULCO – Méthodologie documentaire 2012/2013 - TD4 : Rechercher de l’information sur Internet – L1 LEA Exercice sur les moteurs de recherche 8. Faites une recherche sur la civilisation précolombienne dans ces trois moteurs de recherche et comparez les résultats Recherche « civilisation précolombienne » Google Exalead Google scholar http://www.google.fr/ http://www.exalead.com/ http://scholar.google.fr Nombre réponses total de Référence du article trouvé 1er Rang de classement du 1er article intéressant Avantages moteur de ce Inconvénients de ce moteur 9.Rechercher le journal d’une femme d’Octave Mirbeau dans Google Books. de chambre ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- 8 BULCO – Méthodologie documentaire 2012/2013 - TD4 : Rechercher de l’information sur Internet – L1 LEA 3.Les métamoteurs de recherche Les métamoteurs sont des outils qui interrogent plusieurs moteurs de recherche simultanément. Ils n’ont pas d’index propre mais utilisent les index des moteurs de recherche qu’ils interrogent : lors de l’affichage des résultats ils éliminent les doublons. Exemples de métamoteurs : Copernic (téléchargement obligatoire, gratuit pour certaines versions), Clusty, Findloo, Ixquick… Avantages La recherche est plus rapide car elle interroge simultanément plusieurs moteurs de recherche à la fois. La recherche est plus exhaustive car une plus grande couverture du web est couverte. Inconvénients Ils filtrent moins qu’un seul moteur de recherche généraliste Les recherches sont moins pointues. Exercices sur un métamoteur 10. Connectez-vous sur http://fr.findloo.com/fr/ . Recherchez des documents sur Tristes tropiques, de Claude Lévi-Strauss. Comment sont présentés les résultats ? Quels sont les moteurs de recherche utilisés ? ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------11. Toujours sur ce métamoteur, recherchez la définition de l'anthropologie culturelle. Quels sont les dictionnaires en ligne utilisés ? --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- Quel outil de recherche privilégier pour ses requêtes ? Vous pouvez choisir l’annuaire pour débuter une recherche ou pour vous faire une idée des sites existants dans un domaine que vous découvrez. De plus, l’annuaire permet de repérer des ressources du web invisible. Vous privilégierez le moteur de recherche pour la taille de son index et la rapidité de mise à jour. Le moteur de recherche va vous servir a effectuer une recherche pointue à partir de mots clefs précis ou d’élargir la portée de votre requête à une grande partie du web. Mieux vaut dans ce cas privilégier la recherche avancée. 9 BULCO – Méthodologie documentaire 2012/2013 - TD4 : Rechercher de l’information sur Internet – L1 LEA II. ORGANISER UNE VEILLE DOCUMENTAIRE Définition d’une veille documentaire : « La veille documentaire s’appuie sur des techniques de « surveillance automatisée » de type push ou pull et permet d’être régulièrement et automatiquement informé des nouvelles publications dans son domaine de recherche ou dans des champs d’intérêt précis. » (www.bib.umontreal.ca/infosphere/sciences/glossaire.html) = Lorsqu’un site nous intéresse, il est possible d’être automatiquement informé des nouveautés qui paraissent sur ce site sans être obligé d’aller le consulter. Plusieurs méthodes : - on s’abonne à la lettre d’information de ce site (newsletter) : un mél sur les nouveautés arrivera dans notre boite mél - On peut se créer un agrégateur de flux (ex : iGoole, ou Netvives) sur lequel viendront régulièrement s’afficher tous les flux RSS auxquels on est abonnée Exemple : http://culturel.mal217.org/fr/ S’abonner à la lettre d’information qu’on recevra sur notre boite mél dès qu’il y aura une nouveauté sur ce site S’abonner au flux RSS qui viendra alimenter l’agrégateur de flux qu’on se sera fabriqué Le site de la maison d’Amérique latine propose 2 manières de rester informé régulièrement de leur nouveautés : 10 BULCO – Méthodologie documentaire 2012/2013 - TD4 : Rechercher de l’information sur Internet – L1 LEA Quand on s’abonne à un flux RSS, le système nous demande de choisir l’agrégateur qu’on utilise : Le flux de la Maison de l’Amérique Latine vient se positionner dans mon agrégateur personnalisé Exercices d’application : se créer un agrégateur de flux i-Google (condition : avoir une adresse mél sur Gmail) 11 BULCO – Méthodologie documentaire 2012/2013 - TD4 : Rechercher de l’information sur Internet – L1 LEA III. UTILISER LES SERVICES DE REPONSE EN LIGNE = Faire faire les recherches par d’autres que vous Un service de renseignements en ligne vous permet d’obtenir une aide personnalisée à distance lors d’une recherche documentaire. Plusieurs bibliothèques en France organisent ces services : UBIB, le service tchat de la BULCO : cf présentation au TD1 et sur le site www.ubib.fr et sur le portail La Bibliothèque Publique d’Information (BPI : BiblioSésame), La BnF (Sindbad : Service d' INformation Des Bibliothécaires A Distance) La bibliothèque municipale de Lyon (Le guichet du Savoir) Le Guichet du Savoir de la Bibliothèque municipale de Lyon : http://www.guichetdusavoir.org/ contient en particulier : Accès thématique aux Questions / Réponses Le Guichet du Savoir comprend : - un service questions-réponses permettant de poser tout type de questions d'ordre documentaire - une base de connaissances, qui permet des recherches fines sur les informations capitalisées par le Guichet : les questions et réponses sélectionnées sont accessibles à la fois via un accès thématique sur la page d’accueil du Guichet du Savoir et à partir d’un moteur de recherche élargie Le service est soumis à inscription : "L'inscription est ouverte à tous, sans contrainte géographique, inscrits à la Bibliothèque municipale de Lyon ou non. Elle est gratuite." Le GDS donne une réponse dans les 72 heures Le GDS se caractérise par l’ouverture de sa politique de service et l’étendue des questions traitées : les seules questions exclues sont les consultations juridiques ou médicales et les travaux scolaires ; le GDS répond y compris à des questions sur la vie pratique ou à des questions de simple curiosité. 12 BULCO – Méthodologie documentaire 2012/2013 - TD4 : Rechercher de l’information sur Internet – L1 LEA Accès thématique possible Possibilité recherche par mot clé Ex : mites « Bonjour, petite question qui a l'air bête et qui l'est sûrement, mais sait-on jamais... J'ai plusieurs fois découvert des petits trous sur mes vêtements, ce qui n'a pas manqué de m'agacer car à chaque fois il s'agissait des vêtements tout juste achetés. Et aujourd'hui, illumination, je me suis rendue compte que absolument toutes les fringues trouées sont de couleur verte!!! Existerait-il des mites (ou autre insecte textilovore) chromosensible, avec une préférence pour le vert? Je me rends bien compte que ça a l'air stupide mais je vous jure que c'est vrai! Merci beaucoup et bonne journée » 13