Informatique en bibliothèque
Transcription
Informatique en bibliothèque
Informatique en bibliothèque Un cours de Brigitte Baléo et Eric Pichon III/ La recherche sur Internet 1. Introduction 2. Panorama des outils de recherche 3. Vérification de l'information Objectifs du cours Connaître les outils pour effectuer une recherche documentaire sur Internet . _________________________________________________________________________________________________ ____ 1 Mediadix – Informatique en bibliothèque — III. La recherche sur Internet I / Introduction → Outils de recherche, définitions Sur Internet, le terme '"outils de recherche" évoque des sites Internet permettant d'accéder à d'autres sites (Google, Yahoo!, etc.) plus fréquemment que des logiciels à installer sur un ordinateur (comme Copernic). Parmi ces sites, on établit une distinction entre : les "annuaires" (répertoires de sites) ; les "moteurs". On pouvait, il y a plusieurs années, répartir assez aisément les sites de recherche dans l'une ou l'autre de ces catégories. Aujourd'hui, ces sites sont des outils hybrides, combinant les fonctionnalités des annuaires et des moteurs, ainsi que d'autres services (actualités, encyclopédie, ...). Aussi, la distinction annuaire (répertoire)/moteur est-elle plus difficile à opérer ; elle n'en est pas moins essentielle. Mode de sélections Type de documents Nombre Moteurs Indexation automatique donc moins avisée que dans les annuaires pages Annuaires Sélection de sites par des indexeurs documentalistes sites milliards milliers Outre ces outils (moteurs, annuaires), il existe aussi des répertoires spécialisés permettant de repérer des informations mal indexées par les moteurs de recherche ("web invisible" qui comporte notamment le contenu des bases de données en ligne). Pensez aussi à utiliser les outils de veille documentaire. → Pour une bonne utilisation des outils de recherche Lire le mode d'emploi Le mode de recherche, la syntaxe, les champs couverts varient suivants les outils, aussi il est plus important de bien maîtriser quelques-uns d'entre eux, plutôt que de les utiliser tous, mais incorrectement. Pensez à consulter les pages d'aide ou les FAQ que la plupart de ces sites mettent à votre disposition. Situer et sélectionner les parties d'un site de recherche que l'on interroge La plupart des sites de recherche tendent aujourd'hui à se constituer en "portails" afin de fidéliser l'internaute. Ils proposent, outre un outil de recherche sur les sites Internet, une encyclopédie, des dépêches d'agence, des dossiers d'actualité ou des fils d’actualités mais aussi des liens "commerciaux" vers des sites partenaires (cybercommerce...) et différents services (adresses mail gratuites, stockage de fichiers...) . _________________________________________________________________________________________________ ____ 2 Mediadix – Informatique en bibliothèque — III. La recherche sur Internet Lors d'une recherche documentaire, il faut donc faire particulièrement attention : à la partie du site que l'on interroge (l'annuaire, le moteur, l'encyclopédie, les actualités, ...) aux types de réponses trouvées : (sites sélectionnés par des professionnels pour l'annuaire, page indexée automatiquement de la base de données du moteur, liens sponsorisés mis en évidence non pour leur qualité intrinsèque mais pour des raisons commerciales). Déterminer le contexte du sujet et choisir le bon outil Généralement, les annuaires sont utilisés pour une recherche sur un sujet général, les moteurs pour un sujet plus spécifique. MAIS : la distinction se fera en fonction de votre propre connaissance du sujet. Moteur, annuaire ? Un exemple de recherche Sujet : Recherche de documents sur la végétation de l'edelweiss. 1. Vous pouvez choisir de chercher dans un annuaire s'il existe des sites spécialisés sur la flore alpine (... mais cela suppose que vous savez déjà que l'edelweiss est une fleur alpine) ; 2. Si vous connaissez mal le sujet, vous pouvez procéder par exploration. Essayez d'interroger un moteur pour identifier le contexte puis utilisez un annuaire pour chercher des sites spécialisés sur le sujet. Que cherche-t-on ? Quels outils utiliser ? Je cherche Une synthèse Des chiffres Des documents originaux Un spécialiste à interviewer Une analyse Un point de vue officiel ou au contraire dissident Une anecdote à placer dans un discours Un dossier complet sur un sujet J'utilise Les fils d'actualité des sites de recherche (Yahoo!,...). Dans un annuaire, une rubrique "statistiques" en rapport avec le sujet. Les bases de données dans le domaine. Je m'interroge sur l'existence d'un site "officiel" sur le sujet ? Offre-t-il des documents téléchargeables ? (souvent au format PDF, qu'on peut rechercher par ex. sur Google) Un répertoire spécialisé qui permettra de repérer les auteurs de sites sur le sujet. J'interroge des sites universitaires pour localiser des enseignants du domaine ; des annuaires de journalistes spécialisés ou ceux de sites d'associations professionnelles ; ... Les sites de journaux (quotidiens, magazines) ; Des répertoires de thèses universitaires ; ... Les sites officiels des gouvernements, des sociétés. Les listes de discussion, les forums des sites alternatifs Voir http://rezo.net/ http://www.evene.fr/citations/index.php Plusieurs outils combinés. Des répertoires spécialisés du domaine. _________________________________________________________________________________________________ ____ 3 Mediadix – Informatique en bibliothèque — III. La recherche sur Internet Toute la chronologie d'un événement y compris ses derniers rebondissements Adresses de personnes Les archives et dossiers des journaux Les fils d'actualités. Adresses mel : Copernic, logiciel téléchargeable, offre aussi une option de recherche simultanée sur plusieurs annuaires d'adresses électroniques). Certains sites permettent de retrouver les e-mails de personnes à partir des contributions aux forums de discussion : http://usenet-addresses.mit.edu Le développement du "spam" (courrier non désiré envoyé à des adresses récoltées sur Internet) incite, à juste titre, de nombreuses personnes à refuser la publication de leur adresse. Il est parfois plus aisé de retrouver l'e-mail de quelqu'un par le biais de l'entreprise où il travaille ou bien en lui téléphonant... Numéros de téléphone En France, les pages jaunes et blanches sont disponibles sur Internet http://www.pagesblanches.fr/ ; ainsi que les annuaires inversés http://www.quidonc.fr qui sont eux payants. Pour les téléphones mobiles, il n'existe pas encore d'annuaire inter-réseau. Des sites recensent les annuaires des autres pays "Annuaires du monde" sur pagesjaunes.fr www.phonenumbers.net Images, sons, videos Cartes géographiques Forums Plusieurs moteurs de recherche disposent d'un module de recherche d'images ou d'autres fichiers audiovisuels : ex. : les onglets 'pictures', 'video', 'audio' sur Alltheweb www.alltheweb.com [interface en anglais. Les cartothèques de Sciences Po http://www.sciences-po.fr/cartographie ou de la Perry Castaneda Library http://www.utexas.edu/maps (en anglais) Des sites spécialisés permettent de rechercher des forums et des listes de diffusion sur un thème donné, et d'interroger directement dans les contributions à ces débats. : _________________________________________________________________________________________________ ____ 4 Mediadix – Informatique en bibliothèque — III. La recherche sur Internet 2. Panorama des outils de recherche → Moteurs de recherche : principes et règles de recherche Les moteurs de recherche sont des sites qui lancent des requêtes sur une base de données constituée de façon automatique d'après le contenu des pages recensées par les "spiders", outils qui parcourent régulièrement le web en se basant sur les liens hypertexte. Exemples de moteurs de recherche Moteur Google Adresse http://www.google.fr/ Voila (onglet "tout le web") http://www.voila.fr/ Yahoo! Recherche (partie "tout le web") Alltheweb (en anglais) http://fr.yahoo.com/ http://www.alltheweb.com/ Indexation Les données contenues dans les pages rencontrées sont indexées et pondérées automatiquement, selon différents critères : _ Structuration du code source de la page. Les termes reçoivent une pondération plus ou moins importante selon les "zones" de la page où ils sont placés. — "Notoriété" de la page qui est déterminée par le nombre de liens hypertexte pointant vers celle-ci — Fréquentation de la page. Ces critères varient également selon les outils. Tri des réponses Lorsque l'on interroge un moteur de recherche, c'est dans cette base préconstituée qu'il va puiser pour proposer une liste de réponses, triées en fonction de leur adéquation supposée (c'est à dire calculée) avec la question. Les moteurs se distinguent entre eux non seulement par les résultats trouvés, mais aussi par la façon dont ils évaluent la pertinence de ceux-ci. Les méthodes de tri des résultats combinent à des degrés divers selon les moteurs différents éléments. Le classement des moteurs de recherche dépend donc largement de la façon dont on formule sa question (choix et ordre des mots). Moteurs : méthodes de tri des résultats Place du mot dans le document : plus important s'il est dans le titre ou le début du texte Densité : fréquence du mot dans la page (un mot qui figure 2 fois sur une page de 200 mots est plus "dense" qu'un mot qui figure 3 fois sur une page de 500 mots) Rareté : un mot rare dans la base de données du moteur sera mieux "considéré" Expression et proximité : plus les termes de la requête sont proches dans un document, mieux cette page sera classée ; les pages contenant l'expression exacte arrivent en tête Notoriété : plus une page est citée (i.e. référencée par un lien hypertexte) par d'autres, plus elle est importante ; cette importance est accrue si les pages qui pointent vers elle sont elles-mêmes très citées Popularité : le moteur augmente la pondération des pages qui ont été jugées pertinentes par l'internaute pour une question donnée (quels liens de _________________________________________________________________________________________________ ____ 5 Mediadix – Informatique en bibliothèque — III. La recherche sur Internet la liste ont été visités et pendant combien de temps avant que l'internaute ne reviennent à la liste des résultats). D'après : Recherche d'information sur internet / Jean-Pierre Lardy. - ADBS, 2001 Limites Les robots ne peuvent pas parcourir toutes les pages existantes : il faut qu'au moins un lien les conduise sur une page donnée. Le délai de mise à jour de la base de donnés entre deux visites d'un robot à une page web varie de un jour à quelques semaines. Ainsi des bases très importantes peuvent contenir des informations périmées. Certaines informations accessibles par requête leur échappent : cas de certaines pages "dynamiques" et du contenu des bases de données (on parle de "web invisible") Enfin, la structuration des pages HTML ne permet pas une indexation très poussée des documents. Règles de recherche — Déterminer les règles de la requête — Employer les opérateurs booléens et les possibilités de recherche avancée Moteurs : règles de recherche • • • • • • • • Déterminer les termes de la requête Faire ressortir les termes les plus significatifs de la question. Penser aux synonymes, aux équivalents anglais Il peut être utile de jeter un coup d'oeil sur les premières réponses et de regarder les termes employés dans les pages trouvées. On peut ainsi réutiliser ces termes pour reformuler sa question. Employer les opérateurs booléens et les possibilités de recherche avancée La plupart des moteurs peuvent être interrogés en utilisant les opérateurs booléns et d'autres requêtes avancées. Cependant, il est nécessaire de consulter l'aide (guide, help, tips,...) de chaque moteur car chacun a ses propres règles de recherche, concernant notamment : La prise en compte des majuscules et des lettres accentuées Le traitement des mots vides (le moteur, par exemple, fait abstraction des articles dans la recherche) Les opérateurs utilisables (OU, +, OR) → Annuaires (répertoires de sites) Sur Internet, il n'y pas centralisation, pas d'organisme chargé du "dépôt légal" des sites. Il n'existe donc pas exister d'annuaire général officiel des sites internet. Les contenus des annuaires (ou répertoires de sites) ne peuvent donc qu'être partiels et subjectifs. Exemples d'annuaires (répertoires de sites) Annuaires Yahoo!Recherche (partie guide web) Adresse http://fr.search.yahoo.com/search/fr/dir/index.ht ml Nomade (partie annuaire des sites) http://www.nomade.tiscali.fr/ _________________________________________________________________________________________________ ____ 6 Mediadix – Informatique en bibliothèque — III. La recherche sur Internet Open Directory http://dmoz.org/ Limites des annuaires Le contenu des annuaires se limite généralement à une zone géographique ou linguistique Le travail de classement et d'indexation est fait par des "cyberdocumentalistes" — ou par des internautes, dans le cas du répertoire collaboratif Open Directory (qui se trouve sur le lien "annuaire" de Google) —, sur la base d'une liste de propositions faites par les internautes ou les auteurs des sites • Généralement, les sites inscrits sur une liste de soumission payante ont plus de chance d'être évalués (sans que cela leur garantisse d'être retenus). Principes Les annuaires, ou la partie "annuaire", "répertoire", "guide web" ou "sélection de sites" des sites de recherche, se présentent sous forme d'une arborescence de rubriques aboutissant chacune à une liste de sites. Sur la plupart des répertoires, on peut rechercher soit en parcourant l'arborescence jusqu'au thème cherché ou recherche par mots clés sur tout l'annuaire ou sur l'une de ses catégories (ou sur tout le web mais dans ce cas-là, on sort de la sélection de sites pour utiliser la fonctionnalité "Moteur de recherche". → Répertoires spécialisés et bases de données Bases de données payantes Sur Internet, on trouve de nombreuses informations gratuites sur des sites de qualité variable. On peut également accéder à des bases de données payantes qui ont l'avantage de regrouper des informations rangées par des professionnels et des documentalistes. Certes, on paye, mais on gagne du temps. Les outils spécialisés et les bases de données disponibles gratuitement sur Internet Il existe beaucoup de répertoires qui recensent uniquement des sites spécialisés sur un domaine de connaissance particulier (droit, éducation, ...). Plus riches dans leur spécialité que les répertoires généralistes, ces sites offrent en outre l'avantage de vous orienter vers des ressources que les moteurs généralistes ont du mal à repérer (on parle de "web invisible"). Il s'agit notamment de sites exploitant des bases de données — c'est par exemple le cas des librairies et des catalogues de bibliothèques en ligne — les pages présentant le formulaire d'interrogation sont indexées par les moteurs de recherche mais pas le contenu de la base elle-même. Il est intéressant de connaître les sites spécialisés disponibles dans son domaine sur internet. Certains outils comme les "répertoires de répertoires" s'efforcent de les recenser et de les exploiter. _________________________________________________________________________________________________ ____ 7 Mediadix – Informatique en bibliothèque — III. La recherche sur Internet Des "répertoires de répertoires" Répertoires de répertoires (anglais) Internet Public Library (subject collections) Beaucoup.com Bubl Link 5:15. Il offre plusieurs classifications : alphabétique, par rubriques, Dewey, etc. Répertoires de répertoires (français) Enfin.fr Adresse http://www.ipl.org/div/subjec t/ http://www.beaucoup.com/ http://www.bubl.ac.uk/link/ Adresse http://www.enfin.fr/ Les annuaires généralistes renvoient très souvent, dans chacune de leurs rubriques, à une liste d'annuaires spécialisés (cf. la sous-rubrique "Portails et annuaires" de certaines rubriques du guide web de Yahoo!) Sites recensant les bases de données en ligne Répertoires de bases de données en ligne (anglais) Profusion.com (ex-The invisible web) Direct search Bases de données (français) Bdd Formist (cours en ligne avec exemple) Dadi (bdd gratuites Carel (consortium d’achat de bdd) sur le site de la BPI dans espace professionnel, puis espace international. Adresse http://www.profusion.com/ http://www.freepint.com/gar y/direct.htm Adresse http://bdd.formist.enssib.fr/i ndex.html http://dadi.enssib.fr http://www.bpi.fr/ress.php?i d_c=34&id_r1=372&id_c2= 34&id_rubrique1=58&id_rub rique2= Recherche dans plusieurs bases de données Des outils téléchargeables, comme Copernic ou Strategic finder, peuvent lancer une requête simultanément dans plusieurs bases de données (notamment dans celles des librairies en ligne). _________________________________________________________________________________________________ ____ 8 Mediadix – Informatique en bibliothèque — III. La recherche sur Internet Bases de données à connaître en bibliothèque Catalogues de bibliothèque Liens vers des catalogues en ligne des bibliothèques du monde entier : Libdex.com Les outils de référence Les catalogues des librairies en ligne, ou les bases recensant : la production mondiale de films la production mondiale de CD (Gracenote.com) Adresse http://www.libdex.com/ Adresse http://www.imdb.com/ http://www.gracenote.com/m usic/ Les répertoires d'adresses Adresses mel : certains outils de recherche généralistes ont des formulaires permettant de retrouver des adresses de messagerie électronique (mél ou e-mail), mais cela nécessite souvent que la personne recherchée se soit inscrite auprès d'eux. Il faudra donc parfois recourir à plusieurs annuaires. (NB : Copernic offre aussi une option de recherche simultanée sur plusieurs annuaires d'adresses électroniques). D'autres sites permettent de retrouver les e-mails de personnes à partir des contributions aux forums de discussion :(*) Téléphone : en France Les pages jaunes Les pages blanches Les annuaires inversés (www.quidonc.fr) Adresse http://usenetaddresses.mit.edu http://www.pagesjaunes.fr/ http://www.pagesblanches.fr/ http://www.quidonc.fr Téléphone : dans d'autres pays Les pages jaunes (annuaires du monde) Infobel.com http://www.pagesjaunes.fr http://www.infobel.com/teldir/ → Les outils de veille documentaire L'activité de documentaliste ou de bibliothécaire exige d'être constamment informé(e) des évolutions d'un site ou d'un sujet donné. Il existe des outils qui permettent assez facilement de faire de la veille Pour être informé de l'évolution d'un site Vous pouvez "surveiller" des pages précises de sites pour être alerté de leur mise à jour. Des outils téléchargeables peuvent vous informer par mail sur la mise à jour des pages sélectionnées (ex. Check&get) Pensez aussi à vous abonner aux "lettres d'information" des sites qui vous intéressent. _________________________________________________________________________________________________ ____ 9 Mediadix – Informatique en bibliothèque — III. La recherche sur Internet Pour être informé des nouvelles réponses à une question : GoogleAlert, indépendant de Google, vous avertit par courriel des nouvelles réponses trouvées par Google à une question enregistrée par vos soins. Yahoo Alerts alerte sur l'actualité, ... Google NewsAlert propose également une alerte sur l'actualité Des sites spécialisés permettent de rechercher des forums et des listes de diffusion sur un thème donné, ainsi que d'interroger directement dans les contributions à ces débats [cf. le cours d'introduction à Internet]. _________________________________________________________________________________________________ ____ 10 Mediadix – Informatique en bibliothèque — III. La recherche sur Internet 3. Vérification de l'information Avant d'utiliser ou de répertorier un site, vous devrez évaluer son intérêt en vous basant sur des éléments objectifs et des critères subjectifs. Les principaux éléments à prendre de toutes façons en considération sont : l'outil utilisé pour trouver l'information, le domaine, la mise à jour, l'auteur, la qualité du site. L'outil utilisé pour trouver l'information Rappels : — Dans un annuaire, les sites ont été sélectionnés ; — Dans un répertoire spécialisé, les sites ont en principe retenus par un spécialiste du domaine. La sélection proposée par un répertoire spécialisé est d'autant plus fiable qu'il lui-même bien évalué dans un "répertoire de répertoires" ; — En revanche, un moteur n'évalue pas les pages qu'il vous propose en réponse à une question (même si le fait qu'elle soit très souvent citée peut être un critère de pertinence, par ex dans Google) Le domaine Le nom de domaine peut vous aider à déterminer l'origine du site, bien qu'il existe un certain nombre de "pavillons de complaisance" (.tv, .tk, ...). La mise à jour Vérifier sur la page qui vous intéresse si le webmestre a indiqué la date de mise à jour ou si des éléments de contexte permettent de l'évaluer. Dans leurs résultats, certains moteurs (Voila.fr par exemple) mentionnent également la date de mise à jour. L'auteur Retrouver la page d'accueil pour en savoir plus sur l'auteur du site : Pages personnelles : (--.free.fr, www.chez.com/--, etc) ; — S'interroger les compétences de l'auteur de la page ? (CV) , — Voir s'il est possible de le joindre (adresse mail) ? — Voir s'il participe à des forums ? Si oui, lesquels ? — Evaluer si sa page est souvent citée par ailleurs ? (recherche de type link: sur un moteur) Pages institutionnelles — L'utilitaire WhoIs [par ex. sur le site de l'Afnic] peut vous permettre d'identifier l'origine d'un site. — S'interroger sur la vocation de cette institution ? Son "intérêt" à publier des informations sur le web — Rechercher sur son nom — Rechercher les sites qui pointent vers le sien (recherche de type link: sur un moteur) — Rechercher (prudemment...) les informations sur cette société dans les forums. La qualité du site — Si vous proposez un site à votre public vérifiez ses qualités esthétiques, et surtout son ergonomie. Trouve-t-on facilement l'information, est-elle clairement présentée ?, accessible au public handicapé, en particulier malvoyant ? _________________________________________________________________________________________________ ____ 11 Mediadix – Informatique en bibliothèque — III. La recherche sur Internet