Le Web, source d`information - Bibliothèque de Mines ParisTech

Transcription

Le Web, source d`information - Bibliothèque de Mines ParisTech
5èmes rencontres doctorales autour de l’informa3on scien3fique et technique Bibliothèque de Paris, 15 et 16 janvier 2013 Le Web, source d’information
Emilie Brunet Responsable Forma3on – Bibliothèques MINES ParisTech emilie.brunet@mines-­‐paristech.fr Objectifs
Ø  Cerner un paysage documentaire et informationnel
complexe pour mieux repérer et trier l’information
pertinente
Ø  Saisir ce que sont le web et les moteurs pour en avoir
un usage maitrisé
Ø  Comprendre pourquoi Google est insuffisant et
inadapté pour la recherche d’information scientifique et
technique (IST)
Ø  Connaître les autres outils de recherche
2 Plan
Ø  Quelques définitions
Ø  Web, moteurs, web visible et invisible, web 2.0, web
sémantique, web de données
Ø  Quelques chiffres
Ø  Quelques moteurs en accès libre
Ø  Quelques pratiques
Ø  Quelques références bibliographiques
3 Le web, ce n’est pas internet
¡  Historique et définition
ü  Quand ? 1989-1990
ü  Qui ? Tim Berners-Lee et Roger Caillau au CERN (Conseil
européen de recherche nucléaire, Genève)
ü  Quoi ? Un système d’information hypertexte
ü  Pourquoi ? Permettre l’échange de fichiers entre chercheurs
ü  Comment ? Fondé sur l’Internet (INTERconnected Networks), un
système mondial d’interconnexions de machines reposant sur des
standards et des protocoles.
« Le World Wide Web, ou toile d’araignée à l’échelle mondiale, est un système
(…) qui permet de consulter des pages hébergées sur des sites et de passer
de l’une à l’autre via des liens hypertextes. Mais le web ne représente que l’un
des services offerts par cet immense réseau informatique qu’est Internet,
au même titre que le courrier électronique, la messagerie instantanée ou le
partage de fichiers en peer-to-peer. Pour autant, il est vrai que la recherche
d’information via Internet passe par la plupart du temps par l’utilisation du web
plutôt que des autres services » (Mesguich et Thomas, 2010, p. 18).
4 Des navigateurs et des moteurs
¡  Pour accéder au web
« L’accès aux documents [du texte, des images statiques, des sons, des
images animées, des liens] se fait en utilisant un logiciel de consultation
(browser, aussi appelé navigateur) qui gère l’interface graphique de
l’utilisateur et les liens permettant par un simple clic de la souris d’accéder au
document ainsi désigné » (Martin, 2005).
Top 5 des navigateurs les plus utilisés en Europe (août 2013) :
①  Google Chrome : 27,2% des visites
②  Internet Explorer : 26,4%
③  Mozilla Firefox : 21,3 %
④  Safari : 17,8 %
⑤  Navigateurs mobiles intégrés (Samsung, Blackberry…) : 3,5 %
France, même ordre : 28,1%, 25,2%, 23,1%, 17,1%, 0,6%
5 Qu’est-ce qu’un moteur ?
¡  Trois éléments :
1.  Un robot (ou bot, crawler, spider…), programme de navigation qui
parcourt le Web et collecte (crawl) des pages qu’il stocke sur un
serveur. Il teste tous les liens hypertexte, copie les pages web qu’il
visite et les revisite périodiquement. Les fréquences de mise à jour
varient considérablement d’un moteur à l’autre (de tous les jours à
plusieurs mois).
2.  Un index qui contient tous les mots de toutes les pages rapatriées
par le robot et qui relie ceux-ci à l’URL des pages dont ils proviennent.
Aujourd’hui, les moteurs intègrent des traitements d’analyse du texte
(fautes d’orthographe, synonymes, formes voisines…)
3.  Une interface web qui propose à l’internaute de lancer les requêtes
pas mots et affiche les résultats.
Des moteurs différents, donc des résultats différents
Ø  Pas les mêmes couvertures, index, algorithmes de classement
Cf. PageRank de Google basé sur la popularité
6 Les moteurs en quelques chiffres
•  Au total, plus de 99 % du trafic généré par les moteurs
Ø  En septembre 2013, 39,2 millions d’internautes se sont connectés sur au
moins un moteur de recherche, soit 84,5% des internautes actifs.
•  Les modalités de recherche simple souvent préférées (1 ou 2 termes
juxtaposés), parfois par ignorance des modes d’interrogations
avancées.
•  Dans 95 % des requêtes, seuls les résultats de la première page de
résultats sont consultés.
Top 5 des moteurs les plus utilisés en France (septembre 2013) :
①  Google : 73,1%, soit 33,9 millions de visiteurs uniques, 40 min. / mois
(en 2012 : 83%, 36,3 millions de personnes, 51 min. / mois)
②  Google images : 44,1%, 20,5 millions, 7 min. / mois
③  Ask : 19,2%, 8,9 millions, 5 min. / mois
④  Bing (Microsoft) : 13,7%, 6,4 millions, 9 min. / mois
⑤  Yahoo : 11%, 5,1 millions, 7 min. /mois)
7 Web invisible
¡ Dit aussi web profond ou caché
Ensemble des pages non localisables et/ou indexables par
les moteurs :
–  Pages dynamiques générées après requête (contenu des bases
de données),
–  Pages avec accès soumis à authentification (Intranet,
ressources payantes),
–  Pages orphelines (pas de référencement, pas de liens vers
elles…)
–  Pages de sites volumineux non crawlés en entier par les
moteurs
–  Pages « interdites » volontairement par les webmasters…
Ø  Volume plus important que le web visible
… mais impossible de les estimer en nombre de pages.
8 Web 2.0
¡ Dit aussi web de seconde génération, web social, web de conversations…
Après le « web de documents » (jusqu’en 2004), le web 2.0 se
caractérise par « une implication plus importante des internautes
dans la création, l’enrichissements, la description et la diffusion des
contenus. Simplicité d’accès, partage, mutualisation,
individualisation, réutilisation des contenus : toutes ces
caractéristiques du ‘web 2.0’ (…) participent d’une même conception
de l’accès à l’information dans un contexte de liberté et de créativité.
Ce web social permet à des ‘consommacteurs’ de l’information de
créer non seulement des contenus électroniques, mais de les
enrichir collectivement et d’en assurer la diffusion » (Mesguish et
Thomas, 2010, p. 19).
Ø blogs, microblogging, wikis, réseaux sociaux, tagging/
folksonomie (indexation par des non-spécialistes)…
9 Web sémantique – Web de données (1)
¡  Après les documents, les données brutes lisibles par les internautes
et les machines
Principe majeur : structurer l’information contenue sur le web et lier les
données directement entres elles.
•  Comment ? en ajoutant un niveau de description explicite des
ressources et des liens (métadonnées, annotations sémantiques). Le
web sémantique obéit au modèle de graphe RDF (Resource data
framework) qui permet des représentations sous forme de triplets
sujet-propriété-objet.
•  Toutes les ressources sont identifiées par une URI (Uniform
resource identifier) qui a un rôle d’identification et d’adressage : par
ex., l’ISBN pour un livre : http://…/isbn/9782123456803, la référence
Geonames pour un lieu géographique :
http://sws.geonames.org/2759793. Le niveau de description s’appuie
sur des ontologies qui permettent d’ajouter des relations entre les
ressources et de qualifier ses relations.
10 Web sémantique – Web de données (2)
« Des machines pourraient ainsi extraire des informations,
en se basant sur des métadonnées depuis des grands
réservoirs d’information, et les agréger de façon à fournir à
l’utilisateur, non pas une longue liste de documents,
mais des données correspondant à sa
requête » (Mesguich et Thomas, 2010, p. 157).
Google évolue dans ce sens et devient un moteur d’information.
(Cf. réponses fournies à droite de la liste de résultats)
Exemples de réalisations :
http://data.bnf.fr,
http://www.wolframalpha.com,
http://fr.dbpedia.org/
11 Autres moteurs de recherche
¡  Alternatives à Google en accès libre (Cf. B. Foenix-Riou, 2013)
•  Moteurs de recherche "verticaux", spécialisés sur la
littérature scientifique (multidisciplinaire /
multiressources)
Indexent spécifiquement la littérature scientifique et académique,
dans tous les domaines : sites universitaires, archives ouvertes,
mais aussi banques de données reconnues (Refdoc...). Accès
aux références bibliographiques en accès libre ; document
primaire gratuit ou payant selon les sources.
–  Scirus : http://www.scirus.com. Créé en 2001, va être
abandonné en janvier 2014 par Elsevier
–  Google Scholar : http://scholar.google.fr. Créé en 2004.
Opacité de la couverture, antériorité, volume…
–  Microsoft Academic Search :
http://academic.research.microsoft.com/ : lancé en 2009 par
Microsoft.
12 Autres moteurs de recherche
¡  Alternatives à Google en accès libre (Cf. B. Foenix-Riou, 2013)
•  Portails scientifiques multidisciplinaires : recherche fédérée
sur des bases de données et des portails (métamoteurs)
Visualisation des références en accès libre. Selon les sources interrogées :
accès au document primaire en ligne ou non (ou via paiement)
–  Science.gov : http://www.science.gov. Lancé en 2002 par Science.gov
Alliance (organisations scientifiques américaines). Portail d'accès aux
ressources scientifiques officielles américaines.
–  ScienceResearch.com : www.scienceresearch.com. Moteur de recherche
libre lancé par Deep Web Technologies en 2005. Interroge plus de 400
"collections" de sources dans le domaine des sciences et technologies
(PubMed, IngentaConnect, Cochrane Library...) ainsi que des portails de
recherche sur la science, comme Science.gov, Mednar.com,
WorldWideScience.org.
–  WorldWideScience : http://worldwidescience.org. Portail mondial et
multilingue d'accès à l'information scientifique, créé en 2007 par la
WorldWideScience Alliance ; permet d'interroger simultanément +80 bdd et
portails scientifiques de différentes langues dans +70 pays, grâce à sa
recherche fédérée (Deep Web Technologies) et sa technologie de traduction
(Microsoft).
13 Autres moteurs de recherche
¡  Alternatives à Google en accès libre (Cf. B. Foenix-Riou, 2013)
•  Moteurs de recherche multidisciplinaires sur les
ressources en open access
–  moteurs personnalisables (réalisés avec Google Custom Search Engine) :
•  OpenDOAR (Directory of Open Access Repositories) : www.opendoar.org. Annuaire
des serveurs d'archives ouvertes dans le monde (+2 200)
•  ROAR (Registry of Open Access Repositories) : http://roar.eprints.org. Annuaire
également
•  FreeFullPDF : www.freefullpdf.com. Interroge plus de 80 millions de documents
PDF issus de 15 000 sources scientifiques (sciences de la vie, sciences
physiques...).
–  "moissonneurs OAI", indexation des bibliothèques numériques utilisant le
protocole OAI-PMH (Open Archive Initiative Protocol for Metadata
Harvesting) :
•  BASE (BielefeldAcademicSearchEngine) : http://www.base-search.net
•  OAISTER : http://oaister.worldcat.org
•  DOAJ (Directory of Open Access Journals) : www.doaj.org
•  SOAJ (Science Open Access Journal) : www.osti.gov/soaj. Interroge simultanément
des sources comme Biomed Central, Europe PubMed Central, DOAJ, Scientific
Electronic Library Online...
14 Autres moteurs de recherche
¡  Alternatives à Google en accès libre (Cf. B. Foenix-Riou, 2013)
• Moteurs de recherche spécialisés sur un
domaine :
–  QUERTLE : www.quertle.info. Moteur biomedical en accès libre
lancé en 2009, utilisant la sémantique dans ses algorithmes pour
une meilleure pertinence ; a créé sa propre bdd avec 300 millions
de relations entre les sujets.
–  ECONBIZ : www.econbiz.de. Développé par la German National
Library of Economics (ZBW) et l'University and City Library of
Cologne.
Moteur de recherche interrogeant des banques de données
allemandes et internationales dans le domaine de l'économie,
avec accès au texte intégral des documents.
Parmi les bases interrogées : ECONIS (+4 millions d'ouvrages),
RePEc (research papers), section économique de BASE, etc.
15 Autres moteurs de recherche
¡  Alternatives à Google en accès libre
•  Moteurs de recherche spécialisés sur un type de
documents :
–  THESES : www.theses.fr. Moteur de recherche des thèses de doctorat
français
–  LARA : http://lara.inist.fr. Accès au texte intégral de +1900 rapports
scientifiques et techniques français. Site fédérateur et multidisciplinaire
réalisé par l'Inist ; alimenté par différents laboratoires, instituts, centres de
recherche (Certu, Cnam, Inrs, Inserm...).
A pour vocation de valoriser la littérature grise scientifique et technique, et
notamment les rapports, techniques, de recherche, d'activité,
institutionnels...
–  ESP@CENET : http://fr.espacenet.com. Bdd gérée par l'OEB. Accès gratuit
à plus de 80 millions de documents brevets du monde entier, contenant des
informations sur les inventions et les évolutions techniques de 1836 à nos
jours.
16 Pratiques informationnelles des chercheurs
¡  Encore quelques chiffres pour finir
Ø  Part de la documentation numérique : 75 %
Ø  95 % utilisent Google
Ø  70 % ont recours à Wikipédia dont 47% dans
le cadre académique
Ø  45 % utilisent Google Scholar
17 Discussion
Ø  Et vous ? Quelles sont vos pratiques ?
–  Que Google ? Google Scholar ? Mode avancé ?
Commandes (intitle:, related:, site:, filetype:, etc.) ?
–  Wikipédia, une ressource dans le contexte
académique ?
–  Quels autres outils ? Les ressources de la
bibliothèque ?
18 Pour aller plus loin (1)
¡  Sources et conseils de lecture
ANDRIEU Olivier, 10 mai 2011, « Moteurs de recherche web : Google, Bing et leurs challengers », dans : Techniques de
l’ingénieur, Base documentaire : Documents numériques : diffusion et usages [base de données en ligne], Paris : Editions T.I., réf.
h7240, 17 p, [consulté le 11/12/2013], disponible à l'adresse :
http://www.techniques-ingenieur.fr/base-documentaire/technologies-de-l-information-th9/documents-numeriques-diffusion-etusages-42482210/moteurs-de-recherche-web-h7240/
AT INTERNET, 1er oct. 2013, « Google Chrome s’empare de la 1ère place en Europe : Août 2013 - Baromètre des navigateurs »,
[en ligne], site de AT Internet Online Intelligence Solutions [consulté le 11/12/2013], disponible à l'adresse :
http://www.atinternet.com/documents/google-chrome-sempare-de-la-1ere-place-en-europe/
CCM Benchmark cité par FILIPPONE Dominique, 4 oct. 2013, « Chrome fait toujours la course en tête » [en ligne], Journal du net
[consulté le 11/12/2013], disponible à l'adresse :
http://www.journaldunet.com/solutions/dsi/marche-des-navigateurs-en-septembre-2013/parts-de-marche-des-navigateurs.shtml
FOENIX-RIOU Béatrice, 2011, Recherche éveillée sur Internet : mode d’emploi, Paris : Lavoisier – Bases Publications.
FOENIX-RIOU Béatrice, 10 déc. 2013, « Recherches sur Internet : Y a-t-il une vie sans Google? - Compte-rendu de l'atelier du
secteur Veille de l'ADBS » [en ligne], Le blog de Recherche-eveillee.com [consulté le 11/12/2013], disponible à l'adresse : http://blog.recherche-eveillee.com/2013/12/recherches-sur-internet-y-t-il-une-vie.html
GALLEZOT Gabriel, 4 mars 2011, « Enquête sur les Pratiques Informationnelles des Chercheurs : Quelques Résultats » [en ligne],
URFIST info [blog] [consulté le 11/12/2013], disponible à l'adresse : http://urfistinfo.hypotheses.org/1901
MARTIN Bernard, 10 nov. 2005, « Introduction au World Wide Web : concepts de base », dans : Techniques de l’ingénieur, Base
documentaire : Documents numériques : diffusion et usages [base de données en ligne], Paris : Editions T.I., réf. h7240, 21 p,
[consulté le 11/12/2013], disponible à l'adresse :
http://www.techniques-ingenieur.fr/base-documentaire/technologies-de-l-information-th9/documents-numeriques-diffusion-etusages-42482210/introduction-au-world-wide-web-h7402/
MESGUICH Véronique et THOMAS Armelle, 2010, Net recherche 2010 : le guide pratique pour mieux trouver l’information utile et
surveiller le web, Paris : ADBS [Nouvelle édition à paraître en décembre 2013 : coédition ADBS – De Boeck].
19 Pour aller plus loin (2)
¡  Sources et conseils de lecture
LAUBLET Philippe, 10 mai 2010, « Web sémantique : principes, représentations sémantiques et ontologies », dans : Techniques de
l’ingénieur, base documentaire : Documents numériques : diffusion et usages [base de données en ligne], Paris : Editions T.I., réf.
h7240, 9 p, [consulté le 11/12/2013], disponible à l'adresse :
http://www.techniques-ingenieur.fr/base-documentaire/technologies-de-l-information-th9/documents-numeriques-diffusion-etusages-42482210/web-semantique-h7502/
Office québécois de la langue française, Grand dictionnaire terminologique (GDT) [consulté le 11/12/2013] :
- 
Fiche terminologique « Internet », 2007, disponible à l'adresse : http://gdt.oqlf.gouv.qc.ca/ficheOqlf.aspx?Id_Fiche=8361867
- 
Fiche terminologique « Web », 2009, disponible à l'adresse : http://gdt.oqlf.gouv.qc.ca/ficheOqlf.aspx?Id_Fiche=2075076
- 
Fiche terminologique « Web 2.0 », 2013, disponible à l'adresse : http://gdt.oqlf.gouv.qc.ca/ficheOqlf.aspx?Id_Fiche=26519897
- 
Fiche terminologique « Web invisible », 2006, disponible à l'adresse : http://gdt.oqlf.gouv.qc.ca/ficheOqlf.aspx?Id_Fiche=8370264
POMPIDOR Pierre, 10 fév. 2009, « Évolutions récentes des technologies web du ’côté client’ : le Web 2.0 au service des applications
riches », dans : Techniques de l’ingénieur, base documentaire : Documents numériques : diffusion et usages [base de données en
ligne], Paris : Editions T.I., réf. h7240, 13 p, [consulté le 11/12/2013], disponible à l'adresse :
http://www.techniques-ingenieur.fr/base-documentaire/technologies-de-l-information-th9/documents-numeriques-diffusion-etusages-42482210/evolutions-recentes-des-technologies-web-du-cote-client-h7440/
SIMMONOT Brigitte et GALLEZOT Gabriel (dir.), 2009, L'entonnoir : Google sous la loupe des sciences de l'information et de la
communication. Caen : C & F Éditions.
Rédaction du Journal du net, 26 novembre 2013, « Le Top 5 des moteurs de recherche en France » [en ligne], Journal du net [consulté le
11/12/2013], disponible à l'adresse : http://www.journaldunet.com/ebusiness/le-net/top-5-des-moteurs-de-recherche-en-france/
WASSNER Hubert, 25 fév. 2011, « L’algorithme PageRank : comment ça marche ? », dans : Techniques de l’ingénieur, Actualité :
Informatique - Electronique –Télécoms [base de données en ligne], Paris : Editions T.I., [consulté le 11/12/2013], disponible à
l'adresse :
http://www.techniques-ingenieur.fr/actualite/informatique-electronique-telecoms-thematique_193/l-algorithme-pagerank-comment-camarche-article_59080/
20