Google Scholar - URFIST de Lyon

Transcription

Google Scholar - URFIST de Lyon
Google Scholar
http://scholar.google.fr
LARDY Jean-Pierre
URFIST de LYON - UCBL http://urfist.univ-lyon1.fr DADI : http://dadi.enssib.fr
Maj mars 2011
“If I have been able to see farther than others, it was because I stood on the shoulders of giants.”
Sir Isaac Newton
I - Présentation générale
Google Scholar - GS (créé par Anurag Acharya, lancé fin 2004, encore en version beta) est
un moteur de recherche spécialisé dans la littérature de recherche universitaire : il indexe des
articles issus de périodiques avec évaluation par les pairs (peer reviewed), des thèses, des
livres, des articles en pré-publication, des rapports. Ces documents proviennent d'éditeurs
scientifiques (sauf ACS), de sociétés savantes, de répertoires de pre-prints, de serveurs
universitaires. Fin 2007, GS a lancé la numérisation de revues obtenues auprès de petits
éditeurs et de sociétés savantes de langues autres qu‟anglaises et ouest-européennes. Google
Scholar permet ainsi de retrouver des documents du web invisible indisponibles sur les
moteurs de recherche généralistes.
Cependant la couverture réelle n‟est pas connue précisément et Peter Jacso a montré que GS a
des trous énormes dans sa couverture des archives des éditeurs. GS ne donne aucune liste des
éditeurs commerciaux et des serveurs d‟archives qu‟il indexe ni d‟information sur le type de
documents traités et la période couverte. Il n‟y a pas d‟indication non plus sur le volume
disponible contrairement à son concurrent SCIRUS.
La gratuité du service ne dispense pas de donner ces informations.
GS se positionne en rival aux offres commerciales de bases de données et collections de
journaux électroniques. Si la qualité des résultats des recherches n‟atteint pas celle des
produits précédents, la simplicité d‟utilisation est un avantage important.
On peut donc dire que Google Scholar est un bon point de départ mais qu’il n’a pas encore la
maturité des outils de recherche documentaires commerciaux.
Domaines couverts : base de données multidisciplinaire, mais les ressources en sciences
exactes et médicales sont mieux couvertes que les sciences humaines et sociales.
Langue : majoritairement en anglais
Période couverte : inconnue
Volume : inconnu
Mise à jour : inconnue
Pour la France, GS prend en compte la totalité de l‟archive française HAL1 du CCSD (texte
intégral) et, intérêt moindre, les notices des fonds documentaires de l'INIST et de l‟ABES.
Sept 2007 : GS a conclu un accord avec Elsevier aux termes duquel le moteur de recherche
indexe le contenu de ScienceDirect.
1
http://hal.ccsd.cnrs.fr
1
II - Indexation
C‟est la technologie de Google qui est utilisée : indexation des textes intégraux et classement
s‟appuyant sur la technique du PageRank et du taux de citation.
III - Interface de recherche
Il faut interroger dans la langue recherchée. Google Scholar propose deux interfaces :
Recherche simple :
A utiliser pour une recherche sur un ou plusieurs termes : opérateur ET implicite, pas de
troncature. Guillemets pour rechercher une expression :
"grippe aviaire" tamiflu
Recherche avancée : on dispose
 de champs qui remplissent les fonctions des opérateurs booléens AND, NOT, OR et de
la recherche d‟une expression stricte avec guillemets
 de champs qui proposent de rechercher par auteur, nom de publication et intervalle de
dates
 de la recherche du terme dans tout le document ou limitée au titre
 de la limite à un ou plusieurs domaine(s) parmi 7
Conseils de recherche
La recherche se fait dans le texte intégral en langage naturel. Il faut donc penser aux
synonymes, en particulier en utilisant les termes scientifiques :
maladie de la vache folle  encéphalopathie spongiforme bovine
en évitant les sigles et en précisant la recherche. Pour cela utilisez la Recherche avancée ou
les préfixes :
 author:
 intitle: limite la recherche aux termes du titre
 site: exemple site: blackwell-synergy.com
 URL:
 journal: attention les noms de journaux sont en entier ou abrégés
 Date (année sur 4 chiffres)
 Subject areas : 7 grands domaines disciplinaires (uniquement pour l‟interface en
anglais)
Attention : la recherche par auteur pose problème : auteurs fantômes et auteurs absents.
Ex de recherche d‟auteurs sur Subscribe, password, results …
Il faut donc évitez les traitements bibliographiques : facteur H ….
L‟interface de recherche calquée sur celle de Google ne permet pas des recherches très
sophistiquées. L‟absence de troncature et des parenthèses est vraiment un handicap.
NB : On note que les résultats sont différents selon la langue de l‟interface de recherche : on
obtient plus de références à partir de l‟interface en anglais !!
2
IV - Préférences
Le lien Préférences Scholar permet de personnaliser certaines options du moteur :
 Langue de l‟interface : quatorze langues dont le français
 Langue de recherche : 8 langues dont le français, par défaut pas de limite de langue
 Liens vers la bibliothèque : très intéressant si votre bibliothèque fait le nécessaire
 Exportation de références vers un logiciel de gestion : BibTex, EndNote, RefManger,
RefWorks (reconnu automatiquement par ZOTERO)
V - Résultats
La page de résultats affiche le titre du document trouvé, l‟auteur du document proposé ainsi
que le nombre de liens pointant vers le fichier, les différentes sources où il est disponible ainsi
que les versions successives existant sur le Web.
Titre – Lien vers le texte intégral
Auteur(s)
Journal
Date de publication
Extrait de texte
Citation
Elargissement de la recherche
An assessment of the motives and morals of egg share donors: policy of „payments‟ to …
KK Ahuja, EG Simons, BJ Mostyn, P Bowen-Simpkins - Human Reproduction, 1998 - humrep.oupjournals.org
... example of a misunderstanding that led to an erroneous conclusion is provided by Londoners asked how they
felt about the chemical, dihydrogen monoxide, that is ...
Cited by 12 - Web Search - ingentaconnect.com - ingentaconnect.com - ncbi.nlm.nih.gov
Mentions éventuelles :
[CITATION] : il s'agit d'une citation dans un article.
[LIVRE] signale un livre. Les livres ne sont pas en général disponibles en ligne en texte
intégral actuellement. Un lien permet de localiser une bibliothèque le possédant.
[PDF] signale un article au format PDF, sinon c‟est le format HTML.
Cité x fois donne les articles citant dans la base de Google Scholar, en cliquant sur le lien
vous trouvez les x références citantes de l'article en question.
Elargissement de la recherche, plusieurs possibilités :
- Autres articles (articles proches) : Google Scholar détermine les articles de sa base de
données les plus voisins dans leur sujet de celui affiché. Aucune information sur la méthode
utilisée.
- Recherche sur le Web : relance dans Google d‟une requête constituée du 1er auteur ou
terme du journal et mot(s) significatif(s) du titre : ex "Ahuja" "* assessment * *"
- Library Search pour localiser un livre avec WorldCat de l‟OCLC
cat.inist.fr Un lien vers la référence bibliographique ainsi que vers le service de
commande de copies de documents est inséré pour les documents disponibles dans le fonds
documentaire de l'INIST/CNRS.
GS analyse le corpus de réponses et donne les 5 auteurs les plus présents :
Auteurs clés: H Schünemann - T Jefferson - K Nicholson - J Beigel - M Davis
3
L‟utilisation d‟un robot conduit GS à trouver de nombreux doublons (dits versions) sur les
sites web visités. Ces doublons sont gardés et indiqués par les x versions.
Wonderful Life: The Burgess Shale and the Nature of History - les 5 versions
L‟exploitation de ces doublons permet souvent de retrouver un texte en accès libre.
Accès au texte intégral
Si la recherche est gratuite de n‟importe où, l‟accès au texte intégral des articles de
périodiques commerciaux n‟est possible que depuis une institution abonnée sauf si une
version du texte est présente dans un serveur d‟archives ouvertes ou s‟il s‟agit d‟un journal
Open Access.
GS signale les textes gratuits à droite de la référence.
[PDF] à partir de ulaval.ca
[PDF] Dynamique de la végétation d'un fen pauvre face à une simulation de
réchauffement climatique: Réponses potentielles des tourbières boréales à
sphaignes
C St-Arnaud - Universite Laval, 2007 - gret-perg.ulaval.ca
Mémoire présenté à la Faculté des études supérieures de l'Université Laval dans le cadre du
programme de maîtrise en biologie végétale pour l'obtention du grade de maître ès sciences
(M.Sc.) ... DÉPARTEMENT DE PHYTOLOGIE FACULTÉ DES SCIENCES DE L' ...
Cité 2 fois - Autres articles - Version HTML - Les 6 versions - Importer dans EndNote
Classement des résultats
La méthode de tri n‟est pas explicitée mais repose sans doute sur un calcul de pertinence qui
prend en compte le texte de chaque article ainsi que le(s) auteur(s), la publication et le nombre
de fois où il est cité.
Articles récents : GS a introduit un classement par date, les plus récents en tête. Il s'agit "non
pas d’un simple tri par date, mais d’un classement des articles récents en prenant en compte
l'importance ("the prominence") de(s) l'auteur(s), et des autres articles de tel ou tel journal,
le nombre de citations dont les articles disposent, la date à laquelle ils ont été écrits, et ainsi
de suite." d‟après Google Blog2. Mais la « cuisine » reste toujours mystérieuse.
Formats de fichiers
On trouve essentiellement les deux formats HTML et PDF (transcription en HTML possible).
Google Scholar est un outil encore en développement qui manque de maturité : informations
inexistantes sur le fonds indexé, interface de recherche trop rudimentaire. Ceci conduit à
l‟utiliser « à la Google » et non comme un outil de recherche documentaire.
Alertes
Google Scholar propose depuis mai 2010 d'un système d'alertes par mots-clés symbolisé par
une enveloppe dans la page résultats.
2
http://googleblog.blogspot.com/2006/04/keeping-up-with-recent-research.html
4
VI – Outils liés à Google Scholar
Il existe de nombreux développements à intégrer dans un navigateur comme Firefox :
Par Ingenta : http://www.ingentaconnect.com/about/researchers/power_tools
 Google Scholar Highlighter : this bookmarklet will highlight the citations in your
search results which have full text on IngentaConnect. Run your search and then click
on the toolbar link to highlight the IngentaConnect results.
 Search IngentaConnect via Google Scholar : Utilise Google Scholar pour interroger
IngentaConnect. Highlight words on any web page and click the link, or enter words
into the pop-up box. Your search will be executed on Google but the results will be
limited to those available on IngentaConnect.
VII – Précaution avec Google Scholar
GS est un moteur de recherche qui lance ses robots sur les serveurs universitaires. Il n‟y a
aucun contrôle des documents indexés pourvu qu‟ils aient l‟apparence d‟articles scientifiques.
Ceci peut conduire à des « farces » comme l‟a montré l'enseignant-chercheur Cyril Labbé.
Voir
http://www.vousnousils.fr/2010/12/24/ike-antkare%C2%A0-le-chercheurrenomme%E2%80%A6-qui-n%E2%80%99existe-pas-457616
Ce problème n‟existe pas dans les bases de données bibliographiques qui choisissent les
journaux à signaler.
5