TD 6 : Principes d` indexation et mots clefs - e

Transcription

TD 6 : Principes d` indexation et mots clefs - e
Méthodologie documentaire
TD3 : Principes d’ indexation et mots-clefs de recherche documentaire
Introduction
La méthodologie documentaire c’est une boucle de recherche permettant
de trouver l’information. L’objectif est de pouvoir mener efficacement un travail
de recherche documentaire.
Votre recherche documentaire pour être efficace, efficiente et exhaustive doit
être systématique et méthodologique ; c’est un travail étape par étape, partant
du sens pour retourner au sens (boucle de recherche). D’ou l’importance des
termes employés comme clefs de recherche.
Bibliographie
votre sujet,
analyse des
concepts
Produire du
sens
Problématique,
Thèmes de
recherche
Constuire
question
documentaire
(mots-clefs)
Affiner,
Ajuster
Utiliser les
outils, Accéder
aux ressources
Evaluer,
Critiquer
la
La première étape consiste à
-délimiter le contexte (thématique, historique, disciplinaire)
-repérer les notions importantes et en clarifier le sens (sens, synonymes, notions
associées) : TD 2
-trouver la problématique de la recherche : TD 2
Vous avez ainsi fait émerger des termes essentiels qui pourront servir pour vos
recherches. Il faut maintenant effectuer un dernier travail avant de trouver les
documents : faire émerger les mots-clefs.
I. L’indexation
Que vous travailliez à partir du catalogue e-BULCO, du catalogue du SUDOC,
d’une base de donnée généraliste ou spécialisée, d’une encyclopédie en ligne (etc),
il ne vous sera pas possible de chercher le document à partir des concepts que
vous avez fait émerger. En effet, sur tous ces supports, les documents sont
classés, répertoriés, on dit qu’ils sont indexés.
L’indexation des documents dans un catalogue ou une base de données à pour
conséquence directe qu’il n’est pas possible d’utiliser n’importe quel mot pour
retrouver le document car l’indexation associe à un document un certain nombre
de termes (ou mots-clefs) et limite le chemin d’accès au document à ces seuls
termes. Pour ne rien faciliter, chaque catalogue ou base à sa propre indexation
1. Le Bruit et le silence
Il vous faudra donc trouver un mot-clef pertinent pour trouver des documents,
c'est-à-dire correspondant à un mot utilisé pour décrire le document. C’est
difficile car il faut penser le document avant de le trouver. Si vous n’effectuez
pas ce travail, vous risquez de vous heurter à deux écueils :
- le bruit : Il y a trop de références car vous utilisez un terme de
recherche trop vague, le catalogue multiplie les documents et donc
l’information n’est pas filtrée (expl : « roman », « littérature »).
- le silence : Il n’y a aucune réponse. Soit le terme choisi est trop spécifique
( expl : allégorèse) soit le sujet a été rentré tel quel dans le champ de
recherche et donc il n’a pas été pensé en langage documentaire ( expl :
« romans du VIème au XIIème siècle »).
Dans les deux cas, la recherche est inefficace, elle ne sert donc à rien.
2. Les principaux index
Un index est une liste ordonnée de mots, souvent alphabétique. Un index procède
d’une analyse de contenu des documents. Sur le catalogue e-BULCO, en
recherche avancée, les différents champs de recherche correspondent chacun à
un index.
-les index « éditeur » et « collection » servent souvent à préciser l’exemplaire
auquel vous souhaitez accéder.
-l’index « auteur (s)» : retrouve tous les auteurs présents dans le catalogue ou
la base de données qu’ils soient les auteurs des œuvres ou les critiques qui ont
travaillé sur ces œuvres. Il est simple d’utilisation, attention toutefois aux
auteurs qui ont travaillé sous pseudonyme :
Exemples. Boris Vian, Romain Gary.
L’index « auteurs » a côté du champ de recherche permet de les retrouver.
-l’index « titre » : retrouve les titres des ouvrages ou des périodiques dans le
catalogue e-BULCO et le titre des articles dans une base de données. Cet index
est simple et incontournable, mais il ne faut pas s’en contenter. En effet, le titre
ne fait guère plus que mettre en relief un ou deux termes importants et souvent
n’informe en rien sur le contenu d’un document.
Exemple : Les enfants perdus du XXème siècle, Frédéric Gaussen
-L’index « sujet » : décrit le contenu intellectuel d’un document par une liste
de termes ou « mots-clefs » appropriés. Nommé aussi « index matière »,
« mots-sujets », « lexique », « descripteur ». Ce travail d’indexation, réalisé par
des professionnels, en suivant des règles normalisées de description, a pour
objectif de faciliter la recherche documentaire afin de trouver tous les
documents portant sur un même thème, quels que soient les mots utilisés pour
exprimer ce thème.
Exercices
1. Dans le catalogue e-BULCO, quels mots-clefs pouvez vous utiliser pour une
recherche sur le romantisme en Europe ?
2. Quels mots-clefs « sujet » utiliseriez-vous pour une recherche sur la
problématique : Hugo est-il un romantique ?
3. Sur le sujet «Rimbaud et ses contemporains» quels mots-clefs pertinents
retrouvez-vous dans l’Encyclopédie Universalis et dans le catalogue ?
L’indexation consiste à identifier dans un document certains éléments
significatifs qui serviront de clef pour retrouver ce document au sein d’une
collection de bibliothèque ou de base de données. Ces principaux éléments sont :
l’auteur ou les auteurs, le titre, la date et le lieu de publication, le nom de
l’éditeur, le nombre de pages, la présence de cartes, plans, tables, illustrations
et le ou les sujets traités. L’ensemble du processus de description porte le nom
de catalogage.
L’ensemble des notices bibliographiques décrivant les documents constitue le
catalogue.
II.) Les langages documentaires
1. Un vocabulaire sous contrôle
L’indexation des sujets (ou indexation matière) des documents soulève
difficultés et controverses. D’abord le choix des termes implique une définition
de ceux-ci, or les définitions ne font pas toujours l’objet d’un accord unanime,
surtout d’un pays à l’autre ; ensuite les progrès de la connaissance risquent de
changer les rapports entre les sujets.
Dans tous les cas, le vocabulaire employé dans l’indexation sujets est un
vocabulaire contrôlé qui permet de gérer les questions de synonymie et
d’homonymie.
Exemple
Le terme « souris » désigne deux réalités distinctes : le rongeur et le
périphérique informatique. Deux entrées distinctes seront alors choisies :
-« souris »
-« souris (informatique) »
Le vocabulaire contrôlé peut aussi aider à circonscrire l’étendue conceptuelle
d’un sujet de recherche, en proposant des termes génériques, des termes
spécifiques, des termes associés et des termes rejetés.
Exemple : Sur le thème de la danse, on trouvera
Terme générique : « art du spectacle »
Termes associés : « chorégraphe », « chorégraphie », « art et tradition
populaire »
Termes spécifiques : « danse classique », « danse contemporaine », « danse
traditionnelle »
termes rejetés : « ballet », « danse profane », « tango »
Il existe deux grands types de langages documentaires qui suivent deux logiques
distinctes mais complémentaires.
2. Les langages documentaires synthétiques (logique hiérarchique)
Ils situent les différents thèmes d’un document selon une structure
arborescente, du général au spécifique. Les relations entre les termes sont
hiérarchiques. C’est le cas des classifications, comme la classification DEWEY.
La classification organise tous les domaines de la connaissance en un système
ordonné de classes et sous-classes.
3. Les langages documentaires analytiques (logique combinatoire)
Ce langage décrit les différentes composantes thématiques d’un document en
décomposant les différents concepts associés et en les combinant entre eux. On
parle alors de structure combinatoire. Ce sont principalement des thésaurus. Un
thésaurus est un lexique complet pour une discipline ou un sujet, c'est-à-dire une
liste de termes classés par sujets. On parle de « famille de notions ». Les
termes ont des liens entre eux, des synonymes et des renvois sont proposés. Ce
classement peut être automatisé (encyclopédie universalis).
On trouve cette même logique combinatoire et analytique dans les listes de mots
matières ( nommés aussi « liste d’autorités » ou liste de vedettes matière »). Le
plus célèbre est le répertoire RAMEAU .
RAMEAU (Répertoire d’autorité-matière encyclopédique et alphabétique
unifié) est le langage d’indexation sujets utilisé en France par la B.N.F., le
SUDOC, les bibliothèques universitaires et de nombreuses bibliothèques de
lecture. Dans RAMEAU, les mots clés sujets sont nommés « autorités ». Leurs
constructions sont normalisées et structurées. Ce qui a pour conséquence que de
nombreux catalogues présentent des mots clés « sujets » proches.
Accès via le portail de la BNF / collections et services / catalogues / catalogue
général / colonne de gauche Autorité RAMEAU
Exercices
4. Sur RAMEAU, Recherchez le terme « Roman »et consultez la notice d’autorité
matière. A quel grand domaine est rattaché ce terme ?
Quels mots plus précis pouvez-vous trouver ?
5 Sur RAMEAU,Consultez dans la liste des autorités les mots-clefs sur la
littérature. Voir comment ils sont structurés
Les deux systèmes (analytique et synthétique) ont chacun leurs
inconvénients :
Les classifications dispersent les documents et les sujets, selon les
disciplines et les points de vue :
- Exemple : l’or : chimie, minéralogie, bijouterie, numismatique
Les thésaurus rassemblent les sujets, mais dispersent les disciplines et les
domaines voisins :
- Exemple l’or : regroupé selon les différents points de vue, mais isolés des
autres métaux précieux
Enfin, si le système RAMEAU domine, il n’est pas présent partout, notamment
pour la documentation électronique. Certaines bases de données l’utilisent
(Généralis) mais certains moteurs de recherche de certaines bases utilisent un
algorithme (ou séquence d’instruction logique) pour localiser et quantifier une
chaîne de caractères (chaîne de lettres) dans la base. Cette chaîne de
caractères n’est pas considérée comme un mot puisqu’aucun sens ne s’y rattache.
On dit que la recherche se fait en « texte intégral ».
De nombreuses bases de données (Cairn, Persée, revues.org) définissent leur
propre index sujets et n’utilisent pas le langage documentaire RAMEAU. Il vous
faut donc adapter votre recherche aux mots-clés proposés par chacune.
Pour d’avantage d’informations sur le langage documentaire et l’indexation
consultez le site :
-http://www.sites.univ-rennes2.fr/urfist/Supports/Indexation (consulté le 21 /
10 / 12)
ou sur universalis :
-FOSKETT , Douglas, MANIEZ, Jacques. Indexation. In Encyclopédie Universalis
[en ligne] http://www.universalis-edu.com/ encyclopedie/ indexation (consulté le
21 / 10 / 12)
III. Etablir des requêtes
1. Du mot-clef…
Créer une requête de recherche revient à transformer un thème de recherche
ou une problématique en question documentaire. Pour cela, il faut tout d’abord
identifier les concepts du sujet et transformer chaque concept en langage
documentaire susceptible d’être reconnu par l’ordinateur du catalogue (mot clé
sujet). Il faut se poser la question suivante : quels thèmes sont essentiels à la
recherche ? C’est parfois très simple :
Dans la problématique « Victor Hugo est-il un romantique ? », on peut isoler deux
concepts à étudier. L’auteur, « Victor Hugo », et le mouvement littéraire
« romantisme » (et non pas l’adjectif « romantique » !)
Sur e-BULCO, on peut vérifier ses intuitions en cliquant sur « index sujets » en
recherche avancée. Cet index peut réserver de bonnes surprises :
« Hugo, Victor (1802-1885) : Et le romantisme »
ou des mauvaises sur l’imitation :
« imitation (litterature) » ou « mimesis : dans la litterature » , mais aucun ne
vous aide pour vos recherches en littérature comparée.
La difficulté pour identifier un mot-clé sujet pertinent survient quand :
1-le sujet utilise un terme vague ou générique.
« Qu’est-ce qu’un auteur ? »
« le spectateur au théâtre »
2-le sujet peut difficilement se résumer à un mot-clé.
« l’influence littéraire d’Edgar Allan Poe »
3-la question est très pointue ou très spécifique.
« la mise en abyme dans la littérature baroque »
4-la question est très générale ou peut prêter à confusion avec des autres sens
du mot.
« le tragique »
Mes conseils dans ces cas là : travaillez sur des synonymes, tentez d’utiliser
l’index sujets, regardez le renvoi à d’autres sujets quand la liste de résultats
est faible, allez questionner l’indexation RAMEAU de la BNF, regardez ce que
proposent d’autres index (généralis, universalis)
2. …A la requête
Pour écrire une requête satisfaisante :
-supprimez l’inutile, notamment les « mots grammaticaux » (articles,
conjonctions, prépositions)
-attention aux verbes qui peuvent apparaître sous différentes conjugaisons
-délimitez les éléments spatio-temporels à une période précise
-transformez les adjectifs et adverbes en noms communs
-utilisez des termes extrêmement précis et non génériques (susceptibles d’être
employé dans un autre sens que celui recherché)
- pour chercher une expression complète y mettre des guillemets pour créer une
recherche d’expression et la rechercher « plein texte »
Exemple :
Pour théâtre baroque, l’ordinateur cherche « theatre » et « baroque ». Quand on
écrit « theatre baroque », on cherche l’expression.
-évitez les termes vagues, sutout ceux qui lient les idées entre elles : « causes »,
« conséquences », « fonction »
-quand on cherche une information trop précise, tenter de trouver une surcatégorie plus large.
Exemple :
Pour la guerre de 1870 , cherchez « France, guerres »
-utilisez la troncature * (un astérisque) pour rechercher des mots de même
racine et le singulier en même temps que le pluriel.
Exemple :
Adolesc*= adolescence, adolescent ; adolescents , adolescente, adolescentes…
-liez les mots clefs associés par des opérateurs booléens. Sur e-BULCO,
lorsqu’on met l’un à côté de l’autre deux éléments de recherche, le « et » s’ajoute
par défaut. Le « et » s’emploie pour préciser une recherche, le « ou » pour
l’élargir, le « sauf » pour exclure. Attention certaines bases n’admettent que des
opérateurs booléens anglais (factiva).
Exercices
6. Les requêtes de ces sujets sont mal écrites. Identifiez les problèmes
réécrire la requète pour améliorer les recherches sur catalogue e-bulco :
et
-La littérature chevaleresque du XIIIème siècle est-elle une remise en
cause de l’idéal chevaleresque ?
- Baudelaire et les voyages
7. Quels mots-clefs sujets et quelles requêtes établiriez-vous pour les thèmes
de recherche suivants :
-Paris dans l’œuvre d’Emile Zola
-l’écriture d’Emile Zola , -Emile Zola et les peintres

Documents pareils