TD 6 : Principes d` indexation et mots clefs - e
Transcription
TD 6 : Principes d` indexation et mots clefs - e
Méthodologie documentaire TD3 : Principes d’ indexation et mots-clefs de recherche documentaire Introduction La méthodologie documentaire c’est une boucle de recherche permettant de trouver l’information. L’objectif est de pouvoir mener efficacement un travail de recherche documentaire. Votre recherche documentaire pour être efficace, efficiente et exhaustive doit être systématique et méthodologique ; c’est un travail étape par étape, partant du sens pour retourner au sens (boucle de recherche). D’ou l’importance des termes employés comme clefs de recherche. Bibliographie votre sujet, analyse des concepts Produire du sens Problématique, Thèmes de recherche Constuire question documentaire (mots-clefs) Affiner, Ajuster Utiliser les outils, Accéder aux ressources Evaluer, Critiquer la La première étape consiste à -délimiter le contexte (thématique, historique, disciplinaire) -repérer les notions importantes et en clarifier le sens (sens, synonymes, notions associées) : TD 2 -trouver la problématique de la recherche : TD 2 Vous avez ainsi fait émerger des termes essentiels qui pourront servir pour vos recherches. Il faut maintenant effectuer un dernier travail avant de trouver les documents : faire émerger les mots-clefs. I. L’indexation Que vous travailliez à partir du catalogue e-BULCO, du catalogue du SUDOC, d’une base de donnée généraliste ou spécialisée, d’une encyclopédie en ligne (etc), il ne vous sera pas possible de chercher le document à partir des concepts que vous avez fait émerger. En effet, sur tous ces supports, les documents sont classés, répertoriés, on dit qu’ils sont indexés. L’indexation des documents dans un catalogue ou une base de données à pour conséquence directe qu’il n’est pas possible d’utiliser n’importe quel mot pour retrouver le document car l’indexation associe à un document un certain nombre de termes (ou mots-clefs) et limite le chemin d’accès au document à ces seuls termes. Pour ne rien faciliter, chaque catalogue ou base à sa propre indexation 1. Le Bruit et le silence Il vous faudra donc trouver un mot-clef pertinent pour trouver des documents, c'est-à-dire correspondant à un mot utilisé pour décrire le document. C’est difficile car il faut penser le document avant de le trouver. Si vous n’effectuez pas ce travail, vous risquez de vous heurter à deux écueils : - le bruit : Il y a trop de références car vous utilisez un terme de recherche trop vague, le catalogue multiplie les documents et donc l’information n’est pas filtrée (expl : « roman », « littérature »). - le silence : Il n’y a aucune réponse. Soit le terme choisi est trop spécifique ( expl : allégorèse) soit le sujet a été rentré tel quel dans le champ de recherche et donc il n’a pas été pensé en langage documentaire ( expl : « romans du VIème au XIIème siècle »). Dans les deux cas, la recherche est inefficace, elle ne sert donc à rien. 2. Les principaux index Un index est une liste ordonnée de mots, souvent alphabétique. Un index procède d’une analyse de contenu des documents. Sur le catalogue e-BULCO, en recherche avancée, les différents champs de recherche correspondent chacun à un index. -les index « éditeur » et « collection » servent souvent à préciser l’exemplaire auquel vous souhaitez accéder. -l’index « auteur (s)» : retrouve tous les auteurs présents dans le catalogue ou la base de données qu’ils soient les auteurs des œuvres ou les critiques qui ont travaillé sur ces œuvres. Il est simple d’utilisation, attention toutefois aux auteurs qui ont travaillé sous pseudonyme : Exemples. Boris Vian, Romain Gary. L’index « auteurs » a côté du champ de recherche permet de les retrouver. -l’index « titre » : retrouve les titres des ouvrages ou des périodiques dans le catalogue e-BULCO et le titre des articles dans une base de données. Cet index est simple et incontournable, mais il ne faut pas s’en contenter. En effet, le titre ne fait guère plus que mettre en relief un ou deux termes importants et souvent n’informe en rien sur le contenu d’un document. Exemple : Les enfants perdus du XXème siècle, Frédéric Gaussen -L’index « sujet » : décrit le contenu intellectuel d’un document par une liste de termes ou « mots-clefs » appropriés. Nommé aussi « index matière », « mots-sujets », « lexique », « descripteur ». Ce travail d’indexation, réalisé par des professionnels, en suivant des règles normalisées de description, a pour objectif de faciliter la recherche documentaire afin de trouver tous les documents portant sur un même thème, quels que soient les mots utilisés pour exprimer ce thème. Exercices 1. Dans le catalogue e-BULCO, quels mots-clefs pouvez vous utiliser pour une recherche sur le romantisme en Europe ? 2. Quels mots-clefs « sujet » utiliseriez-vous pour une recherche sur la problématique : Hugo est-il un romantique ? 3. Sur le sujet «Rimbaud et ses contemporains» quels mots-clefs pertinents retrouvez-vous dans l’Encyclopédie Universalis et dans le catalogue ? L’indexation consiste à identifier dans un document certains éléments significatifs qui serviront de clef pour retrouver ce document au sein d’une collection de bibliothèque ou de base de données. Ces principaux éléments sont : l’auteur ou les auteurs, le titre, la date et le lieu de publication, le nom de l’éditeur, le nombre de pages, la présence de cartes, plans, tables, illustrations et le ou les sujets traités. L’ensemble du processus de description porte le nom de catalogage. L’ensemble des notices bibliographiques décrivant les documents constitue le catalogue. II.) Les langages documentaires 1. Un vocabulaire sous contrôle L’indexation des sujets (ou indexation matière) des documents soulève difficultés et controverses. D’abord le choix des termes implique une définition de ceux-ci, or les définitions ne font pas toujours l’objet d’un accord unanime, surtout d’un pays à l’autre ; ensuite les progrès de la connaissance risquent de changer les rapports entre les sujets. Dans tous les cas, le vocabulaire employé dans l’indexation sujets est un vocabulaire contrôlé qui permet de gérer les questions de synonymie et d’homonymie. Exemple Le terme « souris » désigne deux réalités distinctes : le rongeur et le périphérique informatique. Deux entrées distinctes seront alors choisies : -« souris » -« souris (informatique) » Le vocabulaire contrôlé peut aussi aider à circonscrire l’étendue conceptuelle d’un sujet de recherche, en proposant des termes génériques, des termes spécifiques, des termes associés et des termes rejetés. Exemple : Sur le thème de la danse, on trouvera Terme générique : « art du spectacle » Termes associés : « chorégraphe », « chorégraphie », « art et tradition populaire » Termes spécifiques : « danse classique », « danse contemporaine », « danse traditionnelle » termes rejetés : « ballet », « danse profane », « tango » Il existe deux grands types de langages documentaires qui suivent deux logiques distinctes mais complémentaires. 2. Les langages documentaires synthétiques (logique hiérarchique) Ils situent les différents thèmes d’un document selon une structure arborescente, du général au spécifique. Les relations entre les termes sont hiérarchiques. C’est le cas des classifications, comme la classification DEWEY. La classification organise tous les domaines de la connaissance en un système ordonné de classes et sous-classes. 3. Les langages documentaires analytiques (logique combinatoire) Ce langage décrit les différentes composantes thématiques d’un document en décomposant les différents concepts associés et en les combinant entre eux. On parle alors de structure combinatoire. Ce sont principalement des thésaurus. Un thésaurus est un lexique complet pour une discipline ou un sujet, c'est-à-dire une liste de termes classés par sujets. On parle de « famille de notions ». Les termes ont des liens entre eux, des synonymes et des renvois sont proposés. Ce classement peut être automatisé (encyclopédie universalis). On trouve cette même logique combinatoire et analytique dans les listes de mots matières ( nommés aussi « liste d’autorités » ou liste de vedettes matière »). Le plus célèbre est le répertoire RAMEAU . RAMEAU (Répertoire d’autorité-matière encyclopédique et alphabétique unifié) est le langage d’indexation sujets utilisé en France par la B.N.F., le SUDOC, les bibliothèques universitaires et de nombreuses bibliothèques de lecture. Dans RAMEAU, les mots clés sujets sont nommés « autorités ». Leurs constructions sont normalisées et structurées. Ce qui a pour conséquence que de nombreux catalogues présentent des mots clés « sujets » proches. Accès via le portail de la BNF / collections et services / catalogues / catalogue général / colonne de gauche Autorité RAMEAU Exercices 4. Sur RAMEAU, Recherchez le terme « Roman »et consultez la notice d’autorité matière. A quel grand domaine est rattaché ce terme ? Quels mots plus précis pouvez-vous trouver ? 5 Sur RAMEAU,Consultez dans la liste des autorités les mots-clefs sur la littérature. Voir comment ils sont structurés Les deux systèmes (analytique et synthétique) ont chacun leurs inconvénients : Les classifications dispersent les documents et les sujets, selon les disciplines et les points de vue : - Exemple : l’or : chimie, minéralogie, bijouterie, numismatique Les thésaurus rassemblent les sujets, mais dispersent les disciplines et les domaines voisins : - Exemple l’or : regroupé selon les différents points de vue, mais isolés des autres métaux précieux Enfin, si le système RAMEAU domine, il n’est pas présent partout, notamment pour la documentation électronique. Certaines bases de données l’utilisent (Généralis) mais certains moteurs de recherche de certaines bases utilisent un algorithme (ou séquence d’instruction logique) pour localiser et quantifier une chaîne de caractères (chaîne de lettres) dans la base. Cette chaîne de caractères n’est pas considérée comme un mot puisqu’aucun sens ne s’y rattache. On dit que la recherche se fait en « texte intégral ». De nombreuses bases de données (Cairn, Persée, revues.org) définissent leur propre index sujets et n’utilisent pas le langage documentaire RAMEAU. Il vous faut donc adapter votre recherche aux mots-clés proposés par chacune. Pour d’avantage d’informations sur le langage documentaire et l’indexation consultez le site : -http://www.sites.univ-rennes2.fr/urfist/Supports/Indexation (consulté le 21 / 10 / 12) ou sur universalis : -FOSKETT , Douglas, MANIEZ, Jacques. Indexation. In Encyclopédie Universalis [en ligne] http://www.universalis-edu.com/ encyclopedie/ indexation (consulté le 21 / 10 / 12) III. Etablir des requêtes 1. Du mot-clef… Créer une requête de recherche revient à transformer un thème de recherche ou une problématique en question documentaire. Pour cela, il faut tout d’abord identifier les concepts du sujet et transformer chaque concept en langage documentaire susceptible d’être reconnu par l’ordinateur du catalogue (mot clé sujet). Il faut se poser la question suivante : quels thèmes sont essentiels à la recherche ? C’est parfois très simple : Dans la problématique « Victor Hugo est-il un romantique ? », on peut isoler deux concepts à étudier. L’auteur, « Victor Hugo », et le mouvement littéraire « romantisme » (et non pas l’adjectif « romantique » !) Sur e-BULCO, on peut vérifier ses intuitions en cliquant sur « index sujets » en recherche avancée. Cet index peut réserver de bonnes surprises : « Hugo, Victor (1802-1885) : Et le romantisme » ou des mauvaises sur l’imitation : « imitation (litterature) » ou « mimesis : dans la litterature » , mais aucun ne vous aide pour vos recherches en littérature comparée. La difficulté pour identifier un mot-clé sujet pertinent survient quand : 1-le sujet utilise un terme vague ou générique. « Qu’est-ce qu’un auteur ? » « le spectateur au théâtre » 2-le sujet peut difficilement se résumer à un mot-clé. « l’influence littéraire d’Edgar Allan Poe » 3-la question est très pointue ou très spécifique. « la mise en abyme dans la littérature baroque » 4-la question est très générale ou peut prêter à confusion avec des autres sens du mot. « le tragique » Mes conseils dans ces cas là : travaillez sur des synonymes, tentez d’utiliser l’index sujets, regardez le renvoi à d’autres sujets quand la liste de résultats est faible, allez questionner l’indexation RAMEAU de la BNF, regardez ce que proposent d’autres index (généralis, universalis) 2. …A la requête Pour écrire une requête satisfaisante : -supprimez l’inutile, notamment les « mots grammaticaux » (articles, conjonctions, prépositions) -attention aux verbes qui peuvent apparaître sous différentes conjugaisons -délimitez les éléments spatio-temporels à une période précise -transformez les adjectifs et adverbes en noms communs -utilisez des termes extrêmement précis et non génériques (susceptibles d’être employé dans un autre sens que celui recherché) - pour chercher une expression complète y mettre des guillemets pour créer une recherche d’expression et la rechercher « plein texte » Exemple : Pour théâtre baroque, l’ordinateur cherche « theatre » et « baroque ». Quand on écrit « theatre baroque », on cherche l’expression. -évitez les termes vagues, sutout ceux qui lient les idées entre elles : « causes », « conséquences », « fonction » -quand on cherche une information trop précise, tenter de trouver une surcatégorie plus large. Exemple : Pour la guerre de 1870 , cherchez « France, guerres » -utilisez la troncature * (un astérisque) pour rechercher des mots de même racine et le singulier en même temps que le pluriel. Exemple : Adolesc*= adolescence, adolescent ; adolescents , adolescente, adolescentes… -liez les mots clefs associés par des opérateurs booléens. Sur e-BULCO, lorsqu’on met l’un à côté de l’autre deux éléments de recherche, le « et » s’ajoute par défaut. Le « et » s’emploie pour préciser une recherche, le « ou » pour l’élargir, le « sauf » pour exclure. Attention certaines bases n’admettent que des opérateurs booléens anglais (factiva). Exercices 6. Les requêtes de ces sujets sont mal écrites. Identifiez les problèmes réécrire la requète pour améliorer les recherches sur catalogue e-bulco : et -La littérature chevaleresque du XIIIème siècle est-elle une remise en cause de l’idéal chevaleresque ? - Baudelaire et les voyages 7. Quels mots-clefs sujets et quelles requêtes établiriez-vous pour les thèmes de recherche suivants : -Paris dans l’œuvre d’Emile Zola -l’écriture d’Emile Zola , -Emile Zola et les peintres