Indexation

Transcription

Indexation
indexation : module de formation 98 .... indexation : module de formation 98 .... indexation : module de formation 98.....
Traitement des fonds de Laboratoires :
Indexation
Principes
Hanka Hensens
Orstom Montpellier
Centre de Documentation
Avril 1998
indexation : module de formation 98 .... indexation : module de formation 98 .... indexation : module de formation 98.....
SOMMAIRE
L’ANALYSE DOCUMENTAIRE, qu’est-ce que c’est ? . . . . . . . . . . . . . . . . . . . . . . . . 4
Indexation, mots clés, descripteurs, vedettes matière,.... . . . . . . . . . . . . . . . . . . . . . . 5
Classification et classement. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
Résumés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
LES OUTILS à utiliser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
Vocabulaire ou langage contrôlé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Thésaurus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Abréviations normalisées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
Index (alphabétiques, permutés,...) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Plans de classement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
L’INDEXATION, mode d’emploi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Bruit et silence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Quelques règles à respecter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Méthodologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
ANNEXES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2
indexation : module de formation 98 .... indexation : module de formation 98 .... indexation : module de formation 98.....
L’ANALYSE DOCUMENTAIRE,
QU’EST-CE QUE C’EST ?
Quelques définitions
3
indexation : module de formation 98 .... indexation : module de formation 98 .... indexation : module de formation 98.....
ANALYSE DOCUMENTAIRE (content analysis)
C’est le traitement intellectuel du document : il s’agit de décrire et de caractériser le
contenu d’un document (contrairement au catalogage qui décrit sa forme).
Il s’agit de répondre à la question "De quoi traite ce document ?" en :
♦repérant dans le document les éléments d’information essentiels (ceux pour
lesquels ce document pourra être recherché par des lecteurs)
♦les "traduisant", sous une forme concise et précise, en données
conventionnelles : mots clés (indexation), code de classement (classification) ou
résumé.
Il est nécessaire pour cela :
♦ d’appréhender le contenu total du document
♦ de bien maîtriser le sujet du document ou avoir recours à des dictionnaires, ou à
des personnes-ressources (auteur ou spécialiste)
♦ de recourir à des outils de "cadrage" de la traduction, pour éviter les problèmes
inhérents au langage naturel (polysémie, synonymie, mots de la même famille,
masculin/féminin, singulier/pluriel,...) cf. § Outils
♦ de se relire et contrôler régulièrement les champs de l’analyse documentaire
Ne jamais perdre de vue le but de l’analyse documentaire : retrouver le document
lors d’une recherche documentaire, parmi les réponses pertinentes à une question.
4
indexation : module de formation 98 .... indexation : module de formation 98 .... indexation : module de formation 98.....
INDEXATION ET RECHERCHE DOCUMENTAIRE
5
indexation : module de formation 98 .... indexation : module de formation 98 .... indexation : module de formation 98.....
INDEXATION (indexing)
Ce type d’analyse conduit à la transcription du contenu d’un document en mot clés,
descripteurs ou vedettes matière,... issus du langage naturel ou d’un langage ou
vocabulaire contrôlé.
L’indexation peut être de trois niveaux (elle doit alors donner lieu à trois champs) : un
niveau général (du type classification), qui replace le document dans un des secteurs de
la connaissance, un "niveau du document" et un niveau de précision, où, selon les besoins
de la base de données considérée, sont détaillés les espèces, techniques, localités,...
L’indexation géographique est un cas particulier de l’indexation matière. Elle peut
être dissociée ou fusionnée dans les mêmes champs que ceux de l’indexation matière.
L’indexation peut être automatique : elle est alors le résultat du traitement par un
programme du texte intégral, soit en versant directement dans un index tous les mots ou
groupes de mots significatifs du texte, après en avoir éliminé les mots vides, soit en
analysant ces différents mots ou groupes de mots, pour gérer les problèmes
grammaticaux et sémantiques du langage naturel (ce dernier type de logiciel est encore
expérimental, et hors de prix pour de petites structures).
MOT CLE (keyword)
Mot ou groupe de mots choisi en vu de représenter le contenu d’un document, et de le
retrouver lors d’une recherche documentaire. Il peut être issu du document (titre, texte,
résumé,...) ou d’un vocabulaire contrôlé.
DESCRIPTEUR (descriptor)
Mot clé choisi parmi un ensemble de termes équivalents pour représenter sans ambiguïté
un concept. Il fait en général partie d’un vocabulaire organisé et hiérarchisé de type
"thésaurus".
VEDETTE MATIERE (subject heading)
Mot clé général utilisé en bibliothèque pour caractériser le contenu d’un document et pour
classer sa référence bibliographique (chaque document n’est caractérisé que par un très
faible nombre de vedette matière).
6
indexation : module de formation 98 .... indexation : module de formation 98 .... indexation : module de formation 98.....
CLASSIFICATION
Il s’agit du niveau le plus général de l’analyse documentaire, qui sera précisé ensuite
par les mots clés. Il consiste à "classer" le document dans une des classes ou sousclasses d’un plan de classement ou table de classification c’est à dire dans un des
domaines de la connaissance.
Les classes et sous-classes, reliées hiérarchiquement entre
généralement codée numériquement ou alpha-numériquement.
elles,
sont
Un document ne peut faire partie que d’une section (celle dont il traite principalement)
d’un ou de deux domaines de la connaissance (à l’extrême rigueur trois).
La classification permet d’effectuer des recherche dans un domaine très large de la
connaissance, à restreindre ensuite géographiquement ou par date, auteur,... Elle permet
aussi d’éliminer les documents non pertinents en cas de synonymie.
Elle peut permettre également de classer physiquement le document , en ajoutant, à la
suite du code alphanumérique les 3 lettres du nom du 1er auteur (ou à défaut, de l’auteur
moral, s’il y en a un, ou du titre). Il faut savoir que ce classement thématique, lié, le plus
souvent, à l’accès libre aux documents par les lecteurs, est très gourmand est capacité de
stockage.
Elle permet enfin l’édition de bibliographies classées thématiquement (exemple :
Bulletin Horizon)
7
indexation : module de formation 98 .... indexation : module de formation 98 .... indexation : module de formation 98.....
RESUME (abstract)
Présentation plus ou moins abrégée du contenu d’un document, en langage naturel.
Il ne comprend ni tableau, ni diagramme, ni formule compliquée, ni abréviations ou
symboles non communément admis.
Le résumé sert à retrouver le document via le versement dans un index
d’interrogation de tous ses mots significatifs. Il peut ainsi pallier à la rigidité des
langages contrôlés (apparition de nouveaux mots ou expressions, utilisation de termes
plus fins, ...), quand la recherche par descripteur ne donne pas de résultats.
Il sert surtout au lecteur à effectuer un tri parmi les références obtenues suite à une
question, en lui donnant une idée plus précise du contenu, sans qu’il ait besoin de
recourir au document lui-même.
Résumer nécessite une connaissance exhaustive du contenu du document, donc une
lecture attentive longue. Le processus de synthèse et de reformulation demande
également du temps... C’est donc un luxe que la plupart des services ne peuvent se
permettre. Reprendre les résumés d’auteur, quand ils existent, peut être un pis aller.
Grâce aux progrès de la scannerisation et de la reconnaissance de caractère, ainsi qu’à la
vulgarisation des logiciels d’indexation et de recherche, le texte intégral vient
concurrencer désormais le résumé.
Il existe plusieurs types de résumés selon leur longueur, leur style et leur subjectivité :
RESUME INDICATIF (indicative abstract)
Il fait moins de 100 mots.
Il signale le ou les thèmes du document.
Il est utilisé en particulier pour les documents trop courts (abstract), trop détaillé (thèse,...)
ou impropre au résumé informatif (synthèse bibliographique, dictionnaire,...)
Son style peut être télégraphique.
RESUME INFORMATIF (informative abstract)
Il fait plus de 100 mots (mais ne doit pas excéder 250).
Il renseigne sur les informations quantitatives et qualitatives essentielles contenues dans
le document.
Les informations sont présentés dans l’ordre du document, mais leur importance relative
peut différer de celle du document (les informations originales étant bien sur plus
développées)
RESUME SELECTIF (selective abstract)
Ce résumé ne retient du document que les éléments nécessaires à une catégorie
particulière d’utilisateurs (ceux du centre de documentation, ou de la base).
8
indexation : module de formation 98 .... indexation : module de formation 98 .... indexation : module de formation 98.....
RESUME CRITIQUE (critical abstract)
Il s’agit d’un résumé descriptif (cf ci-dessus), assorti d’une critique originale du document.
Il ne peut être rédigé que par un spécialiste de la question.
La technique du résumé est particulière. Elle est enseignée dans un nombre considérable
de manuels. Elle ne sera pas abordée dans ce module, mais pourrait faire l’objet d’un
cours si le besoin s’en faisait sentir.
9
indexation : module de formation 98 .... indexation : module de formation 98 .... indexation : module de formation 98.....
LES OUTILS
A UTILISER
10
indexation : module de formation 98 .... indexation : module de formation 98 .... indexation : module de formation 98.....
NB : Ces outils sont extrêmement difficile et long à créer.
Il est donc recommandé de rechercher ceux qui existent dans son domaine (auprès des
documentalistes des grands organismes du domaine, des associations et écoles de
documentalistes,...), et d’en choisir un, à l’aide de spécialistes du domaine, quitte à
l’adapter un peu.
11
indexation : module de formation 98 .... indexation : module de formation 98 .... indexation : module de formation 98.....
LANGAGES CONTROLES (controlled language)
LANGAGES DOCUMENTAIRES (indexing language)
VOCABULAIRE (vocabulary)
LISTE D’AUTORITE
Il s’agit d’une liste alphabétique de termes (mots ou groupes de mots), reliés ou non
entre eux.
Une partie de ceux-ci sont choisis pour l’indexation et la recherche documentaires
en appliquant un certain nombre de règles (cf § indexation, mode d’emploi). Les autres
(les termes rejetés) font l’objet de renvois d’équivalence (cf Abréviations
normalisées).
Les deux catégories sont différenciés typographiquement.
Un mode d’emploi du langage accompagne généralement la liste de mots clés.
Il existe des listes d’autorité universelles :
exemples : Répertoires des vedettes matières de la Bibliothèque de l’Université Laval à
Québec, Liste de la Bibliothèque du Congrès à Washington, et, dans une moindre mesure,
Vocabulaire Horizon de l’Orstom
et des listes spécialisées, plus adaptées à des fonds spécialisés car plus détaillées.
12
indexation : module de formation 98 .... indexation : module de formation 98 .... indexation : module de formation 98.....
THESAURUS (mot latin signifiant recueil ou répertoire)
Dictionnaire hiérarchisé, en général spécialisé, destiné à indexer et retrouver les
documents de façon univoque : chaque terme représente un concept et un seul, on
a normalisé l’orthographe des mots et éliminés les difficultés sémantiques.
Les relations entre les descripteurs peuvent être de plusieurs type : d’équivalence,
hiérarchiques, associatives (les plus floues mais pas les moins intéressantes pour
l’indexeur). Elles sont représentées par des signes conventionnels (cf Abréviations
normalisées).
Les thésaurus peuvent être monolingues ou multilingues.
Les thésaurus peuvent être pré ou post-coordonnés : dans le premier cas, les notions
complexes sont représentées dans le thésaurus sous la forme d’expressions du type
"ELEVAGE BOVIN"; dans le second, la notion complexe résultera de la juxtaposition de
notions simples "ELEVAGE" et "BOVIN"
Les thésaurus peuvent être géographiques (exemple : celui d’Ibiscus) ou thématiques
(exemple : AGRIS (FAO) pour l’Agronomie, Delphes (CCI) pour l’économie, BIPA
(Documentation française), pour l’Actualité et la Politique,...)
Ils peuvent être plus ou moins spécialisés : on les appelle alors quelquefois macrothésaurus (par exemple celui de l’OCDE) et mini-thésaurus.
Les thésaurus peuvent être complétés par des index, des index permutés, des schémas
fléchés (exemple : IBISCUS).
13
indexation : module de formation 98 .... indexation : module de formation 98 .... indexation : module de formation 98.....
ABREVIATIONS NORMALISEES :
Abréviations
NA
Relations synonymiques,
préférentielles ou
d’équivalence :
EP
UF
EM
E
V
USE
Relations associatives ou
de voisinage :
VA
TA
RT
Relations hiérarchiques
ou partitives :
TG
BT
TS
NT
Signification
note d’application ou note explicative :
paragraphe précisant l’utilisation du terme
en cas d’ambiguïté, de polysémie (mot ou
groupe de mot possédant plusieurs sens)
permet d’éliminer tous les synonymes
(mots de même sens ou de sens très
proche) du terme retenu
employé pour ...et...(suit un terme retenu,
est suivi des termes rejetés)
used for
employer (suit un terme rejeté, est suivi du
terme retenu)
voir
permet d’établir des relations entre
domaines, et de signaler à l’indexeur
d’autres pistes d’indexation
voir aussi
terme associé
related term
permet d’indexer au niveau réel du
document
terme générique (=notion plus générale) :
les niveaux de hiérarchie peuvent être
multiples (TG1, TG2, )
broader term
terme spécifique (=notion plus précise) :
les niveaux de hiérarchie peuvent être
multiples (TS1, TS2, )
narrow term
14
Symboles
[...] ou **...
=...
=...+... ou
=...&...
->... ou =>...
-
<
>
indexation : module de formation 98 .... indexation : module de formation 98 .... indexation : module de formation 98.....
INDEX
FICHIER INVERSE
Liste alphabétique de termes (ici de mots clés) réalisé par un logiciel précisant leur
nombre d’occurrences et leur localisation.
Les index servent surtout à accélérer la recherche de mots dans un ou plusieurs champs
de la base de donnée.
Si on les édite régulièrement, ils peuvent également servir d’ersatz de langage contrôlé,
et permettre l’auto-correction de l’indexation (détection des fautes de frappe, des
synonymes, des mots de la même famille,...
INDEX PERMUTE (permuted index)
Il s’agit d’index dans lequel chaque terme fait l’objet d’une entrée.
Il peut être d’une grande aide à l’indexeur, qui se voit proposer certains descripteurs
auxquels il n’aurait peut-être pas pensé.
Exemple : "Télévision à haute définition" se retrouvera à :
T
Télévision à haute définition
H
Télévision à Haute définition
D
Télévision à haute Définition
15
indexation : module de formation 98 .... indexation : module de formation 98 .... indexation : module de formation 98.....
PLAN DE CLASSEMENT
TABLE DE CLASSIFICATION (classification table)
Représentation structurée des concepts d’un ou plusieurs domaines de la
connaissance en classes, divisions et subdivision organisées hiérarchiquement.
Ces concepts sont représentés grâce à un système de notation, par des indices
numériques ou alphanumériques.
Exemple : Dans la Classification Décimale Dewey :
• 600 est la classe Techniques
• 610 sa division
Médecine
• 613 sa subdivision Hygiène
• 613.2 son extension
Diététique
• 613.25
"
Régimes alimentaires
La table numérique principale est souvent complétée par un index alphabétique, ainsi que
par des tables auxiliaires (subdivisions communes).
Il existe des classifications encyclopédiques, qui portent sur l’ensemble des
connaissances. Les plus connues, en particulier dans les bibliothèques de lecture
publique où elles servent au classement des documents en accès libre, sont :
♦ la Classification Décimale Dewey, du nom du bibliothécaire américain qui l’établit
en 1876
♦ la Classification Décimales Universelle (CDU), créée en 1905 par l’Institut
International de Bibliographie, à partir de la Classification Dewey
Le plan de classement d’Horizon est de ce type.
Il existe également des classifications spécialisées, plus adaptées aux centres de
documentation spécialisés.
exemples : classification des sciences du sol de Vickery, classification forestière d’Oxford,
classification médicale et vétérinaire de Barnard (OMS), classification géologique du
BRGM, classification économique et statistique de l’INSEE, ...
L’utilisation de classification se justifie surtout dans les bibliothèques encyclopédiques, où
elle sert également au classement des documents.
Leur lourdeur rend difficile leur mise à jour.
Toutefois, elle complète utilement l’indexation précise, par un niveau synthétique qui peut
permettre de répondre à certaines questions ou réaliser certains produits, et qui devra être
remplacé par un descripteur "général" si on n’utilise pas cet outil.
16
indexation : module de formation 98 .... indexation : module de formation 98 .... indexation : module de formation 98.....
INDEXATION
MODE D’EMPLOI
17
indexation : module de formation 98 .... indexation : module de formation 98 .... indexation : module de formation 98.....
BRUIT ET SILENCE
L’Indexation a pour but de retrouver le document lors d’une recherche documentaire
thématique pertinente, qui évite au maximum les deux écueils du bruit et du silence.
Le silence, documentairement parlant, c’est l’ensemble des documents non pertinents
non affichés lors d’une recherche documentaire.
C’est le plus grave des problèmes car il est indétectable pour celui qui interroge qui peut
croire qu’il a en main toutes les réponses.
Il peut être causé par une indexation automatique, une indexation trop pointue, des
fautes de frappe ou l’emploi de synonymes (par exemple, programme, logiciel,
application informatique employés alternativement dans différentes références) ou de
plusieurs mots de la même famille.
Il peut être combattu, lors de l’interrogation, par la combinaison, par "OU" ("OR"), de
nombreux synonymes ou par l’emploi de thèmes plus généraux, ou de chapitres du plan
de classement.
Le bruit documentaire (noise), c’est l’ensemble des documents non-pertinents
affichés suite à une recherche documentaire.
On a coutume de dire qu’en documentation, le bruit vaut mieux que le silence, puisque
l’utilisateur peut ensuite trier parmi les réponses obtenues celles qui l’intéressent.
Cependant, le bruit peut être un facteur de découragement pour les utilisateurs
occasionnels.
Il peut être dû à une indexation automatique, à une indexation humaine trop
détaillée (surindexation), ou à l’emploi de descripteurs polysémiques (par exemple :
avocat, pour traiter du fruit et de la profession), trop flous ou trop généraux.
Notons que la polysémie, gênante dans une base encyclopédique, l’est beaucoup moins
dans une base clairement spécialisée.
Comme le silence, il peut être contré, lors de l’interrogation, par la réduction de l’ensemble
des réponse par "ET" ("AND") ou "SAUF" ("NOT"), ou des opérateurs de proximité
("NEAR")
D’une façon générale, les meilleurs remèdes au bruit comme au silence sont, lors
de l’indexation, le choix de descripteurs du niveau de spécialisation du document et
de la base de donnée, et par l’utilisation, lors de l’indexation ET de l’interrogation
des outils énumérés au chapitre précédent.
A défaut d’outils complexes, l’utilisation régulière d’index, et le respect de quelques règles
simples sont indispensables.
18
indexation : module de formation 98 .... indexation : module de formation 98 .... indexation : module de formation 98.....
QUELQUES REGLES A RESPECTER
Pour indexer "au niveau du document", on considère qu’il faut utiliser en général entre 5
et 10 mots clés, d’un niveau de spécialisation cohérent avec le reste de la base.
Toutefois, dans l’indexation documentaire (contrairement à celle pratiquée en
bibliothèque), on vise l’exhaustivité et la précision : le nombre de descripteurs peut varier
considérablement selon le nombre de concepts contenus dans le document (de 2 à 20 !).
Pour éviter les problèmes liés aux accents et au "ç", on indexera en majuscules.
Les mots clés seront les mots les plus simples d’une famille (éviter les préfixes et
terminaisons), ou des groupes de mots ou des expressions toutes faites représentant des
concepts simples.
Ils seront de préférences des noms (plutôt que des adjectifs, verbes, adverbes).
Si possible, ils seront au singulier plutôt qu’au pluriel. Toutefois le pluriel est parfois
nécessaire : notions concrètes par opposition au singulier abstrait (ECHECS et ECHEC),
expressions consacrées par l’usage (ARTS MARTIAUX), classification zoologique ou
botanique (RENONCULACEES)
Sauf nécessité, ils seront au masculin plutôt qu’au féminin.
Ils ne seront pas précédés d’articles.
On n’utilisera les noms communs étrangers que s’ils n’ont pas de traduction
française.
S’il s’agit d’un groupe de mots, mettre en premier le mot le plus important (qui pourrait
être interrogé seul, suivi d’une troncature) précisé par les mots suivants,
éventuellement rejetés artificiellement (exemple : AMAZONE BASSIN VERSANT
SUPERIEUR).
Les sigles et acronymes sont à éviter sauf s’ils sont universellement connus et plus
utilisés que leurs développés.
Pour les noms de personne, on respectera l’ordre NOM PRENOM et on utilisera la
forme française, si elle existe.
Pour les noms de lieu, on décidera au départ si on privilégie dans la base les formes
françaises ou nationales (pour les noms de pays choisir la forme française
normalisée). Les noms de lieu seront précisés en cas d’homonymie (NIGER FLEUVE et
NIGER (pays))
Les collectivités se notent généralement en langue originale, sauf les collectivités
internationales, si la forme française de leur nom existe.
19
indexation : module de formation 98 .... indexation : module de formation 98 .... indexation : module de formation 98.....
Les dates et périodes seront notées si possible en chiffres arabes (1800-1899 plutôt
que XIXeme siècle; dans le cas d’une étude la date de fin est la date de parution à défaut
d’autres éléments dans le texte), afin de permettre l’interrogation informatique numérique
par >, <, =.
Toutefois les concepts historiques généraux être retenus (PREHISTOIRE, ANTIQUITE,
MOYEN AGE, RENAISSANCE, ...).
Quoique la recherche se fasse informatiquement sur une suite de caractère quelle que
soit sa position dans le champ, l’ordre des mots clés doit rester significatif pour aider à
l’identification du contenu du document et permettre la sélection, surtout en l’absence de
résumé :
♦ les premiers mots donneront le(s) sujet(s) principal(aux) du document;
♦ les précisions, les mots outils ou caractérisant la forme (ANNUAIRE, ATLAS )
seront rejetés en fin de liste;
♦ deux mots proches seront lus comme étant en relation plus étroite que deux
mots éloignés
20
indexation : module de formation 98 .... indexation : module de formation 98 .... indexation : module de formation 98.....
METHODOLOGIE
Pour appréhender la totalité du document sans en faire une lecture intégrale, il est
indispensable de lire, éventuellement en prenant les concepts explicités ou sous-entendus
en note :
♦ les titres et sous-titres
♦ les introductions et conclusions
♦ le sommaire
♦ les titres des illustrations (graphiques et tableaux)
♦ le résumé et la prière d’insérer s’ils existent
Il faut ensuite fermer le document, éloigner ses notes et tenter d’avoir une vision globale
du document en répondant en quelques mots aux questions :
♦ "De quoi traite ce document ?"
♦ "A quelles questions donnera-t-il une réponse pertinente ?"
mais aussi :
♦ "Qu’est-ce qui le différencie des autres documents de la base?"
♦ "Quels sont ses points communs avec certains d’entre eux ?"
(d’où la nécessité d’une bonne connaissance de la base),
et encore :
♦ "En quoi peut-il intéresser les lecteurs ?"
(d’où la nécessité de bien connaître les besoins des utilisateurs en étant
régulièrement confronté aux questions posées par ceux-ci)
Pour identifier tous les concepts, en éliminant les quasi-synonymes, on peut tenter
de remplir une grille propre à chaque discipline (exemple : but/ méthodologie/
résultats/ conclusion, pour un article scientifique; maladie/ médicament /mode
d’administration/ résultat/ effets secondaires, pour un document de thérapeutique, ).
On doit chercher à retrouver les trois niveaux de l’indexation : le niveau générique
(de la classification), le niveau spécifique (de l’index), et le niveau très spécifique
(précisions).
Tous les concepts identifiés ne doivent pas être forcément retenus : on doit toujours
garder en tête le rapport du document avec l’ensemble de la base, tenir compte du niveau
des utilisateurs.
Toutefois, il faut également se garder d’une vision trop étroite : on ne peut pas
prévoir quels seront les futurs champs d’intérêts des utilisateurs de la base, ni les futurs
développements de celle-ci, les éventuelles fusions avec d’autres bases ou extraits de
base.
La transcription des concepts dans le langage documentaire choisi se fait à l’aide
des outils énumérés aux chapitre précédent : soit le concept existe dans le langage
documentaire (dans la liste des descripteurs ou des termes rejetés), soit il doit être
recréés par approximation ou juxtaposition de descripteurs.
Si et seulement si aucune de ces possibilité n’est offerte, on proposera le concept
en candidat descripteurs.
21
indexation : module de formation 98 .... indexation : module de formation 98 .... indexation : module de formation 98.....
Dans le cas de concepts nouveaux, non prévus dans le langage documentaire contrôlé ou
le thésaurus, ces "candidats descripteurs", qui ont vocation, s’ils sont régulièrement
utilisés, à acquérir le statut de descripteurs, permettront la mise à jour régulière des outils.
L’utilisation d’un thésaurus hiérarchisé permet de réduire le nombre de
descripteurs aux plus précis, sans perte d’information, les termes génériques étant
aisément recréés.
Une fois l’indexation réalisée, il est bon de vérifier mentalement si , en interrogeant par les
termes retenus, le document est bien une réponse pertinente à la question posée par
chaque mot clé.
En résumé la qualité de l’indexation dépend de la qualité des outils et de celle de
l’indexeur (ses connaissances, son expérience, son impartialité, sa cohérence).
Dans l’idéal, l’indexation d’un document devrait être la même quel que soit
l’indexeur.
22
indexation : module de formation 98 .... indexation : module de formation 98 .... indexation : module de formation 98.....
ANNEXES
23
indexation : module de formation 98 .... indexation : module de formation 98 .... indexation : module de formation 98.....
BIBLIOGRAPHIE
A.B.F.-Le métier de bibliothécaire : cours élémentaire de formation professionnelle.-7. ed.
rev. et compl.-Paris : Promodis, 1983.-341 p.
ISBN 2-903181-28-4
AFNOR.-Vocabulaire de la documentation.-2. ed.-Paris : AFNOR, 1987.-(Les Dossiers de
la Documentation).-158 p.
ISBN 2-12-484021-5 *
AFNOR.-Documentation.-5. ed.-Paris : AFNOR, 1993.-(Recueil de normes françaises).-2
tomes, 719 p.
ISBN 2-12-234451-0 *
(il existe une édition 1996 en 3 tomes)
Guinchat, Claire; Skouri, Yolande.-Guide pratique des techniques documentaires : 2.
Traitement de l’information.-nouv. ed. rev..-Vanves : Edicef; Aupelf/Uref, 1996.(Universités Francophones).-303 p.
ISBN 2-841-29205-3 *
Ranjard, Sophie; Gruber, Benoît.-Les 400 mots de la documentation et des technologies
associées : lexique pratique et adresses utiles.-Paris : 2H Editor, 1996.-90 p.
ISBN 2-912066-00-X *
24
indexation : module de formation 98 .... indexation : module de formation 98 .... indexation : module de formation 98.....
NORMES A CONSULTER :
Indexation
NF Z 44-070 - 1986 - Indexation analytique par matière
NF Z 47-102 - 1978 - Principes généraux pour l’indexation des documents
NF Z 47-200 - 1985 - Liste d’autorité de matières, structure et règles d’emploi
Thésaurus
NF Z 47-100 - 1981 - Règles d’établissement des thésaurus monolingues
NF Z 47-101 - 1990 - Principes directeurs pour l’établissement des thésaurus multilingues
NF Z 47-103 - 1980 - Thésaurus monolingues et multilingues, symbolisation des relations
Résumé
NF Z 44-004 - 1984 - Recommandations aux auteurs des articles scientifiques et
techniques pour la rédaction des résumés
25
indexation : module de formation 98 .... indexation : module de formation 98 .... indexation : module de formation 98.....
RESUMES INFORMATIFS / RESUMES INDICATIFS
26