Bibliothèque universitaire Création d`une base de données à partir d

Transcription

Bibliothèque universitaire Création d`une base de données à partir d
Bibliothèque universitaire
Création d’une base de données à partir d’une collection
numérisée de planches mycologiques.
1 – Projet
Ce projet vise à proposer une solution de conservation - tout en garantissant l’accès
aux documents - et à valoriser ce fonds en lui donnant de la visibilité à partir du site
institutionnel du SCD. Ainsi, du point de vue de la conservation, un certain nombre de
planches avaient été dégradées (traces sur les dessins ; effacement des commentaires au
crayon à papier ; papiers gondolés par une exposition prolongée en vitrine). Pour la
valorisation, il semblait important de créer les conditions favorables à un éventuel travail
scientifique à partir de ces documents.
2 – Numérisation
La première phase de la réalisation du projet a porté sur la numérisation des planches.
Réalisée par la société SAFIG, la numérisation avait été préparée par le conservateur
responsable du secteur sciences (classement des planches par enveloppe et réalisation de
fichiers descriptifs à l'aide de l'application MS-EXCEL). Ce fichier réunissait les informations
suivantes :
Nom, espèce, auteur, qualité du texte accompagnant la planche, remarques, indice de qualité
des planches.
3 – Elaboration de la base de données
3-1 Objectifs visés
1
La BU dispose de 27 cédéroms d’images numérisées (1 image = 1 fichier) et des
tableaux EXCEL réalisés par le conservateur en poste. Il s’agit d’intégrer ces images à une
base permettant deux démarches : le feuilletage d’albums (album complet et albums par
genre) et la recherche par nom de genre et d’espèce.
La base fonctionnera de manière identique à celle du catalogue public de la
bibliothèque : la recherche effectuée par le moteur provoque le chargement d’une ou plusieurs
références accompagnées de vignettes réalisées à partir des images. Cette liste abrégée
comporte un lien vers la notice complète de l'individu, qui matérialise dans le navigateur les
éléments suivants :
- le genre ;
- l'espèce ;
- l'image de la planche au format JPG sur une base de 512 pixel de large ;
- le champ AUTEUR (renseigné à partir de données recueillies dans le fichier EXCEL initial);
- le champ REMARQUES ;
- un lien composé vers la ressource au format TIFF qui est le produit d'une numérisation très
fine réalisée par la société SAFIG (la taille de ces images varie entre 14 et 25 Mo).
3-2 Plan général de la plate-forme informatique
1/ album
2/ application java
3-3 Agencement des données
Il a fallu effectuer un travail préparatoire visant à présenter les données, les
normaliser, les baliser, etc. pour qu’elles puissent nourrir une base de données et être
exploitées par une application.
L’une des tâches consiste à d’établir la corrélation entre les informations contenues
dans les fichiers SAFIG, identifiées par des noms de fichiers (un nom de fichier par image) et
celles contenues dans les tableurs EXCEL (un nom de genre et un nom d’espèce par planche).
Il faut attribuer un numéro d’inventaire unique à chaque document (planche ou texte), en
distinguant par exemple les éventuels rectos et versos des planches. Et enfin, contrôler la
numérisation en repérant les possibles oublis.
Dans le même temps, dans le tableau EXCEL, une concaténation du numéro
d’inventaire, du genre et de l’espèce pour chaque unité, a permis de créer le nom du fichiercible par l'ajout d'une extension
Formule : = C1& “_”&D1&“.jpg”
Il a fallu normaliser les noms en supprimant tous les accents, les espaces, les caractères non
autorisés pour l'attribution de noms aux fichiers sous UNIX.
4 – Les étapes de la réalisation
2
4.1 – L'intégration des informations dans une base de données
La construction de la base de données s'est faite à partie des informations saisies dans un
fichier EXCEL, validé, puis enregistré au format .CSV. Une routine a permis d'agencer les
données dans un fichier texte comprenant la syntaxe d'insertion des données dans une base
mysql 4.1.11 comme suit (pour une entrée) :
ID
1
GENRE
ESPECE AUTEUR
Hygrophorus Lacmus
Fr.
NOM ACTUEL
Cuphophyllus Lacmus
Bon
TEXTE
(Schumm.)
T+
/
Planche
en
REMARQUES relation QUALITE cle_primaire fichier Safig
(rectoverso)
B
1
1
/
nom_de_fichier_jpg
nom_de_fichier_tif
1_Hygrophorus_Lacmus.jpg 1_Hygrophorus_Lacmus.tif
Label
Remarques
Remarques
cas
numérisation identité
Hygrophorus
Lacmus
Cette entrée a été agencée de la façon suivante après traitement :
INSERT INTO mushroom VALUES ("1","Hygrophorus ","Lacmus","Fr.","Cuphophyllus
Lacmus
(Schumm.)
Bon","T+","","0","B","","1","1","1_Hygrophorus_Lacmus.jpg","1_Hygrophorus_Lacmus.tif"
,"Hygrophorus Lacmus","","","1");
Les données ainsi constituées ont été insérées dans la base de données qui s'organise selon ce
schéma :
| Field
| Type
| Null | Key | Default | Extra |
+------------------------+--------------+------+-----+---------+-------+
| ID
| int(11) | | PRI | 0
|
|
| GENRE
| varchar(30) | | PRI |
|
|
| ESPECE
| varchar(30) | | PRI |
|
|
| AUTEUR
| varchar(30) | | PRI |
|
|
| NOM_ACTUEL
| varchar(50) | | PRI |
|
|
| TEXTE
| varchar(30) | | PRI |
|
|
| REMARQUES
| varchar(150) | | PRI |
|
|
| PLANCHE_LIEE
| int(11) | YES | | NULL |
|
3
1
| QUALITE
| varchar(30) | YES | |
|
|
| CLE_PRIMAIRE
| varchar(5) | YES | |
|
|
| FICHIER
| varchar(5) | YES | |
|
|
| SAFIG
| varchar(5) | YES | |
|
|
| NOM_FICHIER_JPG
| varchar(50) | | |
|
|
| NOM_FICHIER_TIF
| varchar(50) | | |
|
|
| LABEL
| varchar(50) | YES | |
|
|
| REMARQUES_NUMERISATION | varchar(200) | YES | |
| REMARQUES_IDENTITE | varchar(200) | YES | |
|
| CAS
| varchar(5) | YES | |
|
|
+------------------------+--------------+------+-----+---------+-------+
|
|
|
4.2 Les fichiers d'images
Les fichiers d'images ont été regroupés dans trois sous-répertoires de la section publique du
serveur web de la bibliothèque (hermes.univ-lemans.fr)
vignettes :
//Planches_mycologiques/album/Toutes/thumbs/
fichiers JPG : //Planches_mycologiques/Toutes
fichiers TIFF: //Planches_mycologiques/reproductions/
4.3 L'album
Un album a été construit à l'aide de l'application libre Jalbum (http://jalbum.net / voir la
rubrique "Terms of service") puis l'adaptation d'un skin. Cet album vise à constituer une partie
attractive du site. Il permet le feuilletage des planches grâce à une navigation intuitive (un clic
sur une vignette charge une image ou un clic sur la partie droite de l'image charge la suivante ;
un clic sur la partie gauche charge l'image précédente). Une rubrique d'aide explique à
l'utilisateur les fonctionnalités de l'album.
4.4. Développement Java
L'application Java permet de faire des recherches plus approfondies sur une reproduction de
planche donnée, en fonction de son genre et éventuellement de son espèce (la saisie du genre
est obligatoire).
Développée et contextualisée avc ECLIPSE, cette application a été placées sur le même
serveur web de la bibliothèque équipé du module Apache Tomcat/4.1.18.
Cette application a été inspirée d'un modèle de développement de l'ISTIA (Angers) qui
prévoyait l'exploitation d'une base de données MySQL.
5. Fonctionnalités avancées et problèmes
4
5.1 Planches en relation
Lorsque les documents ont été analysés, il a été constaté que certaines planches figuraient sur
le verso d'autres planches, alors qu'il ne semblait pas y avoir de relation évidente entre les
individus représentés. On peut supposer que l'auteur des planches a utilisé ces versos sans
poursuivre un but précis (par souci d'économie de support?), mais ce n'est qu'une hypothèse.
C'est pourquoi le pilote du projet a souhaité conserver cette information sur la relation entre le
recto et le verso de ces planches, en ajoutant un champ "PLANCHE_LIEE" dans lequel est
inséré l'ID de la planche du recto.
EX. Hygrophorus Hypothejus_2 (ID=4) se trouve sur le verso de Hygrophorus Hypothejus_1
(ID=3). Nous avons donc les valeurs suivantes :
ID='3'.'Hygrophorus Hypothejus_1'.PLANCHE_LIEE='4'.
ID='4'.'Hygrophorus Hypothejus_2'.PLANCHE_LIEE='3'.
De cette façon, l'information sur la relation matérielle entre les deux planches pourra être
exploitée et l'utilisateur pourra cliquer sur un lien pour naviguer d'un individu à l'autre. Cette
fonctionnalité n'est pas implémentée dans la version 1.0 (mise en production en juin 2008)
mais est à l'étude pour une version 2.0.
5.2 Exploitation des problèmes et des situations inattendues (ou cas).
5 situations différentes ont été répertoriées à l'issue de l'inventaire :
Nb de
planches
concernées
720
25
Indice de
problème
49
2
12
3
18
4
1
1 bis
Label - Formule
« Versos non
référencés à
l’origine mais
numérisés »
Commentaire
Sans problème
Documents
appartenant à la
collection
d’images –
Référence créée
« a posteriori ».
Comprend 19
textes à déchiffrer
et 6 ébauches ou
planches dont
l’identité sera à
confirmer (=
recto ?)
Noms incomplets
ou notés avec « ? »
« Restent à
confirmer ou à
identifier »
« document source Planches absentes
absent »
« Référence
Références seules.
existante mais
Pas de planches ni
5
Intervention
expert
Mycologue et
peut-être
paléographe
Mycologue
85 + 18
5
correspondance
matérielle absente
»
Non versées dans
la base
d’images
correspondantes
trouvées
Enveloppes 5 et 5
bis : 85 planches
non identifiées non
numérisées + 18
versos non
numérisés
Mycologue si
numérisation
794 planches avec numéro d’inventaire (720 + 25 + 49).
A voir : le problème des versos composés de texte = 19 images à déchiffrer.
A voir : numérisation ultérieure des cas « 5 » ?
6. Devenir de l'application
Une version 2.0 est à l'étude, dans laquelle certaines fonctionnalités avancées doivent être
implémentées.
L'objectif est de solliciter des sociétés savantes ou scientifiques capables d'identifier certains
individus que l'on retrouve dans l'album sous la partie "A_Identifier". Cette fonctionnalité se
matérialiserait par une possibilité d'ajout de commentaire modéré pour faire intervenir une ou
plusieurs autorité(s) en la matière.
Cette interactivité est à l'étude car il faut être sûr que :
- l'on peut s'adresser à une population anonyme ;
- l'on ne préfère pas favoriser un dialogue personnel ;
- un enrichissement de la base ouvert dans le temps est souhaitable.
7. Conclusion
Il faut s'assurer que la base de donnée peut s'enrichir de nouveaux commentaires et de
nouvelles ressources, comme il reste encore un certain nombre de planches à numériser.
Le SCD estime que les reproductions de grande qualité comme celles qui sont actuellement
mises à disposition suffisent pour ne pas proposer la consultation des documents en format
papier qui se détériorent facilement.
6

Documents pareils