Bibliothèque universitaire Création d`une base de données à partir d
Transcription
Bibliothèque universitaire Création d`une base de données à partir d
Bibliothèque universitaire Création d’une base de données à partir d’une collection numérisée de planches mycologiques. 1 – Projet Ce projet vise à proposer une solution de conservation - tout en garantissant l’accès aux documents - et à valoriser ce fonds en lui donnant de la visibilité à partir du site institutionnel du SCD. Ainsi, du point de vue de la conservation, un certain nombre de planches avaient été dégradées (traces sur les dessins ; effacement des commentaires au crayon à papier ; papiers gondolés par une exposition prolongée en vitrine). Pour la valorisation, il semblait important de créer les conditions favorables à un éventuel travail scientifique à partir de ces documents. 2 – Numérisation La première phase de la réalisation du projet a porté sur la numérisation des planches. Réalisée par la société SAFIG, la numérisation avait été préparée par le conservateur responsable du secteur sciences (classement des planches par enveloppe et réalisation de fichiers descriptifs à l'aide de l'application MS-EXCEL). Ce fichier réunissait les informations suivantes : Nom, espèce, auteur, qualité du texte accompagnant la planche, remarques, indice de qualité des planches. 3 – Elaboration de la base de données 3-1 Objectifs visés 1 La BU dispose de 27 cédéroms d’images numérisées (1 image = 1 fichier) et des tableaux EXCEL réalisés par le conservateur en poste. Il s’agit d’intégrer ces images à une base permettant deux démarches : le feuilletage d’albums (album complet et albums par genre) et la recherche par nom de genre et d’espèce. La base fonctionnera de manière identique à celle du catalogue public de la bibliothèque : la recherche effectuée par le moteur provoque le chargement d’une ou plusieurs références accompagnées de vignettes réalisées à partir des images. Cette liste abrégée comporte un lien vers la notice complète de l'individu, qui matérialise dans le navigateur les éléments suivants : - le genre ; - l'espèce ; - l'image de la planche au format JPG sur une base de 512 pixel de large ; - le champ AUTEUR (renseigné à partir de données recueillies dans le fichier EXCEL initial); - le champ REMARQUES ; - un lien composé vers la ressource au format TIFF qui est le produit d'une numérisation très fine réalisée par la société SAFIG (la taille de ces images varie entre 14 et 25 Mo). 3-2 Plan général de la plate-forme informatique 1/ album 2/ application java 3-3 Agencement des données Il a fallu effectuer un travail préparatoire visant à présenter les données, les normaliser, les baliser, etc. pour qu’elles puissent nourrir une base de données et être exploitées par une application. L’une des tâches consiste à d’établir la corrélation entre les informations contenues dans les fichiers SAFIG, identifiées par des noms de fichiers (un nom de fichier par image) et celles contenues dans les tableurs EXCEL (un nom de genre et un nom d’espèce par planche). Il faut attribuer un numéro d’inventaire unique à chaque document (planche ou texte), en distinguant par exemple les éventuels rectos et versos des planches. Et enfin, contrôler la numérisation en repérant les possibles oublis. Dans le même temps, dans le tableau EXCEL, une concaténation du numéro d’inventaire, du genre et de l’espèce pour chaque unité, a permis de créer le nom du fichiercible par l'ajout d'une extension Formule : = C1& “_”&D1&“.jpg” Il a fallu normaliser les noms en supprimant tous les accents, les espaces, les caractères non autorisés pour l'attribution de noms aux fichiers sous UNIX. 4 – Les étapes de la réalisation 2 4.1 – L'intégration des informations dans une base de données La construction de la base de données s'est faite à partie des informations saisies dans un fichier EXCEL, validé, puis enregistré au format .CSV. Une routine a permis d'agencer les données dans un fichier texte comprenant la syntaxe d'insertion des données dans une base mysql 4.1.11 comme suit (pour une entrée) : ID 1 GENRE ESPECE AUTEUR Hygrophorus Lacmus Fr. NOM ACTUEL Cuphophyllus Lacmus Bon TEXTE (Schumm.) T+ / Planche en REMARQUES relation QUALITE cle_primaire fichier Safig (rectoverso) B 1 1 / nom_de_fichier_jpg nom_de_fichier_tif 1_Hygrophorus_Lacmus.jpg 1_Hygrophorus_Lacmus.tif Label Remarques Remarques cas numérisation identité Hygrophorus Lacmus Cette entrée a été agencée de la façon suivante après traitement : INSERT INTO mushroom VALUES ("1","Hygrophorus ","Lacmus","Fr.","Cuphophyllus Lacmus (Schumm.) Bon","T+","","0","B","","1","1","1_Hygrophorus_Lacmus.jpg","1_Hygrophorus_Lacmus.tif" ,"Hygrophorus Lacmus","","","1"); Les données ainsi constituées ont été insérées dans la base de données qui s'organise selon ce schéma : | Field | Type | Null | Key | Default | Extra | +------------------------+--------------+------+-----+---------+-------+ | ID | int(11) | | PRI | 0 | | | GENRE | varchar(30) | | PRI | | | | ESPECE | varchar(30) | | PRI | | | | AUTEUR | varchar(30) | | PRI | | | | NOM_ACTUEL | varchar(50) | | PRI | | | | TEXTE | varchar(30) | | PRI | | | | REMARQUES | varchar(150) | | PRI | | | | PLANCHE_LIEE | int(11) | YES | | NULL | | 3 1 | QUALITE | varchar(30) | YES | | | | | CLE_PRIMAIRE | varchar(5) | YES | | | | | FICHIER | varchar(5) | YES | | | | | SAFIG | varchar(5) | YES | | | | | NOM_FICHIER_JPG | varchar(50) | | | | | | NOM_FICHIER_TIF | varchar(50) | | | | | | LABEL | varchar(50) | YES | | | | | REMARQUES_NUMERISATION | varchar(200) | YES | | | REMARQUES_IDENTITE | varchar(200) | YES | | | | CAS | varchar(5) | YES | | | | +------------------------+--------------+------+-----+---------+-------+ | | | 4.2 Les fichiers d'images Les fichiers d'images ont été regroupés dans trois sous-répertoires de la section publique du serveur web de la bibliothèque (hermes.univ-lemans.fr) vignettes : //Planches_mycologiques/album/Toutes/thumbs/ fichiers JPG : //Planches_mycologiques/Toutes fichiers TIFF: //Planches_mycologiques/reproductions/ 4.3 L'album Un album a été construit à l'aide de l'application libre Jalbum (http://jalbum.net / voir la rubrique "Terms of service") puis l'adaptation d'un skin. Cet album vise à constituer une partie attractive du site. Il permet le feuilletage des planches grâce à une navigation intuitive (un clic sur une vignette charge une image ou un clic sur la partie droite de l'image charge la suivante ; un clic sur la partie gauche charge l'image précédente). Une rubrique d'aide explique à l'utilisateur les fonctionnalités de l'album. 4.4. Développement Java L'application Java permet de faire des recherches plus approfondies sur une reproduction de planche donnée, en fonction de son genre et éventuellement de son espèce (la saisie du genre est obligatoire). Développée et contextualisée avc ECLIPSE, cette application a été placées sur le même serveur web de la bibliothèque équipé du module Apache Tomcat/4.1.18. Cette application a été inspirée d'un modèle de développement de l'ISTIA (Angers) qui prévoyait l'exploitation d'une base de données MySQL. 5. Fonctionnalités avancées et problèmes 4 5.1 Planches en relation Lorsque les documents ont été analysés, il a été constaté que certaines planches figuraient sur le verso d'autres planches, alors qu'il ne semblait pas y avoir de relation évidente entre les individus représentés. On peut supposer que l'auteur des planches a utilisé ces versos sans poursuivre un but précis (par souci d'économie de support?), mais ce n'est qu'une hypothèse. C'est pourquoi le pilote du projet a souhaité conserver cette information sur la relation entre le recto et le verso de ces planches, en ajoutant un champ "PLANCHE_LIEE" dans lequel est inséré l'ID de la planche du recto. EX. Hygrophorus Hypothejus_2 (ID=4) se trouve sur le verso de Hygrophorus Hypothejus_1 (ID=3). Nous avons donc les valeurs suivantes : ID='3'.'Hygrophorus Hypothejus_1'.PLANCHE_LIEE='4'. ID='4'.'Hygrophorus Hypothejus_2'.PLANCHE_LIEE='3'. De cette façon, l'information sur la relation matérielle entre les deux planches pourra être exploitée et l'utilisateur pourra cliquer sur un lien pour naviguer d'un individu à l'autre. Cette fonctionnalité n'est pas implémentée dans la version 1.0 (mise en production en juin 2008) mais est à l'étude pour une version 2.0. 5.2 Exploitation des problèmes et des situations inattendues (ou cas). 5 situations différentes ont été répertoriées à l'issue de l'inventaire : Nb de planches concernées 720 25 Indice de problème 49 2 12 3 18 4 1 1 bis Label - Formule « Versos non référencés à l’origine mais numérisés » Commentaire Sans problème Documents appartenant à la collection d’images – Référence créée « a posteriori ». Comprend 19 textes à déchiffrer et 6 ébauches ou planches dont l’identité sera à confirmer (= recto ?) Noms incomplets ou notés avec « ? » « Restent à confirmer ou à identifier » « document source Planches absentes absent » « Référence Références seules. existante mais Pas de planches ni 5 Intervention expert Mycologue et peut-être paléographe Mycologue 85 + 18 5 correspondance matérielle absente » Non versées dans la base d’images correspondantes trouvées Enveloppes 5 et 5 bis : 85 planches non identifiées non numérisées + 18 versos non numérisés Mycologue si numérisation 794 planches avec numéro d’inventaire (720 + 25 + 49). A voir : le problème des versos composés de texte = 19 images à déchiffrer. A voir : numérisation ultérieure des cas « 5 » ? 6. Devenir de l'application Une version 2.0 est à l'étude, dans laquelle certaines fonctionnalités avancées doivent être implémentées. L'objectif est de solliciter des sociétés savantes ou scientifiques capables d'identifier certains individus que l'on retrouve dans l'album sous la partie "A_Identifier". Cette fonctionnalité se matérialiserait par une possibilité d'ajout de commentaire modéré pour faire intervenir une ou plusieurs autorité(s) en la matière. Cette interactivité est à l'étude car il faut être sûr que : - l'on peut s'adresser à une population anonyme ; - l'on ne préfère pas favoriser un dialogue personnel ; - un enrichissement de la base ouvert dans le temps est souhaitable. 7. Conclusion Il faut s'assurer que la base de donnée peut s'enrichir de nouveaux commentaires et de nouvelles ressources, comme il reste encore un certain nombre de planches à numériser. Le SCD estime que les reproductions de grande qualité comme celles qui sont actuellement mises à disposition suffisent pour ne pas proposer la consultation des documents en format papier qui se détériorent facilement. 6