SECTION 10 - Digital Library of the Caribbean
Transcription
SECTION 10 - Digital Library of the Caribbean
BIBLIOTHÈQUE NUMÉRIQUE DES C A R A Ï B E S ( dLOC) SECTION 10 Présence sur Internet Dans cette section Digital Library Management Systems (DLMS) Interface centrale dLOC o FTP o Reconnaissance optique de caractères Collections distribuées Présence sur Internet © 2007, Bibliothèque Numérique des Caraïbes, Tous droits réservés. 10.1 BIBLIOTHÈQUE NUMÉRIQUE DES C A R A Ï B E S ( dLOC) Digital Library Management Systems (DLMS) DLMS permet aux utilisateurs de voir les ressources en ligne et aux bibliothèques de gérer leurs ressources numériques. La fonctionnalité de base requise pour la DLMS est de... o Stocker et fournir l’accès aux images numérisées d’une ressource o Permettre la recherche et la récupération de ressources numérisées Parmi les exemples de DLMS disponibles gratuitement, on peut citer : o Fedora Fedora est développé conjointement par Cornell University et University of Virginia Library. Le financement provient de la Fondation Andrew W. Mellon et de la Fondation National Science. http://www.fedora.info/ o Greenstone Produit par le New Zealand Digital Library Project à University of Waikato, développé et distribué en coopération avec l’UNESCO et Human Info NGO. http://www.greenstone.org o DSpace Initialement développé comme un logiciel ouvert référentiel d’entreprise, mais de plus en plus utilisé comme DLMS. Créé conjointement par Massachusetts Institute of Technology (MIT) et Hewlett-Packard (HP). http://www.greenstone.org Interface centrale dLOC Le projet Digital Library of the Caribbean comprend un DLMS central pour servir toutes les ressources contribuées, sous une seule richesse fonctionnelle. Ce DLMS est hébergé par University of Florida Libraries. Le système Greenstone Digital Library System a été choisi comme lieu de stockage et de récupération de métadonnées et comme moteur de recherche pour dLOC. Greenstone possède deux parties principales ; la partie métadonnées et la partie affichage. Bien que la partie métadonnées et indexation soit importante, nous avons pensé que la partie affichage ne disposait pas de certaines des fonctionnalités requises. En conséquence, nous avons choisi d’utiliser seulement la partie métadonnées de Greenstone. En fin de compte, toutes les données bibliographiques se trouvent dans Greenstone 2, exécuté sous Linux. Nous avons choisi de bâtir une architecture multiniveau, comprenant une strate de présentation personnalisée. Greenstone constitue le socle de dLOC. Une strate présentation fournit l’accès à l’utilisateur Web. Le travail de création de cette strate a débuté en C#, avec © 2007, Bibliothèque Numérique des Caraïbes, Tous droits réservés. 10.2 BIBLIOTHÈQUE NUMÉRIQUE DES C A R A Ï B E S ( dLOC) l’utilisation de ASP.net. La strate présentation lira toutes les données bibliographiques de Greenstone et interagira avec Greenstone en temps réel pour effectuer des recherches. Le serveur Greenstone continuera de servir à la fois l’image et les données. Cependant, l’utilisateur interagira avec la strate présentation à l’extérieur de Greenstone. Cette architecture présente plusieurs avantages en plus du contrôle total sur la richesse fonctionnelle. Ceci procure l’indépendance à la plate-forme. Greenstone pourrait être enlevé de la strate des données et remplacé par toute une gamme d’autres systèmes de gestion de bibliothèques numériques. L’utilisation de cette architecture nous permettra aussi de stocker l’état de la session et de développer des portefeuilles pour utilisateur, si nous en décidions ainsi dans l’avenir. Cette architecture peut lire des données à partir d’une variété de sources en dehors de Greenstone tout en permettant la visualisation des images et des données sur la même interface. Ceci fournit une richesse fonctionnelle continuelle pour les utilisateurs, peu importe la source des images et des données. © 2007, Bibliothèque Numérique des Caraïbes, Tous droits réservés. 10.3 BIBLIOTHÈQUE NUMÉRIQUE DES C A R A Ï B E S ( dLOC) Les données requises pour commander la strate présentation sont placées dans une base de données Microsoft SQL. Cette base de données stocke principalement les informations d’affichage. L’apparence des collections dépend en partie des données stockées dans la base de données. Ces données signalent à la strate présentation à quel endroit regarder pour trouver les feuilles de style et les bannières. Elles contiennent aussi les renseignements sur la hiérarchie des collections. Le pont entre la strate présentation et la ou les collection(s) Greenstone est stocké dans cette base de données. La base de données stocke aussi des renseignements de base pour faciliter l’affichage des éléments provenant de Greenstone. Ceux-ci comprennent les filigranes numériques (ou icônes) sur la barre de navigation gauche, les téléchargements et la table des matières. Vous pouvez voir cette interface sur le site Internet dLOC au ( http://dloc.com ). FTP utilisant Go dLOC! • Toute ressource qui sera chargée dans le serveur central devra être téléchargée par FTP • Un client FTP, dénommé Go dLOC!, est inclus dans la boîte à outils logiciels. • Avant de télécharger le progiciel par FTP, Go dLOC! effectue plusieurs autres fonctions essentielles. o Les métadonnées créées sont validées par rapport à plusieurs plans XML en ligne o Des dérivées JPEG sont renommées pour le montage sur Internet 00001.QC2.jpg est renommé 00001.jpg o L’information sur chaque dérivée JPEG est ajoutée au fichier de métadonnées avec l’information de total de contrôle. o Tous les fichiers PDF dans le même dossier sont ajoutés aux métadonnées comme téléchargements. Ceux-ci apparaîtront sur la barre de navigation de l’élément final sur Internet. (Voir la barre de navigation de démonstration ci-dessous) © 2007, Bibliothèque Numérique des Caraïbes, Tous droits réservés. 10.4 BIBLIOTHÈQUE NUMÉRIQUE DES C A R A Ï B E S ( dLOC) • Si le dossier de ressource numérique est dans le dossier « C:\dLOC\Complete », ce monofichier peut être téléchargé par FTP en sélectionnant le lien « Télécharger par FTP », à partir du formulaire d’élément unique. • Go dLOC! peut aussi être exécuté en sélectionnant l’icône dans le coin inférieur gauche du formulaire de suivi principal. Exécuté suivant ce mode, Go dLOC! vous permet de télécharger par FTP chacun des paquetages en attente dans le dossier C:\DLOC\Complete. • Enfin, si dans votre institution la bande passante est limitée, vous pouvez choisir de faire exécuter l’application comme une tâche planifiée, à partir du poste de travail dLOC. Les instructions concernant cette installation se trouvent à la Section 3 : Aperçu de la boîte à outils logiciels. © 2007, Bibliothèque Numérique des Caraïbes, Tous droits réservés. 10.5 BIBLIOTHÈQUE NUMÉRIQUE DES C A R A Ï B E S ( dLOC) • Une fois que l’élément est téléchargé par FTP au serveur, la ressource numérique est déplacée vers le dossier C:\dLOC\Archive. • La soumission de votre ressource par FTP déclenche la suite d’évènements suivante. o En l’espace de 24 heures, votre ressource est chargée telle quelle. o Les techniciens sont avertis qu’une nouvelle ressource a été rendue disponible. o Certains noms et listes d’autorité spatiale sont appliqués à la ressource. o Si des formats TIFF maîtres ont été inclus dans la ressource et que la ressource comprend du texte, la reconnaissance optique des caractères sera effectuée sur les formats TIFF maîtres. o Une fois que la reconnaissance optique des caractères est terminée, l’élément est rechargé, recouvrant l’original. Reconnaissance optique des caractères Il y a un poste de travail dLOC dédié à la reconnaissance optique des caractères : l’extraction de contenu textuel des fichiers images. Il s’agit d’une étape qui donne la possibilité à une collection numérique de pouvoir être recherchée comme texte intégral. Ces trois dernières années, University of Florida a utilisé le logiciel PrimeOCR de PrimeRecognition avec beaucoup de succès. Ce produit est en fait constitué de six moteurs de reconnaissance optique de caractères, provenant de nos fournisseurs et intégrés ensemble, régi par un moteur d’élection qui offre une précision généralement supérieure à 99%, avec peu de peaufinage. Il améliore et segmente automatiquement les images, si configuré ainsi. Les langues comprennent, entre autres, le Danois, l’Anglais (des États-Unis ou du Royaume-Uni), l’Espagnol, le Hollandais et le Français. Les types de fichier d’entrée comprennent, entre autres, TIFF, PDF et des images en couleur ou en noir et blanc. Les types de fichier de sortie comprennent, entre autres, du texte en clair et PDF. Ces fichiers de texte en clair deviennent partie intégrante du paquetage numérique, en route vers le serveur dédié dLOC. À cet endroit, ils sont indexés par Greenstone et peuvent être recherchés à travers Internet. Collections distribuées • Une solution de rechange existe pour la soumission de ressources au DLMS central. Si une institution préfère héberger ses ressources localement, le serveur central peut récupérer les métadonnées hébergées localement et diriger les utilisateurs vers ce site. • Il est recommandé qu’au minimum une copie de la ressource soit également soumise en entier au serveur central. © 2007, Bibliothèque Numérique des Caraïbes, Tous droits réservés. 10.6 BIBLIOTHÈQUE NUMÉRIQUE o o o o o • DES C A R A Ï B E S ( dLOC) Ceci permet alors à l’élément d’être converti en texte et de pouvoir être recherché comme texte intégral. De plus, les originaux numériques peuvent être enregistrés dans l’archive dLOC, augmentant ainsi la préservation et réduisant le risque de pertes. Les métadonnées créées avec la boîte à outils dLOC augmentent aussi les façons dont un utilisateur peut localiser la ressource. Un utilisateur peut être dirigé vers la ressource locale à partir de l’interface de recherche centrale. L’équipe technique dLOC peut aussi travailler avec cette institution dans le but de convertir les métadonnées dLOC au format requis pour leur DLMS local. Si une copie ne peut être chargée dans le serveur central, un serveur OAI devra être installé avec le DLMS de l’institution. o OAI-PMH est une norme pour le partage de métadonnées entre plusieurs serveurs. o En fait, ceci expose vos métadonnées locales à la saisie par un serveur central. Ensuite, ce serveur stocke ces données et toutes les recherches sont appliquées par rapport à ces données. S’il y a une occurrence sur l’une de vos ressources, l’utilisateur sera dirigé vers la ressource relative à votre institution locale. o L’équipe technique dLOC aidera le plus possible l’institution locale à établir le serveur OAI. © 2007, Bibliothèque Numérique des Caraïbes, Tous droits réservés. 10.7