SECTION 10 - Digital Library of the Caribbean

Transcription

SECTION 10 - Digital Library of the Caribbean
BIBLIOTHÈQUE NUMÉRIQUE
DES
C A R A Ï B E S ( dLOC)
SECTION 10
Présence sur Internet
Dans cette section
ƒ
Digital Library Management Systems (DLMS)
ƒ
Interface centrale dLOC
o FTP
o Reconnaissance optique de caractères
ƒ
Collections distribuées
Présence sur Internet
© 2007, Bibliothèque Numérique des Caraïbes, Tous droits réservés.
10.1
BIBLIOTHÈQUE NUMÉRIQUE
DES
C A R A Ï B E S ( dLOC)
Digital Library Management Systems (DLMS)
ƒ
DLMS permet aux utilisateurs de voir les ressources en ligne et aux bibliothèques de
gérer leurs ressources numériques.
ƒ
La fonctionnalité de base requise pour la DLMS est de...
o Stocker et fournir l’accès aux images numérisées d’une ressource
o Permettre la recherche et la récupération de ressources numérisées
ƒ
Parmi les exemples de DLMS disponibles gratuitement, on peut citer :
o Fedora
ƒ Fedora est développé conjointement par Cornell University et
University of Virginia Library. Le financement provient de la
Fondation Andrew W. Mellon et de la Fondation National Science.
ƒ http://www.fedora.info/
o Greenstone
ƒ Produit par le New Zealand Digital Library Project à University of
Waikato, développé et distribué en coopération avec l’UNESCO et
Human Info NGO.
ƒ http://www.greenstone.org
o DSpace
ƒ Initialement développé comme un logiciel ouvert référentiel
d’entreprise, mais de plus en plus utilisé comme DLMS.
ƒ Créé conjointement par Massachusetts Institute of Technology (MIT)
et Hewlett-Packard (HP).
ƒ http://www.greenstone.org
Interface centrale dLOC
Le projet Digital Library of the Caribbean comprend un DLMS central pour servir toutes
les ressources contribuées, sous une seule richesse fonctionnelle. Ce DLMS est hébergé
par University of Florida Libraries.
Le système Greenstone Digital Library System a été choisi comme lieu de stockage et de
récupération de métadonnées et comme moteur de recherche pour dLOC. Greenstone
possède deux parties principales ; la partie métadonnées et la partie affichage. Bien que la
partie métadonnées et indexation soit importante, nous avons pensé que la partie affichage
ne disposait pas de certaines des fonctionnalités requises. En conséquence, nous avons choisi
d’utiliser seulement la partie métadonnées de Greenstone. En fin de compte, toutes les
données bibliographiques se trouvent dans Greenstone 2, exécuté sous Linux.
Nous avons choisi de bâtir une architecture multiniveau, comprenant une strate de
présentation personnalisée. Greenstone constitue le socle de dLOC. Une strate présentation
fournit l’accès à l’utilisateur Web. Le travail de création de cette strate a débuté en C#, avec
© 2007, Bibliothèque Numérique des Caraïbes, Tous droits réservés.
10.2
BIBLIOTHÈQUE NUMÉRIQUE
DES
C A R A Ï B E S ( dLOC)
l’utilisation de ASP.net. La strate présentation lira toutes les données bibliographiques de
Greenstone et interagira avec Greenstone en temps réel pour effectuer des recherches. Le
serveur Greenstone continuera de servir à la fois l’image et les données. Cependant,
l’utilisateur interagira avec la strate présentation à l’extérieur de Greenstone.
Cette architecture présente plusieurs avantages en plus du contrôle total sur la richesse
fonctionnelle. Ceci procure l’indépendance à la plate-forme. Greenstone pourrait être enlevé
de la strate des données et remplacé par toute une gamme d’autres systèmes de gestion de
bibliothèques numériques. L’utilisation de cette architecture nous permettra aussi de stocker
l’état de la session et de développer des portefeuilles pour utilisateur, si nous en décidions
ainsi dans l’avenir. Cette architecture peut lire des données à partir d’une variété de sources
en dehors de Greenstone tout en permettant la visualisation des images et des données sur la
même interface. Ceci fournit une richesse fonctionnelle continuelle pour les utilisateurs, peu
importe la source des images et des données.
© 2007, Bibliothèque Numérique des Caraïbes, Tous droits réservés.
10.3
BIBLIOTHÈQUE NUMÉRIQUE
DES
C A R A Ï B E S ( dLOC)
Les données requises pour commander la strate présentation sont placées dans une base de
données Microsoft SQL. Cette base de données stocke principalement les informations
d’affichage. L’apparence des collections dépend en partie des données stockées dans la base
de données. Ces données signalent à la strate présentation à quel endroit regarder pour
trouver les feuilles de style et les bannières. Elles contiennent aussi les renseignements sur la
hiérarchie des collections. Le pont entre la strate présentation et la ou les collection(s)
Greenstone est stocké dans cette base de données.
La base de données stocke aussi des renseignements de base pour faciliter l’affichage des
éléments provenant de Greenstone. Ceux-ci comprennent les filigranes numériques (ou
icônes) sur la barre de navigation gauche, les téléchargements et la table des matières.
Vous pouvez voir cette interface sur le site Internet dLOC au ( http://dloc.com ).
FTP utilisant Go dLOC!
•
Toute ressource qui sera chargée dans le serveur
central devra être téléchargée par FTP
•
Un client FTP, dénommé Go dLOC!, est inclus dans la
boîte à outils logiciels.
•
Avant de télécharger le progiciel par FTP, Go dLOC! effectue plusieurs autres
fonctions essentielles.
o
Les métadonnées créées sont validées par rapport à plusieurs plans
XML en ligne
o
Des dérivées JPEG sont renommées pour le montage sur Internet
ƒ 00001.QC2.jpg est renommé 00001.jpg
o
L’information sur chaque dérivée JPEG est ajoutée au fichier de
métadonnées avec l’information de total de contrôle.
o
Tous les fichiers PDF dans le même dossier sont ajoutés aux
métadonnées comme téléchargements. Ceux-ci apparaîtront sur la
barre de navigation de l’élément final sur Internet. (Voir la barre de
navigation de démonstration ci-dessous)
© 2007, Bibliothèque Numérique des Caraïbes, Tous droits réservés.
10.4
BIBLIOTHÈQUE NUMÉRIQUE
DES
C A R A Ï B E S ( dLOC)
•
Si le dossier de ressource numérique est dans le dossier
« C:\dLOC\Complete », ce monofichier peut être téléchargé par FTP en
sélectionnant le lien « Télécharger par FTP », à partir du formulaire
d’élément unique.
•
Go dLOC! peut aussi être exécuté en sélectionnant l’icône dans le coin
inférieur gauche du formulaire de suivi principal. Exécuté suivant ce mode,
Go dLOC! vous permet de télécharger par FTP chacun des paquetages en
attente dans le dossier C:\DLOC\Complete.
•
Enfin, si dans votre institution la bande passante est limitée, vous pouvez
choisir de faire exécuter l’application comme une tâche planifiée, à partir
du poste de travail dLOC. Les instructions concernant cette installation se
trouvent à la Section 3 : Aperçu de la boîte à outils logiciels.
© 2007, Bibliothèque Numérique des Caraïbes, Tous droits réservés.
10.5
BIBLIOTHÈQUE NUMÉRIQUE
DES
C A R A Ï B E S ( dLOC)
•
Une fois que l’élément est téléchargé par FTP au serveur, la ressource
numérique est déplacée vers le dossier C:\dLOC\Archive.
•
La soumission de votre ressource par FTP déclenche la suite d’évènements
suivante.
o En l’espace de 24 heures, votre ressource est chargée telle quelle.
o Les techniciens sont avertis qu’une nouvelle ressource a été rendue
disponible.
o Certains noms et listes d’autorité spatiale sont appliqués à la ressource.
o Si des formats TIFF maîtres ont été inclus dans la ressource et que la
ressource comprend du texte, la reconnaissance optique des caractères
sera effectuée sur les formats TIFF maîtres.
o Une fois que la reconnaissance optique des caractères est terminée,
l’élément est rechargé, recouvrant l’original.
Reconnaissance optique des caractères
Il y a un poste de travail dLOC dédié à la reconnaissance optique des caractères :
l’extraction de contenu textuel des fichiers images. Il s’agit d’une étape qui donne la
possibilité à une collection numérique de pouvoir être recherchée comme texte
intégral.
Ces trois dernières années, University of Florida a utilisé le logiciel PrimeOCR de
PrimeRecognition avec beaucoup de succès. Ce produit est en fait constitué de six
moteurs de reconnaissance optique de caractères, provenant de nos fournisseurs et
intégrés ensemble, régi par un moteur d’élection qui offre une précision
généralement supérieure à 99%, avec peu de peaufinage. Il améliore et segmente
automatiquement les images, si configuré ainsi.
Les langues comprennent, entre autres, le Danois, l’Anglais (des États-Unis ou du
Royaume-Uni), l’Espagnol, le Hollandais et le Français. Les types de fichier d’entrée
comprennent, entre autres, TIFF, PDF et des images en couleur ou en noir et blanc.
Les types de fichier de sortie comprennent, entre autres, du texte en clair et PDF.
Ces fichiers de texte en clair deviennent partie intégrante du paquetage
numérique, en route vers le serveur dédié dLOC. À cet endroit, ils sont indexés
par Greenstone et peuvent être recherchés à travers Internet.
Collections distribuées
•
Une solution de rechange existe pour la soumission de ressources au DLMS
central. Si une institution préfère héberger ses ressources localement, le serveur
central peut récupérer les métadonnées hébergées localement et diriger les
utilisateurs vers ce site.
•
Il est recommandé qu’au minimum une copie de la ressource soit également
soumise en entier au serveur central.
© 2007, Bibliothèque Numérique des Caraïbes, Tous droits réservés.
10.6
BIBLIOTHÈQUE NUMÉRIQUE
o
o
o
o
o
•
DES
C A R A Ï B E S ( dLOC)
Ceci permet alors à l’élément d’être converti en texte et de pouvoir être
recherché comme texte intégral.
De plus, les originaux numériques peuvent être enregistrés dans l’archive
dLOC, augmentant ainsi la préservation et réduisant le risque de pertes.
Les métadonnées créées avec la boîte à outils dLOC augmentent aussi les
façons dont un utilisateur peut localiser la ressource.
Un utilisateur peut être dirigé vers la ressource locale à partir de
l’interface de recherche centrale.
L’équipe technique dLOC peut aussi travailler avec cette institution dans
le but de convertir les métadonnées dLOC au format requis pour leur
DLMS local.
Si une copie ne peut être chargée dans le serveur central, un serveur OAI devra
être installé avec le DLMS de l’institution.
o OAI-PMH est une norme pour le partage de métadonnées entre plusieurs
serveurs.
o En fait, ceci expose vos métadonnées locales à la saisie par un serveur
central. Ensuite, ce serveur stocke ces données et toutes les recherches
sont appliquées par rapport à ces données. S’il y a une occurrence sur
l’une de vos ressources, l’utilisateur sera dirigé vers la ressource relative
à votre institution locale.
o L’équipe technique dLOC aidera le plus possible l’institution locale à
établir le serveur OAI.
© 2007, Bibliothèque Numérique des Caraïbes, Tous droits réservés.
10.7

Documents pareils