N° 15 avril 2004 - Archives de France

Transcription

N° 15 avril 2004 - Archives de France
Direction des Archives de France
Bulletin d’information francophone sur l’EAD, n°15 avril
Sommaire
Journées européennes sur les DTD EADet EAC
Journée sur la documentation numérique culturelle et les logiciels libres
L’outil de publication de documents XML/EAD Pleade : nouveautés
Formations
Lu pour vous
__________________________________________________________________________________________
Journées européennes sur les DTD EAD et EAC
Deux ans après la tenue, dans le grand auditorium de la Bibliothèque nationale de France, d’une journée d’étude
sur la DTD EAD et ses applications patrimoniales dans les archives et les bibliothèques, la direction des
Archives de France souhaite organiser, les 7 et 8 octobre 2004, des journées européennes sur les outils
informatiques permettant de structurer en XML, les instruments de recherche de type archivistiques et les
données d’autorité. La dernière conférence européenne sur le sujet avait eu lieu au Public Record Office à Kew,
en octobre 1999.
L’EAD est à présent parfaitement établie en Amérique du Nord et dans le reste du monde, et elle a atteint sa
maturité technique tout en continuant d’évoluer pour prendre en compte les transformations technologiques. Des
programmes de formation ont été mis en place. Des manuels et des guides d’application ont été rédigés. De
nombreuses institutions utilisatrices, en France, au Royaume-Uni, en Allemagne, aux Pays-Bas ou en Espagne
ont élaboré des solutions originales pour l’encodage et la publication de leurs instruments de recherche. Le temps
semble donc venu de dresser un bilan des réalisations et de favoriser ainsi l’échange d’expériences.
Parfaitement compatible avec la norme internationale sur les notices d’autorité (collectivités, personnes,
familles) ISAAR(CPF), complémentaire du format UNIMARC/Autorités, l’EAC est une combinaison des
notices d’autorité bibliographiques et des notices d’autorité archivistiques, qui donnent des informations sur le
producteur et le contexte de production des documents
La version 1.0 du dictionnaire des balises de l’EAC devrait être rendue disponible en 2004. Des tests de
conversion de données d’autorité en format EAC/XML ont déjà été réalisés, notamment dans le cadre du projet
LEAF (“ Relier et Explorer les fichiers d'autorités ”) où les notices locales seront chargées depuis les serveurs
des différentes institutions partenaires vers un système central permettant de les relier les unes avec les autres
quand elles relèvent d’une même entité.
Les participants présenteront les résultats de leurs recherches et leurs idées sur différents sous-thèmes :
- pré-requis pour l’implémentation de l’EAD : réflexion en matière de normalisation, formation ;
- mise en œuvre de l’EAD : outils de production, interopérabilité, compatibilité avec d’autres standards ;
- publication des documents EAD/XML : outils de diffusion, construction d’applications documentaires à
partir de documents stockés sur un serveur web en XML natif ;
- la DTD EAC et les premiers exemples d’encodage en XML de données d’autorité.
_________________________________________________________________________________________
Journée sur la documentation numérique culturelle et les logiciels libres
Créée à la fin de l’année 2003, l’association ADNX (http://www.adnx.org) a pour objet de favoriser la diffusion
et la promotion de la documentation numérique en XML. ADNX souhaite favoriser la diffusion, la promotion et
l’évolution de la plate-forme logicielle SDX, outil de consultation de documents XML qui s’appuie sur le moteur
de recherche Lucene, ainsi que des applications qui en découlent, auprès d’utilisateurs publics et privés. Le 9
mars 2004, à l’Institut Pasteur, ADNX a organisé une journée sur la documentation scientifique numérique et les
logiciels libres.
Les utilisateurs des logiciels libres peuvent intervenir sur leur développement ou leur intégration. La Free
Software Foundation a défini quatre libertés, numérotées de 0 à 3 :
- 0 : liberté d’exécuter le logiciel
- 1 : liberté d’exécuter le fonctionnement du logiciel
- 2 : liberté de redistribuer des copies
- 3 : liberté d’améliorer le logiciel et de faire connaître ces améliorations.
Les projets libres comprennent trois phases :
- un contributeur/un utilisateur (institution ou personne)
- un contributeur/plusieurs utilisateurs
- plusieurs contributeurs/plusieurs utilisateurs (objectif à atteindre, le faible nombre de contributeurs
menaçant la pérennité de l’outil).
La contribution peut revêtir plusieurs formes (utilisateurs avertis, producteurs de contenu…).
Les applications génériques développées à partir d’outils libres permettent l’échange de documents, la mise en
place de nouveaux portails, l’archivage numérique de documents dont la structure est normalisée grâce aux DTD
ou aux schémas XML. Réutilisables, elles ont des fonctionnalités communes (faire des recherches dans des bases
de données, publier des séries d’images numérisées) et constituent des solutions clés en main, personnalisables.
Exemples d’applications génériques
Initiative des sociétés AJLSM et Anaphore, PLEADE (http://www.pleade.org/) est un outil libre permettant de
diffuser des instruments de recherche archivistiques structurés en XML/EAD dans une architecture Web, avec un
puissant moteur de recherche ainsi que de nombreuses possibilités d'adaptation. Il s’agit également d’une
application SDX (voir ci-après les nouvelles fonctionnalités de PLEADE). Navimages
(http://sdx.archivesdefrance.culture.gouv.fr/gpl/navimages) est une application générique pour la gestion, la
recherche et la consultation en ligne de lots d'images numériques, développée par AJLSM dans le cadre d'un
marché public passé par la direction des Archives de France. PLEADE et Navimages sont utilisables
conjointement.
XtoGen (http://xtogen.tech.fr/) permet de publier sur Internet ou de rendre accessible en extranet/intranet des
bases de données, des fichiers de tableurs ou des données XML composées. XtoGen permet à un utilisateur peu
technicien de créer une application SDX2 rapidement fonctionnelle (indexation, navigation et recherche dans des
collections de documents XML), internationalisée et multi-bases, de créer des prototypes d’application pour les
développeurs, et de se concentrer sur la présentation et non sur l’utilisation de briques techniques. Quelques
applications multilingues ont déjà été réalisées avec XtoGen, dont le portail franco-italien des fonds numérisés,
dans le cadre du projet européen Minerva (http://vernier.gamsau.archi.fr:9000/sdx/anum_portal/index.xsp).
STRABON (http://www.strabon.org/) est une plate-forme numérique de formation, de production et de diffusion
de contenus multimédias culturels et touristiques sur le patrimoine méditerranéen. Le programme STRABON,
inscrit dans l’initiative EUMEDIS d’un contrat de subvention entre la Commission européenne et la Fondation
Maison des Sciences de l’Homme (FMSH), réunit aux côtés de la Fondation, dans le Consortium STRABON,
dix-neuf partenaires issus de quatre pays de la rive nord et huit pays des rives sud et orientale de la Méditerranée.
L’interopérabilité est la clé de voûte du système d’information. STRABON s’appuie en effet sur des formats de
données ouverts, des systèmes d’information répartis (OAI) et des formats d’échange communs (XML) et fait
appel à la normalisation des systèmes de gestion documentaires (modèles de données, thesaurus et
multilinguisme).
La plate-forme Cyberdocs (http://sourcesup.cru.fr/cybertheses/) offre des outils, mais également un modèle,
permettant à une institution de publier de la documentation scientifique, par exemple des thèses, des rapports,
des revues, etc. Cyberdocs est une plate-forme libre (licence GPL) et utilise elle-même des logiciels libres. Le
modèle de publication de Cyberdocs consiste à produire un document structuré en format XML (DTD TEILite),
document qui devient ainsi le document de référence servant à l'archivage et à la publication. Le processus de
publication comporte cinq étapes : préparation des documents (utiliser des styles pour identifier des parties du
contenu, s'assurer que les styles Titre 1, Titre 2 sont utilisés pour la table des matières, etc.), préparation des
métadonnées associées au document (essentiellement du Dublin Core), conversion du document en XML
conformément à la DTD TEILite, production des fichiers pour une diffusion statique (HTML, XHTML et PDF),
publication permettant des recherches documentaires précises à l'intérieur d'un document ou dans une collection
de documents publiés.
Exemples de sites en exploitation ou en développement
Lancé pour les commémorations du 400e anniversaire du premier établissement français en Amérique du Nord,
le portail France-Canada (http://www.archivescanadafrance.org/) met à la disposition des internautes divers
produits (une base de données et une exposition virtuelle présentant 350 documents) permettant de mieux
connaître l'établissement des Français au Canada et l’histoire commune des deux peuples français et canadien.
Ce projet, porté par la Direction des Archives de France, Bibliothèque et Archives Canada, et l’Ambassade du
Canada en France, a été développé par des équipes scientifiques et techniques franco-canadiennes. Il concerne au
Canada les ANC, les ANQ, et en France plusieurs services d'archives (CHAN, CAOM, Archives
départementales des Pyrénées-Atlantiques, de Charente-Maritime…). La base de données recense déjà plus de
20 000 notices descriptives (structurées en XML/EAD) des cartes, plans, journaux de voyage, minutes notariales
et actes administratifs tirés des fonds français et canadiens. Le site utilise également Navimages, permettant ainsi
la consultation de 400 000 documents numérisés. La base de données continuera à s’enrichir grâce à de
nouveaux partenariats avec des institutions d'archives françaises et canadiennes.
En 2003, la société Medusis a mis en place pour le quotidien La Croix et le bi-mensuel La Documentation
Catholique (groupe Bayard Presse) un outil d’interrogation de leurs archives (http://www.la-croix.com/archives/
et http://www.doc-catho.com/) : la totalité des articles de ces deux journaux depuis 1996 (La Croix) et 1998 (La
Documentation catholique) sont interrogeables en texte intégral et par mots-clé.
Les travaux ont porté sur :
- la construction d'un outil de transformation des documents, d'un format propriétaire vers XML
- la transformation du stock de documents existants (environ 160 000 documents)
- la transformation à la volée des nouveaux articles produits chaque jour
- la conception et la mise en œuvre d’une application SDX pour la recherche et la consultation des documents.
Le site OSIRIS (http://sfsdap.culture.fr/sdx/osiris/index.xsp) permet de consulter les images numériques
produites par les Services départementaux de l'architecture et du patrimoine (SDAP). Il est possible de consulter
les images propres à un service départemental en sélectionnant ce service sur une carte. On peut également
effectuer des recherches simples ou multicritères sur l’ensemble des notices.
Le Service Commun de la Documentation de Lille 3 a constitué une bibliothèque numérique d'histoire régionale
réunissant un corpus d'ouvrages du XIXe siècle accessibles en texte intégral sur Internet (http://nordnum.univlille3.fr/nordnum2.html). Le système offre les fonctionnalités suivantes : recherche en mode texte sur les notices,
index et tables des matières des ouvrages, affichage et feuilletage des ouvrages, impression de la page ou des
pages recherchées, téléchargement possible des ouvrages. Un enrichissement est prévu, par la mise en ligne de
documents conservés par d’autres bibliothèques ou services d'archives de la région.
Pistes de recherche et développement
Le but du projet OAIH est le développement d'une application générique capable de moissonner des
métadonnées au format Dublin Core selon le protocole OAI-PMH (Open Archive Initiative Protocol for
Metadata Harvesting ou Protocole de Collecte de Métadonnées de l’Initiative Archives Ouvertes). Le fournisseur
de service moissonne ces métadonnées suivant une périodicité à déterminer et, en stockant leur adresse URL,
permet de pointer directement sur les ressources. Le noyau de l'application est constitué d'une base SDX générée
par la version 2 de XtoGEN 2 en cours de développement.
Le portail Aquitaine patrimoines (http://ajlsm-sdx.hopto.org/sdx-bnsa/pa-portail/index.html) est un exemple de
portail intégrateur d’information suivant le protocole OAI et permettant de donner un accès unifié à des sources
diverses d’information documentaire.
Le langage GML (Geographical Markup Language) de l'OGC, Open GIS Consortium (URL :
http://www.opengis.org/) permet de gérer des informations géographiques. Le GML est une spécification pour la
modélisation, l’échange et la gestion d'informations géographiques en XML. Il fournit un ensemble d'objets pour
décrire le relief, les coordonnées géodésiques, la topologie, les unités de mesure, et il permet de décrire des
entités géographiques indépendamment de leur représentation sur une carte : nature, forme géométrique,
coordonnées, topologie. S’appuyant sur le GML, le projet GeoRef a pour but de développer une application
destinée à montrer comment présenter sur une carte les résultats de requêtes sur des documents géoréférencés.
Pour en savoir plus : http://vernier.gamsau.archi.fr:8080/JSPWiki/Wiki.jsp?page=Main
_________________________________________________________________________________________
L’outil de publication de documents XML/EAD Pleade : nouveautés
Le 23 mars dernier, Florence Clavaud (Centre historique des Archives nationales) a organisé une journée de
présentation de Pleade (concepts, fonctionnalités, exemples d'utilisation, possibilités de configuration,
problématiques éditoriales et techniques). Une vingtaine de personnes (DAF, CAOM, CHAN, Archives
départementales des Pyrénées-Atlantiques, du Lot-et-Garonne et des Yvelines, BnF, Museum national d'histoire
naturelle, ENSSIB, Bibliothèque nationale suisse) sont venues.
Cet outil de publication (et non de production ou de gestion) de documents XML/EAD est téléchargeable et
utilisable depuis l'automne 2003. Sa version 1.0 devrait être prochainement rendue disponible. PLEADE est un
outil libre sous licence GPL, copiable, utilisable et exploitable à volonté, pourvu que les droits moraux soient
respectés et que la licence GPL se trouve inscrite dans chacun des fichiers composant le logiciel. Cet outil
fonctionne sur la plate-forme SDX, elle-même entièrement composée de logiciels libres.
Les concepts de base de SDX, les concepts et fonctionnalités de PLEADE, les modalités d'utilisation de
PLEADE par les personnes responsables des documents XML/EAD (publication des instruments de recherche
selon des paramètres à définir au moyen d'un formulaire) et un aperçu des possibilités de configuration et
d'adaptation de PLEADE ont été présentés.
Des applications PLEADE sont ou seront bientôt accessibles sur Internet : inventaires en format EAD des
Archives littéraires suisses (http://ida.snl.ch ), Muséum national d'histoire naturelle,...
L'application PLEADE / Navimages du Centre historique des Archives nationales est accessible depuis tout
ordinateur connecté au réseau intranet du ministère de la Culture à l'adresse suivante :
http://chan1.culture.gouv.fr/sdx/pleadechanv6/
Par rapport aux fonctionnalités décrites dans le bulletin n° 14 de l'EAD (création de pages de présentation et
d'aide, organisation des instruments de recherche par type de fonds/collections ou par type d'instrument de
recherche, recherche documentaire simple/avancée, consultation des documents...), l'outil a connu de nouveaux
développements. Il permet notamment :
- de générer des liens hypertextes, depuis un élément du document EAD vers un autre élément du même
document, mais aussi vers d'autres documents EAD publiés dans l'application, vers des documents attachés au
document EAD (fichiers PDF, images...), vers des pages Web, vers des images numériques consultables en lots
au moyen du logiciel Navimages
- de disposer dans les formulaires de recherche avancée de listes déroulantes de valeurs pour les éléments EAD
indexés
- de faire des recherches par intervalle de dates
- de bénéficier de formats de présentation des documents EAD soignés et adaptables
La documentation du projet PLEADE a également été fortement enrichie.
Pour tous renseignements complémentaires, le site Web du projet est la meilleure source d'information :
http://www.pleade.org/
__________________________________________________________________________________________
Formations
Depuis le dernier bulletin, deux formations à l’EAD ont été dispensées dans le cadre du DUT Métiers du livre de
l’Université Paris X (Médiadix) et de la Maîtrise Sciences de l’information et documentation de l’Université
Lyon III Jean Moulin.
Par ailleurs, Marianne Clatin, chartiste élève-conservateur de la promotion DCB12, a effectué à l’été 2003 son
stage à la Bibliothèque de l'Université de Berkeley où elle a pu utiliser un outil “maison” baptisé EAD Express
qui permet de réaliser un balisage EAD à partir de Microsoft Word.
Prochaines formations EAD proposées par le bureau des formations de la direction des Archives de France :
-
du 5 au 7 avril (Archives nationales, Paris, salle informatique) : la DTD-EAD, principes et mise en œuvre
(présentation rapide de XML et de modèles de données, présentation de la DTD EAD 2002, exercices
pratiques d’encodage, les outils de publication)
-
du 1er au 4 juin (Centre des archives d’outre-mer, Aix-en-Provence) : la DTD EAD 2002, évolution, outils
de diffusion, étude de cas concrets (présentation de l’EAD 2002, différences avec l’EAD 1.0, actualité de
l’EAD, atelier pratique d’encodage en EAD/XML, nouveaux outils de diffusion).
_________________________________________________________________________________________
Lu pour vous
“ Describing anything that walks : the problem behind the problem of EAD ”, Mathew Y. Eidson, dans Journal
of Archival Organization, Vol. 25, No.4, 2003.
Format indépendant des plates-formes logicielles et fondé sur des principes archivistiques (description à
plusieurs niveaux, non redondance des informations d’un niveau à un autre…), la DTD EAD a été adoptée
massivement par de nombreuses institutions patrimoniales. Alors où est le problème ? “ Is EAD DEAD ? ”. Telle
est la question cruciale à laquelle Mathew Eidson tente de répondre, en recensant les différents reproches qui
peuvent être faits à l’EAD.
•
•
•
•
•
•
•
•
L’EAD n’est peut-être pas le meilleur outil de description à plusieurs niveaux pour toutes les institutions.
Elle a notamment été rejetée par le NARA en raison de son manque d’interopérabilité avec la base de
données NAIL (NARA Archival Information Locator).
L’EAD a-t-elle suffisamment pris en compte les besoins des utilisateurs ? Les utilisateurs n’ont pas été
associés à la conception de l’EAD. L’EAD a été conçue comme un outil de conversion rétrospective
d’instruments de recherche existants ou comme un outil de production de nouveaux instruments de
recherche. Or, les chercheurs ont souvent accusé les archivistes de créer des instruments de recherche pour
eux-mêmes et non pas pour le public des archives. Par ailleurs, les internautes se heurtent aujourd’hui aux
problèmes d’interface, au manque de contextualisation du contenu et aux difficultés de compréhension du
vocabulaire des instruments de recherche.
On ne rend pas assez compte de l’évaluation dans la description archivistique. L’EAD et la plupart des
standards de description ignorent l’évaluation comme fonction archivistique fondamentale visant à
déterminer l'utilité administrative, l'intérêt historique et le traitement final des documents. Or, l’évaluation
conditionne la description. La description archivistique doit s’appliquer à tous les âges des archives.
Les documents SGML/XML ne peuvent pas être lus par n’importe quel navigateur. Soit l’institution doit
convertir le document en HTML, soit l’utilisateur doit télécharger un navigateur additionnel pour lire le
document. Ceci est la négation de la vocation initiale de l’EAD qui était d’être un format non propriétaire.
Un autre problème technique est constitué par le positionnement des points d’accès qui sont quelquefois
placés trop en profondeur dans le document EAD ; les points d’accès placés dans l’en-tête EAD tels que
l’intitulé du fonds ou de la collection décrits donnent de meilleurs résultats à la recherche.
L’encodage est coûteux en temps et est lourd à mettre en œuvre.
L’EAD est un standard de structuration de données et d’encodage, mais il n’a pas été conçu pour être un
standard de description. L’EAD spécifie la structure et la syntaxe des instruments de recherche mais
n’indique pas quels sont les éléments obligatoires, donne rarement des indications sur leur ordre et leur
fréquence d’utilisation et ne décrit pas la forme ou la nature du contenu de ces éléments.
Enfin, les résultats des recherches dépendent souvent de la persévérance des utilisateurs, de leur familiarité
avec les pratiques locales de description archivistique.
L’Association des archivistes français (AAF, http://www.archivistes.org/) vient de publier un Abrégé
d'archivistique, présentant l’ensemble des notions archivistiques de façon concrète. Cet ouvrage de 240 pages
contient un chapitre intitulé "les instruments de recherche : la mise en œuvre des nouvelles technologies". Ce
chapitre écrit par Martin Sévigny (société AJLSM) et Florence Clavaud (Centre historique des Archives
nationales) donne en une vingtaine de pages, accompagnées d'exemples de documents ou segments XML, une
définition de l'information structurée, une présentation des avantages inhérents à l'utilisation du langage XML et
des DTD EAD et EAC, et des repères pour la mise en œuvre de ces nouveaux modèles et standards, en terminant
par un aperçu des perspectives offertes par la mise en relation des instruments de recherche XML/EAD avec les
images numériques des documents.
_________________________________________________________________________________________
Merci de faire parvenir toute information ou tout article pour le prochain numéro à : Claire Sibille, Direction des
Archives de France, Département de l’innovation technologique et de la normalisation