N° 15 avril 2004 - Archives de France
Transcription
N° 15 avril 2004 - Archives de France
Direction des Archives de France Bulletin d’information francophone sur l’EAD, n°15 avril Sommaire Journées européennes sur les DTD EADet EAC Journée sur la documentation numérique culturelle et les logiciels libres L’outil de publication de documents XML/EAD Pleade : nouveautés Formations Lu pour vous __________________________________________________________________________________________ Journées européennes sur les DTD EAD et EAC Deux ans après la tenue, dans le grand auditorium de la Bibliothèque nationale de France, d’une journée d’étude sur la DTD EAD et ses applications patrimoniales dans les archives et les bibliothèques, la direction des Archives de France souhaite organiser, les 7 et 8 octobre 2004, des journées européennes sur les outils informatiques permettant de structurer en XML, les instruments de recherche de type archivistiques et les données d’autorité. La dernière conférence européenne sur le sujet avait eu lieu au Public Record Office à Kew, en octobre 1999. L’EAD est à présent parfaitement établie en Amérique du Nord et dans le reste du monde, et elle a atteint sa maturité technique tout en continuant d’évoluer pour prendre en compte les transformations technologiques. Des programmes de formation ont été mis en place. Des manuels et des guides d’application ont été rédigés. De nombreuses institutions utilisatrices, en France, au Royaume-Uni, en Allemagne, aux Pays-Bas ou en Espagne ont élaboré des solutions originales pour l’encodage et la publication de leurs instruments de recherche. Le temps semble donc venu de dresser un bilan des réalisations et de favoriser ainsi l’échange d’expériences. Parfaitement compatible avec la norme internationale sur les notices d’autorité (collectivités, personnes, familles) ISAAR(CPF), complémentaire du format UNIMARC/Autorités, l’EAC est une combinaison des notices d’autorité bibliographiques et des notices d’autorité archivistiques, qui donnent des informations sur le producteur et le contexte de production des documents La version 1.0 du dictionnaire des balises de l’EAC devrait être rendue disponible en 2004. Des tests de conversion de données d’autorité en format EAC/XML ont déjà été réalisés, notamment dans le cadre du projet LEAF (“ Relier et Explorer les fichiers d'autorités ”) où les notices locales seront chargées depuis les serveurs des différentes institutions partenaires vers un système central permettant de les relier les unes avec les autres quand elles relèvent d’une même entité. Les participants présenteront les résultats de leurs recherches et leurs idées sur différents sous-thèmes : - pré-requis pour l’implémentation de l’EAD : réflexion en matière de normalisation, formation ; - mise en œuvre de l’EAD : outils de production, interopérabilité, compatibilité avec d’autres standards ; - publication des documents EAD/XML : outils de diffusion, construction d’applications documentaires à partir de documents stockés sur un serveur web en XML natif ; - la DTD EAC et les premiers exemples d’encodage en XML de données d’autorité. _________________________________________________________________________________________ Journée sur la documentation numérique culturelle et les logiciels libres Créée à la fin de l’année 2003, l’association ADNX (http://www.adnx.org) a pour objet de favoriser la diffusion et la promotion de la documentation numérique en XML. ADNX souhaite favoriser la diffusion, la promotion et l’évolution de la plate-forme logicielle SDX, outil de consultation de documents XML qui s’appuie sur le moteur de recherche Lucene, ainsi que des applications qui en découlent, auprès d’utilisateurs publics et privés. Le 9 mars 2004, à l’Institut Pasteur, ADNX a organisé une journée sur la documentation scientifique numérique et les logiciels libres. Les utilisateurs des logiciels libres peuvent intervenir sur leur développement ou leur intégration. La Free Software Foundation a défini quatre libertés, numérotées de 0 à 3 : - 0 : liberté d’exécuter le logiciel - 1 : liberté d’exécuter le fonctionnement du logiciel - 2 : liberté de redistribuer des copies - 3 : liberté d’améliorer le logiciel et de faire connaître ces améliorations. Les projets libres comprennent trois phases : - un contributeur/un utilisateur (institution ou personne) - un contributeur/plusieurs utilisateurs - plusieurs contributeurs/plusieurs utilisateurs (objectif à atteindre, le faible nombre de contributeurs menaçant la pérennité de l’outil). La contribution peut revêtir plusieurs formes (utilisateurs avertis, producteurs de contenu…). Les applications génériques développées à partir d’outils libres permettent l’échange de documents, la mise en place de nouveaux portails, l’archivage numérique de documents dont la structure est normalisée grâce aux DTD ou aux schémas XML. Réutilisables, elles ont des fonctionnalités communes (faire des recherches dans des bases de données, publier des séries d’images numérisées) et constituent des solutions clés en main, personnalisables. Exemples d’applications génériques Initiative des sociétés AJLSM et Anaphore, PLEADE (http://www.pleade.org/) est un outil libre permettant de diffuser des instruments de recherche archivistiques structurés en XML/EAD dans une architecture Web, avec un puissant moteur de recherche ainsi que de nombreuses possibilités d'adaptation. Il s’agit également d’une application SDX (voir ci-après les nouvelles fonctionnalités de PLEADE). Navimages (http://sdx.archivesdefrance.culture.gouv.fr/gpl/navimages) est une application générique pour la gestion, la recherche et la consultation en ligne de lots d'images numériques, développée par AJLSM dans le cadre d'un marché public passé par la direction des Archives de France. PLEADE et Navimages sont utilisables conjointement. XtoGen (http://xtogen.tech.fr/) permet de publier sur Internet ou de rendre accessible en extranet/intranet des bases de données, des fichiers de tableurs ou des données XML composées. XtoGen permet à un utilisateur peu technicien de créer une application SDX2 rapidement fonctionnelle (indexation, navigation et recherche dans des collections de documents XML), internationalisée et multi-bases, de créer des prototypes d’application pour les développeurs, et de se concentrer sur la présentation et non sur l’utilisation de briques techniques. Quelques applications multilingues ont déjà été réalisées avec XtoGen, dont le portail franco-italien des fonds numérisés, dans le cadre du projet européen Minerva (http://vernier.gamsau.archi.fr:9000/sdx/anum_portal/index.xsp). STRABON (http://www.strabon.org/) est une plate-forme numérique de formation, de production et de diffusion de contenus multimédias culturels et touristiques sur le patrimoine méditerranéen. Le programme STRABON, inscrit dans l’initiative EUMEDIS d’un contrat de subvention entre la Commission européenne et la Fondation Maison des Sciences de l’Homme (FMSH), réunit aux côtés de la Fondation, dans le Consortium STRABON, dix-neuf partenaires issus de quatre pays de la rive nord et huit pays des rives sud et orientale de la Méditerranée. L’interopérabilité est la clé de voûte du système d’information. STRABON s’appuie en effet sur des formats de données ouverts, des systèmes d’information répartis (OAI) et des formats d’échange communs (XML) et fait appel à la normalisation des systèmes de gestion documentaires (modèles de données, thesaurus et multilinguisme). La plate-forme Cyberdocs (http://sourcesup.cru.fr/cybertheses/) offre des outils, mais également un modèle, permettant à une institution de publier de la documentation scientifique, par exemple des thèses, des rapports, des revues, etc. Cyberdocs est une plate-forme libre (licence GPL) et utilise elle-même des logiciels libres. Le modèle de publication de Cyberdocs consiste à produire un document structuré en format XML (DTD TEILite), document qui devient ainsi le document de référence servant à l'archivage et à la publication. Le processus de publication comporte cinq étapes : préparation des documents (utiliser des styles pour identifier des parties du contenu, s'assurer que les styles Titre 1, Titre 2 sont utilisés pour la table des matières, etc.), préparation des métadonnées associées au document (essentiellement du Dublin Core), conversion du document en XML conformément à la DTD TEILite, production des fichiers pour une diffusion statique (HTML, XHTML et PDF), publication permettant des recherches documentaires précises à l'intérieur d'un document ou dans une collection de documents publiés. Exemples de sites en exploitation ou en développement Lancé pour les commémorations du 400e anniversaire du premier établissement français en Amérique du Nord, le portail France-Canada (http://www.archivescanadafrance.org/) met à la disposition des internautes divers produits (une base de données et une exposition virtuelle présentant 350 documents) permettant de mieux connaître l'établissement des Français au Canada et l’histoire commune des deux peuples français et canadien. Ce projet, porté par la Direction des Archives de France, Bibliothèque et Archives Canada, et l’Ambassade du Canada en France, a été développé par des équipes scientifiques et techniques franco-canadiennes. Il concerne au Canada les ANC, les ANQ, et en France plusieurs services d'archives (CHAN, CAOM, Archives départementales des Pyrénées-Atlantiques, de Charente-Maritime…). La base de données recense déjà plus de 20 000 notices descriptives (structurées en XML/EAD) des cartes, plans, journaux de voyage, minutes notariales et actes administratifs tirés des fonds français et canadiens. Le site utilise également Navimages, permettant ainsi la consultation de 400 000 documents numérisés. La base de données continuera à s’enrichir grâce à de nouveaux partenariats avec des institutions d'archives françaises et canadiennes. En 2003, la société Medusis a mis en place pour le quotidien La Croix et le bi-mensuel La Documentation Catholique (groupe Bayard Presse) un outil d’interrogation de leurs archives (http://www.la-croix.com/archives/ et http://www.doc-catho.com/) : la totalité des articles de ces deux journaux depuis 1996 (La Croix) et 1998 (La Documentation catholique) sont interrogeables en texte intégral et par mots-clé. Les travaux ont porté sur : - la construction d'un outil de transformation des documents, d'un format propriétaire vers XML - la transformation du stock de documents existants (environ 160 000 documents) - la transformation à la volée des nouveaux articles produits chaque jour - la conception et la mise en œuvre d’une application SDX pour la recherche et la consultation des documents. Le site OSIRIS (http://sfsdap.culture.fr/sdx/osiris/index.xsp) permet de consulter les images numériques produites par les Services départementaux de l'architecture et du patrimoine (SDAP). Il est possible de consulter les images propres à un service départemental en sélectionnant ce service sur une carte. On peut également effectuer des recherches simples ou multicritères sur l’ensemble des notices. Le Service Commun de la Documentation de Lille 3 a constitué une bibliothèque numérique d'histoire régionale réunissant un corpus d'ouvrages du XIXe siècle accessibles en texte intégral sur Internet (http://nordnum.univlille3.fr/nordnum2.html). Le système offre les fonctionnalités suivantes : recherche en mode texte sur les notices, index et tables des matières des ouvrages, affichage et feuilletage des ouvrages, impression de la page ou des pages recherchées, téléchargement possible des ouvrages. Un enrichissement est prévu, par la mise en ligne de documents conservés par d’autres bibliothèques ou services d'archives de la région. Pistes de recherche et développement Le but du projet OAIH est le développement d'une application générique capable de moissonner des métadonnées au format Dublin Core selon le protocole OAI-PMH (Open Archive Initiative Protocol for Metadata Harvesting ou Protocole de Collecte de Métadonnées de l’Initiative Archives Ouvertes). Le fournisseur de service moissonne ces métadonnées suivant une périodicité à déterminer et, en stockant leur adresse URL, permet de pointer directement sur les ressources. Le noyau de l'application est constitué d'une base SDX générée par la version 2 de XtoGEN 2 en cours de développement. Le portail Aquitaine patrimoines (http://ajlsm-sdx.hopto.org/sdx-bnsa/pa-portail/index.html) est un exemple de portail intégrateur d’information suivant le protocole OAI et permettant de donner un accès unifié à des sources diverses d’information documentaire. Le langage GML (Geographical Markup Language) de l'OGC, Open GIS Consortium (URL : http://www.opengis.org/) permet de gérer des informations géographiques. Le GML est une spécification pour la modélisation, l’échange et la gestion d'informations géographiques en XML. Il fournit un ensemble d'objets pour décrire le relief, les coordonnées géodésiques, la topologie, les unités de mesure, et il permet de décrire des entités géographiques indépendamment de leur représentation sur une carte : nature, forme géométrique, coordonnées, topologie. S’appuyant sur le GML, le projet GeoRef a pour but de développer une application destinée à montrer comment présenter sur une carte les résultats de requêtes sur des documents géoréférencés. Pour en savoir plus : http://vernier.gamsau.archi.fr:8080/JSPWiki/Wiki.jsp?page=Main _________________________________________________________________________________________ L’outil de publication de documents XML/EAD Pleade : nouveautés Le 23 mars dernier, Florence Clavaud (Centre historique des Archives nationales) a organisé une journée de présentation de Pleade (concepts, fonctionnalités, exemples d'utilisation, possibilités de configuration, problématiques éditoriales et techniques). Une vingtaine de personnes (DAF, CAOM, CHAN, Archives départementales des Pyrénées-Atlantiques, du Lot-et-Garonne et des Yvelines, BnF, Museum national d'histoire naturelle, ENSSIB, Bibliothèque nationale suisse) sont venues. Cet outil de publication (et non de production ou de gestion) de documents XML/EAD est téléchargeable et utilisable depuis l'automne 2003. Sa version 1.0 devrait être prochainement rendue disponible. PLEADE est un outil libre sous licence GPL, copiable, utilisable et exploitable à volonté, pourvu que les droits moraux soient respectés et que la licence GPL se trouve inscrite dans chacun des fichiers composant le logiciel. Cet outil fonctionne sur la plate-forme SDX, elle-même entièrement composée de logiciels libres. Les concepts de base de SDX, les concepts et fonctionnalités de PLEADE, les modalités d'utilisation de PLEADE par les personnes responsables des documents XML/EAD (publication des instruments de recherche selon des paramètres à définir au moyen d'un formulaire) et un aperçu des possibilités de configuration et d'adaptation de PLEADE ont été présentés. Des applications PLEADE sont ou seront bientôt accessibles sur Internet : inventaires en format EAD des Archives littéraires suisses (http://ida.snl.ch ), Muséum national d'histoire naturelle,... L'application PLEADE / Navimages du Centre historique des Archives nationales est accessible depuis tout ordinateur connecté au réseau intranet du ministère de la Culture à l'adresse suivante : http://chan1.culture.gouv.fr/sdx/pleadechanv6/ Par rapport aux fonctionnalités décrites dans le bulletin n° 14 de l'EAD (création de pages de présentation et d'aide, organisation des instruments de recherche par type de fonds/collections ou par type d'instrument de recherche, recherche documentaire simple/avancée, consultation des documents...), l'outil a connu de nouveaux développements. Il permet notamment : - de générer des liens hypertextes, depuis un élément du document EAD vers un autre élément du même document, mais aussi vers d'autres documents EAD publiés dans l'application, vers des documents attachés au document EAD (fichiers PDF, images...), vers des pages Web, vers des images numériques consultables en lots au moyen du logiciel Navimages - de disposer dans les formulaires de recherche avancée de listes déroulantes de valeurs pour les éléments EAD indexés - de faire des recherches par intervalle de dates - de bénéficier de formats de présentation des documents EAD soignés et adaptables La documentation du projet PLEADE a également été fortement enrichie. Pour tous renseignements complémentaires, le site Web du projet est la meilleure source d'information : http://www.pleade.org/ __________________________________________________________________________________________ Formations Depuis le dernier bulletin, deux formations à l’EAD ont été dispensées dans le cadre du DUT Métiers du livre de l’Université Paris X (Médiadix) et de la Maîtrise Sciences de l’information et documentation de l’Université Lyon III Jean Moulin. Par ailleurs, Marianne Clatin, chartiste élève-conservateur de la promotion DCB12, a effectué à l’été 2003 son stage à la Bibliothèque de l'Université de Berkeley où elle a pu utiliser un outil “maison” baptisé EAD Express qui permet de réaliser un balisage EAD à partir de Microsoft Word. Prochaines formations EAD proposées par le bureau des formations de la direction des Archives de France : - du 5 au 7 avril (Archives nationales, Paris, salle informatique) : la DTD-EAD, principes et mise en œuvre (présentation rapide de XML et de modèles de données, présentation de la DTD EAD 2002, exercices pratiques d’encodage, les outils de publication) - du 1er au 4 juin (Centre des archives d’outre-mer, Aix-en-Provence) : la DTD EAD 2002, évolution, outils de diffusion, étude de cas concrets (présentation de l’EAD 2002, différences avec l’EAD 1.0, actualité de l’EAD, atelier pratique d’encodage en EAD/XML, nouveaux outils de diffusion). _________________________________________________________________________________________ Lu pour vous “ Describing anything that walks : the problem behind the problem of EAD ”, Mathew Y. Eidson, dans Journal of Archival Organization, Vol. 25, No.4, 2003. Format indépendant des plates-formes logicielles et fondé sur des principes archivistiques (description à plusieurs niveaux, non redondance des informations d’un niveau à un autre…), la DTD EAD a été adoptée massivement par de nombreuses institutions patrimoniales. Alors où est le problème ? “ Is EAD DEAD ? ”. Telle est la question cruciale à laquelle Mathew Eidson tente de répondre, en recensant les différents reproches qui peuvent être faits à l’EAD. • • • • • • • • L’EAD n’est peut-être pas le meilleur outil de description à plusieurs niveaux pour toutes les institutions. Elle a notamment été rejetée par le NARA en raison de son manque d’interopérabilité avec la base de données NAIL (NARA Archival Information Locator). L’EAD a-t-elle suffisamment pris en compte les besoins des utilisateurs ? Les utilisateurs n’ont pas été associés à la conception de l’EAD. L’EAD a été conçue comme un outil de conversion rétrospective d’instruments de recherche existants ou comme un outil de production de nouveaux instruments de recherche. Or, les chercheurs ont souvent accusé les archivistes de créer des instruments de recherche pour eux-mêmes et non pas pour le public des archives. Par ailleurs, les internautes se heurtent aujourd’hui aux problèmes d’interface, au manque de contextualisation du contenu et aux difficultés de compréhension du vocabulaire des instruments de recherche. On ne rend pas assez compte de l’évaluation dans la description archivistique. L’EAD et la plupart des standards de description ignorent l’évaluation comme fonction archivistique fondamentale visant à déterminer l'utilité administrative, l'intérêt historique et le traitement final des documents. Or, l’évaluation conditionne la description. La description archivistique doit s’appliquer à tous les âges des archives. Les documents SGML/XML ne peuvent pas être lus par n’importe quel navigateur. Soit l’institution doit convertir le document en HTML, soit l’utilisateur doit télécharger un navigateur additionnel pour lire le document. Ceci est la négation de la vocation initiale de l’EAD qui était d’être un format non propriétaire. Un autre problème technique est constitué par le positionnement des points d’accès qui sont quelquefois placés trop en profondeur dans le document EAD ; les points d’accès placés dans l’en-tête EAD tels que l’intitulé du fonds ou de la collection décrits donnent de meilleurs résultats à la recherche. L’encodage est coûteux en temps et est lourd à mettre en œuvre. L’EAD est un standard de structuration de données et d’encodage, mais il n’a pas été conçu pour être un standard de description. L’EAD spécifie la structure et la syntaxe des instruments de recherche mais n’indique pas quels sont les éléments obligatoires, donne rarement des indications sur leur ordre et leur fréquence d’utilisation et ne décrit pas la forme ou la nature du contenu de ces éléments. Enfin, les résultats des recherches dépendent souvent de la persévérance des utilisateurs, de leur familiarité avec les pratiques locales de description archivistique. L’Association des archivistes français (AAF, http://www.archivistes.org/) vient de publier un Abrégé d'archivistique, présentant l’ensemble des notions archivistiques de façon concrète. Cet ouvrage de 240 pages contient un chapitre intitulé "les instruments de recherche : la mise en œuvre des nouvelles technologies". Ce chapitre écrit par Martin Sévigny (société AJLSM) et Florence Clavaud (Centre historique des Archives nationales) donne en une vingtaine de pages, accompagnées d'exemples de documents ou segments XML, une définition de l'information structurée, une présentation des avantages inhérents à l'utilisation du langage XML et des DTD EAD et EAC, et des repères pour la mise en œuvre de ces nouveaux modèles et standards, en terminant par un aperçu des perspectives offertes par la mise en relation des instruments de recherche XML/EAD avec les images numériques des documents. _________________________________________________________________________________________ Merci de faire parvenir toute information ou tout article pour le prochain numéro à : Claire Sibille, Direction des Archives de France, Département de l’innovation technologique et de la normalisation