Les Archives électroniques Manuel Pratique

Transcription

Les archives électroniques
Manuel pratique
Direction des Archives de France
février 2002
Catherine Dhérent
conservateur général
avec la collaboration de
Françoise Banat-Berger (Ministère de la Justice), Christian Biard (SNCF), Bruno Delmas (École des Chartes), Geneviève Drouhet (groupe Médéric), Thibaut Girard (EDFGDF), Claude Huc (Centre National d'Études spatiales), Marie-Noëlle Leblanc (Centre des archives contemporaines), Christian Perrot (SNCF), Joël Poivre (Direction des
Archives de France) et les membres du groupe de réflexion de la Direction des Archives de France sur la conservation des documents électroniques
Nous remercions aussi pour la relecture
Claude Aubrie (INRIA, Direction de l'Informations Scientifique et de la Communication) et Julien Masanès (Bibliothèque nationale de France)
Membres du groupe de réflexion de la Direction des Archives de France sur l'archivage des documents électroniques
sous la présidence de Martine de Boisdeffre, directrice des Archives de France
Françoise Banat-Berger, Ministère de la Justice, chef du service des archives
Philippe Barbat, Direction des Archives de France
file:///C|/Documents%20and%20Settings/SISSA2/Bureau/conversioncirculaires/DAFmanuel%20version%207.html (1 sur 73)18/04/2008 16:17:06
Archives de France, archivistique, documents electronique,
Jean Bartolt, Ministère de l'Intérieur
David Barthe, Assemblée des départements de France
Jean-Louis Beaufrère, consultant
Agnès Chauvet, Conseil général du Var
Olivia Perez, Ministère des Affaires étrangères
Florence Clavaud, Centre historique des Archives nationales, responsable du service des Nouvelles technologies de l’information et de la communication
Rosine Cleyet-Michaud, Archives départementales du Nord, directrice
Martine Cornède, Direction des Archives de France, inspectrice générale
Catherine Dhérent, Direction des Archives de France, responsable du département Innovation technologique et normalisation
Geneviève Drouhet, groupe Médéric
Gérard Ermisse, Direction des Archives de France, chef de l’Inspection générale
Geneviève Etienne, Archives départementales du Var, directrice
Pierre Fuzeau, SERDA
Véronique Godefroy, Ministère des Affaires étrangères
Claude Huc, Centre national d'Études spatiales
Frédérique Jacquet, Archives municipales de Saint-Denis
Marie-Claude De La Godelinais, Institut national de la statistique et des études économiques (INSEE)
Jean-Pierre Lalaut, Direction des Archives de France
Isabelle de Lamberterie, CECOJI-CNRS
Marie-Noëlle Leblanc, Centre des archives contemporaines
Jean Le Pottier, Direction des Archives de France, inspecteur général
Jean-Dominique Mathias, Conseil supérieur du notariat
Juliette Nunez, ministère de l'Équipement, responsable de la mission des Archives nationales
Gaëlle Ogé, ministère de l'Équipement
Gauthier Osseland, groupe Pinault-Printemps-la Redoute
Jean-Louis Pascon, Speos e-Arch, directeur général
Christine Pétillat, Centre des archives contemporaines, directrice
Anne-Laure Pierret, Archives municipales de Saint-Denis
Joël Poivre, Direction des Archives de France
Laurent Prével, Association des professionnels de la gestion électronique de documents (APROGED)
Elisabeth Rabut, Direction des Archives de France, inspectrice générale
Paule René-Bazin, ministère de la Défense
Olivier de Solan, Archives départementales de la Loire
Pascal Souhard, Agence pour les technologies de l’information et de la communication dans l’administration (ATICA)
Jean-Pierre Teil, Centre des archives contemporaines, responsable du programme CONSTANCE
Evelyne Van den Neste, Services Premier ministre, responsable de la mission des Archives nationales
TABLE DES MATIÈRES
I Introduction *
II L’objet d’archivage *
III Rôle et compétences de l'archiviste *
III.1 L’archiviste et ses interlocuteurs *
III.2 Les qualifications que doit réunir un service d’archives *
III.3 Stratégies à mettre en oeuvre *
IV Préparer le versement *
IV.1 Repérer les données numériques existantes *
IV.2 Constituer les métadonnées *
IV.3 Rédiger le plan de classement de l’organisme de production *
IV.4 Rédiger les tableaux de gestion *
IV.5 Sélectionner les données *
^ Les obligations fixées par la CNIL *
IV.6 Conserver les données sous forme papier, numérique ou analogique *
^ Faut-il numériser les documents papier ? *
IV.7 Garantir l'identité et l'intégrité des données électroniques *
^ Réflexions sur la signature électronique *
IV.8 Assurer le transfert *
V Garantir la conservation *
V.1 Conditions minimales requises pour l’acceptation d’un versement de données électroniques *
V.2 Choix des formats et supports *
V.2.1 Formats et langages d’encodage *
^ Les formats textuels *
• Les traitements de texte *
• Les méta-langages et langages de balisage *
^ Les formats image *
^ Les formats mixtes (texte et image) *
^ Critère de choix des formats *
V.2.2 Supports *
V.3 La conservation à long terme des données *
V.3.1 Migration des données *
V.3.2 Les microformes COM (Computer Output Microform) *
V.4 Les locaux d’archivage *
VI Mettre à disposition les données *
VI.1 Les instruments de recherche *
VI.2 Communication des données *
VII Etudes de cas *
VII.1 Bases de données *
VII.2 Les documents issus de la bureautique et le courrier électronique *
VII.2.1 Les documents issus de la bureautique *
VII.2.2 Le courrier électronique *
VII.3 Ressources du Web *
VIII Conclusions *
IX Annexes *
IX.1 Poids moyens des documents électroniques et capacité des supports *
IX.2 Les métiers liés à l’informatique : exemple du ministère de l’Équipement *
IX.3 Quelques principes de base pour évaluer le coût de l’archivage électronique *
IX.3.1 La capture *
IX.3.2 L’archivage *
IX.3.3 La consultation/archivage *
IX.3.4 La migration *
X Glossaire des sigles *
XI Bibliographie *
XI.1 Normes *
XI.2 Généralités *
XI.3 Métadonnées *
XI.4 Archivage de bases de données *
XI.5 Archivage des ressources Web *
I. Introduction
Les 8 et 9 mars 2000, la Direction des Archives de France a organisé des Journées internationales sur la conservation à long terme des documents électroniques. Cellesci au cours desquelles dix-neuf experts du monde entier ont exposé leurs expériences, succès et questions, ont eu une grande audience. 500 personnes venant tant du
secteur public que du secteur privé y ont assisté. Au cours de ces échanges, est apparu le besoin pour les professionnels des archives et leurs interlocuteurs de disposer
d'un outil de référence simple, de première approche, qui leur donne des recommandations et procédures générales et rédigé dans un langage qui leur soit
compréhensible.
Le contexte est aujourd’hui plus favorable qu’il n’y a dix ans. Des travaux français, européens et internationaux dans le domaine de l’interopérabilité, des standards
d’échange et de la conservation à long terme confortent les actions des archivistes et gestionnaires de documents. On peut citer parmi eux, les standards internationaux
validés par le W3C (World Wide Web Consortium) pour la structuration et l’échange des documents, le manuel et l’appel à l’industrie lancés par le DLM-Forum au
niveau européen, enfin le programme d’action gouvernemental français (PAGSI) qui a eu pour conséquence notamment la création en 1998 de la MTIC (Mission pour
l’introduction des technologies de l’information et de la communication dans l’administration) devenue en 2001 l’ATICA (Agence pour les technologies de
l’information et de la communication dans l’administration). On peut aussi citer la circulaire du Premier ministre du 2 novembre 2001 relative à la gestion des archives
dans les services et établissements publics de l'État qui souligne le rôle des responsables d’archives intermédiaires dans la bonne gestion et communication des données
électroniques.
La Direction des Archives de France a été associée à tous les travaux menés dans le cadre de ce programme gouvernemental en ce qui concerne la conservation à long
terme des documents électroniques que ce soit à la préparation du Guide publié par la MTIC en janvier 2001, que ce soit aux réflexions du groupe chargé du travail
préparatoire et d'un rapport sur l'établissement et la conservation des actes authentiques électroniques, en vue de la rédaction du décret prévu dans la loi du 13 mars
2000, que ce soit aux réunions du Conseil supérieur du notariat.
Le temps n'est plus où, juridiquement, le papier était le seul vecteur fiable pour transmettre à la postérité données et informations : le droit national et le droit européen
confèrent désormais, sous certaines conditions, le même poids à l’écrit électronique qu'au document sur papier.
Si on pouvait encore, naguère, s’abriter derrière le " droit à l’oubli " pour laisser disparaître des données informatisées, la loi concilie maintenant, de la façon la plus
nette, protection de la vie privée et besoins de la recherche historique, ce qui place le contenu des mémoires d’ordinateurs sur le même plan juridique que les fonds
d’archives traditionnels. En somme, la conservation à long terme et la restitution de tout ce qui est produit en mode numérique et enregistré sur des supports
magnétique ou optique sont désormais des sujets dont nul archiviste n’est en droit de se désintéresser.
Fruit d'expertises et d'expériences diverses, ce manuel a été conçu pour des archivistes, mais son contenu pourra être utile à toutes les personnes susceptibles
d'intervenir dans la constitution des systèmes et des bases. Son ambition est en effet d'aider les uns et les autres à assurer la préservation et l'accessibilité à long terme
des documents et des données électroniques, notamment en leur indiquant ce qu'il est actuellement possible de mettre en pratique, compte tenu de l’état des techniques
et de la réglementation.
Ce manuel destiné à se trouver sur le bureau de tout gestionnaire d'archives contemporaines, n’est cependant pas un recueil de recommandations techniques et
fonctionnelles pour lesquelles nous conseillerons aux lecteurs de consulter des documents comme la norme AF Z 42-013, version 2 de décembre 2001 et le Guide
publié par la MTIC.
Le souci de pragmatisme a amené à opérer, aussi souvent que nécessaire, une distinction entre plusieurs cas de figure ou plusieurs scénarios : on trouvera ainsi dans le
présent ouvrage aussi bien les procédures idéales que des conseils pour faire face à des situations dégradées, pour rattraper des arriérés ou pour sauver ce qui peut l'être
de systèmes mal conçus dès l'origine.
Il sera complété de publications plus spécifiques, propres chacune à un mode de production ou de restitution de l’information numérique.
La présente version est appelée à être remplacée par une version mise à jour régulièrement que l'on trouvera sous forme électronique sur le site de la Direction des
archives de France (http://www.archivesdefrance.culture.gouv.fr).
II. L’objet d’archivage
Dans l'environnement numérique, l'unité élémentaire d'information est la donnée qui n'est qu'une chaîne de caractères ou octets constitués de bits (0 ou 1). Les données
sont inscrites sur des supports numériques. Il est indispensable de recourir à des outils technologiques pour les exploiter et les lire. En cela, elles diffèrent entièrement
du document papier qui véhicule un message immédiatement utilisable.
Dans un environnement papier, les données et leur mise en forme et en oeuvre sont sur le même support et le même document. L’archiviste dispose, sur le document
même, d’une grande partie des éléments qui serviront à sa critique, à son étude diplomatique. Il en est tout autrement dans l’environnement électronique : les deux sont
séparés, conservés souvent par des services différents. Ils doivent cependant être collectés ensemble pour rendre les données compréhensibles et susceptibles de faire
l’objet d’une analyse historique.
Une typologie sommaire des différents objets d'archivage montre leurs grandes différences et spécificités. L'archiviste aura à conserver sur le long terme, trois grands
types d'objets numériques :
●
●
●
le document qui rend compte d'une activité ou d'un raisonnement, dont les limites sont fixes et précises et dont la taille est en général faible (ex. : document géré
par traitement de texte, courrier électronique),
la base de données qui est un réservoir de données parfois très volumineux, dynamique, mis à jour périodiquement,
certains objets d'information numériques qui associent les deux types précédents, sont composés d'éléments statiques et dynamiques et contiennent des liens vers
des ressources externes (ex. : sites Web).
On peut ensuite affiner ces grands types et prendre en compte d'autres éléments d'identité en sachant par exemple :
●
●
●
qu'une base de données peut induire plusieurs documents
que le document peut être produit dans un processus de workflow (flux de tâches qui régule le déroulement d'une action) et avoir de multiples versions avant
validation,
qu'un nouvel objet d'information numérique peut résulter de la réorganisation, de la sélection, voire de la recherche de données.
Les données et documents numériques sont plus faciles certes à manipuler, dupliquer, transférer. Mais ils sont également plus faciles à modifier et ils peuvent, très
rapidement et de façon irréversible, perdre leur intégrité d'origine.
Des exigences nouvelles, dues à l'évolution rapide des langages, des formats et des supports numériques, apparaissent donc pour la conservation à long terme de
l'information.
Les données et documents numériques ne sont accessibles qu'une fois tout un travail de description, d'évaluation et de sélection terminé. La description en est d'autant
plus ardue que leurs contenus sont composites et qu'ils coexistent avec des types documentaires sur papier. Leur classification est aussi d'autant plus cruciale pour la
recherche de l'information que leur production est abondante. En cela encore, ils sont différents des documents sur papier, dont la consultation n'est pas conditionnée
par l'achèvement du travail de classement et de description.
De plus, une application ne remplace pas forcément strictement un type documentaire existant sous forme papier. Elle peut aussi regrouper plusieurs types
documentaires sur papier préexistants, être composée d’éléments d’un ou plusieurs types documentaires sur papier, mais aussi de données nouvelles ne faisant pas
l’objet de transcriptions antérieurement. Le type documentaire électronique enfin peut être entièrement nouveau dans son contenu informatif car il résulte du constat de
lacune dans les types documentaires papier préexistants.
Ainsi la Nouvelle Chaîne Pénale de Paris et de la région parisienne dans laquelle sont enregistrées les affaires portées devant les formations pénales des tribunaux de
grande instance depuis 1975, intègre des informations qui donnaient lieu auparavant à la création de plusieurs types de documents différents et compte une douzaine de
modules fonctionnels gérés par 265 tables dont cinq principales.
C'est donc à une grande variété d'objets numériques dont les contenus ont évolué par rapport aux documents papier préexistants, que l'archiviste est confronté. A
chacun de ces types correspond une méthodologie de conservation appropriée.
III. Rôle et compétences de l'archiviste
L'archiviste accoutumé à des objets stables et pérennes se trouve confronté désormais à une tâche plus complexe et dont il perçoit encore mal toute l'étendue.
Décrire des données numériques, les évaluer et les sélectionner prend beaucoup plus de temps que de classer des archives de format traditionnel ou de rédiger un
instrument de recherche de type classique, fût-il très détaillé.
De cela découle la nécessité d’avoir une démarche globale de repérage de l’information, de ses circuits et de la production documentaire. L'archiviste se doit
d'intervenir beaucoup plus tôt dans le cycle de vie de l'information. Il continue à être de façon privilégiée et presque exclusive, responsable des documents lorsque ceuxci ont atteint l'âge historique ou définitif. Mais il doit aussi revendiquer un rôle dès l'amont de leur chaîne de traitement.
Dans l'entreprise comme dans l'administration, en effet, les bouleversements fréquents d'organigrammes et le renouvellement rapide des responsables privent de plus en
plus la tradition orale de son efficacité et rendent de plus en plus nécessaire une organisation des flux documentaires dès l'origine : produire des documents en se disant
que pour la conservation, on verra plus tard, est une politique à courte vue, incompatible avec la recherche croissante de qualité et avec la nécessité fréquente de
justifier ses décisions passées. Ceci est d'autant plus vrai s'agissant du document électronique. La seule solution est de faire intervenir en amont, aux côtés des
producteurs et techniciens, l'archiviste qui sait ce qu'il faut conserver et comment.
Ce nouveau rôle de l'archiviste est parfaitement affirmé dans la norme ISO 15489 sur le Records management. Toutefois selon la taille et le type d'institution dont il
dépend, l'archiviste s'impliquera à des degrés divers au début du cycle de vie documentaire. Autant il lui est possible s'il gère les archives d'une commune ou d'une
entreprise et a un mandat très précis pour cette production, d'être associé étroitement à l'élaboration des structures de fichiers, des arborescences, au nommage des
répertoires, à la prise en compte de l'évaluation, de la révision de l'évaluation, des droits et de la commmunicabilité, avant que les données même ne soient créées,
autant cela sera impossible pour le responsable d'un service d'archives départementales responsable de la gestion à long terme des informations produites par des
centaines d'organismes différents. Celui-ci s'attachera en ce cas à former de très bons relais et correspondants dans chaque institution et à les faire intégrer dans la
chaîne de Records management de celle-ci.
L'archiviste est en mesure de répondre aux besoins nouveaux car les règles et les méthodes qu’il met en oeuvre pour transmettre aux générations futures les documents
de forme traditionnelle ne sont en rien remises en cause dans un contexte de production documentaire dominé par l’informatique. Il devra cependant rappeler et faire
reconnaître ces compétences en matière également de documents électroniques car les divers intervenants dans la création et l'analyse des données et de l’architecture
des systèmes d'information, ne pensent pas toujours à faire appel aux capacités des archivistes, dont parfois ils ne soupçonnent même pas l'existence. Il est vrai que
l'intervention d'un professionnel de la conservation à long terme peut être perçue comme une complication supplémentaire, susceptible de retarder la réalisation des
projets et d'engendrer un surcroît de dépenses. Dans un tel contexte, l'archiviste aura donc à démontrer la légitimité de sa présence sur ce terrain, notamment en
expliquant que formaliser les systèmes de gestion et de production documentaires est forcément bénéfique à terme et en rappelant que perdre des documents du fait
d'un archivage défectueux ou se trouver dans l'incapacité de les produire en cas de contentieux peut, au sens propre du terme, se révéler ruineux.
Cette nécessité de plaider sa propre cause n'est pas le seul obstacle que l'archiviste risque de rencontrer sur sa route car il lui faut prendre en compte une autre
difficulté : l'utilisation des mêmes mots sous des acceptions différentes, qui complique parfois le dialogue entre personnes de métiers différents et qui rend certains
milieux professionnels (les informaticiens, par exemple) réticents à la collaboration avec les archivistes ou sceptiques quant à l'opportunité de celle-ci. Ainsi du mot
archivage que l'archiviste voit comme le transfert de documents ayant cessé d'être d'utilité courante vers un local de conservation et/ou un service d'archives ayant la
capacité de les recevoir, alors que c'est pour d’autres le " nettoyage " des systèmes et des mémoires de tout ce qui n'est plus d'usage courant, via le stockage sur d'autres
supports d'accès problématique, pour ne pas dire hypothétique (ce qui amène parfois archivage à signifier pratiquement destruction !). De même archive -que les
archivistes privent rarement du S final- signifie service d'archives chez les bibliothécaires et les documentalistes et système ou service d'archivage virtuel chez certains
informaticiens. Documentation, enfin, qui pour les archivistes désigne soit une discipline et une profession en rapport avec la recherche et la restitution de
l'information, soit un ensemble d'informations réunies sur un sujet donné, est considéré par beaucoup d'informaticiens comme l'équivalent de métadonnées. L’archiviste
veillera donc à être parfaitement compris de ses interlocuteurs et s’attachera à faire expliciter par ceux-ci leurs terminologies propres.
L’archiviste doit garder à l’esprit quels sont ses rôles et attributions exacts en matière de documents électroniques. Il lui revient :
●
●
●
●
●
●
●
●
d’identifier les exigences en matière de conservation,
d’aider les producteurs à la création et à l'établissement des données et des documents afin qu'ils aient les caractéristiques suivantes : authenticité, fiabilité,
intégrité, capacité à être réexploités,
d’aider à la modélisation des circuits de l’information de l’institution,
d'inciter les producteurs à conserver des documents de travail et des états préparatoires non validés, officieux mais qui permettent de comprendre la genèse des
dossiers et constituent à terme des traces historiques importantes,
d'aider à la mise en place d'un système de conservation fiable, intègre, conforme aux exigences de l'environnement réglementaire,
de veiller à ce que tous les documents soient intégrés dans le système de conservation mis en place,
de s'assurer que le système de conservation est correctement maintenu et est pérenne,
d’assurer les accès et possibilités de retrouver les données en fonction de droits déterminés (notamment par les législations en vigueur).
L’archiviste dispose pour cela de qualités résultant de sa formation :
●
●
●
capacité à communiquer avec d’autres spécialistes
capacité à analyser des systèmes complexes et les décrire
capacité à évaluer les documents et les décrire
L'archiviste est un acteur mais il est neutre, et le seul de la chaîne de traitement documentaire préoccupé par le temps et l'espace, car d'une part, il envisage l'utilisation
du document par d'autres communautés que celles des producteurs, d'autre part, il est préoccupé par la conservation des données au-delà de leur utilité temporelle
immédiate.
Autant, au moment de la création des données, il se doit d'être le plus actif possible et d'intervenir, autant il devra par la suite se garder de la tentation de reconstruire
l’information. En effet, là où la production traditionnelle de l’information sous forme papier était relativement encadrée et structurée, celle de l’information
électronique s’est développée de façon sauvage en dehors des circuits existants ou officiels. C’est ainsi que l’archiviste peut se trouver confronté à des productions
bureautiques pour lesquelles aucune sauvegarde n’a été prévue, où on trouve X versions d’un document sans pouvoir déterminer la définitive... L’archiviste pourrait
alors être tenté de compenser au moment de l’archivage définitif et de faire ce qui ne l’a pas été durant le cycle de vie de l’information. Vu l'immensité de la tâche à
laquelle il se trouverait alors confronté, il est déconseillé d'essayer de reconstituer soi-même une information mal documentée et donc parfois impossible à conserver.
Le mieux sera alors de ne pas archiver.
Pour certaines données particulièrement importantes, cela lui semblera peut-être indispensable ou cela sera demandé par l’organisme producteur ou détenteur de
l’information. Mais cette reconstitution de la documentation et des données ne devra être qu'exceptionnelle, devra toujours être faite avec leur producteur initial et
devra être validée par celui-ci afin d'éviter toute subjectivité de la part de l'archiviste qui ne connaît pas totalement le contexte de production d'origine.
Il faut donc se demander quelle est la pertinence de l’information rencontrée au moment de l’archivage. Si le cadre dans lequel elle a été produite ne permet pas de la
conserver dans sa totalité de façon satisfaisante, il faut examiner si elle peut l’être de façon partielle et si on dispose d’éléments suffisants pour expliquer son état
lacunaire au futur chercheur dans la description ; le lecteur pourra ainsi évaluer quel poids accorder à l’information.
III. 1. L’archiviste et ses interlocuteurs
Plus que par le passé, l'archiviste devra donc participer à l'élaboration et à la diffusion des politiques, pratiques et lignes directrices de l'institution relative à la
conservation des documents dans le respect de la législation applicable aux archives publiques et privées.
Mais, seul, il ne peut pas grand chose. Sauver les données et informations produites en mode numérique d'une destruction inconsidérée et assurer leur accessibilité à
long terme ne peut être qu'une oeuvre collective. Chacune des parties prenantes à la création et à la vie des bases, des sites et des systèmes doit apporter sa pierre au
processus de sauvetage et d'archivage.
Titres et attributions de ces intervenants varient selon les organismes et les circonstances. L'archiviste devra en fait identifier quelques grandes fonctions et leurs
titulaires (administration des données, création des droits, gestion des espaces de travail, création des données, sauvegarde, gestion des réseaux, sécurité...). C'est avec
eux qu'il repérera les diverses applications numériques et assurera leur traitement. Ces interlocuteurs sont :
●
●
●
ceux qui produisent données et informations (les producteurs et/ou les maîtres d'ouvrage),
ceux qui les administrent (administrateurs de données, qualiticiens) , les traitent et les diffusent (documentalistes, correspondants des services d'archives
historiques)
ceux dont le métier est de concevoir et de mettre en oeuvre, pour les précédents, les solutions et infrastructures nécessaires, les informaticiens.
L’archiviste sera aussi attentif au fait que pour une même application, il peut avoir à faire à plusieurs producteurs, à plusieurs informaticiens, internes ou externes à
l’institution productrice des données.
Parfois ces diverses fonctions sont identifiées lors de la conduite d’un projet, en maîtrise d’ouvrage et maîtrise d’oeuvre . Ces concepts en usage en matière de
construction peuvent être transposés à la conduite des projets informatiques car ils mobilisent des acteurs de spécialités différentes, dont la qualité du travail de
collaboration est déterminante pour l’aboutissement et la réussite d’opérations complexes et onéreuses.
La maîtrise d’ouvrage regroupe les acteurs à l’origine de la commande par opposition à la fonction de fournisseur remplie par la maîtrise d’oeuvre. Le maître d’ouvrage
a le pouvoir de décision et d’impulsion dans la conduite du projet ; dans certaines institutions, ce peut être le directeur en personne.
Dans les projets importants, la maîtrise d'ouvrage est organisée autour d'un directeur ou d'un chef de projet qui est un expert du domaine fonctionnel couvert et façonne
le squelette de l’application, en liaison étroite avec le maître d’oeuvre et avec les utilisateurs. Il gère l’organisation du projet et les lignes budgétaires qui lui sont
propres.
Le maître d’oeuvre du projet conçoit techniquement l’application (traduit les modalités fonctionnelles en langage de programmation, tout en faisant valoir les
possibilités et contraintes techniques au maître d’ouvrage pour qu’il infléchisse au besoin le projet fonctionnel), la développe. Un chef de projet de la maîtrise d’oeuvre
est désigné au niveau de chaque projet pour être l’interlocuteur unique du chef de projet de la maîtrise d'ouvrage.
La définition préalable du rôle de chacun permet d’éviter les interférences, les ambiguïtés et un meilleur échange dans le respect des spécialités de chacun.
Multiplicité des partenaires : exemple d'une application informatique du ministère de la Justice
Cette application (projet) vise à enregistrer et assurer le suivi des affaires passées devant les juges d'application des peines
(qui appartiennent à la juridiction et se situent dans le champ de l'application des peines) et leurs partenaires des SIP
(services d'insertion et de probation, créés depuis 1999 qui se situent eux, dans l'administration pénitentiaire, et remplacent
les anciens comités de probation et d'assistance aux libérés -milieu ouvert- et les services socio-éducatifs des établissements
pénitentiaires). Pour mener un tel projet, plusieurs interlocuteurs sont pris en compte :
- la maîtrise d'ouvrage administration pénitentiaire (côté SIP) soit le bureau en charge de l'insertion de la population pénale,
- la maîtrise d'ouvrage des services judiciaires (côté JAP) soit le bureau chargé de l'informatisation des juridictions (qui luimême travaille en association avec d'autres directions ou bureaux du ministère " sachants " ou " experts ", notamment dans
cet exemple d'autres services de la direction des services judiciaires ainsi que la direction des affaires criminelles et des
grâces),
- la maîtrise d'oeuvre pour l'administration pénitentiaire, soit le bureau en charge de l'informatisation des services de
l'administration pénitentiaire au sein de la direction de l'administration pénitentiaire,
- la maîtrise d'oeuvre pour les services judiciaires, soit un des bureaux de la sous-direction de l'informatique cette fois au
sein de la direction de l'administration générale et de l'équipement.
A cela, il faut ajouter, côté maîtrise d'oeuvre, au sein de la sous-direction de l'informatique, le bureau en charge des réseaux
et de l'architecture technique.
Au sein de la maîtrise d'oeuvre, apparaissent en outre des personnes-ressource en charge de la rédaction du plan d'assurance
qualité, dont il convient de se rapprocher dans la mesure où ces personnes ont notamment en charge la gestion de la
documentation de la future application et auxquelles on peut apporter une aide en matière de structuration de cette
information dont on devra assurer à terme l'archivage.
L’archiviste peut demander à être associé à certaines de ces fonctions et à les accompagner. Il peut alors participer à la rédaction de cahier des charges pour la
réalisation d’applications et y veiller à la mise en place de modules d’archivage, participer à la recette des maquettes, assurer la formation des services utilisateurs des
applications pour la partie archivage, veiller avec les informaticiens lors des transferts dans les services d’archives que les données ayant migré n’ont pas subi
d’altérations et ont gardé leur caractère authentique.
L’archiviste peut aussi apporter son aide aux services pour la mise en place de plans de classement et d’arborescences de répertoires électroniques.
III. 2. Les qualifications que doit réunir un service d’archives
Si l’archiviste doit se tenir au courant des évolutions technologiques concernant le secteur de l’archivage des données numériques, il ne peut les maîtriser
complètement. Il serait particulièrement utile qu’il puisse constituer auprès de lui une équipe vouée à la conservation des documents électroniques. Le mieux est le
développement d’un pôle de compétence de ce type avec un technicien informatique, comme cela est le cas dans les grands services de conservation nationaux, par
exemple l’équipe CONSTANCE au Centre des archives contemporaines (CAC) de Fontainebleau.
Lorsque la constitution d’une équipe de spécialistes n’est pas possible, l’archiviste devra trouver un agent de son service dont les compétences en ce domaine puissent
être développées, grâce à des formations spécifiques.
Sinon, il se tournera vers les services informatiques les plus proches, par exemple, les services informatiques du département pour des archives départementales.
L’archiviste devra de même s’adjoindre les compétences d’un juriste, soit en interne, soit en ayant recours à celui qui sera le plus proche de son institution (la plupart
des grandes administrations ont aujourd’hui un tel service).
III. 3. Stratégies à mettre en oeuvre
Il ne peut y avoir de bonne politique d’archivage sans une prise de conscience de son importance et une validation au niveau le plus haut de la hiérarchie de
l’institution productrice, au niveau de la direction générale. La première condition à remplir est donc la reconnaissance, à ce niveau, du caractère stratégique d’une
politique visant à conserver à long terme les données numériques, par exemple en prenant en compte leur archivage dans le schéma directeur de l’institution.
Pour convaincre les responsables de l’institution de production et sa propre hiérarchie, de l’utilité de la conservation à long terme des données numériques et de
l’investissement intellectuel, financier et humain qu’elle suppose, il faut mettre en avant des arguments de conservation (juridique, financier) mais aussi de valorisation
et réutilisation par la communication.
Une expérience du Centre des archives contemporaines
Le Centre des archives contemporaines (Fontainebleau) a pu tirer des conclusions positives d’une opération de sauvetage
d’enquêtes anciennes mais intéressantes lors de laquelle il a été nécessaire de reconstruire toute la documentation technique
décrivant la structure des fichiers.
La mission fondamentale du service versant était la publication de résultats à partir de ces enquêtes. Les fichiers étaient un
outil de travail n'ayant de valeur que pour les publications auxquelles il permettait de parvenir. Dans cette logique, le
producteur des données n'y a accordé d'attention que tant qu'elles étaient utilisables et, une fois utilisées, ne les a pas
considérées comme des informations ayant une valeur en soi et dont la conservation était nécessaire. Le CAC a rendu
compte de son opération d'archivage, de son travail laborieux de reconstitution de la documentation associée et a formulé
l’idée que sa conservation pouvait présenter un intérêt. Le service versant a ainsi pris conscience que la perte des données
pouvait lui être préjudiciable d’autant que des enquêtes peuvent se répéter dans le temps et il peut être rentable d’accéder à
une précédente version électronique. Il a donc décidé d’envisager la constitution d'un comité d'archivage qui étudierait,
entre autres, les mesures nécessaires pour organiser la conservation des enquêtes sur une longue durée.
Le recours aux données pour des besoins juridiques peut aussi être un argument plaidant en faveur d’une bonne conservation des données électroniques (c'est
ainsi qu'un des responsables de l'informatisation des juridictions au ministère de la Justice s’est rendu compte de l’importance des procédures de pérennisation lorsqu’il
a fallu retrouver des données pour l’affaire des disparues de l’Yonne ; pour la même enquête judiciaire, la SNCF a dû retrouver rapidement les horaires des trains de
l’époque pour vérifier la validité des informations fournies par les suspects...)
Exemple de stratégie au ministère de la Justice
L’implication de l’archiviste a commencé avec l’acceptation par ses interlocuteurs de sa présence au sein des comités de
suivi civil et pénal du ministère, avec le soutien du directeur. Cette participation a permis le rapprochement avec les
services statistiques du ministère dont les objectifs sont de mettre en place des modules statistiques efficaces au sein des
applicatifs, d’où la nécessité d’intervenir en amont, exactement comme les archivistes. C’est d’ailleurs la lecture du compte
rendu du comité de programmation de la statistique qui a permis de savoir que le répertoire général civil dans les
juridictions était en cours de refonte (afin que toutes les affaires passant par une juridiction, qu’elles relèvent du judiciaire
ou du rôle de dépôt et d’enregistrement des greffes, soient enregistrées dans le répertoire général). Un volet a alors pu être
rédigé concernant l’archivage électronique des données figurant dans le répertoire général (un volet identique était mis en
place pour les statistiques) en listant les données essentielles et en précisant qu’elles seraient transférées régulièrement à
l’administration des Archives. On voit par cet exemple qu’il s’agit d’intervenir très en amont : dans ce cas précis, les
préconisations du répertoire seront transmises aux sociétés gérant les applications civiles en place dans les cours, les
tribunaux et les conseils de prud’hommes pour être ensuite prises en compte et permettre les évolutions des produits. En
tout état de cause, ces évolutions n’interviendront pas avant 2002, 2003 voire 2004 (pour les tribunaux d’instance) tant sont
grandes les lourdeurs inhérentes aux marchés, à la rédaction des cahiers des charges et aux opérations en aval (tests, sites
pilotes, implantation progressive...). On comprend aussi qu’intervenir une fois les jeux faits (c’est-à-dire les applicatifs
modifiés) est contre-productif.
La participation à ce comité a permis de se positionner lors du lancement d’un nouveau projet d’envergure d’une nouvelle
chaîne pénale pour tous les tribunaux -hors Paris et la région parisienne. Dès la phase de rédaction du cahier des charges
pour l’assistance à la maîtrise d’ouvrage, l’archiviste a été sollicitée en tant que maître d’ouvrage associé, la collaboration
avec l’équipe en charge du projet portant sur trois points : intervention dans les groupes de travail sur la reprise des données
des anciennes applications, arguant du fait qu’il serait utile de pointer les affaires suffisamment anciennes pour être
archivées afin de les stocker dans une base archives, évitant ainsi une reprise des données dans la nouvelle application trop
importante ; définition, module fonctionnel par module fonctionnel, des données destinées à être pérennisées et donc à être
basculées dans une base archives centralisée (aux côtés de l’infocentre, le même mécanisme dans les deux cas d’extraction
et d’injection des données étant mis en oeuvre) ; conseils sur les formats, les pièges à éviter pour la numérisation de certains
documents et plus généralement la gestion électronique de documents.
Par la suite, cette première intégration a permis à l’archiviste d’être associée aux travaux de préparation du nouveau schéma
directeur informatique. Cette association a consisté à intervenir pour le référentiel technologique, en y faisant intégrer les
outils d’interface pour l’archivage ; dans l’élaboration du référentiel des métiers de l’informatique au ministère en y faisant
intégrer l’archiviste en tant que, d’une part, maître d’ouvrage associé et, d’autre part, aide pour les services dans leurs
méthodes de travail (afin d’améliorer la gestion documentaire) ; pour la mise en place d’une méthodologie type pour le
lancement d’un projet suivant le niveau du projet, en tentant de définir le rôle d’un maître d’ouvrage associé ; pour la
cartographie des applications en intégrant une colonne " module d’archivage " permettant de distinguer les applications
pour lesquelles il convenait de prévoir un archivage, de celles pour lesquelles c’était inutile (suivi des plannings des
personnels, par exemple) ; pour la révision du dictionnaire des données partagées permettant pour toutes les applications, de
s’entendre sur les mêmes concepts et enfin, pour la définition des domaines d’action du ministère, visant à modéliser les
circuits et les procédures du ministère (en lien avec les métiers et par conséquent avec les applications), domaine sur lequel
la valeur ajoutée de l’archiviste était bien réelle en raison de sa connaissance globale des attributions du ministère.
Autre exemple du ministère de la Justice
L’association aux travaux d’un groupe de travail mis en place dans le cadre de la R.T.T. , sur les façons de mieux travailler
avec les nouveaux outils (travail collaboratif, enregistrement du courrier, archivage du courrier électronique, mise en réseau
au sein des bureaux...). Le point de vue de l’archiviste a pu ainsi être entendu et notamment l’importance de prendre en
compte l’archivage très tôt dans la chaîne du traitement documentaire. A partir des conclusions de ce groupe de travail, ont
été créés deux autres groupes. Le premier concerne la mise en place d’un outil d’enregistrement du courrier unique pour
l’ensemble du ministère (permettant d’assurer la traçabilité du suivi des courriers et documents entrant au ministère) : dans
cette optique, il est possible d’orienter vers une organisation calquée sur l’expérience du ministère des affaires étrangères
où tous les documents dès leur enregistrement sont " tracés " grâce à un enregistrement efficient (mention d’un objet mais
également d’un lien avec un plan de classement, avec un dossier), ce suivi couvrant toutes les étapes jusqu’à l’archivage du
document. L’autre groupe de travail concerne l’amélioration de la façon de travailler des secrétariats, dont on sait le
rôle central en matière de maîtrise de la production documentaire au sein du bureau : de l’enregistrement des courriers au
rangement et au classement des dossiers, au versement dans le service des archives. On pressent alors la possibilité pour
l’archiviste de mettre en place d’une manière systématique de bonnes procédures en matière de traitement de l’information,
en intégrant aux anciennes pratiques basées sur le papier les nouveaux modes de travail induits par la généralisation de
l’informatique dans les bureaux.
Pour assurer l'efficacité d'un archivage de données sur le moyen et le long terme, la politique de l’organisation productrice doit être clairement établie et l’un des
premiers objectifs à atteindre est d’intégrer la fonction archives dans le champ couvert par les différentes applications de l’institution. Lorsqu’on aura spécifié
le périmètre à couvrir, c’est-à-dire précisé le besoin d’archivage, on établira une organisation avec les personnes concernées, organisation prenant en compte les liens
entre ces personnes et les relations qu’elles entretiennent.
Sans cette base, il sera très difficile de dégager les moyens financiers et humains nécessaires pour l’archivage des données. L’archiviste doit être associé à l’élaboration
de cette politique pour se faire entendre des informaticiens et les influencer. Il est important de ne pas confondre les fonctions et de faire en sorte que la fonction
archives soit clairement identifiée face à celle de l’informaticien. Ainsi l’archiviste pourra jouer le rôle de médiateur neutre entre l’informaticien et tout utilisateur.
La conservation à long terme des données numériques est une opération coûteuse. Mais reconstruire des données perdues, détériorées ou détruites l'est encore plus.
Ces coûts importants ont un impact dans la vie quotidienne de l’institution de conservation. Il s’agira donc de faire des évaluations et des tris sélectifs tout d’abord en
fonction de l’intérêt scientifique des données, puis en fonction des capacités humaines et financières de l’institution à traiter cette première sélection.
On ne cherchera pas à faire preuve de la même rigueur pour des documents destinés à une conservation à long terme et pour des documents éliminables à brève
échéance (avant 10 ans). Cependant l’archivage intermédiaire étant de plus en plus souvent un moyen pour les services d’archives, de justifier leur existence et de se
développer, la question devra être examinée en fonction des situations. On ne dira du reste jamais assez l’importance pour l’archiviste de savoir se positionner très
amont dans les processus de création documentaire et d’intervenir dès l’âge vivant des documents.
La méthodologie de préservation qui suit est donc essentiellement conçue pour les documents qui, dès leur création ou leur transfert dans un service d’archives, sont
destinés à être conservés définitivement.
Les méthodes de description, leur approfondissement, les choix de supports devront être plus ou moins poussés en fonction de l’intérêt et de la durée de vie des
documents et des besoins de disponibilité et communication des données.
Il faudra alors que l’archiviste examine avec l’institution productrice comment rationaliser la politique et la production documentaire et comment la rendre claire à tout
utilisateur.
De plus en plus souvent, l'archiviste est confronté au souhait des gestionnaires de mettre en oeuvre des systèmes globalisants de gestion électronique de documents
(GED). Cette orientation naît souvent de l'idée fausse que la dématérialisation fera gagner de précieux mètres carrés qui ne seront plus consacrés à du stockage de
documents papier. Si le discours de l'archiviste doit faire prendre conscience aux décideurs, des réorganisations internes importantes qu'implique une telle entreprise
pour la production documentaire et modérer quelque peu leur enthousiasme, il doit aussi accompagner cette démarche innovante et inéluctable. Un système de GED est
un ensemble composite de documents relevant d'un grand nombre de producteurs différents. L'archiviste devra en examiner chacun des sous-ensembles, en se fondant
sur le principe de respect des fonds et devra examiner chacune des typologies à l'intérieur de ses sous-fonds. Chacune aura sa méthode de traitement appropriée,
certains documents étant du type courrier électronique, d'autres images de documents numérisés, d'autres dossiers partagés, d'autres bases de données...
L’archiviste doit aider le producteur à expliciter ses intentions et les objectifs de la production des données. Tous ces éléments serviront à alimenter la documentation
sur l’objet d’information numérique d’une part, la réflexion sur l'évaluation et la sélection de ces objets d’autre part. L’archiviste est aujourd’hui un des personnages
clés du Records management en contribuant à une formalisation des systèmes de gestion et de production documentaire qui ne peut être que bénéfique à l’institution.
IV. Préparer le versement
Si l’institution décide d’avoir une politique optimale de Records management, l’archiviste est associé à la création des documents et les fonctionnalités d’évaluation, de
sélection, de communication des données sont intégrées dans la couverture fonctionnelle des applications.
Mais si, comme c’est encore fréquent, l’archiviste n’a pas été associé à la création du document électronique non plus qu’à la gestion de son cycle de vie, il se trouve
souvent, comme dans le cas du papier, confronté à un archivage de données dont il n’a aucune connaissance préalable. Que faire en ce cas ?
IV. 1. Repérer les données numériques existantes
L’archiviste devra tout d’abord essayer d’anticiper des versements anarchiques en tentant de faire le relevé le plus complet possible de la production de
l’institution.
Il devra repérer les applications électroniques existantes ainsi que les informations ne faisant plus l’objet d’une impression papier, qui sont les plus fragiles d’entre
toutes.
Pour cela, il demandera tout d’abord aux services informatiques du producteur la liste des applications dont ils ont connaissance.
Il est aussi souvent obligé de compléter cette liste avec les producteurs eux-mêmes qui peuvent avoir produit des applications ou des fichiers divers sans avoir fait appel
aux techniciens.
L'article 22 de la loi 78-17 du 6 janvier 1978 portant création de la Commission nationale de l'informatique et des libertés (CNIL) précise que " la commission met à la
disposition du public la liste des traitements, qui précise pour chacun d'eux : la loi ou l'acte réglementaire décidant de sa création ou la date de sa déclaration ; sa
dénomination et sa finalité ; le service auprès duquel est exercé le droit ; les catégories d'informations nominatives enregistrées ainsi que les destinataires ou catégories
de destinataires habilités à recevoir communication de ces informations ". Sont tenus à la disposition du public, dans les conditions fixées par décret, les décisions, avis
ou recommandations de la commission dont la connaissance est utile à l'application ou à l'interprétation de la présente loi.
Pour connaître les applications nominatives, une source utile est donc l’ensemble des actes réglementaires portant décision de traitement automatisé
d'informations nominatives après avis motivé de la CNIL pour les traitements opérés pour le compte de l'État, d'un établissement public ou d'une collectivité
territoriale, ou d'une personne morale de droit privé gérant un service public, ainsi que les arrêtés du ministère des finances portant approbation des programmes
d'enquêtes statistiques obligatoires et d'intérêt général.
Les finalités, noms des commanditaires et utilisateurs des applications, éléments de documentation minimale des applications, pourront servir à la description
archivistique de celles-ci.
Il est à noter que certains actes réglementaires relatifs à des traitements intéressant la sûreté de l'État, la défense et la sécurité publique ne sont pas publiés. On
s'assurera aussi de ce que certains programmes aient pu ne pas être déclarés auprès de la CNIL. Dans certaines institutions, par méconnaissance en général, ce cas peut
être fréquent.
On recourra enfin à tous les documents des directions des finances, des conférences budgétaires, dans lesquels sont signalées les applications à mettre en oeuvre sur le
prochain exercice. Lorsqu’il existe des schémas directeurs informatiques, on consultera les bilans de ces schémas afin de juger des réalisations et des applications mises
en service. Ces bilans donnent souvent lieu à la programmation d’un nouveau schéma que l’archiviste devra attentivement prendre en compte pour repérer les projets à
venir et se tenir informé de leurs évolutions.
Exemple d'archives communales
L’archiviste de la commune X demande à ses collègues des services informatiques de faire cet état des applications. Il reçoit le tableau suivant (extraction d’un
tableau original de 35 applications pour une commune de 45 000 habitants) :
Nom de la base
Service utilisateur
Contenu
Type d’information
système
Sacso
CCAS
Gestion de l’aide sociale + RMI
texte
Oracle
Compta Finances
Compta
texte
Oracle
Conservatoire
Conservatoire
Gestion des élèves
texte
Access
Urbapro
DIMU
Informations cadastrales,
texte, images
Fox
Perte
écrit
observations
permis, ...
Election
Election
liste des électeurs
texte
Oracle
Etat Civil
Etat Civil
actes de naissance, actes de décès
texte
Oracle
mariage ...
Jardins Fleuris
Fêtes
inscrits au concours + notes + résultats
texte
Quattro
StarCarto
Voirie
plans, cadastre, informations cadastrales
texte + fichier au format
" star "
Oracle + Star
dev interne
Oui
plans
Quelques remarques sur le tableau précédent
Il s’agit d’un premier repérage sur lequel les archivistes et les informaticiens pourront travailler. Ces éléments sont une
partie des métadonnées de description et d’archivage des données numériques. Il sera nécessaire de compléter un tel tableau
sur les points suivants :
●
format précis des fichiers avec l’identification de leurs versions
●
versions des systèmes de gestion
●
bases mises à jour ou pas, périodicité des mises à jour
●
dates de création, de modification, voire de fin
●
volume des données au moment T
●
accroissement annuel
Il faudrait également utiliser des termes plus explicites et archivistiques. Les intitulés doivent être compréhensibles par tout
utilisateur. Les services informatiques de la commune X ont indiqué sous la forme " dev interne ", le fait que le programme
ait été écrit par leurs soins et qu’ils maîtrisent les informations.
L'expression " perte écrit " n’est pas plus explicite. Il s’agit en fait des bases ne donnant lieu à aucune impression papier. La
notion est fondamentale dans le cas d’un tableau de gestion, car elle sert à déterminer quel support sera conservé de
préférence à un autre mais elle doit être exprimée autrement pour être intelligible par tous.
Le service appelé utilisateur est en fait le service producteur des données, c’est-à-dire pour les informaticiens celui " qui
utilise " la base. Il serait donc bon de tenir compte aussi du ou des services seulement utilisateurs et non producteurs des
données, donc des destinataires de l’information. De plus dans le cadre d’un système de gestion électronique de documents
partagé et de systèmes intranet, les services producteurs des données peuvent être multiples. Il faudra les identifier
clairement et décrire dans les dictionnaires des données la part des uns et des autres dans la création.
Il arrive souvent que les services informatiques ne soient pas en possession des codes source des bases utilisées par les
services producteurs lorsqu’ils les ont sous-traitées. Cette carence peut entraver la migration et la réutilisation des données
dans d’autres contextes technologiques. L’idéal serait que les services d’archives soient dépositaires de ces codes source
dans un but de pérennisation des données. Les codes source peuvent en effet être considérés comme faisant partie des
métadonnées associées aux données numériques. Les archivistes devront sensibiliser les services informatiques à ce
problème, notamment au moment des choix en matière de développement d’une application.
IV. 2.Constituer les métadonnées
Le repérage des applications n’est qu’une étape car il faut aussi pour chacune, collecter une documentation très précise, appelée les métadonnées (données sur les
données) du document électronique. Les métadonnées renseignent sur le contexte de création, de vie et de traitement du document électronique. Les critères
d’évaluation et de sélection (type, date prévue, date d’exécution…) et de communication peuvent aussi, dès la création des données, faire partie de leurs métadonnées.
On a donc différents types de métadonnées : de description, de création et gestion, de conservation à long terme.
Il existe aujourd’hui de nombreux standards de métadonnées. Le plus connu est celui qui sert à décrire sommairement les pages Web, l'initiative du Dublin Core, qui
contient 15 éléments. Pour la conservation à long terme, on pourra prendre particulièrement en compte le standard développé par les Archives nationales d'Australie ou
plus récemment celui maintenu par la Library of Congress pour les bibliothèques numériques. Des éléments comme ceux de la norme de description internationale
ISAD (G), des formats bibliographiques MARC ou de la DTD EAD (Encoded Archival Description), outils connus des archivistes et bibliothécaires, peuvent être
également être considérés comme des métadonnées. La norme Records Management en contient aussi et un sous-groupe de travail du TC 46/SC 11 de l’ISO va la
compléter en ce domaine.
Certaines métadonnées à collecter sont communes à tous les documents numériques (base de données, traitement de texte, document structuré, image...): ce sont
essentiellement celles qui servent à la description des documents. Mais certaines autres métadonnées n'existent que pour certains types de documents. Pour une base de
données relationnelle par exemple, il sera nécessaire de récupérer dans cette documentation, le dictionnaire des données, qui n'existe pas pour un document
bureautique. Pour ce dernier, il faudra rechercher les spécifications de format qui ne sont pas toujours publiques...
Ces métadonnées sont, pour une partie d'entre elles, longues à constituer et parfois difficiles à collecter lorsqu’on le fait a posteriori au moment de l’âge intermédiaire
ou au moment du versement dans un service d’archives définitives. Car les concepteurs et producteurs de documents électroniques ne disposent pas souvent du temps
nécessaire pour formaliser leur connaissance de la base qui repose en grande partie sur la mémoire. Or il est indispensable de disposer de toute la documentation
associée aux données. Si cela coûte un peu de temps aux interlocuteurs des archivistes, ils pourront cependant en retirer un bénéfice à terme lorsqu’ils auront besoin de
retrouver la trace de données électroniques ou la raison de leur absence.
Un archiviste peut être assuré qu'il a collecté les métadonnées indispensables lorsqu'à la lecture des données électroniques qu'il doit recevoir, il comprend parfaitement
et de façon évidente, leur contexte de création et leur contenu. Il doit pour cela se mettre à la place du chercheur.
Les métadonnées devraient être à l’avenir de préférence livrées sous forme électronique. Mais elles peuvent encore se trouver sur support papier exclusivement,
notamment lorsque la forme électronique n’a pas été préservée (documentation associée sur traitement de texte par exemple). Jusqu’à présent, la documentation des
fichiers structurés archivés au Centre des archives contemporaines est ainsi presque exclusivement sous forme papier. Lorsque les métadonnées sont sous forme
électronique, elles peuvent être incorporées dans le document lui-même ou constituer une ou plusieurs applications de documentation séparées du document. Les
métadonnées peuvent être en permanence affinées, complétées ou corrigées si besoin. L’essentiel est d’en collecter le maximum pour assurer la survie des applications.
Aujourd’hui, le document électronique peut se documenter entièrement lui-même. Le meilleur langage pour établir cette documentation est le XML.
Exemples de métadonnées
Métadonnées de conservation indispensables et minimales:
●
nom ou identifiant (éventuellement codé) du ou des fichier(s) ou de l’application
●
dictionnaire des données pour une base de données
●
dictionnaire des balises ou des éléments pour un document structuré en SGML ou XML, avec sa DTD ou son schéma
●
structure des fichiers
●
arborescence électronique des fichiers et données
●
codification des données pour une base de données (avec la date de validité de ces codes)
●
codes-source
●
système d’exploitation
●
logiciel de production et version
Métadonnées de description :
●
titre ou intitulé du document
●
description brève du contenu et du contexte de production
●
service producteur (à détailler avec les éléments de la norme ISAAR (CPF))
●
auteur(s)
●
expéditeur
●
destinataire(s)
●
date de création, modification(s), capture
●
format électronique
●
langage des données
●
logiciel de capture et version
●
support électronique d’origine
●
indexation matière
●
situation dans le plan de classement de l’institution
Métadonnées de gestion :
●
service versant
●
date de transmission des données
●
adresse de localisation
●
support électronique de conservation
●
volumétrie
●
droits de reproduction
●
communicabilité
●
durée de conservation
On veillera à collecter toute autre information servant à comprendre le processus et le contexte de création et de
traitement des documents et données.
IV. 3. Rédiger le plan de classement de l’organisme de production
La base d’un bon archivage est d’organiser le classement des documents le plus tôt possible, de façon idéale au moment de leur création. Pour cela il faut faire une
analyse fonctionnelle de l’organisme producteur, de préférence au plus haut niveau.
" La démarche analytique qui vise à l’élaboration d’un classement des activités recense toutes les activités d’un organisme et les situe dans le cadre défini par les
missions et les objectifs qu’il assure directement ou par délégation ".
De cette analyse, élaborée par les producteurs aidés de l’archiviste, découle le plan de classement qui est le reflet de la structure fonctionnelle de l’organisme de
production.
Il est à noter que cette analyse fonctionnelle et ce plan de classement sont très différents de l’organigramme de l’institution, outil de gestion très éphémère tandis que
les grands fonctions sont plus pérennes.
Il est nécessaire :
●
●
●
de structurer ce plan de classement et cette structure pourra inspirer le plan de nommage des fichiers,
de nommer ou renommer les fichiers de façon intelligible par tous, producteurs et chercheurs futurs,
de les organiser logiquement les uns par rapport aux autres dans ce plan. Il s’agit donc de modéliser a posteriori l’information si cela n’a pas été fait dès la
création des données.
Dans un plan de classement hiérarchique :
●
●
●
le premier niveau reflète habituellement la fonction exercée par le producteur,
le second niveau décrit les activités constitutives de la fonction,
le troisième niveau et les suivants détaillent les actions ou ensembles d’actions qui composent chaque activité.
IV. 4. Rédiger les tableaux de gestion
Un tableau de gestion liste les grandes catégories de documents produits et reçus par une personne morale ou physique dans l’exercice de ses attributions. Les tableaux
de gestion sont réalisés par les services producteurs et leurs archivistes. Pour les archives publiques, ils sont validés par la Direction des Archives de France et , par la
suite, aucune élimination ne peut être faite sans le visa de cette administration ou d’un de ses représentants.
D’une part les données électroniques doivent être prises en compte dans les tableaux qui gèrent la production papier. Chaque support (papier, analogique, numérique)
doit être mis en relation avec l’autre. Des services départementaux ont commencé ainsi que la Direction à réfléchir à la question : ainsi vont apparaître de nouvelles
formes de tableaux de gestion.
D’autre part, les tableaux de gestion de nouvelle génération doivent s’appuyer sur les plans de classement hiérarchiques de la production documentaire d’une
institution. Il est nécessaire de passer d’une typologie linéaire, non structurée, présentée dans les tableaux actuels à une mise en relation des types documentaires
reflétant la modélisation de l’information, par exemple dans une base de données relationnelle. De cette façon, les critères de sélection deviennent plus explicites.
Pour chaque catégorie de document, devraient être indiqués :
●
●
●
●
●
●
●
●
le libellé,
la place dans le plan de classement,
une brève description de son contexte de production dont les dates de début de production
son poids informationnel et légal (valeur primaire, secondaire, document authentique…),
la durée de conservation dans le service,
le délai d’utilité administrative,
le sort final du document (élimination, conservation, type de sélection),
les relations avec d’autres catégories ou types documentaires.
IV. 5. Sélectionner les données
Ayant effectué le repérage des données, l'archiviste devra mettre en relation les divers supports de production (papier/électronique) afin d’évaluer la valeur
administrative et historique de chacun.
Toute conservation à long terme a des objectifs scientifiques et de recherche historique. Archiver une sélection de données numériques revient comme pour les
documents sur papier à assurer pour les générations futures la préservation de la mémoire de ce qui a été une institution, son contexte et son environnement national et
international. La sélection devra être périodiquement revue en fonction de ces objectifs à long terme.
L’archiviste doit définir avec le producteur, les données qui seront un jour à archiver. Celles-ci devront, au moment de l’archivage, avoir une structure figée et validée.
Certaines applications électroniques, de type bases de données, conçues principalement pour retrouver les dossiers papier auxquels les enregistrements se réfèrent,
peuvent avoir une très grande richesse informative. L’archiviste doit être vigilant sur le contenu de plus en plus sophistiqué et complexe de ces documents et des usages
qui pourraient en être faits pour la recherche historique à venir.
La richesse des nouveaux types documentaires :
l’exemple d’une base de données du ministère de la Justice
L’application GIDE gère le suivi des détenus dans les établissements pénitentiaires depuis leur écrou, le suivi de leurs
demandes auprès de la juge d’application des peines, leurs activités (travail, activités socio-éducatives), la constitution de
leur pécule, les visites reçues, la gestion des produits consommés à la cantine, la discipline, les transferts... Il s’agit donc
d’une base de connaissances exceptionnelle sur la détention (plus de 600 tables sont renseignées) et le dossier papier n’a
quasiment plus de valeur ajoutée par rapport à cette base, si ce n’est la conservation des documents produits à l’extérieur de
l’établissement (qu’on ne numérise pas). A partir de ce moment, le choix des données à pérenniser n’a plus grand-chose à
voir avec les éléments stricts donnant une clé d’accès aux dossiers papier.
On peut sélectionner des données à l’intérieur d’une application car toutes les données n’ont pas forcément à être conservées : elles peuvent en effet être redondantes
d’une application à une autre ou une partie d’entre elles inutile sur le long terme.
On peut aussi choisir de conserver une partie des données d’une application sous forme papier et non obligatoirement sous forme numérique. On en décidera en
fonction de la fréquence et du mode de communication souhaitée, en fonction de critères de rentabilité financière également.
On a intérêt à réviser pour chaque type documentaire les critères de sélection qui avaient été définis pour le papier. Si les tris spécifiques restent de mise et s’appliquent
donc à des données, les tris systématiques (sur un pourcentage, un critère alphabétique ou géographique) sont moins défendables dans le cas de documents
électroniques. Ainsi, dans l'affaire des disparues de l'Yonne, les dossiers auxquels la Justice a dû recourir étaient ceux d'affaires classées sans suite qui auraient dû être
éliminés selon la réglementation en vigueur et qui par hasard avaient été conservés.
Ces tris ont la plupart du temps été envisagés pour de très volumineuses séries d’archives occupant beaucoup de place dans les magasins d’archives, considérées sans
intérêt administratif à moyen terme et sans intérêt historique.. La sélection même d’un échantillon montre que la série documentaire présente un intérêt mais qu’elle ne
peut être intégralement conservée faute de place. Dans le mode électronique les volumes n’ont plus pour des données textuelles la même importance. Il faut donc
réviser ces tris systématiques et probablement accepter de conserver la totalité des données d’un même type pour une série documentaire.
Les obligations fixées par la CNIL
■
Les avis rendus par la CNIL contiennent des prescriptions relatives à l’élimination de données nominatives dans des laps de temps relativement bref.
Toutefois, l’article 5 de la loi n° 2000-321 du 12 avril 2000, a modifié l’article 28 de la loi n° 78-17. Il est désormais prévu " qu’au-delà de la durée nécessaire à la
réalisation des finalités pour lesquelles elles ont été collectées ou traitées, les informations ne peuvent être conservées sous une forme nominative qu’en vue de leur
traitement à des fins historiques, statistiques ou scientifiques ". La conservation à long terme des données nominatives par les services d’archives compétents est donc
depuis possible.
.
Exemple de l’application GIDE
(gestion des détenus dans les établissements pénitentiaires)
.
La CNIL avait prévu, suite à la déclaration de l’application, une conservation des données durant
15 mois après la levée d’écrou, ces 15 mois ne reposant, selon ceux mêmes qui ont eu en charge le
dossier, sur rien si ce n’est une déclaration concernant l’application qu’a remplacé GIDE. Les
données étaient donc supprimées alors même que la circulaire sur les archives de l’administration
pénitentiaire prévoit bien avant transfert aux archives départementales une conservation des
données papier durant 10 ans et une conservation illimitée des registres d’écrou. L’administration
pénitentiaire étant bien consciente que des recherches pourraient être nécessaires dans les dossiers
papier, accompagne ces destructions des données d’éditions papier multiples permettant de
reconstituer un fichier papier ! L’archiviste du ministère de la Justice a rappelé l’existence de la
circulaire afin que soit revu le délai de 15 mois et que le délai corresponde bien à une DUA et,
dans un second temps, à faire connaître les dispositions de la loi du 12 avril 2000. Concernant
l’impact de cette loi et de son application réelle, on s’orienterait pour le ministère de la justice,
vers une déclaration générale à la CNIL pour l’ensemble du ministère visant à organiser
l’archivage des données une fois la DUA écoulée et non plus leur suppression.
IV.6 Conserver les données sous forme papier, numérique ou analogique
Selon les applications il faudra se poser la question de la conservation sous forme électronique, sous forme analogique ou sous forme traditionnelle papier. Doit-on
archiver sous forme électronique, est-ce toujours possible ou rentable ?
Le DLM-Forum préconise de conserver sous forme électronique tout document produit sous cette forme. Mais il est sans doute prématuré d’être aussi systématique et il
faut veiller à adapter les pratiques aux réalités de l’institution dont on dépend et à ses moyens financiers et humains.
Il est déraisonnable d’envisager la conservation de grosses bases de données sous forme papier car les modes de recherche dans de volumineuses piles de listings sont
inefficaces.
En revanche, les courriers électroniques et tous les documents de bureautique individuels sont encore souvent imprimés et classés dans des dossiers, sans que cela pose
le moindre problème. Si le mode de classement de ces dossiers est correct et répond aux besoins de l’institution en matière de recherche de l’information, il n’y aura
peut-être pas lieu d’envisager leur conservation sous la forme électronique.
Cette pratique va sans doute tomber progressivement en désuétude et on aura sans doute intérêt à opérer une conversion de cet archivage vers le mode électronique dès
que cela semblera réalisable.
L’archivage des documents d’un même type de dossier sous plusieurs supports ne peut être qu’une solution transitoire, car elle est complexe à gérer de façon
rationnelle et systématique.
■
Faut-il numériser les documents papier ?
L’archiviste se trouve de plus en plus souvent confronté aux questions ou projets des décideurs de son institution qui, pour gagner de la place de stockage, envisagent
brutalement de dématérialiser l’ensemble de la production, y compris celle existant sous forme papier, de la scanner dans sa totalité et de l’intégrer dans un système de
gestion électronique de documents.
La numérisation est également séduisante pour la communication des documents et dans une institution pour la gestion de ressources partagées.
Néanmoins, il ne faut pas occulter les problèmes techniques, organisationnels et financiers que posent de telles opérations.
Les réponses varieront donc en fonction :
●
●
●
des capacités financières de l’institution, la numérisation ayant un coût en matériels, en formation,
de l’intérêt d’une forme numérique des documents par rapport à leur forme papier,
de la durée de conservation légale des documents.
On comparera les coûts de conservation papier et numérique. Le coût de la numérisation et du traitement documentaire qui y est nécessairement associé dépend de la
qualité du document d’origine, de son format, des volumes, du niveau de traitement souhaité (simple identification ou indexation) et de leur degré d’automatisation.
L’archiviste doit aussi suggérer qu’il n’y a aucun intérêt à numériser des documents éliminables à court ou moyen terme si les modes de classement traditionnel papier
sont éprouvés et suffisants pour trouver rapidement l’information recherchée.
On n’aura pas grand intérêt dans nombre d’institutions pour quelques années encore, à numériser les dossiers de personnel, dossiers de supports très composites mais
qui contiendront encore quelque temps de nombreux documents papier fournis par l’intéressé (feuilles de demandes de congés maladie ou réguliers, lettres de
motivation, procédures avec l’administration en attendant leur dématérialisation totale). Dans ce cas un classement alphabétique des dossiers comme le pratiquent les
secrétariats habituellement permet de retrouver facilement les données recherchées et ce classement papier est encore tout à fait
suffisant. Il serait plus onéreux et guère plus efficace pour la recherche, d’envisager la numérisation des documents papier fournis par les individus et de les intégrer
dans un programme de gestion électronique de documents et ensuite, de les gérer sur le long terme.
Si on décide de numériser, il faudra être vigilant sur les choix de résolution des images, de formats. On optera pour ceux qui assureront au document le plus grand
usage (que la qualité d’image soit suffisante pour qu’il ne soit pas nécessaire de recourir sans cesse au document sous forme papier) et la plus grande pérennité. Sur ce
point on suivra les dernières préconisations, en particulier le Guide pour l’archivage des documents électroniques produit par la MTIC. Mais ces recommandations ont
aussi des conséquences, de par leur poids, sur les capacités de stockage en ligne ou hors ligne.
IV. 7 Garantir l'identité et l'intégrité des données électroniques
L’authenticité repose pour le moment sur le postulat qu’au moment du versement dans le service de conservation à long terme, le contenu des données était authentique.
Le groupe InterPares (International Research on Permanent Authentic Records in Electronic Systems) a déterminé un ensemble de huit règles qui garantissent
l’authenticité : 1) association de métadonnées de description aux données, 2) droits d’accès, 3) procédures de protection contre la perte et la corruption des données, 4)
procédures de protection contre la détérioration des supports et l’obsolescence technologique, 5) établissement de fiches associées à chaque procédure, 6) règles
d’authentification des données, 7) identification de l’exemplaire qui fait foi en cas d’existence de copies multiples, 8) documentation qui doit être remise à celui qui
assure la conservation à long terme lorsque les données entrent dans l’âge historique. Plus le nombre de règles respectées est proche des huit, plus l’authenticité du
document a de chance d’être forte. Mais un document électronique ne respectant aucune de ces huit règles n’en sera pas pour autant détruit. Il faut faire preuve d’esprit
pragmatique dans ce domaine et ne pas tomber dans des discussions trop théoriques. Il ne faut pas prendre plus de précautions sur l’authenticité de certains documents
électroniques qu’on en a pris pour leurs formes papier et microfilm.
Le groupe InterPares a aussi déterminé lorsque les huit règles sont respectées, un certificat d’authenticité ne serait fourni que sur demande expresse.
●
Réflexions sur la signature électronique
Comme sur un document papier, la signature n’est sous forme électronique qu’un maillon d’une chaîne complexe de facteurs et procédures qui, ensemble, garantissent
l’authenticité des documents.
Un décret (n° 2001-272) relatif à la signature électronique a été pris le 30 mars 2001 pour l’application de l’article 1316-4 du code civil. Il détermine les conditions
nécessaires pour que des procédés de signature électronique puissent être considérés comme sécurisés et bénéficier de la présomption de fiabilité. Dans
l’administration, on en est encore à la simple expérimentation, par exemple pour les télédéclarations, la transmission des actes soumis au contrôle de légalité. Mais à
terme l’essentiel des actes administratifs peut être concerné par le décret élaboré pour les actes sous seing privé.
Le décret du 30 mars permet théoriquement une acception large de la signature électronique (signature cryptographique, signature biométrique, signature-tatouage,
signature numérisée). Ceci étant, il précise que " la fiabilité d’un procédé de signature électronique est présumée jusqu’à preuve contraire lorsque ce procédé met en
oeuvre une signature électronique sécurisée, établie grâce à un dispositif sécurisé de création de signature électronique et que la vérification de cette signature repose
sur l’utilisation d’un certificat électronique qualifié ". Tous les documents ne disposeront pas de toute évidence de ce type de signature.
La signature cryptographique est de celles qui peuvent répondre aux exigences de sécurité définies dans le décret du 30 mars 2001. Elle repose sur l’existence pour
l’expéditeur et le destinataire d’un document, d’une clé publique et d’une clé privée qui permettent de réaliser, la signature, le chiffrement éventuellement et la lecture
du document signé. La clé publique de chaque individu est rendue disponible au sein d’un annuaire, alors que la clé privée est conservée secrète. Bien que la clé
publique et la clé privée soit complémentaire, il est impossible, même en connaissant la clé publique, d’en déduire la clé privée.
Le certificat, délivré par une autorité de certification, contient des informations qui permettent d’associer une clé publique à un individu et de s’assurer de l’identité de
l’expéditeur d’un message par exemple.
Cette signature tend à sécuriser la circulation des documents sur les réseaux dans la mesure où son système permet de repérer toute altération du document. En
revanche, pour le moment, rien n’est prévu pour permettre une vérification de la signature, des années après son établissement. Des chercheurs européens travaillent à
un protocole qui permettrait la conservation de l’environnement de la signature.
Sinon, il est impossible d’assurer la pérennité d’une signature cryptographique dans la mesure où, pour assurer la lisibilité du document dans le temps, celui-ci devra
faire l’objet de migrations. Le document en est inévitablement modifié ce qui ferait échouer les mécanismes de vérification, le principe de la signature cryptographique
étant de garantir l’identité et l’intégrité du document.
La signature numérisée consiste simplement en la capture, au sein d’un fichier informatique, de l’image de la signature manuscrite d’un individu. L’image
informatique résultante peut ensuite être ajoutée, par différents procédés, à la suite ou au sein d’un document électronique et conservée sous le même format.
Exemple : le système SAGA développé pour le
Service central de l’état civil du ministère des Affaires étrangères (SCEC) à Nantes
Le système comporte trois éléments distincts : tout d’abord, les 8 millions d’actes numérisés à partir des registres papier;
ensuite, le système qui permet à l’officier d’état civil d’apposer un " pavé " contenant le sceau de l’État et sa signature au
sein de l’acte numérique ; finalement, le papier sécurisé sur lequel la copie conforme signée est imprimée, papier pourvu de
caractéristiques spéciales qui protège son intégrité et en empêche la reproduction.
Au sein même du SCEC, la sécurité est assurée par un ensemble de méthodes et techniques : les officiers d’état civil ne sont
pas n’importe quel groupe d’utilisateurs, et la pénalisation sévère du faux en écriture publique assure, plus que toute mesure
technologique ne saurait le faire, qu’ils ne soient pas considérés comme des fraudeurs potentiels au sein du système. Des
mécanismes de journalisation automatique des procédures informatiques assurent leur traçabilité. L’accès aux locaux
contenant les documents numérisés et au papier sécurisé est contrôlé par les procédés traditionnels de clés et serrures, et
l’accès aux postes de travail des officiers d’état civil est quant à lui contrôlé par mot (ou phrase) de passe. De plus,
l’utilisation de la signature numérisée de l’officier est strictement guidée par le système : l’image numérisée de la signature
ne réside pas sur le poste de travail de l’officier mais bien sur un serveur central, n’étant transférée qu’au moment de
l’identification de l’officier à son poste de travail ; la signature n’est utilisable que dans les modalités définies par le
système et ne peut être extraite pour une utilisation non conforme.
Pour des documents numériques exploitables à des fins juridiques, la signature électronique constitue une des garanties essentielles de leur intégrité et toute altération
porte atteinte à celle-ci. Mais pour les autres documents, un doute quant à leur authenticité peut être toléré et la signature aura moins d’importance et pourra donc être
séparée des données si elle empêche leur conservation par migration. Le chercheur usera des autres éléments de critique et des méthodes traditionnelles de la
diplomatique pour juger du degré d’intégrité des données.
La forme matérielle est aussi jusqu’à présent un élément déterminant pour juger de l’intégrité du document. Or la technique la plus couramment utilisée jusqu’à présent
consiste à détacher les données de leur contexte de mise en forme, pour les préserver sur le long terme plus commodément. Un élément important pour juger de
l’intégrité des documents est ainsi perdu. Ce constat est lourd de conséquences pour la dématérialisation des actes authentiques dont le formalisme est très important.
IV.8. Assurer le transfert
Il est nécessaire que le service qui doit conserver les documents, dispose au moins d’une station de travail avec les lecteurs appropriés aux formats à réceptionner.
Importance de l'équipement technique : exemple de l'archivage de la Nouvelle Chaîne Pénale de Paris
La Direction des Archives de France souhaitait accompagner l'archivage de cette application aux Archives départementales
de Paris. Son équipement lui permettait de lire des CD ou des cassettes DAT 4 mm. Or les services du ministère de la
Justice n'avait pas de graveur de CD connecté au serveur Unix dans lequel étaient stockées les données et ne pouvait livrer
que des cassettes DAT 8 mm. L'histoire finit bien car la direction informatique de la ville de Paris a récupéré les données de
la cassette DAT 8 mm, les a stockées puis gravées sur un CD remis à la Direction des Archives de France pour ses tests.
L'archivage des données numériques nécessite d'étroites collaborations et mutualisations de moyens
Le service d’archives informera à l’avance les services producteurs qui seront amenés à faire des versements, des formats et supports sur lesquels ces versements
devront être faits.
Lorsque l'archiviste n'a pas été associé à toute la chaîne de traitement du document, dès l'amont, il examinera très soigneusement le contenus des versements avant leur
entrée.
Les fichiers seront ouverts, éventuellement par sondage s’ils sont trop nombreux. Leurs métadonnées seront contrôlées et leur collecte éventuellement poursuivie afin
qu’elles soient les plus complètes possible. L’archiviste s’assurera aussi que ce qu’il intègre dans les collections est bien conforme à la production initiale et que les
données sont intègres. Ce travail est très long, ce qui justifie pleinement une intervention précoce de l'archiviste dans la vie du document : ceci évitera des lourdeurs,
voire des échecs en bout de chaîne.
L’enregistrement de l’entrée sera effectué sur le système usuel de l’institution.
V. Garantir la conservation
V. 1. Conditions minimales requises pour l’acceptation d’un versement de données électroniques
Comme pour les supports traditionnels, la première des conditions consiste naturellement à s’assurer que les données et documents à accueillir sont ceux qui étaient
attendus, en vérifiant par sondage et avant le versement, le contenu du bordereau de versement avec le contenu des documents.
Mais le versement a des caractéristiques nouvelles à analyser. Il faudra non seulement vérifier les contenus, l’existence et la transmission de toutes les métadonnées
indispensables à la survie des documents électroniques mais également le format des données.
On vérifiera par exemple
l’existence et la transmission des listes et définitions (dictionnaire) des données, de leurs codes et de leurs structures. On
vérifiera que cette documentation décrit bien le ou les fichier(s) à verser. Documentation et données numériques sont
indissociables et doivent être versées en même temps,
la conformité d’un format image par rapport au format annoncé (ex. : PNG, TIFF),
la conformité d’un document XML par rapport à la DTD ou au Schéma annoncé et le versement de cette DTD ou de ce
Schéma
VI. 2. Choix des formats et supports
Toute application hors ligne repose sur des formats et sur des supports qui nécessitent du matériel de lecture spécifique. Pour conserver les données dans leur format
d’origine, il faudrait donc constituer des musées de technologies informatiques utopiques, tant leur coût serait considérable. C’est pourquoi, on s’est jusqu’à présent
attaché à privilégier la conservation des données, de l’information et non celle de la forme et du format des documents d’origine.
VI. 2.1 Formats et langages d’encodage
Au sein d’un système informatique, toute information est nécessairement représentée à la base sous forme d’un code binaire composé de 0 et de 1 (les bits).
De nombreux formats d’encodage permettent ensuite de présenter cette information sous forme textuelle, image...Par exemple, un format texte est composé de
caractères qui sont eux-mêmes composés de combinaisons de huit 0 et 1 (les octets). C'est sur ce niveau d'encodage que se pratique en général l'archivage à long terme
des données.
Mais un format d’encodage n’est qu’un élément dans un ensemble d’outils qui le rend intelligible : un fichier Word par exemple est toujours conçu pour être jumelé à
une version du logiciel Word, lui-même conçu pour un certain modèle d’ordinateur et pour son propre système d’exploitation. Un document électronique n’est lisible
que grâce à l’interaction de l’encodage avec un logiciel et du matériel informatique permettant de l’interpréter.
Il y a donc divers niveaux d'encodage qui sont emboîtés les uns dans les autres.
Les formats d’encodage peuvent être :
●
ouverts (si les spécifications sont publiques),
fermés (si les spécifications sont tenues secrètes par le propriétaire),
propriétaires, c’est-à-dire définis par une entreprise privée et soumis à des droits ; un tel format dont l’usage peut être gratuit peut devenir payant demain si la
politique commerciale de son propriétaire change ; un format propriétaire peut être ouvert,
standards, c’est-à-dire produits par un organisme de normalisation (ISO, AFNOR, W3C) ; ils sont ouverts et non propriétaires.
●
Les formats textuels
●
●
●
Leur encodage repose sur un format " texte " qui se contente de gérer les caractères alphanumériques, ainsi qu’un certain nombre de caractères " blancs ". Le plus
souvent, ces caractères sont codés en ASCII, mais ce codage ne spécifiant pas la représentation des caractères accentués, il pourrait être remplacé par l’UNICODE.
L’ASCII et l’UNICODE sont des normes ISO. Cette normalisation facilite la conservation des données numériques.
Un document peut être créé en pur format texte grâce à un éditeur de texte, programme dont la fonction principale est de permettre l'édition (création/ajout/
modification/suppression) de texte simple, sans aucun enrichissement typographique ou mise en forme. Il en résulte un fichier en TXT qui contient ce texte " à plat ".
De même lorsqu’on veut mettre pour conservation à long terme, un document " à plat ", en ASCII ou en UNICODE, toute mise en forme originale disparaît (police de
caractère, taille, italique ou gras, etc). On ne préserve que les espaces et les caractères.
Malgré la normalisation de ces langages, cette mise à plat n’est pas toujours aisée dans la mesure où chacun des systèmes d’exploitation (Windows, Macintosh, Unix,
Linux...) codifie le format texte différemment.
À partir de ces langages, ont été développés des traitements de texte, des méta-langages et langages de balisage, ainsi que des formats mixtes combinant texte et image.
■
Les traitements de texte
Un traitement de texte est un logiciel servant à éditer du texte, de manière plus puissante, plus complète mais aussi complexe qu'un simple éditeur de texte. Un des plus
connus est Word (logiciel propriétaire et fermé) conçu par Microsoft. Le format texte mis en oeuvre par un traitement de texte, conçu pour répondre à des besoins
d’éditions modestes, donne au texte la même apparence à l’écran et sur papier. L’outil peut aussi permettre de structurer l’information de façon assez sophistiquée mais
non normalisée.
Un document peut être réalisé grâce à une macro ou macro-commande, commande formée par une succession d'autres commandes répétitives, plus ou moins
structurée. Les langages de macro sont de plus en plus complets, de sorte qu'une macro va du simple double-clic automatisé à une petite application. Ces commandes
sont très spécifiques et liées à une version d’un logiciel. Elles sont aussi sources de nombreux virus. Il est donc impératif d’en épurer les fichiers pour conservation
longue.
Les impossibilités d’échange entre logiciels de traitement de texte, y compris entre les différentes versions d’un même logiciel, a conduit Microsoft à produire le format
RTF (Rich Text Format). C’est un format propriétaire mais ouvert. Il spécifie des paramètres quant à la mise en forme. Tous les logiciels commerciaux sont censés le
lire, pour assurer un minimum d’interopérabilité avec Microsoft Word mais de nombreuses anomalies et non-portabilité de fichiers créés dans ce format, ont pu être
constatées.
Il est pratiquement impossible d’assurer la pérennité de ces formats spécifiques de traitements de texte. En revanche, les langages de balisage présentent des garanties.
■
Les méta-langages et langages de balisage
A l’origine des langages de balisage et de structuration de l’information est le SGML (Standard Generalized Markup Language), méta-langage de balisage normalisé en
1986, utilisé par les éditeurs, les universitaires et surtout par le monde de l’industrie pour créer de grandes documentations techniques. Ce méta-langage étant lourd et
d’utilisation complexe, le W3C a développé le HTML (HyperText Markup Language) pour la création simple et rapide de documents " hypertexte ". Non propriétaire
et ouvert, il fait partie des standards mais est utilisé très diversement selon les éditeurs de pages Web.
Le HTML présente des inconvénients : les utilisateurs ne peuvent définir une structuration qui leur soit propre, et cette structuration mêle la forme et le fond, c’est-àdire qu’à une structure est obligatoirement associée une représentation. Il se prête mal à la création d’hyperdocuments complexes.
C’est pourquoi le W3C a décidé de produire un ensemble de recommandations, le XML (eXtensible Markup Language) dont la première, XML version 1.0, publiée en
1998, définit le méta-langage de base. Le XML découle du SGML, mais est adapté aux nouvelles exigences du Web. La finalité de ce méta-langage est l’échange de
données et l’interopérabilité des applications. La combinaison de XML et du langage de programmation de mise en forme XSL-T (eXtensible Style LanguageTransformations), peut répondre à tous les besoins d’édition, quelle que soit la plate-forme informatique, quelle que soit l’application. Un document XML peut être
présenté en autant de façons que nécessaire grâce à XSL-T.
Dans le HTML, description physique et structurelle sont intimement mêlées. Ceci conduit à deux difficultés majeures :
les documents créés ont une espérance de vie courte, limitée par la pérennité des technologies capables de donner aux éléments de mise en page, l’interprétation
attendue,
un même document ne peut être facilement réalisé selon des modèles physiques différents, ce qui limite son accessibilité.
En revanche, le fait que contenu structuré et présentation des données soient distincts dans le XML, peut poser des problèmes pour la critique de l’intégrité des
documents et de leur authenticité comme cela a été soulevé dans le rapport sur la dématérialisation des actes authentiques.
On peut, si on le souhaite, modéliser des types de documents prédéfinis en XML grâce à des DTD (Document Type Definition) ou à des schémas XML. Les données
ne sont en ce cas interprétables que si on connaît la DTD ou le schéma qu’il faudra donc veiller à conserver comme référentiel dans les métadonnées.
❍
Les formats image
La scannérisation est la façon la plus simple de numériser les archives existant sur papier, en obtenant une image électronique de chaque page d’un document, et en
liant ces pages par un mécanisme d’indexation approprié. Le format image permet ainsi de joindre l’univers papier et l’univers électronique. Cependant, un format
image n’assigne aucune structuration sémantique aux données contenues dans l’image. En particulier, le texte écrit est compris en tant qu’image, et non en tant que
suite de caractères intelligibles. Pour que l’ordinateur soit en mesure d’effectuer des traitements sur le texte contenu dans un fichier image, il faut effectuer une
opération ultérieure de reconnaissance optique de caractères.
L’image peut être prise par un appareil photo numérique ou par un scanner à plat. Son encodage se fait selon un quadrillage (constitué de points lumineux ou pixels
plus ou moins gros sur l’écran) dont la densité définit la résolution de l’image. Pour la représentation informatique, on donne à chaque pixel, une valeur codée sur un
certain nombre de bits qui va en déterminer la couleur ou l’intensité. Le nombre de pixels par pouce dit " dpi " (dot per inche) (100, 300, 600...dpi) sera choisi en
fonction de la qualité requise pour l’image numérique. Plus le nombre de points sur une surface donnée est grand, plus la qualité de l’image l’est, mais plus aussi
augmente son volume en octets. La compression permet de réduire ce volume mais certains algorithmes de compression dégradent l’image d’origine. Or, plus une
image est dégradée moins elle sera pérenne, étant donné que chaque migration des données et supports risque de lui faire perdre encore de sa qualité. Dans le cas où
l’algorithme de compression ne dégrade pas l’image, celle-ci a toute chance de mieux évoluer dans le temps. On veillera quand même à avoir pour le passage de la
génération n à la génération n+1, le même outil de compression/décompression, car alors on ne fait que copier les fichiers sans leur faire subir de transformation, ce qui
est plus sécurisant.
Il existe de nombreux formats image. On optera pour l’un ou l’autre en fonction des finalités de la numérisation des documents. On choisira en fonction de l’affichage
et de la lisibilité souhaités, de la place occupée sur les supports. Il faut rechercher le meilleur compromis entre le volume des documents électroniques produits et la
qualité recherchée en fonction des usages envisagés.
Pour la conservation à long terme, il faut privilégier un format comme le TIFF (Tagged Image File Format) qui supporte une compression sans perte ; son inconvénient
est que l’image TIFF est volumineuse. Deux autres formats peuvent ensuite se concurrencer : le PNG (Portable Network Graphics) qui compressé, est très peu dégradé
et peu volumineux et la nouvelle génération de JPEG (JPEG 2000), mais en veillant à utiliser les bons paramètres.
❍
Les formats mixtes (texte et image)
L’utilisation de ces formats image impose de choisir a priori et irrémédiablement, la résolution du fichier que l’on crée. Le langage PostScript propose une solution
pour résoudre ce problème, en décrivant des images d’une façon uniforme quelle soit la résolution du périphérique d’édition, à l’aide d’équations vectorielles. Un
document décrit en langage PostScript peut être envoyé à tout périphérique qui supporte le langage PostScript, quelle que soit sa résolution, en produisant un résultat
adapté à chaque type de périphérique.
Le format PDF (Portable Document Format) est basé sur le langage PostScript, et reprend sa philosophie. Alors que l’objectif du PostScript est de pouvoir représenter
une page de manière qui soit indépendante de la résolution du périphérique d’édition, l’objectif du PDF est de pouvoir représenter un document de la même manière,
indépendamment de la plate-forme et de l’ordinateur utilisé. On n’écrit pas un document directement en PDF, on produit le document dans le logiciel approprié et
ensuite, on transforme le document en PDF, le plus souvent grâce au logiciel Acrobat de la société Adobe. Le format incorpore des aspects interactifs : liens
hypertextes, signets, signature électronique, chiffrement, etc. Le format PDF tente donc de réaliser tout le potentiel du document électronique. Il est portable dans un
grand nombre d’environnements et la politique menée par la société Adobe, propriétaire du format, de distribution gratuite du logiciel Acrobat Reader, pour la lecture
des documents PDF a participé à cette universalité. La conversion en PDF implique en revanche d’utiliser le logiciel Acrobat Capture, qui lui, est payant.
Ces deux formats sont propriétaires mais ouverts car les spécifications en sont connues. Il sont donc moins dépendants que d'autres, de logiciels particuliers. Le PDF
peut donc être éventuellement accepté pour une conservation à long terme.
❍
Critère de choix des formats
Pour la conservation à long terme, en fonction des besoins et capacités de l'institution :
●
on choisira donc, de préférence, des langages et formats standards ou faisant l’objet de recommandations internationales (XML, HTML, TXT pour les
documents textuels)
en cas d’impossibilité, on retiendra des formats ouverts (PDF pour les documents textuels, TIFF, ou PNG pour les images) et on évitera les formats fermés.
V.2.2.Supports
La conservation à long terme est aussi affaire de fiabilité des supports et de pérennité des matériels. Elle implique une révision périodique des choix opérés afin de
vérifier la conformité des solutions et des équipements adoptés avec les évolutions de la technologie car l’expérience prouve que chacun des deux éléments du couple
support-matériel peut se révéler obsolète en quelques années.
Les critères de choix des supports sont :
●
le niveau d'intégrité requis pour les données
La meilleure garantie en ce domaine est, selon la norme AF Z 42-013, le recours à la technologie du disque optique WORM, qui empêche toute modification des
données enregistrées.
●
les moyens financiers disponibles
Le niveau de ces moyens conditionnera directement le rythme de renouvellement des supports ; le minimum indispensable (c'est-à-dire le niveau en dessous duquel il
est illusoire de prétendre faire de l’archivage électronique) est ce qui permet d’effectuer l’opération deux ans au moins avant la date de péremption des supports.
L’idéal est cependant d’être en mesure de procéder à des renouvellements beaucoup plus précoces que ne l’implique la durée de vie annoncée des supports ou de leur
technique : car plus l’intervalle entre deux migrations est long, plus le risque de perte de qualité des données est important (une migration intervenant au bout de huit
ans entraîne une perte d’environ 3 %, alors que la perte est réduite à 0,2 % si la migration intervient dans les deux ans).
●
le volume des données à conserver sur le long terme et leur fréquence d'utilisation
Ce critère est déterminant pour le choix des supports. Des données très volumineuses pourront trouver place sur des cassettes, de type DLT, 3480 ou 3481 d’IBM. Mais
ce support n'est pas utilisé par le grand public et ne se prête donc guère à la communication : des données souvent consultées (par exemple des bases de données tenant
lieu d’instruments de recherche) seront plus à leur place sur des CD-R, voire en ligne sur un serveur. La taille des supports doit en principe être adaptée à la taille des
fichiers : un seul fichier conservé sur un support qui lui est bien adapté quant au volume, est plus rapidement repéré par un système de gestion automatisée, que de
nombreux petits fichiers stockés sur un support de forte densité.
●
En revanche, la longévité des supports ne peut être aujourd’hui un critère de choix.
La plupart se dégradent même dans des conditions de conservation optimale, entre 10 et 20 ans. On estime que seul le disque de verre ne pas détériore pas et pourrait
être encore lu par les matériels existants durant une cinquantaine d’années. En revanche, rien ne garantit que les matériels de lecture supporteront encore dans quelques
décennies leur format. Car un support de bonne qualité dans des conditions optimales de conservation peut être conservé sans altération, alors que sa technique et ses
outils de lecture seront devenus obsolètes et difficiles à trouver sur le marché.
Exemple : les fichiers image
On a vu qu’il est conseillé d’archiver les fichiers images plutôt en format PNG ou en format TIFF.
Une image TIFF occupe, selon sa compression, de 10 à 500 Mo. Un CD-R a une contenance maximale de 650 Mo. On ne
stocke donc sur un CD-R que une à 60 images au plus, ce qui est peu pour de grandes séries documentaires.
On n’archivera donc pas de gros stocks d’images sur ce support ; on ne gravera dessus que les fichiers très fréquemment
demandés en consultation.
Le Centre des archives contemporaines a ainsi fait le choix de cassettes SuperDLT pour l’archivage en mode image du
recensement de population 1999 étant donné le volume des données (14 To) et le coût de leur archivage.
En revanche, certains estiment que plus la capacité du support de conservation est importante, plus le risque encouru par les
données l’est.
Il faut cependant tenir compte d’autres paramètres pour apprécier les risques : duplication des données, sur des supports
physiques différents, stockés en des lieux différents, existence de procédures pour surveiller l’état des supports...
L'idéal serait d'envisager la conservation sur deux de ces types de supports, en fonction de l'objectif de conservation :
pour des documents très demandés par le public en ligne ou par commande (achat, prêt), on utiliserait le disque. Mais en ce cas, il faut assumer un stockage plus
lourd à gérer (sur rayons ou dans des tours de CD),
●
6
●
pour des documents peu consultés et volumineux, on utiliserait des cassettes comme les DLT,
●
on peut également combiner un support numérique et un support analogique.
Avant d’utiliser quelque support de conservation que ce soit, on pourra vérifier ou se faire assurer par le fournisseur que ce support et son lot ne comporte pas de défaut
de fabrication indécelable à l’utilisateur. La durée de vie des données en serait très réduite. Le défaut peut n’être constaté qu’au moment où on cherchera à avoir accès
aux données archivées. On veillera donc aussi après copie des données sur le support, à la qualité de lecture de celles-ci. On intégrera par ailleurs dans un programme
de gestion qui peut être automatisé, la vérification régulière des supports et on assurera leur veille technologique pour être prêt à en changer et à faire migrer les
données. Il est indispensable que le BLER (Bloc Error Rate), indicateur de qualité, soit tel que les données soient en classe 1 (ou au pire 2), pour que leur intégrité soit
garantie.
Certains experts estiment que la seule façon de conserver réellement sur le long terme est de conserver une copie en ligne, qui sera rafraîchie régulièrement vers de
nouveaux supports et à laquelle on pourra recourir chaque fois qu'un problème surviendra au support hors ligne et vice versa. Si les demandes de communication sont
constantes on aura intérêt à laisser les documents en ligne sur un serveur.
Bien souvent, pour des raisons variées (pour préserver la confidentialité de certaines informations contenues dans des champs d’une base ou parce que ces informations
doivent être décodées ou modifiées pour être rendues compréhensibles au public, ou pour réduire les temps de téléchargement, ou pour éviter le pillage...), ce sont des
fichiers différents qu’on met en ligne. En ce cas, il peut aussi être intéressant, voire nécessaire, d’archiver hors ligne la version mise en ligne.
Il est de toute façon indispensable dans le cadre d'un bon archivage de documents électroniques, de prévoir plusieurs exemplaires des mêmes documents, si possible sur
plusieurs types de supports différents. C’est la procédure de la " redondance ". Plus il se trouve par exemple de serveurs conservant des exemplaires d'un même
document numérique, moins on court le risque de les voir tous détruits en même temps Dans le monde numérique, le partage fait partie de la préservation à long terme.
On veillera aussi à ne jamais privilégier un support pour faciliter seulement la communication. Le principe de conservation à long terme demeure le critère le plus
important.
Exemple : le Service de transfert et d’archivage des fichiers (STAF)
du Centre National d’Etudes Spatiales (CNES)
Le CNES choisit ses supports de conservation en fonction des demandes de consultation et de mise à jour et en fonction des
besoins de pérennisation de l’information : une donnée très demandée sera sur disques magnétiques en ligne, une donnée
moins sollicitée sera " near-line " avec stockage des cassettes dans une tour de cassettes. En revanche, aucun document
n’est pour les chercheurs du CNES hors ligne, rangé sur rayons. Les producteurs de données du CNES déterminent le
niveau de performance requis en matière de restitution des données archivées et de garantie de leur pérennité. Le support
considéré par le STAF comme assurant la meilleure performance est le disque magnétique. Les disques sont
automatiquement dupliqués. A chaque disque, correspond un disque miroir (qui résulte du partage de chaque disque). Le
support de deuxième niveau de performance est la cartouche des gammes Storagetek ou IBM. Les cartouches sont stockées
dans des librairies automatisées. Le STAF gère automatiquement la migration des données des disques vers les cartouches
mais le retour des cartouches sur disques est déclenché systématiquement quand l’utilisateur veut une restitution des
données. Le système gère également le recyclage des supports : un support qui est détérioré est repéré par le système qui le
recycle. Les cartouches sont aussi recyclées systématiquement tous les cinq ans par le même procédé
C’est ainsi que pour le stockage, le STAF propose :
- des supports en ligne (les disques magnétiques)
- des supports "presque en ligne" (near-line), les cartouches : le délai de restitution est un peu plus long.
La destruction des supports originaux qui contenaient les fichiers peut n’être décidée que longtemps après la migration de ceux-ci, voire pas du tout. En revanche, si on
décide de conserver ces supports originaux, on veillera à conserver leurs outils de lecture dont la maintenance deviendra de plus en plus onéreuse avec le temps.
Par ailleurs, il est impératif de détruire physiquement les supports lorsqu’on souhaite éliminer totalement une information. Il ne faut pas se contenter, lorsque le mode
de gravure le permet, d’effacer les données pour détruire l’information.
V.3. La conservation à long terme des données
V.3.1. Migration des données
Il y a deux types de migration qu’il convient de distinguer :
●
●
la migration permettant de changer de support physique de stockage sans toucher au train de bits contenant l’information,
la migration conduisant à changer le format ou le codage des données.
Toute application est en effet construite sur des langages, logiciels et systèmes d'exploitation qui sont l'objet de modifications et enrichissements permanents. La
plupart de ceux-ci, cependant, altère les conditions de restitution des données et des informations au point, dans certains cas, de les rendre inaccessibles et/ou
inutilisables.
C'est pourquoi, la solution préconisée depuis un quart de siècle pour résoudre ce problème est la migration des données.
Cette opération consiste à séparer données et informations de tout outil logiciel ayant servi à leur constitution et à les convertir dans un langage standardisé offrant des
garanties de pérennité, comme l’ASCII. Mais à terme la migration des fichiers pourrait se faire vers le nouveau code universel qu’est UNICODE.
La technique de la migration assure la pérennité des données et informations. Elle impose une veille technologique permanente. Cela implique soit que les Archives
comptent dans leurs effectifs des personnes averties de l’évolution des langages et des outils, soit qu’elles puissent trouver de telles compétences auprès du service
informatique de l’organisme dont elles dépendent ou auquel elles sont rattachées.
Les données ainsi séparées de leur mise en forme originelle ne retrouveront plus, une fois remontées sur un autre outil logiciel, leurs apparence et
présentation d’origine.
La conservation des données électronique par la technique de la migration aboutit donc à un résultat très différent de ce qu’on connaît avec le papier et les autres
supports analogues : pour ces derniers on s’attache à conserver en même temps l’information et la façon dont celle-ci a été, dès l’origine, mise en forme. Et cette mise
en forme est souvent elle-même source d'information. Quiconque consultera des documents ou des données ayant fait l’objet de migration sera donc tributaire des
instruments de recherche, et notamment de la description des métadonnées que contiendront ceux-ci, pour reconstituer l’aspect initial des documents et la perception
que pouvaient en avoir producteur(s) et utilisateurs.
On peut donc dire que la migration est dans une certaine mesure irréversible de par la séparation des données de leur contexte technologique de création. En revanche,
une migration d’un état de fichier ASCII vers un état de fichier UNICODE est ensuite réversible, ce qui est un élément important de garantie de l’intégrité des données.
Dans d’autres cas, lorsque le mode de codage est spécifique à un constructeur et à un système d’exploitation et qu’on souhaite faire migrer les données vers un mode de
codage standard, il sera impossible d’assurer la réversibilité de l’opération.
Exemple de l’irréversibilité de migration de mode d’encodage
Le CNES manipule des nombres avec une très grande précision. Il a été contraint de procéder à des migrations car le mode
de codage des nombres réels utilisé (par ex. 12398,9865490) était propriétaire et qu’il était souhaitable de passer à un
codage standardisé. En raison de la taille des nombres en machine, il n’a pas été possible lors de cette opération de garantir
que la dernière décimale était identique avant et après migration.
V.3.2.Les microformes COM (Computer Output Microform)
Il est possible de produire des microformes directement d’après les données binaires issues d’un ordinateur : microfilm 16 ou 35 mm et plus communément microfiche.
Il existe deux catégories de machines de production : COM alphanumérique, limitée à la transcription des signes de l’écriture à l’exclusion des schémas, croquis et
photographies et COM graphique apte à reproduire et enregistrer toutes les formes graphiques. Il est ensuite possible de reconstituer l'objet numérique à partir de la
microforme COM.
La technique COM assure donc une copie de sécurité au document numérique dès lors que toute garantie sur l’identité et l’intégrité des documents est bien assurée par
l’outil (pas de possibilité d’intervention humaine dans le transfert de la forme numérique à la forme analogique par exemple).
En revanche, disposer de microformes dont la durée de vie dans de bonnes conditions climatiques et matérielles, est d’une centaine d’années, et qui ont aussi l’avantage
d’être lisible sans intervention d’ordinateurs, ne dispense pas de veiller à la bonne conservation de la forme numérique. La microforme prive des facilités de traitement
et de recherche que présente le numérique. Elle nécessite des appareils de lecture relativement peu usités.
Cependant, ce peut être une réponse pour des typologies bien ciblées. Des données soumises à une exigence forte en matière de sécurité et de fixation de l'information
et dont la destruction ferait courir des risques financier et juridique, méritent qu'on envisage le recours à cette technologie plus onéreuse. En ce cas, il faudra veiller à la
parfaite conservation des microformes sans pour autant négliger celles des données numériques.
La SNCF par exemple utilise la technique COM pour la conservation des plans des rames TGV, produits et conservés également sous leur forme numérique.
V.4. Les locaux d’archivage
De même qu’un service d’archives a des magasins de stockage pour les supports traditionnels, de même il doit avoir prévu des espaces de conservation des données
électroniques, un service d’archives électroniques. Il est nécessaire de prévoir leur capacité pour un laps de temps donné (8 à 10 ans est raisonnable), en fonction de la
production susceptible d’être archivée et de la politique et des moyens de conservation définis par l’institution. Ces moyens techniques de conservation concourent à
assurer l’intégrité des données et à garantir leur accès à travers le temps.
Il suffit aujourd’hui de réserver dans les locaux adaptés à la conservation sur support traditionnel, une pièce ou un espace bien protégé, sans poussière, sans lumière et
avec un champ magnétique aussi faible que possible en particulier en évitant la proximité de moteurs ou de transformateurs électriques, d’une température de 20°
environ, d’une humidité relative de 40%. Les supports seront conditionnés dans des boîtes qui évitent toute déformation ou rayure de la couche de polycarbonate.
VI. Mettre à disposition les données
C’est par la mise à disposition des données que peut être changée l’image et le rôle des services d’archives dans la société.
La disponibilité des données numériques constitue un facteur déterminant dans l’accroissement de l’activité de communication. La communication peut désormais être
faite à distance et accessible en même temps à un nombre indéterminé de personnes. Elle peut aussi être matériellement assurée par des prestataires de service ou par
des institutions autres que celles qui assureront la conservation d’un autre exemplaire hors ligne des données. Le fait que les documents seront consultés par un plus
grand nombre de personnes en raison de cette amélioration de l’accessibilité, en particulier lorsque les données sont en ligne, peut inciter les tutelles des services
d’archives à assurer à ceux-ci des ressources budgétaires et humaines plus importantes, ressources qui pourront être consacrées au traitement des données électroniques
plus lourd que celui des documents papier.
Les services qui sauront relever le défi d’une communication immédiate des documents légalement communicables les plus demandés, répondront vraiment aux
exigences de la société de l’information, pour laquelle électronique est synonyme de disponibilité.
Les systèmes de communication des données devront donc prendre en compte automatiquement l’accès et la gestion des droits. Les services d’archives auront intérêt à
mettre en ligne les documents les plus sollicités et assurer des services de maintenance 24h/24 des serveurs concernés.
L’administration productrice ou le chercheur retrouveront trace des données grâce aux instruments de recherche archivistique qui prendront en compte, éventuellement
automatiquement, la documentation et les métadonnées élaborées lors de la production du document .
L’administration et le grand public procéderont comme de coutume à la demande de communication qui pourra relever du domaine des téléprocédures.
VI.1. Les instruments de recherche
La description est une des phases les plus importantes du travail de préservation à long terme des données électroniques. L’archiviste doit être conscient que le travail
d’analyse et d’élaboration d’instruments de recherche est beaucoup plus long et délicat pour l’information numérique que pour des documents sur support papier qui
supportent plus d’approximation. L'analyse d'une application ne peut être rédigée en quelques lignes.
Dans le cas du document électronique en effet, ce n’est pas l'unité documentaire de quelque taille qu'elle soit qu’on décrit mais les données qu’elle contient. Dans le cas
d'une base de données, le contenu de chacune des données est expliqué dans le dictionnaire, ses relations avec les autres décrites. L’archiviste veillera aussi à décrire le
contexte de création et de vie de l’information, de sa collecte, ses lacunes afin d’éclairer le lecteur sur l’état dans lequel elle lui est fournie.
Il serait donc préférable que cette description soit en partie faite très en amont lors de la production des données. La définition de ces métadonnées résulte d’une
collaboration entre archiviste et producteurs. Les besoins de recherche de l’administration ou de l’entreprise sont alors parfaitement pris en compte autant que ceux du
grand public.
Cette description peut être faite avec les outils usuels de l'institution et même sur support traditionnel, y compris papier. Elle doit être conforme aux recommandations
de la norme ISAD (G) version 2 (septembre 2000) publiée par le Conseil international des Archives.
A terme, on pourra veiller à ce qu’une partie des métadonnées puisse alimenter automatiquement l’instrument de recherche. En effet, dans le cas de données encodées
ou encapsulées dans le format XML, il est tout à fait possible qu’une partie d’entre elles servent à alimenter un système de description lui-même écrit en XML, par
exemple recourant à la DTD (EAD) (Document Type Definition/Encoded Archival Description).
Cette DTD compatible avec ISAD (G) est l’outil électronique actuellement le plus adapté à la description hiérarchisée des contenus.
Il est possible de demander dans un cahier des charges de gestion électronique de documents que certains éléments alimentent automatiquement un catalogue ou des
instruments de recherche, en ligne ou non. On peut même, grâce à un élément encodé dans une balise XML, avoir le lien de l’instrument de recherche vers le document
électronique lui-même (par exemple une base de données ou des données d’une base de données).
Il est à remarquer que certaines bases constituées par l’administration peuvent être considérées comme des instruments de recherche car elles donnent accès à d’autres
documents, par exemple des dossiers. Ces instruments de recherche, contrairement à la pratique archivistique, ne sont pas toujours immédiatement communicables car
ils peuvent contenir des informations confidentielles, notamment nominatives. On veillera donc à ce que l’instrument de recherche disponible au grand public soit
expurgé de ces éléments non communicables, jusqu’à ce que le délai de communicabilité soit échu.
Un cas spécifique : le Service de transfert et d’archivage des fichiers (STAF)
du Centre National d’Etudes Spatiales (CNES)
L’archivage des projets comprend généralement les données elles-mêmes ainsi que les fichiers descriptifs de ces données.
Le STAF peut gérer un lien sémantique entre les données et leur description mais bien souvent, ce sont les utilisateurs euxmêmes qui préfèrent gérer dans des bases qui leur sont propres, ces liens.
L’admininistrateur système qui a une vue horizontale sur tous les projets crée une racine puis l’administrateur du projet
nomme le projet, crée des profils d’utilisateurs. Ainsi chaque projet a son arborescence (racine, répertoires, fichiers ) et
alimente le catalogue.
Il ne s'agit pas d'une description au sens où les archivistes l'entendent habituellement. En revanche, ces éléments font bien
partie des métadonnées de description et sont automatiquement intégrés à l'instrument de recherche.
VI.2. Communication des données
Selon les types de données, une médiation du service d’archivage sera nécessaire pour les transmettre, notamment dans le cas où celles-ci, rarement demandées, auront
été conservées uniquement hors ligne.
Le public, selon les délais de communicabilité, pourra ou non accéder directement aux données ; après avoir trouvé une première piste de recherche dans les
descriptions des données, il sera alors renseigné sur leur contenu plus détaillé par le service de communication ; il pourra ainsi au besoin entamer une demande de
dérogation dans le cas de données gérées par les services publics selon les lois en vigueur.
Mais si dans tous les cas de figure, il est utile d’avoir une conservation des données à plat, sur les supports les plus pertinents, on aura aussi intérêt à les faire remonter
par le service informatique compétent le plus proche sur n’importe quel logiciel de gestion de bases utilisé couramment dans l’organisme de conservation à long terme
et la maintenir sur des serveurs dès lors que les données sont susceptibles d’être souvent demandées afin de fournir l’information en temps réel au public et à
l’institution productrice. Cela est notamment vrai pour les relations entre le service d’archivage et les services producteurs qui ne verseront pas leurs documents
électroniques dans les archives publiques si celles-ci ne rendent pas ce service instantané lors d’une recherche administrative.
Ceci signifie que les services de conservation à long terme pourront remonter les données dans un nouveau système de gestion de bases et les rendre interrogeables non
selon le mode initial exact qui était celui de l’institution productrice des données, mais selon les modes jugés les plus utiles aux chercheurs de quelque type qu’ils
soient (administration productrice et autre, chercheur).
Il faudra aussi avoir un service de délivrance au chercheur des données de son choix à plat sur des supports standards du marché ; le chercheur pourra ensuite les
installer ou les faire installer sur les systèmes de gestion de son choix.
Si on est amené à envisager une tarification de la fourniture de données électroniques aux autres personnes qu’au service producteur, on se conformera au décret n°
2001-493 du 6 juin 2001 pris pour l'application de l'article 4 de la loi n° 78-753 : " A l'occasion de la délivrance du document, des frais correspondant au coût de
reproduction et, le cas échéant, d'envoi de celui-ci et qui constituent une rémunération pour services rendus peuvent être mis à la charge du demandeur. Pour le calcul
de ces frais sont pris en compte, à l'exclusion des charges de personnel résultant du temps consacré à la recherche, à la reproduction et à l'envoi du document, le coût du
support fourni au demandeur, le coût d'amortissement et de fonctionnement du matériel utilisé pour la reproduction du document ainsi que le coût d'affranchissement
selon les modalités d'envoi postal choisies par le demandeur ".
Les mêmes données électroniques peuvent être accessibles dans la même institution de diverses façons ou être accessibles dans plusieurs institutions de diverses
façons. La description des données doit prendre en compte ces différentes solutions et les multiples localisations qu’elle implique. Des données peuvent être mises en
ligne soit sur le même système et dans la même base que lorsqu’elles étaient chez leur producteur, soit mises à plat sur des supports d’archivage hors ligne qui peuvent
eux-mêmes être de plusieurs types (une institution conservera parfois les mêmes données sur un disque et sur une cassette, voire même sur un support analogique
comme des microformes COM). On doit prendre en compte dans la description, le fait que ces divers supports peuvent être sous une même responsabilité intellectuelle
et scientifique et ne pas être conservés dans le même lieu physique (ainsi un service d’archives départementales pourra conserver en ses propres locaux les données en
ligne sur disque tandis que les mêmes données seront conservées sur cassettes dans une armoire sécurisée du service informatique du Conseil général ou d’une société
de sous-traitance…).
VII. Etudes de cas
On donnera dans ce chapitre quelques développements concrets aux principes généraux énoncés dans le chapitre précédent pour des documents et applications
électroniques relevant des services d’archives et dont les procédures et techniques de conservation à long terme ont déjà été testées et éprouvées.
VII.1 Bases de données
Une base de données est constituée du regroupement de plusieurs fichiers et tables dans une seule application et peut donc être relativement complexe.
Il existe plusieurs technologies pour la gestion de bases de données. Le langage aujourd'hui le plus répandu, SQL, permet de manipuler assez facilement les bases de
données conçues avec un SGBD-R (système de gestion de base de données relationnelle) (ajout, suppression, sélection de données) et de faire des recherches.
Certaines bases sont mises en oeuvre pour un besoin ponctuel : c’est le cas des fichiers d’enquêtes et de statistiques. Une telle base forme un tout simple à identifier et
dont les procédures de versement peuvent être assez aisées au delà d’un délai d’utilité administrative facile à déterminer avec le producteur. En revanche, la plupart des
bases de données, par exemple celle de gestion de personnels, sont vivantes, des données y sont quotidiennement ajoutées, ou en sont extraites et effacées. La tâche de
l’archiviste et du producteur sera donc plus délicate, notamment pour trouver les points périodiques de validation et fixation des données.
Comment procéder ? Le service producteur sait généralement combien de temps les données enregistrées lui seront utiles. Tout le problème vient en général du fait
qu’il a été prévu dans l’institution productrice de supprimer les données au bout de ce délai lorsque les serveurs n’ont pas la capacité de stocker davantage
d’information et que l’archiviste n’est pas au courant de cette procédure. Il est donc indispensable qu’il sollicite le versement régulier des données qu’il aura
sélectionnées avec le service producteur comme dignes d’être conservées sur le long terme.
L’objet d’information doit obligatoirement avoir au moment de l’archivage une structure figée et validée.
Quelle peut être la phase figée et validée d’une base de données vivante ?
Il y a plusieurs réponses à cela, selon le contenu de cette base et le type des données :
●
●
●
●
l’archivage d’une photographie de la base peut être fait à une périodicité déterminée,
le premier archivage prend la forme d’une photographie de la base, tandis que les archivages ultérieurs recueillent uniquement les données
nouvelles depuis la date d’archivage précédente,
on archivera dans les deux cas aussi les données qui sont retirées de la base ; l’extraction de la base vivante est un critère d’archivage en soi,
le producteur peut déterminer d’autres types de phases de validation, de clôture de parties de la base (par exemple de dossiers à l’intérieur de celleci) en relation avec l’archiviste et prévoir l’archivage selon ces critères de validation.
Si on décide de conserver une photographie périodique de la base en effectuant par exemple un versement annuel de sa totalité, chaque versement reprendra
l’intégralité des données du versement précédent et n’y ajoutera que les modifications ou données nouvelles intervenues dans l’année concernée. On archivera donc en
ce cas une grande masse de données dont une petite partie seulement représenterait des informations nouvelles réellement à conserver. L’avantage de cette méthode est
que l’on est assuré d’archiver, sans aucune perte, mais avec des redondances, toutes les données de la base.
En revanche cette méthode ne permet pas de résoudre deux difficultés majeures :
●
●
les conséquences des modifications à effet rétroactif portant conséquence sur la période chronologique précédemment archivée que ce soit dans la
situation administrative d’un agent (dans le cas d’une base de gestion de personnel), que ce soit à la suite de modifications réglementaires. La
pertinence et la validité des données archivées dans chaque versement ne peuvent donc être assurées. Le chercheur se trouvant face aux divers
versements ne pourrait faire de comparaisons valables et ne serait pas en mesure de vérifier la validité d’informations contradictoires selon les
versements (par exemple pour un même agent à une même date).
Les besoins du service versant. Pour que chaque versement représente effectivement l’intégralité des informations contenues dans la base à la date
à laquelle il est effectué, il serait essentiel que le service versant n’en détruise aucune d’une année sur l’autre. Or, si le service versant éprouve le
besoin d’archiver les données, c’est qu’il désire que soient conservées les informations dont il est obligé de se séparer par manque de place
physique.
Il est donc indispensable dans le cas d’une base dont toutes les données vivent potentiellement en permanence, de définir d’autres critères d’extraction : par exemple
pour une base de gestion de personnel, les informations relatives aux agents ayant quitté définitivement l’institution durant la périodicité décidée pour l’archivage (par
exemple durant l’année civile écoulée, si l’archivage a lieu tous les 2 janvier). On peut aussi décider pour accroître la validité des données de ne procéder à cet
archivage qu’au bout de trois ans par exemple : d’archiver en 2010 les données concernant le personnel ayant quitté l’institution en 2007 afin de permettre les
modifications pouvant intervenir pour régulariser des situations après le départ de l’agent. Une fois ces données versées au service d’archivage définitif, le service
versant peut les éliminer totalement de sa base. Cette procédure est beaucoup plus satisfaisante. Il faut essayer de maintenir dans la gestion à long terme du document
électronique les phases transitoires que l’on utilise pour le papier. Procéder à un versement avant l’expiration de ces phases-tampon qui permettent à la réflexion de
mûrir pourrait faire perdre en fin de compte du temps.
On procédera de la même façon par exemple pour des dossiers de justice et on pourrait opérer en ce cas l’archivage définitif pour des dossiers clos trois ans après leur
clôture.
Lorsqu’on archive une base en mettant à plat les données par leur migration, on les conserve seules sans les programmes qui ont servi à les créer et à les utiliser. On ne
conserve jamais la base telle qu’elle s’est présentée à ses utilisateurs initiaux. Il est donc nécessaire de retracer dans les instruments de recherche qui la décrivent, sa
structure d’origine qui disparaît avec les programmes de gestion des données, les types de droits qui permettaient d’y accéder... Cette collecte des métadonnées
indispensables pour comprendre comment été organisée à l’origine la base ne permettra cependant pas de la reconstituer à coup sûr dans son état initial.
Les versements de bases de données contiennent plusieurs parties distinctes :
●
●
●
les tables contenant les données en langage d'encodage standardisé, l'ASCII par exemple,
la structure de la base qui comprend la structure des différentes tables (liste et type des champs) et les relations qui les lient,
les codes et leur libellé en clair pour chaque type de données codé.
Chaque table fait l'objet d'un fichier lors du versement. Mais si on souhaite remonter rapidement la base dans un nouveau système de gestion par exemple pour la
communication, on pourra aussi se faire livrer un fichier contenant toutes les étiquettes ou fiches de la base, chacune repérée par un symbole et contenant à la suite les
données en ASCII délimité.
Toutes les données sont par ailleurs décrites et explicitées dans un dictionnaire des données. Il constitue comme les tables ou dictionnaire des codes et la structure de la
base, une partie de la documentation ou métadonnées qui sont récupérées par les services d’archivage à long terme sous forme électronique.
Pour les tables des codes, on sera attentif au fait qu’un même code peut changer de signification avec le temps pour de multiples raisons. L’idéal serait qu’une telle
situation ne se produise pas et que les gestionnaires de bases veillent à ce que ce ne soit pas le cas. Mais il est inévitable que l’archiviste s’y trouve confronté un jour ou
l’autre. Par exemple, dans le cas de base de gestion de personnel, ce sera en raison de la création de corps de fonctionnaires nouveaux se substituant à d’anciens, de la
transformation de statuts ou d’appellation… Il importe de conserver toutes les valeurs prises par un même code. Il s’agira donc d’établir la liste des codes d’une base de
données avec l’intégralité des significations différentes affectées à chaque code, en précisant leur date de début et fin de validité et cela pour toutes les tables
nécessaires à la compréhension des bases de données. Pour cela il sera nécessaire de trouver au sein des services producteurs les personnes qui connaîtraient les codes
anciens et obsolètes présents dans les fichiers en cours d’archivage.
On peut l’éviter en incitant les services informatiques qui gèrent ces tables à garder leur historique, c’est-à-dire la trace des modifications, suppressions, ajouts et de
leurs dates. Les nouvelles versions des tables accompagnant les nouveaux versements seront alors transmises aux Archives sans que ce service lui-même ait à
reconstituer l’historique de ces tables. Ce travail de reconstitution est en effet très lourd et risque de ne pas être fait ou d’être mal fait a posteriori.
On a vu qu’on pouvait pour les bases de données concevoir deux modes parallèles de conservation à long terme dans les services d’archivage historique, en fonction
des besoins de communication, modes qui permettront d’une part de conserver les données à plat, d’autre part les maintiendront accessibles rapidement pour la
recherche historique ou administrative.
C’est ainsi qu’il a été procédé avec la Direction des Archives de France au sein des services départementaux de la couronne parisienne pour la Nouvelle Chaîne Pénale
de Paris et de la région parisienne.
En revanche, il semble déraisonnable de vouloir conserver sous forme papier des bases de données. Il n’y a pas d’autre solution de les conserver que de le faire sous
mode électronique. L’investissement pour les concevoir et les faire vivre durant un laps de temps plus ou moins long serait totalement perdu si on pratiquait ainsi.
L’intérêt de la base de données est la grande capacité de recherche et de communication d’information qui est grâce à elle possible.
Exemple : l’archivage de la Nouvelle Chaîne Pénale de Paris et de la région parisienne (NCP)
Dans le cadre d’expérimentations sur l’archivage électronique, la Direction des Archives de France a décidé à la fin de
l’année 2000, sur suggestion du service des archives du ministère de la Justice, de procéder à un test d’archivage sur une
application du secteur pénal. Cette application appelée " nouvelle chaîne pénale " est utilisée dans les tribunaux de grande
instance de Paris, Nanterre, Bobigny, Créteil, Pontoise, Evry et Versailles.
Le test portait d’une part sur les procédures à mettre en oeuvre pour l’archivage d’une base vivante alors que les Archives
nationales n’avaient d’expérience que pour des bases d’enquêtes statistiques ponctuelles, figées, d’autre part sur les
implications qu’une telle opération pouvait avoir pour un service d’archives territoriales.
Le versement de cette chaîne pénale fait aux Archives de Paris le 6 décembre 2001, était le premier dans un service
d’archives départementales, dont les moyens de traitement d’information numérique (en matière de personnel et de
technique) sont a priori moins importants que ceux d’un centre d’Archives nationales.
Cette base étant de plus un outil d’accès aux dossiers judiciaires eux-mêmes, il aurait été regrettable de ne pratiquer qu’un
archivage des données à plat, en ASCII. Les Archives de France ont donc réalisé, sur un logiciel de gestion de base de
données grand public, une interface d’interrogation qui permet de faire rapidement des recherches, sans avoir à remonter les
données sur un outil logiciel, comme cela est le cas dans les modes d’archivage traditionnel de documents numériques.
,
Les métadonnées de la Chaîne pénale de Paris et de la région parisienne
Voici en se basant sur les types de métadonnées recensés dans le tableau du sous-chapitre IV.2, Constituer les métadonnées,
ce qu’il en est pour une base de données comme celle de la Chaîne pénale de Paris et de la région parisienne, cotée aux
Archives de Paris : 2157 W.
Métadonnées de conservation
●
nom des fichiers : affaires.dat ; personnes.dat ; textes.dat
●
tables de référence :
coraff.txt (concordance entre ancienne et nouvelle nomenclature des natures d'affaires)
elst.txt : éléments de structure
elstloc.txt : éléments de structure locaux
evt.txt : type des évènements déclenchant l'action publique
motevt.txt : motif des événements
nataff.txt : nature d'affaires
natinf.txt : nature des infractions
rôle.txt : rôle des parties
service.txt : noms des services ayant traité les affaires
stajuri.txt : statut juridique des personnes morales
●
●
les tables de codes datant de 2001ont été livrées à part.
système d'exploitation et SGBD-R : les programmes sur Gcos 7 ; bases de données Oracle version 7 sur serveurs
UNIX
Métadonnées de description
●
●
intitulé du document : " Enregistrement sur la nouvelle chaîne pénale (NCP) des affaires pénales du Tribunal de
Grande Instance de Paris : affaires classées sans suite et affaires jugées reprises de l'ancienne application Bureau
d'ordre pénal (BOP), 1973-1986 "
contexte : " Application développée au ministère de la Justice, dans le secteur pénal, appelée " nouvelle chaîne
pénale " et utilisée dans les tribunaux de grande instance de Paris, Nanterre, Bobigny, Créteil, Pontoise, Evry et
Versailles ".
●
service producteur : ministère de la Justice, tribunal de grande instance de Paris, parquet
●
date de création de la NCP : 1993 (premier site implanté à Pontoise)
●
format des données : ASCII délimité
●
logiciel de capture : programme sous UNIX d'extraction des données de la base Oracle, requêtes SQL, traitement par
batch
Métadonnées de gestion
●
●
●
●
date de versement : 6 décembre 2001
service versant : ministère de la Justice, direction de l'administration générale et de l'équipement, centre de
prestations régionales de Grigny (où sont stockées les données du module d'archivage de la NCP)
adresse de localisation : Archives de Paris
supports : données à plat et tables de référence sur cassette DAT 4 mm et copie sur CD-Rom ; données des tables
remontées sur Access consultables par le personnel sur un poste dédié aux Archives de Paris et copie sur un CDRom.
●
volumétrie : 300 Mo
●
communicabilité : 100 ans.
●
conservation : illimitée
VII.2. Les documents issus de la bureautique et le courrier électronique
VII.2.1.Les documents issus de la bureautique
Presque tous les documents de bureau sont depuis quelques années, créés grâce à un outil électronique ; ce qui est nouveau, c’est qu’ils ne sont plus systématiquement
imprimés sur papier. La sortie sur support papier répond encore à deux besoins : un besoin ergonomique, de simple confort, qui fait que certains préfèrent travailler et
notamment corriger sur des sorties papier, qu’on appréhende mieux si on continue à avoir une lecture linéaire ; un besoin juridique ou de preuve qui fait porter une
marque évidente de validation, telle une signature manuscrite, sur les documents papier avant de les diffuser, et qui incite à les archiver sous cette forme pour conserver
la trace de cette validation.
Une partie de la production de bureau est informelle et officieuse. Elle peut consister en une information échangée uniquement sur les réseaux par un petit nombre de
personnes souvent sans aucune marque de validation. Elle peut consister aussi en brouillons, annotations, versions préparatoires non validées dont la valeur historique
peut être forte car ils éclairent sur la gestation des documents officiels et validés.
Ces fichiers restent stockés, un certain temps, sur les disques durs de leurs rédacteurs et sont, en général, au moment du départ de ce dernier, effacés. La confusion
actuelle est d’autant plus grave que le travail partagé, sur réseau, se développe. L’instruction d’un dossier est aujourd’hui souvent répartie entre plusieurs personnes qui
peuvent appartenir à des services différents. Or soit les logiciels ne gèrent pas de manière aisée et automatique la survie des différentes versions des documents, soit les
utilisateurs n’exploitent pas toutes les potentialités de leurs outils informatiques.
On assiste depuis quelques années à la généralisation des outils de bureautique, mais les agents administratifs n’ont pas vraiment conscience que celles-ci les a fait
entrer dans un nouvel univers, celui de la gestion électronique des documents. Les responsables ont en conséquence rarement une réflexion globale sur la production de
leurs services, alors que celle-ci est aujourd’hui très complexe, le papier étant encore utilisé conjointement au support électronique.
L’archiviste et tous les autres responsables de la gestion documentaire ont à sensibiliser les agents au fait que l’information qu’ils produisent doit être traitée dans sa
globalité qu’elle soit classée dans des dossiers papier ou dans des fichiers électroniques, voire pour une même affaire sous les deux formes.
Il s’agira ainsi de déterminer en fonction de la valeur probante des documents d’une part et de leur intérêt historique d’autre part, quelles sont les versions du document
à conserver, en provenance de quel serveur, de quel poste de travail, de quel dossier papier. Les méthodes de travail restent inchangées, mais l’électronique introduit
une couche de complexité dans la production.
Un document papier isolé, non rangé dans un dossier, court le risque d’être définitivement perdu. Un dossier qui n’est pas intégré dans un plan de classement est plus
difficile à retrouver que celui qui l’est. Ces deux principes de base sont applicables aux fichiers bureautiques.
L’archiviste ou l’administrateur des données devront expliquer aux utilisateurs que le plan de classement utilisé pour les dossiers papier, est valable pour les répertoires
électroniques. Il permettra de structurer la production des fichiers numériques, ce qui se révèle indispensable pour leur recherche car il leur donne du sens, et pour leur
archivage.
Tout fichier bureautique doit être documenté par son auteur pour être retrouvé aisément, entre autres par l'attribution d'un mot-clé (soit une indexation du document, à
partir des termes du plan de classement et d'une liste d'autorités), par l'indication du nom de l'auteur, du destinataire, du titre, de l'objet. Si cette identification n’est pas
faite pour le document, elle devra l’être impérativement pour le répertoire dans lequel le document est classé.
Recommandations pour la tenue de la documentation du projet GEREHMI (outil de gestion des ressources
humaines) du ministère de la Justice :
extrait du plan d'assurance qualité du projet
" Le responsable fonctionnel est responsable de la bonne tenue de la documentation. Il peut s’appuyer, pour cette tâche sur
le secrétariat du domaine plus particulièrement chargé de la tenue de la documentation papier.
La documentation a une importance primordiale : c’est en fait l’outil de communication et de dialogue entre les membres
de l’équipe et les intervenants extérieurs (membres des comités, utilisateurs,...). Elle permet d’assurer la pérennité des
informations au sein du projet.
Un mécanisme normalisé d’identification des documents a été mis en place de manière à s’assurer de l’efficacité de la
gestion de la documentation. Les documents sont donc référencés...
Chaque document a un cycle de vie, c’est-à-dire qu’il va passer par un certain nombre d’états.
T
Etat du document
Description de l'état
Travail
le document est en cours d’élaboration par l’auteur
P
Provisoire
le document est terminé, en attente d’être pré-validé
C
Pré-validé
le document est approuvé par les autres membres de
l’équipe, intervenants extérieurs... La pré-validation du
document peut être optionnelle
V
Validé
le document est approuvé par les personnes habilitées et
prend valeur de référence au sein du projet. Il devient
applicable.
A
Archivé
le document n’est plus consulté régulièrement, mais une
trace de son existence demeure
La gestion de l’état d’un document se fait via un tableau dont un exemple est donné ci-dessous :
Nom du
Document
Objet
Version Date de la
Version
Rédacteur
Etat
Archivé
papier
PAQ
GEREHMI
V1.1
17/2/2000
JF LEBEC
Validé
X
PAQ
GEREHMI
V1.2
23/3/2000
JF LEBEC
Travail
Ce tableau sera mis à jour régulièrement (c’est-à-dire à chaque changement d’état d’un document officiel projet) par le
rédacteur (responsable) du document concerné.
Création d’un nouveau fichier. Les point suivants devront être respectés :
Toujours travailler sur le serveur (et non pas sur son poste de travail) de façon à ce que le document soit toujours disponible
à l’ensemble de l’équipe et qu’il fasse l’objet de sauvegardes quotidiennes). Prévoir une V0 pour les documents de travail.
Respecter l’organisation du serveur : trouver le répertoire pertinent. S’il n’existe pas, voir avec le responsable qualité pour
la création d’un nouveau répertoire.
Récupérer la présentation normalisée d’un document et l’adapter au contexte du document en question.
Donner un nom suffisamment explicite au nouveau fichier (pas de limitation sur la longueur) et conforme aux normes préexistantes. Renseigner obligatoirement les propriétés et respecter les suffixes placés par défaut (.doc, .xls,.wpd,.ppt...).
Informer le secrétariat projet de la création d’un nouveau dossier pour mise à jour de la liste des documents.
Modification d’un fichier existant
Mettre éventuellement à jour l’état du dossier caractérisé par son numéro de " version.révision " :
- Le numéro de version change si des modifications de fond impactent le dossier,
- Le numéro de révision change si des modifications de forme (ou des ajustements mineurs) impactent le dossier.
Mettre à niveau (éventuellement) :
- L’état du dossier repris sur la page de garde,
- les bas de pages,
- les propriétés "
Enfin, étant donné que des formats divers peuvent être stockés dans un même répertoire de bureautique, l’archiviste recommandera d’utiliser pour la création ou la
conversion des fichiers, les formats les plus pérennes. Une difficulté réside dans le fait que les outils bureautiques actuels ne permettent pas de conversion en XML
aisée. En attendant que ce soit le cas, le format PDF est un candidat relativement bon pour l’archivage des documents issus de la bureautique.
L’archiviste peut essayer s’il obtient les moyens de mettre en place un applicatif pour l’archivage de ces fichiers, d’automatiser leurs versements. Les délais d’utilité
administrative et le sort final des fichiers peut être intégrés dans leurs métadonnées. A l’expiration du délai, peuvent être produits des fichiers XML contenant les
données et métadonnées qui peuvent être transférés par FTP vers le serveur d’archivage de l’institution de conservation. La mise en place d’un tel dispositif nécessite la
création de DTD spécifiques pour chaque type de fichiers à archiver. Ce travail peut être lourd dans la mesure où ces fichiers sont bien souvent informels et non
structurés.
Exemple : l’archivage des documents bureautiques au ministère de la Justice
Un travail de sensibilisation a été mené au ministère de la justice avec l’Inspection générale des services judiciaires dans la
mesure où les inspecteurs en charge d’une mission précise, travaillent systématiquement en réseau et produisent un nombre
impressionnant de documents électroniques, avec divers formats, (compte rendus de visites, entretiens, notes...)
préparatoires au rapport final, qui ne seront jamais publiés. Ces documents tant qu’ils étaient produits sur papier, étaient
intégrés dans les dossiers et étaient versés, tandis que les mêmes documents électroniques sont détruits, une fois la mission
achevée ou l’inspecteur parti. Les fichiers sont créés sans structuration initiale, stockés pêle-mêle sous des répertoires
portant des noms peu clairs. L’Inspection étant en demande auprès du service des archives, d’élaborer un plan de
classement pour l’ensemble des documents produits et reçus par elle, un plan de classement a été produit et il a été demandé
à l’Inspection d’utiliser ce plan non seulement pour procéder à l’enregistrement informatisé de ces documents, mais
également de se servir des rubriques du plan pour structurer les bureaux des différents inspecteurs sur leurs postes de
travail.
Le service des archives a également élaboré, avec le service, un tableau de gestion " adossé " à ce plan de classement et a
préconisé, qu’une fois les missions achevées, seraient archivés tous les documents préparatoires quelque soit le support : les
messages électroniques et les notes et travaux rédigés qui n’ont pas été tirés sur papier devront être gravés sur CD-ROM,
les fichiers ayant été préalablement convertis au format PDF.
1) Pour l’arriéré, il convient d’indiquer :
le nom du répertoire dans lequel sont rassemblés les divers fichiers relatifs à la mission achevée ;
le nom et le nombre des fichiers ;
un intitulé général pour le répertoire.
2) A l’avenir, il faudra fournir pour chaque fichier composant le répertoire :
l’indication du code du plan de classement utilisé ;
les mots clés (tirés de la liste d’autorités) ;
la date et une analyse sommaire.
Ceci étant posé, la réalisation sera plus complexe qu’il n’y paraît : lourdeur d’intégrer le plan de classement sur le réseau de l’Inspection ainsi que sur les différents
postes de travail des inspecteurs, certains fichiers étant sur les disques durs, lourdeur de la conversion et modalités de la répartition des tâches entre le service et le
service des archives.... et mentalités à faire évoluer, quant à la prise de conscience que les fichiers électroniques de travail sont également des archives publiques à
verser.
VII.2.2. Le courrier électronique
La première étape pour conserver correctement à long terme du courrier électronique est d’établir des procédures claires et logiques d’enregistrement tel qu’on le
pratiquait pour le courrier papier avec un objet, une date, un auteur, ...
Le rédacteur devra aussi indexer, même sommairement, tout envoi, puis structurer dans des répertoires son courrier. Pour l’indexation, il choisira des termes de
préférence prédéterminés et contrôlés par l’archiviste, le documentaliste ou le responsable du Records management de l’institution productrice. Cette indexation
permettra l’intégration de tout courrier électronique dans un plan de classement. Il est donc nécessaire d’avoir une architecture de conservation parallèle à celle de la
messagerie pour classer les courriers et les documents attachés et pour procéder à leur archivage.
Les services pourront aussi mettre en place une politique commune de boîtes à lettres fonctionnelles par grandes fonctions (il peut y en avoir plusieurs par service) pour
lesquelles le logiciel de messagerie prévoira une fonction archivage automatique.
La quasi totalité de ces métadonnées de description et d’enregistrement peut être capturée automatiquement à partir de la structure même des courriers électroniques. Il
faut qu’en amont l’archiviste demande que cette fonction soit bien prise en compte. L’encapsulation, dans un document XML par exemple, leur assurera alors une
certaine pérennité.
L’expérience de la National Archives and Records Aministration aux USA (NARA)
En développant des recommandations sur les technologies nécessaires pour préserver les millions de courriers électroniques
et y donner accès à des utilisateurs potentiels, la NARA a demandé au San Diego Super Computer Center - SDSC ... de
trouver des solutions techniques compatibles avec les principes archivistique de respect des fonds et respect de l’ordre
primitif des documents.
En réponse à ces exigences le SDSC a développé une architecture de gestion de l’information appelée " Collection -based
Persistent Object Preservation ". Cette architecture incorpore une méthode qui permet de transformer les Records en un
format indépendant des logiciels et matériels. Elle prend pour base le modèle OAIS.
L’expérience menée sur plusieurs collections de la NARA, dont le courrier électronique, a permis :
de saisir les collections de documents
de les transformer en un format capable de pérennité
de les placer dans un entrepôt de données
de les reconstruire comme collection
de faire des recherches en utilisant une technologie différente de celle qui avait été utilisée pour créer les
documents et les stocker.
Tout cela a été réalisé en deux jours. Le succès de cette opération a engagé la NARA à poursuivre les recherches .
Plusieurs problèmes indépendants des procédures et techniques de traitement se posent cependant pour la conservation à long terme du courrier électronique. Une
partie importante de celui-ci est en effet d’ordre secondaire dans les processus administratif (information, copie, accusé de réception) et est même dans nombre de cas
d’ordre personnel. Nombre de messages électroniques ne sont pas signés, ne le sont pas selon les règles de délégation de signature ou s’ils sont signés, ne le sont pas
d’une façon qui garantirait l’identité du signataire.
C’est pourquoi l’archivage du courrier électronique pose aussi les questions :
●
●
●
du caractère privé de ce courrier. Dans quelle mesure l’archiviste ou le responsable du Records management peut-il intervenir dans les
messageries pour les conserver ? En France plusieurs décisions de justice ont condamné des employeurs qui accédaient à la messagerie de leur
employé même dans le cadre du travail. C’est le caractère privé de la messagerie qui a alors été retenu par le juge.
de la valeur probante de ces documents. Les Anglais ont tenté d’apporter une réponse en créant avec le British Standards Institution un Code of
practice for legal Admissibility of Information stored on Electronic Document Management Systems -DISC PD008. Selon eux, mettre en oeuvre
de bonnes pratiques détaillées dans des manuels, contrôlées par des audits et sécurisées, pourrait lever les doutes des tribunaux. Dans la pratique
française, ces codes de bonnes pratiques ne paraissent pas suffisants et le débat reste ouvert même si la norme NF Z 42-013 est une réponse
directe mais d’aspect plus technique au DISC-PD008.
de la sélection et du tri des messages. Le producteur du courrier devrait pouvoir préciser si le courrier peut être archivé. Il semblerait intéressant
d’avoir des processus de sélection volontaire tout en ayant dans une administration émettrice de courrier des règles d’usage qui devront être
respectées par tous les agents.
Ce sujet particulièrement important est donc délicat pour d’autres raisons que techniques. La Direction des Archives de France approfondira avec les instances
concernées, sa réflexion en ce domaine dans les temps à venir.
VII.3.Ressources du Web
Il existe plusieurs manuels réalisés par des groupes de travail, manuels qui sont tous en anglais. La conservation des ressources Web est, sauf exception, assurée
aujourd'hui dans le monde par des bibliothèques qui la prennent en compte dans la même logique que celle du dépôt légal.
Cependant de plus en plus de documents primaires sont aujourd’hui publiés sur l’internet. La collecte de ces documents fait partie des missions de la Direction des
Archives de France et des services qui sont sous sa tutelle au même titre que celle des documents administratifs sur autre support. Les sites privés en revanche sont en
dehors de son champ d’action.
Les services d’archives pourront aussi oeuvrer à l’archivage des sites intranet et extranet de leur institution ou des institutions dont ils gèrent les documents, sites qui ne
peuvent être atteints par les collecteurs automatiques du Web.
Deux solutions sont envisageables pour l’archivage du Web : soit archiver chaque élément composant un ou des sites Web, soit archiver le(s) site(s) lui-même dans une
photographie ou une strate à un moment donné (snapshot en anglais) et avec une périodicité à définir.
La seconde solution est plus simple mais n'atteint que les pages statiques accessibles à tous, ce qui représenterait encore la quasi totalité des ressources Web, en HTML
pour le texte ou JPEG pour les images. Tous les éléments autres, dynamiques ou générées dynamiquement par le visiteur, et qui composent de plus en plus les sites ne
peuvent en revanche être archivés de cette façon rudimentaire. Les logiciels de collecte automatique de sites Web n'atteignent pas aujourd'hui les couches profondes du
Web et n'archivent pas les documents stockés dans les bases de données.
Il n'est pas possible actuellement d'assurer la conservation à long terme des documents dynamiques et de ceux qui sont insérés ou dépendant de programmes auxiliaires,
comme le JavaScript.
Pour les bases de données, les formulaires en ligne et les réponses qui sont fournies..., il faut songer à un archivage spécifique et programmé avec les producteurs des
pages concernées. Cela est plus facile lorsqu’on décide de procéder à l’archivage d’un site défini, précis, dont on maîtrise bien tout le contenu et pour lequel on
bénéficie d’un accès aux gestions de données.
On pourra aussi décider d’archiver périodiquement le flux de l’utilisation sur un laps de temps donné (par exemple une journée). On se rapprochera ainsi des méthodes
de conservation de l’audiovisuel pratiquées par l’INA qui archive périodiquement une journée complète de diffusion.
Si l’on ne préserve sur le long terme que les données elles-mêmes, on veillera à élaborer et à conserver une documentation suffisamment riche pour que le chercheur
sache comment ces données ont été présentées à l’internaute et utilisées par lui.
Il est donc indispensable de mettre en place une procédure de collecte par service producteur de site ou de partie de site Web. Lorsque le site Web est géré par plusieurs
personnes et éventuellement sur des serveurs différents (comme à l'INRIA), l'opération de collecte centralisée peut se révéler plus difficile. On aura alors intérêt à
procéder à l'évaluation et à l'archivage de chaque portion de site correspondant à un producteur donné, et à un serveur donné, tout en essayant de maintenir grâce à un
plan de classement et à une description archivistique structurée, l'identité du tout.
Une opération pionnière a été menée depuis 2001 par le ministère de l’Emploi et de la solidarité.
Expérience d’archivage des sites internet du ministère de l'Emploi et de la solidarité
Un groupe de travail, créé à l'initiative du centre de ressources du ministère puis piloté par la mission des Archives
nationales, s'est mis en place à l'été 2001. Ce groupe est composé pour le ministère d'informaticiens, de documentalistes, de
webmestres et d'archivistes et comme partenaires extérieurs, d'un représentant de la BNF, d'un représentant de la Direction
des Archives de France (chargée de mission auprès de la directrice) et des Archives nationales (CAC, programme
Constance).
Les archivistes du ministère ont su profiter de l’occasion. En effet, moyennant quelques corrections, le système de gestion
développé en interne par le service informatique correspond aux besoins formulés par la mission des Archives nationales et
le CAC pour la collecte.
De façon schématique, les opérations doivent se dérouler de la façon suivante :
Au préalable, la mission a rédigé un tableau de gestion hiérarchisé des types de documents.
Par un système de filtre, dès qu'un webmestre met un document en ligne, les documents à destination des
Archives nationales sont transférés sur un serveur consacré à l'archivage (en application du tableau de
gestion).
L'archiviste peut valider la sélection opérée automatiquement par l'ordinateur et choisir de conserver ou
d'éliminer les documents stockés sur le serveur "archives". Les métadonnées peuvent lui être fournies par la
base de données que le webmestre doit obligatoirement renseigner pour pouvoir poster son document (la liste
des métadonnées retenues est celle proposée par l’ATICA).
Cette opération d'archivage est actuellement en phase-test.
La DGAFP-DIRE des Services du Premier ministre s'appuie sur l'expérience en cours au ministère de l'Emploi avec des
spécificités locales. Le travail coopératif est en particulier un outil beaucoup plus utilisé par cette direction.
La réflexion en cours porte sur :
l'élaboration d'une étude fonctionnelle de l'archivage,
"l'exportation" éventuelle de la base de données développée en interne par le ministère de l'Emploi vers
d'autres ministères par convention,
l'étude des coûts (base de données, personnel, matériel).
En conclusion, plusieurs défis restent à relever :
l'archivage des pages dynamiques,
la conception et l'élaboration d'instrument de recherche,
les techniques de conservation.
VIII. Conclusions
Ce Manuel pratique devrait permettre aux archivistes d’apporter de premières réponses à leurs propres questionnements et à ceux de leurs services producteurs.
Il sera suivi au fil du temps d’autres ouvrages de recommandations et études comparatives, sur les supports, sur la conservation des données techniques (plans,
documents cadastraux, archives d’architectes), des documents sonores et audiovisuels, sur les plans de classement et tableaux de gestion...
Cet ouvrage en plus de sa version imprimée est en ligne sur le site Web de la Direction des Archives de France à l’adresse : http://www.archivesdefrance.culture.gouv.
fr. Cette version sera régulièrement mise à jour en fonction des évolutions des connaissances dans ce domaine très mouvant de l’archivistique et en fonction des
remarques et retours d’expériences des archivistes de terrain.
IX. Annexes
IX.1. Poids moyens des documents électroniques et capacité des supports
terme et taille
approximative
Capacité de stockage des supports
Kilo octet (Ko)
10 lignes de texte ASCII = 1 Ko
= 1.024 octets
1 page Internet de texte en HTML avec images
statiques = 20 Ko
Exemple
1 disquette = 1 475 Ko
1 page d’un périodique électronique en PDF = 50-500
Ko
Mégaoctet (Mo)
1 image numérique en JPEG = 50Kb-1 Mo
50 articles de 10 pages en HTML = 1 Mo
= 1.024.000
octets
1 disquette = 1,47 Mo
2-20 articles de 10 pages en PDF = 1 Mo
1 CD-Rom = < 650 Mo
1-20 images en JPEG = 1 Mo
1 image numérique en TIFF = 50-500 Mo
Gigaoctet (Go)
= 1.024.000.000
5-50 pages en TIFF = 1 Go
1 cassette SuperDLT = 100-200 Go
octets
200-2000 pages en PDF = 1 Go
Teraoctet (To)
200-2000 journaux de 340 articles de 10 pages sur une
période de 10 ans en PDF = 1 To
=
50-500 livres de 100 pages en TIFF = 1 To
1.024.000.000.000
2000-20000 livres de 100 pages en PDF = 1 To
octets
IX.2. Les métiers liés à l’informatique : exemple du ministère de l’Équipement
A titre d’exemple pour que les archivistes se rendent compte de la diversité des intervenants et partenaires qu’ils pourront solliciter ou auxquels ils auront à faire pour
les aspects techniques, voici ce qu’il en est dans un des ministères, celui de l’Équipement.
Six familles de regroupement y ont été identifiées en 1999 (relevant soit de la maîtrise d’ouvrage, ou " mo ", soit de la maîtrise d’oeuvre, ou " me ").
Politique d’informatisation
●
●
●
●
maître d’ouvrage d’application
maître d’ouvrage de système d’information
conducteur d’opération du domaine (fonctionnel) : expertise et veille informatique, recommandations ministérielles sur les évolutions en cours (synthèse des
veilles transversales appliquée au domaine)
directeurs et sous-directeurs d’administration centrale (deux sous-directions relevant de deux directions différentes)
Expertise
●
●
conseillers en droit et réglementation informatique
experts de points d’appui (réseau couches basses, couches hautes, systèmes d’exploitation, matériel, câblage et télécommunications, multimédia) ; ils effectuent
une veille technologique ; assistent technologiquement les supports techniques et les équipes de développement
Etudes et développement
●
●
●
RPMO (représentant permanent de la maîtrise d'ouvrage)
chefs de projet de "me"
administrateurs de données (" mo " ou " me ") qui garantissent la cohérence des données véhiculées sur le réseau en terme de contenu et de modèles en évitant
ambiguïté, polysémie, redondance et en permettant le partage entre différentes applications (en particulier, ils mettent à jour et vérifient la cohérence du
dictionnaire de données utilisé dans un projet).
Exploitation et production
Les métiers de l’exploitation nécessitent de plus en plus des connaissances sur les métiers de l’administration des réseaux.
Il s’agit en l’occurrence de :
●
●
●
●
●
s’assurer du bon fonctionnement des applications sur le réseau (surveillance du trafic, place disque, temps de réponse, résolution des pannes, interventions
contre malveillances, gestion des droits d’accès) ;
s’assurer des procédures de secours des applications, de sauvegarde et de sécurisation des données (paramétrage des droits d’accès, prévention contre les
malveillances, relais en cas de défaillance technique) ;
sécuriser l’information et en assurer la cohérence ;
éventuellement, gérer des outils partagés (imprimantes, lecteurs partagés) ;
étudier les évolutions tant en terme de matériels que de logiciels pour conseiller les développeurs et les chefs de projet.
Fonction supports (assistance aux utilisateurs) :
●
●
●
diffuseurs d’une application chargés de la promouvoir et de la mettre en oeuvre dans les services (ce qui comprend l’installation des applications et la formation
des utilisateurs) ;
techniciens de support technique, avec assistance téléphonique (cellule informatique) ;
correspondants informatiques
Management de l’informatisation
●
●
responsables de l’informatisation d’un service ;
responsables de la sécurité du système d’information
Des métiers émergents :
●
●
Webmestres : interaction avec communication ou documentation ;
formalisateurs/cogniticiens : susceptibles de se rapprocher des besoins et des pratiques des utilisateurs en modélisant les connaissances. Cela suppose des
connaissances en techniques d’entretiens, en modélisation (de type systèmes experts), en communication homme-machine...
IX.3. Quelques principes de base pour évaluer le coût de l’archivage électronique
Il ne s’agit pas ici de fournir une méthode rigoureuse pour établir des coûts concernant l’archivage de documents sous forme électronique, ce qui serait une utopie, mais
cherche à donner à un utilisateur les moyens d’estimer le budget global d’un système d’archivage électronique.
Il convient tout d’abord de définir quatre grands éléments en matière d’archivage électronique :
●
●
●
●
la capture des données à archiver ;
la réalisation de l’archivage proprement dit ;
la consultation de l’archive ;
la migration d’une génération technique de système d’archivage à une autre génération.
IX.3.1.La capture
Bien que n’entrant pas à proprement parler dans les coûts de l’archivage, il convient de rappeler quelques éléments concernant les coûts liés à la capture.
Tout d’abord, il faut distinguer deux types de capture :
●
●
la capture de document déjà sous une forme électronique (par exemple les courriers électroniques) ;
la capture de document sous une autre forme (principalement sous forme papier ou microforme).
Lorsque les données sont déjà sous forme numérique, il existe deux coûts principaux :
●
●
le coût d’analyse de l’application émettrice des documents à archiver ;
le coût de la réception.
Le premier coût peut être très variable, car l’application émettrice peut être déjà très connue (par exemple, une gestion de comptabilité) ou être unique (gestion d’une
procédure administrative spécifique à un ministère). Il est évident que pour une application connue, le temps d’étude est très faible (une journée) alors que dans le
second cas, cela peut aller jusqu’à 2 à 4 mois d’étude.
Pour ce qui est des frais liés à la réception, ils sont soit de télécommunication, soit de poste. Il faut de plus ajouter des coûts liés aux contrôles de la réception. En
fonction du type, cela peut aller de quelques dizaines d’euros par mois à quelques milliers.
Pour les contrôles, il faut faire des tests en vraie grandeur : ouverture d’un colis, vérification du contenu (nombre de CD ou de cassettes, présence d’étiquettes, etc.) ; il
convient ensuite de multiplier le temps passé par le coût horaire des personnes chargées de faire ces contrôles, coût qui peut être élevé.
Pour ce qui est de la numérisation, le tableau suivant donne une échelle approximative des coûts. Ces coûts sont liés principalement :
●
●
●
●
●
●
aux conditionnements ;
aux formats ;
à l’état des documents ;
à l’existence de couleurs ;
au besoin de résolution ;
à l’indexation indispensable à la gestion et recherche des documents : les coûts en ce domaine varieront énormément si on traite automatiquement les données à
l’aide de logiciels de lecture automatique de documents (LAD) ou de reconnaissance optique de caractère (OCR) ou si on les traite manuellement ce qui peut
être nécessaire si la qualité des documents est insuffisante pour un traitement automatique.
Dans les deux cas (documents d’origine électronique ou documents obtenus par numérisation), le rôle de la compression est fondamental.
Le choix d’une méthode de compression et ensuite d’un taux de compression est presque toujours un compromis entre le gain d’espace d’archivage et la perte de
qualité des documents après compression.
En gros, on peut dire que classiquement les taux de compression des méthodes de type télécopie, permettent des compressions de l’ordre de 10 (les documents sont 10
fois plus petits après compression) pour des documents textuels en noir et blanc.
Pour les documents couleurs, on va d’un taux de compression de 2 à 7 pour des documents de qualité " photographique ", jusqu’à 10 à 20 (pour des documents de
faible qualité).
Il faut aussi noter le cas particulier des documents électroniques correspondant à des applications ayant des formats d’édition répétitifs, par exemple les systèmes de
facturation.
Exemple d’une application qui produit 50 000 factures par jour qui, chacune, contiennent 30 Ko de mise en page et 1 Ko de données (nom et adresse du client, quantité
consommée pendant la période, montants HT, TVA, TTC). Si on stocke les factures document par document, on a, par jour, 30 Ko x 50 000 soit 1,5 Go. Si en
revanche, on stocke d’une part le fond de la facture (30 Ko) et de l’autre, les données utiles (1Ko x 50 000), on a, par jour, 50 Mo à stocker. Le taux de compression est
alors de 30, sans aucune perte. Cependant, il faut décrire de façon détaillée comment reconstituer le document à partir des données et du fond de page.
IX.3.2.L’archivage
Le coût de l’archivage peut se décomposer en trois éléments principaux :
●
●
●
équipement (matériel et logiciel) : leur coût sera très différent si on utilise, en fonction des besoins, un PC avec un graveur de CD-R ou un gros système sous
UNIX avec une librairie automatique de manipulation de supports d’archivage ;
personnel (personnel d’exploitation et personnel de développement et/ou de maintenance selon les objectifs) ;
médias ou supports de conservation : un CD-R de bonne qualité coûte 150 fois moins cher qu’une cassette de haute capacité.
Exemple
●
pour 100 Go par mois à stocker ;
●
sur des CD-R dont le prix est 2 l’unité ;
●
30 minutes pour le traitement d’un CD ;
●
matériel amorti sur 3 ans ;
●
maintenance égale à 15 % du prix du matériel ;
●
coût horaire de l’opérateur est, charges comprises de 15 .
On a donc :
●
amortissement 2 000 /3 666
●
maintenance 2 000 x 0.15 333
●
nombre de CD : 100 Go/600 Mo x 12 2 000
●
Coût CD 2 000 x 2 4 000
●
temps passé 30 minutes x 2 000 1 000 heures
●
soit en salaire (1 000 x 15 ) 15 000
●
frais généraux (location immeuble, chauffage, ...) 6 000
Ce qui fait un total de 27 000 par an, soit 21 au Go.
IX.3.3.La consultation/archivage
Le coût de ce poste dépend principalement du mode de consultation :
●
●
●
●
accès à des CD-R par un magasinier à la demande d’un utilisateur ;
accès en ligne peu fréquent (quelques consultations par jour) ;
accès en ligne fréquent (plusieurs milliers de consultations par jour)
gros volume de données (plusieurs centaines de Mo à chaque consultation).
IX.3.4.La migration
Le coût d’une migration se décompose principalement en trois éléments :
●
●
●
étude de faisabilité ;
coût des opérateurs ;
coût des nouveaux supports.
Il est très difficile d’imaginer ces coûts, puisque ce sont des coûts futurs à trois, cinq ans ou plus. On peut donner le coût de la migration des données et supports
réalisée en 1996 pour les 6000 fichiers conservés au Centre des archives contemporaines de Fontainebleau : 3 MF pour la migration de 4500 fichiers.
X. Glossaire des sigles
ATICA : Agence pour les Technologies de l'Information et de la Communication dans l'Administration. A remplacé depuis août 2001 la MTIC. http://www.atica.pm.
gouv.fr/
CNES : Centre National d’Études Spatiales. Le CNES et le CEA (Comité à l’Energie Atomatique) ont des procédures performantes de stockage et d’archivage à long
terme de données très volumineuses. Le nouveau centre de calcul du CEA produit ainsi 2 To par heure. En raison des problèmes soulevés par la conservation à long
terme de ces documents, une association constituée par les deux institutions, Aristote, a constitué un groupe de travail sur la Pérennisation des Informations
Numériques (PIN) animé par Claude Huc, auquel elle a associé des archivistes des secteurs privé et public dont la Direction des Archives de France. L’idée du présent
Manuel est née au sein de ce groupe qui en a préparé les versions soumises au Comité de réflexion de la Direction des Archives de France.
CNIL : Commission Nationale Informatique et Libertés. http://www.cnil.fr
DLM-Forum : Forum des Données Lisibles par Machine. Instance de la Commission européenne.
MTIC : Mission pour l'introduction des Technologies de l'Information et de la Communication dans l'Administration. A existé de 1998 à août 2001 et a été remplacée
par l'ATICA.
OAIS : Reference Model for an Open Archival Information System, modèle de référence conçu par le Comité consultatif pour les systèmes de données spatiales
(CCSDS) en 1999, porté à l’ISO en 2001 (ISO/DIS 14721.2 - CCSDS/650.0-R-2)
Le système d’archivage OAIS assure le marquage spécifique d’un espace pour l’archivage numérique. En effet , en
présentant l’objet d’archivage comme un paquetage d’information, l’OAIS détermine deux types d’information :
●
l’Information Contenue,
●
l’Information complémentaire à la Pérennisation ou PDI.
L’information contenue et la PDI sont encapsulées et identifiables au moyen de l’Information d’Empaquetage. Le
Paquetage qui en résulte peut être retrouvé grâce à l’Information de Description. Dans l’Information complémentaire à la
Pérennisation, on trouve quatre catégories d’information portant sur :
●
la provenance,
●
le contexte,
●
la référence ou identifiant,
●
la fixité qui assure la protection contre toute modification.
OCR : Optical Character Recognition, reconnaissance optique de caractères, pour le transfert de l’encodage de fichiers image en fichier texte.
W3C : pour World Wide Web Consortium ou Consortium du Web. Cette instance regroupe des industriels fournisseurs des technologies informatiques sur lesquelles
se fondent Internet et le Web, ainsi que les grands utilisateurs publics et privés de celui-ci. Elle produit toutes les recommandations, comme celle qui composent le
méta-langage XML.
XI. Bibliographie
XI.1. Normes
Information and documentation -Records Management -Part 1 : General ; Part 2 : Guidelines, ISO 15489-1 et 2, ISO, octobre 2001
Spécifications relatives à la conception et à l’exploitation de systèmes informatiques en vue d’assurer la conservation et l’intégrité des documents
stockés dans ces systèmes, norme AF Z 42-013, AFNOR, juillet 1999, révision décembre 2001
XI.2. Généralités
Guide pour la conservation des informations et des documents électroniques, Secrétariat général du Gouvernement, MTIC, janvier 2001, http://www.
atica.pm.gouv.fr/servicesenligne/conservation.shtml
Rapport sur l'établissement et la conservation des actes authentiques électroniques, rédigé par Isabelle de Lamberterie (CNRS-CECOJI) au nom du
groupe de réflexion sur l’élaboration du décret sur la dématérialisation des actes authentiques ; contient un chapitre de Jean-François Blanchette, Les
technologies de l’écriture électronique : synthèse et évaluation critique. Publication à venir.
Referencing Model for an Open Archival Information System (OAIS), CCSDS, mai 1999, http://www.ccsds.org/RP9905/RP9905.html
XI.3. Métadonnées
Dublin Core Metadata Initiative, http://dublincore.org/Ensemble de 15 éléments simples pour décrire une grande variété de ressources en réseau.
Initiative de métadonnées du Dublin Core, Guide d’utilisation version française, http://www.bibl.ulaval.ca/DublinCore/usageguide-20000716fr.
htmMetadata Encoding and Transmission Standard (METS), http://www.loc.gov/standards/mets/
Standard pour l’encodage des métadonnées de description, de gestion et de structuration d’objets dans une bibliothèque numérique, utilisant un
Schéma XML. Maintenu par la Library of Congress.
Recordkeeping Metadata Standard for Commonwealth Agencies, National Archives of Australia, http://www.naa.gov.au/recordkeeping/control/rkms/
contents.html
XI.4. Archivage de bases de données
LEBLANC Marie-Noëlle, L’archivage d’une base de gestion de personnel dans Gazette des archives, n° 163, 4ème trimestre 1993, p. 336-340 et 367369.
XI.5. Archivage des ressources Web
ARMS Williams Y., Collecting and preserving the Web : The MINERVA prototype dans RLG Diginews, vol. 5, n° 2, 15 avril 2001, http://www.rlg.org/
preserv/diginews/
HAKALA Juha, Collecting and Préserving the Web : Developing and Testing the NEDLIB harvester dans RLG Diginews, vol. 5, n° 2, 15 avril 2001,
http://www.rlg.org/preserv/diginews/
STEENBAKKERS Johan, Setting up a Deposit for Electronic Publications. The NEDLIB Guidelines, http://www.kb.nl/coop/nedlib/
Pour compléter votre information, vous pouvez :
●
vous adresser à la Direction des Archives de France, département Innovation technologique et
normalisation, 56 rue des Francs-Bourgeois, 75141 Paris Cedex 03 ; responsable : Catherine Dhérent (01
40 27 62 65, [email protected]) ; conservateur chargé du dossier Archivage des
documents électroniques : Joël Poivre (01 40 27 60 02 ; [email protected])
●
consulter le site Web de la Direction des Archives de France, rubrique Archivistique, cliquer sur
Documents électroniques, http://www.archivesdefrance.culture.gouv.fr/fr/archivistique/DAFdocel.html

Les Archives électroniques Manuel Pratique

Transcription

Documents pareils

pascale pottier

Schéma de la coupe d`un sol, utilisé par Pierre Dansereau pour

Organisation des documents électroniques

ARCHIBOX est un logiciel de gestion d`archives qui couvre toute la

Préface - Larcier

Offre d`emploi

Fiche produit - Courrier entrant

Procédure 7.3 - VSA-AAS

Attelage de boeufs affectés au transport de la morue à Grande