Collecter le Web : mission... possible
Transcription
Collecter le Web : mission... possible
Collecter le Web : mission…possible ! Montréal, 25 novembre 2013 Mireille Laforce, Chef de service, acquisitions des collections patrimoniales Carole Gagné, Bibliothécaire, dépôt des publications numériques et collecte des sites Web Direction des acquisitions et de la préservation des collections patrimoniales Sommaire de la présentation • Pourquoi collecter le web? • Historique • Contexte législatif • Collectes réalisées à ce jour • Processus de collecte • Applications • Diffusion • Avenir du programme de collecte à BAnQ Bibliothèque et Archives nationales du Québec ▪ 2 Pourquoi collecter le Web? Pourquoi collecter le Web? Le Web… source d’information, de divertissement et de communication incontournable source de contenus souvent exclusifs : blogues, vidéos, médias sociaux, etc. source primordiale pour l’étude de notre société Bibliothèque et Archives nationales du Québec ▪ 4 Pourquoi collecter le Web? mais aussi… Patrimoine documentaire tout comme les archives, les livres, les journaux, publications numériques, etc. Doit être rassemblé, conservé et diffusé comme tout autre patrimoine documentaire. ainsi donc… … la collecte de sites Web est une suite évidente aux travaux que BAnQ mène avec les autres patrimoines documentaires. Bibliothèque et Archives nationales du Québec ▪ 5 Historique Historique Réflexions et travaux visant le numérique : 2000 – Conservation des sites web gouvernementaux (Archives nationales) Dépôt de publications numériques (Bibliothèque nationale) 2009 BAnQ devient membre de l’International Internet Preservation Consortium (IIPC) Premières collectes de sites gouvernementaux - projet pilote 2012 Programme officiel de collecte de sites Web instauré 2013 Inclus dans le plan stratégique 2013-2016 de BAnQ Bibliothèque et Archives nationales du Québec ▪ 7 Historique - International Internet Preservation Consortium (IIPC) 44 institutions (bibliothèques nationales, universités américaines, Internet Archive) Mission : ▪ développer outils, normes et pratiques de collecte ▪ promouvoir l’accès et l’utilisation des archives du Web Mode collaboratif : ▪ mise en commun d’expertise ▪ développement partagé des outils ▪ parrainage d’institution Bibliothèque et Archives nationales du Québec ▪ 8 Contexte législatif Contexte législatif Trois législations importantes : • Loi sur Bibliothèque et Archives nationales du Québec • Loi sur le droit d’auteur du Canada • Loi sur les archives Bibliothèque et Archives nationales du Québec ▪ 10 Contexte législatif Loi sur Bibliothèque et Archives nationales du Québec • L’une des missions de BAnQ : ▪ rassembler le patrimoine documentaire publié du Québec afin de le conserver et d’y donner accès = principalement dépôt légal • Dépôt légal ne couvre pas le numérique (ni publications numériques, ni sites web) pour l’instant. Bibliothèque et Archives nationales du Québec ▪ 11 Contexte législatif Loi sur le droit d’auteur du Canada • Obligation d’obtenir, avant toute collecte, une licence qui permettra à BAnQ : 1. de reproduire et archiver une copie du site ; 2. effectuer les opérations nécessaires (migration, conversion de fichiers) pour assurer la conservation et la diffusion à long terme ; 3. donner accès aux usagers : ▪ dans les locaux de BAnQ uniquement (postes sécurisés sans possibilité d’impression ou de sauvegarde) ; ou ▪ sur le site Web de BAnQ. Bibliothèque et Archives nationales du Québec ▪ 12 Contexte législatif Loi sur les archives • Permet de collecter 150 sites d’organismes gouvernementaux à des fins de conservation seulement; • Licence nécessaire pour pouvoir diffuser les sites, même dans les locaux de BAnQ; • Autres organismes gouvernementaux non couverts (environ 120) : nécessité d’obtenir des licences. Bibliothèque et Archives nationales du Québec ▪ 13 Contexte législatif : ailleurs En général, les institutions peuvent collecter sans autorisation mais : • ne peuvent diffuser sans autorisation, même dans leurs locaux (BAC) ou • diffuser dans leurs locaux uniquement (BnF) ou • diffuser dans leurs locaux mais vont chercher des licences pour pouvoir diffuser à travers leur site web (British Library, LC) Bibliothèque et Archives nationales du Québec ▪ 14 Contexte législatif Obligation d’obtenir une licence pour collecter = contrainte majeure Réduit l’ampleur des travaux qui peuvent être menés par BAnQ puisque l’effort nécessaire à l’obtention des licences = énergivore, souvent sans résultat Empêche BAnQ de mener collectes spontanées lors d’événements importants : ex. : Lac-Mégantic, Crise étudiante Bibliothèque et Archives nationales du Québec ▪ 15 Collectes réalisées à ce jour Grandes phases de collectes Sites gouvernementaux 2009-2013 Élections provinciales en 2012 Élections municipales de 2013 Bibliothèque et Archives nationales du Québec ▪ 17 Collecte de sites des ministères et organismes gouvernementaux Période de collecte • De 2009 à maintenant Fréquence de collecte • Annuelle • Exception s’il y a une refonte d’un site • Nouveau site thématique Bibliothèque et Archives nationales du Québec ▪ 18 Collecte de sites des organismes gouvernementaux – obtention de licences Objectif visé Obtenir une licence d’autorisations des 271 organismes gouvernementaux (M/O) 156 M/O ont accordés une autorisation (57%) 115 M/O à approcher à nouveau Nombre d’autorisations reçues des M/O entre 2009 et 2013 200 57% 150 100 50 0 24% 65 2009-2011 22% 11% 31 2012 156 60 2013 Total Collecte de sites des élections provinciales 2012 (thématique) Période de collecte • 20 juillet au 18 septembre 2012 Fréquence de collecte • Avant – pendant (quotidien) – après les élections Sites visés par la collecte • 6 principaux partis politiques Parti québécois (PQ) (uniquement dans le cadre des campagnes électorales) Parti vert du Québec (PVQ) Parti libéral du Québec (PLQ) (uniquement diffusion interne) Québec Solidaire (QS) Option nationale (ON) Coalition Avenir Québec (CAQ) • Assemblée nationale - section des députés (http://www.assnat.qc.ca/fr/deputes) • Directeur général des élections - refus d’accorder une licence Bibliothèque et Archives nationales du Québec ▪ 20 Collecte de sites des élections municipales 2013 (thématique) Période de collecte • 15 août au 21 novembre 2013 Fréquence de collecte • Avant – pendant – après les élections Sites visés par la collecte • Une ville par région administrative ▪ 19 villes approchées ▪ 18 autorisations reçues (Montréal, Laval, Québec, Gatineau, Longueuil, etc.) • 26 partis politiques municipaux ciblés ▪ 18 autorisations reçues et 8 en cours d’obtention ▪ 26 sites des partis politiques ciblés et des candidats à la mairies collectés • Site du Ministère des Affaires municipales, des Régions et de l'Occupation du territoire (MAMROT) • Site officiel gouvernemental pour les élections municipales (MAMROT) ▪ http://www.electionsmunicipales.gouv.qc.ca Bibliothèque et Archives nationales du Québec ▪ 21 Données – 3 grandes phases de collecte Gouvernemental Élections provinciales 2012 Élections municipales 2013 Total Nombre d’organismes 220 7 45 272 Nombre de collectes 361 228 298 887 Nombre de domaines (URL) collectés 442 12 90 544 Nombre de documents collectés 14 320 474 3 963 205 3 277 387 21 561 066 Bibliothèque et Archives nationales du Québec ▪ 22 Données – nombre d’organismes vs nombre de domaines • Organisme : Ministère des Affaires municipales, des Régions et de l'Occupation du territoire (MAMROT) • Domaines (Url) collectés du MAMROT Ex.: – – – – – http://mamrot.gouv.qc.ca/ http://www.piscines.gouv.qc.ca/ http://www.mapiscinesecuritaire.com/ http://electionsmunicipales.gouv.qc.ca/ http://semainedelamunicipalite.gouv.qc.ca/ Bibliothèque et Archives nationales du Québec ▪ 23 Processus de collecte Collecter le site Web : 4 grandes étapes Obtention d’autorisation Collecte de sites robot moissonneur Heritrix Contrôle de qualité Wayback Machine Diffusion des collectes Wayback Machine Bibliothèque et Archives nationales du Québec ▪ 25 Processus de collecte (Heritrix) Analyse des sites à collecter Gestion du profil de collecte (canevas de base) (type de collecte) Contrôle de qualité en cours de collecte Création et démarrage de la collecte Diverses vérifications Gestion de la collecte (« job ») Niveau de profondeur Niveau de profondeur Exclusion Exclusion Type de fichiers à collecter Type de fichiers à collecter URL à collecter URL à collecter Note : Possibilité d’établir plusieurs collectes distinctes en fonction d’un même profil Bibliothèque et Archives nationales du Québec ▪ 26 Journal de bord (« log ») Rapports de collecte Mise en PAUSE de la collecte (trappes, etc.) Ajouts d’exclusions et expressions régulières Redémarrage de la collecte Processus - conservation et diffusion des collectes Environnement de collecte Heritrix Espace de conservation (fichiers ARC et WARC) Contrôle de qualité Wayback Machine Diffusion Wayback de diffusion Diffusion interne uniquement Bibliothèque et Archives nationales du Québec ▪ 27 Diffusion interne et externe Contrôle de qualité en cours de collecte Applications Heritrix : console des administrateurs, v. 3.1.1 Robot moissonneur «web crawler» Conçu par Internet Archive Logiciel libre programmé en Java Amélioration par Internet Archive et les membres du consortium d’IIPC Bibliothèque et Archives nationales du Québec ▪ 29 Heritrix, contrôle de qualité en cours de collecte • Vérifications du journal de bord (logs) et des rapports concernant la collecte en temps réel Bibliothèque et Archives nationales du Québec ▪ 30 Les applications internes Gestion des licences d’autorisation Données à propos des collectes Statistiques Wayback Machine Diffusion et navigation dans les sites Web collectés Logiciel libre développé par Internet Archive Permet également d’effectuer le contrôle de qualité Travail continu sur l’amélioration de la navigation et de la recherche par les membre d’IIPC et Internet Archive Bibliothèque et Archives nationales du Québec ▪ 32 Diffusion Diffusion : Internet Archive Diffuse depuis 1996 Contient plus de 366 milliards de pages Web archivées https://archive.org/ Bibliothèque et Archives nationales du Québec ▪ 34 Diffusion : Internet Archive • Recherche par URL • Travaille sur la recherche plein texte • Offre un calendrier des différentes collectes effectuées Bibliothèque et Archives nationales du Québec ▪ 35 Diffusion : Internet Archive Version du site de la Bibliothèque nationale du Québec collecté en 1996 Bibliothèque et Archives nationales du Québec ▪ 36 Diffusion : Autres exemples Library of Congress http://loc.gov/webarchiving/ British Library http://www.webarchive.org.uk/ukwa/ Bibliothèque et Archives Canada http://www.collectionscanada.gc.ca/ archivesweb/index-f.html Bibliothèque nationale d’Australie http://pandora.nla.gov.au/ Bibliothèque et Archives nationales du Québec ▪ 37 Diffusion par BAnQ : Élections provinciales de 2012 Diffusé depuis 2012 Uniquement diffusion interne pour l’instant Bibliothèque et Archives nationales du Québec ▪ 38 Diffusion à BAnQ – à venir Diffusion prévue pour l’hiver 2014 Bibliothèque et Archives nationales du Québec ▪ 39 Diffusion à BAnQ : Collecte du site Web de l’Assemblée nationale Bibliothèque et Archives nationales du Québec ▪ 40 Avenir du programme de collecte à BAnQ Avenir du programme de collecte à BAnQ Modification du règlement sur le dépôt légal pour inclure le numérique (publications numériques et sites web) Pouvoir collecter afin de conserver et de diffuser dans les locaux de BAnQ sans licence Élargir la collecte à d’autres sites Politique de sélection Bibliothèque et Archives nationales du Québec ▪ 42 Avenir du programme de collecte à BAnQ Intégrer la collecte de sites Web comme activité courante Stabiliser les environnements et outils de travail Conservation à long terme dépôt numérique fiable Bibliothèque et Archives nationales du Québec ▪ 43 Merci ! Questions? Bibliothèque et Archives nationales du Québec ▪ 44 Région de Montréal : 514 873-1100 Sans frais, d’ailleurs au Québec : 1 800 363-9028 GRANDE BIBLIOTHÈQUE 475, boulevard De Maisonneuve Est Montréal (Québec) H2L 5C4 Estrie 225, rue Frontenac, bureau 401 Sherbrooke (Québec) J1H 1K1 CENTRE DE CONSERVATION 2275, rue Holt Montréal (Québec) H2G 3H1 Mauricie et Centre-du-Québec 225, rue des Forges, bureau 208 Trois-Rivières (Québec) G9A 2G7 CENTRES D’ARCHIVES Montréal 535, avenue Viger Est Montréal (Québec) H2L 2P3 Titre Abitibi-Témiscamingue et Nord-du-Québec 27, rue du Terminus Ouest Rouyn-Noranda (Québec) J9X 2P3 Bas-Saint-Laurent et Gaspésie–Îles-de-la-Madeleine 337, rue Moreault Rimouski (Québec) G5L 1P4 Gaspé 80, boulevard de Gaspé Gaspé (Québec) G4X 1A9 Côte-Nord 700, boulevard Laure, bureau 190 Sept-Îles (Québec) G4R 1Y1 Bibliothèque et Archives nationales du Québec ▪ 45 Outaouais 855, boulevard de la Gappe Gatineau (Québec) J8T 8H9 Québec Pavillon Louis-Jacques-Casault Campus de l’Université Laval 1055, avenue du Séminaire Québec (Québec) G1V 4N1 Saguenay–Lac-Saint-Jean 930, rue Jacques-Cartier Est, bureau C-103 Saguenay (Québec) G7H 7K9