Collecter le Web : mission... possible

Transcription

Collecter le Web : mission... possible
Collecter le Web : mission…possible !
Montréal, 25 novembre 2013
Mireille Laforce, Chef de service, acquisitions des collections patrimoniales
Carole Gagné, Bibliothécaire, dépôt des publications numériques et collecte des sites Web
Direction des acquisitions et de la préservation des collections patrimoniales
Sommaire de la présentation
• Pourquoi collecter le web?
• Historique
• Contexte législatif
• Collectes réalisées à ce jour
• Processus de collecte
• Applications
• Diffusion
• Avenir du programme de collecte à BAnQ
Bibliothèque et Archives nationales du Québec ▪ 2
Pourquoi collecter le Web?
Pourquoi collecter le Web?
Le Web…
 source d’information, de divertissement et de
communication incontournable
 source de contenus souvent exclusifs : blogues,
vidéos, médias sociaux, etc.
 source primordiale pour l’étude de notre société
Bibliothèque et Archives nationales du Québec ▪ 4
Pourquoi collecter le Web?
mais aussi…
 Patrimoine documentaire tout comme les archives, les
livres, les journaux, publications numériques, etc.
 Doit être rassemblé, conservé et diffusé comme tout
autre patrimoine documentaire.
ainsi donc…
 … la collecte de sites Web est une suite évidente aux
travaux que BAnQ mène avec les autres patrimoines
documentaires.
Bibliothèque et Archives nationales du Québec ▪ 5
Historique
Historique
Réflexions et travaux visant le numérique :
2000 –  Conservation des sites web gouvernementaux (Archives
nationales)
 Dépôt de publications numériques (Bibliothèque nationale)
2009
 BAnQ devient membre de l’International Internet
Preservation Consortium (IIPC)
 Premières collectes de sites gouvernementaux - projet
pilote
2012
 Programme officiel de collecte de sites Web instauré
2013
 Inclus dans le plan stratégique 2013-2016 de BAnQ
Bibliothèque et Archives nationales du Québec ▪ 7
Historique - International Internet Preservation
Consortium (IIPC)
 44 institutions (bibliothèques nationales, universités américaines,
Internet Archive)
 Mission :
▪ développer outils, normes et pratiques de collecte
▪ promouvoir l’accès et l’utilisation des archives du Web
 Mode collaboratif :
▪ mise en commun d’expertise
▪ développement partagé des outils
▪ parrainage d’institution
Bibliothèque et Archives nationales du Québec ▪ 8
Contexte législatif
Contexte législatif
Trois législations importantes :
• Loi sur Bibliothèque et Archives nationales du Québec
• Loi sur le droit d’auteur du Canada
• Loi sur les archives
Bibliothèque et Archives nationales du Québec ▪ 10
Contexte législatif
Loi sur Bibliothèque et Archives nationales du Québec
• L’une des missions de BAnQ :
▪ rassembler le patrimoine documentaire publié du Québec
afin de le conserver et d’y donner accès = principalement
dépôt légal
• Dépôt légal ne couvre pas le numérique (ni publications
numériques, ni sites web) pour l’instant.
Bibliothèque et Archives nationales du Québec ▪ 11
Contexte législatif
Loi sur le droit d’auteur du Canada
•
Obligation d’obtenir, avant toute collecte, une licence qui
permettra à BAnQ :
1. de reproduire et archiver une copie du site ;
2. effectuer les opérations nécessaires (migration, conversion de
fichiers) pour assurer la conservation et la diffusion à long terme ;
3. donner accès aux usagers :
▪
dans les locaux de BAnQ uniquement (postes sécurisés sans
possibilité d’impression ou de sauvegarde) ;
ou
▪ sur le site Web de BAnQ.
Bibliothèque et Archives nationales du Québec ▪ 12
Contexte législatif
Loi sur les archives
• Permet de collecter 150 sites d’organismes
gouvernementaux à des fins de conservation
seulement;
• Licence nécessaire pour pouvoir diffuser les sites,
même dans les locaux de BAnQ;
• Autres organismes gouvernementaux non couverts
(environ 120) : nécessité d’obtenir des licences.
Bibliothèque et Archives nationales du Québec ▪ 13
Contexte législatif : ailleurs
En général, les institutions peuvent collecter sans
autorisation mais :
•
ne peuvent diffuser sans autorisation, même dans leurs locaux
(BAC)
ou
•
diffuser dans leurs locaux uniquement (BnF)
ou
•
diffuser dans leurs locaux mais vont chercher des licences pour
pouvoir diffuser à travers leur site web (British Library, LC)
Bibliothèque et Archives nationales du Québec ▪ 14
Contexte législatif
Obligation d’obtenir une licence pour collecter
= contrainte majeure
Réduit l’ampleur des travaux qui peuvent être menés
par BAnQ puisque l’effort nécessaire à l’obtention des
licences
= énergivore, souvent sans résultat
Empêche BAnQ de mener collectes spontanées lors
d’événements importants :
ex. : Lac-Mégantic, Crise étudiante
Bibliothèque et Archives nationales du Québec ▪ 15
Collectes réalisées à ce jour
Grandes phases de collectes
 Sites gouvernementaux
2009-2013
 Élections provinciales
en 2012
 Élections municipales
de 2013
Bibliothèque et Archives nationales du Québec ▪ 17
Collecte de sites des ministères et organismes
gouvernementaux
Période de collecte
• De 2009 à maintenant
Fréquence de collecte
• Annuelle
• Exception s’il y a une refonte d’un site
• Nouveau site thématique
Bibliothèque et Archives nationales du Québec ▪ 18
Collecte de sites des organismes
gouvernementaux – obtention de licences
Objectif visé
Obtenir une licence d’autorisations des 271 organismes
gouvernementaux (M/O)
 156 M/O ont accordés une autorisation (57%)
 115 M/O à approcher à nouveau
Nombre d’autorisations reçues des M/O entre 2009 et 2013
200
57%
150
100
50
0
24%
65
2009-2011
22%
11%
31
2012
156
60
2013
Total
Collecte de sites des élections provinciales
2012 (thématique)
Période de collecte
•
20 juillet au 18 septembre 2012
Fréquence de collecte
• Avant – pendant (quotidien) – après les élections
Sites visés par la collecte
• 6 principaux partis politiques






Parti québécois (PQ) (uniquement dans le cadre des campagnes électorales)
Parti vert du Québec (PVQ)
Parti libéral du Québec (PLQ) (uniquement diffusion interne)
Québec Solidaire (QS)
Option nationale (ON)
Coalition Avenir Québec (CAQ)
• Assemblée nationale - section des députés (http://www.assnat.qc.ca/fr/deputes)
• Directeur général des élections - refus d’accorder une licence
Bibliothèque et Archives nationales du Québec ▪ 20
Collecte de sites des élections municipales
2013 (thématique)
Période de collecte
•
15 août au 21 novembre 2013
Fréquence de collecte
• Avant – pendant – après les élections
Sites visés par la collecte
• Une ville par région administrative
▪ 19 villes approchées
▪ 18 autorisations reçues (Montréal, Laval, Québec, Gatineau, Longueuil, etc.)
• 26 partis politiques municipaux ciblés
▪ 18 autorisations reçues et 8 en cours d’obtention
▪ 26 sites des partis politiques ciblés et des candidats à la mairies collectés
• Site du Ministère des Affaires municipales, des Régions et de l'Occupation du
territoire (MAMROT)
• Site officiel gouvernemental pour les élections municipales (MAMROT)
▪ http://www.electionsmunicipales.gouv.qc.ca
Bibliothèque et Archives nationales du Québec ▪ 21
Données – 3 grandes phases de collecte
Gouvernemental
Élections
provinciales
2012
Élections
municipales
2013
Total
Nombre
d’organismes
220
7
45
272
Nombre de
collectes
361
228
298
887
Nombre de
domaines
(URL)
collectés
442
12
90
544
Nombre de
documents
collectés
14 320 474
3 963 205
3 277 387
21 561 066
Bibliothèque et Archives nationales du Québec ▪ 22
Données – nombre d’organismes vs nombre de
domaines
• Organisme : Ministère des Affaires municipales, des
Régions et de l'Occupation du territoire (MAMROT)
• Domaines (Url) collectés du MAMROT
Ex.:
–
–
–
–
–
http://mamrot.gouv.qc.ca/
http://www.piscines.gouv.qc.ca/
http://www.mapiscinesecuritaire.com/
http://electionsmunicipales.gouv.qc.ca/
http://semainedelamunicipalite.gouv.qc.ca/
Bibliothèque et Archives nationales du Québec ▪ 23
Processus de collecte
Collecter le site Web : 4 grandes étapes
Obtention d’autorisation
Collecte de sites
robot moissonneur Heritrix
Contrôle de qualité
Wayback Machine
Diffusion des collectes
Wayback Machine
Bibliothèque et Archives nationales du Québec ▪ 25
Processus de collecte (Heritrix)
Analyse des sites à collecter
Gestion du profil de collecte
(canevas de base)
(type de collecte)
Contrôle de qualité
en cours de collecte
Création et démarrage
de la collecte
Diverses vérifications
Gestion de la collecte
(« job »)
 Niveau de profondeur
 Niveau de profondeur
 Exclusion
 Exclusion
 Type de fichiers à
collecter
 Type de fichiers à
collecter
 URL à collecter
 URL à collecter
Note : Possibilité d’établir plusieurs collectes
distinctes en fonction d’un même profil
Bibliothèque et Archives nationales du Québec ▪ 26
 Journal de bord (« log »)
 Rapports de collecte
Mise en PAUSE de la collecte
(trappes, etc.)
 Ajouts d’exclusions et
expressions régulières
 Redémarrage de la
collecte
Processus - conservation et diffusion des
collectes
Environnement de collecte
Heritrix
Espace de conservation
(fichiers ARC et WARC)
Contrôle de qualité
Wayback Machine
Diffusion
Wayback de diffusion
Diffusion interne
uniquement
Bibliothèque et Archives nationales du Québec ▪ 27
Diffusion interne
et externe
Contrôle de qualité
en cours de collecte
Applications
Heritrix : console des administrateurs, v. 3.1.1
 Robot moissonneur
«web crawler»
 Conçu par Internet
Archive
 Logiciel libre
programmé en Java
 Amélioration par
Internet Archive et
les membres du
consortium d’IIPC
Bibliothèque et Archives nationales du Québec ▪ 29
Heritrix, contrôle de qualité en cours de
collecte
• Vérifications du journal de bord (logs) et des rapports
concernant la collecte en temps réel
Bibliothèque et Archives nationales du Québec ▪ 30
Les applications internes
Gestion des licences
d’autorisation
Données à propos des
collectes
Statistiques
Wayback Machine




Diffusion et navigation dans les sites Web collectés
Logiciel libre développé par Internet Archive
Permet également d’effectuer le contrôle de qualité
Travail continu sur l’amélioration de la navigation et de la
recherche par les membre d’IIPC et Internet Archive
Bibliothèque et Archives nationales du Québec ▪ 32
Diffusion
Diffusion : Internet Archive
 Diffuse depuis 1996
 Contient plus de 366
milliards de pages
Web archivées
https://archive.org/
Bibliothèque et Archives nationales du Québec ▪ 34
Diffusion : Internet Archive
• Recherche par URL
• Travaille sur la recherche plein texte
• Offre un calendrier des différentes collectes effectuées
Bibliothèque et Archives nationales du Québec ▪ 35
Diffusion : Internet Archive
Version du site de la Bibliothèque nationale du Québec
collecté en 1996
Bibliothèque et Archives nationales du Québec ▪ 36
Diffusion : Autres exemples
Library of Congress
http://loc.gov/webarchiving/
British Library
http://www.webarchive.org.uk/ukwa/
Bibliothèque et Archives Canada
http://www.collectionscanada.gc.ca/
archivesweb/index-f.html
Bibliothèque nationale d’Australie
http://pandora.nla.gov.au/
Bibliothèque et Archives nationales du Québec ▪ 37
Diffusion par BAnQ :
Élections provinciales de 2012
 Diffusé depuis 2012
 Uniquement diffusion
interne pour l’instant
Bibliothèque et Archives nationales du Québec ▪ 38
Diffusion à BAnQ – à venir
Diffusion
prévue pour
l’hiver 2014
Bibliothèque et Archives nationales du Québec ▪ 39
Diffusion à BAnQ :
Collecte du site Web de l’Assemblée nationale
Bibliothèque et Archives nationales du Québec ▪ 40
Avenir du programme de collecte à BAnQ
Avenir du programme de collecte à BAnQ
 Modification du règlement sur le dépôt légal
pour inclure le numérique (publications numériques et sites
web)
 Pouvoir collecter afin de conserver et de diffuser dans les
locaux de BAnQ sans licence
 Élargir la collecte à d’autres sites
 Politique de sélection
Bibliothèque et Archives nationales du Québec ▪ 42
Avenir du programme de collecte à BAnQ
 Intégrer la collecte de sites Web comme activité
courante
 Stabiliser les environnements et outils de travail
 Conservation à long terme
 dépôt numérique fiable
Bibliothèque et Archives nationales du Québec ▪ 43
Merci !
Questions?
Bibliothèque et Archives nationales du Québec ▪ 44
Région de Montréal : 514 873-1100
Sans frais, d’ailleurs au Québec : 1 800 363-9028
GRANDE BIBLIOTHÈQUE
475, boulevard De Maisonneuve Est
Montréal (Québec) H2L 5C4
Estrie
225, rue Frontenac, bureau 401
Sherbrooke (Québec) J1H 1K1
CENTRE DE CONSERVATION
2275, rue Holt
Montréal (Québec) H2G 3H1
Mauricie et Centre-du-Québec
225, rue des Forges, bureau 208
Trois-Rivières (Québec) G9A 2G7
CENTRES D’ARCHIVES
Montréal
535, avenue Viger Est
Montréal (Québec) H2L 2P3
Titre
Abitibi-Témiscamingue et Nord-du-Québec
27, rue du Terminus Ouest
Rouyn-Noranda (Québec) J9X 2P3
Bas-Saint-Laurent et
Gaspésie–Îles-de-la-Madeleine
337, rue Moreault
Rimouski (Québec) G5L 1P4
Gaspé
80, boulevard de Gaspé
Gaspé (Québec) G4X 1A9
Côte-Nord
700, boulevard Laure, bureau 190
Sept-Îles (Québec) G4R 1Y1
Bibliothèque et Archives nationales du Québec ▪ 45
Outaouais
855, boulevard de la Gappe
Gatineau (Québec) J8T 8H9
Québec
Pavillon Louis-Jacques-Casault
Campus de l’Université Laval
1055, avenue du Séminaire
Québec (Québec) G1V 4N1
Saguenay–Lac-Saint-Jean
930, rue Jacques-Cartier Est, bureau C-103
Saguenay (Québec) G7H 7K9