Capture de sites Web en ligne - Capture de sites en ligne
Transcription
Capture de sites Web en ligne - Capture de sites en ligne
Capture de sites Web en ligne Conférence B.N.F, Avril 2004 Xavier Roche(HTTrack) Internet : la mémoire courte ? http://www.httrack.com Pourquoi copier des sites web? • • • • • • Archivage pour conservation et/ou historisation Archivage pour raisons légales Miroirs de sites pour des raisons de redondance Copies pour une mise à disposition non connectée Copies par des particuliers (copie privée) Agents intelligents, stress de réseaux, validation de liens cassés ou des liens externes, plan du site… Internet : la mémoire courte ? 2 Le « Web », qu’est-ce que c’est ? Internet Email HTTP HTTPS mailto : news: http: News https: ftp: FTP WWW file: Fichiers Ressources locales (fichiers) Internet : la mémoire courte ? 3 Un « serveur Web », qu’est-ce que c’est? Traitements Fichiers, archives Contenus Requêtes et contenus Éléments extérieurs Base de données (capteurs, etc.) Serveur Web Internet : la mémoire courte ? Client 4 Le serveur web: un « livreur » de contenus template.php Traitements Fichiers, archives Contenus Requêtes table_001 et contenus Éléments extérieurs Base de données (capteurs, etc.) Serveur Web Internet : la mémoire courte ? Client « Page Web» 5 Les documents hypertexte Internet : la mémoire courte ? 6 Les liens hypertexte Internet : la mémoire courte ? 7 Copie locale d’un « site Web» ? Internet : la mémoire courte ? 8 Copie locale d’un « site Web» template.php table_001 template2.php table_002 … … Serveur Web disque local Ressources locales (fichiers) Internet : la mémoire courte ? 9 Le « nommage » local des fichiers en ligne copiés Internet : la mémoire courte ? 10 Nommage des fichiers copiés - Exemple: fichier html Windows Internet : la mémoire courte ? Linux/Unix 11 Nommage : restrictions - Nommage des fichiers comportant des « caractères spéciaux » Internet : la mémoire courte ? 12 Nommage : duplications - Duplication de noms + Internet : la mémoire courte ? 13 Nommage : solutions - Résoudre les collisions + + Internet : la mémoire courte ? 14 Modification des liens hypertexte Internet : la mémoire courte ? 15 Les problèmes apparaissent! Internet : la mémoire courte ? 16 Les problèmes apparaissent! - Les liens: • <a href= 'page 2.html'> • <a href= "page%202.html"> • <a href= page%202.html> • <a href= "page 2 .html"> • <a href= "http:page 2.html"> • <a href= "//www.example.com/page 2.html"> • <a href= "page 2.html"> • <a href <a href= "page2.html">> Internet : la mémoire courte ? 17 Les problèmes apparaissent! - Les formulaires: Internet : la mémoire courte ? 18 Les problèmes apparaissent! - Les formulaires (suite) : Internet : la mémoire courte ? 19 Les problèmes apparaissent! - Javascript : Internet : la mémoire courte ? 20 Les problèmes apparaissent! - Java : Internet : la mémoire courte ? 21 Les problèmes apparaissent! - Flash : Internet : la mémoire courte ? 22 Les problèmes apparaissent! - Fichiers hypertextes vs binaires (Java/Flash) : un fichier html Internet : la mémoire courte ? un fichier « flash » 23 Les problèmes apparaissent! - « Horodatage » intégré aux liens hypertexte http://www.example.com/page2.html?t=19993112235959999 - Liens multiples vers un seul document http://www.example.com/forum/article.php?id=1234 http://www.example.com/forum/article.php?id=1233&next http://www.example.com/forum/article.php?id=5678&previous http://www.example.com/forum/article.php?id=6548&previous10 http://www.example.com/forum/article.php?id=879&next10 ... - Etc etc etc Internet : la mémoire courte ? 24 Aperçu de quelques autres problèmes • • • • • • • • Taille limite des fichiers Gestion des erreurs, des liens cassés Sites protégés par mot de passe Sites utilisant des « cookies » / des sessions Fichiers locaux « Intranet » (file://) Sites sécurisés (HTTPS) Sites ftp Sites accessibles via Ipv6 uniquement (recherche, universités) Internet : la mémoire courte ? 25 Mise à jour ? Internet : la mémoire courte ? 26 Mise à jour ? Document capturé le 15/01/2004 à 17h32 Une version plus récente est-elle disponible aujourd’hui ? Internet : la mémoire courte ? • Économie de bande passante • Économie de temps • Économie d’espace de stockage 27 Mise à jour « incrémentale » (1) document mis à jour depuis le 15/01/2004 à 17h32? interrogation du système de fichiers oui, nouveau document disponible Internet : la mémoire courte ? 28 Mise à jour « incrémentale » (2) le document « 098f6bcd4621 d373cade4e832 627b4f6 » est il périmé ? Internet : la mémoire courte ? interrogation de la base de donnée oui, je vous transmet le document « ad023482920 5b9033196ba81 8f7a872b» 29 Les précautions à prendre lors de la capture d’un site Internet : la mémoire courte ? 30 Les précautions à prendre : surcharge du site • Limiter la bande passante et le nombre de connexions simultanées! Internet : la mémoire courte ? 31 Les précautions à prendre : aspects légaux ? • Copie privée / publique ? • Protection du site ? (loi n°95-597 du 1er juillet 1992 , art l 353-3 du CPI) • Statut d’un aspirateur de sites Web ? Navigateur? Internet : la mémoire courte ? Robot? Proxy-cache? 32 Conclusion • … Internet : la mémoire courte ? 33