Capture de sites Web en ligne - Capture de sites en ligne

Transcription

Capture de sites Web en ligne - Capture de sites en ligne
Capture de sites Web en ligne
Conférence B.N.F, Avril 2004
Xavier Roche(HTTrack)
Internet : la mémoire courte ?
http://www.httrack.com
Pourquoi copier des sites web?
•
•
•
•
•
•
Archivage pour conservation et/ou historisation
Archivage pour raisons légales
Miroirs de sites pour des raisons de redondance
Copies pour une mise à disposition non connectée
Copies par des particuliers (copie privée)
Agents intelligents, stress de réseaux, validation de liens
cassés ou des liens externes, plan du site…
Internet : la mémoire courte ?
2
Le « Web », qu’est-ce que c’est ?
Internet
Email
HTTP
HTTPS
mailto
:
news:
http:
News
https:
ftp:
FTP
WWW
file:
Fichiers
Ressources locales (fichiers)
Internet : la mémoire courte ?
3
Un « serveur Web », qu’est-ce que c’est?
Traitements
Fichiers, archives
Contenus
Requêtes
et contenus
Éléments extérieurs
Base de données
(capteurs, etc.)
Serveur Web
Internet : la mémoire courte ?
Client
4
Le serveur web: un « livreur » de contenus
template.php
Traitements
Fichiers, archives
Contenus
Requêtes
table_001
et contenus
Éléments extérieurs
Base de données
(capteurs, etc.)
Serveur Web
Internet : la mémoire courte ?
Client
« Page
Web»
5
Les documents hypertexte
Internet : la mémoire courte ?
6
Les liens hypertexte
Internet : la mémoire courte ?
7
Copie locale d’un « site Web» ?
Internet : la mémoire courte ?
8
Copie locale d’un « site Web»
template.php
table_001
template2.php
table_002
…
…
Serveur Web
disque local
Ressources locales (fichiers)
Internet : la mémoire courte ?
9
Le « nommage » local des
fichiers en ligne copiés
Internet : la mémoire courte ?
10
Nommage des fichiers copiés
- Exemple: fichier html
Windows
Internet : la mémoire courte ?
Linux/Unix
11
Nommage : restrictions
-
Nommage des fichiers comportant des « caractères spéciaux »
Internet : la mémoire courte ?
12
Nommage : duplications
- Duplication de noms
+
Internet : la mémoire courte ?
13
Nommage : solutions
- Résoudre les collisions
+
+
Internet : la mémoire courte ?
14
Modification des liens hypertexte
Internet : la mémoire courte ?
15
Les problèmes apparaissent!
Internet : la mémoire courte ?
16
Les problèmes apparaissent!
- Les liens:
• <a href= 'page 2.html'>
• <a href= "page%202.html">
• <a href= page%202.html>
• <a href= "page 2
.html">
• <a href= "http:page 2.html">
• <a href= "//www.example.com/page 2.html">
• <a href= "page&nbsp;2.html">
• <a href
<a href= "page2.html">>
Internet : la mémoire courte ?
17
Les problèmes apparaissent!
- Les formulaires:
Internet : la mémoire courte ?
18
Les problèmes apparaissent!
- Les formulaires (suite) :
Internet : la mémoire courte ?
19
Les problèmes apparaissent!
- Javascript :
Internet : la mémoire courte ?
20
Les problèmes apparaissent!
- Java :
Internet : la mémoire courte ?
21
Les problèmes apparaissent!
- Flash :
Internet : la mémoire courte ?
22
Les problèmes apparaissent!
- Fichiers hypertextes vs binaires (Java/Flash) :
un fichier html
Internet : la mémoire courte ?
un fichier « flash »
23
Les problèmes apparaissent!
- « Horodatage » intégré aux liens hypertexte
http://www.example.com/page2.html?t=19993112235959999
- Liens multiples vers un seul document
http://www.example.com/forum/article.php?id=1234
http://www.example.com/forum/article.php?id=1233&next
http://www.example.com/forum/article.php?id=5678&previous
http://www.example.com/forum/article.php?id=6548&previous10
http://www.example.com/forum/article.php?id=879&next10
...
- Etc etc etc
Internet : la mémoire courte ?
24
Aperçu de quelques autres problèmes
•
•
•
•
•
•
•
•
Taille limite des fichiers
Gestion des erreurs, des liens cassés
Sites protégés par mot de passe
Sites utilisant des « cookies » / des sessions
Fichiers locaux « Intranet » (file://)
Sites sécurisés (HTTPS)
Sites ftp
Sites accessibles via Ipv6 uniquement (recherche,
universités)
Internet : la mémoire courte ?
25
Mise à jour ?
Internet : la mémoire courte ?
26
Mise à jour ?
Document capturé le
15/01/2004 à 17h32
Une version plus
récente est-elle
disponible
aujourd’hui ?
Internet : la mémoire courte ?
• Économie de
bande passante
• Économie de
temps
• Économie
d’espace de
stockage
27
Mise à jour « incrémentale » (1)
document mis à
jour depuis le
15/01/2004 à
17h32?
interrogation du
système de
fichiers
oui, nouveau
document
disponible
Internet : la mémoire courte ?
28
Mise à jour « incrémentale » (2)
le document
« 098f6bcd4621
d373cade4e832
627b4f6 » est il
périmé ?
Internet : la mémoire courte ?
interrogation de
la base de
donnée
oui, je vous
transmet le
document
« ad023482920
5b9033196ba81
8f7a872b»
29
Les précautions à prendre lors de la capture
d’un site
Internet : la mémoire courte ?
30
Les précautions à prendre : surcharge du site
• Limiter la
bande passante
et le nombre
de connexions
simultanées!
Internet : la mémoire courte ?
31
Les précautions à prendre : aspects légaux ?
• Copie privée / publique ?
• Protection du site ? (loi n°95-597 du 1er
juillet 1992 , art l 353-3 du CPI)
• Statut d’un aspirateur de sites Web ?
Navigateur?
Internet : la mémoire courte ?
Robot?
Proxy-cache?
32
Conclusion
• …
Internet : la mémoire courte ?
33