Accessing the DEEP WEB

Transcription

Accessing the DEEP WEB
Accessing the DEEP WEB
Cours ”Algorithmes pour le Web”
Présentation d'un article:
”Accessing the DEEP WEB”
by
Bin Eh, Mitesh Patel, Zhen Zhang, Kevin Chen-Chaun Chang
Published in the
Communications of the ACM, May 2007/Vol. 50.No.5
Gampert Cédric
2008, 8 décembre
Sommaire

Introduction

Méthode d'expérimentation

Résultats

Conclusion
Introduction (1)
Il est considéré qu'une importante portion du
Web est dite "cachées"
(mais accessible).
C'est une partie du Web que les crawlers ne
peuvent inspecter (en grande partie) et donc reste
dans une large mesure invisible aux utilisateurs.
Introduction (2)
Surface Web
Introduction (3)
Introduction (3)
Il sagit des pages qui sont issues de requêtes à
des bases de données
Elles sont accessibles depuis le Web via des
formulaires html
(backend Web database, BWD).
Introduction (3)
Définition: un ”deep Web site” est un site qui
héberge au moins une BWD (backend Web
database).
Introduction (4)
Un précédente mesure à estimé qu'il existe entre
43'000 et 96'000 deep Web sites [1] (2001)
A eux seuls ils abritent une quantité d'information,
estimée informellement, à 7'500 terabytes [1]
(500x plus grand que le Web connu).
Introduction (5)
Toutefois le calcul précédent du nombre de deep
Web site utilise l'analyse dite du recouvrement.
Cette mesure considère l'utilisation de deux
moteurs de recherches qui obtiennent leurs
résutlats indépendemment l'un de l'autre.
Introduction (5)
n 1×n 2
n0
Mesure sous-évaluée car l'hypothèse d'indépendance
n'est pas réelle comme on le verra.
Ainsi cette mesure sous-évalue le nombre de deep Web
site.
Sommaire

Introduction

Méthode d'expérimentation

Résultats

Conclusion
Méthode d'expérimentation
(1)
On considère un échantillon d'IPs reptésentant
des serveurs Web.
But d'estimer la taille globale du deep Web sa
structure, et d'autres informations
Méthode d'expérimentation
(2)
En 2004, choix aléatoire d'un échantillon de
1'000'000 IPs (total: 2'230'124'544 après filtrage
des adresses réservées et inutilisées).
Pour chaque IP, on télécharge les pages HTML si
serveur Web.
De cet échantillon de pages on analyse les pages
pour y identifier les interfaces et les bdd.
(dans le but d'extrapoler notre estimation du deep
Web.)
Méthode d'expérimentation
(3)
On rejette les formulaires qui ne sont pas des
interfaces à des BBDs et les formulaires
doublons sur un même site
Pour comptabiliser les BDDs on a soumis à des
pairs de requêtes 5 objets aléatoires et on conclu
que si le résultat est différent alors on a deux
différentes BDDs.
Méthode d'expérimentation
(5)
Finallement, on considère qu'un site est un ”Deep
Web Site” s'il héberge un ou plusieurs BWDs.
Méthode d'expérimentation
(5)
Note, virtual web hosting pas pris en compte donc
précision de l'étude relative à cette omission
=> 1 deep Web site par IP
Sommaire

Introduction

Méthode d'expérimentation

Résultats

Conclusion
Résultats (1)

Comment trouver les points d'entrées des BDDs?

Quelle est l'envergure du deep Web?

Quelle est la structure du deep Web?

Quelle est la distribution des sujets?


Quelle est la couverture donnée par les moteurs de
recherches?
Quelle est la couverture données par les répertoires
de site Web.
Résultat (2)
Comment trouver les points d'entrées des BDDs?

On considère sous-échantillon de 1/10 (10^5 IPs)

281 sont des serveurs http.



Crawling pour trouver interfaces jusqu'à une
profondeur de 10.
Résultat: 24 deep Web Site: 129 interfaces et 34
BDDs.
Constat: 91,6% des deep Web Site ont leurs
interfaces à une profondeur de <=3.
Résultats (3)
Quelle est l'envergure du deep Web?


Sur l'échantillon complet on a trouvé 2'256 sites
Web.
Parmi eux on trouvé 126 deep Web site: 406
interfaces et 190 BDDs.
Résultats (3)
Quelle est l'envergure
du deep Web?

Extrapoler


126 deep Web site:
406 interfaces et
190 BDDs.
t=tot IPs et
s=|échantillon|
Résultats (4)
Quelle est la structure du deep Web?

Il a été défini deux classes:



BDDs non structurées (text, image, audio, vidéo) ,
pex unige.ch
BDDs structurées (titre=”Cuisine Jamaïquaine
piquante”, Auteur=”Obama”, etc...), pex amazone
Parmi les 190 BDDs on a eu:

43 non structurées => 102'000

147 structurées => 348'000
Résultats (5)
Résultats (6)
Quelle est la
distribution des
sujets?

En utilisant la
taxonomie de
Yahoo on a
classifié notre
échantillon de
190 BDDs.
Résultats (7)
Quelle est la couverture donnée par les moteurs
de recherches?

On a pris 20 BDDs (parmi les 190)

Mannuellement choisi 5 résultats pour test.


On a observé si nos résultats étaient retournés par
les moteurs de choix:
Résultats: Yahoo 32%, Google 32% et MSN 11%
Résultats (8)
Résultats (9)
Quelle est la couverture données par les
répertoires de site Web.

On considère 4 deep Web portal services dont on
rapporte le nombre de BBDs qu'ils clament indexer.
Conclusion (1)

On estime donc que le deep Web est mal connu

Croissance forte et rapide

Plus diversifié et plus structuré que le surface Web


Donc on estime que les techniques de Crawling
(pour surface Web) sont inadaptées:

Discover-and-forward

WOW Project
Google crawl datas behing forms
FIN
Merci!

Documents pareils