Accessing the DEEP WEB
Transcription
Accessing the DEEP WEB
Accessing the DEEP WEB Cours ”Algorithmes pour le Web” Présentation d'un article: ”Accessing the DEEP WEB” by Bin Eh, Mitesh Patel, Zhen Zhang, Kevin Chen-Chaun Chang Published in the Communications of the ACM, May 2007/Vol. 50.No.5 Gampert Cédric 2008, 8 décembre Sommaire Introduction Méthode d'expérimentation Résultats Conclusion Introduction (1) Il est considéré qu'une importante portion du Web est dite "cachées" (mais accessible). C'est une partie du Web que les crawlers ne peuvent inspecter (en grande partie) et donc reste dans une large mesure invisible aux utilisateurs. Introduction (2) Surface Web Introduction (3) Introduction (3) Il sagit des pages qui sont issues de requêtes à des bases de données Elles sont accessibles depuis le Web via des formulaires html (backend Web database, BWD). Introduction (3) Définition: un ”deep Web site” est un site qui héberge au moins une BWD (backend Web database). Introduction (4) Un précédente mesure à estimé qu'il existe entre 43'000 et 96'000 deep Web sites [1] (2001) A eux seuls ils abritent une quantité d'information, estimée informellement, à 7'500 terabytes [1] (500x plus grand que le Web connu). Introduction (5) Toutefois le calcul précédent du nombre de deep Web site utilise l'analyse dite du recouvrement. Cette mesure considère l'utilisation de deux moteurs de recherches qui obtiennent leurs résutlats indépendemment l'un de l'autre. Introduction (5) n 1×n 2 n0 Mesure sous-évaluée car l'hypothèse d'indépendance n'est pas réelle comme on le verra. Ainsi cette mesure sous-évalue le nombre de deep Web site. Sommaire Introduction Méthode d'expérimentation Résultats Conclusion Méthode d'expérimentation (1) On considère un échantillon d'IPs reptésentant des serveurs Web. But d'estimer la taille globale du deep Web sa structure, et d'autres informations Méthode d'expérimentation (2) En 2004, choix aléatoire d'un échantillon de 1'000'000 IPs (total: 2'230'124'544 après filtrage des adresses réservées et inutilisées). Pour chaque IP, on télécharge les pages HTML si serveur Web. De cet échantillon de pages on analyse les pages pour y identifier les interfaces et les bdd. (dans le but d'extrapoler notre estimation du deep Web.) Méthode d'expérimentation (3) On rejette les formulaires qui ne sont pas des interfaces à des BBDs et les formulaires doublons sur un même site Pour comptabiliser les BDDs on a soumis à des pairs de requêtes 5 objets aléatoires et on conclu que si le résultat est différent alors on a deux différentes BDDs. Méthode d'expérimentation (5) Finallement, on considère qu'un site est un ”Deep Web Site” s'il héberge un ou plusieurs BWDs. Méthode d'expérimentation (5) Note, virtual web hosting pas pris en compte donc précision de l'étude relative à cette omission => 1 deep Web site par IP Sommaire Introduction Méthode d'expérimentation Résultats Conclusion Résultats (1) Comment trouver les points d'entrées des BDDs? Quelle est l'envergure du deep Web? Quelle est la structure du deep Web? Quelle est la distribution des sujets? Quelle est la couverture donnée par les moteurs de recherches? Quelle est la couverture données par les répertoires de site Web. Résultat (2) Comment trouver les points d'entrées des BDDs? On considère sous-échantillon de 1/10 (10^5 IPs) 281 sont des serveurs http. Crawling pour trouver interfaces jusqu'à une profondeur de 10. Résultat: 24 deep Web Site: 129 interfaces et 34 BDDs. Constat: 91,6% des deep Web Site ont leurs interfaces à une profondeur de <=3. Résultats (3) Quelle est l'envergure du deep Web? Sur l'échantillon complet on a trouvé 2'256 sites Web. Parmi eux on trouvé 126 deep Web site: 406 interfaces et 190 BDDs. Résultats (3) Quelle est l'envergure du deep Web? Extrapoler 126 deep Web site: 406 interfaces et 190 BDDs. t=tot IPs et s=|échantillon| Résultats (4) Quelle est la structure du deep Web? Il a été défini deux classes: BDDs non structurées (text, image, audio, vidéo) , pex unige.ch BDDs structurées (titre=”Cuisine Jamaïquaine piquante”, Auteur=”Obama”, etc...), pex amazone Parmi les 190 BDDs on a eu: 43 non structurées => 102'000 147 structurées => 348'000 Résultats (5) Résultats (6) Quelle est la distribution des sujets? En utilisant la taxonomie de Yahoo on a classifié notre échantillon de 190 BDDs. Résultats (7) Quelle est la couverture donnée par les moteurs de recherches? On a pris 20 BDDs (parmi les 190) Mannuellement choisi 5 résultats pour test. On a observé si nos résultats étaient retournés par les moteurs de choix: Résultats: Yahoo 32%, Google 32% et MSN 11% Résultats (8) Résultats (9) Quelle est la couverture données par les répertoires de site Web. On considère 4 deep Web portal services dont on rapporte le nombre de BBDs qu'ils clament indexer. Conclusion (1) On estime donc que le deep Web est mal connu Croissance forte et rapide Plus diversifié et plus structuré que le surface Web Donc on estime que les techniques de Crawling (pour surface Web) sont inadaptées: Discover-and-forward WOW Project Google crawl datas behing forms FIN Merci!