Le Web invisible
Transcription
Le Web invisible
Le web invisible ADBS : Les jeudi de l’Internet pratique Février 2009 ©Inforizon - Février 2009 1 Le web invisible : où en sommes-nous Comprendre ce qu’est le « Web invisible » ; Savoir le détecter et connaître les évolutions en cours Savoir y accéder ; Connaître les éléments de méthodologie, en général et par type de ressources http://c.asselin.free.fr/french/schema_webinvisible.htm Schéma établi sur la base de l’étude "Distribution des sites du Deep Web par types de contenu" de l'étude Bright Planet. ©Inforizon - Février 2009 2 Fil conducteur… 1. Quelle définition du web invisible en 2009 ? 2. Comment y accéder ? 3. Quelles tendances ? ©Inforizon - Février 2009 3 Un contexte complexe et évolutif Un univers complexe • • • • • Abondance de l’information, abondance des éditeurs Hétérogénéité, fragmentation, manque de structuration Renouvellement continuel Multilinguisme La question cruciale de la fiabilité La nouvelle physionomie du web • Après le « web des pionniers » et le « web de documents », voici l’explosion du « web social » • La convergence des outils et des sources • Les moteurs sacrés rois des outils, Google en tête • De puissants outils thématiques ©Inforizon - Février 2009 4 Des chiffres ??? Nombre de sites web : 185.167.897 en novembre 2008 (149.784.002 en novembre 2007) : un croissance forte du web depuis 2006 ©Inforizon - Février 2009 5 Des chiffres ??? Nombre de blogs : plus de 200 millions de blogs fin 2008 (entre 60 et 80 millions début 2006) ; 5 millions de blogueurs en France, mais seuls 5,5 % ont été mis à jour sur les trois derniers mois ! ©Inforizon - Février 2009 6 Des chiffres ??? Nombre de pages web indexées par Google (approximation) : 26 millions en 1998, 1 milliard en 2000, 20 milliards fin 2005, 60 milliards en 2008 ? 60 50 40 30 20 10 0 1998 2000 2005 ©Inforizon - Février 2009 2008 7 Des chiffres ??? 1000 milliards de pages web disposant d’une URL unique ? ©Inforizon - Février 2009 8 INVISIBLE ? AUX MOTEURS DE RECHERCHE ©Inforizon - Février 2009 9 Le web invisible : ensemble des pages non localisables et/ou non indexables par les moteurs de recherche du web Pages dynamiques, générées par l’interrogation, via un formulaire, d’une base de données structurées Pages nécessitant une identification de la part de l’internaute (« proprietary web ») Pages orphelines, n’ayant fait l’objet ni d’un référencement direct, ni d’aucun lien d’une autre page Pages « interdites » aux moteurs : dont le contenu indique aux moteurs qu’ils ne doivent pas l’indexer (« Private web ») Pages dont le format ou certaines caractéristiques techniques les rendent « incompréhensibles » aux moteurs Sites trop volumineux. Pages situées à l’intérieur d’une frame (« Opaque web ») Eléments issus du »micro-blogging » ©Inforizon - Février 2009 10 Le phénomène du micro-blogging Mélange de blog et de SMS…Mode de diffusion d’informations ciblées, « en direct » Twitter, roi du microblogging : une caisse de résonance sur l’actualité mondiale www.twitter.com Utile pour suivre l’actualité d’une personne, découvrir des tendances, suivre un événement en cours Le « real time web » échappe à Google ! ©Inforizon - Février 2009 11 « Sorry, Google, you missed the real time web » www.readwriteweb.com/archives/sorry_google_you_missed_the_real_ti me_web.php) ©Inforizon - Février 2009 12 Les moteurs progressent … Amélioration des délais de collecte et d’indexation des moteurs : mise à jour quotidienne, sinon dans l’heure.. Meilleure prise en compte des sites volumineux : facilitation du processus de référencement, via des protocoles notamment comme Sitemap De plus en plus de formats de fichiers reconnus et indexés (même les documents pdf « image ») « Attaques » de plus en plus fréquentes des bases de données structurées : interprétation des scripts par les moteurs ©Inforizon - Février 2009 13 Visibilité des bases de données Volonté des éditeurs des bases, voire du changement des modèles économiques « Technique formulaire » utilisée Capacité du moteur à interpréter les scripts d’interrogation Critères retenus par les moteurs pour « suivre ces scripts » ou non Liens effectués par les sites vers des pages de résultats ou des enregistrements particuliers des bases théoriquement invisibles. ©Inforizon - Février 2009 14 Des chiffres sur le web invisible ??? Soyons clair : personne n’en sait rien : aucune étude fiable ces dernières années n’a été menée sur le sujet Des chiffres circulent depuis longtemps, qui n’on pas vraiment de base : le web invisible 250 à 500 fois plus important que le web visible … Attention toutefois : le web invisible croît certainement moins vite aujourd’hui, du fait des progrès des moteurs ©Inforizon - Février 2009 15 Fil conducteur… 1. Quelle définition du web invisible en 2009 ? 2. Comment y accéder ? 3. Quelles tendances ? ©Inforizon - Février 2009 16 Comment y accéder ? Règles « classiques » de la recherche : Etude du besoin et du type d’informations utiles : références bibliographiques, texte intégral, statistiques, diaporamas, etc. En provenance de quels types d’éditeurs ? Etc….) Bonne connaissance des ressources du domaine visé. Veille sur un domaine (portails thématiques, listes de diffusion...) Répertoires de « web invisible » pas complets, ni à jour… ex : http://www.completeplanet.com DADI Database Directory http://dadi.univ-lyon1.fr/ Méta-moteurs spécialisés (presse, emploi, sciences...) « Réservoirs d’information » particuliers : archives ouvertes, thèses, personnes, etc…. Méthode des mots-clés ©Inforizon - Février 2009 17 Les bases de données, Au cœur de la richesse du web invisible Centres de ressources Recherche motsclés Sites portail, ou répertoire spécialisé Méta-moteur spécialisé Répertoires de bdd à interface web ©Inforizon - Février 2009 18 Des « réservoirs d’information » spécifiques (exemples) Le « real-time web » avec Twitter Les pages nécessitant une identification de la part de l’internaute Moteur : search.twitter.com Etre inscrit sur les sites utiles ! Moteur « de commentaires » : www.backtype.com Recherche mots-clés en élargissant éventuellement : « livre blanc » et dérivés Métamoteurs sociaux : IceRocket Big Buzz, Samepoint, Whostalkin Outils spécialisés (répertoires, moteurs, métamoteurs) ©Inforizon - Février 2009 19 Des « réservoirs d’information » spécifiques (exemples) Les livres, la presse Services de publication et de partages de documents en ligne Fonction ad-hoc des moteurs : filetype: livres : ex books.google.fr, Agrégateurs de news, bases de données de presse Sites spécifiques : Filtrage collaboratif : ex pour les livres Amazon, Librarything, -Video : YouTube, DailyMotion.. - Photos : Flick’r.. -Autres : Slideshare, Scribd, Docstock, Slideo (FR), Instructables, ManyEyes ©Inforizon - Février 2009 20 Fil conducteur… 1. Quelle définition du web invisible en 2009 ? 2. Comment y accéder ? 3. Quelles tendances ? ©Inforizon - Février 2009 21 Des frontières beaucoup moins étanches, mais des accès toujours aussi complexes Des bases de données de plus en plus « visibles » Des moteurs de plus en plus performants (cf Google) mais pb des « trois premières pages de résultats » Le développement des outils spécialisés, indexant plus finement les pages dans leur thématique La nécessité affirmée des professionnels de l’information comme « cartographes de l’internet » car il faut savoir où trouver les différents types d’information ©Inforizon - Février 2009 22