Le Web invisible

Transcription

Le Web invisible
Le web invisible
ADBS : Les jeudi de l’Internet pratique
Février 2009
©Inforizon - Février 2009
1
Le web invisible : où en sommes-nous
Comprendre ce qu’est le
« Web invisible » ;
Savoir le détecter et
connaître les évolutions
en cours
Savoir y accéder ;
Connaître les éléments
de méthodologie, en
général et par type de
ressources
http://c.asselin.free.fr/french/schema_webinvisible.htm Schéma établi sur la base de l’étude
"Distribution des sites du Deep Web par types de contenu" de l'étude Bright Planet.
©Inforizon - Février 2009
2
Fil conducteur…
1.
Quelle définition du web invisible en 2009 ?
2.
Comment y accéder ?
3.
Quelles tendances ?
©Inforizon - Février 2009
3
Un contexte complexe et évolutif
ƒ Un univers complexe
•
•
•
•
•
Abondance de l’information, abondance des éditeurs
Hétérogénéité, fragmentation, manque de structuration
Renouvellement continuel
Multilinguisme
La question cruciale de la fiabilité
ƒ La nouvelle physionomie du web
• Après le « web des pionniers » et le « web de documents », voici l’explosion
du « web social »
• La convergence des outils et des sources
• Les moteurs sacrés rois des outils, Google en tête
• De puissants outils thématiques
©Inforizon - Février 2009
4
Des chiffres ???
ƒ
Nombre de sites web : 185.167.897 en novembre 2008 (149.784.002 en
novembre 2007) : un croissance forte du web depuis 2006
©Inforizon - Février 2009
5
Des chiffres ???
ƒ
Nombre de blogs : plus de 200 millions de blogs fin 2008 (entre 60 et 80
millions début 2006) ; 5 millions de blogueurs en France, mais seuls 5,5 %
ont été mis à jour sur les trois derniers mois !
©Inforizon - Février 2009
6
Des chiffres ???
ƒ
Nombre de pages web indexées par Google (approximation) : 26 millions en
1998, 1 milliard en 2000, 20 milliards fin 2005, 60 milliards en 2008 ?
60
50
40
30
20
10
0
1998
2000
2005
©Inforizon - Février 2009
2008
7
Des chiffres ???
1000 milliards de pages web disposant d’une
URL unique ?
©Inforizon - Février 2009
8
INVISIBLE ?
AUX MOTEURS DE RECHERCHE
©Inforizon - Février 2009
9
Le web invisible : ensemble des pages non localisables et/ou
non indexables par les moteurs de recherche du web
ƒ Pages dynamiques, générées par l’interrogation, via un formulaire,
ƒ
ƒ
ƒ
ƒ
ƒ
ƒ
d’une base de données structurées
Pages nécessitant une identification de la part de l’internaute
(« proprietary web »)
Pages orphelines, n’ayant fait l’objet ni d’un référencement direct,
ni d’aucun lien d’une autre page
Pages « interdites » aux moteurs : dont le contenu indique aux
moteurs qu’ils ne doivent pas l’indexer (« Private web »)
Pages dont le format ou certaines caractéristiques techniques les
rendent « incompréhensibles » aux moteurs
Sites trop volumineux. Pages situées à l’intérieur d’une frame
(« Opaque web »)
Eléments issus du »micro-blogging »
©Inforizon - Février 2009
10
Le phénomène du micro-blogging
ƒ Mélange de blog et de SMS…Mode de diffusion d’informations
ƒ
ƒ
ciblées, « en direct »
Twitter, roi du microblogging : une caisse de résonance sur
l’actualité mondiale www.twitter.com
Utile pour suivre l’actualité d’une personne, découvrir des
tendances, suivre un événement en cours
ƒ Le « real time web » échappe à Google !
©Inforizon - Février 2009
11
« Sorry, Google, you missed the real time web »
www.readwriteweb.com/archives/sorry_google_you_missed_the_real_ti
me_web.php)
©Inforizon - Février 2009
12
Les moteurs progressent …
ƒ
ƒ
ƒ
ƒ
Amélioration des délais de
collecte et d’indexation des
moteurs : mise à jour quotidienne,
sinon dans l’heure..
Meilleure prise en compte des
sites volumineux : facilitation du
processus de référencement, via des
protocoles notamment comme
Sitemap
De plus en plus de formats de
fichiers reconnus et indexés (même
les documents pdf « image »)
« Attaques » de plus en plus
fréquentes des bases de données
structurées : interprétation des
scripts par les moteurs
©Inforizon - Février 2009
13
Visibilité des bases de données
ƒ Volonté des éditeurs des bases, voire du changement des
modèles économiques
ƒ « Technique formulaire » utilisée
ƒ Capacité du moteur à interpréter les scripts d’interrogation
ƒ Critères retenus par les moteurs pour « suivre ces scripts » ou non
ƒ Liens effectués par les sites vers des pages de résultats ou des
enregistrements particuliers des bases théoriquement invisibles.
©Inforizon - Février 2009
14
Des chiffres sur le web invisible ???
ƒ Soyons clair : personne n’en sait rien : aucune étude fiable
ces dernières années n’a été menée sur le sujet
ƒ Des chiffres circulent depuis longtemps, qui n’on
pas vraiment de base : le web invisible 250 à 500
fois plus important que le web visible …
ƒ Attention toutefois : le web invisible croît certainement
moins vite aujourd’hui, du fait des progrès des moteurs
©Inforizon - Février 2009
15
Fil conducteur…
1.
Quelle définition du web invisible en 2009 ?
2.
Comment y accéder ?
3.
Quelles tendances ?
©Inforizon - Février 2009
16
Comment y accéder ?
ƒ
Règles « classiques » de la recherche : Etude du besoin et du type
d’informations utiles : références bibliographiques, texte intégral, statistiques,
diaporamas, etc. En provenance de quels types d’éditeurs ? Etc….)
ƒ
Bonne connaissance des ressources du domaine visé. Veille sur un
domaine (portails thématiques, listes de diffusion...)
ƒ
Répertoires de « web invisible » pas complets, ni à jour…
ex : http://www.completeplanet.com
DADI Database Directory http://dadi.univ-lyon1.fr/
ƒ
Méta-moteurs spécialisés (presse, emploi, sciences...)
ƒ
« Réservoirs d’information » particuliers : archives ouvertes, thèses,
personnes, etc….
ƒ
Méthode des mots-clés
©Inforizon - Février 2009
17
Les bases de données,
Au cœur de la richesse du web invisible
Centres de
ressources
Recherche motsclés
Sites portail, ou
répertoire spécialisé
Méta-moteur
spécialisé
Répertoires de bdd
à interface web
©Inforizon - Février 2009
18
Des « réservoirs d’information » spécifiques (exemples)
ƒ Le « real-time web » avec
Twitter
ƒ
Les pages nécessitant une
identification de la part de
l’internaute
Moteur : search.twitter.com
Etre inscrit sur les sites utiles !
Moteur « de commentaires » :
www.backtype.com
Recherche mots-clés en
élargissant éventuellement : « livre
blanc » et dérivés
Métamoteurs sociaux :
IceRocket Big Buzz,
Samepoint, Whostalkin
Outils spécialisés (répertoires,
moteurs, métamoteurs)
©Inforizon - Février 2009
19
Des « réservoirs d’information » spécifiques (exemples)
ƒ Les livres, la presse
ƒ
Services de publication et de
partages de documents en ligne
Fonction ad-hoc des moteurs :
filetype:
livres : ex books.google.fr,
Agrégateurs de news, bases
de données de presse
Sites spécifiques :
Filtrage collaboratif : ex pour
les livres Amazon, Librarything,
-Video : YouTube, DailyMotion..
- Photos : Flick’r..
-Autres : Slideshare, Scribd,
Docstock, Slideo (FR),
Instructables, ManyEyes
©Inforizon - Février 2009
20
Fil conducteur…
1.
Quelle définition du web invisible en 2009 ?
2.
Comment y accéder ?
3.
Quelles tendances ?
©Inforizon - Février 2009
21
Des frontières beaucoup moins étanches, mais des
accès toujours aussi complexes
ƒ Des bases de données de plus en plus « visibles »
ƒ Des moteurs de plus en plus performants (cf Google) mais pb des
« trois premières pages de résultats »
ƒ Le développement des outils spécialisés, indexant plus finement les
pages dans leur thématique
ƒ La nécessité affirmée des professionnels de l’information comme
« cartographes de l’internet » car il faut savoir où trouver les
différents types d’information
©Inforizon - Février 2009
22