De l`annuaire de sites à la recherche sociale: 15 ans d`évolution!

Transcription

De l`annuaire de sites à la recherche sociale: 15 ans d`évolution!
Faculté Polytechnique
Étudiant d'un jour en
Polytech
De l'annuaire de sites à la recherche sociale: 15 ans
d'évolution
Dr Ir Robert Viseur
[email protected]
Etudiant d'un jour en Polytech - L'informatique, une affaire d'ingénieur! - Entre
réseaux sociaux, vie privée et infrastructure.
Mons, le 23 février 2012.
De l'annuaire à la recherche
sociale
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
2
1994 : création de Yahoo!
Yahoo! démarre comme
annuaire de sites Internet.


Principe des « Pages Jaunes »
adapté à la recherche de sites.
Problèmes ?

Fastidieux travail humain...




De classement des sites dans des
catégories.
De mise à jour des informations
(évolution des contenus, liens
morts).
Pas de prise en compte du contenu
textuel du site.
Croissance rapide du nombre de
sites Internet.
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
3
1995 : création d'Altavista
Premier moteur de recherche Web
commercial.

Deux parties importantes :



Points forts :



Le « spider » qui parcourt le Web en passant
de lien hypertexte en lien hypertexte, et
découvre ainsi les pages Web disponibles.
L' « indexeur » qui structure le texte contenu
dans les pages Web d'une manière qui facilite
la recherche par mot-clef.
Il découvre les contenus et procède aux
mises à jour de manière automatique.
Il permet la recherche « plein texte »
(fulltext).
Pour chaque recherche, les documents
sont classés en fonction de la fréquence
d'apparition du mot-clef recherché.
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
4
1998 : création de Google
Premier moteur de recherche
prenant en compte la popularité
des pages Web.


Même principe qu'Altavista mais...
Google analyse en plus les relations
entre pages Web.



Les pages les plus souvent citées sont
jugées plus intéressantes.
Chaque page est ainsi associée à un
score d'autorité (= Pagerank).
Pour chaque recherche, les pages sont
classées en fonction de leur
pertinence (fréquence d'apparition du
mot-clef recherché et Pagerank).
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
5
Les autres innovations de
Google
Cluster de PC :

Pour « motoriser » son moteur, Google
renonce aux coûteux serveurs haut de
gamme (serveurs « Alpha » chez
Altavista) et utilise un cluster (groupe)
d'ordinateurs standards à bas prix.
« Light is better » :

Google passe d'une page portail
(Altavista) à une simple « boîte » de
recherche.
Publicité contextuelle :

Google comprend très vite l'intérêt de
proposer une publicité discrète et
contextualisée.

Google AdWords est lancé en 2000 ;
Google Adsense, en 2003.
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
6
Quelques raisons au succès
initial de Google
Une gestion raisonnable de la propriété industrielle.

Le brevet du Pagerank a été déposé par l'Université Stanford en
1997.
Une pertinence supérieure à celle des concurrents.

Google présente en 1998 une pertinence supérieure à son principal
concurrent, Altavista.
Une capacité d'indexation supérieure à celle des
concurrents.

Les performances de l'algorithme de classement et la flexibilité du
cluster de PC permettent l'augmentation rapide de la taille de
l'index (nombre de pages enregistrées).
Une rentabilité rapidement atteinte.

Google est rentable dès 1998 et dépasse les 100 millions de dollars
de CA dès 2001.
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
7
Google aujourd'hui
Diversification des activités.






Moteurs spécialisés (Google News,
Google Images, Google Books, Google
Scholar,...).
Vidéos (achat de Youtube).
Cartographie (Google Maps).
Mails (Gmail) et bureautique en mode
SaaS (Google Docs).
Outils : navigateur Chrome et OS
mobile Android (maîtrise de
l'expérience utilisateur).
...
Évolution continue de l'algorithme
de classement.

Ajout de filtres, évolution du Pagerank
(Trustrank ?), recherche universelle,...
Un échec (?) : les réseaux
sociaux.
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
8
2004 : création de Facebook
Réseau social (synchrone)
permettant :


la création d'un profil détaillé (plus ou
moins privé),
la publication d'informations (statuts,
vidéos, photos,...).
Facebook pourrait atteindre 1 milliard
d'utilisateurs inscrits à l'été 2012 !
Microsoft commence à exploiter les
« Like » / « J'aime » de Facebook.


But : personnaliser les résultats des
recherches dans le moteur de recherche
Bing...
Et améliorer la pertinence globale des
résultats de recherche ?
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
9
2006 : création de
Twitter (1/2)
Twitter est un outil de réseau social
(asymétrique) et de
microblogage.

Les utilisateurs postent des messages
de 140 caractères (max.).

Le « tweet » (gazouillis) est comparable
à un SMS.
Application du principe « Keep it
Simple, Stupid ».


Twitter laisse les pratiques émerger
(plutôt que de les « forcer »), et les
accompagne.
Twitter permet aux utilisateurs de
développer leurs propres services via
une API publique.
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
10
2006 : création de
Twitter (2/2)
De 2009 à 2011, Google a
indexé les tweets publics.
Surtout, Twitter a émergé
comme plate-forme de
recherche d'information
« temps réel »



Complément aux moteurs de
recherche d'actualités comme
Google News.
Exemple : séisme du 12 janvier
2010 en Haïti.
Les informations « chaudes » sont
« retweetées » (« RT »,
« hashtags »).
Université de Mons
Dr Ir R. Viseur
|
La révolution égyptienne sur Twitter
↑
FPMs : Service d'Économie et de Management de l'Innovation
11
Chercher... Oui, mais quoi, et
comment ?
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
12
Bien utiliser les outils de
recherche
Les outils de recherche sont :



diversifiés,
puissants,
éphémères (parfois).
Donc, il faut être capable de :



les découvrir,
en exploiter les fonctionnalités cachées (ou peu
connues),
croiser l'information.
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
13
Diversité des outils de
recherche
Exemples :










Infobel : annuaire de personnes et d'entreprises.
Banque Carrefour des Entreprises : documents officiels des
entreprises.
Who is : recherche d'information sur les noms de domaine.
Facebook, Twitter, LinkedIn,... : recherche de profils utilisateurs.
Google Images : recherche avancée d'images et de photos.
Google Books : recherche dans les livres.
Google Scholar : recherche dans les articles scientifiques.
Google Web : recherche d'informations générales (principe de la
« recherche universelle »).
Google Maps / Streetview : vue satellite / vidéo des villes.
...
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
14
Fonctions avancées des outils
de recherche
Exemple (Bing) :



Par défaut : recherche par mot-clef.
Opérateurs booléens : AND, OR, NOT.
Opérateurs avancés (support variable dans le temps!) :






« site: » : permet de cibler la recherche sur un site.
« filetype: » : permet de restreindre la recherche à un type de
fichier.
« feed: » : permet de trouver des flux RSS.
« loc: » : permet de restreindre la recherche aux sites associés
à un pays donné.
« ip: » : permet de lister les sites hébergés à la même adresse
IP (= adresse associée à chaque ordinateur connecté).
...
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
15
Croisement d'informations
Voir la recherche
d'informations comme
une enquête
policière...
Existence d'outils
intégrés.

Exemple: recherche
d'informations
personnelles.

123People (cf.
Université de Mons
www.123people.com
Dr Ir R. Viseur
|
).
FPMs : Service d'Économie et de Management de l'Innovation
16
Exemple n°1 – Spam « Euro
Software » (1/2)
280 euros sur une licence Windows Vista, 900
euros sur une licence Photoshop...
Bonne affaire ou véritable arnaque ?
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
17
Exemple n°1 – Spam « Euro
Software » (2/2)
Que dit whois.org ?

Le nom de domaine a été déposé le 16/05/2008 par un certain
liu bin / wu han huoche zhan / 410214, semble-t-il basé à
Beijing (Chine).
Que dit loc8ip.com ?

Le site a pour adresse « 211.49.115.57 » et est hébergé en
Corée du Sud.
Que dit bing.com ?

Le serveur « 211.49.115.57 » (opérateur « ip: ») héberge des
sites clones (comme zasofta.com ou dasofte.com) mais aussi plusieurs
sites de casino en ligne (netgamemagic.com, eurocasinoajy.com, gamenetmagic.net,
casinorichdot.net, www.eurocasinoajn.com,...).
→ conclusion : à éviter...
[Test fait le 31 mai 2008]
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
18
Exemple n°2 - « Voici l'accusatrice
de Koekelberg » (1/2)
Sur DH.Net : « Voici
l'accusatrice de
Koekelberg » (cf.
shrl.be/000087).

Pas de nom,
uniquement un prénom
et une photo (avec un
bandeau sur les yeux).

Anonymat respecté ?
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
19
Exemple n°2 - « Voici l'accusatrice
de Koekelberg » (2/2)
Procédure:



Ouvrir un onglet Google Images.
Transférer la photo dans la zone de
recherche.
Prendre le premier résultat (page avec
photo originale sans bandeau) :
Laurence Vxxxxxxxxr
GSM : 0476/6x.xx.x1
[email protected]

Remarque: la photo originale a depuis été
retirée du site.
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
20
Du cluster au réseaux de
fermes d'ordinateurs
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
21
Altavista en 1998
140 millions de documents indexés.
13 millions de requêtes par jour.
20 serveurs multiprocesseurs 64 bits Digital
Alpha.
(chiffres :
wikipedia.org
,
searchenginewatch.com
)
← Évolution des citations
dans les livres (via Google
Books).
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
22
Google en 2011
40 milliards de pages indexées.

Contre 8 milliards de pages indexées et 1 billion d'URLs
traitées en 2008
Trafic : 1 milliard de requêtes par jour sur Google.com.
Plus d'un million de serveurs (ordinateurs).

Pour faire quoi ?

Gérer (= collecter, indexer, mettre à jour, etc.) le volume
croissant de données.




Moteur de recherche mais aussi services annexes : Google Mail, Google
Docs, Picassa, etc.
Répondre aux requêtes des utilisateurs.
A comparer aux 6.000 serveurs détenus en 2003, et 400.000
en 2006 (wikipedia.org).
Soit ~2% des ordinateurs au monde (!).
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
23
Datacenters Google
Installation de Ghlin : plus de 250 millions
d'investissements locaux, et la mobilisation
de multiples métiers de l'ingénieur !
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
24
Pourquoi s'installer à Ghlin ?
Plus de 100ha de
zoning encore
disponibles.
Zoning bien fourni en
infrastructures.

Alimentation électrique,
fibre optique,...
Présence du canal en
bordure de zoning.

Important pour le
refroidissement !
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
25
Un challenge : le
refroidissement
Comment refroidir 100.000
ordinateurs fonctionnant
en parallèle ?
Par de la climatisation ?


Trop coûteux !
Solution ?

Le refroidissement par eau !
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
26
L'installation près de l'eau
Le datacenter est construit
le long d'un canal ou d'un
fleuve.

L'eau y est pompée, puis
épurée.
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
27
L'évacuation de la chaleur
Les ordinateurs (modèle conçu par Google) sont
installés dans des containers optimisant la
circulation et l'évacuation de la chaleur.
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
28
L'évacuation de la chaleur
La chaleur des machines est extraite dans le
datacenter via un système de refroidissement
(air → eau), puis...
L'eau chaude est refroidie à l'extérieur du
datacenter via un système de refroidissement
(eau → air).
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
29
La quête de l'efficacité
énergétique
But de ce dispositif ?


Améliorer l'efficacité
énergétique du datacenter.
C'est-à-dire abaisser son
PUE (Power Usage
Effectiveness).
Intérêt pour Google ?


Moins de CO² émis...
Et coûts d'exploitation plus
faibles !
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
30
Que peut-on faire d'autre ?
Optimiser les logiciels utilisés dans les datacenters.

Exemple : Facebook (30.000 ordinateurs en 2011) utilise une version
compilée du langage PHP (compilateur HipHop).
Développer des ordinateurs ayant besoin de moins
d'électricité et chauffant moins.

Exemple : Google utilise son propre modèle de serveur.
Placer au maximum les centres de données dans des pays
froids, et y concentrer la charge.

Exemple : Google a récemment construit un datacenter à Hamina en
Finlande (alimenté par l'eau de la mer).
Investir dans les énergies renouvelables.

Exemple : OVH (Roubaix, France ; premier hébergeur européen)
dispose d'éoliennes pour son datacenter de Strasbourg.
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
31
Et si vous expérimentiez par
vous-mêmes ?
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
32
Le Web en tant que plateforme
Évolution :


1995 : l'utilisateur d'Internet est un consommateur passif de
contenu.
2005 : l'utilisateur d'Internet peut être co-producteur de
contenus et de services (« Web 2.0 »).

Il est en contact permanent avec les autres utilisateurs


Il rédige des articles sur des journaux participatifs, poste des
commentaires sur les blogs, alimente l'encyclopédie
collaborative Wikipédia, etc.


→ Réseaux sociaux.
→ Co-création, « User Generated Contents », « crowdsourcing », etc.
Il peut développer de nouveaux services en s'aidant des
Interfaces de Programmation d'Applications (APIs) proposée par
certains sites Internet.

→ Co-création, « Web as a Platform », mashups, etc.
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
33
Application Programming
Interfaces ?
La face cachée des moteurs de recherche...
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
34
Bing API (1/2)
Que permet de faire Bing API ?

Récupérer, sous une forme structurée, les résultats
d'une requête par mot-clef.


Adresse : code.google.com, www.bing.com/toolbox/bingdeveloper/ .
Les opérateurs, classiques ou avancés, des moteurs de
recherche sont utilisables.



Exemples : « + », « - », « ip: », « loc: », etc.
Ces APIs fonctionnent généralement pour le Web (pages)
mais aussi pour les actualités et les images.
Concurrents : Google Custom Search, Yahoo! Boss, etc.
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
35
Bing API (2/2)
↑ Étapes :
- Récupérer les résultats d'une recherche par
mot-clef sur plusieurs moteurs de recherche.
- Les fusionner (les plus fréquents,
les plus populaires, etc.).
- Afficher un nouveau classement des résultats
(principe du « métamoteur »).
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
36
Twitter API (1/2)
Que permet de faire la Twitter API ?

Piloter la plate-forme sociale Twitter (dev.twitter.com).

Exemples :




Récupérer les tweets postés sur la « timeline » en fonction de
mots-clefs, d'une langue ou d'une zone géographique.
A condition de s'être authentifié :

Poster un tweet sur un compte Twitter depuis une
application extérieure.

Récupérer l'information relative à un profil
utilisateur.
...
Concurrent : Facebook API.
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
37
Twitter API (2/2)
← Étapes :
- Collecte des tweets par API.
- Identification des sujets (i.e. news citées dans
les tweets via une URL raccourcie)
les plus tweetés (ici : crash d'un avion).
- Sélection d'utilisateurs (pour chaque sujet).
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
38
HostIP.info API (1/2)
Que permet de faire l'API de Hostip.info ?

Récupérer la localisation associée à une adresse IP
(www.hostip.info).

L'adresse IP identifie « grossièrement » votre ordinateur.
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
39
HostIP.info API (2/2)
← Étapes :
- Localisation d'un visiteur ou d'un serveur
Web sur base de l'IP (ville et
pays) avec HostIP.
- Géolocalisation de la ville
(longitude et latitude).
- Affichage sur une carte Google Maps.
- Autre usage possible : affichage
de publicité locale sur un site Internet.
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
40
Google Maps API (1/2)
Que permet de faire Google Maps API ?


Géolocaliser une adresse postale.
Afficher une carte localisant un point d'intérêt à partir
de ses coordonnées GPS.
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
41
Google Maps API (2/2)
← Étapes :
- Pré-requis : base de données de terrils (RW).
- Conversion des coordonnées géographiques
(Lambert → WGS84).
- Récupération des altitudes via l'U.S.
Geological Survey (API).
- Affichage des terrils sur Google Maps.
- Exemples d'usage : trouver des terrils
exploitables pour les schistes rouges
(gravier décoratif), trouver des terrils
hauts et chauves pour la photographie
de panoramas,...
↓
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
42
Pour passer à l'action (1/2)
Programmable Web
(www.programmableweb.com).

Répertoire d'APIs (plus de
5000) et de « mashups »
(plus de 6000).
(mashups = combinaison d'APIs)
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
43
Pour passer à l'action (2/2)
Il y a les APIs mais aussi :

Les logiciels Open Source
(logiciels librement utilisables
et modifiables).


Exemple : Apache Lucene
(indexeur, permettant la création
de moteurs de recherche
personnalisés).
L'Open Data (bases de données
téléchargeables et
réutilisables).

Exemple : DBPedia, la version
structurée (Web sémantique) de
l'éncyclopédie en ligne
Wikipédia.
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
44
Conclusions
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
45
Conclusions (1/2)
Trois phases dans l'histoire des moteurs de
recherche :
 La collecte manuelle (annuaires).
 L'indexation automatique de l'information
(moteurs de recherche « plein texte »).
 La mise en œuvre progressive de la recherche
sociale.
Les outils de recherche sont nombreux, parfois
éphémères, et proposent des fonctionnalités de
recherches souvent méconnues.
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
46
Conclusions (2/2)
La mise en œuvre d'un moteur de recherche mondial suppose
l'exploitation d'infrastructures importantes et énergivores.
 Ces infrastructures mobilisent plusieurs métiers de l'ingénieur :
 production locale d'électricité,
 création d'ordinateurs économes,
 optimisation des programmes informatiques,
 conception de systèmes de refroidissement efficaces,
 ...
Les moteurs de recherche mettent souvent à disposition des interfaces
de programmation d'applications.
 Elles vous permettent, moyennant quelques compétences
informatiques, d'expérimenter leur fonctionnement.
 Elles permettent de répondre à des besoins diversifiés (pour des
métiers parfois éloignés de l'informatique).
Et vous, quand commencez-vous ;-) ?
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
47
Quizz
Combien de serveurs étaient utilisés par le moteur de recherche
Altavista en 1998 ?

Réponses : 20, 30 mille ou 100 mille ?
Quel nombre d'utilisateurs inscrits le réseau social Facebook
devrait-il atteindre à l'été 2012 ?

Réponses : 100 mille, 100 millions ou 1 milliard ?
Combien d'URLs le moteur de recherche Google traitait-t-il
officiellement en 2008 ?

Réponses : 140 millions, 8 milliards ou 1 billion ?
Comment les datacenters Google sont-ils refroidis ?

Réponses : Par évacuation naturelle de la chaleur (convection), avec des
climatiseurs, avec de l'eau du robinet ou avec de l'eau « sale » ?
Combien d'APIs publiques pouvez-vous utiliser sur Internet ?

Réponses : plus de 100, plus de 5 mille, ou plus de 100 mille ?
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
48
Merci pour votre attention.
Des questions?
Université de Mons
Dr Ir R. Viseur
|
FPMs : Service d'Économie et de Management de l'Innovation
49