Les Moteurs de recherche

Transcription

Les Moteurs de recherche
Analyse de Serge COURRIER
[email protected]
Les Moteurs de recherche
I2D - Information, données & documents
vol. 53, n°3, septembre 2016
©ADBS
Paris : La Découverte, 2016. – 128 p. – (Repères). – ISBN 978-2-7071-8495-5 : 10 €
Guillaume Sire
UN OUVRAGE TRÈS RICHE EN INFORMATIONS UTILES
Résumer en 128 pages un territoire aussi large que celui des moteurs de recherche est une entreprise compliquée. Guillaume Sire, maître de conférences en Sciences de l'information et de la communication à l’université
Paris II Panthéon-Assas, connaît néanmoins très bien le domaine puisqu’il en a fait le sujet de sa thèse soutenue
en novembre 2013 : La Production journalistique et Google : chercher à ce que l’information soit trouvée. Dans
son livre Les Moteurs de recherche, il s’emploie à traiter aussi bien les aspects historiques des moteurs de recherche web que les aspects sociotechniques, légaux, économiques, normatifs… et alternatifs. Sur tous ces
aspects, le livre se révèle très riche en informations utiles, même si elles sont fortement tournées vers l’acteur
dominant : Google. Une bonne impression générale, que viennent malheureusement obscurcir quelques oublis
ou inexactitudes.
Généalogie. Le chapitre « Généalogie » est un modèle du genre. Dense et précis, il retrace les étapes de la mécanisation puis de
l’automatisation de la recherche d’informations en passant par l’émergence des sciences de la recherche d’information (SRI). L’auteur
y évoque par, exemple, les apports d’Emmanuel Goldberg qui breveta dans les années 20 une machine capable de consulter mécaniquement un catalogue de documents enregistrés sur microfilms. Rappel également des travaux de Peter Luhn dans les années 50
autour de l’analyse statistique des textes. L’explosion du Web en 1993 a vu émerger quelques noms très évocateurs pour les pionniers de la recherche via Internet : Infoseek, Lycos, Webcrawler, etc. Nostalgie, quand tu nous tiens ! Et puis vient la révolution Google
qui se différencia de ses concurrents de l’époque grâce à un algorithme de classement révolutionnaire : PageRank.
Description sociotechnique. Quand l’auteur se lance dans l’approche sociotechnique, c’est un peu plus compliqué, malgré une
somme d’informations très intéressantes. Il oublie, par exemple, un élément capital du fonctionnement des moteurs de recherche :
l’index inversé. Quand le moteur indexe le contenu de chaque page, il doit alimenter un « index inversé » qui met en regard de mots
les pages Web qui les contiennent. En gros, pour fournir les pages qui contiennent « marée » et « noire », le moteur croise la liste des
pages qui contiennent « marée » avec celles qui contiennent « noire »… et propose les pages communes aux deux listes. Un processus
décrit notamment dans l’article de recherche The Anatomy of a Large-Scale Hypertextual Web Search Engine, présenté en 1998 par
les deux futurs fondateurs de Google : Serguei Brin et Larry Page. Autre exemple, l’auteur laisse entendre que les clics effectués depuis les réseaux et médias sociaux « peuvent » influer sur le classement des pages. S’ils le peuvent, le font-ils ? En tout cas, pas
Google, qui a répondu clairement, et à plusieurs reprises (par exemple dans un article de SEO RoundTable), que les « signaux sociaux » n’influaient pas directement sur le classement. Quelques petites fautes typographiques seront sans doute corrigées par les
utilisateurs avertis de Google. La requête « Smartphone-iPhone » (sans les guillemets) ne supprime pas de la recherche « Smartphone », toutes les pages contenant « iPhone ». « Smartphone -iPhone », oui.
Modèles et stratégie économiques. Le chapitre détaille avec précision l’histoire des modèles économiques empruntés par les moteurs de recherche… jusqu’à la montée en puissance de Google. Le moteur de recherche américain a en fait appliqué à merveille des
idées inventées par d’autres. Et l’auteur de conter alors l’histoire de Bill Gross, créateur de GoTo, qui introduisit non seulement l’idée
des liens sponsorisés mais aussi celle de faire payer les annonceurs au nombre de clics enregistrés sur ces publicités : bref, les deux
éléments majeurs de l’actuel Google AdWords. Quelques petites erreurs se glissent néanmoins dans ce chapitre, comme par exemple
la date de création du moteur de Microsoft. Si Bing est bien apparu en 2009, Microsoft avait lancé MSN Search en 1998 (basé sur
Inktomi), Windows Live Search en 2006 puis Live Search en 2007. Dommage aussi d’avoir oublié qu’en rachetant Overture en 2004,
Yahoo! récupéra Altavista, avant de le fermer en 2013.
Droits et devoirs vis-à-vis du contenu. Le chapitre décrit largement les enjeux juridiques liés aux moteurs de recherche. Les différents
points de vue, français, européen, américains conduisirent à bien des tensions et des affrontements. Si les principes sont bien expliqués, nous aurions aimé que la question du Safe Harbour, censé réguler les échanges de données personnelles entre l’Europe et les
États-Unis, soit plus clairement expliquée. Le temps était sans doute trop court avant la sortie du livre pour prendre en compte également la transition vers le Privacy Shield après l’échec du Safe Harbour. On regrette également l’absence de mention du « droit à
l’oubli », instauré par la Cour de justice de l'Union européenne en 2014.
Pouvoir normatif. Poursuivant son exploration à 360° du monde des moteurs de recherche, l’auteur aborde de manière très intéressante, et notamment sous l’angle normatif, la question de l’optimisation des contenus en vue d’être bien classé (SEO). À force de faire
des efforts pour que les pages de nos sites se retrouvent dans les toutes premières pages de réponse de Google, on en oublierait
presque que ces efforts nous imposent des normes d’écriture. Guillaume Sire nous plonge également dans le monde des spécialistes
du référencement se partageant en deux familles : les « chapeaux blancs » ou « White Hats » (les « gentils » qui respectent les préconisations des moteurs) et les « chapeaux noirs » ou « Black Hats » (les « méchants » qui essayent de forcer la main aux moteurs de
recherche pour être bien classés ou se vengent d’opposants à coup de « Google bombing »).
Un traitement de l’information controversée. Après les créateurs de sites web, l’universitaire se penche très judicieusement sur les
utilisateurs que nous sommes en pointant du doigt par exemple le risque de nous retrouver enfermés dans une bulle informationnelle
et se voir confrontés à une réalité filtrée. Il soulève ainsi la question de la neutralité du moteur face aux informations et de sa capacité
à nous donner accès à des opinions plurielles.
Alternatives et perspectives. Dans son dernier chapitre, Guillaume Sire traite des alternatives à Google, à l’heure ou le géant américain dépasse les 90 % de parts de marché en France. Moteurs de recherche ? Métamoteurs ? Moteurs sans publicité ou soucieux de
respecter la vie privée de son utilisateur… le choix est large. L’auteur s’intéresse aussi aux perspectives de développement en direction de la sémantique et du multimédia. ■