Google en profondeur

Transcription

Google en profondeur
Google
en profondeur
Jean-Pierre LARDY
UNIVERSITE CLAUDE BERNARD - URFIST de LYON
http://urfist.univ-lyon1.fr
et
http://dadi.enssib.fr
maj : mars 2010
http://www.google.com et l’interface française http://www.google.fr
1 - Historique
Google, moteur de recherche fondé en septembre 1998, est issu de travaux de deux étudiants
de l'Université de Stanford.
Les revenus financiers de Google reposent sur la vente de mots clés aux enchères. Chaque
recherche portant sur des mots achetés affiche les liens des sites de ceux qui ont participé aux
enchères dans la partie des liens commerciaux. Quand un utilisateur clique sur un de ces liens,
la société concernée doit verser une certaine somme à Google.
Ce système génère environ 95% de ses revenus.
2 - La base de données
Google possède une base de plusieurs milliards de pages. Google n’indique plus la taille de
son index. L’infrastructure des données de Google est massive et repartie dans le monde
entier. Il existe plus d’une trentaine de centres serveurs : 19 aux États-Unis, 12 en Europe, 3
en Asie et 1 en Russie et en Amérique du Sud.
Depuis début 2010, Google exécute la recherche en temps réel au monde entier après l’avoir
réservée aux anglophones. Les dernières actualités et derniers statuts pertinents apparaitront
ainsi dans les résultats de recherche dès leur publication même s'ils n'étaient pas encore en
ligne au moment du lancement de la requête. Pour ce faire, Google indique surveiller chaque
jour plus d'un milliard de documents et traiter des centaines de millions de modifications en
temps réel.
3 - Interrogation du web
Interrogation simple
L'interface simple se distingue des pages d'accueil des portails où il est souvent difficile de s'y
retrouver. La question est une suite de termes séparés par un espace. L'opérateur par défaut est
le ET et on dispose :
- des guillemets pour rechercher sur une expression
- de l’opérateur OR (ou)
- du signe - correspondant à l'opérateur SAUF
LARDY JP
Il n’y a pas de troncature mais Google utilise une technique dite lemmatisation pour retrouver
les variations finales des mots (ainsi Google retrouve CHEVAUX à partir de CHEVAL).
Pensez aux synonymes. Google invite à affiner une recherche en ajoutant d'autres termes à la
requête.
Il n'est pas possible de rechercher dans un sous ensemble de la base de données.
Interrogation avancée
La recherche avancée ajoute des limites comme la langue. Cependant la règle comme pour
tout moteur de recherche sur le web est d'entrer les termes de sa recherche dans la langue
souhaitée. Google ne tient pas compte de la casse des termes et recherche le mot tel qu’il est
saisi : pensez à interroger sans et avec accent.
Il est possible de préciser la position d'un terme dans la page :
• soit dans tout le Texte, par défaut
• soit dans le Titre, pour réduire le nombre de résultats
Exemple : Rechercher des documents de synthèse sur les causes des accidents d’avions aux
USA
intitle:aviation accidents OR accident site:gov OR site:edu filetype:pdf OR filetypr:doc 2003
OR 2002 OR 2001
site:gov limite la recherché aux serveurs des services de l’état américain
site:edu limite la recherché aux serveurs des services éducatifs américains
filetype:pdf ou filetype:doc limite la recherche aux documents pdf ou word
Interrogation multilingue
Google vient de lancer une nouvelle interface de traduction qui permet cette fois une
recherche multilingue : Google Translate Search Results.
Recherche dans les actualités
Google indexe plusieurs centaines de sources francophones d’actualités tous les quarts
d’heures. Ce service gratuit permet donc de se tenir informé. Cependant ce service suscite la
colère des médias concernés car Google « pioche » l’information sans autorisation.
Recherche d’images : bouton Images
Le web regorge d’images de toutes sortes : dessins, photographies, illustrations
diverses. Diverses options permettent de préciser taille, type, couleur …
4 - Résultats
Les résultats classés par popularité sont regroupés par serveur et par nature selon les cas :
• Images
• Vidéos
• Actualités
• Pages web
Google appelle cela la recherche globale.
Le bouton En cache permet de charger la page réellement indexée et non la page actuelle. Le
lien « I feel lucky » charge automatiquement la première page. La technique de tri donne de
très bons résultats pour rechercher des sites références mais pénalise les pages récentes.
LARDY JP
5 - Compléments
Traduction automatisée
http://translate.google.com
Google a lancé en mai 2007 son nouvel outil de traduction statistique pour plusieurs paires de
langues. Il remplace la traduction effectuée par un logiciel classique.
La plupart des systèmes de traduction automatique vendus actuellement dans le commerce ont
été développés à l'aide d'une méthode basée sur des règles précises nécessitant beaucoup de
travail de la part des linguistes, notamment pour définir le vocabulaire et la grammaire.
Le système Google adopte une méthode différente : Google introduit des milliards de mots
dans l'ordinateur provenant de textes monolingues dans la langue cible et de textes mettant en
parallèle les deux langues. Ces derniers sont créés à partir d'échantillons de traductions
réalisées par des traducteurs professionnels. Google applique ensuite des techniques
d'apprentissage statistique pour créer un modèle de traduction.
Cartographie : Google maps
http://maps.google.com
Lancé en 2004 aux Etats-Unis et en 2006 pour la France, Google maps permet de zoomer
jusqu'à l'échelle d'une rue. Trois vues sont disponibles :
• un plan classique, avec nom des rues, quartier, villes
• une en image satellite
• une vue en relief
Il est possible de rechercher par noms de lieux : pays, villes, rues …
LARDY JP

Documents pareils