Google en profondeur
Transcription
Google en profondeur
Google en profondeur Jean-Pierre LARDY UNIVERSITE CLAUDE BERNARD - URFIST de LYON http://urfist.univ-lyon1.fr et http://dadi.enssib.fr maj : mars 2010 http://www.google.com et l’interface française http://www.google.fr 1 - Historique Google, moteur de recherche fondé en septembre 1998, est issu de travaux de deux étudiants de l'Université de Stanford. Les revenus financiers de Google reposent sur la vente de mots clés aux enchères. Chaque recherche portant sur des mots achetés affiche les liens des sites de ceux qui ont participé aux enchères dans la partie des liens commerciaux. Quand un utilisateur clique sur un de ces liens, la société concernée doit verser une certaine somme à Google. Ce système génère environ 95% de ses revenus. 2 - La base de données Google possède une base de plusieurs milliards de pages. Google n’indique plus la taille de son index. L’infrastructure des données de Google est massive et repartie dans le monde entier. Il existe plus d’une trentaine de centres serveurs : 19 aux États-Unis, 12 en Europe, 3 en Asie et 1 en Russie et en Amérique du Sud. Depuis début 2010, Google exécute la recherche en temps réel au monde entier après l’avoir réservée aux anglophones. Les dernières actualités et derniers statuts pertinents apparaitront ainsi dans les résultats de recherche dès leur publication même s'ils n'étaient pas encore en ligne au moment du lancement de la requête. Pour ce faire, Google indique surveiller chaque jour plus d'un milliard de documents et traiter des centaines de millions de modifications en temps réel. 3 - Interrogation du web Interrogation simple L'interface simple se distingue des pages d'accueil des portails où il est souvent difficile de s'y retrouver. La question est une suite de termes séparés par un espace. L'opérateur par défaut est le ET et on dispose : - des guillemets pour rechercher sur une expression - de l’opérateur OR (ou) - du signe - correspondant à l'opérateur SAUF LARDY JP Il n’y a pas de troncature mais Google utilise une technique dite lemmatisation pour retrouver les variations finales des mots (ainsi Google retrouve CHEVAUX à partir de CHEVAL). Pensez aux synonymes. Google invite à affiner une recherche en ajoutant d'autres termes à la requête. Il n'est pas possible de rechercher dans un sous ensemble de la base de données. Interrogation avancée La recherche avancée ajoute des limites comme la langue. Cependant la règle comme pour tout moteur de recherche sur le web est d'entrer les termes de sa recherche dans la langue souhaitée. Google ne tient pas compte de la casse des termes et recherche le mot tel qu’il est saisi : pensez à interroger sans et avec accent. Il est possible de préciser la position d'un terme dans la page : • soit dans tout le Texte, par défaut • soit dans le Titre, pour réduire le nombre de résultats Exemple : Rechercher des documents de synthèse sur les causes des accidents d’avions aux USA intitle:aviation accidents OR accident site:gov OR site:edu filetype:pdf OR filetypr:doc 2003 OR 2002 OR 2001 site:gov limite la recherché aux serveurs des services de l’état américain site:edu limite la recherché aux serveurs des services éducatifs américains filetype:pdf ou filetype:doc limite la recherche aux documents pdf ou word Interrogation multilingue Google vient de lancer une nouvelle interface de traduction qui permet cette fois une recherche multilingue : Google Translate Search Results. Recherche dans les actualités Google indexe plusieurs centaines de sources francophones d’actualités tous les quarts d’heures. Ce service gratuit permet donc de se tenir informé. Cependant ce service suscite la colère des médias concernés car Google « pioche » l’information sans autorisation. Recherche d’images : bouton Images Le web regorge d’images de toutes sortes : dessins, photographies, illustrations diverses. Diverses options permettent de préciser taille, type, couleur … 4 - Résultats Les résultats classés par popularité sont regroupés par serveur et par nature selon les cas : • Images • Vidéos • Actualités • Pages web Google appelle cela la recherche globale. Le bouton En cache permet de charger la page réellement indexée et non la page actuelle. Le lien « I feel lucky » charge automatiquement la première page. La technique de tri donne de très bons résultats pour rechercher des sites références mais pénalise les pages récentes. LARDY JP 5 - Compléments Traduction automatisée http://translate.google.com Google a lancé en mai 2007 son nouvel outil de traduction statistique pour plusieurs paires de langues. Il remplace la traduction effectuée par un logiciel classique. La plupart des systèmes de traduction automatique vendus actuellement dans le commerce ont été développés à l'aide d'une méthode basée sur des règles précises nécessitant beaucoup de travail de la part des linguistes, notamment pour définir le vocabulaire et la grammaire. Le système Google adopte une méthode différente : Google introduit des milliards de mots dans l'ordinateur provenant de textes monolingues dans la langue cible et de textes mettant en parallèle les deux langues. Ces derniers sont créés à partir d'échantillons de traductions réalisées par des traducteurs professionnels. Google applique ensuite des techniques d'apprentissage statistique pour créer un modèle de traduction. Cartographie : Google maps http://maps.google.com Lancé en 2004 aux Etats-Unis et en 2006 pour la France, Google maps permet de zoomer jusqu'à l'échelle d'une rue. Trois vues sont disponibles : • un plan classique, avec nom des rues, quartier, villes • une en image satellite • une vue en relief Il est possible de rechercher par noms de lieux : pays, villes, rues … LARDY JP