Le moteur de recherche sémantique d`Orange
Transcription
Le moteur de recherche sémantique d`Orange
Institut de la Francophonie pour l’Informatique Rapport de synthèse ONTOLOGIE ET WEB SEMANTIQUE Le moteur de recherche sémantique d’Orange Réalisé par: RAJAONARIVO Hiary Landy KASEREKA KABUNGA Selain Hanoï, Mars 2013 TABLE DES MATIERES TABLE DES MATIERES ..................................................................................................................... 2 1. INTRODUCTION .......................................................................................................................... 3 2. PROBLEMATIQUE ...................................................................................................................... 3 3. DES MOTEURS DE RECHERCHE CLASSIQUES AUX MOTEURS DE RECHERCHE SEMANTIQUES .................................................................................................................................... 3 4. Recherche plein texte .................................................................................................................. 3 Recherche structurée ................................................................................................................... 3 Fonctionnement général d’un moteur de recherche .................................................................... 4 LE MOTEUR DE RECHERCHE D’ORANGE ............................................................................ 5 5. COMPARAISON DU MOTEUR DE RECHERCHE D’ORANGE (www.lemoteur.fr) AU MOTEUR DE RECHERCHE GOOGLE (www.google.fr)................................................................... 6 5.1. Recherches sur differents moteurs de recherche ..................................................................... 6 5.2. Constants, avantages et inconvenants ..................................................................................... 7 6. CONCLUSION ET PERSPECTIVE ............................................................................................. 8 7. REFERENCES ............................................................................................................................... 8 2 1. INTRODUCTION La majorité des moteurs de recherche courant est basée sur la comparaison des mots clés à base de syntaxe. Ces techniques donnent des résultats de recherche qui ne sont pas bons: beaucoup des résultats retournés non concernés. Dans ces conditions la recherche d’informations pertinentes (résultats) reste un défi à relever. Une nouvelle tendance des moteurs de recherche sur le web est d’enrichir leurs résultats en répondant directement aux questions posées par les utilisateurs. Dans ce contexte, le besoin d'un moteur de recherche à base de sémantique se fait naturellement sentir. Dans ce petit rapport nous présentons les notions de base sur les moteurs de recherche classiques, l’algorithme d’indexation, le moteur de recherche d’orange, les avantages et inconvénients des moteurs de recherche sémantiques. Nous allons clôturer notre propos par une étude comparative du moteur de recherche d’Orange et du moteur de recherche Google. 2. PROBLEMATIQUE Plusieurs problèmes peuvent être répertoriés notamment : Limitation possibles de la requête initiale (générique vs. spécifique, sigles vs. mots complets,...) ; Difficulté de trier les réponses pertinentes ; Ambigüité de la requête initiale ou erreur de frappe de l'utilisateur ; Complexité au niveau de la transformation de langage naturel en une requête formelle compréhensible par le système de gestion de base de données utilisé ; Complexité au niveau de la formulation des requêtes correspondant aux réponses que l’on peut produire. 3. DES MOTEURS DE RECHERCHE CLASSIQUES AUX MOTEURS DE RECHERCHE SEMANTIQUES Les moteurs de recherche les plus simples se contentent de requêtes booléennes pour comparer les mots d'une requête avec ceux des documents, mais ces types des moteurs de recherche ont des limites sur des corpus volumineux. Les moteurs les plus évoluées sont basés sur le paradigme du modèle vectoriel: ils utilisent la formule Term Frequency - Inverse Document Frequency (TF - IDF) pour mettre en relation le poids des mots dans une requête avec ceux contenus dans les documents [1]. Nous pouvons distinguer deux stratégies de recherche : Recherche plein texte Technique de recherche dans un document électronique ou une base de données textuels, qui consiste pour le moteur de recherche à examiner tous les mots de chaque document enregistré et à essayer de les faire correspondre à ceux fournis par l'utilisateur. Recherche structurée Technique de recherche sur des informations d’un domaine donné bien hiérarchisé. Ci-dessous une figure qui présentation des domaines sur les outils de recherche 3 Figure 1. Présentation des domaines sur les outils de recherche. Source [2] Fonctionnement général d’un moteur de recherche Le fonctionnement d’un moteur de recherche peut être résumé en ces trois points : – – – L'exploration : les sites web sont explorés par un robot d'indexation (récursivement). L’indexation: extraire les mots considérés comme significatifs La recherche: correspond à la partie requêtes du moteur, qui restitue les résultats Plusieurs algorithmes sont utilisés pour fournir ce fonctionnement décrit ci-dessus, dans le cadre de ce travail nous présentons l’algorithme d’indexation [2]: Entée: URL Sortie: Table d’index Début 1. Construire une table d’index pour les mots clés, associer ces mots a l’URL chargé, stocker le nombre de fois qu’un mot apparaît sur une page. 2. trouver le premier lien sur cette page en cours, télécharger la page où ce lien pointe. 3. Après le téléchargement de cette page, démarrez la lecture de chaque mot sur cette page, et de les ajouter tous à la table d'index. 4. Rentrer 2, répéter jusqu’ace qu’il y ai plus des liens non visités. Fin Le classement se base sur le nombre de fois que le mot est trouvé! L’algorithme PageRank est aussi utilisé pour le classement des pages. 4 4. LE MOTEUR DE RECHERCHE D’ORANGE Le moteur sémantique d’Orange est de type question – réponse [1] [2] qui est. Ce moteur a été développé par Orange Labs. Le moteur de recherche d’Orange reçoit en entrée une question et retourne une repose à la question en premier et une liste des résultats correspondant aux demandes. Notons que ce moteur de recherche sémantique ne peut jusque là répondre qu’aux questions sur la géographie et que les résultats sont tirés du site web de wikipedia. Ci-dessous l’architecture du moteur de recherche d’Orange : Figure 2. Architecture du moteur d’Orange. Source [1] Cet outil utilise la plate forme TiLT [1] pour répondre aux besoins en matière d’accès à l’information : • • • En fonction d’une stratégie des données linguistiques, du texte à analyser et de la configuration des modules de la plate-forme, un module nommé stratège appelle les différents modules pour un traitement spécifique. Les résultats de chaque module sont entreposés dans un graphe d’analyse (treillis). En cas d’ambiguïtés, une décision sera prise. Un contrôle multicritère exploite des critères associés aux résultats concurrents Figure 3. Architecture de LiTL. Source [1] 5 5. COMPARAISON DU MOTEUR DE RECHERCHE D’ORANGE (www.lemoteur.fr) AU MOTEUR DE RECHERCHE GOOGLE (www.google.fr). 5.1. Recherches sur differents moteurs de recherche Afin de bien monter les différences majeures entre un moteur de recherche sémantique et un moteur de recherche classique (a base de sémantique), nous avons choisi le moteur de GOOGLE. 1. MOTEUR 1 (www.google.fr): Nous avons besoin de connaitre le nombre exact de la population de Hanoi, sur GOOGLE 1. MOTEUR 2 (www.lemoteur.fr): Même critères de recherche sur le moteur sémantique d’Orange 6 2. MOTEUR 1 (www.google.fr): Nous voulons connaitre la capitale de Vietnam sur GOOGLE, nous constatons que ce moteur s’appui sur la syntaxe et cherche donc tous les mots correspondants aux mots saisis par l’utilisateur. Par conséquent plusieurs résultats inutiles sont donc affichés en sortie. 2. MOTEUR 2 (www.lemoteur.fr): Même requête sur le moteur de recherche d’Orange. Ce moteur se base alors sur le sens des termes et donne une réponse précise (première partie) en suite se comporte commeparties 5.2. Constants, avantages et inconvenants Nous voyons que le moteur de recherche d’Orange nous permet de gagner en temps dans nos recherches car il nous renvoi directement la réponse à la question posée. 7 Comme avantages: L’utilisateur n’est plus contraint d'effectuer des recherches par mots clés. L’utilisateur peut directement trouver la réponse à sa question Modifier la requête de l'usager en proposant des mots voisins de ceux employés initialement Comme inconvénient: "Query drift" : déviation par rapport à l’intention initiale de l’usager 6. CONCLUSION ET PERSPECTIVE Nous sommes à la fin de ce petit rapport qui avait pour objectif de présenter le moteur de recherche sémantique d’Orange. Pour une meilleur présentation nous avons fait une étude comparative de ce moteur de recherche avec le moteur de recherche GOOGLE. Nous avons donc constate que les résultats fournis par le moteur de recherche d’Orange sont satisfaisants mais Jusque là les informations disponibles pour l’aspect question - réponse concernent seulement la géographie, les résultats sont tirés du site de Wikipedia; Nous devons aussi souligner que jusqu’à présent il n’existe pas encore un site web totalement sémantique, des nombreux algorithmes ou méthodes de travail devront être mis au point avant de pouvoir créer un système de recherche d'information véritablement sémantique. Dans le cadre des perspectives quelques points peuvent être signalés [1] : L’utilisation de l'interprétation de requêtes en amont (désambiguïsation, identification des locutions); La prise en charge simultanée des plusieurs langues; La prise en charge de la correction d’orthographe. 7. REFERENCES [1] Johannes Heinecke et Al., TiLT : plate-forme pour le traitement automatique des langues naturelles, TAL. Volume 49 – no 2, pages 17 à 41, Paris, 2008. [2] Jean-Léon Bouraoui et Al., Exparnsion sémantique de requêtes, Orange Labs, mars 2010, Paris. [3] www.laborange.fr 8