Le moteur de recherche sémantique d`Orange

Transcription

Le moteur de recherche sémantique d`Orange
Institut de la Francophonie pour l’Informatique
Rapport de synthèse
ONTOLOGIE ET WEB SEMANTIQUE
Le moteur de recherche
sémantique d’Orange
Réalisé par:
RAJAONARIVO Hiary Landy
KASEREKA KABUNGA Selain
Hanoï, Mars 2013
TABLE DES MATIERES
TABLE DES MATIERES ..................................................................................................................... 2
1.
INTRODUCTION .......................................................................................................................... 3
2.
PROBLEMATIQUE ...................................................................................................................... 3
3. DES MOTEURS DE RECHERCHE CLASSIQUES AUX MOTEURS DE RECHERCHE
SEMANTIQUES .................................................................................................................................... 3
4.

Recherche plein texte .................................................................................................................. 3

Recherche structurée ................................................................................................................... 3

Fonctionnement général d’un moteur de recherche .................................................................... 4
LE MOTEUR DE RECHERCHE D’ORANGE ............................................................................ 5
5. COMPARAISON DU MOTEUR DE RECHERCHE D’ORANGE (www.lemoteur.fr) AU
MOTEUR DE RECHERCHE GOOGLE (www.google.fr)................................................................... 6
5.1.
Recherches sur differents moteurs de recherche ..................................................................... 6
5.2.
Constants, avantages et inconvenants ..................................................................................... 7
6.
CONCLUSION ET PERSPECTIVE ............................................................................................. 8
7.
REFERENCES ............................................................................................................................... 8
2
1. INTRODUCTION
La majorité des moteurs de recherche courant est basée sur la comparaison des mots clés à base de syntaxe.
Ces techniques donnent des résultats de recherche qui ne sont pas bons: beaucoup des résultats retournés non
concernés. Dans ces conditions la recherche d’informations pertinentes (résultats) reste un défi à relever.
Une nouvelle tendance des moteurs de recherche sur le web est d’enrichir leurs résultats en répondant
directement aux questions posées par les utilisateurs. Dans ce contexte, le besoin d'un moteur de recherche à
base de sémantique se fait naturellement sentir.
Dans ce petit rapport nous présentons les notions de base sur les moteurs de recherche classiques, l’algorithme
d’indexation, le moteur de recherche d’orange, les avantages et inconvénients des moteurs de recherche
sémantiques. Nous allons clôturer notre propos par une étude comparative du moteur de recherche d’Orange et
du moteur de recherche Google.
2.
PROBLEMATIQUE
Plusieurs problèmes peuvent être répertoriés notamment :





Limitation possibles de la requête initiale (générique vs. spécifique, sigles vs. mots complets,...) ;
Difficulté de trier les réponses pertinentes ;
Ambigüité de la requête initiale ou erreur de frappe de l'utilisateur ;
Complexité au niveau de la transformation de langage naturel en une requête formelle compréhensible
par le système de gestion de base de données utilisé ;
Complexité au niveau de la formulation des requêtes correspondant aux réponses que l’on peut
produire.
3. DES MOTEURS DE RECHERCHE CLASSIQUES AUX MOTEURS DE RECHERCHE
SEMANTIQUES
Les moteurs de recherche les plus simples se contentent de requêtes booléennes pour comparer les mots
d'une requête avec ceux des documents, mais ces types des moteurs de recherche ont des limites sur des
corpus volumineux. Les moteurs les plus évoluées sont basés sur le paradigme du modèle vectoriel: ils
utilisent la formule Term Frequency - Inverse Document Frequency (TF - IDF) pour mettre en relation le poids
des mots dans une requête avec ceux contenus dans les documents [1].
Nous pouvons distinguer deux stratégies de recherche :

Recherche plein texte
Technique de recherche dans un document électronique ou une base de données textuels, qui consiste pour le
moteur de recherche à examiner tous les mots de chaque document enregistré et à essayer de les faire
correspondre à ceux fournis par l'utilisateur.

Recherche structurée
Technique de recherche sur des informations d’un domaine donné bien hiérarchisé.
Ci-dessous une figure qui présentation des domaines sur les outils de recherche
3
Figure 1. Présentation des domaines sur les outils de recherche. Source [2]

Fonctionnement général d’un moteur de recherche
Le fonctionnement d’un moteur de recherche peut être résumé en ces trois points :
–
–
–
L'exploration : les sites web sont explorés par un robot d'indexation (récursivement).
L’indexation: extraire les mots considérés comme significatifs
La recherche: correspond à la partie requêtes du moteur, qui restitue les résultats
Plusieurs algorithmes sont utilisés pour fournir ce fonctionnement décrit ci-dessus, dans le cadre de ce travail
nous présentons l’algorithme d’indexation [2]:
Entée: URL
Sortie: Table d’index
Début
1. Construire une table d’index pour les mots clés, associer ces mots a l’URL chargé, stocker le nombre
de fois qu’un mot apparaît sur une page.
2. trouver le premier lien sur cette page en cours, télécharger la page où ce lien pointe.
3. Après le téléchargement de cette page, démarrez la lecture de chaque mot sur cette page, et de les
ajouter tous à la table d'index.
4. Rentrer 2, répéter jusqu’ace qu’il y ai plus des liens non visités.
Fin
Le classement se base sur le nombre de fois que le mot est trouvé! L’algorithme PageRank est aussi utilisé
pour le classement des pages.
4
4. LE MOTEUR DE RECHERCHE D’ORANGE
Le moteur sémantique d’Orange est de type question – réponse [1] [2] qui est. Ce moteur a été développé par
Orange Labs. Le moteur de recherche d’Orange reçoit en entrée une question et retourne une repose à la
question en premier et une liste des résultats correspondant aux demandes.
Notons que ce moteur de recherche sémantique ne peut jusque là répondre qu’aux questions sur la
géographie et que les résultats sont tirés du site web de wikipedia. Ci-dessous l’architecture du moteur de
recherche d’Orange :
Figure 2. Architecture du moteur d’Orange. Source [1]
Cet outil utilise la plate forme TiLT [1] pour répondre aux besoins en matière d’accès à l’information :
•
•
•
En fonction d’une stratégie des données linguistiques, du texte à analyser et de la configuration des
modules de la plate-forme, un module nommé stratège appelle les différents modules pour un
traitement spécifique.
Les résultats de chaque module sont entreposés dans un graphe d’analyse (treillis).
En cas d’ambiguïtés, une décision sera prise. Un contrôle multicritère exploite des critères associés
aux résultats concurrents
Figure 3. Architecture de LiTL. Source [1]
5
5.
COMPARAISON DU MOTEUR DE RECHERCHE D’ORANGE (www.lemoteur.fr) AU MOTEUR
DE RECHERCHE GOOGLE (www.google.fr).
5.1.
Recherches sur differents moteurs de recherche
Afin de bien monter les différences majeures entre un moteur de recherche sémantique et un moteur de
recherche classique (a base de sémantique), nous avons choisi le moteur de GOOGLE.
1. MOTEUR 1 (www.google.fr): Nous avons besoin de connaitre le nombre exact de la population de
Hanoi, sur GOOGLE
1. MOTEUR 2 (www.lemoteur.fr): Même critères de recherche sur le moteur sémantique d’Orange
6
2. MOTEUR 1 (www.google.fr): Nous voulons connaitre la capitale de Vietnam sur GOOGLE,
nous constatons que ce moteur s’appui sur la syntaxe et cherche donc tous les mots correspondants
aux mots saisis par l’utilisateur. Par conséquent plusieurs résultats inutiles sont donc affichés en sortie.
2. MOTEUR 2 (www.lemoteur.fr): Même requête sur le moteur de recherche d’Orange. Ce moteur se
base alors sur le sens des termes et donne une réponse précise (première partie) en suite se comporte
commeparties
5.2.
Constants, avantages et inconvenants
Nous voyons que le moteur de recherche d’Orange nous permet de gagner en temps dans nos recherches car il
nous renvoi directement la réponse à la question posée.
7
Comme avantages:
 L’utilisateur n’est plus contraint d'effectuer des recherches par mots clés.
 L’utilisateur peut directement trouver la réponse à sa question
 Modifier la requête de l'usager en proposant des mots voisins de ceux employés initialement
Comme inconvénient:
 "Query drift" : déviation par rapport à l’intention initiale de l’usager
6. CONCLUSION ET PERSPECTIVE
Nous sommes à la fin de ce petit rapport qui avait pour objectif de présenter le moteur de recherche
sémantique d’Orange. Pour une meilleur présentation nous avons fait une étude comparative de ce moteur de
recherche avec le moteur de recherche GOOGLE. Nous avons donc constate que les résultats fournis par le
moteur de recherche d’Orange sont satisfaisants mais Jusque là les informations disponibles pour l’aspect
question - réponse concernent seulement la géographie, les résultats sont tirés du site de Wikipedia;
Nous devons aussi souligner que jusqu’à présent il n’existe pas encore un site web totalement sémantique, des
nombreux algorithmes ou méthodes de travail devront être mis au point avant de pouvoir créer un système de
recherche d'information véritablement sémantique.
Dans le cadre des perspectives quelques points peuvent être signalés [1] :
 L’utilisation de l'interprétation de requêtes en amont (désambiguïsation, identification des locutions);
 La prise en charge simultanée des plusieurs langues;
 La prise en charge de la correction d’orthographe.
7. REFERENCES
[1] Johannes Heinecke et Al., TiLT : plate-forme pour le traitement automatique des langues naturelles, TAL.
Volume 49 – no 2, pages 17 à 41, Paris, 2008.
[2] Jean-Léon Bouraoui et Al., Exparnsion sémantique de requêtes, Orange Labs, mars 2010, Paris.
[3] www.laborange.fr
8