Introduction à la Recherche d`Information
Transcription
Introduction à la Recherche d`Information
Indexation et Recherche d’Information vidéo Introduction à la RI Modèles de RI Plan 1.Qu’est ce que la RI ? 2. Petit tour d’horizon – Du besoin d’information à la requête – Représentation de l’information 3. Modèles de RI 4. Évaluation des performances Qu’est ce que la RI ? • La recherche d’information (RI) est une branche de l’informatique qui s’intéresse à l’acquisition, l’organisation, le stockage, la recherche et la sélection d’information [salton, 1968] • Terminologie – Recherche d’information, Informatique documentaire – Information Retrieval / Textual Information Retrieval / Document Retrieval / multimedia Information Retrieval Domaine très visible … … Et utile ! • Ouvert à tout le monde • Domaines d’application – Web, réseaux sociaux – Bibliothèques numériques – Entreprises – Nos propres ordinateurs La RI est un domaine vaste • Recherche adhoc • Classification /catégorisation (clustering) • Question-réponses (Query answering) • Filtrage d’information (filtering/recommendation) • Métat-moteurs (data-fusion,Meta-search) • Résumé automatique (Summarization) • Multi-langues (cross language) • Fouille de textes (Text mining) • Multimédias Objectif de la RI • Sélectionner dans une collection – Les informations – …pertinentes répondant à des – …besoins d’utilisateurs Eléments clés en RI • Quels éléments sont centraux pour la Recherche d’Information ? – Documents – Contenu des documents – Besoin d’information d’un utilisateur – Satisfaction 8 Les documents • Formes – Texte – images, sons, vidéo, graphiques, etc. • Propriétés – Structure • non structuré OU semi structuré (XML) (HTML) – Hétérogénéité • langage (multilingues) • media (multimédia) • granularité Information sur les documents • 2 classes d’information – Méta-Information (information à propos du document) • Attributs : titre, auteur, date de création, etc. • Structure (organisation du contenu) : structure logique, liens, etc. – Contenu • Contenu brut : le document initial • Contenu sémantique : information « riche » extraite du contenu brut 10 Besoin d’information • Le besoin d’information est une expression mentale d’un utilisateur • La requête est une représentation possible du besoin Pertinence • Quelle pertinence ? • Relation (correspondance,…) entre un document et ….…. une requête ou….…. un besoin d’information ? Selon ….. l’utilisateur…ou …. le système ? Pertinence utilisateur vs. Pertinence système Pertinence utilisateur - subjective Pertinence système - algorithmique ? La pertinence est difficile à appréhender • Pertinence est multidimensionnelle – dépend de plusieurs paramètres : l’utilisateur, besoin d’information, situations des utilisateurs • Pertinence est graduelle (multivaluée) – un document A peut être plus pertinent que B (ou A préféré à B) • Pertinence est dynamique – peut changer dans le temps, selon l’état de connaissance de l’utilisateur au moment de la recherche Pertinence ≈ similarité • Elle est souvent traduite – Vocabulaire similaire pertinent à la requête • Similarité peut être mesurée – Comparaison (matching) de chaînes de caractères (ou de motifs) – Même vocabulaire – Même «sens» Approche générale de la RI • Vision simple de la RI textuelle : «Trouver les documents ayant les mêmes mots que la requête» – La requête comme les documents sont des listes de mots clés – Comparer les mots de chaque document à ceux de la requête – Sélectionner les documents qui contiennent le plus de mots de la requête. Processus de RI Besoin Visualisation Description Représentation Représentation Index (inverse) Requête Correspondance Problématiques de la RI • Représentation de l’information – Comment construire une représentation à partir de documents ? – Qu’est ce qu’une «bonne» représentation ? – Quelle organisation physique pour les index ? • Représentation des besoins – Comment exprimer le besoin (langage de requêtes) ? – Comment représenter le besoin ? • RI : un domaine de recherche actif ! • Proposer des solutions : – modèles, techniques, outils pour répondre à ces problèmes • Avec 2 soucis majeurs – Quels supports théoriques ? • Souvent basés sur des théories mathématiques : Probabilités, statistiques, ensembles, algèbre, logique floue, analyse de données, … – Quel processus pour la validation ? Théorie, pratique et expérimentation Plan 1. Qu’est ce que la RI ? 2. Petit tour d’horizon – Du besoin d’information à la requête – Représentation de l’information 3. Modèles de RI 4. Évaluation des performances Du besoin d’information à la requête • Le besoin peut être – Récurrent (filtrage, recommandation) ou ponctuel (adhoc) • Expression des besoins (Langage de requêtes) – Texte libre, Liste de mots clés – Avec / sans opérateurs (AND, OR, NOT) – Images, sons (…) – Appris, par navigation dans la collection (Relevance feedback) • Requête : Le résultat … – de l’expression des besoins ? – Du besoin d’information à la requête • Paradoxe de la RI – Une requête «idéale» doit comporter toutes les informations que l’utilisateur recherche, la similarité serait alors maximale – Or, l’utilisateur recherche une information qu’il ne connaît pas à priori, il ne peut donc pas l’exprimer (décrire) de manière précise (idéale) Représentation de l’information • Représentation de l’information = indexation – Processus permettant de construire un ensemble d’éléments «clés » permettant de caractériser le contenu d’un document • Éléments clés – Information textuelle • mots simples : pomme • groupe de mots : pomme de terre – Image • Couleurs, formes, textures Indexation • Peut être – Manuelle (expert en indexation) – Automatique (ordinateur) – Semi-automatique (combinaison des deux) • Basée sur – Un langage contrôlé (lexique/thesaurus/ontologie/réseau sémantique) – Un langage libre (éléments pris directement des documents) • Indexation • Démarche de l’indexation automatique – étape 1 : extraction des termes – étape 2 : normalisation des mots (regrouper les variantes d’un mot ) – étape 3 : pondération (discrimination entre les termes clés/importants/significatifs et les autres) Indexation automatique Etape1 : Extraction des termes • Extraire les termes (tockenization) – Terme = mot (simple/composé), mots clés, concepts – Mot : suite de caractères séparés par (blanc ou signe de ponctuation, caractères spéciaux,…), Nombres • Dépend de la langue – Langue française • Pomme de terre? un, deux ou trois termes? – Langue Allemande les mots composés ne sont pas segmentés • Lebensversicherungsgesellschaftsangestellter • « employé d’une compagnie d'assurance-vie » Etape1 : Extraction des mots (suite) • Pas d’espaces en chinois et en japonais – Ne garantit pas l’extraction d’un terme de manière unique • Pire, le japonais utilise plusieurs alphabets Etape 1 : Extraction des mots (suite) • Suppression des mots «vides» (stoplist/ Common Words removal) – Mots trop fréquents mais pas utiles – Exemples : • Anglais : the, or, a, you, I, us, … • Français : le, la, de , des, je, tu, … – Des exceptions : • US : «USA » • A de (vitamine A) Etape 2 : Normalisation • «Lemmatisation» (radicalisation, racinisation) (stemming) – Processus morphologique permettant de regrouper les variantes d’un mot • Ex : économie, économiquement, économiste économie • pour l’anglais : retrieve, retrieving, retrieval, retrieved, retrieves retriev Etape 2 : Normalisation (suite) • Utilisation de règles de transformations – règle de type : condition action • Ex : si mot se termine par ‘s’ alors supprimer la terminaison • L’algorithme le plus connu est l’algorithme de Porter – Analyse grammaticale • Utilisation de lexique (dictionnaire) • Tree-tagger (gratuit sur le net) Etape 3 : Pondération des mots • Comment caractériser l’importance des termes dans un document ? – Associer un (ou plusieurs) poids à un terme – Idée sous jacente : • Les termes importants doivent avoir un poids fort Approche la plus répandue : TF.IDF • Ne concerne pas tous les modèles • cf « Modèle vectoriel » Plan 1. Qu’est ce que la RI ? 2. Petit tour d’horizon – Du besoin d’information à la requête – Représentation de l’information 3. Modèles de RI 4. Évaluation des performances Modèle booléen – Modèle de connaissances : T = {ti}, i [1, .. N] • Termes ti qui indexent les documents – Le modèle de documents (contenu) est une expression booléenne dans la logique des propositions avec les ti considérés comme des propositions : • Un document D1 est représenté par une formule D1 D1= t1 t3 t250 t254 • Une requête Q est représentée par une formule logique Q Q = (t1 t3) (t25 t1045 t134 ) 33 Modèle booléen – La fonction de correspondance est basée sur l’implication logique en logique des propositions : • Un document D répond à une requête Q si et seulement si D Q – Utilisation de déduction par » Axiomes : (a b) a, (a b) b, a (a b), b (a b), … » modus ponens (MP) : si a et a b alors b • Exemple : D = t1 t3 et Q = t1 t4 – Déduction : 1. t1 t3 t1 (équivalent à D t1) 2. MP(1) : t1 3. t1 t1 t4 (équivalent à t1 Q ) 4. MP(3) : Q Q est donc dérivable à partir de D, donc D Q : le document répond à la requête. 34 Modèle booléen – Correspondance stricte – Q = t1 t3 t4 – D1 = t1 t4 , D1 Q – Le document D1 (représenté par D1) n’est pas pertinent pour la requête Q (représentée par Q) d’après le modèle, alors qu’il contient une description « proche » de la requête. 35 Modèle booléen – Pas de distinction entre les documents pertinents – Q = t1 t4 – D2 = t1 t4 , D3 = t1 t3 t4 t5 t6 t7 D2 Q et D3 Q – Le document D2 (représenté par D2) est-il plus ou moins pertinent que D3 (représenté par D3) pour la requête D (représentée par Q) ? 36 Modèle booléen – Expression de requêtes complexe – Q = ((t1 t4) t6) ( t8 (t10 t40)) … ??? – Sens du logique (inclusif) différent du « ou » courant (exclusif) 37 Modèle booléen : avantages et inconvénients • Avantage : – Le modèle est transparent et simple à comprendre p our l'utilisateur : • Pas de paramètres « cachés » • Raison de sélection d'un document claire : il répond à une f ormule logique – Adapté pour les spécialistes et les vocabulaires contr aints • Inconvénients : – Il est difficile d'exprimer des requêtes longues sous f Modèle vectoriel • Modèle de connaissances : T = {ti}, i [1, .. N] • Tous les documents sont décrits suivant ce vocabulaire • Un document Di est représenté par un vecteur I Di décrit dans l’espace vectoriel RN défini par T : – Di = (wi,1, wi,2, …, wi,j, …, wi,N), avec wkl le poids d’un terme pour un document • Une requête Q est représentée par un vecteur Q décrit dans l’espace vectoriel RN défini par T : – Q = (wQ,1, wQ,2, …, wQ,j, …, wQ,N) 39 Modèle vectoriel • Plus les vecteurs représentant les documents sont « proches », plus les documents sont similaires : Terme 1 Di Dj Terme 2 Terme 3 40 Modèle vectoriel • Pondération des termes pour les documents : – Un document – « Un violon est issu de bois précieux comme l’érable, palissandre, l’ébène... » – Pour indexer, la première idée est de compter les mots les plus fréquents excepté les termes non significatifs comme « de », « avec », « comme »… – « Un violon est composé de bois précieux comme l’érable, le palissandre, l’ébène... » Termes retenus et comptés 41 Modèle vectoriel • Pondération : – Fréquence d’un terme (term frequency) • ti,j : la fréquence du terme tj dans le document Di est égale au nombre d’occurrences de tj dans Di. • Exemple : si violon apparaît 5 fois dans le document D 3, avec violon=t23, alors t3,23 = 5 42 Modèle vectoriel • Pondération : – On tient compte du corpus (base de documents) entier, un terme qui apparaît beaucoup ne discrimine pas nécessairement les documents : Terme fréquent dans le corpus entier Terme fréquent dans un seul document du corpus 43 Modèle vectoriel • Pondération : – Fréquence documentaire d’un terme • dfj : la fréquence dans le corpus du terme tj est le nombre de documents du corpus où tj apparaît – On utilise l’inverse de la fréquence documentaire, idfj : • Définition simple : idfj = 1 / dfj • Définition la plus utilisée : idfj = log(ND / dfj), avec ND le nombre de documents du corpus. 44 Modèle vectoriel • Pondération : – Combinaison du t et de l’idf pour un vecteur document: • Exemple le plus courant – wi,j = ti,j . idfj – Utilisation du t pour une requête 45 Modèle vectoriel • Fonction de correspondance : – Fonction de l’angle entre le vecteur requête Q et le vecteur document Di Terme 1 Di Requête Q Terme 2 Terme 3 Plus l’angle est petit et plus le document correspond à la requête 46 Modèle vectoriel • Fonction de correspondance : – Une solution est de calculer le cosinus de l’angle entre le vecteur requête et le vecteur document. • Produit scalaire • Cosinus de l'angle • Distance euclidienne 47 Modèle vectoriel : avantages et inconvénients • Avantages : – Le langage de requête est plus simple (liste de mot clés) – Les performances sont meilleures grâce à la pondéra tion des termes – Le renvoi de documents à pertinence partielle est po ssible – La fonction d'appariement permet de trier les docu ments • Inconvénients : – Le modèle considère que tous les termes sont indép Modèle probabiliste (survol) • Suppose que la recherche se déroule lors d’une « session de recherche » (plusieurs itérations) • Consiste à « estimer » la pertinence d'un document en fonction de pertinences connues pour d'autres documents. • Ce calcul se fait en estimant la pertinence de chaque index pour un document et en utilisant le Théorème de Bayes et une règle de décision 49 Modèle probabiliste • Pour un requête Q Documents pertinents “Relevant documents rel CORPUS Documents non pertinents Avec Corpus = rel nonrel rel nonrel = Prob (pertinenceQ / document Di) notée simplement Prob(rel/ Di) “Non relevant documents” nonrel Probabilité pour que le document i fasse partie de l’ensemble des documents pertinents à la requête Q 50 Modèle probabiliste • Fonction de correspondance : – On ne sait pas calculer P(rel | d), mais on peut calculer P(d | rel) – Utilisation du théorème de Bayes Probabilité d’obtenir dj en connaissant les pertinents Probabilité pour que le document i soit pertinent pour la requête q Probabilité d'obtenir un doc ument pertinent en piochant au has ard Probabilité que le document soit choisi au hasard 51 Modèle probabiliste • Fonction de correspondance • Décision : document retourné si – Prob(Rel / Di ) / Prob(nonRel / Di ) > 1 – Avec hypothèse d’indépendance des termes 52 Modèle probabiliste : avantages et inconvénients • Avantages : – Apprentissage du besoin d’information – La fonction d'appariement permet de trier les documents • Inconvénients : – Le modèle considère que tous les termes sont indépendants (inconvénient théorique) – Pas de langage de requête ! – Problème des probabilités initiales Résultats comparables à ceux du modèle vectoriel