Recherche et Extraction d`Information
Transcription
Recherche et Extraction d`Information
% ()& & & "" ! &&* +! , , & "" & & & & & , " " & 2 ! 2 , & $ # , ! # , ,3 .2 5" 6 7, & & - !0 ! !" # 9! 0 &, ! &! , 0 40 ()& ' &, !" & " & . ! % ! 1 * , & - "" & &' 1 * # & & ; / ! # : , & , ! !" # 8 & ( " ! # &! & 2 & & 6 "& =" & # & ' 9 & # & 5 ! ! 67 9 & # ! & > ! 5? @ 07 ; & 5&! & 7 # ! & 50 " 7 ( & ! " 0 " ,! " & & 6 5 " 7 ; &! !& # &! ! # ! # 6, 0 6 A ! ! & & ,; ! ! !& & & B ! # # 5 "" ! # , 9, 2 " , 7 4 1 * ! # 6 - !0 &! &! 5 0C , &! , 7 !" # & 5 1 * & 2"! < !" # " & " .0 G 1 0 , ; , 1" " , # D !" F , C( & & & ," , 2 & ! " &, " , 3 & " F & & ( 2 5" C1" 2, ! , 3 3 !" 0! & (2 , & ! ! 6 ; ! & ! ! ! 7 7, # E # $%& 1 * "! ! ? ! & & & ! & & 00 , , F 4 2& && & ! 00 ! 2 ! &, & ! & & ! !" ! & , - ! ! 6 ! ! ! 00 & * ! ! , && ! , "! , F F , ! & H !" & 2 ,! - "! !& 0 , !" !, ! "! ! " 1 * $< /< ! " & # IJ & L " " &&* !" &! +! & ! 0 &! !& ! & 5 .2 1 * & " & " &&* &!, ! &= N !M & " F O ! -& , "! ! 7 N & , " & & & ! "" ! ! & ! 0 & & # ) ! , 37 ! 0 ,3 2 0 0 .! ! & & &K , &K 0 5 && " # & ! 2& , ( "!" , = 4 = 2= 6 & "!2 , & ! && 5 -7 & , 1 * & + & ; ;1 ;B?-= 5;B?-7 & & ! ! ' O' ! 6 F ! M & F ! !0 1 ! F " 0 , # II !" # I$ *+, "" ! = " & 0 " " & & # "" ! " & ! & ! 1 * 1 * =& & = & = " & " 0 ! = & "P8Q IJ, 1 * P8Q E " R " = & " !" # I/ ! & !" " "& ! 1 * # I8 # ) *-, " ! ! . / 0 '# M 1 #&&* ! "! ! , ; & # 1 H< T ! # " 2 ! ! ! & " & 1 P IQ /S5" & 5J<7 > " & 5JD<7 7 5J$<7 > ? # I< , "0 , !M 2 ? ! U ? !" = !" * !& 25 ,M ! !; # &! 3 # U ! , 7 I # ) . # ) / 0 '# M ! / 0 '# + "" ! ? ! & " " Q Q F " ! & " & , "! ! 5 ! !& 7 = ! # ! " ! &! !& 5M.?7 = & O, *+, &! = Q " R M " & & " N . & # 5 1 & " & ! 7 F M & "" & & " & !" "! & &! !& = 2& : "! " ! 0 F + & & # ! & ,! ID !" & "F& + "" &! + & "! ! + &! & ,+ &* # IE 0 Quelles unités conserver pour l'indexation ? Stop words - anti-dictionnaire : une description de + Dictionnaire histoire Dictionnaire Ce livre traite dans une large mesure des Hobbits et le lecteur découvrira dans ses pages une bonne part de leur caractères. Documents triés dans l’ordre décroissant de leur score traiter caractère découvrir . . . . . . matching mesure lecteur Collection de documents i.e. + !" . Les mots les plus fréquents de la langue "stop words" n'apportent pas d'information utile e.g. et, ou, le, .. (peut représenter jusqu'à 30 ou 50% d'un texte) Les connaissances sémantiques permettent également d'éliminer des mots Ces "stop words" peuvent être dépendant d'un domaine ou pas + frequency cut-off à partir du corpus L'ensemble des mots éliminés est conservé dans un antidictionnaire (e.g. 500 mots). : une description de # IH !" # $J "! Normalisation (lemmatisation) Utilisation d'une forme canonique pour représenter les variantes morphologiques d'un mot e.g. dynamic, dynamics, dynamically, ...seront représentés par un même mot naviguer, naviguant, navire .....idem Techniques : 1 " & ! ! &! !& && .! ! & ! ! & & & ! ! ! != 5" + ; !& 6& ! * = 2 & & = = 2 & & ! 5 , !& ! 5" + ! +! ! 0 7, ! # & F ! = ""! 2 & 0 2 7, 0! 2 5;A-, , 5 7 ! 7 '' # $$ *23-6, * ! "" &! !& " "" 2 ! "! ! ! ! 0 " " ! !+ !0 &! !& ! ! 45 7 C1" * "" = & 9 !" ! & & & " & & ! & !" " ! ! ! 2 ! !& & & " & " $I *23+4, 2 & && ! & 2" F & de mots similaires au sens d'un critère numérique ! ! # ! Regroupement # & & systèmes itératifs à base de règles simples (e.g. pour l ’anglais Porter stemming -largement employé) : on établi une liste de suffixes et de préfixes qui sont éliminés itérativement. méthodes à base de dictionnaires mot - forme canonique. Intérêt : langue présentant une forte diversité lexicale (e.g. français) !" = 2 2 # $/ !" & # KP RP $8 7 ! -6 8 & - 0 & " ! ! & "" , & & . 0! 0! 0 P8J' ! ! <J JJJ VJI, - "* ! ! W", 0 8JP RQ 8J, "" L 8J <JJJJQ 8JPI$<, 8JPJIS 0 !" 05 # $< 0 - & " ! 0! ! ! <JJJJ & "" " ! F - "* ! ! W", X "" 0 P 0, & P L !& " # . , !1 & P8J' "" ! "! !" " 0 /H ! I$< 07 $ 9! *23:;, 0 "" 0 ! ! ! 0 " " & ! ! & & " ! "! 0 P RQ !, < I 8JP "" & " 2& !" ! ! <J JJJ, !1 8J # "" 2 / $D !" # $E