Recherche et Extraction d`Information

Transcription

Recherche et Extraction d`Information
%
()&
&
&
""
! &&* +!
,
,
&
"" &
&
&
&
&
,
" "
&
2
!
2
,
&
$
#
,
!
#
,
,3
.2
5" 6 7,
&
&
- !0
!
!"
#
9! 0
&, !
&!
,
0
40
()&
'
&,
!"
&
"
&
. !
% !
1 *
,
&
-
""
&
&'
1 *
#
&
&
;
/
!
#
:
,
&
,
!
!"
#
8
&
(
"
! # &! & 2
& &
6
"&
="
& #
&
'
9
&
#
&
5
!
!
67
9
&
#
!
&
>
!
5? @ 07
; &
5&!
&
7
#
!
&
50 " 7
(
&
! "
0 "
,!
"
& &
6 5
"
7
;
&!
!&
# &! !
# !
#
6,
0
6
A !
! &
&
,;
!
! !& &
&
B
!
#
#
5 "" ! #
, 9,
2
"
, 7
4
1 *
!
#
6
- !0
&! &!
5 0C
, &!
, 7
!"
#
&
5
1 *
&
2"!
<
!"
#
"
&
"
.0 G
1
0 ,
; ,
1"
"
,
#
D
!"
F
, C(
&
&
&
," ,
2
&
!
"
&, " , 3
&
"
F
&
&
( 2 5"
C1"
2,
!
,
3
3
!"
0!
&
(2 ,
&
!
!
6
;
!
&
!
!
!
7
7,
#
E
#
$%&
1 *
"! !
?
!
&
&
&
!
&
&
00
,
,
F
4
2&
&&
&
! 00
!
2
!
&,
&
!
&
&
!
!"
!
&
,
-
!
!
6
!
!
! 00
&
*
!
!
,
&&
!
,
"! ,
F
F
,
!
&
H
!"
&
2 ,!
- "!
!&
0 , !"
!, !
"! !
"
1 *
$< /<
!
"
&
#
IJ
& L
"
"
&&*
!"
&! +!
&
! 0 &!
!&
!
&
5
.2
1 *
&
"
&
"
&&*
&!,
!
&= N
!M
&
"
F
O
!
-&
,
"!
!
7
N
&
,
"
&
&
&
! "" !
!
&
! 0
& &
# )
!
, 37
!
0
,3
2
0
0
.!
!
&
&
&K
,
&K 0 5
&&
"
#
&
!
2& ,
(
"!"
,
=
4
=
2=
6
& "!2 ,
&
! && 5
-7
& ,
1 *
&
+
&
;
;1
;B?-=
5;B?-7
&
&
! !
'
O'
!
6
F
!
M
&
F
!
!0
1
!
F
"
0
,
#
II
!"
#
I$
*+,
"" !
=
"
&
0
"
"
&
&
#
"" ! " &
!
&
! 1 *
1 *
=&
&
=
&
=
"
&
"
0
!
=
&
"P8Q
IJ,
1 *
P8Q
E
"
R
"
=
&
"
!"
#
I/
!
&
!"
"
"&
! 1 *
#
I8
# )
*-,
" ! !
.
/ 0 '#
M
1
#&&* ! "!
! ,
; & #
1
H< T
!
#
"
2 !
!
!
&
" &
1
P IQ
/S5" &
5J<7 > " &
5JD<7 7
5J$<7 >
?
#
I<
, "0 ,
!M
2
? !
U
?
!"
=
!"
*
!&
25
,M !
!;
# &! 3
#
U
!
,
7
I
# )
.
# )
/ 0 '#
M
!
/ 0 '#
+
"" !
?
!
&
"
"
Q
Q
F
"
!
&
"
&
,
"! !
5
!
!&
7
=
! # !
"
! &!
!&
5M.?7
=
& O,
*+,
&!
=
Q
"
R
M
" &
& "
N
.
&
#
5 1
& "
&
!
7
F
M
&
""
&
&
"
&
!"
"!
&
&!
!&
=
2&
:
"! "
!
0
F +
& &
#
!
&
,!
ID
!"
&
"F&
+
""
&! +
&
"!
!
+
&!
&
,+
&*
#
IE
0
Quelles unités conserver pour l'indexation ?
Stop words - anti-dictionnaire
: une
description de
+
Dictionnaire
histoire
Dictionnaire
Ce livre traite dans
une large mesure
des Hobbits et le
lecteur découvrira
dans ses pages
une bonne part de
leur caractères.
Documents triés dans
l’ordre décroissant de
leur score
traiter
caractère
découvrir
.
.
.
.
.
.
matching
mesure
lecteur
Collection de documents
i.e.
+
!"
.
Les mots les plus fréquents de la langue "stop words"
n'apportent pas d'information utile e.g. et, ou, le, .. (peut
représenter jusqu'à 30 ou 50% d'un texte)
Les connaissances sémantiques permettent également
d'éliminer des mots
Ces "stop words" peuvent être dépendant d'un domaine ou
pas + frequency cut-off à partir du corpus
L'ensemble des mots éliminés est conservé dans un antidictionnaire (e.g. 500 mots).
: une
description de
#
IH
!"
#
$J
"!
Normalisation (lemmatisation)
Utilisation d'une forme canonique pour représenter les variantes
morphologiques d'un mot
e.g. dynamic, dynamics, dynamically, ...seront représentés par un
même mot
naviguer, naviguant, navire .....idem
Techniques :
1
"
& !
! &!
!&
&&
.!
!
&
!
!
&
&
&
!
!
!
!=
5" +
; !&
6&
!
*
= 2
&
&
=
=
2
&
&
!
5
, !& ! 5" +
!
+! ! 0
7,
!
#
&
F
!
=
""!
2
& 0
2 7, 0!
2
5;A-,
,
5
7
!
7
''
#
$$
*23-6,
*
!
""
&!
!&
"
"" 2
! "!
!
! ! 0
" "
!
!+
!0
&!
!&
!
! 45 7
C1"
*
""
=
&
9
!"
!
&
& & "
&
&
!
&
!"
"
!
!
!
2
!
!&
&
& "
&
"
$I
*23+4,
2
&
&& !
&
2"
F
&
de mots similaires au sens d'un critère numérique
!
!
#
!
Regroupement
#
&
&
systèmes itératifs à base de règles simples (e.g. pour l ’anglais Porter
stemming -largement employé) : on établi une liste de suffixes et de
préfixes qui sont éliminés itérativement.
méthodes à base de dictionnaires mot - forme canonique. Intérêt :
langue présentant une forte diversité lexicale (e.g. français)
!"
=
2
2
#
$/
!"
&
#
KP
RP
$8
7 ! -6
8
&
-
0
& "
!
!
&
""
,
&
&
.
0!
0!
0
P8J'
!
! <J JJJ
VJI,
- "* ! !
W",
0 8JP RQ
8J,
""
L 8J
<JJJJQ
8JPI$<,
8JPJIS
0
!"
05
#
$<
0
-
& "
!
0!
!
! <JJJJ
&
""
"
!
F
- "* ! !
W",
X
""
0 P
0,
& P
L
!& "
#
.
, !1 &
P8J'
""
! "!
!"
"
0
/H
! I$<
07
$
9!
*23:;,
0
""
0
!
!
!
0
"
"
& !
!
&
&
"
! "!
0 P RQ
!,
<
I
8JP
""
& "
2&
!"
!
! <J JJJ, !1
8J
#
"" 2
/
$D
!"
#
$E