Comment chercher vite et bien dans un texte?

Transcription

Comment chercher vite et bien dans un texte?
Comment chercher vite et bien dans un texte ?
Allier rapidité, souplesse et légèreté.
Parcourir le texte
Recenser les mots clés du texte
Mot clé
Lignes et pages
biche l.18 p.3 l.53 p.15 . . .
bobo l.13 p.14 l.28 p.17 . . .
..
.
Ü Dicile de rechercher des morceaux
de mots, p. ex. : . . .che bo. . . !
Licence CC By-SA, square_eye, Flickr
Rapidité Souplesse Légèreté
R
Bilan
S
L
Bilan
Indexer le texte
Exemple :
0 1 2 3 4 5
Indexer et compresser le texte
Ü
abracad4 , 0
longueur 4 et vue précé-
1
S
abracadab r a
Parties communes
La seconde partie est de
Ü L'arbre prend 10 fois
plus de place que le texte !
R
abracadab r a
Texte d'origine
Ü
Arbre des suxes.
Indexation du texte a n a n a s
s 4 s 2
na
a
nas 0
na
s
nass 3
5
demment en position 0
R
L
S
L
Bilan
Bilan
Mikaël Salson
Université de Rouen, Laboratoire d'Informatique de Traitement de l'Information et des Systèmes
1
Comment chercher vite et bien dans un texte?
Rechercher dans un texte
Problématique
Rechercher toutes les occurrences d'un mot, groupe de mots, sous-mot, dans
un texte.
2
Mikaël Salson
Comment chercher vite et bien dans un texte?
Rechercher dans un texte
Problématique
Rechercher toutes les occurrences d'un mot, groupe de mots, sous-mot, dans
un texte.
Avec un ordinateur, pourquoi ?
2
Mikaël Salson
Comment chercher vite et bien dans un texte?
Rechercher dans un texte
Problématique
Rechercher toutes les occurrences d'un mot, groupe de mots, sous-mot, dans
un texte.
Avec un ordinateur, pourquoi ?
I
I
2
C'est moins fatigant !
C'est plus rapide.
Mikaël Salson
Comment chercher vite et bien dans un texte?
Rechercher dans un texte
Problématique
Rechercher toutes les occurrences d'un mot, groupe de mots, sous-mot, dans
un texte.
Avec un ordinateur, pourquoi ?
I
I
C'est moins fatigant !
C'est plus rapide.
Quels problèmes ?
2
Mikaël Salson
Comment chercher vite et bien dans un texte?
Rechercher dans un texte
Mikaël Salson
Problématique
Rechercher toutes les occurrences d'un mot, groupe de mots, sous-mot, dans
un texte.
Avec un ordinateur, pourquoi ?
I
I
C'est moins fatigant !
C'est plus rapide.
Quels problèmes ?
I
I
2
Énormément de données (l'équivalent de centaines de milliards de pages)
On est pressés !
Comment chercher vite et bien dans un texte?
Rechercher avec rapidité, souplesse et légèreté
Rapidité
La recherche doit prendre peu de temps
Souplesse
On doit pouvoir eectuer tout type de recherche
Légèreté
La recherche ne doit pas utiliser trop de mémoire
3
Mikaël Salson
Comment chercher vite et bien dans un texte?
Parcourir le texte
Parcourir le texte
Licence CC By-SA, square_eye, Flickr
4
Mikaël Salson
Comment chercher vite et bien dans un texte?
Parcourir le texte
Mikaël Salson
Parcourir le texte
I
Licence CC By-SA, square_eye, Flickr
4
Parcourir tout un texte prend du
temps (même pour un ordinateur !)
Comment chercher vite et bien dans un texte?
Parcourir le texte
Mikaël Salson
Parcourir le texte
I
Licence CC By-SA, square_eye, Flickr
Rapidité Souplesse Légèreté
Bilan
4
Parcourir tout un texte prend du
temps (même pour un ordinateur !)
Comment chercher vite et bien dans un texte?
Recenser les mots clés du texte
Recenser les mots clés du texte
Mot clé
Lignes et pages
biche l.18 p.3 l.53 p.15 . . .
bobo l.13 p.14 l.28 p.17 . . .
..
.
Ü Dicile de rechercher des morceaux
de mots, p. ex. : . . .che bo. . . !
5
Mikaël Salson
Comment chercher vite et bien dans un texte?
Recenser les mots clés du texte
Mikaël Salson
Recenser les mots clés du texte
Mot clé
Lignes et pages
biche l.18 p.3 l.53 p.15 . . .
bobo l.13 p.14 l.28 p.17 . . .
..
.
Ü Dicile de rechercher des morceaux
de mots, p. ex. : . . .che bo. . . !
5
Manque de souplesse :
I Recherche sur un mot clé
(ou plusieurs)
Comment chercher vite et bien dans un texte?
Recenser les mots clés du texte
Mikaël Salson
Recenser les mots clés du texte
Mot clé
Lignes et pages
biche l.18 p.3 l.53 p.15 . . .
bobo l.13 p.14 l.28 p.17 . . .
..
.
Ü Dicile de rechercher des morceaux
de mots, p. ex. : . . .che bo. . . !
5
Manque de souplesse :
I Recherche sur un mot clé
(ou plusieurs)
I Pas de recherche de
sous-mot Comment chercher vite et bien dans un texte?
Recenser les mots clés du texte
Mikaël Salson
Recenser les mots clés du texte
Mot clé
Lignes et pages
biche l.18 p.3 l.53 p.15 . . .
bobo l.13 p.14 l.28 p.17 . . .
..
.
Ü Dicile de rechercher des morceaux
de mots, p. ex. : . . .che bo. . . !
Rapidité Souplesse Légèreté
Bilan
5
Manque de souplesse :
I Recherche sur un mot clé
(ou plusieurs)
I Pas de recherche de
sous-mot Comment chercher vite et bien dans un texte?
Indexer le texte
Indexer le texte
Arbre des suxes.
Indexation du texte a n a n a s
Exemple :
a
na
s
6
5
s
na
s
nas
4
1
3
4
5
2
3
1
2
s
0
nas
0
Mikaël Salson
Comment chercher vite et bien dans un texte?
Mikaël Salson
Indexer le texte
Indexer le texte
0
1
2
3
4
5
ananas
Arbre des suxes.
Indexation du texte a n a n a s
Exemple :
4
5
2
a
nas
s
0
2
1
s
4
6
s
5
0
nas
nas
na
3
1
3
s
5
4
2
na
a
na
s
s
na
s
nas
1
s
0
3
Comment chercher vite et bien dans un texte?
Mikaël Salson
Indexer le texte
Indexer le texte
0
1
2
3
4
5
ananas
Arbre des suxes.
Indexation du texte a n a n a s
Exemple :
4
5
2
a
nas
s
0
2
1
s
4
6
s
5
0
nas
nas
na
3
1
3
s
5
4
2
na
a
na
s
s
na
s
nas
1
s
0
3
Comment chercher vite et bien dans un texte?
Mikaël Salson
Indexer le texte
Indexer le texte
0
1
2
3
4
5
ananas
Arbre des suxes.
Indexation du texte a n a n a s
Exemple :
4
5
2
a
nas
s
0
2
1
s
4
6
s
5
0
nas
nas
na
3
1
3
s
5
4
2
na
a
na
s
s
na
s
nas
1
s
0
3
Comment chercher vite et bien dans un texte?
Mikaël Salson
Indexer le texte
Indexer le texte
0
1
2
3
4
5
ananas
Arbre des suxes.
Indexation du texte a n a n a s
Exemple :
4
5
2
a
nas
s
0
2
s
4 1
6
s
5
0
nas
nas
na
3
1
3
s
5
4
2
na
a
na
s
s
na
s
nas
1
s
0
3
Comment chercher vite et bien dans un texte?
Mikaël Salson
Indexer le texte
Indexer le texte
0
1
2
3
4
5
ananas
Arbre des suxes.
Indexation du texte a n a n a s
Exemple :
4
5
2
a
Ü
0
6
s
nas
4 1
2
s
L'arbre prend 10 fois
plus de place que le texte !
s
5
0
nas
nas
na
3
1
3
s
5
4
2
na
a
na
s
s
na
s
nas
1
s
0
3
Comment chercher vite et bien dans un texte?
Mikaël Salson
Indexer le texte
Indexer le texte
0
1
2
3
4
5
ananas
Arbre des suxes.
Indexation du texte a n a n a s
Exemple :
3
4
5
2
a
Ü
6
0
s
Bilan
nas
Rapidité Souplesse Légèreté
4 1
2
s
1
L'arbre prend 10 fois
plus de place que le texte !
s
5
0
nas
nas
na
3
s
5
4
2
na
a
na
s
s
na
s
nas
1
s
0
3
Comment chercher vite et bien dans un texte?
Indexer et compresser le texte
Indexer et compresser le texte
Parties communes
La seconde partie est de
longueur 4 et vue précédemment en position 0
7
Mikaël Salson
Comment chercher vite et bien dans un texte?
Indexer et compresser le texte
Indexer et compresser le texte
Parties communes
La seconde partie est de
longueur 4 et vue précédemment en position 0
7
Mikaël Salson
Comment chercher vite et bien dans un texte?
Indexer et compresser le texte
Indexer et compresser le texte
Texte d'origine
abracadab r a
Ü
Parties communes
demment en position 0
7
Ü
La seconde partie est de
longueur 4 et vue précé-
abracadab r a
abracad4 , 0
Mikaël Salson
Comment chercher vite et bien dans un texte?
Indexer et compresser le texte
Indexer et compresser le texte
Texte d'origine
abracadab r a
Ü
Parties communes
demment en position 0
Ü
La seconde partie est de
longueur 4 et vue précé-
abracadab r a
abracad4 , 0
Rapidité Souplesse Légèreté
Bilan
7
Mikaël Salson
Comment chercher vite et bien dans un texte?
Mikaël Salson
Bilan
Recherche d'un mot de 25 lettres dans un texte de 100 Mo
Indexation
500 Mo
Indexation
compressée
53 Mo
0.001
8
0.01
0.1
Parcours du texte
100 Mo
1
10
100
1000
Temps (en ms)
Comment chercher vite et bien dans un texte ?
Allier rapidité, souplesse et légèreté.
Parcourir le texte
Recenser les mots clés du texte
Mot clé
Lignes et pages
biche l.18 p.3 l.53 p.15 . . .
bobo l.13 p.14 l.28 p.17 . . .
..
.
Ü Dicile de rechercher des morceaux
de mots, p. ex. : . . .che bo. . . !
Licence CC By-SA, square_eye, Flickr
Rapidité Souplesse Légèreté
R
Bilan
S
L
Bilan
Indexer le texte
Exemple :
0 1 2 3 4 5
Indexer et compresser le texte
Ü
abracad4 , 0
longueur 4 et vue précé-
1
S
abracadab r a
Parties communes
La seconde partie est de
Ü L'arbre prend 10 fois
plus de place que le texte !
R
abracadab r a
Texte d'origine
Ü
Arbre des suxes.
Indexation du texte a n a n a s
s 4 s 2
na
a
nas 0
na
s
nass 3
5
demment en position 0
R
L
S
L
Bilan
Bilan
Mikaël Salson
Université de Rouen, Laboratoire d'Informatique de Traitement de l'Information et des Systèmes
9

Documents pareils