E53SLM/BBEdit : la fonction Recherche avec grep

Transcription

E53SLM/BBEdit : la fonction Recherche avec grep
E53SLM/BBEdit : la fonction Recherche avec grep
------------------------------------------------------------------------------Corrigé
Exo1: Recherche des manifestations de l’ego dans le texte de C.Angot.
Rappel : <[jJ][e']> ne convenait pas parce que j' n'est pas un mot. On a dû s’en tenir à
<[jJ][e’], qui laisse un peu de bruit (jeu) mais un rappel maximum. L'idéal eût été de faire une
recherche avec le motif <[jJ]e> ou <[jJ]'mais sous Word, l’expression de l’alternative (soit A
soit B) n’est pas disponible.
Sous BBEdit, l'alternative est possible (le pipe "|"). Le motif \Wje\W|\Wj' ramène 15 résultats, 0
bruit, 0 silence,précision=1, rappel=1.
.
Exo2 : Repérer dans le fichier Textes de travail/AngotTexte.TEI, les verbes se terminant par ent.
Les motifs :
ana=V…..*>.*ent</mot>
ou
ana=V[^>]*>.*ent</mot>
ramènent 16 occurrences. 0 bruit.
Sous Word, nous avions recherché les occurrences du motif ent>.Nous en avions trouvé 23.
Rappel (extrait de la correction de l'exercice sous Word) :
Dans 16 cas, c’est bon (précision : 0,69), dans 5 cas c’est du bruit (0,21), un nom commun (isolement), des
adverbes (2 souvent, uniquement, notamment, seulement). Silence (3/19 = 0,15) : les pluriels en ont, il y en a
3 : 2 sont et 1 font. Précision : 16/19 = 0,84. On ne cherchera pas à marquer aussi les pluriels en ont, ça
produit autant de bruit que de bonnes réponses (3 dont). Par contre, on peut limiter le bruit, en
interdisant la lettre m avant le ent. Les adverbes en ment ne sont pas marqués (et isolement non plus, par
hasard, mais souvent reste). Cela peut occasionner une hausse du silence, car il peut exister des verbes
dont le radical se termine par m : aimer, semer...
Ce qui fait la différence à présent, ce n'est pas l'outil de recherche, mais le fait que le texte est étiqueté.
Pour repérer dans le fichier Textes de travail/AngotTexte.cnr, les verbes se terminant par ent, on
a recours au motif : #+\t.*ent\t.*\t#+\tV.....
Le format TEI est plus commode que le format .cnr de l'étiqueteur Cordial.
Exo 3 :
Futur : r(a|as|ons|ez|ont)\W
Bruit : citrons, rez de chaussée... solution : textes étiquetés (annotés/tagués) d'informations de nature
morpho-syntaxique.
au moins une voyelle nasale :
emm|enn|[aeiouy][mn][^aeiouymn]
deux voyelles nasales :
(emm|enn|[aeiouy][mn][^aeiouymn]).*(emm|enn|[aeiouy][mn][^aeiouymn])
rime féminine (en e) :
es?(,| :| ;|\.)?$
Motif de recherche
e [aeiou]
Numéros de lignes
Liaison (une seule syllabe)
L3 : verdure où ; chante uneL8 bouche ouverte
L36 : rose et
L38 : comme un
L41 : fidèle et
E53SLM/BBEdit : la fonction Recherche avec grep
------------------------------------------------------------------------------e [^aeiou]
[^aeiou] [aeiou]
24 occurrences : pas de liaison (2 syllabes)
Liaison
2 occurrences :
L15 :il a froid
L19 : Il a deux
Exo 4 :
Chercher les balises dans un document HTML :
<[^>]+>
Pour colorer en rouge les parties de texte en italiques :
Remplacer :
<i>([^<]*)</i>
par :
<font color=red>\1</font>

Documents pareils