E53SLM/BBEdit : la fonction Recherche avec grep
Transcription
E53SLM/BBEdit : la fonction Recherche avec grep
E53SLM/BBEdit : la fonction Recherche avec grep ------------------------------------------------------------------------------Corrigé Exo1: Recherche des manifestations de l’ego dans le texte de C.Angot. Rappel : <[jJ][e']> ne convenait pas parce que j' n'est pas un mot. On a dû s’en tenir à <[jJ][e’], qui laisse un peu de bruit (jeu) mais un rappel maximum. L'idéal eût été de faire une recherche avec le motif <[jJ]e> ou <[jJ]'mais sous Word, l’expression de l’alternative (soit A soit B) n’est pas disponible. Sous BBEdit, l'alternative est possible (le pipe "|"). Le motif \Wje\W|\Wj' ramène 15 résultats, 0 bruit, 0 silence,précision=1, rappel=1. . Exo2 : Repérer dans le fichier Textes de travail/AngotTexte.TEI, les verbes se terminant par ent. Les motifs : ana=V…..*>.*ent</mot> ou ana=V[^>]*>.*ent</mot> ramènent 16 occurrences. 0 bruit. Sous Word, nous avions recherché les occurrences du motif ent>.Nous en avions trouvé 23. Rappel (extrait de la correction de l'exercice sous Word) : Dans 16 cas, c’est bon (précision : 0,69), dans 5 cas c’est du bruit (0,21), un nom commun (isolement), des adverbes (2 souvent, uniquement, notamment, seulement). Silence (3/19 = 0,15) : les pluriels en ont, il y en a 3 : 2 sont et 1 font. Précision : 16/19 = 0,84. On ne cherchera pas à marquer aussi les pluriels en ont, ça produit autant de bruit que de bonnes réponses (3 dont). Par contre, on peut limiter le bruit, en interdisant la lettre m avant le ent. Les adverbes en ment ne sont pas marqués (et isolement non plus, par hasard, mais souvent reste). Cela peut occasionner une hausse du silence, car il peut exister des verbes dont le radical se termine par m : aimer, semer... Ce qui fait la différence à présent, ce n'est pas l'outil de recherche, mais le fait que le texte est étiqueté. Pour repérer dans le fichier Textes de travail/AngotTexte.cnr, les verbes se terminant par ent, on a recours au motif : #+\t.*ent\t.*\t#+\tV..... Le format TEI est plus commode que le format .cnr de l'étiqueteur Cordial. Exo 3 : Futur : r(a|as|ons|ez|ont)\W Bruit : citrons, rez de chaussée... solution : textes étiquetés (annotés/tagués) d'informations de nature morpho-syntaxique. au moins une voyelle nasale : emm|enn|[aeiouy][mn][^aeiouymn] deux voyelles nasales : (emm|enn|[aeiouy][mn][^aeiouymn]).*(emm|enn|[aeiouy][mn][^aeiouymn]) rime féminine (en e) : es?(,| :| ;|\.)?$ Motif de recherche e [aeiou] Numéros de lignes Liaison (une seule syllabe) L3 : verdure où ; chante uneL8 bouche ouverte L36 : rose et L38 : comme un L41 : fidèle et E53SLM/BBEdit : la fonction Recherche avec grep ------------------------------------------------------------------------------e [^aeiou] [^aeiou] [aeiou] 24 occurrences : pas de liaison (2 syllabes) Liaison 2 occurrences : L15 :il a froid L19 : Il a deux Exo 4 : Chercher les balises dans un document HTML : <[^>]+> Pour colorer en rouge les parties de texte en italiques : Remplacer : <i>([^<]*)</i> par : <font color=red>\1</font>