Traitements de corpus - la langage de programmation PERL

Transcription

Traitements de corpus - la langage de programmation PERL
Traitements de corpus - la
langage de programmation
PERL
Perl2_1.pdf
2) variables scalaires, expressions régulières (2),
substitutions
1
Identification "chromatique" des
catégories grammaticales
!
!
!
On va générer un document html
(Internet Explorer ou Firefox)
Dans ce document, on met en évidence
un segment recherché (par une couleur
de police, par un surlignage)
Exemples:
!
!
les verbes en rouge
les noms en –ité surlignés de jaune
2
Préliminaires: qu'est ce que html?
!
!
Le texte qui s'affiche avec (pex)
Internet Explorer est annoté de
marques interprétées par l'explorateur
Ces marques permettent une lecture
identique indépendamment du
type:PC/Mac et du système
Windows/Unix/MacOS de la machine
destinataire
3
Préliminaires: qu'est ce que html?
!
!
Ces marques sont des balises
le contenu du fichier html
Exemple
ce qu'on voit à l'écran
Ceci est un texte
couleur!
couleur!
<x-html><html><body>
Ceci <u>est</u> un <b>texte</b>
<p>
<font color='red'>
</font>
color='red'>couleur!</font>
<br>
<b>
<font color='blue'>
color='blue'> couleur! </font>
</b>
</body></html></x-html>
4
Données
alexandre_etiq_phrase.txt
5
Exemples
!
On veut créer un système de balisage html basique, qui met
les verbes en évidence (affichage en rouge):
!
!
dans alexandre_etiq_phrases.txt, ajouter à la fin de chaque ligne la
balise <br>
commencer le fichier résultat par la balise
<x-html><html><body>
!
terminer par :
</body></html></x-html>
!
!
Ces balises assurent la reconnaissance d'un format HTML
(minimal)
Colorer de rouge toutes les occurrences de VER: remplacer
VER par <font color='red'>VER</font>
6
verbe_rouge_pgme.txt
print "<x-html><html><body>\n";
while(<>) {
chomp;
$ligne=$_;
$ligne =~ s/VER/<font color='red'>VER<\/font>/g;
print "$ligne <br> \n";
}
print "</body></html></x-html>\n";
7
'Coloration' des verbes
!
Execution du programme
perl verbe_rouge_pgme.txt < alexandre_etiq_phrases.txt
> toto.html
!
Double-cliquer sur toto.html " ouverture
d'Internet Explorer/Mozilla
Puis/ADV/puis ce/PRO:DEM/ce furent/VER:simp
Quand/KON/quand elle/PRO:PER/elle fut/VER:s
Ils/PRO:PER/il traversaient/VER:impf/traver
Le/DET:ART/le soleil/NOM/soleil de/PRP/de j
Des/PRP:det/du chiens/NOM/chien dormaient/V
8
Pour en savoir plus sur HTML
!
Liste des balises :
Cf, entre autres
http://www.codeshttp.com/baliseh.htm
!
9
Bilan1: expressions régulières
Une ER est un motif qui décrit un caractère
/a/ : la lettre a
/[acdz]/ : l'une des lettres a,c,d,z
/[^acdz]/ : n'importe quel caractère sauf a,c,d,z
/[A-Z]/ : n’importe quelle lettre majuscule non accentuée
! Une ER est un motif qui décrit et positionne un caractère
/^a/ : (ligne qui commence par) la lettre a
/[acdz]$/ : (ligne qui se termine par) l'une des lettres a,c,d,z
/^[^acdz]/ : (ligne qui commence par) n'importe quel
caractère sauf a,c,d,z
/^klug$/ : ligne qui contient exactement klug et rien d'autre
!
10
Exercices
http://fiamm.free.fr/UFD34_EC2_TraitementsSurCorpus/Exercices_substitution2.pdf
11

Documents pareils