Traitements de corpus - la langage de programmation PERL
Transcription
Traitements de corpus - la langage de programmation PERL
Traitements de corpus - la langage de programmation PERL Perl2_1.pdf 2) variables scalaires, expressions régulières (2), substitutions 1 Identification "chromatique" des catégories grammaticales ! ! ! On va générer un document html (Internet Explorer ou Firefox) Dans ce document, on met en évidence un segment recherché (par une couleur de police, par un surlignage) Exemples: ! ! les verbes en rouge les noms en –ité surlignés de jaune 2 Préliminaires: qu'est ce que html? ! ! Le texte qui s'affiche avec (pex) Internet Explorer est annoté de marques interprétées par l'explorateur Ces marques permettent une lecture identique indépendamment du type:PC/Mac et du système Windows/Unix/MacOS de la machine destinataire 3 Préliminaires: qu'est ce que html? ! ! Ces marques sont des balises le contenu du fichier html Exemple ce qu'on voit à l'écran Ceci est un texte couleur! couleur! <x-html><html><body> Ceci <u>est</u> un <b>texte</b> <p> <font color='red'> </font> color='red'>couleur!</font> <br> <b> <font color='blue'> color='blue'> couleur! </font> </b> </body></html></x-html> 4 Données alexandre_etiq_phrase.txt 5 Exemples ! On veut créer un système de balisage html basique, qui met les verbes en évidence (affichage en rouge): ! ! dans alexandre_etiq_phrases.txt, ajouter à la fin de chaque ligne la balise <br> commencer le fichier résultat par la balise <x-html><html><body> ! terminer par : </body></html></x-html> ! ! Ces balises assurent la reconnaissance d'un format HTML (minimal) Colorer de rouge toutes les occurrences de VER: remplacer VER par <font color='red'>VER</font> 6 verbe_rouge_pgme.txt print "<x-html><html><body>\n"; while(<>) { chomp; $ligne=$_; $ligne =~ s/VER/<font color='red'>VER<\/font>/g; print "$ligne <br> \n"; } print "</body></html></x-html>\n"; 7 'Coloration' des verbes ! Execution du programme perl verbe_rouge_pgme.txt < alexandre_etiq_phrases.txt > toto.html ! Double-cliquer sur toto.html " ouverture d'Internet Explorer/Mozilla Puis/ADV/puis ce/PRO:DEM/ce furent/VER:simp Quand/KON/quand elle/PRO:PER/elle fut/VER:s Ils/PRO:PER/il traversaient/VER:impf/traver Le/DET:ART/le soleil/NOM/soleil de/PRP/de j Des/PRP:det/du chiens/NOM/chien dormaient/V 8 Pour en savoir plus sur HTML ! Liste des balises : Cf, entre autres http://www.codeshttp.com/baliseh.htm ! 9 Bilan1: expressions régulières Une ER est un motif qui décrit un caractère /a/ : la lettre a /[acdz]/ : l'une des lettres a,c,d,z /[^acdz]/ : n'importe quel caractère sauf a,c,d,z /[A-Z]/ : n’importe quelle lettre majuscule non accentuée ! Une ER est un motif qui décrit et positionne un caractère /^a/ : (ligne qui commence par) la lettre a /[acdz]$/ : (ligne qui se termine par) l'une des lettres a,c,d,z /^[^acdz]/ : (ligne qui commence par) n'importe quel caractère sauf a,c,d,z /^klug$/ : ligne qui contient exactement klug et rien d'autre ! 10 Exercices http://fiamm.free.fr/UFD34_EC2_TraitementsSurCorpus/Exercices_substitution2.pdf 11