Petits scripts en Perl et Bash pour manipuler ses fichiers
Transcription
Petits scripts en Perl et Bash pour manipuler ses fichiers
Petits scripts en Perl et Bash pour manipuler ses fichiers Pierre-Louis Cayrel, Théophane Lumineau 30 mars 2009 Cet article propose quelques petits trucs en Perl et en Bash pour manipuler des fichiers. Mon idée est la suivante, partir des scripts fait par les mongueurs et autres amateurs de Perl et Bash, les regrouper dans un fichier, les commenter de manière claire et sans blabla inutile, étayer avec d’autres sources (commande shell et script). Ceci dans le but d’avoir LE pdf sur la gestion des fichiers avec les scripts qui vont bien. Je vais continuer mes recherches sur le net d’uniligne pour la gestion des fichiers, créer les miens répondant à certaines problématiques et j’enrichirai ce fichier au fur et à mesure. Ce fichier a pour sens d’évoluer, tous les lecteurs peuvent m’écrire pour apporter leur contributions. Mots clefs : Perl, Bash, manipulation de fichiers. 1 Table des matières I Fichiers 5 1 Comment convertir tous ces fichiers .toto en .tata ? 5 2 Copie de fichiers 5 3 Ajouter un préfixe aux fichiers traités 5 4 Sauvegarder les originaux dans un répertoire 5 5 Supprime les fichiers temporaires d’emacs 5 6 Compte les paragraphes d’un fichier 5 7 Imprime les lignes communes aux deux fichiers 5 8 Imprime les lignes communes à 3 fichiers 5 9 Détecte les fichiers texte 6 10 Modifie des dates d’accès et de modification du fichier, pour affirmer qu’ils datent d’un mois dans le futur. 6 11 Ajoute un COMMIT toutes les 500 lignes d’un gros fichier SQL d’insertion 6 12 Décode et imprime un fichier encodé en base64 6 13 dos2unix 6 14 mac2unix 6 15 Convertit tous les noms de fichiers du répertoire courant en minuscules, et meurt en cas de problème 6 16 Effaceur de fichiers temporaires 6 17 Découper un fichier en blocs de n lignes 6 18 Découper un fichier en blocs de n lignes suite 7 19 Sélectionner une tranche d’un fichier texte 7 20 Sélectionner une tranche d’un fichier texte suite 7 21 Classer ses fichiers par date 8 22 Remplacer une ligne par une autre (les deux passées en paramètre) dans un fichier : 9 II Contenu 11 23 Comment supprimer les doublons dans un fichier ? 2 11 24 Comment convertir un a en un b en ligne de commande dans toto.c ? 25 Tris 25.1 25.2 25.3 25.4 25.5 25.6 25.7 en Perl Trier numériquement une liste La fonction sort . . . . . . . . La fonction sort 2 . . . . . . . Tri avec référence . . . . . . . Tris multiples . . . . . . . . . Plus petit et le plus grand des Transformer deux mots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . éléments d’une . . . . . . . . . . . . . . . . . . . . . . . . . . . . . liste : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 11 11 11 11 12 12 12 26 Remplace ”machin” par ”bidule” 12 27 Supprime les lignes en doublon 12 28 Calcule la somme du premier et dernier champ de chaque ligne : 12 29 Extrait, trie et imprime les mots d’un fichier 12 30 Affiche les lignes du fichier fichier (ou du flux reçu sur l’entrée standard) par ordre croissant d’occurrence 12 31 Pour convertir de ISO-Latin-1 vers UTF-8 13 32 Pour convertir de UTF-16 vers ISO-Latin-1 13 33 Mini-traducteur 13 34 Affiche le premier paragraphe de la section Author de perl 13 35 mgrep 14 36 Supprimer des doublons 14 37 Supprimer les doublons 2 15 38 Calculer un handle de fichier 15 39 La fonction reduce() 16 40 Minimum et maximum d’une liste 17 41 Compter le nombre de lignes dans une chaı̂ne 18 42 La fonction pos() 18 43 Découpage en tranches 19 III 19 Annexes 44 Extrait l’en-tête d’un mail 19 45 Extrait le corps d’un mail : 20 3 46 Supprime la plupart des commentaires d’un source C 20 47 Trouve le premier UID non utilisé 20 48 Numérote les lignes d’un fichier 20 49 Conversion de secondes 20 50 Retrouvez votre adresse IP 20 51 Tester un compte POP 20 52 Générer toutes les adresses IP de plusieurs sous-réseaux 21 53 Générer une liste de nombres 21 54 Valeurs hexadécimales des nombres de 27 à 33 21 55 Générer une bête liste de nombres 21 56 L’idiome substr() = ”toto” 22 57 Visualisation de la progression 22 58 Les parenthèses ne font pas les listes 22 59 Découper un fichier diff (une rustine, quoi) 23 60 Récupérer ses mails 24 61 Un (autre) robot de traduction 26 62 Mesurer son débit avec l’aide de Free 27 63 Fractionner une image 30 64 Découper des MP3 avec Perl 31 4 Première partie Fichiers 1 Comment convertir tous ces fichiers .toto en .tata ? 2 Copie de fichiers #!/bin/bash # "bkup" - copie les fichiers spécifiés dans le répertoire ~/Backup # de l’utilisateur après avoir vérifié qu’il n’y a pas de conflits de nom. a=$(date +’%Y%m%d%H%M%S’) cp -i $1 ~/Backup/$1.$a chmod +x bkup # pour l’exécuter, saisissez simplement ./bkup fichier.txt 3 Ajouter un préfixe aux fichiers traités $ perl -i ’orig_*’ -pe ’s/\bfoo\b/toto/g;s/\bbar\b/titi/g’ fichier1 fichier2 4 Sauvegarder les originaux dans un répertoire $ perl -i ’orig/*.bak’ -pe ’s/\bfoo\b/toto/g;s/\bbar\b/titi/g’ fichier1 fichier2 5 Supprime les fichiers temporaires d’emacs $ find $HOME -name ’*~’ -print0 | perl -n0e unlink 6 Compte les paragraphes d’un fichier $ perl -n000e ’END{print "$. paragraphes\n"}’ fich 7 Imprime les lignes communes aux deux fichiers perl -ne ’print if ($seen{$_} .= @ARGV) =~ /10$/’ fichier1 fichier2 8 Imprime les lignes communes à 3 fichiers perl -ne ’print if ($seen{$_} .= @ARGV) =~ /21+0$/’ fichier1 fichier2 fichier3 5 9 Détecte les fichiers texte perl -le ’for(@ARGV) {print if -f && -T _}’ * 10 Modifie des dates d’accès et de modification du fichier, pour affirmer qu’ils datent d’un mois dans le futur. perl -e ’$X=24*60*60; utime(time(),time() + 30 * $X,@ARGV)’ fichier 11 Ajoute un COMMIT toutes les 500 lignes d’un gros fichier SQL d’insertion perl -ple ’print "COMMIT;" unless $. % 500’ fichier.sql 12 Décode et imprime un fichier encodé en base64 (tel que fourni par uuencode -m, par exemple) perl -MMIME::Base64 -pe ’$_ = decode_base64($_)’ fichier_base64 13 dos2unix perl -pi -e ’s/\r\n/\n/g’ fichier_dos.txt 14 mac2unix perl -w015l12pi.bak fichier_mac.txt 15 Convertit tous les noms de fichiers du répertoire courant en minuscules, et meurt en cas de problème perl -e ’rename $_, lc or die $! for <*>’ 16 Effaceur de fichiers temporaires find $HOME -name ’*~’ -print0 | perl -n0e unlink 17 Découper un fichier en blocs de n lignes Récemment, un collègue a eu besoin de découper un gros fichier en blocs de 65534 lignes (car Excel tronque les fichiers texte CSV qu’il importe à 65535, c’est embêtant). #!perl -wn BEGIN { $file = "partie00"; } if( $. % 65534 == 1) { # NOTE: $. commence à 1 close F; # ferme le fichier précédent 6 open F, "> $file.csv" or die "Impossible de créer $file.csv: $!"; $file++; # auto-incrément magique } print F; 18 Découper un fichier en blocs de n lignes suite Voici le script précédent modifié pour découper un gros fichier en morceaux tenant sur une disquette : #!perl -wn BEGIN { $file = "partie00"; $/ = \1024; # lecture par blocs de 1 Ko $n = 0; } unless( $n++ % 1440 ) { # une disquette contient 1440 Ko close F; open F, "> $file.csv" or die "Impossible de créer $file.csv: $!"; $file++; } print F; 19 Sélectionner une tranche d’un fichier texte Découper un fichier texte en morceaux, c’est bien, mais il y a des fois où on voudrait pouvoir simplement ne retenir qu’une partie du fichier, ne conserver qu’un bloc contenu entre certaines lignes. Il peut y avoir moyen de bricoler avec des outils comme tail(1) et head(1), mais pourquoi perdre du temps à s’escaguasser avec ça quand il est si facile de le faire en Perl. $ perl -ne ’18..21 and print’ long_texte.txt 20 Sélectionner une tranche d’un fichier texte suite Dans ce cas-ci, il n’affichera que les lignes 18 à 21 du fichier long_texte.txt. Toutefois il serait plus pratique d’en faire un script auquel on pourrait passer les lignes à afficher en paramètres. Écrivons donc ce script, que nous nommons splice pour faire référence à la fonction du même nom en Perl, mais qui travaille elle sur les tableaux. #!/usr/bin/perl my($first,$last) = (shift,shift); $.==$first .. $.==$last and print while <> Si on invoque ce script ainsi : $ splice 185 202 long_texte.txt il affichera les lignes 15 à 20 (incluses) du fichier long_texte.txt. 7 C’est pas mal, mais on peut faire mieux. Bien mieux. Si on change la manière d’indiquer les lignes à afficher, et qu’on adopte une syntaxe similaire à celle de cut(1), on peut alors indiquer plusieurs blocs de lignes. #!/usr/bin/perl sub usage { print STDERR "usage: splice LINES [file ...]\n" and exit -1 } my $lines = shift || usage(); my(@first,@last,$i) = (); for my $block (split ’,’, $lines) { my @l = split ’-’, $block; push @first, $l[0]; push @last, $l[1] || $first[-1]; } ($.==$first[$i]||($.==$first[$i+1]&&++$i)) .. $.==$last[$i] and print while <> L’exemple précédent s’écrit maintenant : $ man perl | splice 319-322 NOTES The Perl motto is ”There’s more than one way to do it.” Divining how many more is left as an exercise to the reader. Plus intéressant, on peut maintenant indiquer plusieurs blocs de lignes à afficher. Pour illustrer cela, on crée d’abord un fichier qui ne contient que ses numéros de lignes : $ pseq 1 20 "line %d" >text ou, pour ceux qui n’auraient pas conservé la Perle correspondante : $ perl -le ’print"line $_"for 1..20’ >text Exécutons maintenant splice en sélectionnant les lignes 8 à 9, 12 et 15 à 17. $ splice 8-9,12,15-17 text line 8 line 9 line 12 line 15 line 16 line 17 Comme on le voit, seules les lignes indiquées sont affichées. Quant à ceux qui voudraient maintenant sélectionner des tranches non plus en fonction des numéros de lignes, mais en fonction du texte (en quelque sorte un mélange des fonctionnalités de splice et de grep(1)), il y a moyen de faire quelque chose, mais c’est plus délicat de trouver une manière générique de l’exprimer. 21 Classer ses fichiers par date Si vous avez un répertoire mal rangé, une première approche de sa réorganisation peut être de classer les fichiers par date, dans des répertoires judicieusement nommés. $ ls -l -rw-rw-r--rw-rw-r-- 1 book book 1 book book 123 2005-05-14 17:21 bang_eth 32 2005-05-14 16:54 clash 8 -rw-rw-r--rw-rw-r--rw-rw-r--rw-rw-r--rw-rw-r--rw-rw-r--rw-rw-r--rw-rw-r-- 1 1 1 1 1 1 1 1 book book book book book book book book book book book book book book book book 1023 957 342 764 8764 723 1760 3076 2005-05-12 2005-05-19 2005-05-19 2005-05-12 2005-05-19 2005-05-13 2005-05-18 2005-05-19 10:07 11:18 15:15 10:07 15:10 15:41 21:32 15:15 clunk crraack kayo pam powie touche uggh zlonk L’uniligne suivant va faire l’opération pour nous : $ perl -MPOSIX=strftime -MFile::Path -e ’for(glob"*"){mkpath$d=strftime"%Y-%m-%d", localtime((stat)[9]);rename$_,"$d/$_"}’ La fonction strftime() du module POSIX permet d’afficher une date en fonction d’un patron. mkpath() fournie par File : :Path permet la création des répertoires. Nous obtenons le résultat attendu : $ tree . |-- 2005-05-12 | |-- clunk | ‘-- pam |-- 2005-05-13 | ‘-- touche |-- 2005-05-14 | |-- bang_eth | ‘-- clash |-- 2005-05-18 | ‘-- uggh ‘-- 2005-05-19 |-- crraack |-- kayo |-- powie ‘-- zlonk 5 directories, 10 files Sachant que mkpath() se comporte comme mkdir -p (en créant les répertoires intermédiaires si nécessaire), on peut même imaginer des patrons avec plusieurs niveaux de profondeur, comme %Y/%m/%d ou %Y/%U (%U, %V et %W sont trois manières de compter les semaines dans l’année). Attention, rename(), tout comme son équivalent C (rename(2)) se contente de renommer le fichier ; il ne saura pas le déplacer physiquement d’un système de fichier à un autre si besoin est. Pour faire des copies d’un système de fichier à un autre, il faut utiliser File::Copy, qui fournit des fonctions move() et copy() qui fonctionnent comme les commandes mv et cp usuelles. (Mais ceci dépasse le cadre de cet uniligne.) 22 Remplacer une ligne par une autre (les deux passées en paramètre) dans un fichier : #!/bin/sh if [ $# -ne 2 ] # si le nombre de paramètres n’est pas 2 9 then echo echo echo exit fi IFS="\n" # affiche l’usage Usage: $0 ligne1 ligne2 1>&2 Ce programme lit l’entrée standard, remplace ligne1 par 1>&2 ligne2 et écrit le résultat sur la sortie standard 1>&2 1 while read ligne # # # # la variable IFS (Internal Field Separator) est "ENTER" (utilisée par la commande read) met dans la variable ligne une ligne de l’entrée standard tant qu’on n’est pas arrivé a la fin do if [ $ligne = $1 ] then echo $2 else echo $ligne fi done exit 0 # si ligne est égale au premier paramètre # affiche le deuxième paramètre à sa place # sinon, il affiche la ligne # sortie normale (code de retour 0) Pour l’utiliser, exécutez (par exemple) : script un deux <fichierEntrée>fichierSortie.mk 10 Deuxième partie Contenu 23 Comment supprimer les doublons dans un fichier ? 24 Comment convertir un a en un b en ligne de commande dans toto.c ? [A revoir] sed ’’s|a|b|g’’ toto.c; 25 Tris en Perl @lettres = qw( a z e r t y ); @out = sort @lettres; # @out vaut maintenant (a,e,r,t,y,z) 25.1 Trier numériquement une liste sub par_num { return $a <=> $b } @out = sort par_num @in 25.2 La fonction sort La fonction sort accepte aussi directement un bloc anonyme à la place du nom de la fonction, qui jouera le rôle de la fonction de comparaison : @out = sort { $b <=> $a } @in; # ici, on trie en ordre numérique inversé # (remarquez l’ordre de $a et $b) Le bloc anonyme étant totalement arbitraire, nous pouvons donc réaliser n’importe quel tri très facilement grâce à ce modèle. Voici par exemple un tri sur la date de modification des fichiers : @out = sort { -M $a <=> -M $b } @fichiers; 25.3 La fonction sort 2 @out = sort @in; # tri lexicographique @out = sort { $a cmp $b } @in; # m^ eme chose, explicite 25.4 Tri avec référence Comme la liste à trier peut contenir n’importe quelles données, y compris des références, rien ne nous empêche d’interpréter les valeurs comme nous le voulons : @out = sort { $a->[0] <=> $b->[0] } @in 11 25.5 Tris multiples out = sort { $a =~ y/e// <=> $b =~ y/e// || $a cmp $b } @mots 25.6 Plus petit et le plus grand des éléments d’une liste : my ($min, $max) = (sort @tab)[0, -1 ou my ($min,$max) = foreach ( @tab ) $min = $_ if $max = $_ if } 25.7 ($tab[0]) x 2; # init. sinon warnings { $_ < $min; $_ > $max; Transformer deux mots Supposons que vous traduisez un document en anglais, et que vous voulez transformer tous les foo en toto et tous les bar en titi dans les exemples. Une fois que vous avez la nouvelle version, l’ancienne n’a plus d’intérêt pour vous. $ perl -i -pe ’s/\bfoo\b/toto/g;s/\bbar\b/titi/g’ monfichier 26 Remplace ”machin” par ”bidule” perl -pe ’s/\bmachin\b/bidule/g’ fichier 27 Supprime les lignes en doublon perl -ne ’print unless $doublon{$_}++’ fichier 28 Calcule la somme du premier et dernier champ de chaque ligne : perl -lane ’print $F[0] + $F[-1]’ fichier 29 Extrait, trie et imprime les mots d’un fichier perl -0nal012e ’@a{@F}++; print for sort keys %a’ 30 Affiche les lignes du fichier fichier (ou du flux reçu sur l’entrée standard) par ordre croissant d’occurrence perl -ne ’$c{$_}++;END{print sort { $c{$a}<=>$c{$b} } keys%c}’ fichier 12 31 Pour convertir de ISO-Latin-1 vers UTF-8 perl -MUnicode::String=latin1 -ne ’print latin1($_)->utf8’ fichier.txt > nouveau.txt 32 Pour convertir de UTF-16 vers ISO-Latin-1 $ perl -MUnicode::String=utf16 -ne ’print utf16($_)->latin1’ fichier.txt > nouveau.txt 33 Mini-traducteur #!/usr/bin/perl -w use strict; use WWW::Babelfish; my $fish = new WWW::Babelfish( agent => ’Translate/0.1’ ); die ("Babelfish indisponible\n") unless defined($fish); my $prompt = "\n? "; print $prompt; while (<>) { print $fish->translate( source => ’English’, destination => ’French’, text => $_, #delimiter => "\n\n", ), $prompt; } 34 Affiche le premier paragraphe de la section Author de perl $ man perl | col -b | perl -ne ’/AUTHOR/../^$/ and print’ AUTHOR Larry Wall <[email protected]>, with the help of oodles of other folks. En suivant la même route que pour splice, il est simple de transformer cet uniligne en petit script mgrep (comme multi-grep : #!/usr/bin/perl my($first,$last) = (shift,shift); /$first/../$last/ and print while <> L’exemple précédent s’écrit alors : $ man perl | col -b | sgrep ’AUTHOR’ ’^$’ AUTHOR Larry Wall <[email protected]>, with the help of oodles of other folks. 13 35 mgrep L’étape suivante, accepter plusieurs expressions régulières, est celle qu’il est plus difficile de rendre aussi élégante que pour splice. En effet, dans l’idéal nous voudrions pouvoir accepter n’importe quelle expression régulière, mais certains caractères sont nécessaires pour la syntaxe de délimitation de ces expressions à passer en argument à mgrep (en reprenant celle de splice, on utilise le tiret pour délimiter les expressions d’un couple et la virgule pour délimiter les couples). Ces caractères ne pourront donc pas être utilisés au sein des expressions régulières, à moins de vouloir coder un mécanisme d’échappement. Nous nous en tenons à la syntaxe de splice, en connaissant et acceptant ses limitations. #!/usr/bin/perl use strict; sub usage { print STDERR "usage: mgrep PATTERNS [file ...]\n" and exit -1 } my $patterns = shift || usage(); my(@first,@last,$i) = (); for my $block (split ’,’, $patterns) { my @l = split ’-’, $block; push @first, $l[0]; push @last, $l[1] || $first[-1]; } (/$first[$i]/||(/$first[$i+1]/&&++$i)) .. /$last[$i]/ and print while <> Un exemple d’exécution de mgrep ressemblera à ceci : $ man perl | col -b | mgrep AUTHOR-’^$’,motto,virtues-why AUTHOR Larry Wall <[email protected]>, with the help of oodles of other folks. The Perl motto is "There’s more than one way to do it." The three principal virtues of a programmer are Laziness, Impatience, and Hubris. See the Camel Book for why. Les arguments signifient : afficher la ligne qui contient AUTHOR et le paragraphe qui suit (paramètre AUTHOR-’^$’), afficher la ligne qui contient motto (paramètre motto), afficher le texte de la ligne qui contient virtues à la ligne qui contient why (paramètre virtues-why). 36 Supprimer des doublons Le webmestre de http ://www.fatrazie.com/ possède un fichier avec près de 50 000 noms de villes françaises avec leurs coordonnées géographiques et leurs codes postaux. Ce fichier a été lui-même assemblé laborieusement à partir de diverses sources et à l’aide de programmes Perl (dont le module WWW : :Gazetteer : :HeavensAbove). Le fichier courant contient une ville par ligne, avec dans l’ordre les champs nom, latitude, longitude, élévation et code postal, séparés par des tabulations. En voici un extrait : Montluel 45.850 5.050 195 01120 Nièvroz 45.833 5.067 185 01120 Pizay 45.883 5.083 284 01120 Pizay 45.733 4.333 492 01120 Thil 45.817 5.017 182 01120 Sainte-Croix 44.767 5.283 425 01120 Sainte-Croix 45.900 5.050 280 01120 14 Sainte-Croix 44.767 5.283 425 01120 La Léchere 45.200 6.467 1075 01121 La Léchère 45.867 5.100 238 01121 La Léchère 45.867 5.100 238 01121 Léchère 45.583 6.333 1393 01121 Belleydoux 46.250 5.767 754 01130 Charix 46.183 5.683 758 01130 Pour nettoyer son fichier, il souhaite maintenant supprimer les doublons de villes ayant le même nom et le même code postal (les coordonnées géographiques sont souvent très proches, voire identiques). L’objectif de cette perle n’est pas seulement de vous montrer l’uniligne qui a fait tout le travail, mais surtout de vous apprendre le réflexe presque pavlovien de tout perleur accompli : quand vous entendez le mot unique , vous devez immédiatement penser table de hachage . Ensuite, tout le problème est de construire la bonne clé pour ce hachage. Dans le cas qui nous occupe, c’est tout simple : on considère que deux villes sont identiques si elles ont le même nom et le même code postal. Notre clé sera donc la simple concaténation de ces deux champs. $ perl -lnaF\\t -e ’print unless $c{$F[0].$F[-1]}++’ FranceA-Z.txt > FranceA-unique.txt 37 Supprimer les doublons 2 Attention quand vous utilisez des clés composites : contrairement au cas ci-dessus, il est en général préférable d’utiliser un séparateur spécifique entre ces clés. Cela permet d’éviter des collisions fâcheuses, par exemple avec des cas où une clé serait la concaténation de ab, a et l’autre celle de a et ba. Le problème ne se posait pas dans notre cas, car il n’existe pas de ville dont le nom se termine par un nombre dans notre fichier. Pour nous simplifier la vie, nous allons utiliser une technique remontant à Perl 4 : l’émulation de tableaux multi-dimensionnels (à l’époque, les références n’existaient pas et c’était la seule manière de faire des tableaux multi-dimensionnels). Cela consiste à séparer les différents éléments de la clé par des virgules. Notre uniligne deviendrait (on a changé le . en ,) : $ perl -lnaF\\t -e ’print unless $c{$F[0],$F[-1]}++’ FranceA-Z.txt > FranceA-unique.txt Perl remplace alors $c{$F[0],$F[-1]} par $c{join $;, $F[0], $F[-1]}, comme expliqué dans perlvar(1) à la section parlant de la variable $;. Par défaut, $; est le caractère \034, qui a tout de m^ eme peu de chances de se retrouver dans vos données. 38 Calculer un handle de fichier J’ai récemment dû faire le tri entre les bonnes lignes et les mauvaises lignes d’un fichier. Le fichier en question était la sortie de comm(1). Il s’agissait de vérifier que toutes les lignes d’un fichier A étaient présentes dans le fichier B (A et B étant triés). On utilise donc comm -2 A B pour obtenir les lignes de A absentes de B et les lignes de A présentes dans B. Ces dernières sont précédées d’une tabulation puisque comm(1) présente les résultats en colonnes. Pour distribuer les lignes dans les fichier A_ok et A_err, on utilise l’uniligne suivant : comm -2 A B | perl -nle ’print{s/^\t//?STDOUT:STDERR}$_’ > A_ok 2> A_err Explication : on utilise l’opérateur ternaire ? : pour choisir vers quel filehandle écrire la ligne courante : la sortie standard ou la sortie d’erreur. Le choix est conditionné par la présence d’une tabulation en début 15 de ligne, que l’on enlève au passage (s/^\t//). Le filehandle donné à print doit être soit un mot simple (bareword), soit une variable scalaire (sinon l’analyseur syntaxique de Perl n’arrive pas à s’y retrouver). Toute chose plus compliquée que cela (comme un élément de tableau ou une expression) doit être placée entre accolades : print { expression qui renvoie un filehandle } ... Ensuite, on utilise le shell pour rediriger la sortie standard et la sortie d’erreur vers deux fichiers différents. 39 La fonction reduce() La fonction reduce() est une notion qui vient de la programmation fonctionnelle, comme map ou grep. L’idée est assez simple : soit une fonction f() prenant deux paramètres, il s’agit d’appliquer cette fonction à une liste de paramètres. On réduit la liste en appliquant successivement la fonction f() aux deux premiers éléments de la liste et en les remplaçant par le résultat. On continue jusqu’à ce que la liste ne contienne plus qu’un seul élément, le résultat final. Un exemple concret est celui de la somme, qui généralise l’addition (opération appliquée à deux opérandes) à une liste de plusieurs opérandes. Dans le cas général, la réduction de la liste (a, b, c, d, e) par la fonction f() serait f( f( f( f( a, b ), c ), d ), e ). Perl ne dispose pas d’une fonction reduce() en standard (contrairement à Python, par exemple). Heureusement, le module List : :Util en propose une, qui s’utilise en passant un bloc de code en premier paramètre, exactement comme la fonction standard sort(). List : :Util fait partie de la distribution Scalar-List-Utils, qui contient également Scalar : :Util. Ces deux modules font partie de la distribution standard de Perl depuis la version 5.7.3. Comme List : :Util fournit déjà une fonction sum(), nous allons écrire une fonction mul() qui calcule le produit des éléments d’une liste : use List::Util qw( reduce ); sub mul { reduce { $a * $b } @_ } Tout l’intérêt de la fonction reduce() de List : :Util est de pouvoir utiliser les variables globales standard aetb, comme avec sort(). En effet, on peut sinon écrire très facilement l’équivalent du code précédent : sub mul { my $res = shift; $res = $res * $_ for @_; $res } Ceci est bien sûr valable quelle que soit la fonction f() que l’on souhaite réduire. Il suffit d’écrire $res = f( $res, $_ ) for @_ dans l’exemple précédent. Attention tout de même aux effets de bords, en particulier avec l’utilisation de shift(), qui enlève le premier élément de la liste. Dans un contexte plus large qu’une simple fonction de quelques lignes où on manipule @_, il faut faire attention à ne pas modifier le tableau en question (ou au moins savoir qu’on le fait). Ainsi, à la place de : my $res = shift @liste; # ATTENTION, modifie la liste ! $res = f( $res, $_ ) for @liste; on préfèrera par exemple écrire : my $res = $liste[0]; $res = f( $res, $_ ) for @liste[ 1 .. $#liste ]; 16 ou toute autre version adaptée à la fonction f() et à l’utilisation que l’on fait du tableau @liste. Pour information, le module List : :Util fournit également les fonctions suivantes : * min LISTE et max LISTE Le minimum et le maximum d’une liste de nombres. * minstr LISTE et maxstr LISTE Le minimum et le maximum d’une liste de chaı̂nes de caractères. * first BLOC LISTE Le premier élément de la liste pour lequel le bloc renvoie une valeur vraie. * sum LISTE La somme des éléments de la liste, l’exemple classique. * shuffle LISTE Renvoie les éléments de la liste dans un ordre aléatoire. 40 Minimum et maximum d’une liste Perl ne dispose pas non plus des fonctions min() et max() pour obtenir le minimum et le maximum d’une liste. Sans rentrer dans les détails, on peut dire que c’est probablement parce qu’il existe beaucoup de manières de comparer plusieurs valeurs (en tant que nombres ou en tant que chaı̂nes de caractères, en tenant compte ou non de la localisation, etc.). De plus, de telles fonctions sont finalement assez peu utilisées et en général courtes à coder (comme nous l’avons vu avec reduce()) ; il n’a probablement pas été jugé utile de gaspiller un mot-clé pour elles. C’est pourquoi le jour où on a besoin du maximum ou du minimum d’une liste (et pas de toute la liste triée, auquel cas on utilise sort(), bien sûr), il va nous falloir écrire la fonction nous-mêmes. Dans les exemples qui suivent, nous prendrons pour simplifier le maximum numérique d’un tableau, mais c’est évidemment la même chose quelle que soit la liste à traiter et la fonction de comparaison. Commençons par la fausse bonne idée : sub max { (sort { $a <=> $b } @_)[-1] } # MAUVAIS Le résultat est juste : on prend le dernier élément d’une liste triée dans l’ordre croissant, c’est-à-dire le maximum. C’est facile à écrire, ça utilise un idiome Perl (indice négatif d’une liste), mais c’est très mauvais en performance : en effet, on trie la liste toute entière pour n’en garder qu’un seul élément. L’algorithme de tri utilisé par Perl dépend des versions (il y a eu pas mal d’ajouts pour Perl 5.8, en particulier la possibilité avec la pragma sort de choisir l’algorithme de tri utilisé), mais il donne au mieux un résultat en O(n log(n)). Pour obtenir le maximum d’une liste, on va plutôt utiliser la méthode classique, qui consiste à décréter que le maximum est le premier élément de la liste, puis à parcourir la liste pour mettre à jour sa valeur à chaque fois qu’on rencontre un élément plus grand que le maximum en cours. sub max { my $max = shift; $_ > $max and $max = $_ for @_; $max } Cette méthode est en O(n), c’est à dire que le nombre d’opérations est proportionnel au nombre d’éléments de la liste. On ne peut pas faire mieux algorithmiquement. Plus le nombre n d’éléments de la liste croı̂t, meilleur sera cet algorithme par rapport au précédent. Nous avons trouvé le meilleur algorithme, est-ce à dire qu’il n’est pas possible de faire mieux ? Bien sûr nous pouvons mieux faire, mais le gain obtenu ne pourra être que de l’ordre d’un facteur multiplicatif. Ainsi, le module List : :Util vu précédemment fournit une fonction max() écrite en C. Sur mon système, celle-ci est environ 3 fois plus rapide que la version Perl présentée ci-dessus. Certes, trouver le maximum d’une liste est d’autant plus long que la liste est grande, mais la fonction max() de List : :Util reste toujours à peu près 3 fois plus rapide que la version précédente sur une liste de taille donnée. À propos de List : :Util, nous pourrions nous servir de la version Perl de reduce() présentée dans la perle précédente. La fonction qui donne le maximum de deux éléments, tout le monde la connaı̂t : qui n’a pas vu les sempiternelles macros min et max en C ? #define max(a,b) ((a)>(b)?(a):(b)) 17 On pourrait donc écrire une version un peu différente de max(), comme ceci : sub max { my $max = shift; $max = $_ > $max ? $_ : $max for @_; $max } Il va falloir comparer les temps d’exécution de ces fonctions pour estimer les performances des quatre versions de max() dont nous disposons désormais. Nous pouvons d’ores et déjà faire quelques prédictions : – Les versions utilisant l’algorithme en O(n) finiront toujours par être plus rapides que la version en O(n log(n)). – La version C de List : :Util sera plus rapide que les versions Perl. – La version Perl utilisant la formule $_ > $max and $max = $_ sera plus rapide que celle utilisant $max = $_ > $max ? $_ : $max. – En effet, la première formule fait une comparaison et éventuellement une affection (une fois le maximum trouvé, plus aucune affectation ne sera faite), tandis que la seconde fait à chaque fois une comparaison et une affection, ce qui est nécessairement plus coûteux. 41 Compter le nombre de lignes dans une chaı̂ne Un uniligne pour compter le nombre de lignes dans une chaı̂ne : $nr++ while "un\ndeux\ntrois\n" =~ m/\G.*?\n/gc; A chaque itération, on part de la fin du match précédent grâce à l’ancre \G, puis on saute un minimum de caractères grâce à .* ? avant de chercher un saut de ligne. On incrémente alors $nr. On sort de la boucle quand on ne trouve plus de match. Bien sûr, en Perl, on peut procéder de multiples autres manières pour arriver au même résultat : grep { $nr++ if $_ eq ’\n’} split ’’, "un\ndeux\ntrois\n"; $nr = grep { $_ eq ’\n’ } split ’’, "un\ndeux\ntrois\n"; $s = "un\ndeux\ntrois\n" $nr = grep { substr($s, $_, 1) eq ’\n’} for 0..length($s)-1 42 La fonction pos() En dehors du match par une regex, la position courante dans une chaı̂ne est accessible par la fonction pos(). Comme beaucoup de fonctions Perl, elle prend la variable $_ comme argument par défaut. Illustrons par un exemple : $s = "Les mongueurs de Perl connaissent bien le langage Perl"; # Affiche 21, la position après la première occurrence de "Perl" $s =~ m/Perl/gc ; print pos($s),"\n" ; # Affiche toujours 21 car pas de match mais pas de remise à zéro # à cause de la présence de l’option /c $s =~ m/Python/gc ; print pos($s),"\n"; # Affiche 54, la position après la seconde occurrence de "Perl" $s =~ m/Perl/gc ; print pos($s),"\n" ; # affiche "54\n" 18 # Affiche 0. Pas de match et remise à zéro car absence de l’option /c. # pos($s) retourne undef qui, utilisé en contexte entier par # l’addition du 0, est converti en 0. $s =~ m/Python/g ; print pos($s)+0, "\n"; Dans la suite nous nous passerons de =~, car nous effectuerons la recherche dans $_. Illustrons l’idiome m/\G.../gc par l’écriture d’un analyseur naı̈f de fichier de configuration qui permet de remplir le hash %config avec des couples clé/valeur de configuration. Ainsi un fichier .myconfig contenant : a = toto b = titi c = tutu reviendra à initialiser %config comme suit : $config{’a’} = $config{’b’} = $config{’c’} = 43 "toto"; "titi"; "tutu"; Découpage en tranches Puisque l’objet de ce collier de perles est de présenter des idiomes, rappellons que nous aurions pu exprimer la même chose en terme de tranches de hash : @config{ ’a’, ’b’, ’c’ } = ( ’toto’, ’titi’, ’tutu’ ) que nous pouvons aussi écrire en utilisant qw() pour créer les listes : @config{ qw( a b c ) } = qw( toto titi tutu ); Voici le script de lecture du fichier de configuration : my %config; # hash qui contiendra la configuration open I, ".myconfig" or die $!; while(<I>) { s/[\s;]+//g; # supprime blancs et éventuels points virgules $config{$1} = $2 if m/\G(\w+)=(\w+)/gc; last if m/\G$/gc; # équivalent à : last if pos == length } Troisième partie Annexes 44 Extrait l’en-tête d’un mail perl -pe ’/^$/ && exit’ mail.txt 19 45 Extrait le corps d’un mail : perl -ne ’/^$/...do{print;0}’ mail.txt 46 Supprime la plupart des commentaires d’un source C perl -0777 -pe ’s{/\*.*?\*/}{}gs’ source.c 47 Trouve le premier UID non utilisé perl -le ’$i++ while getpwuid($i); print $i’ 48 Numérote les lignes d’un fichier perl -pe ’$_ = "$. $_"’ fichier 49 Conversion de secondes Vous avez une durée exprimée en secondes, mais vous voudriez l’afficher en jours, heures, minutes, secondes. $ perl -e ’$s=shift;print join" ",map{$i=int($s/$_->[0]);$s-=$i*$_->[0];chop$_->[1] if$i==1;$i?($i,$_->[1]):()}[86400,"days"],[3600,"hours"], [60,"minutes"],[1,"seconds"]’ 120983 Code déplié et commenté : $s = shift; print join " ", map { # concatène le résultat avec des espaces $i = int( $s / $_->[0] ); # combien de cette unité ? $s -= $i * $_->[0]; # secondes restantes chop $_->[1] if $i == 1; # supprime le ’s’ final au singulier $i ? ( $i, $_->[1] ) : () # retourne les éléments à afficher } # la liste des correspondances secondes/unité [ 86400, "jours" ], [ 3600, "heures" ], [ 60, "minutes" ], [ 1, "secondes"] 50 Retrouvez votre adresse IP $ perl -MLWP::Simple -le ’print get("http://whatismyip.com/")=~/IP\s+is ([\d.]+)/i’ 51 Tester un compte POP #!/usr/bin/perl use Net::POP3; 20 print STDERR "usage: pop3check server login [password]\n" and exit unless @ARGV; $| = 1; my ($server,$login,$passwd) = @ARGV; print "Password: " and chomp($passwd = <STDIN>) unless defined $passwd; print "connecting to $server.. "; my $pop = Net::POP3->new($server); print STDERR "can’t connect to server\n" and exit unless defined $pop; print "ok\n"; $pop->login($login, $passwd); print STDERR "error: wrong username or password\n" and exit unless $pop->ok; my ($undeleted, $size) = $pop->popstat; my $last = $pop->last; print "mail box size: $size\n", "$undeleted unread mail(s).\n", "last read mail was number $last\n\n"; 52 Générer toutes les adresses IP de plusieurs sous-réseaux #!/usr/bin/perl use NetAddr::IP; print STDERR "usage: subnets network/mask bits\n" and exit unless @ARGV; my($network,$bits) = @ARGV; my $mask = (split ’/’, $network)[1]; print STDERR "bits undefined or smaller than mask\n" and exit unless $bits >= $mask; for my $net ( NetAddr::IP->new($network)->split($bits) ) { print join(" ", map { $net+$_ } 0..(1<<(32-$bits))-1 ), $/ } 53 Générer une liste de nombres $ perl -le print,for+shift..shift 1 10 54 Valeurs hexadécimales des nombres de 27 à 33 $ perl -e ’printf$ARGV[0].$/,$_ for+shift..shift’ 27 33 "%02X" 55 Générer une bête liste de nombres $ perl -e ’$ARGV[2]||="%s";printf$ARGV[0].$/,$_ for+shift..shift’ DEBUT FIN FORMAT 21 56 L’idiome substr() = ”toto” Il est peu connu que la fonction substr() peut être lhs. Ce sigle pour left hand side signifie qu’une expression peut apparaı̂tre dans la partie gauche d’une affectation. On sait que substr($str, $debut, $longueur) retourne la sous-chaı̂ne de $str de longueur $longueur commençant à la position $debut. Mais, en mettant cette expression en lhs, cette sous-chaı̂ne est remplacée par la partie droite de l’affectation. Exemple : $s = "groupe de mongers parisiens"; print substr($s, 10, 7); # affiche "mongers" substr($s, 10, 7) = "mongueurs"; print $s; # affiche "groupe de mongeurs parisiens"; Notons que la fonction pos() est aussi lhs de sorte que vous pouvez modifier la position courante dans une chaı̂ne. 57 Visualisation de la progression Revenons à notre script. Notre analyse syntaxique se bloque si le fichier de configuration n’a pas le format attendu. Elle boucle alors indéfiniment. Corrigeons cela. En cas d’erreur, le script indiquera la position de l’erreur, puis sortira. On le fait en insérant comme marqueur la chaı̂ne "<*>" à la position courante de la chaı̂ne analysée. On sort en affichant cette chaı̂ne modifiée si son analyse ne progresse plus. Adaptons notre script pour afficher la position courante pour ce faire. Nous incluons aussi Data : :Dumper pour pouvoir afficher la valeur de %config à la fin du script. use strict; use Data::Dumper my %config; # hash qui contiendra la configuration open I, ".myconfig" or die $!; while(<I>) { my $pos = pos; # pos() mémorise la position courante s/[\s+;]+//g; $config{$1} = $2 if m/\G(\w+)=(\w+)/gc; last if m/\G$/gc; if ( $pos == pos ) { # la position courante a-t-elle avancé ? substr( $_, pos, 0 ) = "<*>"; die $_; # meurt si on n’a pas avancé dans la cha^ ıne } } print Dumper(\%config); 58 Les parenthèses ne font pas les listes Notons que, dans notre script ci-dessus, nous appellons la fonction pos() sans utiliser de parenthèses. En perl, dans l’écriture de l’appel d’une fonction, les parenthèses ne sont là que pour grouper les éléments d’une liste, éventuellement vide, de paramètres. En d’autre termes, l’opérateur de création de liste est la virgule. 22 Ce groupement par les parenthèses est souvent nécessaire car la précédence de l’opérateur d’affection est plus forte que celui de création de liste. Ainsi les parenthèses sont indispensables dans l’expression : substr( $_, pos, 0 ) = "<*>"; Car : substr $_, pos, 0 = "<*>"; est l’équivalent de : substr( $_, pos, (0 = "<*>") ); Cela n’a pas de sens car comme le compilateur le signalera alors, une constante ne peut pas être en position lhs. 59 Découper un fichier diff (une rustine, quoi) Pour produire un patch, il faut faire un diff. La commande suivante produit un fichier contenant l’intégralité des différences entre les fichiers des deux arborescences passées en paramètre. $ diff -Nru projet.new/ projet.HEAD/ > projet.patch Le programme patch (écrit à l’origine par un certain Larry Wall) sait lire ce fichier rustine pour en appliquer le résultat à l’arborescence d’origine. Si vous voulez récupérer les rustines individuelles (fichier source par fichier source), vous pouvez utiliser l’uniligne suivant : $ perl -MIO::File -pe ’*STDOUT=IO::File->new(sprintf"> patch.%03d", ++$i) if /^diff/’ On profite de la boucle implicite créée par l’option -p pour lire le fichier de patch ligne à ligne et imprimer automatiquement chaque ligne sur la sortie standard (STDOUT). L’astuce consiste à changer le fichier correspondant à STDOUT à chaque fois qu’on détecte le début d’un nouveau diff. L’interface fournie par le module standard IO : :File et sa méthode new permet de retourner un filehandle à partir d’un nom de fichier, IO : :File s’étant chargé d’ouvrir le fichier. Or un filehandle est la seule chose que l’on puisse affecter à un glob (au sens de perl) tel que *STDOUT. C’est ce qui est fait. Pour ceux qui s’inquiètent de l’utilisation des ressources, sachez que les fichiers sont automatiquement fermés lors de l’association de STDOUT au fichier. Cela a été vérifié grâce à la commande lsof(1). Maintenant que nous connaissons le principe de base, imaginons que, en plein séance de compilation de RPM, nous modifions les sources en live dans ~/rpm/BUILD/package/, avec une arborescence de référence dans ~/package. Les fichiers dans ~/rpm/BUILD étant effacés à chaque recompilation par rpmbuild -ba package.spec, nous tenons à obtenir sous forme de patch (le format nécessaire à RPM) nos modifications. Le réflexe premier est de faire un gros diff : $ diff -urN ~/package/ ~/rpm/BUILD/package/ | grep -v ^Binary > ~/tmp/mongros.patch Déjà, on s’aperçoit que diff rencontre des fichiers binaires dont il ne sait que faire (d’où le grep), mais il va aussi rencontrer tout ce qui fichier texté créé par configure, comme les Makefile, fichiers de dépendance, etc. Le patch va donc être énorme, avec un quantité industrielle de déchets (essayez). Or, ce qui nous intéresse, ce sont essentiellement les fichiers .c et .h qui ont été modifiés. Perl à la rescousse : $ perl -MIO::File -pe ’if(/^diff/){$n=m!.*/(.*\.[ch])$! ? ">$1.patch" : ">/dev/null" ; *STDOUT=IO::File->new($n)}’ mongros.patch 23 Là, ayant construit le nom de fichier ($n) à ouvrir (*STDOUT=IO::File->new($n)) à partir des noms des fichiers ((.*\.[ch])$) dans le diff, on obtient les trois patchs sur 50 qui nous intéressent : $ echo *.patch check_disk.c.patch check_smtp.c.patch check_ups.c.patch Notez l’utilisation de l’opérateur m// sous sa forme m ! !, pour deux raisons : si on avait gardé la forme m//, il nous aurait fallu échapper le / dans l’expression rationnelle, pour éviter que perl ne le confonde avec la fin de l’expression ; et comme le shell utilise le même caractère que perl pour les échappements (\), il nous aurait fallu l’échapper deux fois (\\/). Les 47 rustines qui ne nous intéressent pas sont poubellisées grâce à ce cher /dev/null, bien pratique à utiliser. Il nous faut néanmoins rajouter un test supplémentaire au début, de façon à ne réouvrir un nouveau fichier qu’à la ligne commençant par /^diff/. Sinon, vos patches n’auront qu’une ligne, et leur contenu sera parti à la poubelle. Il ne nous reste plus qu’à concaténer nos trois fichiers pour avoir un joli patch à intégrer à notre package.spec : $ cat *.patch > monpetit.patch Une autre solution est de tout concaténer grâce à Perl : $ perl -MIO::File -pe ’if(/^diff/){$n=m!.*/(.*\.[ch])$!?">>$ARGV.petit":">/dev/null"; *STDOUT=IO::File->new($n)}’ mongros.patch Là, $ARGV est utilisé pour récupérer le nom du fichier lu par l’opérateur diamant <>, lui-même induit par le commutateur -p passé à perl. Vous trouverez plus d’informations en consultant les pages de manuel perlrun(1) et perlvar(1). Ah, au fait, pourquoi faire compliqué quand on peut faire simple ? Notre ligne de commande commence à sérieusement s’allonger, allons la raccourcir en utilisant open : $ perl -pe ’if(/^diff/){$n=m!.*/(.*\.[ch])$!?">>$ARGV.petit":">/dev/null";open STDOUT,$n}’ mongros.patch Ça fait quelques 23 caractères de gagnés, non négligeables pour les fainéants que nous sommes. 60 Récupérer ses mails Avec un titre pareil, vous allez vous dire que ça part mal : pour récupérer ses mails, on utilise son client mail (quel qu’il soit), et ça marche très bien. Exact, je préfère ça aussi. Mais récemment, suite à un déménagement, je me suis retrouvé coupé de tout accès au net, et donc dans l’impossibilité de récupérer mes mails. Or je reçois environ 200 mails par jour et autant de spam. Et le quota sur Free n’est que de 25 Mo. Donc au bout de d’un mois, mon compte s’est dangereusement rapproché de la limite supérieure, et il me fallait récupérer mes mails avant que les suivants ne soient refusés. La réponse toute faite de la plupart des personnes est d’utiliser Fetchmail. Sauf que Fetchmail tient absolument à renvoyer les mails sur un serveur qui se chargera de les délivrer (un MDA, Mail Delivery Agent). C’est une solution, mais je voulais simplement récupérer mes mails, les stocker tous dans un simple fichier au classique format mbox. A priori, Fetchmail ne permet pas de faire ça. Voici donc un petit script Perl pour récupérer les mails par POP3. #!/usr/bin/perl use strict; use Email::Simple; use Net::POP3; sub usage { die "usage: getmail file\n" } 24 my $server = ’pop.free.fr’; my $login = ’maddingue’; my $passwd = ’5eckr3t’; my $mbox = shift or usage(); $| = 1; print "connecting to $server.. "; my $pop = new Net::POP3 $server or die "error: can’t connect to $server: $!\n"; print "ok\n"; $pop->login($login, $passwd); $pop->ok or die "error: wrong username or password\n"; my ($undeleted, $size) = $pop->popstat; my $last = $pop->last; print "mail box size: $size\n", "$undeleted unread mail(s).\n", "last read mail was number $last\n\n"; open(MBOX, ’>’, $mbox) or die "error: can’t write ’$mbox’: $!\n"; my $fetched = 0; for my $num (1..$undeleted) { my $msg = $pop->get($num); next unless ref $msg; mbox_envelope($msg); print MBOX @$msg, $/; $fetched += $pop->list($num); printf "\rfetched %2.0f%%", $fetched*100/$size; $pop->delete($num); } close(MBOX); print $/; $pop->quit; sub mbox_envelope { my $text = $_[0]; my $msg = new Email::Simple join ’’, @$text; my $date = $msg->header(’Date’); my $from = $msg->header(’Return-Path’); $from = $msg->header(’From’) unless $from; $from =~ s/[<>]//g; $from =~ /(\S+\@\S+)/ and $from = $1; unshift @$text, "From $from $date\n" } Vous reconnaı̂trez dans le début du script celui présenté il y a un an et demi pour vérifier son compte POP3. Il est augmenté d’une boucle qui récupère les messages l’un après l’autre et les stocke dans le fichier dont le 25 nom a été donné en argument du script. Détaillons son déroulement. Après s’être connecté ($pop = new Net::POP3 $server), authentifié ($pop->login($login, $passwd)) et avoir récupéré le nombre de mails à lire ($pop->popstat), une boucle se charge de traiter chaque message. À noter qu’elle commence à 1 et non 0. On télécharge chaque message avec $pop->get($num), qui le renvoie sous la forme d’une référence à tableau de lignes. On le passe à la fonction mbox_envelope() dont le rôle est d’ajouter une ligne au format From EXPEDITEUR DATE. Cette ligne, dite d’enveloppe, contient l’adresse de l’expéditeur telle qu’elle a été donnée au serveur mail d’envoi avec la commande SMTP MAIL FROM :, suivie de la date d’envoi. On la reconstitue en prenant la valeur du champ Return-Path :, s’il est présent, qui contient justement cette adresse, et sinon en prenant celle du champ From :. Cela peut sembler inutile mais cette ligne d’enveloppe, qui précède les entêtes RFC-822, est nécessaire pour que le fichier soit au format mbox et que les clients mails puissent ensuite le lire. Cette ligne est ensuite insérée en début du tableau qui contient le message. Puis celui-ci est stocké dans le fichier, et le message est marqué pour destruction sur le serveur POP3. À noter que les messages ne sont effectivement détruits que lorsqu’on exécute $pop->quit(), donc jusqu’à ce moment-là, le script peut à tout moment être interrompu sans que cela n’affecte vos mails sur le serveur. On peut noter que ce script utilise, en plus du module Net : :POP3, le module Email : :Simple du projet PEP[1] (Perl Email Project). Ce projet initié par Simon Cozens consiste à fournir des modules plus propres et plus simples que ceux qui existaient avant dans Mail : :* (y compris les siens). Il faut reconnaı̂tre qu’ici, son nom en : :Simple n’est pas abusif puisque l’interface est très naturelle : on passe le message en argument de new(), et on peut récupérer chaque entête avec la méthode header(). La prochaine fois que vous avez besoin d’un module Perl pour manipuler les mails, je vous recommande donc très chaudement de regarder d’abord les modules du projet PEP, qui sont véritablement simples à utiliser, même s’ils souffrent parfois d’un certain manque de documentation. Enfin, pour ceux qui se demanderaient si j’ai vraiment utilisé ce script, je réponds oui, et même plus d’une fois. Au total, j’ai ainsi pu récupérer les quelques 6000 mails (hors spam) qui se sont accumulés en deux mois sur mon compte. 61 Un (autre) robot de traduction Nous avons déjà présenté dans Linux Mag 61 un traducteur automatique, qui allait chercher les traductions de Babelfish à l’aide d’un module CPAN. Voici aujourd’hui un rapide robot de traduction qui s’appuie cette fois sur le site FreeTranslation (http ://www.freetranslation.com/). Comme toujours, une fois trouvée la page contenant le formulaire adéquat, nous demandons à voir le formulaire dans ses moindres détails : $ mech-dump http://www.freetranslation.com/free/ GET http://www.freetranslation.com/search/ [frmSearch] q=Search... (text) <NONAME>=Search (submit) POST http://ets.freetranslation.com/ [frmTranslator] sequence=core (hidden readonly) mode=html (hidden readonly) charset=UTF-8 (hidden readonly) template=results_en-us.htm (hidden readonly) language=English/Spanish (option) [*English/Spanish/English to Spanish|...| Russian/English/Russian to English] srctext=Type or paste some text here. (textarea) HumanTranslation=<UNDEF> (button) Submit=FREE Translation (submit) 26 C’est ici le second formulaire qui nous intéresse. Les noms des champs sont suffisamment parlants pour que nous identifiions rapidement les champs utiles : language et srctext. Un premier essai nous montre que la réponse est également dans un des champs du formulaire, le champ dsttext. Le script est constitué d’une boucle simple qui lit l’entrée standard ligne à ligne, envoie chaque ligne au site de traduction et affiche le résultat, avant de re-présenter le prompt, pour recommencer : #!/usr/bin/perl use strict; use WWW::Mechanize; my $m = WWW::Mechanize->new(); $|++; # autoflush # charge la première page $m->get(’http://www.freetranslation.com/free/’); die $m->res()->status_line() . "\n" unless $m->success(); print "? "; while (<>) { # sélectionne le second formulaire $m->form_number(2); # ou ’French/English’, ’English/German’, ’Italian/English’ $m->field( language => ’English/French’ ); $m->field( charset => ’iso-8859-1’ ); $m->field( srctext => $_ ); $m->click(); # voir ci-dessous print $m->current_form()->value(’dsttext’); print "\n? "; } Nos tests montrent rapidement qu’on peut également utiliser le champ charset si on préfère iso-8859-1 plutôt que le défaut UTF-8 (d’où la ligne supplémentaire dans mon script). Et ça marche ! ? programming language langage de programmation ? the three virtues of a programmer are impatience, lazyness and hubris les trois vertus d’un programmeur sont des impatiences, lazyness et la prétention Enfin, aussi bien que peut marcher la traduction automatique... ;-) Il s’agit d’un petit script rapide, mais c’est un bon point de départ pour écrire le module plus générique (par exemple Lingua : :Translate : :FreeTranslation). 62 Mesurer son débit avec l’aide de Free Sur la page http ://tdebit.proxad.net/debit/ le fournisseur d’accès Free fournit un test de débit pour mesurer les débits montants et descendants disponibles sur votre connexion. Une fois la page téléchargée, on voit que le script est en fait chargé dans un <iframe> : <iframe align=center frameborder=0 WIDTH=100% HEIGHT=300 src="index.pl"> 27 Nous utilisons mech-dump pour aller récupérer le formulaire directement et l’analyser : $ mech-dump http://tdebit.proxad.net/debit/index.pl POST http://tdebit.proxad.net/debit/debit.pl (multipart/form-data) ok=submit (image) up=010000001001000...100000010 (hidden readonly) dureeup=6.0342 (hidden readonly) sizeup=679209 (hidden readonly) Le contenu du champ up est énorme : 79521 caractères ! Cela fait partie de l’algorithme de calcul : ces données vont être envoyées lors du POST effectué lorsque que nous cliquerons sur le bouton Lancer le test de débit , afin de calculer un débit à l’aide du temps mis par le script de Free pour recevoir ces données (calcul du débit montant). Les deux champs sizeup et dureeup, contrairement à ce que semblent indiquer leurs noms sont associés au calcul de débit descendant. Ils correspondent respectivement au volume de données reçues (cachées dans des commentaires HTML) lors de la réception du formulaire et au temps qu’il a fallu au script pour les envoyer à notre client. Construire un script qui valide le formulaire et récupère la page HTML générée prend quelques lignes : #!/usr/bin/perl use WWW::Mechanize; my $m = WWW::Mechanize->new( autocheck => 1 ); $m->get(’http://tdebit.proxad.net/debit/index.pl’); $m->click(’ok’); print $m->content; Le contenu affiché contient toutes les informations souhaitées : <td class=’SMALL’><p><b><font color=’#61718A’><b>Débit descendant (download)</b></font></b><br> Taille du fichier 604,51 ko<br> Durée 5.426 secondes<br> <b>Débit 891,25 kbit/s</b> (111,41 ko/s) <br><br><img src=’blank.gif’ height=15 width=213.648043847452 align=center> 891,25 kbit/s <br><img src=’echelleup.gif’><br></p><p><b><font color=’#61718A’> Débit montant (upload)</font></b><br> Taille du fichier 75,57 ko<br> Durée 2.236 secondes<br> <b>Débit 270,4 kbit/s</b> (33,8 ko/s)<br> Et il ne nous reste plus qu’à les extraire. my @data = $m->content() =~ m{ Taille\ du\ fichier\ (\d+(?:,\d+)?\ ko).*? Durée\ (\d+(?:\.\d+)?\ secondes).*? Débit\ (\d+(?:,\d+)?\ kbit/s).*? \((\d+(?:,\d+)?\ ko/s)\) }gsx; Avec cette expression régulière, nous récupérons les 8 valeurs d’un seul coup dans notre tableau. Nous devons protéger les espaces contenus dans le texte (ou les remplacer par \s) à cause de l’utilisation de l’option /x pour l’expression régulière. 28 Nous avons également utilisé ( ? :...) ? pour rendre optionnels les chiffres après la virgule (ou le point). Une dernière remarque : à cause des accents dans l’expression régulière et de l’encodage des données reçues depuis le script de Free (iso-8859-1), il faut impérativement que le script soit encodé en iso-8859-1. Le tableau obtenu à l’aide de cette expression régulière correspond à : @data = ( # débit descendant ’604,51 ko’, ’5.426 secondes’, ’891,25 kbit/s’, ’111,41 ko/s’, # débit montant ’75,57 ko’, ’2.236 secondes’, ’270,4 kbit/s’, ’33,8 ko/s’ ); # # # # taille du fichier durée de transfert débit en kbit/s débit en ko/s # # # # taille du fichier durée de transfert débit en kbit/s débit en ko/s En ajoutant une petite boucle d’affichage, on obtient le script suivant : #!/usr/bin/perl use WWW::Mechanize; my $m = WWW::Mechanize->new( autocheck => 1 ); # nécessaire pour éviter que Free filtre selon les navigateurs $m->agent_alias( ’Linux Mozilla’ ); $m->get(’http://tdebit.proxad.net/debit/index.pl’); $m->click(’ok’); my @data = $m->content() =~ m{ Taille\ du\ fichier\ (\d+(?:,\d+)?\ ko).*? Durée\ (\d+(?:\.\d+)?\ secondes).*? Débit\ (\d+(?:,\d+)?\ kbit/s).*? \((\d+(?:,\d+)?\ ko/s)\) }gsx; my $i = 0; for (qw( descendant montant )) { print "Débit $_ :\n", " $data[$i+3] ($data[$i+2])\n", " $data[$i] en $data[$i+1]\n"; $i += 4; } Qui affiche chez moi (Télé2 1024) : Débit descendant : 111,41 ko/s (891,25 kbit/s) 604,51 ko en 5.426 secondes Débit montant : 33,8 ko/s (270,4 kbit/s) 75,57 ko en 2.236 secondes 29 Merci à DomiX d’avoir demandé un coup de main sur le canal IRC des mongueurs (#perlfr sur le serveur irc.mongueurs.net) lors du débogage de son propre script. 63 Fractionner une image Pour la conférence YAPC : :Europe 2005, les organisateurs avaient décidé de fournir un maximum d’information et de matériel aux participants, quitte à ce qu’il en ait trop. ;-) Ainsi, ils ont mis à disposition sur le site de la conférence[1] une première carte sous la forme d’une image au format PNG[2], qui est un plan de Braga avec des points numérotés pour repérer les différents lieux relatifs à la conférence. Une autre personne décida alors de fournir l’équivalent Google Maps, ce qui rendit la précédente carte moins utile. Néanmoins je décidais d’essayer de l’imprimer pour en avoir une version papier sous la main une fois à Braga. Après avoir récupéré cette image (qui pèse tout de même 5,1 Mo) je me suis demandé comment l’imprimer, car un premier essai me confirma qu’une impression directe en A4 était peu utile, le texte étant illisible. La solution était donc de fractionner l’image en plusieurs parties afin d’imprimer chacune sur une feuille A4. N’ayant pas envie de découper l’image à la main , je commençais à chercher un mécanisme pour s’en charger pour moi. Un rapide coup d’oeil dans The Gimp ne m’indiqua rien de flagrant pour réaliser cette opération. Je me tournait ensuite vers les commandes en ligne de l’autre couteau suisse en matière d’images, ImageMagick. convert(1) ne permet que de convertir une image en un autre format (avec la possibilité d’appliquer légion d’effets spéciaux). mogrify(1) permet de transformer des images, par exemple pour les redimensionner et montage(1) d’assembler plusieurs images en une seule, mais rien pour fractionner une image. Restait conjure(1), qui exécute un script MSL (Magick Scripting Language), un machin un peu infâme en XML. Commençant à désespérer, je me mets à chercher sur Freshmeat puis le CPAN, où je suis tombé sur le module Image : :Magick : :Tiler[3] de Ron Savage. Celui-ci rend cette opération d’une simplicité déconcertante. Jugez plutôt, pour fractionner le plan de Braga en 6 carreaux , le petit script suivant suffit : #!/usr/bin/perl use strict; use Image::Magick::Tiler Image::Magick::Tiler->new( input_file => shift || geometry => shift || output_type => shift || write => 1, verbose => )->tile() die("usage: $0 image [geometry [format]]"), ’2x2’, ’png’, 1, et il s’exécute ainsi : $ tiler braga.png 3x2 Image : :Magick : :Tiler crée alors les fichiers correspondants : $ ls -l total 10384 -rw-r--r--rw-r--r--rw-r--r--rw-r--r--rw-r--r--rw-r--r--rw-r--r-- 1 1 1 1 1 1 1 maddingue maddingue maddingue maddingue maddingue maddingue maddingue users 600908 nov 6 users 930240 nov 6 users 960254 nov 6 users 852730 nov 6 users 1171000 nov 6 users 750563 nov 6 users 5316276 jan 14 30 17:59 17:59 17:59 17:59 17:59 17:59 2005 1-1.png 1-2.png 1-3.png 2-1.png 2-2.png 2-3.png braga.png Détaillons un peu le fonctionnement de ce script (même s’il est plutôt simple). On crée un objet (Image : :Magick : :Tiler->new(...)) et on exécute la méthode tile() qui effectue le travail proprement dit en fonction des paramètres passés à new(). * input_file attend évidemment le nom du fichier à traiter. Ici, on utilise un court-circuit (l’opérateur ||) pour soit récupérer le premier argument du script, soit terminer le script en affichant son usage. * geometry indique comment découper l’image de départ. L’argument est de la forme NxM+x+y, où N est le nombre par défaut de carreaux en horizontal, et M le nombre par défaut de carreaux en vertical. Si l’image de départ a une largeur L et une hauteur H, les carreaux ont donc par défaut une largeur de L / N et une hauteur de H / M. +x et +y permettent ensuite d’ajuster respectivement la largeur et la hauteur des carreaux, auquel cas Image : :Magick : :Tiler sera potentiellement amené à augmenter ou diminuer le nombre de carreaux à créer. * output_type permet d’indiquer le format de sortie, par défaut PNG. * write indique à la méthode tile() d’écrire les images sur disque au lieu de simplement créer les objets Image : :Magick correspondants. * verbose indique évidemment au module d’être verbeux. À noter qu’il existe aussi un paramètre output_dir pour indiquer le répertoire où créer les images (par défaut dans le répertoire courant). 64 Découper des MP3 avec Perl Le script final Finalement, notre script est assez simple puisqu’il ressemble à ce qui suit : #!/usr/bin/perl use strict; use warnings; use Getopt::Long; package My::MP3::Splitter; use MP3::Splitter; use Spreadsheet::Read qw( ReadData rows ); use Carp; sub new { my $class = shift; my $self = bless {}, $class; $self->{input_file} = shift if scalar @_ >= 1; # on vérifie si # l’utilisateur a passé un # paramètre lors de la # création de l’objet } sub _process_input_file { my $self = shift; if ( -e $self->{input_file} ) { my $mp3_files = ReadData( $self->{input_file} ); my @files = rows($mp3_files->[1]); 31 shift @files; # par souci de documentation, la première ligne des # fichiers traités est ignorée, permettant ainsi # d’indiquer le type de données attendu foreach my $row (@files) { # on passe si... next if $row->[0] eq ""; # - cellule vide next if not -e $row->[0]; # - le fichier MP3 n’existe pas next if scalar @{$row} < 4; # - pas assez d’information $self->_split_file(@{$row}); } } else { croak "Le fichier $self->{input_file} n’existe pas..."; } } sub _split_file { my ($self, $mp3_file, $new_file, $begin_part, $end_part) = @_; my $duration = $self->_compute_duration($begin_part, $end_part); mp3split($mp3_file, { name_callback => sub { $new_file } }, [ $begin_part, $duration ]); } sub _compute_duration { my ( $self, $begin, $end ) = @_; my ( $b_hour, $b_min, $b_sec ) = $begin =~ /^(?:([\d.]+)(?:h|:(?=.*[m:])))?(?:([\d.]+)[m:])?(?:([\d.]+)s?)?$/; for ( $b_hour, $b_min, $b_sec ) { next unless defined $_; /^(\d+\.?|\d*\.\d+)$/; } my $begin_total = ( $b_hour || 0 ) * 3600 + ( $b_min || 0 ) * 60 + ( $b_sec || 0 ); my ( $e_hour, $e_min, $e_sec ) = $end =~ /^(?:([\d.]+)(?:h|:(?=.*[m:])))?(?:([\d.]+)[m:])?(?:([\d.]+)s?)?$/; for ( $e_hour, $e_min, $e_sec ) { next unless defined $_; /^(\d+\.?|\d*\.\d+)$/; } my $end_total = ( $e_hour || 0 ) * 3600 + ( $e_min || 0 ) * 60 + ( $e_sec || 0 ); return $end_total > $begin_total ? $end_total - $begin_total : 0; } sub run { my ($self) = shift; if (scalar @_ >= 1) { $self->{input_file} = shift; # on vérifie si l’utilisateur a spécifié 32 # un paramètre à la fonction, et le cas # échéant, on se prépare à traiter ce # fichier } else { if (not defined $self->{input_file}) { croak "No input file...\n"; # on gère le cas où aucun fichier à # traiter n’a été spécifié. Que ce # soit lors de la création de l’objet, # ou lors de l’appel de la méthode } } $self->_process_input_file(); } package main; my %conf; GetOptions( \%conf, "input=s" ); usage() if not exists $conf{input}; My::MP3::Splitter->new( $conf{input} )->run(); sub usage { die "$0 --input file, or $0 -i file\n"; } Conclusion Voilà, j’ai maintenant la possibilité d’extraire des morceaux de mes fichiers MP3. Évidemment, je pourrais encore améliorer les services que peut me rendre ce script, par exemple, en ajoutant des champs dans le fichier CSV, je pourrais ajouter des informations ID3 aux fichiers MP3 créés, mais je laisse la réalisation de cette idée au lecteur, ou à une soirée prochaine. Références [1] Sylvain Lhullier (2004) Introduction à la programmation en Perl, ou comment débuter en Perl. [2] http ://articles.mongueurs.net/ 33