Programmation et projet encadré

Transcription

Programmation et projet encadré
L7T04 / L8T04
Projet encadré
http://tal.univ-paris3.fr/plurital/
Programmation et projet encadré
J-M. Daube, R. Belmouhoub
(CRIM/Inalco), S. Fleury (CLA2T, U. Paris3)
Projet encadré
http://tal.univ-paris3.fr/plurital/
S
Sommaire
i
●
Préambule
–
●
Contact et liens
Le Projet :
–
Présentation générale du projet
●
●
Projet n°1 Phase 1
–
●
« échauffement » « à la main » !!!!!
Projet n°1 Phase 2
–
●
Les outils, les méthodes, les traces et les rendus
Automatisations (en 3 étapes)
Les séances « BOITES A OUTILS »
–
Série 1 : Perl
–
Série 2 : étiquetage
–
Série 3 : Extraction terminologique
–
Série 4 : Des textes aux Graphes (via Pajek)
• Préambule
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Site PluriTAL
http://plurital.org/
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Groupe PluriTAL
htt //t l i
http://tal.univ-paris3.fr/plurital/groupeplurital.html
i 3 f / l it l/
l it l ht l
Inscription
p
ici
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Page web du cours
http://www.cavi.univparis3.fr/ilpga/ilpga/tal/cours/masterproj.htm
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Contacts et hypertoile
●
●
Courrier électronique
–
[email protected]
g
y@
p
–
[email protected]
–
Jmdaube@inalco fr
[email protected]
Site pluriTAL
–
●
Groupe plurital-yahoo
–
●
http://plurital.org
http://fr.groups.yahoo.com/group/plurital/
Blog pluriTAL
–
http://tal-p3.wordpress.com
sommaire
Le projet
• Présentation générale
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
De la théorie…
•
Descriptif du cours
Mise en oeuvre d'une
Mi
d'
chaîne
h î
d traitement
de
i
textuell semii
automatique, depuis la récupération des données jusqu'à leur
présentation.
présentation
Ce cours posera d'abord la question des objectifs linguistiques à
atteindre (lexicologie,
(le icologie recherche d'information,
d'information traduction...)
trad ction ) et
fera appel aux méthodes et outils informatiques nécessaires à leur
réalisation (récupération de corpus,
corpus normalisation des textes,
textes
segmentation, étiquetage, extraction, structuration et présentation
)
des résultats...).
Ce cours sera aussi l'occasion d'une évaluation critique des
résultats obtenus,, d'un p
point de vue qquantitatif et qqualitatif.
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
A la pratique !
●
« Cartographie » du projet encadré
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Le dessous des cartes
●
●
●
IN : données fournies + objectif
j
Des traitements (séquencés par nous)
à réaliser (par vous) sur les données
avec des outils adéquats (qu’il faudra
apprendre à connaître)
OUT : données à nous remettre
–
(rapport + programme)
sommaire
Le projet
• Des exemples de projet
réalisés
é li é les
l années
é passées
é
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Le dessous des cartes: Projets 2005-2008
–
Navigations dans Les Fils du Monde 07/08
●
–
P j t Multilinguisme
Projet
M ltili
i
07/08
●
–
http://tal-p3
http://tal
p3.wordpress.com/page
wordpress com/page-multilinguisme/
multilinguisme/
Projet Communauté 05-06
●
–
http://tal-p3.wordpress.com/page-nuages/
Projet Multilinguisme 05-06
●
–
http://tal-p3.wordpress.com/page-navigations-dans-le-monde
Projet Nuages 05-06
●
–
http://tal-p3.wordpress.com/multilinguisme-0708/
Navigations dans Le Monde 06/07
●
–
http://tal-p3.wordpress.com/navigation-dans-les-fils-du-monde-0708/
http://tal-p3.wordpress.com/page-communaute/
Voir aussi sur le blog pluriTAL : pages des Projets
●
http://tal-p3.wordpress.com/
A VOIR ABSOLUMENT
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Le dessous des cartes (EXEMPLE 1
●
1/4
)
Cf Cours n°2 PLURITAL 2004/2005
–
–
–
http://tal.univ-paris3.fr/plurital/cours2-2004.html
Ajuster corpus et objectifs
Objectif :
●
décrire un mot/une notion sur corpus (laïcité) dans Le Monde
A VOIR ABSOLUMENT
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Le dessous des cartes (EXEMPLE 1
●
2/4
)
IN : Le journal « Le Monde »
–
Période n°1 : Avril 2003 - Octobre 2004
●
–
Plusieurs rubriques
q
regardées
g
((environ 5000 articles (p
(pour le
CORPUS FRANCE qui regroupe les rubriques "France" et
"France-Société") )
Période n°2
n 2 : 1999-2000
1999 2000
●
Ce corpus couvre la période 1991-2000 et ne comporte que les
documents contenant au moins un des mots de la famille "laïcité".
Il compte 2837 articles, 3 000 000 de mots environ (et pèse 17 Mo
environ). Ce corpus est disponible ici en 2 versions : Texte et
Lemmatisé. Pour chacune des ces versions, on dispose des
indications suivantes sur chaque article : ANNEE
ANNEE, MOIS
MOIS,
RUBRIQUE et GENRE
A VOIR ABSOLUMENT
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Le dessous des cartes (EXEMPLE 1
●
3/4
)
Traitements des données :
–
Période 2003-2004
●
●
●
●
●
–
Aspiration des pages (HTTRACK)
Etiquetage (CORDIAL)
Normalisation (SCRIPTS PERL)
Concordances (LEXICO)
Graphiques de ventilation (LEXICO)
Période 1999-2000
●
« En marge de projets de recherche
recherche, une base documentaire
documentaire,
nommée LM10, a été constituée à partir des archives électroniques
de 10 années du journal Le Monde : 1991 à 2000. Cette base
totalise environ 200 millions de mots (à titre d'ordre
d ordre de grandeur
grandeur,
rappelons qu'un roman de taille moyenne comprend de l'ordre de
100 000 mots. LM10 correspond à quelque 2 000 romans)… »
(
(suite)
)
A VOIR ABSOLUMENT
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Le dessous des cartes (EXEMPLE 1
●
4/4
)
OUT : données à nous remettre
–
(rapport + programme)
●
●
http://tal.univ-paris3.fr/plurital/cours2http://tal
univ paris3 fr/plurital/cours2
2004/Ajuster_Corpus_Recherche_Cours_2.html
http://tal.univ-paris3.fr/plurital/cours22004/Aj t C
2004/Ajuster_Corpus_Recherche_Cours_3.html
R h h C
3 ht l
A VOIR ABSOLUMENT
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Le dessous des cartes (EXEMPLE 2
1/3
)
C t ti d’un
Construction
d’ lexique
l i
bilingue
bili
des
d médias
édi
IN (f
(français)
i )
http://www.pch.gc.ca/progs/ac-ca/progs/ribpi/pubs/juneau/francais/chap2/ch2s4.htm
http://www.crtc.gc.ca/frn/publications/reports/drama/drama2.htm
http://www.worldbank.org/wbi/righttotelloverviewfr.html
Et d’autres…
IN (anglais)
http://www.pch.gc.ca/progs/ac-ca/progs/ribpi/pubs/juneau/anglais/chap2/ch2s4.htm
http://www.crtc.gc.ca/eng/publications/reports/drama/drama2.htm
http://www.crim.fr/corpus/UK/righttotellOverview.pdf
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Le dessous des cartes (EXEMPLE 2
●
2/3
)
Etapes suivies
Et
i i pour le
l traitement
t it
t
Traitement des données :
–
–
–
–
–
–
–
–
–
–
Recherche des pages bilingues pertinentes
Enregistrement des pages en local (wget)
Mise au format texte des formats .html et .pdf (outils linux)
Etiquetage
q
g des p
pages
g françaises
ç
((CORDIAL))
Choix des patrons morpho-syntaxiques pertinents en français
Extraction des syntagmes conformes aux patrons (PERL)
Tri des syntagmes obtenus
Projection des syntagmes sur corpus français
Alignement fruste avec corpus anglais (PERL)
Ch i d
Choix
des entrées
t é pertinentes
ti
t ett sélection
él ti des
d équivalents
é i l t en
langue-cible
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Le dessous des cartes (EXEMPLE 2
Résultats
é l
●
3/3
)
OUT :
–
une proposition de lexique
●
–
http://www crim fr/lexique media html
http://www.crim.fr/lexique_media.html
une comparaison avec l’existant
●
(c’est pas fait !)
A VOIR ABSOLUMENT
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Le dessous des cartes (EXEMPLE 3)
●
Le projet CreeATLAS
–
http://netx.u-paris10.fr/defi/CreeATLAS/
A VOIR ABSOLUMENT
sommaire
Le projet
• Parcours
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Une année de projets…
●
Au semestre 1
–
●
Projet
P
j t multilingue
ltili
:« la
l vie
i d
des mots
t sur lle
web »
Au semestre 2
–
Projet « Les Boîtes à outils »
●
●
Étiquetage,
q
g , filtrage
g sur les Fils de Presse
Fin du semestre 2
–
LE VRAI PROJET
–
Cf projets
j t en liligne d
des années
é passées
é
Le projet
• Je laisse des traces…
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Avant de partir, je prépare un journal de bord
●
Votre parcours doit être effectué en
établissant un « log-book »
retraçant
t
t l’ensemble
l’
bl d
de vos
activités
–
Blog (cf Blog pluriTAL)
●
●
–
Si vous faites
f it ce choix,
h i vous disposerez
di
d’un
d’
compte
t sur
le weblog pour le projet mené
Vous pourrez ensuite publier des « brouillons » ou des
billets officiels retraçant vos activités
Etc.
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
un journal de bord sur 1 blog
(1/3)
http://tal.univ-paris3.fr/blogtal/
p
p
g
Des billets réguliers
Classés par rubrique
Des archives
(plus bas sur la page)
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
un journal de bord sur 1 blog (2/3)
U plateforme
Une
l f
d’édition
d’édi i en ligne
li
Titre du billet
Connexion
sur un compte
prédéfini
On rédige le billet ici…
Quelques
Q
q
outils d’édition…
On classe le billet…
On publie ici : en ligne ou un brouillon
Paramétrage avancé
pour l’édition :
Prévisualisation,
Acceptation des
commentaires…
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
un journal de bord sur le blog pluriTAL (3/3)
L Blog
Le
Bl du
d MASTER : http://tal-p3.wordpress.com/
h // l 3
d
/
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Premières activités sur le blog
●
●
Vous vous connectez sur le blog
Chacun rédige
g un p
petit billet de
présentation (nom, formation,
di lô
diplôme
préparé,
é é niveau
i
informatique…)
Projet encadré
http://tal.univ-paris3.fr/plurital/
Identifiant
Id
ifi : pluritaluser
l i l
Mot de passe : …
Création dd’un
un billet
Vous ne touchez pas au paramétrage du blog
Projet encadré
http://tal.univ-paris3.fr/plurital/
Classement des billets
Menu dd’édition
édition
IInterface
f
d’édi
d’édition
i
Interface
d’édition
Mode de publication
Le projet
•
•
•
•
Une problématique
Des outils
Des méthodes
etc
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Définition d’un problème linguistique
(pour le projet final)
●
●
Une liste « imposée »
–
La notion de discret vs. continu en anglais selon le type de
discours
–
Utilisation des verbes et des substantifs dans des corpus
parallèles français-anglais
–
Analyse morphologique du discours scientifique
–
Dégrouper les sens (corpus sur le web ou corpus de presse) :
● http://www.cavi.univparis3 fr/ilpga/ilpga/tal/cours/PROJETSM1/ProjetDegrouperSe
paris3.fr/ilpga/ilpga/tal/cours/PROJETSM1/ProjetDegrouperSe
nsWebLeMonde.pdf(présentation)
–
Nuages de mots dans le Fils RSS :
●
Présentation du projet 2005-2006 ici : http://tal.univ-paris3.fr/filspresse/
●
http://tal.univ-paris3.fr/filspresse/projet-fils-de-presse.pdf
Ou autre chose…
–
À valider par nous…
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Collecte des données
●
Des outils
–
wget, httrack, lynx, LWP etc.
●
●
Lectures
L
t
d manuels
des
l
– Wget :
http://www gnu org/software/wget/manual/
http://www.gnu.org/software/wget/manual/
– Httrack : http://www.httrack.com/html/index.html
– Lynx :
http://www.ldh.org/Dossiers/Manuels/lynx.html
Automatisation
–
cron
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Formatage des données
●
Hétérogénéité des formats
–
HTML, PDF, PS, etc.
●
●
●
Redéfinition
R
défi iti d
de lla récolte
é lt ?
Qualité des données selon les formats ?
Normalisations des données
–
HTML2TXT, PDF2TXT,PS2TXT, etc.
–
Des scripts : PERL
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Analyse simple des données
●
Compter
–
wc,, uniq
q
●
●
Filtrer
–
egrep
●
●
Lecture manuel
Trier
–
sort
●
●
Lecture manuel
Lecture manuel
Ne pas oublier « les expressions régulières »
●
Lecture manuel
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Analyse avancée des données
●
Morphologie
●
Etiquetage syntaxique
●
Extraction de patrons
●
Etc.
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Organisation des données
●
Données collectées
●
Données formatées
●
Données produites
●
Structurer les données « manipulées »
pour les retrouver, les traiter, les
présenter…
–
Fichier, répertoire
Fichier
répertoire, systèmes de fichier
fichier,
sauvegarde
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Vers une présentation des données…
●
●
Passage des résultats à une
présentation
é
t ti linguistique
li
i ti
Affichage des résultats
Structures les tâches réalisées et les
résultats produits
– Rédiger
Rédi
d
des rapports
t d ’analyse
’
l
–
●
S thè fifinale
Synthèse
l
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Des pauses d’apprentissage…
●
Des rappels
–
S è
Systèmes
d
de fi
fichier
hi
–
Les expressions régulières
–
Langage de script : Perl
–
Commandes unix
–
Etc
Etc.
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
●
Bon travail
travail….
sommaire
Les outils
• Préambule : cygwin
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Démarrer avec Cygwin
ƒ Au LABOC :
ƒ Une version de Cygwin « brute », i.e.
uniquement
q
la fenêtre de commandes !
ƒ Démarrage :
e u Démarrer
é a e >> Cyg
Cygwin >> Cyg
Cygwin Bash
as S
Shell
e
ƒ Menu
ƒ une version de Cygwin (dite « cygwin-X ») «
avec interface graphique » est installée
ƒ Démarrage :
ƒ Menu Démarrer >> … >> « Start-X
S
S
Server
»
ƒ On peut ensuite lancer les applications disponibles (cf
menu démarrer >> Cygwin-X)
Cygwin X)
sommaire
Projet encadré
Préambule
●
●
●
●
●
http://tal.univ-paris3.fr/plurital/
Cygwin n'est ni plus ni moins que le portage sous windows du compilateur GNU
que l'on retrouve sous Linux et d'autres UNIX. Il p
permet d'écrire du code en
GCC q
C ett C
C++, code
d quii pourra êt
être utilisé
tili é sur une autre
t machine
hi Wi
Windows
d
ne
disposant pas de Cygwin.
Mais Cygwin c'est bien plus que cela, c'est un véritable OS dans l'OS, il copie
complètement UNIX avec toutes ces commandes standards et son
environnement, c'est donc une excellente alternative pour découvrir UNIX.
Cygwin est un produit en plein développement, ne vous étonnez donc pas s'il
peut planter de temps à autre.
Pour la petite histoire cygwin est un produit de la société cygnus, qui entre
autres réalise le célèbre compilateur GNU GCC, et qui a été acheté récemment
par Redhat, d'où le format de l'URL du site officiel
http://sources redhat com/cygwin
http://sources.redhat.com/cygwin.
La licence est la suivante, si vous avez acheté une licence avec Cygnus, vous
avez le droit de créer des programmes mais ne peut diffuser le code
code, par contre si
vous n'avez pas acheté de licence, vous tombez dans le cadre de la licence GPL,
c'est à dire que vous êtes obligé pour tout programme que vous créez et
fournissez de fournir aussi le code associé.
sommaire
Projet encadré
Installation
●
●
●
●
http://tal.univ-paris3.fr/plurital/
Vous avez la p
possibilité de récupérer
p
les p
packages
g q
qui vous intéressent
directement sur les sites miroirs de cygwin et de vous débrouiller pour les
installer, ou alors de télécharger un petit exécutable qui va vous guider dans la
récupération des packages et leur installation.
On récupérera setup.exe à l'URL http://sourceware.org/cygwin/ .
A ll'exécution
exécution de ce programme
programme, on passe d'abord
d abord par une fenêtre d'information
d information,
cliquez sur Next. Vous pouvez alors choisir de télécharger dans un premier
temps les packages (Download from Internet), de télécharger et d'installer
dans la foulée (Install from Internet), d'installer les packages qui ont été
téléchargés préalablement et qui sont contenus dans un répertoire local (Install
from Local directory)… on se laisse guider (pas de difficultés)
Je tiens à votre disposition un CD avec l’ensemble des ressources telles qu’elles
sont installées au LABO…
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Un exemple
p d’installation
de Cygwin
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Ressources:
h //
http://cygwin.com/cygwin-ug-net/setup-net.html:
i
/
i
/
h l Setting
S i up
Cygwin
http://cygwin.com/cygwin-ug-net/using.html: Using
Cygwin
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Arborescence cygwin
●
●
Les sous répertoires suivants sont créés dans le répertoire d'installation: - bin,
contenant les exécutables, on retrouve beaucoup de commandes standards
UNIX, en voici un brel panel : awk, bash, bison, bunzip2, chmod, date, dd, find,
grep kill,
grep,
kill m4,
m4 make,
make gcc,
gcc man,
man mount,
mount rcp,
rcp su,
su telnet,
telnet touch,
touch vi,
vi whoami,
whoami et
j'en passe et des meilleurs...
- etc, contenant les fichiers de configuration.
- home, contenant les répertoires utilisateurs
- lib,
lib contenant toutes les bibliothèques diverses y compris celle de
développement
- tmp, répertoire temporaire
- usr qui contient lui-même
bin répertoire d'exécutable
d exécutable (vide par défaut)
- bin,
- doc, pour documentation
- include, contenenant les headers nécessaires pour développer
- info, (?)
p
de bibliothèque
q ((vide p
par défaut))
- lib,, autre répertoire
- libexec, répertoire d'exécutable
- local contenant d'autres sous répertoires (bin, doc, etc, include et lib) pour
certaines applis bien spécifiques
- man, contient les manuels des divers applis
- sbin,
bi exécutables
é t bl pour l'l'administrateur
d i i t t
- share, contient les ressources des différents exécutables
- ssl, pour rajouter une couche sécurisée à la couche transport de TCP
- tmp, autre répertoire temporaire
- var,
var contient les variables temporaires et autres fichiers de logs
logs.
Vous avez vite reconnu une arborescence type UNIX
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Arboresence Cygwin
Projet encadré
http://tal.univ-paris3.fr/plurital/
Lancement de Cygwin (1)
●
On lance cygwin à partir de l'icône sur le bureau ou du menu
Démarrer
–
●
●
●
Programmes->Cygnus Solutions->Cygwin Bash Shell
une fenêtre type DOS apparaît qui est en fait un shell comme on
peut en trouver sous UNIX, c'est comme son nom l'indique
l'i lé
l'implémentation
t ti sous windows
i d
d
du bash
b h shell
h ll bien
bi connu sous
Linux.
Ceux qui sont familiers à UNIX n'auront aucun mal à se débrouiller
avec ce shell, les autres devront commencer peut être d'abord à
apprendre les commandes de base d'UNIX
d UNIX.
Vous aurez vite constaté que comme sous Unix vous devez pour
vous déplacer dans l'arborescence taper / comme sous UNIX au
li d
lieu
de \.
\ Vous
V
retrouvez
t
en vous baladant
b l d td
dans l'l'arborescence,
b
celle qui a été présentée dans le paragraphe précédent.
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Lancement de Cygwin (2)
ƒ Une version de Cygwin « brute », i.e. uniquement
la fenêtre de commandes !
ƒ Démarrage :
ƒ Menu Démarrer >> Cygwin >> Cygwin Bash Shell
ƒ une version de Cygwin (dite « cygwin-X ») « avec
interface graphique
graphiq e » est installée
ƒ Démarrage :
ƒ Menu Démarrer >> … >> « Start-X Server »
ƒ On peut ensuite lancer les applications disponibles (cf
menu démarrer
dé
>> C
Cygwin-X)
i X)
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Lancement de Cygwin (3)
ƒ Une version de Cygwin « brute
ƒ une version de Cygwin (dite « cygwin-X »)
Projet encadré
http://tal.univ-paris3.fr/plurital/
Remarque
sommaire
Projet nn°11
La vie « multilingue »
d mots sur le
des
l webb
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Esquisse de parcours
ppour le pprojet
j n°1
à construire
●
Objectif : construire une chaîne complète de traitements
–
Définition du problème linguistique visé
●
« la vie multilingue des mots sur le web »
–
Choix des données à traiter
●
Un choix raisonné d’URL contenant un mot choisi (dans plusieurs langues)
–
Collecte des données
–
Formatage des données
–
Utiliser lles outils
Utili
til « proposés
é », apprendre
d à lles utiliser…
tili
●
Wget, lynx, egrep (commandes unix), scripts bash…
–
Produire des résultats et les présenter
●
Un site web contenant : rapport d’activités + résultats
sommaire
Projet encadré
http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/cours/masterproj.htm
http://tal.univ-paris3.fr/plurital/
DOC
“un mot”
sur le
l web
b
sélection
50 URLs
(dans un fichier)
WGET
Option
i
–i
i
pour traiter
le fichier d’URL
Pages
aspirées
stockées
localement
LYNX
Option –dump
pour ne garder
que le texte
Organisation
Des données
DOC
Filtrage
du texte :
C t t d
Contexte
de b
barrage
“Fichier HTML”
vers
“Fichier texte”
EGREP
DOC
Projet encadré
http://tal.univ-paris3.fr/plurital/
Exemples de projet les années passées…
●
2007 2008
2007-2008
–
●
2006-2007
2006
2007
–
●
http://tal.univ-paris3.fr/plurital/travaux-2007-2008/tr0708-masterprojsem1 htm
sem1.htm
http://tal.univ-paris3.fr/plurital/travaux-2006-2007/tr0607-masterprojsem1.htm
2005-2006
–
http://tal.univ-paris3.fr/plurital/travaux-2005-2006/masterproj/tr0506htt
//t l i
i 3 f / l it l/t
2005 2006/
t
j/t 0506
masterproj-sem1.htm
A VOIR ABSOLUMENT
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Examen d’un mot sur le web :
–
le mot « barrage
g » ((ou un mot de votre choix)) et ses traductions p
possibles…
●
Le mot « barrage » dans le TLFi (cf slide suivant) :
●
http://www.cnrtl.fr/lexicographie/barrage?
Co-occurrents « barrage » :
–
–
●
lien slide :
● http://www.cavi.univparis3.fr/ilpga/ilpga/tal/cours/PROJETSM1/LMPCoocCoocBarra
ge220PremiersIDF.pdf
Lectures :
–
–
« Cartographie lexicale pour la recherche d’information », Jean Véronis,
2003
●
http://www.up.univ-mrs.fr/veronis/pdf/2003-taln.pdf
●
Voir aussi HYPERLEX : http://www.up.univmrs fr/veronis/demos/index html?http://www up univmrs.fr/veronis/demos/index.html?http://www.up.univmrs.fr/veronis/demos/hyperlex.html
« Découvrir des sens de mots à partir d’un réseau de cooccurrences
lexicales »,
» Olivier Ferret
Ferret, 2004
●
http://www.lpl.univ-aix.fr/jep-taln04/proceed/actes/taln2004Fez/Ferret.pdf
sommaire
Projet encadré
http://atilf.atilf.fr/tlf.htm
Barrage dans le TLFi
http://tal.univ-paris3.fr/plurital/
Projet encadré
http://tal.univ-paris3.fr/plurital/
Accès au TLFi
●
http://atilf atilf fr/tlf htm
http://atilf.atilf.fr/tlf.htm
●
Lien direct à p
partir :
–
Du site pluriTAL
–
htt //t l i
http://tal.univ-paris3.fr/plurital/
i 3 f / l it l/
–
Du site TAL-ILPGA
TAL ILPGA :
–
http://www.cavi.univparis3 fr/ilpga/ilpga/tal/index htm
paris3.fr/ilpga/ilpga/tal/index.htm
Projet encadré
http://tal.univ-paris3.fr/plurital/
Premières activités… (1)
●
Rechercher le mot sur le web
–
Moteur de recherche sur le web
●
●
●
●
●
●
●
●
Google : http://www.google.fr (moteur généraliste)
Yahoo : http://fr.yahoo.com/ (moteur généraliste)
Mozbot : http://mozbot.fr/ (moteur généraliste francophone, cf Google)
Google(Blogs) : http://blogsearch.google.com/blogsearch (moteur de
blogs)
Google scholar : http://scholar.google.com/ (moteur « académique »)
Google print : http://print.google.com (moteur de livres)
CiteSeer : http://citeseer.ist.psu.edu/ (moteur de littérature scientifique)
Etc.
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Premières activités… (2)
●
Rechercher le mot (2)
–
Moteur sur Corpus du Monde électronique
●
–
Depuis avril 2003, indexation locale, 100.000.000 formes
Lieu http://sfmac.no-ip.com/corpusLeMonde/
http://sfmac no ip com/corpusLeMonde/
●
●
●
●
Login :
Mot de passe :
Item « Search » dans le menu de gauche
Les p
pages
g indexées sont les p
pages
g HTML visibles individuellement
derrière l’item « corpus HTML » du même menu de gauche.
– Accès à chaque version quotidienne du journal au format HTML
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Premières activités… (3)
●
Rechercher le mot (3)
–
Fils de news RSS
●
Fichiers RSS (ATOM) : Description structurée de ressources mises à jour sur un site
●
Par exemple, Fils de News sur le site du Monde
●
http://www.lemonde.fr/rss/sequence/0,2-3208,1-0,0.xml (A la une)
●
http://www.lemonde.fr/rss/sequence/0,2-3210,1-0,0.xml (International)
●
http://www.lemonde.fr/rss/sequence/0,2-3224,1-0,0.xml
p
q
((France))
– Pour Libération
●
http://www.liberation.fr/rss.php
– Pour Le Figaro (46 fils)
●
http://www lefigaro fr/rss/figaro une xml (la Une)
http://www.lefigaro.fr/rss/figaro_une.xml
Annuaire de Fils RSS : http://www.tout-en-ligne.com/
●
Pubsub
●
Monitor over over 16 million blog postings and news feeds in real time
time…
– Méta-moteur de recherches permet d'effectuer des recherches à travers des fils RSS depuis des
mots clés définis par l'utilisateur du service
Newsnetplus : http://www.newsnetplus.com/
●
est un moteur de recherche permettant de trouver des fils RSS en fonction de vos mots-clés. On
peut classer les résultats par date ou par pertinence et il est aussi possible d'obtenir une
prévisualisation des résultats. Comme Pubsub ou Technocrati, ce nouveau moteur génère un fil
RSS à chacune de vos requête que vous pouvez enregistrer dans votre agrégateur afin de
surveiller les nouveautés
nouveautés.
Annuaires d’outils pour fils RSS et BLOGS
–
–
–
–
http://inforizon.blogs.com/veille/outils_blogs_et_fils_rss/
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Premières activités… (4)
●
Essayer de récupérer les pages
« pertinentes »
–
Comment faites-vous ?
●
●
–
À la
l main
i ou non
Outils de collectes : wget… cf infra
Diffi lté rencontrées
Difficultés
té
●
●
Type de fichiers « pêchés » ?
L’état
L
état du texte ?
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Premières activités… (5)
●
Pour le projet 2008-2009
–
Les recherches menées sur le web doivent conduire in
in-fine
fine à
construire un CORPUS MULTILINGUE (2 ou + langues)
–
Outils pour un recherche multilingue
●
Cf ressources fournies sur la page du cours
●
http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/cours/masterproj.htm
Widepress : recherche dans 500 journaux en ligne
–
http://www.widepress.com
Babelplex, un service qui traduit vos requêtes Google dans des tas de langues
différentes et vous permet de les lancer directement.
–
●
http://www.babelplex.com/
Wikimindmap : Outil qui permet de réaliser une carte heuristique à partir d’un mot,
d’un terme utilisé dans wikipedia. Très facile d’utilisation et fonctionne pour
wikipedia dans plusieurs langues.
–
●
–
http://wikimindmap org/
http://wikimindmap.org/
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Préparation du rapport
●
Rédigez un premier rapport sur les
activités réalisées…
–
Le premier élément du rapport final !!!!!
Projet nn°11
• Activités : phase 2
– Automatisation des traitements
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
« barrage » sur le web
●
Objectif
j
:
–
Constituer un corpus « restreint » sur le Web
(50 pages minimum) avec un échantillon des
différents usages du mot « barrage »
●
–
Cf à partir des ressources vues la semaine dernière (sur le
web, sur un corpus de Presse)
O til à utiliser
Outil
tili
pour lla collecte
ll t
●
wget
sommaire
Projet encadré
http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/cours/masterproj.htm
http://tal.univ-paris3.fr/plurital/
http://adresse...
Usage n°1
Usage n°2
http://adresse1
http://adresse2
DOC
http://adresse...
“barrage”
sur le web
sélection
50 URLs
(dans un fichier)
WGET
Option –i
pour traiter
le fichier d’URL
http://adresse...
http://adresse...
Usage n°x
Usage n°y
http://adressex
http://adressey
http://adresse...
Organisation
Des données
Pages
g
aspirées
stockées
localement
Projet encadré
http://tal.univ-paris3.fr/plurital/
Organiser la récolte
●
Organiser les données récupérées
●
Sauvegarder
g
ces données
●
Rédiger
g des « notes » sur les
données traitées
–
nom de fichier
fichier, contenu
contenu, origine
origine,
remarques etc.
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Arborescence Projet (1)
C:/PROJET-MASTER
DOCUMENTATION
JOURNAL
LISTE-URL PAGES-ASPIREES
usage1 usage2…
f1.htm f2.htm…
journal.html
Projet encadré
http://tal.univ-paris3.fr/plurital/
M jjournall d’activités
Mon
d’ i i é (1)
RAPPEL :
Liens hypertextes
vers les URLs originales
URL
par
type
Fichiers
aspirés
Liens hypertextes
vers les fichiers
aspirés
Utilisation
obligatoire
de NVU
pour rédiger
le journal
Édition du
journal
avec NVU
Projet encadré
http://tal.univ-paris3.fr/plurital/
Des chemins vers les « fichiers barrages »
●
Chemin relatif : localisation par rapport à un point d’ancrage
–
Exemple :
●
●
Chemin absolu : localisation complète d’une ressource
–
●
../repertoire/fichier.txt
Exemple
●
C:\repertoire\fichier.txt (arborescence physique)
●
/home/etudiant/fichier.txt ((arborescence logique)
gq )
●
http://www.monsite.com
Dans le journal créé sous NVU :
–
Les liens vers les ressources externes (les URLs) seront des liens absolus
–
Les liens vers les ressources internes (les fichiers) seront des liens relatifs
–
NVU se charge de coder « correctement » ces 2 types de lien, la preuve…
Projet encadré
http://tal.univ-paris3.fr/plurital/
CODAGE HTML du journal (onglet preview)
chemin
h i absolu
b l
chemin relatif
Projet encadré
http://tal.univ-paris3.fr/plurital/
WGET : mode d’emploi (1)
●
Rappel : syntaxe commande Unix
ƒ commande [options]
paramètres
è
ƒ En g
général, les options
p
sont p
précédées du symbole
y
- et peuvent être groupées
ƒ ls
s -l /
/home/etudiant/
o e/etud a t/
ƒ ps -ae
ƒ Les paramètres précisent les fichiers concernés
ƒ wget est une commande unix
ƒ Syntaxe similaire : cf man
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
WGET : mode d’emploi (2)
●
« barrage » aux options de wget
–
wget http://fly.srk.fer.hr/
●
–
wget -i <file>
●
–
Utilisation simple
le fichier <file> contient les URL que vous voulez
télécharger
wget –r http://fly.srk.fer.hr/
●
Récursion
sommaire
Projet encadré
http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/cours/masterproj.htm
http://tal.univ-paris3.fr/plurital/
DOC
“barrage”
sur le
l web
b
sélection
50 URLs
(dans un fichier)
WGET
Option
i
–i
i
pour traiter
le fichier d’URL
Pages
aspirées
stockées
localement
LYNX
Organisation
Des données
Option –dump
pour ne garder
que le texte
DOC
“Fichier HTML”
vers
“Fichier texte”
Projet encadré
http://tal.univ-paris3.fr/plurital/
M jjournall d’activités
Mon
d’ i i é (2)
RAPPEL :
Liens hypertextes
vers les URLs originales
URL
par
type
Fichiers
aspirés
Fichiers
« dump »
Liens hypertextes
yp
vers les fichiers
aspirés
Utilisation
obligatoire
de NVU
pour rédiger
le journal
Liens hypertextes
yp
vers les fichiers
« dumpés »
Édition du
journal
avec NVU
Projet encadré
http://tal.univ-paris3.fr/plurital/
Arborescence Projet (2)
C:/PROJET-MASTER
DOCUMENTATION
JOURNAL
LISTE-URL
DUMP-TEXT
PAGES-ASPIREES
usage1 usage2…
f1.txt f2.txt…
f1.htm f2.htm…
journal.html
Projet encadré
http://tal.univ-paris3.fr/plurital/
LYNX : navigateur
en ligne
li
de
d commandes
d
●
Lynx est un petit client web/news/ftp. Il
existe sous UNIX,
UNIX sous DOS,
DOS et même
sous Windows…
–
●
L
Lynx
un cousin
i de
d Internet
I t
t Explorer
E l
ou Firefox
Fi f
Qu a-t-il
Qu'a
t il de plus que votre
« Mircoscape »
« Explocommunicateur » habituel ?
–
Il fonctionne en mode texte. Ça peut paraître
ridicule voire désuet, c’est parfois très utile…
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
LYNX : mode d’emploi (1)
●
Lancer la fenêtre de commande, puis
taper « lynx » : rustique !!!!!
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
LYNX : mode d’emploi (2)
●
Naviguons avec Lynx : lynx URL
–
Ex : lynx
http://tal.univ-paris3.fr/plurital/
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
LYNX : mode d’emploi (3)
●
« Ce qui est bon dans le lynx »
–
Lynx permet de filtrer / « dumper » le texte !!!
●
lynx –dump http://tal.univ-paris3.fr/plurital/
« Problème » :
Affichage sur la
sortie standard
i e ll’écran
i.e
écran
Nécessité de rediriger
le flux de sortie
sortie…
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
LYNX : mode d’emploi (4)
●
lynx –dump
dump http://tal.univ
http://tal univ-paris3
paris3.fr/plurital/
fr/plurital/ > resultat
resultat.txt
txt
On indique dans la ligne de commande que le flux de sortie
de la commande est « envoyé » dans un fichier
L’URL « dumpée » est sauvegardée au format texte dans le fichier resultat.txt
Les liens sont numérotés
Et listés en fin de fichier
Nettoyage à prévoir…
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
LYNX : utilisation
●
Lynx est disponible avec la version
de cygwin installée…
sommaire
Projet encadré
http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/cours/masterproj.htm
http://tal.univ-paris3.fr/plurital/
DOC
“barrage”
sur le
l web
b
sélection
50 URLs
(dans un fichier)
WGET
Option
i
–i
i
pour traiter
le fichier d’URL
Pages
aspirées
stockées
localement
LYNX
Option –dump
pour ne garder
que le texte
Organisation
Des données
DOC
Filtrage
du texte :
C t t d
Contexte
de b
barrage
“Fichier HTML”
vers
“Fichier texte”
EGREP
DOC
Projet encadré
http://tal.univ-paris3.fr/plurital/
M jjournall d’activités
Mon
d’ i i é (3)
RAPPEL :
URL
par
type
Fichiers
aspirés
Fichiers
« dump »
Contextes
Liens hypertextes
yp
vers les URLs originales Liens hypertextes
vers les fichiers
aspirés
yp
Liens hypertextes
vers les fichiers
« dumpés »
Utilisation
obligatoire
de NVU
pour rédiger
le journal
Liens hypertextes
vers les
l contextes
t t
Édition du
journal
avec NVU
Projet encadré
http://tal.univ-paris3.fr/plurital/
Arborescence Projet (3)
C /PROJET MASTER
C:/PROJET-MASTER
DOCUMENTATION
LISTE-URL
DUMP-TEXT
JOURNAL
PAGES-ASPIREES
CONTEXTES
usage1
g
usage2…
g
c1.txt c2.txt…
f1.txt f2.txt…
f1.htm f2.htm…
journal.htm
Projet encadré
http://tal.univ-paris3.fr/plurital/
Filtrer la récolte
●
A l ’issue de la récolte, vous disposez
–
–
●
●
De données au format HTML
HTML…
De données au format TEXTE (dump)
On ne souhaite conserver que des
contextes larges du mot « barrage »
dans ces fichiers…
Filtrage de la récolte
–
–
egrep : commande
d unix
i
Les expressions
p
régulières
g
((nécessaires p
pour
egrep)
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
egrep
ƒ Cet utilitaire permet de rechercher dans des
fichiers des lignes contenant un motif
donné. Son utilisation implique que l´on
maîtrise les expressions régulières.
ƒ Le format d’une
d une commande est la suivante :
ƒ egrep <motif> <fichier>
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Options egrep
ƒ egrep peutt être
êt utilisé
tili é avec des
d options
ti
quii
permettent de modifier son comportement :
ƒ -c : affiche un décompte des lignes comprenant le motif
cherché.
ƒ -v :affiche les lignes qui ne contiennent pas le motif.
ƒ -n : chaque
q ligne
g q
qui contient le motif est p
précédée de
son numéro dans le fichier.
ƒ -i : p
permet de ne p
pas tenir compte
p de la différence entre
minuscules et majuscules
y:p
pour récupérer
p
nbx lignes
g
de
ƒ -A nbx, -B nby
contexte après (AFTER), et nby lignes de contexte
avant (BEFORE)
ƒ Etc. (cf man)
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
ƒ Les expressions régulières
ƒ Les expressions régulières permettent de représenter de
manière générique des motifs textuels
ball[s]
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Biblio
ibli (courte)
(
)
ƒ Les Expressions Régulieres par
L'exemple, Fourmond, Vincent, Editeur :
H & K, 2005
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Les méta-caractères
ƒ
Appelés aussi caractères spéciaux, ce sont des caractères interprétés en contexte expression rationnelle
comme des opérateurs.
ƒ En voici la liste avec un bref descriptif :
ƒ
. (point) représente un caractère qcq, sauf \n
ƒ
* ((astérisque)) répétition du caractère précédent
ƒ
+ au moins une occurrence de l'expression régulière
ƒ
? au plus une occurrence de l'expression régulière
ƒ
[...] (crochets) l'un des caractères de l'ensemble.
ƒ
[^..] en début de crochets recherche dans le complémentaire de l'ensemble
ƒ
^ recherche
h h en déb
débutt d
de liligne
ƒ
$ recherche en fin de ligne
ƒ
\ annule le rôle de méta-caractère, pour jouer le rôle du caractère usuel
ƒ
{n,m} indique le nombre de répétitions attendus du caractère précédent
ƒ
| joue le rôle de "ou" entre 2 expr rég.
ƒ L'antislash \ inhibe l'interprétation des caractères spéciaux et force leur interprétation
usuelle.
ƒ
Exemples
ƒ
.\.txt recherche les chaînes du genre c.txt , où c est un caractère unique qcq
ƒ
\*$ recherche les chaînes qui se terminent ($) par le caractère astérisque (\*)
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
E
Expressions
i
régulières
é liè
simples
i l
ƒ Soit expat une expression régulière atomique quelconque, alors ce
sontt
ƒ expat1expat2expat3
t1
t2
t3 ... toute
t t concaténation
té ti sans espace fformée
é d'
d'expr.
régulière atomiques
p
ƒ expat*
chaîne composée
p
de 0 à N caractères vérifiant expat
p
ƒ expat+
chaîne contenant au moins un caractère vérifiant expat
p
ƒ expat?
chaîne contenant au p
plus un caractère vérifiant expat
p
ƒ expat{n}
expat
chaîne composée exactement de n caractères vérifiant
ƒ expat{n,}
chaîne composée d'au moins n caractères vérifiant expat
ƒ expat{n,m}
chaîne composée de n à m caractères vérifiant expat
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
ƒ Exemples
ƒ a* caractère de multiplication, suivant un caractère signifie la
répétition de 0 à plusieurs exemplaires de ce caractère
caractère.
ƒ [ab]* signifie répétition possible d'un quelconque des 2
caractères a ou b.
ƒ a+ répétition de 1 à plusieurs exemplaires de a
ƒ a? 0 ou 1 exemplaire de a
ƒ c[ad]?r impose la présence de cr ou car ou cdr, et rien de plus.
ƒ /x{5,10}
/x{5 10} 5 à 10 répétitions attendues de x
ƒ a{5,} 5 ou plus répétitions attendues de a
ƒ a{5}
{5} exactement
t
t 5 occurrences de
d a
ƒ a.{5}b recherche les mots contenant 5 caractères entre a et b
ƒ \s+ recherche un ou plusieurs caractères séparateurs.
ƒ Conséquence : {0,} {1,} {0,1} correspondent à * , + , ?
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Expressions régulières étendues
ƒ S
Soit
it expsim
i une expression
i régulière
é liè simple
i l quelconque,
l
comme
définie précédemment, alors ce sont des expressions régulières
générales :
ƒ expsim1expsim2 ...
toute concaténation formée d'expr. régulière simples
ƒ ^expsim
p
recherche le motif expsim
p
en début de chaîne
ƒ expsim$ recherche le motif expsim en fin de chaîne
ƒ expsim\b
le motif expsim doit se trouver la fin d
d'un
un mot
ƒ expsim1|expsim2|… alternative : recherche de expsim1 ou expsim2 ...
ƒ (expsim)
(expsim)*
chaîne composée de 0 à N caractères vérifiant expsim
ƒ (expsim)+
chaîne contenant au moins un caractère vérifiant expsim
ƒ (expsim)?
chaîne contenant au plus un caractère vérifiant expsim
ƒ (expsim){n} chaîne contenant la concaténation d'exactement n chaines
vérifiant expsim
p
ƒ (expsim){n,m} chaîne composée de n à m caractères vérifiant expsim
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
ƒ Remarques
ƒ Les symboles ^, $ sont appelés motifs d'ancrage, car ils permettent de préciser
l'endroit où doit être effectuée la recherche du motif dans la chaîne (alors que
sans directive particulière la recherche de correspondance du motif avec la
chaine s'effectue de gauche à droite de la chaîne).
ƒ Le symbole d'ancrage \b indique une limite de mot obligatoire, à l'endroit où il est
inséré dans le motif
ƒ Par exemple :
ƒ
info\b est vérifié par "l'info
l info pour tous"
tous , "info
info-matin
matin" mais pas par infos
infos,
informatique ...
ƒ \binfo est vérifié par "informatique","m'informer" mais pas désinformation, ..
ƒ Les parenthèses autour de expsim sont indispensables, sinon les
opérateurs de répétition s'appliquent au dernier caractère de
l'expression (il s'agit d'une question de priorité des opérateurs ..)
ƒ Par exemple, les motifs li(nux)* et linux* reconnaissent respectivement li, linux,
linuxnux,.. et linu, linux, linuxx, linuxxx,...
ƒ Attention, ces extensions ne sont pas toutes reconnues par
l'ensemble des filtres. Par exemple
p la commande g
grep,
p, ne
connaît pas | , ni les parenthèses
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
ƒ Exemples
ƒ color|couleur réussit si l'un des motifs, soit color, soit couleur, est trouvé
ƒ 5[0-9]{2} reconnaît tout nombre de 500 à 599.
ƒ /^(eleve|prof|stage)[3-7]/ est satisfait par les chaînes commençant par
ll'un
un des 3 mots suivis immédiatement par un numéro de 3 a 7
ƒ comment reconnaître un mot de 6 lettres formé des lettres (cela ne vous
rappelle
pp
rien ?))
ƒ Parenthèses de mémorisation
ƒ La présence de parenthèses permet de mémoriser une ou plusieurs
parties de l'expression qu'elle entoure, sans modifier son interprétation.
Pour rappeler ces valeurs mémorisées, on utilise les notations \1, \2 ...
qui correspondent aux valeurs reconnues de même ordre
ordre.
ƒ Ainsi eleve(\d).+station\1 sera satisfait par eleve3 au poste3 et non par
eleve5 au poste3
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
() parenthésage
ƒ Les parenthèses permettent d´indiquer comment les
éléments de ll´expression
expression doivent être groupés.
groupés
ƒ Les opérateurs ss´organisent
organisent selon des niveaux de
priorité :
ƒfermeture > concaténation > union
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Exemple : a|bc*d
ƒ On commence par s'intéresser aux signes *
ƒ On
O lles regroupe avec lleur opérande
é d :
ƒ a|b(c*)d
| ( )
ƒ Ensuite on s'intéresse aux concaténations.
ƒ 1ère concaténation : a|(b(c*))d
ƒ 2ème concaténation : a|((b(c*))d)
a|((b(c ))d)
ƒ Enfin, on regarde les unions :
ƒ (a|((b(c*))d))
sommaire
Projet encadré
http://tal.univ-paris3.fr/plurital/
Fin des moissons
●
●
Remise des données par mail
Prochaine étape
p : les BOITES à
OUTILS…
sommaire

Documents pareils