Corrigé des exercices d`approfondissement I. Définition par

Transcription

Corrigé des exercices d`approfondissement I. Définition par
Université Montpellier III/Licence SL/ Linguistique informatique
A. Mela
-----------------------------------------------------------------------------------------------------------------------------------------
Corrigé des exercices d'approfondissement
I. Définition par répétition et exclusion de graphies : application à la recherche de séquences dont on
connaît les frontières
Préliminaire : Lecture du paragraphe intitulé Les sous-expressions répétées p.19-20 du Manuel Frantext ;Vous
pouvez également accéder à ce paragraphe via le Menu de Frantext, Liens Grammaires/ À quoi servent les
grammaires, puis Recherches dans les textes/Une sous-expression répétée ;
Dans la base catégorisée, en prenant comme corpus Notre-Dame de Paris de V. Hugo, recherchez les phrases
interrogatives de longueur quelconque débutant par le mot quel telles que :
Quelle secrète pensée faisait sourire sa bouche avec tant d'amertume au même moment où ses sourcils
froncés se rapprochaient comme deux taureaux qui vont lutter ?
Indication : vous utiliserez les opérateurs &+ et ^.
On n'a pas les moyens ici d'exprimer que quel est le premier mot de la phrase. On dira donc que quel est précédé
d'une ponctuation forte (celle de la phrase précédente) soit : (.|?|:|;|!|...|-). Par ailleurs, une phrase interrogative se
termine par un point d'interrogation. Nous connaissons donc les bornes, gauche et droite, des objets recherchés.
Entre ces deux bornes, la séquence de graphies est quelconque. Le motif :
(.|?|:|;|!|...|-) &mquel &q(1,8) ?
restreindrait à 9 mots maximum la taille des interrogatives.
On ne peut pas utiliser la répétition de graphie quelconque : "&+&q" est un motif de recherche infini donc non
autorisé (par souci de maintenir un temps de recherche raisonnable).
Si l'on veut ramener des interrogatives de longueur quelconque, on doit rechercher une séquence de graphies
quelconques, mais bornée. On a vu que le motif de recherche "&+^borne" est autorisé (cf. p.19-20 du Manuel
Frantext). Le motif de recherche :
(.|?|:|;|!|...|-) &mquel &+^? ?
pourrait être proposé. Mais, il passe "au-dessus" des ponctuations fortes et ramène des séquences inadéquates telles
que :
; quel nom de prédestiné,Flamma ! - Oui, le feu. Voilà tout. - Le diamant est dans le charbon, l'or est dans
le feu.- Mais comment l'en tirer ?
Entre quel et ? les graphies sont quelconques mais doivent être autres qu'une ponctuation forte pour appartenir à la
même phrase. Le motif de recherche sera donc :
(.|?|:|;|!|...|-) &mquel &+^(.|?|:|;|!|...)?
Il ramène les 19 résultats suivants :
Résultat 1 (Texte sous droits)
M595/ HUGO.V / NOTRE-DAME DE PARIS / 1832 page 47 / LIVRE PREMIER, I LA GRAND'SALLE
quel est le chat-huant de malheur ?
Résultat 2 (Texte sous droits)
M595/ HUGO.V / NOTRE-DAME DE PARIS / 1832 page 67 / LIVRE PREMIER, III MONSIEUR LE CARDINAL
J'affirme qu'il partageait lui-même la béatitude générale, et qu'au rebours de La Fontaine, qui, à la représentation de sa comédie
du Florentin, demandait : Quel est le malotru qui a fait cette rapsodie ?
Résultat 3 (Texte sous droits)
M595/ HUGO.V / NOTRE-DAME DE PARIS / 1832 page 135 / LIVRE DEUXIèME, VI LA CRUCHE CASSéE
Quel argot de juif de Hongrie nous chantes-tu là ?
Résultat 4 (Texte sous droits)
M595/ HUGO.V / NOTRE-DAME DE PARIS / 1832page 221 / LIVRE QUATRIèME, V SUITE DE CLAUDE FROLLO
Quelle secrète pensée faisait sourire sa bouche avec tant d'amertume au même moment où ses sourcils froncés se rapprochaient
comme deux taureaux qui vont lutter ?
Résultat 5 (Texte sous droits)
M595/ HUGO.V / NOTRE-DAME DE PARIS / 1832 page 221 / LIVRE QUATRIèME, V SUITE DE CLAUDE FROLLO
Quel était ce feu intérieur qui éclatait parfois dans son regard, au point que son oeil ressemblait à un trou percé dans la paroi d'une fournaise ?
Université Montpellier III/Licence SL/ Linguistique informatique
A. Mela
----------------------------------------------------------------------------------------------------------------------------------------Résultat 6 (Texte sous droits)
M595/ HUGO.V / NOTRE-DAME DE PARIS / 1832 page 232 / LIVRE CINQUIèME, I ABBAS BEATI MARTINI
- Quelle vérité avez-vous tirée, je ne dis pas de la médecine, qui est chose par trop folle, mais de l'astrologie ?
Résultat 7 (Texte sous droits)
M595/ HUGO.V / NOTRE-DAME DE PARIS / 1832 page 261 / LIVRE SIXIèME, I COUP D'OEIL IMPARTIAL SUR L'ANCIENNE MAGISTRATURE
- Quel est ce fils ?
Résultat 8 (Texte sous droits)
M595/ HUGO.V / NOTRE-DAME DE PARIS / 1832 page 288 / LIVRE SIXIèME, III HISTOIRE D'UNE GALETTE AU LEVAIN DE MAïS
- Quel monstre ?
Résultat 9 (Texte sous droits)
M595/ HUGO.V / NOTRE-DAME DE PARIS / 1832 page 351 / LIVRE SEPTIèME, IV ANAGKê
- Quel mot ?
Résultat 10 (Texte sous droits)
M595/ HUGO.V / NOTRE-DAME DE PARIS / 1832 page 353 / LIVRE SEPTIèME, IV ANAGKê
- Quelle bonne oeuvre ?
Résultat 11 (Texte sous droits)
M595/ HUGO.V / NOTRE-DAME DE PARIS / 1832 page 360 / LIVRE SEPTIèME, V LES DEUX HOMMES VêTUS DE NOIR
- Quelle magicienne ?
Résultat 12 (Texte sous droits)
M595/ HUGO.V / NOTRE-DAME DE PARIS / 1832 page 368 / LIVRE SEPTIèME, VI EFFET QUE PEUVENT PRODUIRE SEPT JURONS EN PLEIN
AIR
- Quelle bohémienne ?
Résultat 13 (Texte sous droits)
M595/ HUGO.V / NOTRE-DAME DE PARIS / 1832 page 397 / LIVRE HUITIèME, I L'éCU CHANGé EN FEUILLE SèCHE
Charmolue prit sur une table le tambour de basque de la bohémienne, et, le présentant d'une certaine façon à la chèvre, il lui demanda : - Quelle heure est-il ?
Résultat 14 (Texte sous droits)
M595/ HUGO.V / NOTRE-DAME DE PARIS / 1832page 418 / LIVRE HUITIèME, IV LASCIATE OGNI SPERANZA
Il reprit :- ... Un jour, j'étais appuyé à la fenêtre de ma cellule... - Quel livre lisais-je donc ?
Résultat 15 (Texte sous droits)
M595/ HUGO.V / NOTRE-DAME DE PARIS / 1832page 441 / LIVRE HUITIèME, VI TROIS COEURS D'HOMME FAITS DIFFéREMMENT
- Quelle bohémienne à la chèvre ?
Résultat 16 (Texte sous droits)
M595/ HUGO.V / NOTRE-DAME DE PARIS / 1832 page 504 / LIVRE DIXIèME, I GRINGOIRE A PLUSIEURS BONNES IDéES DE SUITE RUE DES
BERNARDINS
Quel moyen de salut as-tu donctrouvé, drôle ?
Résultat 17 (Texte sous droits)
M595/ HUGO.V / NOTRE-DAME DE PARIS / 1832 page 503 / LIVRE DIXIèME, I GRINGOIRE A PLUSIEURS BONNES IDéES DE SUITE RUE DES
BERNARDINS
- Quel est ton moyen ?
Résultat 18 (Texte sous droits)
M595/ HUGO.V / NOTRE-DAME DE PARIS / 1832 page 558 / LIVRE DIXIèME, V LE RETRAIT Où DIT SES HEURES MONSIEUR LOUIS DE
FRANCE
Quelle était... Il se reprit : Quelle est la juridiction féodale du bailli ?
Résultat 19 (Texte sous droits)
M595/ HUGO.V / NOTRE-DAME DE PARIS / 1832 page 610 / LIVRE ONZIèME, I LE PETIT SOULIER
Quelle autre ?
Pour vérifiez que votre recherche ne laisse sous silence aucune phrase interrogative débutant par le mot quel, vous
rechercherez les cooccurrences de quel et de ? dans la même phrase.
La recherche de cooccurrences spécifiée de la manière suivante :
Séquence 1 : &mquel
Séquence 2 : ? (voulue)
2.3) Toutes les séquences doivent être dans la même phrase
2.4) 1 avant 2
ramène 39 résultats. La vérification un à un de chacun de ces résultats montre que notre motif :
(.|?|:|;|!|...|-) &mquel &+^(.|?|:|;|!|...)?
a ramené toutes les interrogatives débutant par le déterminant interrogatif quel.
Université Montpellier III/Licence SL/ Linguistique informatique
A. Mela
-----------------------------------------------------------------------------------------------------------------------------------------
II. L'apocope non lexicalisée
Corpus de travail : les textes de RENAUD (Nombre d'occurrences dans le corpus : 40599)
1. On crée la liste apostrophe des graphies contenant une apostrophe dans les textes de Renaud.
Le critère de sélection : .+'.+ ne ramène aucune graphie : en effet, l’apostrophe, au même titre que l’espace et
les ponctuations, est une frontière de graphie : ainsi un mot comme aujourd’hui est considéré dans l’environnement
Frantext comme 2 graphies : aujourd’ et hui.
Le critère de sélection : .+' ramène les 129 graphies suivantes :
aim'
all'
app'
appell'
appl'
arrondiss'
assomm'
aujourd'
autr'
av'
b'
baromètr'
boss'
boul'
c'
cach'
cam'
cath'
certif'
ch'
chant'
chôm'
chourav'
collec'
complèt'
conn'
conso'
cur'
d'
débarqu'
dec'
dej'
déj'
dev'
discrèt'
don'
duc'
éch'
ell'
enterr'
envol'
est'
êtr'
excus'
f'
feuill'
feuj'
fil'
franch'
genr'
gratt'
ham'
heureus'
huîtr'
i'
instit'
j'
jean'
jusqu'
keuf'
l'
lend'
lorsqu'
louf'
m'
maint'
manif'
march'
mat'
mec'
mérit'
meuf'
mich'
n'
napp'
not'
notr'
nunchak'
obs'
p'
pac'
parc'
parol'
pass'
pat'
pauv'
pauvr'
péqu'
port'
pouf'
pôv'
prév'
pub'
puisqu'
qu'
quat'
quatr'
que'
quelqu'
quéqu'
quèqu'
quoiqu'
r'
rach'
rar'
rat'
reus'
rock'
s'
sam'
santiag'
saut'
seul'
souv'
su'
sûr'
t'
tabl'
tell'
that'
touch'
trouv'
un'
v'
vach'
viv'
votr'
y'
z'
Nettoyage de la la liste :
On ôte de cette liste les cas d’élision grammaticale tels que j', m', l',d', jusqu', ainsi que les graphies telles que
aujourd', etc.. Soit au total 15 graphies en italiques ci-dessus. Il reste 114 graphies. La recherche de
&lapostrophe permet d’accéder aux 722 cas d’apostrophes en contexte :Par exemple :
RENAUD / MISTRAL GAGNANT / 1985.
C'est Jojo l'démago,
qu'a trahi les prolos,
il traîne les casinos
de Nice à Monaco - caïne !
'l'harangua si bien les rombiers
d'son quartier qu'un beau jour, enfin,
les p'tits commerçants, les plombiers
l'élirent député du coin.
Mais Jojo qui savait causer
fit tant et si bien son turbin
de représentant des larbins
qu'on l'élisa à l'élysée
2. Dans la base Frantext, existe-t-il des auteurs qui utilisent plus d'apocopes que Renaud ?
On redéfinit le corpus de travail. On recrée une liste à partir du même critère : : .+'
On obtient 3052 graphies.La répartition de la fréquence relative des mots de cette liste (non nettoyée) auteur par
auteur montrer que c'est Renaud qui utilise le plus d'apocopes populaires, suivi par d'autres chanteurs : Brassens,
Trenet. L'apocope pourrait donc constituer un marqueur de type de texte.
Résultat du calcul de fréquences
Objet de l'étude :
* Etude des fréquences des mots de la liste apoall (fréquence relative). Etude auteur par auteur.
* Résultats triés par ordre décroissant des fréquences.
NOTE : Les fréquences relatives sont exprimées en millionièmes
Fréquence absolue totale : 6824006
Fréquence relative maximale : 126628 chez RENAUD
DIAGRAMME DES FREQUENCES RELATIVES
Echelle : un astérisque représente une fréquence relative de 4000 millionième(s)
freq. freq.
abs. rel.
RENAUD
: 5141 126628 ********************************
BRASSENS.G
: 5918 94509 ************************
BATAILLE.G
: 6069 81469 *********************
TRENET.C
: 7268 80600 *********************
BLONDEL.M
: 15644 77792 ********************
LACROIX.J
: 3447 76442 ********************
Université Montpellier III/Licence SL/ Linguistique informatique
A. Mela
-----------------------------------------------------------------------------------------------------------------------------------------
III. les voyelles nasales en français : peut-on repérer les sons nasaux d'un texte ?
Corpus de travail : RENAUD, Le temps des noyaux (corpus choisi pour sa petite taille)
1. Description linguistique :
Le fait d'avoir des voyelles nasales est un phénomène assez rare dans les langues.
Le français compte quatre voyelles nasales (ou sons nasaux) : in, an, on et un. À l'écrit, ces quatre voyelles sont transcrites par une ou deux voyelles
graphiques (a, e, i, o, u, y) suivies d'un n: par exemple : pin, pain, plein, lent, rang, paon, long, brun, synthèse. Ce n, qui n'est pas prononcé, sauf en cas de
liaison, représente le caractère nasal de la voyelle qui précède.
Dans l'orthographe d'un mot, lorsqu'une voyelle nasale est immédiatement suivie d'un m, d'un b ou d'un p, on utilise un m plutôt qu'un n pour
représenter le caractère nasal de la voyelle. Pour en savoir plus...
Un son nasal correspond donc graphiquement à une voyelle suivie de la consonne nasale m ou n.
La voyelle nasale est dénasalisée quand elle est suivie par :
* une autre voyelle :
o voisin / voisi-ne
* ou une autre consonne nasale
o an /a-nnée
o ambigu / a-mnésique
o intelligent / i-nné
o imbécile / i-mmédiat
Dans ces cas, la coupure syllabique se fait après la première voyelle. Sauf pour emm et enn (en-nui, em-mener)...
2. Une fois la description linguistique établie, créez la liste des graphies du corpus contenant une nasale.
Compte tenu, des remarques répertoriées dans l'énoncé, la graphie d'une nasale est : emm ou enn ou une voyelle
suivie de m ou n suivi ni d'une voyelle (accentuée ou pas ) ni d'une autre consonne nasale :
.*(emm|enn|[aeiouy][mn][^aàâäeéèëiîïoôöuûüùÿymn]).*
La liste des graphies du corpus constituée suivant ce critère comporte 338 graphies.
3. Y a-t-il du "bruit"? c'est-à-dire cette liste contient-elle des graphies sans nasale ?
Oui. Les terminaisons en ent des verbes à la 3° pers. du pluriel comme :affairent, aiment, causent, cognent, content,
côtoient, courent, mettent, parent ne correspondent pas à des sons nasaux. On ne peut pas les écarter au niveau
morphologique parce que des terminaisons en ent peuvent correspondre à des sons nasaux : argent, cent, comment,
contents. On ne peut pas "nettoyer" la liste puisqu'une graphie comme content peut être un adjectif ou un verbe
(conter).
4. Existe-t-il dans ce corpus des graphies contenant deux nasales ?
Oui, par exemple : attendant, chansons…
Les graphies contenant deux nasales sont ramenées par le motif :
.*(emm|enn|[aeiouy][mn][^aàâäeéèëiîïoôöuûüùÿymn]).*(emm|enn|[aeiouy][mn][^aàâ
äeéèëiîïoôöuûüùÿymn]).*
La liste des graphies constituée suivant ce critère comporte 31 graphies.
On retrouve le problème des verbes à la 3° pers. du pluriel, en italiques ci-dessous :
attendaient
attendant
attendent
balançant
chansons
cinquante
combattants
contemple
IV. Les palindromes
Pas encore corrigé.
contemporains
content
contents
cramponnent
débandante
deviendront
emprisonnent
enfant
enfants
frangins
gentiment
indifférence
lendemains
longtemps
maintenant
mensonge
pendant
printemps
relancent
rencontre
rencontrée
semblant
tombent