Central Authentication Service (CAS)

Transcription

Central Authentication Service (CAS)
N° d’ordre : 2010telb0148
Sous le sceau de l’Université européenne de Bretagne
Télécom Bretagne
En habilitation conjointe avec l’Université de Bretagne-Sud
Ecole Doctorale – sicma
GENRES, POINTS DE VUE ET RYTHMES POUR LA MODELISATION
DE L’EXPRESSIVITE DANS LA SYNTHESE DE PAROLE.
APPLICATION A DES CORPUS TEXTUELS.
Thèse de Doctorat
Mention : Sciences et Technologies de l’Information et de la Communication
Présentée par Ioana Suciu
Département : Informatique
Laboratoire : Lab-STICC
Directeur de thèse : Ioannis Kanellos
Soutenue le 29 juin 2010
Jury :
M. Jean-Yves Antoine, professeur, Université François Rabelais, Tours (Rapporteur)
Mme Elisabeth Delais-Roussarie, directeur de recherche CNRS-Université Paris 7 (Rapporteur)
M. Ioannis Kanellos, professeur, Télécom Bretagne (Directeur de thèse)
M. Jeanne Villaneau, maître de conférences, ENSIBS Lorient (Examinateur)
M. Thierry Moudenc, dr., chef équipe synthèse de parole, Orange Labs, Lannion (Examinateur)
REMERCIEMENTS
À mon directeur de thèse, M. Ioannis Kanellos, pour son remarquable encadrement : pour son
professionnalisme, son esprit pédagogique et ses justes exigences, pour sa patience et sa disponibilité,
en dépit de la distance. Pour avoir guidé mes pas parfois hésitants, parfois trop assurés, sur la voie de
la recherche. Et pour tout le reste.
À Mme Elisabeth Delais-Roussarie et M. Jean-Yves Antoine pour avoir accepté de rapporter cette
thèse et m’avoir fait part de leurs précieuses remarques et critiques scientifiquement constructives. À
Mme Jeanne Villaneau pour sa volonté d’examiner ce travail et de faire partie des membres du jury.
À M. Thierry Moudenc pour m’avoir chaleureusement accueillie dans son équipe et pour les
discussions enrichissantes que nous avons eues. Aux membres de l’équipe de synthèse vocale à France
Télécom qui ont contribué à faire avancer mes travaux : à Cédric pour son cher renfort et son intérêt
porté à mes travaux, à Katarina pour sa précieuse collaboration et son énergie positive débordante, à
Laurent et Edouard pour leur éternelle disponibilité et leurs conseils avisés, à Hélène pour son aide et
sa méticuleuse assistance, à Olivier pour son discret, mais précieux soutien.
À Nicolas pour sa grande patience dans la lecture et la correction de mon manuscrit, et à Matthieu
pour son aide dans la mise en place de la plateforme de validation.
Aux collègues doctorants et enseignants-chercheurs des départements LUSSI et Informatique de
Télécom Bretagne, pour les nombreux échanges d’idées et leurs encouragements. À mes groupes
d’étudiants, pour leur curiosité scientifique et leur apport à l’essor de mon expérience pédagogique.
Aux gens rencontrés dans ma vie, certains de passage, d’autres encore présents : connus et inconnues,
amis et amies, qui m’ont apporté chacun à leur manière, un peu d’eux-mêmes, en m’ouvrant les yeux
sur d’autres idiolectes, cultures et points de vues, de l’ouïe ou de l’âme. Quelques noms me sont
particulièrement chers : Gábor, Thomas, Emilie, Ghislain, Aleksandra, Ronaldo, Annalisa, Natalia,
Laurent, Jeff, Elisabeth, Katell, Meriem, Yannis, Pierre, Gaëlle, Olivia, Elixabete, Christian, Alina.
À ma maman, Florica, care a crezut în mine, m-a încurajat neîncetat şi mi-a dăruit tot ceea ce avea ea
mai scump. À ma sœur, Georgiana, care m-a învățat să perseverez să cred în perspectivă, să vizualizez
o lume prin voință şi mi-a fost un prieten neprețuit.
Mulțumesc frumos pentru tot. Je vous remercie pour tout.
TABLE DES MATIERES
CHAPITRE 1
INTRODUCTION …………………………………………………………………………………………………. 08
1.1
Les technologies de synthèse de la parole. Importance et enjeux. …………………… 09
1.1.1
Marché et applications ...…………………………………….…………………… 10
1.1.2
Enjeux sociaux et usages de la parole artéfactuelle …….…………………… 10
1.1.3
Enjeux ergonomiques et performances technologiques ………………………. 11
1.1.4
Enjeux scientifiques. Cadres pour les projets de recherche. ………………… 12
1.2
La problématique de l’expressivité dans la synthèse de parole ……………..……..… 14
1.2.1
Expressivité et quantité textuelle ….…..………………………………………… 14
1.2.2
Expressivité et cohérence discursive. Isotopies. ……………………………… 16
1.2.3
Expressivité et rythmes. Variabilité expressive. ……………………………… 17
1.2.4
La parole expressive exprime et s’exprime …………………………………… 18
1.2.5
Reconsidération du paradigme du neutre. Programmes scientifiques ……… 19
1.3
Survol sur les démarches actuelles pour l’étude de l’expressivité…………………… 21
1.4
L’organisation du document ……………………………………………………………… 24
CHAPITRE 2
POUR UNE MODELISATION DES FORMES DISCURSIVES EXPRESSIVES …………………………………………… 27
2.1
Premier niveau : le texte situé par ses caractéristiques extrinsèques ……………...... 28
2.2
Deuxième niveau : les analyses possibles sur l’intrinsèque textuel ………………...... 31
2.3
Troisième niveau : les unités linguistiques choisies pour l’analyse …………..…...... 35
2.4
Quatrième niveau : les structures prosodiques imbriquées ………………………...... 39
2.5
Cinquième niveau : les formes discursives expressives …………..………………...... 42
2.6
Le cadre-modèle proposé pour l’expressivité discursive ……………………….……… 43
CHAPITRE 3
METHODOLOGIE DE TRAVAIL…………………………………………………………………………………… 46
3.1
Acquisition des formes discursives expressives ………….……………………………... 47
3.2
Tractabilité des formes discursives expressives …………..…………………..………. 49
3.2.1
Extraction, analyse et représentation formelle ……………………………….. 50
3.2.2
Comparaisons et manipulations formelles ….………….…………………….. 53
3.3
Synthèse des formes prosodiques expressives. Validation …………………………… 55
CHAPITRE 4
CONSTITUTION DES CORPUS D’ETUDE. SUPPORTS TEXTUELS, REALISATIONS ORALES ………………………... 58
4.1
Constitution des corpus de travail écrits………………...…………….…………………………... 60
4.1.1
Corpus principal d’étude : les horoscopes………….………………………..................... 60
4.1.1.1 L’horoscope : un genre dans la famille des textes procéduraux ……………... 63
4.1.1.2 Similarités prosodiques trans-génériques. Corpus alternatif….……………... 65
4.1.2
Corpus secondaire d’étude : les parodies………………………………..……………….. 67
4.1.2.1 Pratiques hypertextuelles, parodies, visées parodiques.....…………………... 67
4.1.2.2 Parodies de contenu, parodies prosodiques...…………………….…………… 68
4.2
Recueil des corpus de travail oraux………………..…….……………………..…………………... 73
4.2.1
Enregistrement et locuteurs ……………………………………………………………….. 73
4.2.2
Transcription et segmentation des bases acoustiques ………………………………….. 75
CHAPITRE 5
CADRE FORMEL DE DESCRIPTION DES FORMES DISCURSIVES EXPRESSIVES …………………………………….. 78
5.1
Délimiteurs pour les niveaux d’analyse. Balisage textuel. ……………….……..…….. 79
5.2
Descriptions prosodiques formelles. Variables prosodiques. …………….………..….. 82
5.3
Formalisation prosodique des caractéristiques extratextuelles ………………………... 87
5.3.1
Isotopies prosodiques génériques, situationnelles, idiolectales ………..…….. 87
5.3.2
Contraintes expressives, signatures expressives ………….…………………… 88
5.3.3
Affectations des contraintes expressives ………..………….…………………... 91
5.4
Enveloppes rythmiques expressives. Discernabilité prosodique. …………..…….… 94
CHAPITRE 6
ANALYSE DES PARAMETRES PROSODIQUES. OUTILS DE TRAITEMENT. RESULTATS …………………………… 99
6.1
Considérations générales sur l’analyse des paramètres prosodiques ……….………. 100
6.2
Traitements prosodiques pour les paramètres temporels (<T>) ………..…………… 102
6.2.1
Extraction des durées syllabiques ………………………...…………………… 103
6.2.2
Calcul des tempos de syntagmes ……………………………………………… 105
6.2.3
Formalisation des tempos et de leurs mouvements ………………………… 107
6.2.4
Mouvements temporels formels et numériques au palier textuel ………… 110
6.3
Traitements prosodiques pour les paramètres de pauses …….……………………… 113
6.3.1
Extraction des pauses inter-syntagmiques ……………...……………………. 116
6.3.2
Extraction des pauses inter-groupes phrastiques ……………………………. 119
6.3.3
Discussion sur les pauses inter-textuelles …………………………….………. 121
6.4
Traitements prosodiques pour les paramètres mélodiques (<F>) …………………… 124
6.4.1
Extraction des fréquences fondamentales pour les syllabes ……….……… 125
6.4.2
Stylisation des courbes mélodiques pour les syllabes ………………………. 126
6.4.3
Formalisation des courbes mélodiques pour les syllabes ………..……….… 130
6.4.4
Extraction et stylisation des contours mélodiques pour les syntagmes …… 133
6.4.5
Formalisation des contours mélodiques pour les syntagmes ……….…..…. 134
6.4.6
Calcul des indices de déclinaison mélodique pour les syntagmes ………… 136
6.4.7
Discussion sur les indices de déclinaison mélodique pour les gphs ………. 140
6.4.8
Discussion sur la formalisation des contours des gphs et du texte ………… 141
6.4.9
Calcul de la tessiture mélodique des gph et du texte ……………………… 143
6.5
Premiers pas vers la constitution de la base initiale des formes prosodiques ……… 146
CHAPITRE 7
LA STRUCTURE DE DONNEES EXPRESSIVES ……………………………………………………………………. 147
7.1
Structure de données expressives, types abstraits expressifs ……………………….... 148
7.2
Types abstraits pour le formalisme phonologique …………….…………………….... 150
7.3
Types abstraits pour la description des vecteurs prosodiques (<P>) ………..……… 153
7.3.1
Types abstraits pour le vecteur temporel (<T>) ……..……………………… 153
7.3.2
Types abstraits pour les structures des pauses …………………………….…. 154
7.3.3
Types abstraits pour le vecteur mélodique (<F>) ……………………………. 155
7.3.4
Types abstraits pour toutes les dimensions prosodiques (<P>) ..…………. 157
7.4
Types abstraits pour la description des vecteurs linguistiques (<U>) ……….……… 158
7.5
Types abstraits pour les unités phonologiques expressives (syl, syn, gph, txt) …..… 159
7.6
Types abstraits pour la description du vecteur extratextuel (<S>) ………...………… 160
7.7
Types abstraits pour la description des données expressives (<E>, <Esit>) ……..….. 161
CHAPITRE 8
ANALYSES PROSODIQUES. RECURRENCES ET DISCERNABILITES EXPRESSIVES ………………………………... 162
8.1
Recherche de récurrences parmi les formes expressives discursives …………..……. 164
8.1.1
Récurrences prosodiques dans les titres d’horoscopes ……………………… 165
8.1.2
Récurrences prosodiques dans les titres de sections ……………..………… 170
8.1.3
Récurrences prosodiques dans les corps de sections ….………….………… 173
8.1.4
Récurrences prosodiques au niveau du texte ………………..……….……… 181
8.1.5
Discussion sur les invariants prosodiques intra-expressifs ………………… 185
8.2
Recherche de traits expressifs discernables. Exemples inter-génériques. ………… 188
CHAPITRE 9
AFFECTATIONS DE CONTRAINTES PROSODIQUES. SYNTHESE ET VALIDATION. ....…………………………… 204
9.1
Affectations des contraintes prosodiques de récurrence expressive ………………… 206
9.2
Affectations des contraintes prosodiques de discernabilité expressive .…………..… 219
9.3
Validation perceptive de signatures après affectations de contraintes. Résultats. … 224
CHAPITRE 10
CONCLUSIONS ET PERSPECTIVES ………………………………………………………………………………. 238
10.1
Le problème posé : la modélisation de l’expressivité discursive …………………… 239
10.2
Le cadre-modèle proposé pour l’expressivité discursive ……………………….…… 240
10.3
Les démarches techniques soutenant le modèle proposé ………………..………….. 241
10.3.1 Structure de données expressives (SDEx) …………………………………… 241
10.3.2 Constitution des corpus de travail ……………...……….…………………… 242
10.4
10.3.3 Outils pour le traitement de paramètres prosodiques (TPP) .……………… 242
10.3.4 Outils informatiques de liaison entre le TPP et la SDEx …………………… 243
10.3.5 Analyse des récurrences et des variabilités prosodiques …………………… 244
10.3.6 Outils de synthèse. Affectation des contraintes prosodiques. ……………… 244
10.3.7 Outil d’évaluation perceptive et résultats des tests ………………………… 245
Directions pour les travaux futurs. Perspectives. …………………………………….. 246
10.4.1 Intérêt pour d’autres formes d’expressivité discursive ……………………… 246
10.4.2 Affinement et adaptation du modèle proposé ……………………………… 248
10.4.3 Affinement d’outils de traitements et d’analyses prosodiques comparées 250
10.4.4 Affinement d’outils de manipulation formelle ……………………………… 253
10.4.5 D’autres pistes et critères de validation des signatures expressives ……… 254
REFERENCES BIBLIOGRAPHIQUES ……………………………………………………………………………… 255
LISTE DE PUBLICATIONS ……………………………………………………………………………………….. 265
ANNEXES ………………………………………………………………………………………………………. 266
A1
Exemples de textes composant le corpus principal ………………….……………...... 266
A2
Particularités pour la réalisation du corpus principal ……………………………….... 270
A3
Etiquetage des caractéristiques expressives extratextuelles …..………………..…...... 271
A4
Balisage textuel au niveau des syntagmes ………………….………………………...... 274
A5
Balisage textuel au niveau des syllabes ……………………………..………………...... 285
A6
Description de la représentation phonologique INTSINT …………………….……… 287
A7
Représentations formelles. Règles de consistance. ……………………..…………….... 290
A8
Taxinomie élémentaire de représentations phonologiques ..……….……………….... 293
A9
Signatures expressives extrinsèques. Résultats comparatifs. …………………..…...... 295
A10
Corpus textuel pour l’étude des similarités prosodiques trans-génériques ………… 300
CHAPITRE 1
INTRODUCTION
Ce chapitre introductif esquisse le cadre applicatif dans lequel se situe notre travail : la
synthèse de parole. Nous commençons par dévoiler quelques uns des enjeux que cette
technologie suscite : sociaux, ergonomiques, technologiques et bien sûr, scientifiques.
Nous exprimons ensuite quelques réponses à des questions que la problématique de
l’expressivité soulève pour les recherches dans ce domaine, telles la textualité, la
cohérence et les rythmes discursifs, ainsi que la nécessité de traiter de la variabilité pour
obtenir une parole expressive. Nous signalons ensuite l’importance de définir de
nouveaux programmes de recherche dans la synthèse de parole, s’appuyant sur la
reconsidération du paradigme du neutre. Enfin, nous esquissons quelques démarches
actuelles pour l’étude de l’expressivité dans le cadre applicatif qui est le nôtre, en
positionnant nos travaux par rapport à ceux-ci.
Résumé
Sommaire du chapitre
1.1
1.2
1.3
1.4
Les technologies de synthèse de la parole. Importance et enjeux. …………………… 09
1.1.1
Marché et applications ...…………………………………….…………………… 10
1.1.2
Enjeux sociaux et usages de la parole artéfactuelle …….…………………… 10
1.1.3
Enjeux ergonomiques et performances technologiques ………………………. 11
1.1.4
Enjeux scientifiques. Cadres pour les projets de recherche. ………………… 12
La problématique de l’expressivité dans la synthèse de parole ……………..……..… 14
1.2.1
Expressivité et quantité textuelle ….…..………………………………………… 14
1.2.2
Expressivité et cohérence discursive. Isotopies. ……………………………… 16
1.2.3
Expressivité et rythmes. Variabilité expressive. ……………………………… 17
1.2.4
La parole expressive exprime et s’exprime …………………………………… 18
1.2.5
Reconsidération du paradigme du neutre. Programmes scientifiques ……… 19
Survol sur les démarches actuelles pour l’étude de l’expressivité…………………… 21
L’organisation du document ……………………………………………………………… 24
8
1.1
Les technologies de synthèse de la parole. Importance et enjeux.
À une époque où la société se construit de plus en plus autour d'une économie
consommatrice de services, le développement technologique est orienté par la mise
en place des briques technologiques assurant, en partie ou en totalité, la conception,
la production, la distribution et la maintenance de ces services. Les industries de la
langue suivent, elles aussi, ce mouvement d'orientation vers la satisfaction de divers
besoins de consommation de l'homme d'aujourd'hui. Ainsi, au sein de ces industries
[SHU’93], la synthèse de la parole s'affirme comme une brique technologique à usage
de plus en plus fréquent dans les pratiques communicationnelles humaines.
On entend, sommairement, par synthèse de parole, la simulation par la machine du
processus humain de locution à haute voix d'un texte. Il s’agit donc de la génération
automatique par des dispositifs matériels et/ou des algorithmes, de parole artificielle :
Figure 1.1 : Entrées et sorties pour un système de synthèse de parole
Si au premier abord l'objectif de cette simulation peut paraître aisé (une simple
conversion texte-parole), il s'avère rapidement entraîné dans des problématiques
plus subtiles et délicates : derrière le passage du texte à la parole se cache une
conversion plus profonde d'ordre sémiotique qui remet en scène l'écrit et l'oral
[GOO’93], les deux facettes de la langue [FON’01]. La synthèse de parole assume ainsi
une fonction pivot dans nombre de conversions sémiotiques1. Envisagée à sa correcte
complexité, la synthèse de parole formule donc une question qui ne saurait recevoir
de réponse globale. La raison en est immédiatement épistémologique, puisque la
forme exigible en sortie est surdéterminée [HOU’98] par rapport au texte en entrée et
cet excédent se présente à une dimension (l’oralité) de laquelle le texte écrit est exclu.
Dans la mesure où c'est une technologie qui concerne un des véhicules importants
des pratiques communicationnelles humaines, la synthèse de la parole engage
l'homme en rendant sa présence indispensable. Il reste, certes, à déterminer de
quelles manières celui-ci sera impliqué dans la fabrique de parole artéfactuelle. Dans
tous les cas, un développement des services qui visent à produire une parole de
synthèse « authentique » doit prendre en considération les dimensions qui font de la
parole humaine un objet, tant d'étude que d'application, complexe [MOR’90]. Ces
dimensions impliquent des contextes économiques, technologiques, ergonomiques,
sociaux et scientifiques adéquats.
On entend ici par conversion sémiotique, le passage d'un régime sémiotique à un autre, soit, par exemple :
image/texte, image/parole, texte/parole, etc.
1
9
1.1.1 Marché et applications
Dans le marché d'aujourd'hui, mondial et technophage, les services nécessiteux de
conversions texte-parole prennent une place de plus en plus considérable. Qu'il
s'agisse de la téléphonie ou des télécommunications, des ordinateurs personnels ou
des multimédias, des services dédiés aux opérations bancaires ou bien des produits
électroniques pour une consommation de type « grand public », les voix de synthèse
deviennent partie intégrante et de plus en plus indispensable, des applications. Les
robots parlants, l'annuaire oral, l'assistant automatique de secrétariat, les différents
serveurs liés à des services téléphoniques, les navigateurs vocaux, le lecteur de SMS,
les logiciels pour l'apprentissage et la correction des langues étrangères, les divers
logiciels d'aide aux personnes handicapées sont quelques exemples2 d'applications
existantes déjà sur le marché. Souvent, ce dernier s’ouvre à une demande venant des
populations exclue de l’accès à une information par ailleurs disponible (à cause,
précisément, d’un déficit matériel, physique, éducatif, culturel, etc.). En effet, de
nombreuses autres applications relevant de cette conversion sémiotique reçoivent
l'impulsion de cette sorte d'économie. Mais une tension s'instaure entre la volonté de
créer de nouveaux services (et donc de nouvelles applications) et la difficulté de leur
mise en place effective dans l'immédiat. On pense ici à la lecture automatique de
messages électroniques, d’histoires pour enfants, de divers articles de journaux, de
chroniques sportives, de nouvelles, d’horoscopes, etc.
Quoi qu'il en soit, on peut constater une tendance qui vise à faire entrer les voix de
synthèse, via ces diverses applications, dans des pratiques humaines de tout genre.
On remarque aussi que la parole de synthèse est adoptée puisque aisément partagée
au sein d'échanges communicationnels. Par son appropriation, par son partage aussi,
elle transforme les modes et les codes de communication, en faisant émerger de
nouvelles pratiques et en incitant ainsi à de nouveaux usages.
1.1.2 Enjeux sociaux et usages de la parole artéfactuelle
La société de nos jours étant de plus en plus gourmande de la technologie, la
communication devient de plus en plus médiatisée. Les produits artéfactuels sont
ainsi de plus en plus indispensables dans les usages et les pratiques humaines.
Offrant aux individus des moyens innovants qui régissent tant la forme et la
modalité de communication, que la gestion de l'espace, du temps, ou de la présence,
la machine tend à affirmer et à redéfinir constamment sa place dans les échanges
sociaux. On superpose ainsi à la communication dite « classique » d'autres formes de
communication (et, par conséquent, de sociabilité) qui la rendent délocalisée, mobile,
ubiquiste. De sorte que les sociétés actuelles sont des sociétés de communication
2
La liste est loin d'être exhaustive mais elle est suffisante pour donner un premier aperçu de l'horizon.
10
« hybrides » au sein desquelles les hommes (H) et les machines (M) assument des
rôles complémentaires, parfois même concurrents, mais en tout cas nécessaires pour
les nouvelles formes d'échange émergeantes. Dans ces problématiques d’interaction
homme-machine (IHM), la synthèse de parole occupe une place prépondérante, dans
la mesure où son objet concerne l’aspect central d’une communication traditionnelle,
fondée sur l'oralité.
1.1.3 Enjeux ergonomiques et performances technologiques
Dès son commencement, même si les solutions technologiques proposées restaient
dans un état embryonnaire, le marché de la parole de synthèse a su se projeter dans
l'avenir : pouvoir entendre l'écrit à l'aide d'une machine, c'était un projet qui
stimulait – et qui continue à stimuler toujours – les industriels. Notamment parce
qu'il correspondait à une demande sociale déjà identifiée dans ces nouvelles
pratiques de communication.
L'histoire de la production de parole de synthèse est très commune : balbutiante
au début, mais de plus en plus convaincante par la suite, elle a su faire ses preuves,
mettant en place le cadre pour un développement technologique conséquent. Très
vite, le travail d'amélioration de la machine parlante donnait ses fruits : la parole de
synthèse produite devenait de plus en plus intelligible et donc compréhensible. Les
distances en réception, au début immenses puisque la voix restait mécanique et
demandait à l'homme beaucoup de tolérance en termes d'acceptabilité, se voyaient
progressivement réduites. Le progrès en technologies vocales a graduellement
redéfini la position de la machine par rapport à l'homme et, par conséquent, la
position de l'homme par rapport à la machine. Un comportement nouveau de
l'homme vis-à-vis de cette dernière a émergé, suite à la mutation des pratiques
induite et au déplacement de la ligne de démarcation entre ces deux acteurs de la
communication. De nouveaux paradigmes d'IHM ont été mis en place et de
nouvelles exigences ergonomiques ont été redéfinies. Ces dernières devraient
accompagner les espoirs des investissements en matière de synthèse de parole : la
parole artéfactuelle une fois assurée sur le plan de l'intelligibilité, on la voulait encore
plus proche de l'humain, on souhaitait l'entendre animée, la sentir vibrer...
Curieusement, ces exigences semblaient reformuler un cadre d'évaluation d'une
illustre tradition informatique : n'était-ce pas là une version du test de Turing [TUR’50]
certes limitée mais, par ailleurs, autant redoutable ? L'engagement dans la démarche
de simulation de la parole humaine par une machine réactualisait la problématique
du fameux jeu d'imitation proposé par Turing [OPP’05]. En effet, les revendications
ergonomiques exigeaient une voix de synthèse qui ne serait guère discernable d'une
voix humaine : une voix naturelle.
Cette nécessité de naturalité n'impliquait pas simplement un surcoût esthétique.
L'introduction d'une brique technologique assurant la naturalité de la parole a
11
permis de se rendre compte que nombre de services ne sauraient longtemps tenir
devant les exigences d'un utilisateur qui n'était prêt à abandonner ses pratiques de
communication acquises que si cette qualité atteignait un niveau suffisant, et dans
tous les cas, cohérent. On s’est rendu compte, par exemple, que les opérateurs ne
l'acceptaient pas, tandis que les aveugles revenaient au code Braille, etc.
En effet, on reprochait à cette voix, par ailleurs intelligible, d'être monotone,
distante, froide, de ne pas parvenir à « exprimer ». Peu à peu, une tension se créait
lors de son écoute : d’un côté, à cause de son haute intelligibilité, elle n’était plus
acceptée comme une parole de machine (puisque tout en l'étant toujours, elle s'était
suffisamment écartée de la parole robotisée du début de l'ère vocale), et de l’autre,
elle était encore loin d’une authentique parole humaine. On constate que malgré les
efforts considérables menés jusqu'à présent, les performances de la machine restent
toujours impuissantes devant les compétences humaines.
Nombre de disciplines sont aujourd'hui orientées vers l'objectif d'apaisement de
cette tension. La plupart des solutions esquissées par celles-ci semblent converger
vers une thématique complexe, couramment dénommée expressivité. Vue désormais
comme une notion essentielle pour penser le rapport de l'homme avec ses produits
artéfactuels, l'expressivité entre ainsi en force dans les problématiques d'IHM vocale,
mettant en place des projets de recherche innovants.
1.1.4 Enjeux scientifiques. Cadres pour les projets de recherche.
La notion d'expressivité articule de nos jours de nombreuses recherches tant fondamentales qu'appliquées, relevant de l'écologie de la production et de la réception
sémiotique. Dans cette économie des significations, la qualité des services intervient
comme un élément central dans la fabrication des briques technologiques, en
remettant souvent en cause les démarches déjà existantes.
La demande de production d'une parole de synthèse expressive et de qualité
rétablit le rôle de l'oral. Par un retour de l'histoire, elle permet à certaines disciplines
avant marginalisées3 d'être remises en scène dans les recherches dédiées aux langues
humaines. De nouveaux projets de recherche s'installent par conséquent. Ils tentent
de comprendre et d'étudier des classes de phénomènes liés à la parole expressive.
Objet complexe, celle-ci nécessite un regard forcement interdisciplinaire. Selon
[MOR’90], il serait téméraire d'envisager son analyse sous un prisme réductionniste ou
holistique. [ALL’98] précise : « le traitement de la parole fournit d’excellents exemples
pour l’étude des systèmes complexes, dans la mesure où il soulève des questions
fondamentales dans les domaines de positionnement des systèmes, du choix d’unités
descriptives, des techniques de représentation, de niveaux d’abstraction, des
formalismes de représentation de la connaissance, de l’expression d’interactions
3
Curieusement, la Linguistique restait et reste en majorité une Linguistique de la norme de l'écrit.
12
entre contraintes, des techniques de modularité et de hiérarchisation, de techniques
d’estimation et de vraisemblance, des techniques de mesure de la qualité et du
naturel d’un stimulus … de l’architecture des systèmes et d’exploitation des
technologies modernes pour produire des systèmes qui fonctionnent en temps réel
pour un coût acceptable ».
Si nous voulons résumer, les recherches menées par les spécialistes en traitement
de la parole (expressive, aussi) sont directement liées aux progrès obtenus dans de
nombreuses autres disciplines scientifiques, « progrès dont elles sont par ailleurs
souvent à la fois les bénéficiaires et les instigatrices » [BOI’00]. Plus encore, des aspects
herméneutiques et de jugement esthétique [BAK’78] sont touchés dans les travaux sur
l’expressivité de la parole artéfactuelle. Car même si issue des préoccupations de
génération sémiotique, la synthèse de la parole ne se limite pas à la production, dans
la mesure où c'est en réception que l'on valide sa qualité expressive. D'une certaine
manière, « la parole est moitié à celui qui parle, moitié à celui qui écoute » [DMO’95].
L'homme est ainsi à la fois le point de départ et le point d'arrivée pour cette parole.
L'appropriation et l'utilisation de la parole de synthèse expressive ne peut donc se
dispenser d'une prise en compte des pratiques, des usages et des besoins humains.
Le métier du chercheur en expressivité de la parole s’avère ainsi être un métier
difficile, car d’un côté, il doit mettre en évidence la complexité des langues naturelles,
la complexité du langage expressif et la difficulté de modéliser cette complexité ; et
de l’autre côté, il se trouve dans une situation contradictoire, puisqu’il vise à
construire des systèmes qui modélisent le comportement humain, et en même temps
à mettre en évidence les limites des systèmes qu’il construit.
Dès lors, l'approche informatique de l'expressivité s'ouvre tant à la Linguistique
(notamment la Rhétorique, la Pragmatique, la Phonologie, ou la Phonétique) qu'à
l'Acoustique, tant à la Phonostylistique qu’à la Psychologie (Cognitive et Sociale),
voire à la Biologie. À des stades différents de la recherche et du développement, ces
disciplines assument à présent des rôles et des fonctions variés dans la fabrique de la
parole expressive. Ce tissage interdisciplinaire se retrouvera ponctuellement dans
nos travaux même si, fondamentalement, ils relèvent de l'informatique.
Enfin, nous espérons que ce travail intéressera aussi bien les industriels qui
réalisent des produits technologiques, que les chercheurs qui réfléchissent aux
méthodes, les ingénieurs confrontés à la conception et l’implémentation des solutions
« expressives » pour la parole artéfactuelle, que les linguistes curieux de la façon
dont la problématique de l’expressivité place les études sur la textualité dans des
cadres orientés application.
13
1.2
La problématique de l’expressivité dans la synthèse de parole
Réalisée à partir d’une matière textuelle donnée à l’entrée d’un outil informatique
nommé système de synthèse vocal (abrégé SSV), la parole de synthèse constitue une
matière sonore recevable par une compétence linguistique. Comme évoqué avant, la
performance finale des différents SSV est jugée en fonction de la qualité de cette
matière sonore, évaluée essentiellement en termes d’intelligibilité et de naturalité.
Ces deux notions à définition encore contestée, se rapportent traditionnellement à
l’acception par un locuteur typique dont la présence nécessaire ne fait qu’aggraver le
problème d’une contamination empirique mal maîtrisée, et encore plus difficilement
évaluable. En d’autres termes, si l’intelligibilité, phonétique4 ou linguistique, semble
parfois évidente, la naturalité fait souvent appel à des composantes culturelles qu’il
conviendra de reléguer au jugement de type esthétique plutôt qu’à la science. De
sorte que la naturalité devient de nos jours un élément incontournable dans la
validation des applications, plus même, un critère d’homologation et d’acceptation
des services bâtis sur la synthèse vocale. Car, en fin de compte, elle relève d’une
dimension sémiotiquement pertinente qui contribue à la fabrique de sens dès les
premières phrases d’un texte.
1.2.1 Expressivité et quantité textuelle
Forts de ce constat, on remarque qu’actuellement les SSV parviennent à produire une
voix de synthèse qui leur permet d’être évalués comme suffisamment performants.
Ceci est dû principalement à l’évolution des techniques de synthèse vocale d’une
vision atomiste à une vision contextualisée. En effet, dans un premier temps, le
phonème, longtemps considéré comme une unité élémentaire dans la synthèse de la
parole, s’est vu remplacé par le diphone [EME’77], une unité composite obtenue par
l’intégration de deux moitiés de phones5 qui se succèdent (i.e. la deuxième moitié du
premier et la première moitié du second). Par la résolution d’un ensemble de
problèmes de frontières et de cohésion locale, cette démarche visait à rendre la voix
de synthèse obtenue par concaténation d’unités plus fluide. Cependant, satisfaire ces
critères locaux ne suffisait pas. Ainsi, dans un second temps, le diphone a été entouré
d’un corpus d’occurrences attestés [BOI’00], ainsi que d’un « ensemble de concepts de
support, relevant d’autres niveaux d’analyse du discours (essentiellement lexicaux et
syntaxiques) » [KAN’08]. Cette idée procédait d’un principe sain : intégrer dans l’unité
fondamentale de la synthèse, des composants véritablement linguistiques [CAL’04].
L’intelligibilité phonétique est liée aux aspects articulatoires, acoustiques et perceptifs de la parole, tandis que
celle linguistique étant liée plus à la compréhension du message verbal [GDT’72].
5 Les phones sont les réalisations acoustiques de phonèmes.
4
14
Dans les approches récentes, dites « par corpus », pour synthétiser une séquence
textuelle, on cherche le meilleur candidat disponible dans un corpus préalablement
enregistré. L’occurrence choisie doit maximiser un ensemble de critères de décision,
tant phonématiques que lexicaux ou syntaxiques. Par conséquent, la synthèse de
parole devient tributaire du corpus, lequel remplit une fonction de médiation par
rapport au système de la langue. Les résultats de cette technique étant souvent très
bons, on pourrait même considérer la recherche sur la synthèse de parole presque
close, car les problèmes qui restent à résoudre semblent, en grande partie, liés à des
préoccupations quantitatives (taille de corpus, finesse des lexiques et des règles
syntaxiques), de paramétrage contextuel ou d’optimisation algorithmique.
Cependant, cette performance s’avère être conditionnée. Elle donne des résultats
satisfaisants et même de très bonne qualité en termes d’intelligibilité phonétique et
linguistique pour des pratiques linguistiques standardisées et des entrées textuelles
courtes. Car habituellement, son évaluation porte implicitement sur les niveaux
locaux (appelés par la suite, micro- et méso-linguistique [DUT’09]), qui concernent les
unités linguistiques allant du phonème à la phrase, maximum. Mais lors du passage
à un niveau global (ou macro-linguistique) où l’intégralité d’un texte est mise en
question, les résultats de ces évaluations changent radicalement. Ainsi, pour des
applications6 vocales qui se caractérisent par des dimensions textuelles réduites, les
mécanismes de synthèse de la parole actuels sont plutôt satisfaisants. Mais pour des
applications de dimension textuelle plus « considérable »7, issues d’écologies réelles
d’interaction homme-homme, les critères d’intelligibilité se montrent incapables de
satisfaire même les exigences les plus faibles en matière de naturalité de la voix.
« Dès que la phrase est dépassée, dès que nous cherchons à synthétiser des textes
quantitativement conséquents, la vocalisation, aussi intelligible qu’elle soit, se révèle
irrecevable puisque sans couleur, neutre, décidemment ennuyeuse » précise [KAN’08].
Très souvent, on entend dire que la voix de synthèse est monotone, que la parole
n’est pas expressive. Au début des années ’90, [GUA’91] affirmait : « Actuellement, les
systèmes de synthèse produisent, dans leur ensemble, des intonations correctes, mais
uniquement pour des phrases lues, isolées et sans expressivité. Lorsque ces phrases
lues sont concaténées pour créer du texte, l’effet qui en découle est une incohérence
rythmique globale, à laquelle s’additionne une impression de monotonie ».
Curieusement, après deux décennies de recherches actives et d’investissements
conséquents, on se retrouve toujours devant le même problème : la voix de synthèse
produite pour des corpus textuels de taille plus grande, malgré son intelligibilité, est
loin d’être honorablement comparable à une voix humaine, naturelle. Sa monotonie,
sa froideur, son manque d’expressivité pour certains, interpellent. On s’interroge
donc si « la catégorie de la quantité n’est-elle peut-être pas la cause d‘un tel état de
Tel l’annuaire téléphonique oral ou les applications qui engagent le dialogue comme l’assistant automatique de
secrétariat, les divers serveurs liés à des services, etc.
7 Comme, par exemple, la lecture de contes pour les enfants, d’articles de journaux, d’horoscopes, etc.
6
15
choses, mais seulement le facteur qui permet de révéler la nécessité de traiter la
naturalité sur une autre dimension, qui est la textualité » [KAN’08]. Une dimension
restée longtemps latente, mais enfin révélée par ce genre d’applications, comme étant
essentielle pour la correcte réception et interprétation de la parole de synthèse.
Notons que cette révélation empirique confirme, une fois de plus, les démarches des
sémanticiens, tel [RAS’01] pour lequel « l’unité fondamentale8 pour la problématique
rhétorique-herméneutique, c’est le texte ». Une question légitime se soulève donc ici :
quelles sont les raisons qui font qu’en passant d’un local à un global textuel, on perd
de la naturalité et, avec elle, de l’expressivité ? Puisque, après tout, un texte est fait de
mots et de phrases…
1.2.2 Expressivité et cohérence discursive. Isotopies.
Certes, le texte est composé des localités tels les mots et les phrases, mais il s’avère
être bien plus que la somme de ces constituants, avec laquelle il est très souvent et
injustement confondu. Plus qu’un simple procédé additif de concaténation d’unités,
la construction d’un texte (d’abord écrit, éventuellement oralisé par la suite) suppose
notamment un emplacement et une architecture de ces unités. Autrement dit, « une
vue d'ensemble sur les détails (compris ici comme des locaux textuels), qui permet de
retrouver le sens en même temps dans et entre ces détails » [RAS’01]. Dans l’absence
de cette vue globale, il n’y a pas de texte, mais des suites de mots. De ce fait, derrière
cette construction globale du sens textuel se cache une problématique de cohérence
discursive.
Selon [DES’99], « un déroulement sonore (verbal ou purement musical) est cohérent
à condition que chaque élément exerce une fonction particulière et se lie ainsi aux
autres pour former un même tout : que ce soit dans le cadre de la tonalité ou de
l’organisation temporelle, les différents sons et silences ne s'enchaînent pas de façon
arbitraire mais en vertu du rôle défini que chacun joue ». Dans la même lignée, la
cohérence traduit, selon [JAU’05], « une logique9 du déroulement sonore par laquelle
les différents éléments (ici, discursifs) sont insérés dans une structure unifiée ». Or,
c’est justement grâce à la présence de cette structure, que tout mouvement chaotique
ou aléatoirement insensé de la parole sera prohibé à se produire. Cette structure
justifiera la genèse d'une progression dynamique unifiée du déroulement sonore qui
évitera que l'ensemble se délite en de multiples expressivités isolées. Nous partons
donc de l’idée que ce ne sont pas les localités expressives qui donnent le sens d’une
parole, mais la mise en relation de celles-ci pour former un tout, une globalité
discursive. Cette progression dynamique unifiée facilitera le déploiement d’isotopies
et comme détaillé plus loin, l’instauration des rythmes expressifs au sein du discours.
Une distinction est faite en [RAS’01] entre l’unité fondamentale (i.e. le texte) et l’unité élémentaire (i.e. le signe
linguistique). Pour illustrer, le morphème est une unité minimale, mais pas pour autant fondamentale.
9 A son tour, celle-ci traduit « un certain degré de tension et d’instabilité, ou au contraire de détente et de repos ».
8
16
Précisons que les isotopies discursives définissent « la permanence d’un ensemble
de caractéristiques (ici, expressives), qui dans leur variance, ne détruisent pas l’unité
du texte (ou du discours), mais la confirme. Au risque d’être redondantes ou mieux,
espérées et attendues, ces caractéristiques sont répétées au sein d’un discours, y
assurant sa cohérence (expressive) et ses interprétations » [RAS’81]. Cela nous rappelle
les traits redondants cités par [JAK’63], qui aident à l’identification d’autres traits,
distinctifs, configuratifs ou expressifs. Dans op. cit., les traits configuratifs signalent la
division de l’énoncé en unités constituantes, soit qu’ils mettent ces unités en relief et
en indiquent la hierarchie (traits culminatifs), soit qu’ils les délimitent et les intégrent
(traits démarcatifs). Les traits expressifs (ou aussi emphatiques) mettent une emphase
relative sur différentes parties de l’énoncé ou sur différents énoncés et suggèrent les
attitudes émotionnelles de l’énonciateur. Les traits distinctifs sont soit les traits
intrinsèques, soit ceux prosodiques (de ton, de force, de quantité), cf. plus loin.
Deux principaux scénarios d’enchainement expressif peuvent apparaître au sein
d’un processus de lecture (silencieuse ou à haute voix d’un texte). Le premier se
dirige vers la confirmation, voire même l’amplification d’attentes interprétatives
introduites initialement, tandis que le second, vers leur non-satisfaction progressive
ou bien leur violation ponctuelle [RAS’99]. Le premier scénario correspond à un cas de
convergence expressive globale, concrétisée par un progrès discursif expressivement
homogène qui aboutit à la validation de l’isotopie expressive initialement identifiée.
Le second scénario traduit un cas d’allotopie expressive, qui se caractérise soit par i)
l’attente de la non-apparition, au fil du discours, des éléments expressifs exposés
initialement et donc attendus et espérés par la suite (i.e. éléments expressifs en
expectative), soit par ii) la rupture (souvent, ponctuelle) de l’isotopie expressive déjà
instaurée. De sorte que les allotopies expressives peuvent mener à une déception10
interprétative quant aux espérances initiales des récurrences expressives au sein du
discours. Nous nous intéressons dans ce travail exclusivement au scénario de
convergence expressive qu’un discours oral manifeste quand il est soumis à des
règles interprétatives de cohérence discursive.
1.2.3 Expressivité et rythme. Variabilité expressive.
Sujet complexe et amplement controversé dans diverses disciplines11, le rythme, tout
comme l’expressivité, reste une notion qui échappe à une définition limpide, qui soit
facilement abordable. Injustement restreint à un simple élément de l’organisation
temporelle, mais non-assimilable à l’alternance et non-réductible à la répétition, il fait
appel plutôt à un mode de mouvement général ou, mieux, à tout phénomène
considéré comme mode de mouvement global. Perceptible et reproductible comme
Même si, dans certains cas particuliers comme, par exemple, pour certaines blagues, le scénario expressif (de la
chute) est construit justement sur l’attente du non attendu, ou sur l’attente de ce type de rupture.
11 Telles la Linguistique, la Musicologie, la Chorégraphie, etc.
10
17
« un tout indivisible dont chaque élément, par la place qu’il occupe dans le déroulement, participe de façon nécessaire et organique au mouvement de l’ensemble »
[SAU’00], le rythme s’érige au sein d’un texte oralisé sur la distribution des grandes
masses textuelles et entraine, dans une danse sensée de pleins et de vides, des sons et
des silences. Les multiples montées et descentes intonatives, les accélérations et les
ralentissements du débit d’élocution, la répartition des temps forts et faibles, ainsi
que l’agencement des pauses, sont des éléments expressifs nécessaires tant pour la
production que pour l’interprétation d’enveloppes rythmiques pour un discours.
Si nous résumons, l’expressivité exigée lors du passage au global textuel s’articule
autour des thématiques comme la cohérence globale du textuel et du déroulement
discursif oral, les isotopies discursives ou les mouvements rythmiques d’ensemble.
Nous retrouverons ces idées tout au long de notre étude, et plus particulièrement
dans les chapitres 2, 5, 8 et 9.
L’expressivité dérobe aussi des notions souvent obscures, parfois trop généralistes,
telles celles proposées en [DES’99] : « L’expressivité, c’est l’intrusion de l’autre dans le
même, de la diversité dans l’unité, de l’inattendu dans le stable. Son degré se mesure
au mélange particulier d’uniformité et de variété, à l’importance des contrastes, la
rapidité et l’imprévisibilité des changements, la nouveauté de la structure ». Or, une
telle définition risque de s’appliquer assez difficilement dans une problématique de
modélisation dans le cadre de la synthèse vocale. Cependant, nous en retenons ici
quelques termes clés : « diversité », « variété », « changements », « nouveauté », que
nous convenons d’assimiler ici sous le même vocable de variabilité expressive. Notons
que cette variabilité est une variabilité sensée, soutenant une structure discursive
unifiante qui permet le déploiement d’isotopies et l’instauration de divers rythmes
expressifs au sein du discours. Nous proposons donc pour la suite de nos travaux
une définition qui nous semble plus appropriée au cadre technologique concerné par
ceux-ci : l’expressivité dans la parole relève d’une variabilité sensée de faits discursifs locaux,
et d’une structure unifiante qui soutient la progression globalement cohérente de ces derniers.
Il s’agit donc d’une diversité globalement cohérente de la palette expressive d’un
discours oral, ou d’une valorisation au sein de ce dernier d’une palette riche de faits
pour créer les isotopies et les rythmes expressifs indispensables à son interprétation.
1.2.4 La parole expressive exprime et s’exprime
À une première vue, une parole expressive, est une parole qui exprime. Une parole
colorée, animée, vivante. Une parole parlante, si l’on peut dire. Un endroit où le vécu
[ABI’05], avec ses sentiments12, ses émotions [SCH’89], ses passions, ses sensations, ses
affects, ses humeurs, ses attitudes [FON’87], [VAI’02b] retrouvent leur place. Une parole
12
Malgré les nombreuses fluctuations terminologiques et typologiques de ces notions.
18
qui exprime est une parole qui évoque et qui provoque [ARI’91]. Elle est présente pour
stimuler, pour manipuler, pour révolter, pour détruire, pour faire renaitre...
Une parole expressive, est également une parole qui s’exprime et se dévoile13. En
se rapprochant de son destinataire, la parole aide à se reconnaitre. Elle s’identifie non
seulement par son timbre, mais aussi par un ensemble de caractéristiques [FON’83]
telles l’intonation, le « style », la façon générale de parler, le registre linguistique,
l’accent du locuteur, etc. Elle est aussi le témoigne des diverses situations, transitoires
ou permanentes (par exemple, d’un état d’ivresse, d’indécision, ou d’une maladie),
dans lesquelles ce dernier se trouve au moment de l’élocution. Chacun de ces
éléments dégagent des régimes adéquats d’expressivité portée par la parole. Souvent,
ils sont confirmés par la présence d’un ensemble d’éléments « épivocaux » (tels les
soupirs, les rires, les ajustements de voix [LEO’93], etc.) qui dévoilent, eux aussi, une
voix et situent ainsi la parole. Tous ces éléments, que nous allons détailler dans le
chapitre suivant, induisent de la diversité dans la palette expressive d’une parole.
1.2.5 Reconsidération du paradigme du neutre. Programmes scientifiques.
Cependant, pour des raisons qui tiennent plus de la robustesse que de l’esthétique
discursive, la plupart des systèmes de synthèse de la parole travaillent actuellement
avec une parole dite neutre (ou, selon [BEL’09], « de degré d’expressivité zéro »). Ceci est
dû essentiellement au fait que la pensée applicative est pragmatique et procède
généralement par arguments de faisabilité. Dans cette sorte de démarche, le calcul
d’une « moyenne » quantitative constitue souvent une solution emblématique. Dans
certaines pratiques bien précisées (comme l’annuaire téléphonique ou les pratiques
journalistiques), ce « neutre » est plus que souhaité, délibérément recherché, puisqu’il
est censé convenir là où toute autre forme d’expressivité est refusée en diverses
raisons. Revendiquant l’instauration d’un lieu interprétatif volontairement abstrait et
généralement artificiel, le « neutre » se tient à distance égale relativement à toute
forme d’expressivité. Il est peut-être souvent peu recevable, mais toujours sujet à des
rénovations interprétatives susceptibles de le rendre, au bout du compte, acceptable,
voire même adapté14. « Le neutre n’est pas ce qui ne dérange pas, bien le contraire :
c’est ce qui dérange toujours. Mais il dérange de manière égale, non partielle, tout en
dispensant un service d’utilité à nombre de cas » [KAN’08].
La reconsidération du paradigme du « neutre » légitime, selon l’auteur, deux grands
projets dans les démarches de synthèse de la parole. Le premier projet, de nature
minimaliste, procéderait d’un constat de déficience expressive provenant de la nature
Notons que les exemples typiques des démonstrateurs vocaux disponibles sur le marché débutent souvent par
une phrase du genre : « Bonjour, je suis la voix de… produite par… ! »
14 Il existe toutefois des cas où, par le changement des pratiques discursives, ce « neutre » censé rien transmettre,
peut faire pleurer, rire, interpeller, etc. Il suffit d’imaginer un politicien tenant son discours de la façon dont un
journaliste présente le bulletin du soir. Vidé des figures rhétoriques de certitude traditionnelles, son discours
semblerait une excellente parodie. En se refusant d’exprimer, le neutre exprime.
13
19
des données en entrée et amènerait à fixer un ensemble des valeurs (cf. chapitre 5,
section 5.2, de nature prosodique15) par défaut à tout texte, issu de tout genre textuel,
dans toute situation d’élocution, pour n’importe quelle gamme d’idiolectes. Plus
vraisemblablement, ces valeurs seraient qu’accidentellement appropriées pour un
rendu de synthèse expressif. Mais elles auraient l’avantage de rendre le logos du
texte, en préservant une importante partie de son intelligibilité. Dans l’optique d’un
tel programme, le minimaliste provient d’un argument d’efficience, uniformément
sensible aux paramètres de coût. Une part importante de chemin est déjà parcourue
dans cette direction et grâce à l’approche « par corpus », la synthèse vocale peut
présenter aujourd’hui des performances tout à fait satisfaisantes. De sorte que les
réalisations qui s’inscrivent dans ce programme de recherche peuvent toujours
conserver leur espoir pour une amélioration ultérieure de la parole synthétisée. Mais
problème de l’expressivité reste ordonné dans le temps et généralement envisagé
comme l’effet postérieur d’un ajout. En termes rhétoriques, on dirait que dans un tel
programme « le pathos16 vient après le logos » [KAN’08].
Le second programme, lui, se donnerait pour ambition la restitution d’une parole
véritablement expressive. Or, un tel programme ne peut se réaliser que par un
supplément d’information. Selon le type de cette information et les procédures de
son exploitation, il déclinerait deux principaux sous-programmes que nous résumons
ici. Ainsi, si l’information rajoutée présente une finalité descriptive et prescriptive, la
démarche se dirigera vers une perspective de notation. Sa forme computationnelle
serait un certain métalangage de marquage : les entités linguistiques seraient en
grand nombre indexées sur des grammaires (prosodiques) et le système de synthèse
n’aurait qu’à interpréter (prosodiquement, également) le texte suivant une syntaxe
univoque et explicite, disponible en amont. Directe, évidente, peut-être toujours
possible, cette orientation de développement se heurte sur un problème de coût,
comparable à celui que doit affronter un comédien travaillant son texte. Elle bute
également sur un problème récurrent de pertinence des unités linguistiques choisies
(comme discuté dans le chapitre 2).
Au contraire, si la finalité est indicative, la démarche scientifique mènera vers une
problématique de similitude. Là, il s’agira d’importer et d’appliquer sur la matière
textuelle des formes expressives récoltées dans des genres communicationnels jugés
comme similaires (cf. chapitre 4). Une telle orientation nécessiterait deux choses : i)
une vue assurée sur les genres dont relève le texte sous traitement, sur la situation
d’élocution et peut-être aussi le profil du locuteur à imiter (cf. chapitre 2, section 2.1) ;
et ii) la constitution d’un corpus suffisant tant quantitativement que qualitativement
(cf. chapitre 4) qui suppose des enregistrements contrôlés et traités au préalable. Très
peu de chemin est parcouru dans cette seconde direction, dans laquelle s’inscrit notre
démarche de modélisation et d’étude de l’expressivité dans la synthèse de la parole.
15
16
Car la prosodie se montre le siège principal de l’expressivité dans la parole (cf. chapitres 2 et 5)
Dans la référence, le pathos est conçu comme un synonyme de l’expressivité.
20
1.3
Survol sur les démarches actuelles pour l’étude de l’expressivité
Parmi les démarches actuelles qui visent la reconsidération du paradigme du neutre,
la grande majorité considèrent la variabilité expressive de la parole sous le prisme de
diverses émotions, intentions et/ou attitudes. Par conséquent, les travaux de recherche
qui s’inscrivent dans ces démarches se voient obligés d’abord à définir ces notions, si
controversées, et ensuite à adopter une des classifications disponibles, plus ou moins
raffinées, pour celles-ci. Ainsi, selon [PIC’97], les émotions primaires concernées sont
définies par des catégories abstraites, automatiques, universelles : joie, tristesse, peur,
colère, dégoût, surprise. D’autres auteurs nomment : colère, désespoir, dégoût, doute
(notamment [FIA’01]), peur, exaltation, joie, irritation, tristesse, sérénité, surprise et
inquiétude (cf. [DEV’03]), tandis que d’autres : jovialité, crainte et satisfaction [SHA’05],
ou bien joie, tristesse, colère, confort et calme [OUD’03]. Certains citent la satisfaction,
l’excuse, le suspense [BRA’05] ou l’indignation [BAN’04]. Néanmoins, le choix le plus
courant consiste en l’étude des émotions tristes et joyeuses, auxquelles se rajoutent la
peur et la colère [SCH’89], toutes rapportées à un référentiel neutre.
Les émotions sont très ordinairement distinguées selon leur dimension positive vs.
négative et leur sont associés des degrés d’intensité [SAI’73] ou des niveaux de valence
(faible, moyen, ou fort). Puis, en ouvrant les catégories à des affects contrôlés vs. noncontrôlés, des auteurs comme [AUB’02] ou [AUD’08], étudient l’importance de diverses
attitudes dans l’expression par la parole. L’intérêt de ce genre de recherches n’est pas
nouveau, car [FON’83], [FON’87] avaient déjà étudié l’expression vocale d’émotions et
d’attitudes, et [VAI’02b] avait déjà rapporté leur expression au code linguistique.
Soulignons que la plupart des travaux mentionnés ici s’intéressent aux portées très
locales pour la manifestation de l’expressivité et ne traitent qu’exceptionnellement
l’expressif discursif global. Plus encore, ils souscrivent par excellence soit au premier
programme mentionné dans la section précédente (comme c’est le cas de [BEL’09], ou
des travaux du projet [EXP’07] qui s'intéressent aux différences séparant la parole
expressive des informations dédicacées de la parole neutre, plutôt qu’à la description
de cette parole expressive), soit au premier sous-programme du second projet. Pour
illustrer ces derniers, nous citons les travaux de [LID’03] qui s’appuient sur trois bases
de données de parole étiquetées de grande taille, composées des mêmes phrases lues
en simulant une expression de joie, de colère ou de tristesse. La même démarche est
suivie par [BLA’03] qui propose une approche « par corpus » expressifs dédiés à la
synthèse de parole émotionnelle. Au contraire, [BUL’02] et [MAR’00] regroupent les
différents corpus expressifs sans en effectuer de séparations formelles et essaient de
discerner les émotions à l’intérieur de cette base hybride selon plusieurs paramètres.
Très souvent, ces derniers sont issus des considérations d’ordre prosodique [TSU’04],
[BEL’02], [AUD’08] ou de qualité vocale [YE’04], que nous discuterons dans les chapitres
2, et surtout 5. Pour un inventaire plus détaillé sur ces approches, nous conseillons
[SCH’01]. Notons aussi que des recherches plus récentes s’ouvrent à des annotations
21
nouvelles des bases expressives, comme c’est le cas de celle proposée par [SYR’08] qui
repose sur une taxinomie d’actes de parole [SEA’75], notamment ceux dits « affectifs ».
En dehors des recherches sur les affects, les travaux qui s’intéressent à d’autres
dimensions d’étude pour la variabilité expressive sont beaucoup moins nombreux.
Parmi ceux-ci nous citons deux grandes références qui pointent l’une vers les travaux
en phonostylistique de [LEO’93] et l’autre vers les travaux en sémantique textuelle
décrits en [CAE’08], censés soutenir la tradition rhétorique-herméneutique telle que
proposée en [ECO’85] ou bien [RAS’01]. Nous pouvons citer ici également les recherches
de [FON’83] qui, en éclaircissant le double codage de la parole, postulent que cette
dernière véhicule des informations pragma-linguistiques et phonostylistiques qui
traduisent divers faits expressifs. Dans la même lignée, [YAE’02] étudie la variabilité
expressive selon la langue, la culture et la situation sociale des locuteurs, tandis que
[JIA’08], [MOR’05], celle inter-locuteurs. En parallèle, un nouveau domaine de recherche
se voit émerger : celui de SSP (i.e. Social Signal Processing). Cf. [HUM’10], il s’intéresse
aux marques expressives de diverses dimensions sociales sur la parole, telles la
politesse, la familiarité, la dominance ainsi qu’aux émotions sociales (qui s’expriment
plutôt que se vivent), comme l’amour, la préférence, la jalousie, le flirt, etc. Mais à
présent, tous les travaux mentionnés, hors [CAE’08], se contentent d’une portée locale
pour l’expressivité. Nous y reviendrons avec des discussions dans les chapitres 2 et 6.
Dans une démarche de recherche d’expressivité à portée globale, nous évoquons
les travaux de [FAC’00] portant sur l’investigation de la variabilité expressive selon le
type de texte, ceux de [THE’06], voués à la génération d’un « style expressif » dédié
aux contes pour les enfants, ainsi que les travaux de [ROD’06] et [GOL’07] qui portent
sur le « style journalistique » des nouvelles de télévision (les premiers) ou de radio
(les seconds). Nous y remarquons l’intérêt de plus en plus grand même si parfois mal
explicité, pour d’autres dimensions déterminantes pour l’expressivité, tel le genre
textuel ou le domaine d’application. Par leur ouverture, ces travaux se placent dans
l’optique du second sous-programme de recherche sur l’expressivité évoqué en 1.2.5.
Qu’ils appellent l’expressivité émotion, attitude ou information paralinguistique
(cf. [MAE’04]), ces travaux ont pour but de rechercher des corrélas qualitatifs généraux
entre les différents paramètres acoustiques de la voix et les catégories expressives
que cette dernière véhicule. La plupart de ces auteurs vont plus loin, en cherchant à
extraire à partir de ces caractéristiques acoustiques, des informations quantitatives
pertinentes pour le discernement des faits expressifs. Certains vont jusqu’à proposer
une collection de « règles » (cf. [MOZ’98], [SCH’01b]) ou des consignes [CAE’08] (surtout
prosodiques, i.e. mélodiques, de rythme, de tempo, d’intensité) pour la production
et/ou la perception d’un sous-ensemble de faits discernables. Notre étude sur la
variabilité expressive se poursuivra, comme nous l’exposerons dans le chapitre 3, par
une démarche similaire, mais elle reposera sur un cadre de modélisation différent.
Précisons que la majorité des travaux de recherche sur l’expressivité dans la parole
sont encadrés dans divers projets au sein desquels des consortiums scientifiques,
22
(composés d’ingénieurs de la langue, de linguistes, et de spécialistes en traitement du
signal), soutiennent des consortiums industriels (comme Orange, Belga, Alcatel, ITOptics, Acapela Group, etc.) pour développer de nouvelles fonctionnalités (ou pour
en améliorer d’autres) pour les systèmes de synthèse de parole expressive. Parmi ces
projets, nous citons : INTERFACE, un projet de langage textuel commun à la synthèse
vocale et faciale, qui emploie des marqueurs des émotions prototypiques (telle la
peur, la colère, la joie, le dégoût, la surprise, etc.), AMITIÉS (concentré sur l’étude de la
détection des émotions dans les dialogues), EMOTV1, [EXP’07] (un système automatique
de diffusion vocale d’informations dédicacées, qui utilise une synthèse de la parole
expressive à partir de textes balisés), etc. Nous mentionnons également le projet
CORDIAL de l’IRISA, qui vise une mise en œuvre facilitée de systèmes oraux interactifs
conviviaux. La synthèse de parole expressive et émotionnelle se situant au cœur de
ses préoccupations, l'équipe a été amenée à participer à des projets européens tels
ceux proposés par le réseau d’excellence [HUM’10], cf. [ERM’02] et [VIV’08].
Le projet ERMIS [ERM’02] a comme finalité le développement d’un prototype pour
les IHM, prototype qui soit capable d’interpréter les attitudes ou les états émotionnels
de l’utilisateur (comme l’intérêt - l’ennui, la colère etc.), à partir de ses empreintes
dans la parole et de la variété de ses expressions gestuelles ou faciales. De la même
manière, dans le projet VIVOS [VIV’08] au sein duquel nos recherches ont commencé, la
question de l’expressivité est au centre et conditionne très fortement l’utilisation de
voix de synthèse en multimédia. Nous ne pouvons pas omettre de citer ici le projet
[NEC’00] qui s’intéresse à la communication entre des avatars exhibant des traits de
personnalité et de comportement affectif crédibles. Ce projet se situe aux croisements
des recherches en génération d’une parole expressive orientée situation (cf. SSP),
avec celles en sémiotique de l’expression non-verbale dans la communication sociale.
Nombre de ces travaux en expressivité sont menés, pour le français, au sein
d’équipes de recherche de l’IRCAM ([MEU’02], [BEL’09]), de l’INRIA, de l’UPX, d’Aix-enProvence, de l’IPG de Grenoble (cf. [AUD’08]), aussi que de l’Université de Louvain
[MER’04] ou l’Université de Genève [PRO’05], etc.
Parmi les produits de synthèse vocale expressive disponibles sur le marché, nous
évoquons d’abord ceux dédiés à la voix chantée, tels VOCALOID (développé en 2004
par Yamaha), FLINGER (le Singer virtuel proposé par Festival), ou Melody Assistant
(développé par [MYR’05]). Puis, il y a les logiciels « classiques » de synthèse de parole
neutre, qui utilisent un ensemble d’éléments prosodiques (cf. Caterpillar développé à
l’IRCAM), épivocaux et/ou paralinguistiques pour créer quelques effets d’anima
[LOQ’09], toujours d’ordre très local. Enfin, nous avons un ensemble de logiciels libres
qui proposent quelques manières souples de manipulation de l’expressivité (comme
eSpeak), ou qui revendiquent la génération de l’expressivité de grande qualité pour
des domaines restreints (tels les résultats sportifs pour [MAR’10], que nous discuterons
dans le chapitre 8), en utilisant des corpus de sélection d’unités expressives dédiées.
Notons enfin que nous aurons des références spécifiques tout au long de ce travail.
23
1.4
Organisation du document
Le document présent est organisé de la manière suivante :
Dans ce premier chapitre, nous avons tout d’abord esquissé le cadre applicatif dans
lequel se situe notre travail (i.e. la synthèse de la parole), en exposant les principaux
enjeux sociaux, ergonomiques, technologiques, et scientifiques que celui-ci suscite.
Nous avons discuté ensuite sur quelques questions soulevées par la problématique
de l’expressivité de la parole, telles la textualité, la cohérence, les isotopies et les rythmes
discursifs, la nécessité de traiter de la variabilité et la reconsidération du paradigme du
neutre dans la mise en place de nouveaux programmes de recherche.
Dans le deuxième chapitre, nous décrivons la construction graduelle du cadremodèle proposé pour les études ultérieures sur l’expressivité dans la parole. Celui-ci
révèle: i) les caractéristiques expressives d’ordre extratextuel qui situent l’intrinsèque
textuel d’entrée, ii) un nombre de divers traitements effectués sur ce dernier, iii) les
paliers linguistiques choisis comme unités d’analyse, iv) les informations véhiculées
par les multiples variables prosodiques associées à chacune de ces unités, ainsi que v)
les divers jeux paramétriques sur ces variables, censés traduire les observables des
formes expressives discursives mises à l’étude.
Dans le troisième chapitre, nous présentons la méthodologie de travail adoptée
pour l’étude des faits discursifs expressifs, en esquissant ses trois grandes phases : i)
l’acquisition des formes expressives, situées dans un espace extratextuel identifié en
préalable, qui constituent nos corpus de travail ; ii) la tractabilité des formes détectées
dans un espace formel, opérationnalisée d’abord par l’extraction et la représentation
formelle des paramètres observables de ces formes, et ensuite par leur analyses
comparatives ; et iii) la synthèse des formes expressives pour leur future validation.
Le quatrième chapitre porte sur la constitution des corpus pour l’analyse des formes
discursives expressives. Nous discutons : i) le choix ou la conception des corpus écrits
qui sont les supports textuels pour les réalisations expressives étudiées ensuite, et ii)
le recueil des divers corpus oraux qui sont les réalisations de ces corpus écrits, les
porteurs des observables permettant l’analyse ultérieure des formes expressives.
Dans le cinquième chapitre, nous présentons les éléments de description formelle des
formes expressives discursives par la spécification des composantes décrites dans le
chapitre 2. Nous étalons ainsi, pour une matière textuelle donnée : i) le codage des
principales caractéristiques textuelles intrinsèques permettant de définir les paliers
d’analyse, et le balisage textuel ancré sur ces derniers, ii) la description phonologique
des variables prosodiques associées aux paliers d’analyse qui relèvent des structures
mélodiques et temporelles et composent l’espace formel des observables expressifs, iii)
la représentation formelle des caractéristiques extratextuelles étiquetées au préalable,
traduites par des signatures expressives définies sur le jeu des contraintes prosodiques
agissant sur les variables précédemment définies, et iv) un moyen de rationalisation
24
des rythmes expressifs reposant sur ces contraintes et définissant quelques critères de
discernabilité expressive d’un discours oral.
Le sixième chapitre s'intéresse aux principaux traitements numériques et formels
nécessaires pour l’extraction et la représentation formelle des variables prosodiques. On
y examine en détail les paramètres temporels et mélodiques pour chaque unité
d’analyse choisie, ainsi que ceux liés aux diverses pauses qui ponctuent le discours.
Dans le septième chapitre, nous décrivons la structure de données expressives
développée pour accueillir les résultats des traitements conduits dans le chapitre
précédent. Nous présentons brièvement les types abstraits utilisés dans ce travail, qui
font appel tant au modèle d’expressivité discursive défini dans le chapitre 2 qu’au
cadre de formalisation défini dans le chapitre 5. L’objectif final est l’obtention des
types abstraits plus complexes dédiés à chaque unité phonologique, pour pouvoir en
constituer les dictionnaires de données expressives observables dans notre corpus.
Le huitième chapitre est consacré aux diverses comparaisons formelles effectuées
entre les observables prosodiques des bases des formes discursives situées. Nous
étudions ici les contraintes sur les multiples variables prosodiques : i) des différentes
formes issues d’une même base expressive, pour extraire un ensemble de traits
expressifs récurrents, et ii) des formes issues des bases expressives différentes, en vue
d’étudier leur variabilité prosodique qui permettra d’aborder enfin les problèmes de
discernabilité expressive.
Le neuvième chapitre porte sur la synthèse des formes expressives discursives par
l’affectation de diverses contraintes prosodiques déterminées dans le chapitre 8. Nous y
présentons les plateformes applicatives utilisées pour réaliser l’affectation des traits
expressifs récurrents et des traits discernables, par la manipulation (semi-automatique
ou manuelle, selon le cas) des valeurs qui correspondent aux variables prosodiques.
Cette procédure permet de valider les signatures expressives des formes discursives. Le
protocole d’évaluation perceptive est présenté ici, ainsi que les résultats, discutés.
Nous continuons par quelques lignes conclusives sur le travail mené dans le cadre
de cette thèse et esquissons quelques perspectives de recherche ouvertes par celui-ci.
Celles-ci font l’objet du chapitre 10. Sommairement, les premières récapitulent la
problématique de recherche, les aspects du cadre-modèle proposé pour répondre aux
besoins issus de cette problématique ainsi que les démarches techniques le soutenant.
Les secondes concernent notamment l’étude de nouvelles formes d’expressivité
discursive, l’affinement ou l’adaptation du modèle proposé, des outils de traitement,
de comparaison ou déformation prosodique, ainsi que la révision des critères de
validation des rendus obtenus par l’affectation de diverses contraintes prosodiques.
Les annexes A1 à A10 présentent quelques détails sur un ensemble de questions
discutées dans les chapitres antérieurs : les corpus écrits (A1, A10) ou oraux (A2), les
divers étiquetages (A3) et balisages (A4 et A5), le formalisme phonologique (A6, A7,
A8), et quelques résultats des analyses comparatives des formes expressives (A9).
25
Figure 1.2 : Schéma d’organisation du document
26
Annexe A10
Annexe A2
Annexe A1
Chapitre 4
Acquisition des
corpus d’étude
Phase Ph1
Annexe A8
Annexe A7
Annexe A6
Annexe A5
Annexe A4
Annexe A3
Chapitre 5
Descriptions
formelles
Chapitre 10
Conclusions et perspectives
Phase Ph3
Chapitre 9
Synthèse prosodique
(affectation contraintes et
évaluation perceptive)
Annexe A9
Chapitre 8
Analyses prosodiques (contraintes
de récurrence et de discernabilité sur
les variables prosodiques)
Sous-phase s2-Ph2
Chapitre 7
Implémentation de la
structure des données
Chapitre 6
Traitement des données
(variables prosodiques)
Sous-phase s1-Ph2
Phase Ph2
Chapitre 3
Méthodologie de travail
Chapitre 2
Définition du cadre-modèle
Chapitre 1
Problématique et état de l’art
CHAPITRE 2
POUR UNE MODELISATION DES FORMES DISCURSIVES EXPRESSIVES
Résumé
Ce deuxième chapitre est consacré à la définition d’un cadre de modélisation pour
l’expressivité dans la parole. Construit graduellement, le modèle proposé se présente
sous la forme d’un cheminement de cinq étapes : placé au préalable dans un espace
déterminé par quelques caractéristiques contextuelles extrinsèques (ici le genre textuel,
la situation discursive et le profil expressif du locuteur) (1), l’intrinsèque textuel subit
de nombreux traitements d’ordre lexical, syntaxique, morphologique, sémantique,
phonétique, de ponctuation, de typographie, etc. (2). Une fois ces traitements effectués
pour une entité textuelle donnée, quatre paliers linguistiques sont choisis comme
unités d’analyse : le texte, le groupe phrastique, le syntagme et la syllabe (3). Chacune
de ces unités véhicule des informations expressives de nature prosodique, extraites
par des traitements dédiés, et qui composeront trois structures (mélodique, temporelle,
énergétique) imbriquées (4). Les divers jeux de paramètres des structures prosodiques
traduisent les observables de ce que nous appelons formes discursives expressives (5). Ce
sont précisément ces formes qui portent de l’intérêt tout au long de ce travail, car elles
nous permettent de mettre en place, pour une fin applicative, un ensemble d’outils de
manipulation formelle (i.e. extraction, comparaison, déformation, et reconstitution) de
l’expressif discursif.
Sommaire du chapitre
2.1
2.2
2.3
2.4
2.5
2.6
Premier niveau : le texte situé par ses caractéristiques extrinsèques ……………...... 28
Deuxième niveau : les analyses possibles sur l’intrinsèque textuel ………………...... 31
Troisième niveau : les unités linguistiques choisies pour l’analyse …………..…...... 35
Quatrième niveau : les structures prosodiques imbriquées ………………………...... 39
Cinquième niveau : les formes discursives expressives …………..………………...... 42
Le cadre-modèle proposé pour l’expressivité discursive ……………………….……… 43
27
2.1
Premier niveau : le texte situé par ses caractéristiques extrinsèques
Pour situer la matière textuelle par rapport à sa langue de référence (ici, le français) et
à l’usage de cette langue (la ou les paroles), la spécification du genre textuel est
indispensable [KAN’05]. Selon [RAS’01], tout texte relève d’un genre et tout genre d’un
discours, donc d’un domaine sémantique, puisque le discours reste indissociable de
la pratique sociale. Le genre textuel (abrégé dans la suite, tg) est définit ainsi comme
un ensemble d’usages linguistiques codifiés attachés à un type de pratique discursive.
Il est également (cf. [SWA’90]), un « ensemble d’objectifs de communication partagés ».
Dans le passage à l’oralité, le tg est un moyen vital de médiation signifiante entre
le locuteur et l’auditeur, un « lieu sémiotique de manifestation de l’intersubjectivité »
[RAS’06] discursive. Autrement dit, les marques de genre prennent une dimension
rhétorique : elles établissent un « code partagé » [FOW’89], ou un « contrat instauré »
[LIV’94] entre la production discursive et le lectorat qui l’utilise (i.e. le réceptionne et
l’interprète). La connaissance ou la reconnaissance du genre « oriente vers des
attitudes, assomptions et implications appropriées » [CHA’97] pour la compréhension
du texte. L’affectation d’un texte à un genre permet l’établissement d’un « ensemble
d’attentes initiales » [COR’91], qui peuvent être parfois reconsidérées dans la suite de
la lecture. Elle propose aussi diverses procédures de déchiffrement sémiotique qui
facilitent la lisibilité, contraignent les divers chemins possibles d’interprétation
[KAN’08], [CAR’89] et guident le lecteur vers une lecture implicitement préférée [FIS’87],
[FEU’92], [BUC’93]. À l’intérieur des genres, les textes sont supposés être lus suivant un
ensemble de « modes d’adresse » [CHA’97] ou de « positions de lecture » [FRE’94],
[KRE’88] adéquates. Ainsi, un poème est écrit pour être lu comme un poème, un conte
pour les enfants comme un conte pour les enfants, un horoscope comme un
horoscope, etc. Encore que nous pouvons tout lire de la manière qui nous plaît. Nous
reviendrons sur ce sujet dans le chapitre 4 (cf. section 4.1.2.2.), en commentant sur les
effets d’une telle démarche de lecture, volontairement inappropriée.
Le choix d’un genre textuel limite donc le potentiel expressif de sens, en réduisant
la complexité interprétative. Conversationnel ou institué1, routinier ou bien auctorial2,
Maingueneau distingue en [MAI’04] deux grands régimes de généricité : les genres conversationnels et les
genres institués. « Les deux régimes obéissent à des logiques distinctes, bien qu’il existe des pratiques verbales
qui se situent sur leur frontière ». Les genres conversationnels « ne sont pas étroitement liés à des lieux
institutionnels, à des rôles, à des scripts relativement stables. Leur composition et leur thématique sont en général
très instables et leur cadre se transforme sans cesse : ce sont les contraintes locales, c’est-à dire les stratégies
d’ajustement et de négociation entre les interlocuteurs, qui l’emportent ». Ce sont des genres d’interaction
conversationnelle, que l’on retrouve plus souvent dans les pratiques verbales spontanées. Les genres institués, en
revanche, « regroupent les genres qu'on pourrait dire routiniers et les genres auctoriaux » [MAI’04].
2 Les genres auctoriaux « sont le fait de l'auteur lui-même, éventuellement d'un éditeur. En général, leur caractère
auctorial se manifeste par une indication paratextuelle, dans le titre ou le sous-titre : méditation, essai, traité,
dissertation, aphorismes... Ils sont particulièrement présents dans certains types de discours : littéraire, bien sûr,
1
28
le genre moule l’espace où l’expressivité discursive naît et dans lequel elle se fond. Il
contraint donc la réalisation discursive, en la plaçant dans un référentiel d’expression.
Cependant, les empreintes de tg ne suffissent pas pour marquer ce référentiel.
Les circonstances d’élocution qui relèvent les dispositions émotionnelles, les états
affectifs, ou les intentions rhétoriques du locuteur renforcent ou retracent, selon le
cas, le relief expressif esquissé au sein d’un discours par les contraintes de genre. Si
l’on veut emprunter la terminologie introduite par [MAI’04], la « scène générique »
(qui correspond au genre textuel), est mise à la rencontre d’une « scénographie », que
nous appelons ici situation discursive (abrégée plus loin par ds). Celle-ci traduit ce que
la tradition rhétorique appelle « situation d’élocution ». En effet, selon [ARI’91] « il ne
suffit pas de posséder la matière de son discours, on doit encore parler comme il faut,
suivant la nécessité3 de la situation, et c’est là une condition forte utile pour donner
au discours une bonne apparence ». Autrement dit, il s’agit de définir une situation
discursive conforme à l’intention locutoire puisque, « l’élocution appropriée à la
circonstance rend le fait en question probable, voire véridique » [FUR’93]. Nous
appelons cette élocution appropriée une ds « typique ». Toutefois, comme pour le
genre textuel, nous pouvons imaginer des situations d’élocution volontairement
décalées : la lecture d’un conte pour les enfants réalisée en mode « hystérique » ou
« agressif », d’un horoscope en mode « indécis » ou « interrogatif », etc. La ds
parvient donc à codifier ou à ré-codifier [CAR’97] les normes expressives socialement
partagées par le tg et à remodeler les régimes interprétatifs des pratiques discursives.
Elle est ainsi à côté de ce dernier, un élément de référence indispensable pour situer
les réalisations expressives discursives.
Puis, diverses formes discursives attestant des stéréotypes culturels, ethnologiques,
sociaux, de sexe ou d’âge du locuteur viennent apporter également leur empreinte
[SUC’07], [LEO’93] sur les réalisations expressives génériquement et situationnellement
déterminées. Témoins de ses niveaux de langue, de ses lexiques et ses syntaxes, de
ses figures stylistiques et rhétoriques, de ses intonations et ses rythmes propres
d’énonciation [MOR’03], ces formes composent ce que nous appelons le profil expressif
du locuteur (abrégé dans la suite, rp). Ce profil expressif permet de reconstituer les
mais aussi philosophique, religieux, politique, journalistique... En attribuant telle étiquette à telle œuvre, on
indique comment on prétend que son texte soit reçu, on instaure de manière non négociée un cadre pour son
activité discursive. » Les genres routiniers, eux, sont « les genres qu'étudient avec prédilection les analystes de
discours : le magazine, l'interview radiophonique, la dissertation littéraire, le débat télévisé, la consultation
médicale, le journal quotidien, etc. Les rôles joués par leurs partenaires sont fixés a priori et restent normalement
inchangés pendant l'acte de communication. Ce sont ceux qui correspondent le mieux à la définition du genre de
discours comme dispositif de communication défini socio-historiquement. Pour de tels genres, cela n'a pas grand
sens de se demander qui les a inventés, où et quand, la question de la source n'étant pas pertinente pour les
usagers. Les paramètres qui les constituent résultent en effet de la stabilisation de contraintes liées à une activité
verbale qui s'exerce dans une situation sociale déterminée. À l'intérieur de ces genres routiniers on peut définir
une échelle : d'un côté les genres totalement ritualisés, qui laissent une marge de variation minime (actes
juridiques, par exemple), de l'autre ceux qui, à l'intérieur d'un script peu contraignant, laissent une grande part
aux variations personnelles. » [MAI’04]
3 Dans la même lignée, [CIC’59] complète : « il faut employer le style simple pour prouver, le tempéré pour plaire,
le pathétique pour entraîner, etc. »
29
conjonctures de production verbale en identifiant, cette fois-ci, les particularités
idiolectales permanentes (comme la façon générale de parler dans une situation dite
« typique ») ou circonstancielles (comme le stress, la maladie, la fatigue, l’ivresse…)
du sujet parlant [ABI’05]. En sociolinguistique, l’idiolecte est le vocable qui désigne la
dimension de l’individualité en langue, manifestée par la parole. Il relève d’une
pratique langagière impliquant un marquage propre à un locuteur donné et traduit le
« habitus linguistique individuel » [BOU’82] expressif de l’énonciateur. Ainsi, dans
l’absence d’un « lecteur idéal » [KRE’88] utopique, les empreintes idiolectales situent la
parole dans une voix, en lui conférant une identité expressive [MOR’05]. Elles peuvent
éventuellement servir des marques biométriques 4 expressives du locuteur, si l’on
adopte une approche biométrique5 [BON’05] basée sur des éléments qui peuvent être
modifiés (par imitation ou par déguisement vocal) ou transformés (notamment par
quelques techniques de transformation de voix). Indépendamment de sa visée
biométrique, le rp se présente assurément comme un élément capital pour référencier
les réalisations discursives, au même titre que le tg et la ds.
Si l’on veut résumer, l’expressivité discursive avant d’être déterminée par les
particularités intrinsèques à la matière textuelle, est signée par les spécifications
génériques, situationnelles et idiolectales, toutes de nature extratextuelle :
Figure 2.1 : Le texte situé par les caractéristiques extratextuelles (tg, ds, rp)
Notons que les diverses signatures expressives déterminées par ces dimensions se
confondent dans les travaux de [LEO’93] sous la terminologie de « phonostyles » :
« l’oralité est un répertoire de styles sonores, ou phonostyles, tels qu’ils sont perçus
en tant que caractéristiques d’un individu (jeune, vieux, homme, femme), d’un
groupe social (prolétaire, bourgeois), ou d’une circonstance particulière (discours
4 Les « voiceprints » visant à constituer des systèmes d’identification de voix, ont été utilisés un temps comme
preuve criminelle aux USA, mais finalement récusés comme équivalent de l’empreinte digitale [MOR’05].
5 Selon l’auteur, la parole est classée dans la biométrie physique (en raisons de la forme, caractéristique de
l’individu, de l’appareil phonatoire qui conditionne la production verbale) et comportementale (car une grande
partie de la production de la parole, tel le vocabulaire, l’accent, les défauts, est apprise et non innée). Cependant,
ceci va à l’encontre des techniques de reconnaissance du locuteur qui s’avèrent seulement localement robustes à
cause de la grande variabilité des réalisations verbales due au locuteur. Mais cela sort du cadre de notre travail.
30
politique, sermon), etc. ». En revanche, dans ce travail, nous avons voulu insister sur
la séparation des signatures génériques, situationnelles et idiolectales. Ainsi, le
positionnement de la matière textuelle dans ce référentiel expressif triaxiale lui
« assure une légitimité dans les normes de communication », et signe son « acte de
naissance expressif » [SUC’07]. Néanmoins, les trois dimensions extratextuelles
servent d’indices de différenciation expressive sans aucune ambition classificatoire
ou quelconque prétention d’exhaustivité. Au contraire, les signatures expressives
introduites par les tg, ds et rp se déterminent et se rajustent souvent mutuellement au
sein des pratiques verbales, pour donner au texte devenu discours une identité
expressive cohérente, lisible et habituellement singulière.
2.2
Deuxième niveau : les analyses possibles sur l’intrinsèque textuel
Placer la matière textuelle dans un tel référentiel expressif déterminé par les
caractéristiques de tg, ds et rp révèle d’une démarche de modélisation expressive
orientée principalement vers un pragmatisme discursif. Dans ce type d’approches,
l’analyse ne porte plus simplement sur le contenu des signifiés (comme c’est le cas
des approches dites sémantiques) mais surtout sur les traitements opérés par le
locuteur (en production) et par le lecteur (en réception) sur ces signifiés. Certes, les
dimensions pragmatiques décrivant les « conditions de communication » [RAS’99],
[ARM’85] suffisent pour situer un texte. Cependant, pour sa décomposition en vue
d’analyses ultérieures, de nombreux traitements linguistiques sont nécessaires.
Un premier traitement concerne la forme et le degré de « brutalité » lexicale sous
laquelle la matière textuelle se présente. Cette « brutalité » fait appel à une étape de
prétraitement linguistique, définitoire pour la mise en correspondance du texte avec
les ressources lexicales6 de la langue de référence. Autrement dit, il s’agit d’« écrire
sous une forme littérale acceptable par les systèmes de synthèse, des textes composés
d’abréviations, d’acronymes, de nombres, de dates » [BOE’02]. La solution technique
consiste à parcourir des lexiques d’exceptions contenant pour chaque acronyme, ou
abréviation, etc. une forme littérale correspondant à une prononciation non ambiguë.
Dans certains cas d’usage de la synthèse de la parole, ce prétraitement lexical est
accompagné nécessairement d’une transcription phonétique directe. Nous pensons
notamment aux pratiques de vocalisation des SMS (cf. travaux menés par [GUI’07]) et
des messages instantanés, où les abréviations, les troncatures et les homophones7
constituent non pas l’exception, mais la règle d’écriture. Mais le travail présent ne
s’intéresse pas à ce genre des pratiques applicatives. De sorte que nous pouvons
Citant [DUB’91], le lexique désigne « l’ensemble des unités formant la langue d’une communauté, d’une activité
humaine, d’un locuteur, etc. » et se distingue du vocabulaire d’un texte qui « n’est qu’un échantillon du lexique du
locuteur, des interlocuteurs ou de la communauté linguistique considérée ».
7 Pour exemplifier : « ma1/3 txtu l » (pour « matière textuelle »), « tu fé koi ? » (pour « tu fais quoi ? »), etc.
6
31
postuler une première hypothèse de travail concernant l’intrinsèque textuel : il doit
se présenter sous une forme écrite « propre » de point de vue lexical, c’est-à dire sans
abréviations, fautes de frappe, écritures phonétiques, etc.
Puis, il vient le tour des traitements morphologiques et syntaxiques. Leurs objets
d’étude varient en fonction de l’approche linguistique que l’on préfère. Dans les
grammaires traditionnelles, la distinction entre ces deux types de traitement semble
claire : la morphologie désigne l’étude des formes des mots (avec leur flexion et
dérivation) par opposition à l’étude des fonctions (ou des propriétés formelles des
constructions linguistiques) qui fait l’objet de la syntaxe. Dans les approches de la
linguistique moderne, le terme morphologie a deux acceptions. Selon la première, elle
étudie les formes ou les parties du discours, leurs flexions et la formation des mots
ou dérivation. Elle s’intéresse à la « description des règles qui régissent la structure
interne des mots et la description des formes diverses que prennent ces mots selon la
catégorie de nombre, de genre, de temps, de personne et selon le cas ». À l’opposé, la
syntaxe traite toujours des fonctions et « décrit les règles par lesquelles on combine en
phrases les unités significatives ». Selon la seconde approche, la morphologie est la
description à la fois des règles de la structure interne des mots et des règles de
combinaison des syntagmes en phrases, se confondant alors avec la formation des
mots, la flexion et la syntaxe. En ce cas, on emploie plutôt le vocable morphosyntaxe
pour faire référence à « la description des règles de combinaison des morphèmes
pour former des mots, des syntagmes et des phrases, ainsi que la description des
affixes flexionnels (conjugaison et déclinaison) » [DUB’91].
À l’aide de ces règles de découpage morphosyntaxique vient souvent un système
de signes [PAM’89] dits de ponctuation. La virgule, le point, le point-virgule, les points
de suspensions, les points d’interrogation ou d’exclamation, etc. sont présents au sein
d’un texte écrit pour indiquer8 les limites entre les divers constituants de la phrase
complexe (plus rarement, des phrases constituant un discours), pour transcrire les
diverses intonations (cf. [GRO’97]), ou bien pour indiquer des coordinations ou des
subordinations différentes entre les propositions [DUB’91].
Pour caractériser la compétence linguistique du locuteur-auditeur, une grammaire
doit comprendre des lois d’interprétation sémantique. Indispensables parfois à
l’achèvement des traitements morphosyntaxiques (nous pensons ici notamment à la
désambiguïsation contextuelle de certains homographes hétérophones 9 ), ces lois
sémantiques mettent en avant des moyens de représentation du sens local des
énoncés, en définissant une relation entre les entités linguistiques et « le monde ».
Quelques éléments issus de cette « obscure, mais nécessaire dimension que l’on
dénomme sémantique » [SUC’07] sont ici envisageables, même si leur tractabilité reste
Ceci est valable notamment pour une pratique d’oralisation de « parole lue », fidèle plutôt aux regroupements
grammaticaux qu’aux structures ou aux éléments rythmiques.
9 Les homographes hétérophones sont les mots qui ont une même orthographe mais qui possèdent des
prononciations distinctes comme, par exemple, « fils », « président », « couvent » etc.
8
32
toujours un grand problème pour les techniques des traitements automatiques de
langage naturel (abrégé dans la littérature par TALN).
Des forts traitements linguistiques au sujet de correspondances lexicales, et
d’analyses syntaxiques et morphologiques sont donc agrégés sur le texte de départ.
Ils sont enrichis10 par des traitements de transcription orthographique/phonétique (qui
se confond11 parfois avec la transcription phonémique) qui déterminent la séquence
des phonèmes correspondant à la prononciation de ce texte. Selon [DUB’91], la
phonématique s’intéresse aux « unités distinctives minimales (i.e. les phonèmes), en
nombre limité dans chaque langue, avec leur traits distinctifs ou pertinents » qui les
opposent entre eux, et étudie « les règles qui président à l’agencement des phonèmes
dans la chaîne parlée ». L’opération principale de cette transcription phonétique est
la segmentation phonématique. Il est à préciser que généralement, lors de ces
traitements, « le rapport entre le complexe phonique étudié et sa signification
linguistique » est exclu, l’intérêt étant mis sur « les sons du langage dans leur
réalisation concrète, indépendamment de leur fonction linguistique » [DUB’91].
Pour récapituler, jusqu’ici nous avons des traitements de natures variées qui
tentent de repérer un mot quelconque avec sa forme phonémique (le lexique et la
phonétique) et de le positionner dans son « contexte » (la morphosyntaxe) ou mieux,
de construire un « contexte » restreint autour d’un mot donné. De sorte qu’ils
arrivent à assurer quelques aspects de cohérences et de cohésions grammaticales
locales. Redevable au paradigme logico-grammatical sur lequel toutes ces analyses
s’appuient, le contexte ne déborde habituellement pas le cadre de la phrase.
Autrement dit, « la linguistique ayant toujours fonctionné au niveau de la phrase et
non du texte a effectivement tendance à vouloir tout analyser et désambiguïser au
niveau de la phrase et de son contexte restreint, sous-estimant par là les informations
très riches apportées par le texte pour définir le contrat de lecture » [MAL’04], [BIB’88].
À l’opposé de ce paradigme se situe l’approche de la sémantique textuelle qui
soutient depuis longtemps que les unités linguistiques « justes » sont le texte et le
discours, avant la phrase, qui n’est qu’un cas particulier. À juste titre, la modélisation
de l’expressivité discursive globale qui nous intéresse dans ce travail, réclame bien
plus que ce que les analyses d’une linguistique de la phrase arrivent à fournir.
Des diverses explorations linguistiques issues de l’analyse de discours apportent
ainsi leur soutient dans l’entreprise de modélisation expressive. Aidant à déterminer
les principales règles commandant la production des suites de phrases structurées,
ces analyses éclaircissent la hiérarchisation du discours en sections (comme c’est le
Nous pensons ici en particulier à la désambiguïsation phonétique des homographes hétérophones dont la
distinction peut se faire soit sur un plan syntaxique (comme dans l’exemple « les poules du président couvent »),
soit sur un plan sémantique (comme dans « les fils de la couturière ») [BOE’02].
11 Dans certaines réalisations orales, des phénomènes de coarticulation font que la séquence de phonèmes (chaîne
phonémique) soit différente de la séquence des phones (chaîne phonétique). Ainsi, tous les phonèmes théoriques
ne sont pas réalisés comme prévu, et des variantes interviennent en fonction d’une stratégie d’élocution (comme
c’est le cas des liaisons facultatives).
10
33
cas des sections « Santé », « Amour », « Travail » au sein de certains horoscopes),
voire sous-sections, ainsi que la distinction des paragraphes de l’énoncé en fonction
de leur fonction discursive (comme pour l’exposition, l’intrigue, le déroulement de
l’action, la morale, etc. pour un conte ou une histoire).
Parfois, cette structuration du discours en sous-parties fonctionnellement
distinctes peut être rendue visible par l’intermédiaire de la typographie. Selon les
genres textuels, la longueur, la structure interne du texte ou bien celle du paragraphe
différent. La structure physique de l’énoncé textuel écrit correspond à des normes et
instructions interprétatives intrinsèquement liées au genre. Citant [MAL’04], « le genre
déclaré agit comme une instruction pragmatique visant à définir un pacte de lecture.
Titre, introduction, résumé, titres de sections ou de paragraphes, tableaux, figures,
gras, italique sont des parties de la chaîne textuelle graphiquement marquées et
contenant des consignes d’interprétation sémantique à portée variable ». Par exemple,
« l’italique dans une pièce de théâtre représente les didascalies, dans un roman un
discours rapporté, dans un autre un passage en langue étrangère, etc. » (op. cit.).
Mais ce n’est pas seulement la composante graphique macro- et micro-textuelle
qui fait partie des consignes interprétatives normées par le genre. Nous ne devons
pas négliger le fait que les macrostructures discursives, la grammaire, le vocabulaire,
la ponctuation, etc. des énoncés écrits varient avec le genre à l’intérieur duquel ceuxci s’inscrivent. De sorte que même si, à première vue, les résultats de ces diverses
analyses linguistiques semblent liés strictement à l’intrinsèque textuel, un regard
plus aiguisé remarque que le tg situe le texte en lui imposant des contraintes variées
(de forme, contenu, fonctionnalités) sur ces points de vue possibles d’analyse :
Figure 2.2 : Les analyses linguistiques sur l’intrinsèque textuel (les pdv)
34
Pour résumer, tous ces aspects d’analyse qui « font le quotidien du professionnel
du texte et dont l’exacte nature n’est pas toujours claire, tout comme leurs limites, et
encore moins leurs mutuelles contraintes et déterminations, constituent autant de
points de vue (pdv), permettant des rationalisations partielles du texte » [SUC’07].
2.3
Troisième niveau : les unités linguistiques choisies pour l’analyse
Les points de vue d’analyse définis par l’ensemble des traitements linguistiques
possibles sur la matière textuelle donnée, mettent en jeu des localités variées. Pour
réduire sa complexité et éclaircir certaines dimensions en vue de leur exploitation et
approfondissement, le continu discursif est discrétisé en unités d’analyse dont le choix
est capital pour chaque étude. La Linguistique en dispose d’une large gamme : des
phonèmes au texte (voire parfois intertexte [RAS’01]), en passant par les morphèmes,
les syllabes, les mots, les syntagmes, les propositions, les phrases, les paragraphes, les
sections, etc. le choix reste large, mais « toute tentative d’exhaustivité est condamnée
à l’impuissance devant le complexe » remarque [SUC’07]. Or, remarquons derrière
cette question du choix des niveaux d’analyse, un problème d’ordre plus général,
celui de décomposabilité. « Un texte est, sans doute, décomposable à loisir, mais
toutes ses décompositions ne sont pas nécessairement pertinentes pour une étude
spécifique » (op. cit.). D’ailleurs, si cette étude se situe au sein des TAL (comme la
synthèse de la parole expressive), il est techniquement (et informatiquement) difficile,
voire impossible, de gérer la complexité des algorithmes dédiés à tous les traitements
de toutes ces décompositions. Quelques questions se posent ainsi pour notre
modélisation des phénomènes expressifs : i) quelles sont les unités textuelles
pertinentes pour cette étude ? ii) comment ces unités relèvent-elles des localités
linguistiques suffisamment hétéroclites pour permettre une analyse des phénomènes
discursifs expressifs à des paliers micro-, méso- et macro-linguistiques ? et iii) dans
quelle mesure le choix de ces unités parvient à concilier les technologies élues et les
méthodologies de traitement de données12 que nous suivons ?
Pour le travail présent, nous avons choisi quatre niveaux d’analyse textuelle pour
définir les objets d’étude de l’expressif discursif. Tout d’abord, il s’agit du texte (txt).
Un court rappel des discussions portées dans le chapitre introductif sur la textualité
expressive nous ressasse le fait que la phrase, cette unité d’analyse trop préférée par
les linguistes traditionnels, est dépassée, puisqu’elle ne laisse pas la place à des
manifestations discursives expressives d’ordre global. De cette sorte, le texte devient
la portée linguistique minimale assurant un espace élémentaire de développement
des rythmes [RAS’01] et des isotopies expressives (cf. chapitre 5 et [SUC’07]). Notons ici
Les technologies font appel à l’approche de synthèse par corpus et les méthodologies de traitement des données,
à la synthèse par diphones [BOE’02].
12
35
que la portée « juste » est, pour de nombreux auteurs, le corpus, un ensemble
constitué des textes de la même « famille ».
Les approches descendantes, comme c’est le cas de l’analyse du discours (cf.
[POR’02]) issues notamment de la linguistique textuelle, supposent que ce sont les
structures et les mouvements (textuels, discursifs, rythmiques, intonatifs, expressifs –
le vocable est varié et la terminologie employée diffère selon le type d’approche)
généraux du texte qui définissent le découpage du matériau textuel en paragraphes,
tours de rôle (dans les énonciations dialogiques), groupes de phrases contiguës, etc.
Ce sont ces regroupements phrastiques qui assurent la hiérarchisation et la
structuration du discours et par là, sa fluidité et son unité expressive à une échelle
textuelle globale. Subséquemment, le passage de la phrase directement au palier
textuel devient fortuit pour une analyse exploitable de l’expressif discursif. Le groupe
phrastique (noté gph) semble assurer convenablement une position intermédiaire dans
ce passage obligatoire du texte à la phrase (dans les approches descendantes) ou
inversement (dans celles ascendantes). Pouvant s’identifier, selon le cas, avec la
première ou avec le second13, le gph est défini comme un groupement de phrases
contiguës au sein d’un discours. « Qualitativement, il est texte ; quantitativement,
une suite de phrases » [SUC’07]. Nous adoptons donc le gph comme unité linguistique
pour nos études, avec le txt.
Puis, en descendant les paliers linguistiques à l’intérieur des groupes phrastiques,
nous pouvons constater avec [LAF‘93] que la délimitation en syntagmes (syn) de ceuxci, a un rôle capital pour la fluidité et l’intelligibilité de la parole : « la rupture du
syntagme établit la discontinuité sur le dire ». Si pour [SAU’94] le syntagme définit
« toute combinaison dans la chaîne parlée », en linguistique structurale, le syntagme
est pour [DEL’84] « un tronçon de parole » (i.e. « une portion maximale de l’énoncé qui
ne contient ni silence, ni rupture intonnationnelle »), ou, plus généralement, « un
groupe d’éléments linguistiques formant une unité dans une organisation
hiérarchisée » (cf. [DUB’91]). Remarquons que, pareillement au groupe phrastique, le
syn est une unité linguistique de rang intermédiaire, constituée d’éléments de rang
inférieur (mots, syllabes) et étant à son tour, un constituant d’une unité de rang
supérieur (phrase, groupe phrastique). Courts (comme un déterminant suivi d’un
substantif) ou plus longues (un groupe nominal ou verbal complexe), les syntagmes
sont formés en raisons morphosyntaxiques [CAN’06], rythmiques [KEL’02b], voire les
deux [MAR’87]. Dans les TALN axés sur l’écrit, les plus utilisés sont ceux du premier
type (nommés également « syntagmes grammaticaux »), car définis comme un des
résultats14 des analyses morphosyntaxiques. Dans les TALN dédiés à l’oral, les plus
rencontrés sont ceux du second et dernier type. Les techniques actuelles permettent
de regrouper les syntagmes purement grammaticaux ou purement rythmiques d’une
manière robuste par des moyens complètement automatiques. Cependant, le choix
Il existe des cas où les groupes phrastiques sont composés d’une phrase, plus complexe, certes, mais singulière.
De même, il existe des textes très courts constitués d’un seul groupe phrastique.
14 Il s’agit des groupements présentés sous une forme connue dans la littérature comme « écriture parenthésée ».
13
36
hybride de ces regroupements reste encore difficile à implémenter car mettant en jeu
des aspects sémantiques qui ne sont pas encore pris en compte dans les TALN.
Enfin, on ne pourrait omettre ici la syllabe (syl), unité constitutive des syntagmes et
interface naturelle entre le niveau segmental (i.e. phonémique) et supra-segmental.
En ne se limitant pas à l’argument (cf. travaux menés par Rames, cités en [BOU’04])
que le français (comme l’italien, le grec, le roumain, etc.) selon l’organisation
rythmique est une langue syllabique (par rapport à l’anglais ou le finlandais qui sont
des langues accentuées15), le choix de la syllabe comme quatrième palier linguistique
nécessaire pour l’analyse se justifie surtout par le fait que « potentiellement porteuse
de l’accent », elle est « l’unité minimale de perception rythmique » [LAC’00], un
maillon indispensable à la saisie et à l’interprétation des faits discursifs expressifs.
Elle est l’unité descriptive fondamentale pour notre approche de modélisation.
Un court examen des trois paliers linguistiques (gph, syn, syl) choisis comme unités
d’analyse au sein du texte (txt, le quatrième), nous révèle qu’ils semblent établir un
bon compromis entre les exigences théoriques (de la linguistique textuelle) d’un côté
et le pragmatisme applicatif (ici, de la synthèse de la parole), de l’autre. Étant des
niveaux linguistiques intermédiaires ou autrement dit, « de passage », ils assurent la
transition entre les paliers linguistiques considérés comme des niveaux capitaux dans
les traitements linguistiques et acoustiques présents dans la synthèse de la parole :
Figure 2.3 : Paliers linguistiques intermédiaires : syllabe, syntagme, groupe phrastique
De même que le groupe phrastique peut s’identifier parfois au texte, parfois à la
phrase et parfois aux deux à la fois (imaginons un horoscope quotidien de quelques
dizaines de caractères), le syntagme peut se confondre parfois à la phrase, parfois au
mot, parfois aux deux à la fois (comme l’injonction « Sortez !») ; de même, la syllabe
peut être soit un mot, soit un phonème, soit les deux (« Oh ! »).
Les frontières de ces unités intermédiaires délimitent le discours en séparant ou en
reliant, selon le cas, les parties qu’elles concernent. On parlera subséquemment, selon
le cas, des continuités et discontinuités phrastiques au sein du texte, des
enchainements et ruptures entre les syntagmes du même groupe phrastique, ou des
phénomènes de legato et staccato des syllabes à l’intérieur d’un syntagme. Plus
encore, étant donné que les éléments discursifs (que ces frontières délimitent) ne
Cette typologie des langues n’est pas exclusive dans ses critères. Il y en a également des langues considérées
comme faisant partie des deux à la fois (i.e. syllabiques et rythmiques) comme, par exemple, le coréen.
15
37
s’enchaînent pas de façon arbitraire dans le discours, mais en vertu du rôle que
chacun joue, et si l’on cite [CAE’08] ils n’ont « ni le même poids, ni le même relief »,
« constituent des hiérarchies » et « instaurent des ordres ». Dans la même lignée,
pour [DES’99] un discours est cohérent lorsque « chaque élément saillant exerce une
fonction particulière et se lie aux autres pour former un même tout ». Ainsi, l’effet
sémantique en est une vue d’ensemble qui permet de lui « trouver un sens à la fois
dans et entre les détails » [RAS’01]. Cette vue d’ensemble « justifie la formation d’une
progression expressive unifiée et évite que l’ensemble discursif se délite en de
multiples expressivités locales » [SUC’07].
Pour résumer : indispensables à la construction d’une progression expressive et
cohérente du tout discursif, les démarcations en gph, syn, voire syl apportent des
moyens de perception de la hiérarchisation de ce dernier en divers groupements
signifiants de nature rythmique, morphosyntaxique, etc. Ainsi, le gph est tributaire
surtout de la sémantique et de l’analyse de discours, de la ponctuation (forte) et de la
typographie, le syn est lié au lexique, à la morphosyntaxe, à la sémantique, et à la
ponctuation (faible), tandis que la syl sort de la plupart de ces contraintes et reste
attachée principalement à des aspects lexicaux, phonétiques et parfois, sémantiques :
Figure 2.4 : Les unités linguistiques d’analyse adoptées (syl, syn, ghp, txt)
Précisons que ce choix effectué dans les niveaux d’analyse vise à établir non pas
un régime d’objectivité, mais un mode d’objectivisation, i.e. un mode de constitution
d’objets d’étude. Puisque ce sont ces unités linguistiques (txt, gph, syn, et syl) qui
serviront dans la suite de notre travail de domaines de description des faits
expressifs dans le discours. La même expressivité discursive (globalement unique et
cohérente) sera ainsi observée, puis représentée et étudiée à l’aide d’un ensemble
composite de divers paramètres associés aux unités d’analyse élues.
38
La section suivante et le chapitre 5 (cf. 5.2 variables prosodiques) apporteront plus
d’éclaircissements sur la nature de ces paramètres et ouvre le débat sur les sujets
relatifs à l’analyse de l’expressif discursif à des paliers de granularité différente.
2.4
Quatrième niveau : les structures prosodiques imbriquées
Le cheminement des étapes de modélisation mentionnées jusqu’à présent se veut
préparer la matière textuelle (qui sera présentée au système de synthèse de la parole
en entrée) pour la conformer à quelques régimes d’oralité. Déterminé et discrétisé en
unités d’analyses de localités variées, le matériau textuel est désormais susceptible de
recevoir des qualifications expressives complémentaires, venant de ces régimes du
parlé. Une première question se pose ainsi : quelles sont ces qualifications et de
quelle manière décrivent-elles la variabilité expressive d’un discours situé ?
Pour y répondre, rappelons que l’expressivité orale est traditionnellement et très
communément rationnalisée par la prosodie [WER’94]. Volontairement réduite à « un
ensemble de trois paramètres16 essentiels : la fréquence fondamentale (i.e. l’estimation
du son laryngien à un instant donné sur le signal acoustique de la parole), la durée
(mesure d’un intervalle de temps nécessaire pour émettre le signal de la parole), et
l’intensité (relative à l’énergie contenue dans le signal) » pour citer [LAC’00], la
prosodie se voit constamment résignée à des définitions très locales. Or, ces dernières
ne peuvent assurément pas satisfaire les revendications de globalité expressive d’un
cadre de recherche tel que celui proposé ici. De ce fait, nous sommes obligés de
reconsidérer cette définition : dans notre travail, la prosodie est un espace d’observables
censé traduire un ensemble (rajoutons ici, satisfaisant) des mouvements 17 expressifs
mélodiques, temporels et énergétiques tant locaux que globaux, qui relèvent des
signatures génériques, situationnelles et idiolectales (cf. chapitre 5, section 5.3.2).
Soulignons que le procédé de mise en correspondance entre l’expressivité
discursive et la prosodie reste, cependant, loin d’être clair et immédiat, puisqu’il
revient à « consentir une concordance entre deux espaces de nature différente : le
qualitatif expressif et le quantitatif prosodique » [SUC’07] :
Notons que « sur l’angle perceptif, ces paramètres correspondent respectivement à la mélodie, la longueur et la
sonie » [LAC’00]. Le timbre, ce quatrième élément discernable en perception, correspond, au plan de la substance,
aux caractéristiques spectrales du signal de la parole. Claires ou sombres, les timbres de la voix offrent des
« couleurs expressives particulières, elles-mêmes modulées par le degré d'éclat ou de douceur que l'on peut
obtenir en variant les nombreux paramètres acoustiques et psychologiques ».
17 Nous nous restreignons ici à l’étude des trois dimensions prosodiques traditionnelles. Incontestablement, lors
d’une étude plus minutieuse sur l’expressivité discursive, cet espace d’observables expressifs ne devrait pas se
résumer strictement à ces trois dimensions prosodiques mentionnées ici, mais devrait homologuer la prise en
compte d’autres paramètres qui relèvent, par exemple, de la qualité de la voix, du timbre, etc. Nous admettons
cette réduction dans l’étude de l’expressivité, comme une des limites de notre cadre de modélisation et donc,
implicitement, de nos travaux courants.
16
39
Figure 2.5 : Passage entre l’espace du qualitatif expressif et celui du quantitatif prosodique
Il existe, sans doute, des cas où « les éléments d’ancrage expressif sont soulignés
par des saillances prosodiques facilement repérables » et où « la mise en avant des
unités expressives se fait par exemple, par une différenciation d’intonation, d’énergie,
de durée syllabique, de tempo des syntagmes, etc. ». Toutefois, leur correspondance
prosodique générale se voit « difficilement discernable dans l’amas des jeux de
paramètres » [SUC’07]. Focalisons-nous ici plus particulièrement sur ces paramètres.
Citant [LAC’00] qui reprend [ROS’87] : « la prosodie se manifeste dans la substance
(i.e. la chaîne parlée ou le discours oral) de manière pluriparamétrique ». Localement,
elle est actualisée par la fréquence fondamentale, la durée et l’intensité (rappelant les
traits distinctifs de ton, de quantité et de force de [JAK’63]). Globalement (quoique,
dans la majorité des cas, cette globalité concerne des unités linguistiques ayant
comme étendue maximale, la phrase), elle semble se confondre [ROS’99] avec les
mouvements de ces trois paramètres locaux. Mais en réalité, « les interprétants
prosodiques changent de portée, s’organisent dans des structures plus amples ou se
cachent derrière des unités linguistiques communément écartées des analyses
prosodiques habituelles » [SUC’07]. Deux choses sont donc à entrevoir et à peaufiner
relativement aux paramètres prosodiques : i) les structures (prosodiques) qu’ils
composent, et ii) les unités (toujours prosodiques) qu’ils touchent.
En ce qui concerne les structures prosodiques, nous préservons ici la tri-répartition
traditionnelle. Les paramètres prosodiques retrouvés dans ce travail vont faire donc
appel à une des trois structures fondamentales constituantes de l’oralité : la structure
mélodique (F), temporelle (T), et énergétique (I). Les déploiements prosodiques de ces
trois dimensions sont censés traduire les rythmes expressifs dans le discours. Plus
encore, « dans la danse des sons et des silences, des schémas prosodiques s’instaurent et
se développent pour faire émerger graduellement une cohérence discursive globale
(cf. chapitre 1, section 1.2.2). Les mouvements expressifs que ces schémas rendent
perceptibles peuvent se décrire au moyen des paramètres prosodiques » [SUC’07].
Explicitement, les schémas prosodiques sont définis (cf. chapitre 5 et 9) par des
vecteurs paramétriques qui affectent les trois dimensions prosodiques aux quatre
niveaux d’analyse désignés auparavant. Les unités prosodiques s’identifient dans ce
cas avec les unités linguistiques txt, gph, syn, et syl, et les structures prosodiques se
révèlent être des constructions sophistiquées, s’imbriquant les unes dans les autres,
et se déterminant (c’est-à dire se modifiant et se stabilisant) réciproquement :
40
Figure 2.6 : Les structures prosodiques mélodique, temporelle et énergétique (F, T, I)
Par des projections convenables des faits expressifs manifestés dans une parole
attestée sur ces quatre niveaux, les vecteurs paramétriques permettent de capter les
observables prosodiques et de formaliser une information complémentaire nécessaire
pour explorer, représenter, analyser et reproduire (autrement dit, pour manipuler les
formes discursives expressives, cf. section suivante) les diverses formes expressives
présentes dans le discours. Ces deux opérations fondamentales sont réalisées par des
traitements distincts qui emploient les moyens techniques appropriés à chaque
étude. [LAC’00] cite trois de ces traitements : i) l’observation phonétique, qui « consiste à
faire émerger ces paramètres », ii) le traitement phonologique, qui « a pour objectif de
les relier à un ensemble de catégories formelles abstraites (tons, contours, traits,
constituants, etc.) » et iii) l’analyse linguistique qui « conduit à s’interroger sur le statut
fonctionnel des unités prosodiques qui émergent et sur la façon dont ces unités
révèlent l’organisation syntaxique, sémantique et pragmatique » du discours. Nous
reviendrons sur ces traitements en marquant leur emplacement dans notre
méthodologie de travail (cf. chapitre 3) et en détaillant leur fonctionnement lors de la
définition et la représentation formelle des paramètres prosodiques (cf. chapitre 5).
Nous pouvons répondre enfin à notre question de départ : les vecteurs englobant
les divers paramètres prosodiques apportent des qualifications complémentaires
pour la matière textuelle décomposée en préalable. De sorte que les « structures
mélodique, temporelle et énergétique affectent syllabes, syntagmes, groupes
phrastiques, textes et composent des formes micro-, méso- et macro-expressives »
[KAN’08] au dessus de cette matière. Ceci nous permet de disposer en même temps
d’une observation globale des phénomènes expressifs dans le discours, et d’une vue
plus localisée du même phénomène, selon les préférences ou les exigences d’analyse.
41
2.5
Cinquième niveau : les formes discursives expressives
Le besoin de manipulation des observables prosodiques, réclame l’introduction de la
notion de forme discursive expressive (abrégée dans la suite, fde). Au premier regard,
une telle fde se constitue par une opération de choix effectué parmi les paramètres
décrivant les structures mélodique, temporelle et énergétique. Autrement dit, elle est
le résultat d’un parcours sélectif fait sur les déterminations prosodiques des unités.
Précisons que dans cette sélection, un seul parmi les quatre niveaux définis pour les
structures prosodiques imbriquées est visé. Ainsi, une fde concerne, selon le cas, une
unité linguistique de type syl, syn, gph ou txt. De sorte que pour un discours donné,
l’ensemble des fde forment, aussi, des compositions imbriquées :
fde 2
fde 1
txt gph syn syl
structure mélodique
(F)
fde 3
txt
gph
syn
syl
structure temporelle
(T)
...
fde n
syl syn gph txt
structure énergétique
(I)
Figure 2.7 : Les formes discursives expressives (fde)
Cependant, au vu de nos discussions jusqu’ici, nous nous voyons obligés de
reconsidérer la définition d’une fde. Exprimée comme une instance structurellement
complexe, une fde est une forme ancrée dans la matière textuelle qui véhicule au
départ ses déterminations génériques, situationnelles et idiolectales. Culturellement
stable, reconnaissable, interprétable et partageable, une fde informe également sur le
rôle d’un ensemble d’éléments (de nature lexicale, morphologique, syntaxique,
sémantique, typographique, etc.) qui portent et supportent une identité discursive
[KAN’08]. Selon une vision rhétorique-herméneutique, les fde sont des « interprétants
d’ordre supérieur, qui assurent le déroulement expressif du discours » [SUC’07]. Elles
définissent des enveloppes rythmiques expressives qui se fondent (cf. 5.4) sur les jeux
hybrides de « structures, périodicités et mouvements » [SAU’00] prosodiques, à des
paliers de textualité différents. Ainsi, les fde deviennent des éléments de perception,
de compréhension, d’analyse et de reproduction de ces rythmes discursifs expressifs.
42
2.6
Le cadre-modèle proposé pour l’expressivité discursive
Pour chacun des niveaux détaillés auparavant, nous avons défini (cf. [SUC’06]) un
vecteur formel. Si nous résumons les étapes de formalisation, nous avons au :
• 1er niveau : les caractéristiques extrinsèques au textuel et le vecteur S
Tout d’abord, nous commençons par situer une forme expressive dans un espace
multidimensionnel défini par trois caractéristiques extratextuelles : le genre textuel
(tg), la situation discursive (ds), l’idiolecte (rp). Formellement, ceci est représenté par
le vecteur des caractéristiques extrinsèques :
S =df < tg, ds, rp >
(1)
Comme détaillé dans le chapitre 5, chacun de ces paramètres extrinsèques est vu
comme un choix des contraintes sur les variables prosodiques (elles aussi décrites
dans le même chapitre).
• 2ème et 3ème niveaux : les caractéristiques textuelles (linguistiques) et le vecteur U
Dans la suite, en raison d’efficience computationnelle, quatre niveaux d’analyse
phonologique sont choisis : le texte (txt), le groupe phrastique (gph), le syntagme
(syn), et la syllabe (syl). Héritant des traitements lexicaux, morphosyntaxiques,
sémantiques, de ponctuation, de typographie, etc., ces niveaux sont définis d’une
manière souple pour permettre plusieurs variantes de découpage en hiérarchies
phonologiques, propres aux familles d’expressivité diverses. Formellement, ceci est
représenté par le vecteur des caractéristiques linguistiques :
U =df < L, C, D >
(2)
Ici, L traduit le niveau d’analyse, C le vecteur de compositionnalité (spécifiant la
cardinalité et la liste ordonnée des identifiants18 du niveau inférieur d’analyse L-1) et
D le vecteur de description linguistique, qui informe sur le type de l’unité et quelques
unes de ses caractéristiques spécifiques (de ponctuation, de focalisation, etc.).
• 4ème niveau : les caractéristiques prosodiques et le vecteur P
Locale ou globale, chaque unité d’analyse phonologique porte des informations
mélodiques (F), temporels (T) ou énergétiques (I). Les divers paramètres les décrivant
définissent les variables prosodiques observables, indispensables pour la définition des
contraintes expressives (par exemple de tg, ds, rp, cf. chapitre 5). Ceux-ci érigent trois
structures prosodiques définies par le vecteur des caractéristiques prosodiques :
P =df < F, T, I >
18
(3)
Soit de syl dans un syn, de syn dans un gph, de gph dans un txt (voire de txt dans un intertexte).
43
Ici, F, T, et I sont des dimensions typées. Leur type est décidé en fonction du
niveau d’analyse L. Pour exemplifier, les types T_syl, T_syn, T_phg, T_txt sont soit des
valeurs numériques (exprimées en Hz, ms ou dB), soit des représentations formelles
(symboliques), détaillées dans les chapitres 5 et 7, et illustrées dans le chapitre 8.
• 5ème niveau : les formes discursives expressives (situées) et les vecteurs E et Esit
Nous définissons ensuite une forme expressive comme un choix (ou un parcours)
parmi les variables prosodiques issues des trois structures F, T, I décrites ci-dessus,
associées à un niveau d’analyse L donné. Formellement, ceci est traduit par le triplet :
E =df < id, U, P>
(4)
Ici, id c’est un identifiant composé unique. Développé, le triplet se présente ainsi :
E =df < id, <L, C, D>, <F, T, I>>
(4’)
La représentation vectorielle complète d’une forme expressive, compte tenant des
caractéristiques extratextuelle est ainsi définie par :
Esit =df < id, U, P, S >
(5)
Ou en version encore plus détaillé :
Esit =df <<id, L, C, D>, <F, T, I>>, <tg, ds, rp>>
(5’)
Enfin, en rassemblant les schématisations partielles décrites antérieurement, nous
obtenons une représentation d’ensemble, telle qu’exposée dans la figure 2.8.
Cette construction d’ensemble que nous proposons pour la suite de nos travaux
comme cadre général pour la modélisation de l’expressivité discursive n’a pas de
prétention d’objectivité. En contrepartie, elle peut revendiquer, modestement, un
regard différent sur la si débattue question d’expressivité dans la synthèse vocale.
Même si restreint par la multitude d’opérations de choix effectués à tous les
niveaux (telles la sélection des dimensions contextuelles expressives, des unités
linguistiques d’analyse et des représentations prosodiques pour les observables
discursifs expressifs, etc.), notre modèle a le mérite de s’inscrire dans une démarche
actuellement nouvelle à notre connaissance, orientée vers une pragmatique de la
parole. Nos recherches replacent l’étude de l’expressivité en synthèse vocale dans
une tradition rhétorique-herméneutique qui, d’un côté, oblige à reconsidérer le
paradigme du neutre (vu sous un angle interprétatif), et de l’autre côté, réclame une
vision de modélisation plus globale (ici, nécessairement à finalité applicative) des
phénomènes expressifs rencontrés dans un discours oralisé.
44
Esit =df < E, S >
fde 2
fde 3
fde 1
...
fde n
P =df < F, T, I >
txt
gph
syn
syl
txt gph syn syl
structure mélodique
(F)
E =df < id, U, P >
syl syn gph txt
structure temporelle
(T)
structure énergétique
(I)
txt
gph
U =df < L, C, D >
syn
syl
morphologie
lexique
...
syntaxe
sémantique
phonétique
situation discursive
(ds)
typographie
ponctuation
figures de discours
matière textuelle
profil du locuteur
(rp)
genre textuel
(tg)
Figure 2.8 : Le cadre-modèle proposé pour l’expressivité discursive
45
S =df < tg, ds, rp >
CHAPITRE 3
METHODOLOGIE DE TRAVAIL
Résumé
Ce chapitre esquisse la méthodologie adoptée pour l’étude des formes discursives
expressives, les hypothèses ainsi que les directions de recherche étant précédemment
exposées. La méthodologie de travail comporte trois phases fondamentales. La première
consiste dans l’acquisition d’un ensemble de formes discursives, situées dans un espace
expressif extratextuel, a priori identifié. Ces formes vont constituer les corpus expressifs
(écrits et oraux) de travail. La deuxième phase consiste dans la tractabilité des formes
expressives acquises dans un espace formel. Elle est tout d’abord opérationnalisée par
l’extraction, l’analyse et la représentation formelle d’un ensemble des paramètres qui
relèvent des dimensions observables (ici, prosodiques) de ces formes. Ensuite, par
l’application d’un ensemble d’opérateurs formels de comparaison sur ces derniers, nous
procédons à l’analyse des récurrences expressives présentes au sein des formes
expressivement homogènes. Enfin, nous étudions la variabilité prosodique retrouvée au
sein d’un ensemble de formes expressivement hétérogènes, et nous discutons sur la
discernabilité expressive traduite en termes prosodiques. La troisième phase concerne la
synthèse des formes expressives (i.e. de leurs équivalents prosodiques), en vue de leur
future validation perceptive. Deux scénarios sont possibles ici : (1) la synthèse de la
matière textuelle constituant le corpus de départ, et (2) la synthèse d’une matière
textuelle nouvelle. Nous discutons quelques enjeux du second scénario, et esquissons
le protocole d’évaluation perceptive pour les formes expressives situées.
Sommaire du chapitre
3.1
3.2
3.3
Acquisition des formes discursives expressives ………….……………………………... 47
Tractabilité des formes discursives expressives …………..…………………..………. 49
3.2.1
Extraction, analyse et représentation formelle ……………………………….. 50
3.2.2
Comparaisons et manipulations formelles ….………….…………………….. 53
Synthèse des formes prosodiques expressives. Validation. ..………….…………...…... 55
46
Pour poursuivre l’étude des formes discursives expressives, nous avons adopté ici
une méthodologie axée sur une approche de type analyse–transformations-synthèse
qui comporte trois grandes phases, schématisées dans la figure suivante :
Phase Ph2
Phase Ph 1
Phase Ph3
aquisition du corpus expressif
s1-Ph2 : analyse et représentation
formelle
s2-Ph2 : manipulations formelles
synthèse de formes expressives
choix et recueil du
corpus textuel (écrit)
extraction des principaux
paramètres acoustiques
application d'outils formels
de comparaison expressive
application des règles
expressives extraites
recueil du corpus oral
(enregistrements)
analyse des paramètres
prosodiques acoustiques
analyse des récurences
expressives pour les formes
expressives situées
transcription
du corpus oral
représentation formelle
des paramètres
prosodiques
extraction d’un ensemble
de règles prosodiques pour
les formes expressives
application de divers
ajustements formels
segmentation et
phonétisation
du corpus oral
constitution de la base
initiale des formes
prosodiques expressives
extraction d'un ensemble de
règles de discernabilité
expressive prosodique
synthèse (2)
par contraintes
prosodiques
constitution de la base
acoustique de parole
naturelle expressive
constitution de la base
initiale des formes
expressives situées
constitution d'une base
étendue des formes
expressives situées
application d’outils de
validation perceptive
synthèse (1)
par contraintes
prosodiques
Figure 3.1 : Vue macroscopique des trois phases méthodologiques de travail
Ces trois phases méthodologiques constituent respectivement, l’objet des chapitres
4 (phase Ph1), 6 et 7 (sous-phase s1-Ph2), 8 (sous-phase s2-Ph2) et 9 (phase Ph3). Elles
seront donc détaillées dans les chapitres respectifs. Nous en présentons dans la suite
brièvement quelques considérations introductives.
3.1 Acquisition des formes discursives expressives
fde 2
fde 3
fde 1
...
fde n
txt
gph
syn
syl
txt gph syn syl
structure mélodique
(F)
syl syn gph txt
structure temporelle
(T)
structure énergétique
(I)
txt
gph
syn
syl
morphologie
lexique
...
syntaxe
sémantique
phonétique
situation discursive
(ds)
typographie
ponctuation
figures de discours
matière textuelle
profil du locuteur
(rp)
genre textuel
(tg)
La première phase (nommée dans la suite, phase Ph1) est dédiée à
l’acquisition des formes discursives expressives constituant les
données de départ nécessaires pour toutes les analyses ultérieures.
Cela se traduit par le choix et le recueil d’un double corpus de
travail : le corpus écrit et le corpus oral. Dans le cadre-modèle, cette
phase affecte le 1er niveau (par le choix du corpus écrit) et 5ème
niveau (par le choix et ensuite le recueil des réalisations orales de ce
corpus), cf. illustration ci-contre.
47
Comme discuté dans la section 4.2, nous avons choisi de mener nos recherches
d’expressivité discursive sur un corpus textuel oralisé1 ultérieurement. L’acquisition
de ce corpus suppose tout d’abord : i) la définition des caractéristiques expressives
extratextuelles du genre textuel (tg), ii) le choix des corpus textuels écrits et iii) le
recueil des corpus oraux correspondants, pour un locuteur (rp) et une situation
discursive (ds) donnés. Puis, dans la suite de la démarche opératoire, nous avons
établi l’ensemble des traitements (semi-automatiques, cf. plus loin) nécessaires pour
la mise en correspondance des corpus oraux et écrits : i) tout d’abord, la transcription
textuelle des données acoustiques, et ensuite, ii) la segmentation et la phonétisation,
de ces dernières, en vue de iii) constituer une ou plusieurs bases initiales de données
acoustiques expressives, situées dans un espace extratextuel bien déterminé :
Figure 3.2 : Vue détaillée des principales étapes de la phase méthodologique Ph1
Les choix dans les caractéristiques extratextuelles (de tg, ds et rp) sont décisifs pour
l’étude des phénomènes discursifs expressifs. Ils seront détaillés et discutés dans le
chapitre 4, dédié exclusivement à l’acquisition du corpus expressif textuel et oral. Ces
choix opèrent une réduction de l’espace expressif discursif en prescrivant, dès le
départ, des critères de discernabilité (cf. section 5.4) des phénomènes expressifs à
étudier. Remarquons ici que l’objectif de notre étude n’est pas la recherche de
l’exhaustivité des formes discursives expressives, mais surtout la démonstration de la
possibilité d’implémenter, une fois extraites, certaines de ces formes définies au sein
des pratiques discursives précises. De sorte qu’ils établissent un premier régime
1
C’est dire, sur un corpus de parole lue (contrairement à un corpus de parole spontanée).
48
typologique pour les observables2 prosodiques de ces phénomènes. Cette typologie
se retrouvera nécessairement3 lors de la constitution des bases acoustiques de parole
naturelle expressive. Autrement dit, l’identification des formes expressives obtenues
d’une parole lue enregistrée se poursuit par la constitution d’un lexique expressif,
étiqueté en fonction des caractéristiques extratextuelles choisies au préalable. Pour
former ces bases expressives, les données acoustiques qui composent les corpus
initiaux subissent de nombreux traitements de transcription, de découpage, de
phonétisation et de segmentation. Succinctement évoquées dans la figure 3.2, ces
étapes seront détaillées et discutées sur un exemple extrait de notre corpus, dans le
chapitre 4 (cf. section 4.2) et correspondent aux 2ème et 3ème niveaux du cadre-modèle.
Dans la suite, les formes discursives expressives détectées seront traitées en vue de
leur future représentation formelle. Le choix de cette représentation sera discuté dans
le chapitre 5, dédié entièrement à ce sujet. Quelques exemples des représentations
formelles illustreront les traitements prosodiques présentés dans le chapitre 6.
Ensuite, les divers observables prosodiques formels seront examinés et comparés, et
les résultats de ces comparaisons seront éclairés dans le chapitre 8. L’ensemble de ces
étapes compose la deuxième phase de notre méthodologie de travail.
3.2
Tractabilité des formes discursives expressives
La deuxième phase méthodologique (Ph2) est dédiée aux divers
travaux de représentation et manipulation formelle des données
expressives situées, qui correspondent au 4ème et 5ème niveau du
cadre-modèle défini en 2.6. Elle se décompose en deux sousphases : i) l’analyse et la formalisation des données expressives
(s1-Ph2) et ii) les manipulations formelles de ces données (s2-Ph2).
Il s’agit ici tout d’abord d’extraire, d’analyser et de représenter
formellement un ensemble de descripteurs relevant des trois
dimensions observables des faits expressifs (i.e. les paramètres
prosodiques). Ensuite, il s’agit de définir une gamme d’opérateurs de comparaison et
de déformation formelle, indispensables pour l’analyse ultérieure des récurrences et
des variances prosodiques ai sein des formes expressives. L’objectif de la sous-phase
s2-Ph2 étant d’extraire un ensemble pertinent de traits de récurrence et de
discernabilité expressive formelle, afin de les appliquer et les valider (cf. phase Ph3)
ultérieurement.
fde 2
fde 3
fde 1
...
fde n
txt
gph
syn
syl
txt gph syn syl
structure mélodique
(F)
syl syn gph txt
structure temporelle
(T)
structure énergétique
(I)
txt
gph
syn
syl
morphologie
lexique
...
syntaxe
sémantique
phonétique
situation discursive
(ds)
typographie
ponctuation
figures de discours
matière textuelle
profil du locuteur
(rp)
genre textuel
(tg)
Ces observables prosodiques servent tant à la description qu’à la manipulation des formes expressives.
Dans ce travail, les données acoustiques ne sont pas mélangées « en vrac » dans une base unique pour chaque
locuteur, mais étiquetées et stockées en fonction de leur caractéristiques extratextuelles. Ceci facilitera, dans les
phases ultérieures, la définition des lexiques formels expressifs.
2
3
49
3.2.1 Extraction, analyse et représentation formelle
L’objectif de la première sous-phase s1-Ph2 est d’ancrer les formes constituant le
lexique expressif primaire dans des réalités physiques mesurables et formellement
reproductibles. Nous postulons ici que ces réalités correspondent4 aux paramètres
prosodiques qui sont des instances des variables décrivant l’espace des observables
expressifs schématisés dans la figure 2.6 et définis proprement dans le chapitre 5.
Autrement dit, la tractabilité des formes discursives expressives identifiées et captées
dans la phase Ph1 se traduit par leur mise en correspondance avec les réalisations
prosodiques associées. Ainsi, nous revendiquons dans ce travail la prosodie comme :
fde i
la prosodie = lʹespace principal dʹobservables expressifs
matière textuelle
profil du locuteur
(rp)
situation discursive
(ds)
genre textuel
(tg)
Figure 3.3 : Choix de l’espace d’observables expressifs
Sur le plan opérationnel, ce passage vers l’espace prosodique formel des
observables expressifs est réalisé par les étapes de la sous-phase s1-Ph2, comme
schématisées5 dans la figure 3.4, plus bas.
La sous-phase s1-Ph2 débute donc par quelques étapes d’analyse acoustique.
Partant des données amassées dans les bases acoustiques expressives (cf. phase Ph1),
nous utilisons un ensemble d’outils informatiques dédiés à l’extraction des diverses
informations acoustiques qui constitueront nos principales données de travail. Il
s’agit, plus précisément, des : i) valeurs numériques de variation de la fréquence
fondamentale6 et ii) frontières (gauche et droite) des phonèmes. Les frontières des
syllabes sont constituées d’une manière automatique immédiate à partir de ces
Cf. discussion sur les dimensions observables des mouvements expressifs, dans le chapitre 2, section 2.4.
Certaines étapes de la Ph1 ne sont pas mentionnées ici puisqu’elles ne présentent pas d’intérêt pour la s1-Ph2.
6 Les algorithmes d’extraction de la fréquence fondamentale retournent des valeurs numériques (nulles pour les
parties non-voisées du signal et non-nulles pour les parties voisées) à des instants précis, discrétisés ici à chaque
10ms. Cependant, l’ancrage de ces valeurs fréquentielles sur les niveaux phonologiques (syllabes, syntagmes,
groupes phrastiques, texte) ne peut se faire sans l’aide des frontières qui délimitent ces niveaux.
4
5
50
dernières en intégrant les informations résultant du module de syllabification7. Les
frontières de syntagmes et de groupes phrastiques sont détectées automatiquement,
à l’aide des règles explicites de balisage rythmique et textuel (cf. section 5.1). Nous
tenons à préciser que nous n’avons pas retenu ici pour le traitement acoustique et
formel, les informations relatives à la variation de l’énergie (i.e. les paramètres pour
la troisième dimension prosodique). Ceci sera discuté dans la section 10.4.2.
Figure 3.4 : Vue détaillée des étapes de la sous-phase méthodologique s1-Ph2
L’extraction d’informations acoustiques dites « brutes » pour les dimensions
prosodiques mélodiques et temporelles s’avère immédiate pour les niveaux locaux
(ici, syllabiques) d’analyse. Cependant, leur conversion sous un format signifiant qui
puisse d’abord décrire et ensuite reproduire (i.e. générer) les faits expressifs à ce
degré de granularité, ne se fait pas toujours d’une manière aisée. Les vieux embarras
du traitement du très local linguistique ne se laissent pas attendre longtemps. Ainsi,
nous découvrons vite que notre approche8 de modélisation descendante, qui mettait
en avant la textualité, et qui revendiquait la hégémonie des influences du global (le
texte) sur le local (la syllabe), se situe malheureusement à l’encontre des démarches
opérationnelles, traditionnellement robustes, utilisées dans les systèmes de synthèse
de parole actuels. Les plateformes et les outils de traitement étant très fréquemment
de type ascendant, on se soumet nécessairement (puisqu’on calcule) au bottom-up.
Cependant, la vision et le cadre de modélisation restent, eux, de type top-down.
Nous résumons donc ici : dans les étapes d’analyse prosodique, nous partons des
données décrivant les niveaux locaux, de nature acoustique, que nous intégrons dans
7
8
Ce module retourne, cf. chapitre 5, la décomposition du matériau textuel en syllabes, sous la forme phonémique.
Approche évoquée lors des argumentations théoriques dans les chapitres précédents (1 et 2).
51
des données associées aux niveaux plus globaux, plus complexes, et majoritairement
de nature formelle. Les passages entre les entités de ces deux « mondes » disparates
ne peuvent se produire qu’avec un ensemble de « pertes » locales de précision, dues
principalement aux outils algorithmiques de « conversion » numérique / formelle :
Figure 3.5 : Passages acoustiques / formels dans les étapes d’analyse prosodique (sous-phase s1-Ph2)
Forcés à traduire le continuum discursif expressif dans des représentations formelles implicitement discrétisées, les outils d’analyse et de formalisation prosodique
emploient dans le formalisme adopté (de nature phonologique, cf. chapitre 5, et
figure 3.6 plus bas), un ensemble d’approximations traduits par divers paramètres
dits de « tolérance ». Retraçant, par exemple, les seuils de discernabilité (formelle,
comprenons-nous) mélodique ou temporelle, ces derniers sont présents tacitement
dans l’intégralité des traitements formels ultérieurs, comme partie des descriptions
formelles des vecteurs prosodiques <P>. Ainsi, ils se retrouveront aussi bien dans les
étapes d’analyse et de représentation formelle, que dans celles de manipulation
formelle (cf. s2-Ph2), de formalisation inverse et de synthèse (cf. Ph3).
Figure 3.6 : Éléments complémentaires requis pour les étapes de la sous-phase s1-Ph2
52
Enfin, les dernières étapes de la s1-Ph2 sont dédiées à la constitution des bases
initiales des formes expressives, traduites premièrement par leurs descriptifs formels
prosodiques (<P>), puis discursivement situées (<U>) dans l’espace déterminé par les
caractéristiques spécifiées par le vecteur extratextuel (<S>). Pour ceci, une structure
des données est pré-requise. Sa description fera l’objet du chapitre 7 entier.
L’objectif final de la sous-phase s1-Ph2 d’analyse et formalisation, comme illustré
dans la figure ci-dessus, réside donc en la constitution des bases initiales des formes
expressives situées, compte tenant de leurs vecteurs prosodiques (<P>) :
Base initiale des
formes expressives situées
e
e
e
e
rpk
e
e
dsj
e
tgi
Figure 3.7 : Schématisation d’une base des formes expressives situées par <tgi>, <dsj>, <rpk>
3.2.2 Comparaisons et manipulations formelles
L’étape suivante à la constitution des bases des diverses formes expressives situées
consiste en l’analyse comparative de ces dernières, dans l’objectif d’extraire diverses
régularités expressives. Ceci requiert la mise en place d’un ensemble d’outils formels
de comparaison expressive (réalisée par les opérateurs R, appliqués généralement sur
deux formes différentes fde1 et fde2, cf. section 5.4). Les nombreuses comparaisons
formelles servent d’abord à étudier les observables prosodiques des diverses formes
expressives discursives situées dans le même espace extratextuel. Nous procédons
ainsi à extraire des récurrences prosodiques expressives au sein de ces formes pour
constituer des règles expressives de récurrence (dites « intra-expressives »).
Puis, l’analyse comparative des observables prosodiques s’étendent à des formes
discursives expressives situées dans des espaces extratextuels hétérogènes, issues des
corpus alternatifs. Dans ce cas, les comparaisons formelles servent à extraire un
ensemble de régularités prosodiques qui mettent en jeu des critères de discernabilité
expressive formelle. Nous appelons ces dernières, des règles expressives de variance
(ou inter-expressives). Les règles de récurrence (premier scénario de comparaison),
ainsi que celles de variance (second scénario de comparaison) prosodique sont
utilisées dans les étapes dédiées à la synthèse des formes expressives (cf. phase Ph3).
53
Figure 3.8 : Vue détaillée des principales étapes de la sous-phase s2-Ph2
Enfin, à l’aide d’outils formels de déformation expressive à visée prosodique, nous
pouvons définir divers moyens formels d’extension des bases initiales des formes
expressives situées. Ces outils de déformation sont traduits ici par les opérateurs
formels unaires de type O, évoqués dans le chapitre 9. Ils assurent la génération de
nouvelles formes expressives fdej à partir d’une forme expressive fdei donnée, en
suivant divers scénarios de déformation prosodique formelle (comme l’élongation ou
la compression temporelle, la mise à l’échelle ou la translation mélodique, etc.),
détaillés plus dans les chapitres 9 et 10. Ainsi, plus d’un espace d’observabilité
expressive, la prosodie est également un atelier de génération de nouvelles formes
expressives :
fde i
la prosodie = lʹatelier de création des formes expressives
matière textuelle
profil du locuteur
(rp)
situation discursive
(ds)
genre textuel
(tg)
Figure 3.9 : Le rôle de génération expressive de la prosodie
54
Cependant, le potentiel génératif expressif ne réside pas exclusivement dans les
scénarios de déformation prosodique, si compliqués soient-ils. Bien qu’ici nous ne
nous intéressons9 pas aux caractéristiques spectrales de la parole (comme le timbre
vocal), nombreuses sont les recherches (citons ici seulement les travaux menés par
[VIL’09]) dédiées à la génération expressive par transformation de voix.
3.3
Synthèse des formes prosodiques expressives. Validation.
fde 2
fde 3
fde 1
...
fde n
txt
gph
syn
syl
txt gph syn syl
structure mélodique
(F)
syl syn gph txt
structure temporelle
(T)
structure énergétique
(I)
txt
gph
syn
syl
morphologie
lexique
...
syntaxe
sémantique
phonétique
situation discursive
(ds)
typographie
ponctuation
figures de discours
matière textuelle
profil du locuteur
(rp)
genre textuel
(tg)
La troisième et la dernière phase méthodologique (notée Ph3) est
consacrée à la synthèse des formes discursives expressives telles
que représentées par les vecteurs prosodiques correspondants.
Ceci consiste précisément à greffer les observables prosodiques
formalisés auparavant soit sur la matière textuelle de départ, soit
sur une matière textuelle nouvelle (distincte de celle utilisée pour
la constitution des bases initiales, mais ayant ici des caractéristiques génériques similaires). Le premier scénario (1) convient
à une procédure de synthèse directe et le second (2), à une
génération prosodique :
Phase Ph3
synthèse (1)
par affectation
contraintes
matière textuelle
initiale
formalisme
phonologique
inverse
application des
contraintes de
récurrence
prosodique
ajustements
formels
application des
contraintes de
discernabilité
prosodique
validation
perceptive
synthèse (2)
par affectation
contraintes
matière textuelle
nouvelle
Figure 3.10 : Principales étapes dans la phase méthodologique Ph3
Outre la matière textuelle à synthétiser, ces deux étapes requièrent l’inversion du
formalisme phonologique utilisé en s1-Ph2 pour la représentation des observables
Nous pouvons imaginer une manière simpliste d’extension des formes expressives par l’intégration d’un
ensemble d’opérateurs épivocaux (cf. [SEG’08]) et de tics verbaux.
9
55
prosodiques. Ce procédé d’inversion formelle rétablit le passage vers le « monde »
acoustique (cf. section 3.2.1), forcement avec des « pertes » informationnelles. Ces
dernières seront à la base des ajustements formels ultérieurs (cf. figure ci-dessus).
Dans un premier temps, le procédé de synthèse (1) consiste à greffer les divers
observables prosodiques inversés sur la même matière sonore (et donc, textuelle) de
départ. Réalisé par le passage inverse des variables expressives formelles dans des
données acoustiques, ce procédé sert à disposer d’un premier rendu perceptible des
représentations formelles censées décrire les formes discursives expressives captées.
Ainsi, il souscrit à la validation, par la re-synthèse, du formalisme adopté. Notons
que des ajustements formels peuvent intervenir à plusieurs reprises pour assurer en
sortie un rendu vocal quasi-identique à celui constituant les bases initiales.
Puis, les règles de récurrence et de discernabilité prosodiques extraites en s2-Ph2
sont appliquées, par l’intermédiaire des jeux multiples des variables prosodiques, sur
une nouvelle matière textuelle choisie (procédé de synthèse (2)). Or, les diverses
configurations prosodiques définies par ces variables, greffées sur une matière
textuelle (ayant, par exemple, la même structure syllabique, syntagmatique et/ou
phrastique que celle servant à l’analyse), génèrent un rendu vocal ayant un nouveau
potentiel expressif. Nous discuterons sur ce sujet dans les chapitres 4 et surtout 9.
La synthèse des formes prosodiques cache ainsi un processus de génération des
formes discursives expressives, qui constitue l’objectif applicatif principal de cette
démarche. Rappelons le cheminement des étapes nécessaires pour ceci : capter un
ensemble de formes discursives expressives, rendre tractables ces dernières en
étudiant leur correspondance avec le texte de référence et les appliquer, sous leurs
configurations formelles, sur une nouvelle matière textuelle. Dans le schéma de notre
cadre-modèle, ceci se traduit par les « mouvements » illustrés dans la figure 3.11.
Enfin, la dernière étape de la phase méthodologique Ph3 est dédiée à la validation
perceptive des rendus vocaux synthétisés. Si du point de vue formel tout peut être
possible10 (certes, dans les limites de notre modélisation), le jugement de l’acceptable
expressif se fait toujours en réception. Quel est donc le « bon » choix pour que les
formes prosodiques greffées sur une matière donnée rendent l’expressif discursif
désiré ? Ou, dans une terminologie plus technologique : Quelle sera la « bonne »
décision de paramétrage pour le module prosodique du synthétiseur vocal pour que
la matière sonore synthétisée soit recevable comme une parole expressivement
adéquate et donc plus proche du « naturel » ? Puisque c’est uniquement lors de leur
réception que les rendus artificiels peuvent ou ne peuvent pas être déterminés
comme « naturels » ou expressivement appropriés (cf. chapitre 9).
Nous n’avons pas la prétention de répondre d’une manière exhaustive ou décisive
à cette question de choix. Simplement parce que nous sommes persuadés qu’il
n’existe pas une seule réponse expressive (cf. section 5.5), traduisant un seul jeu des
10
Car la combinatoire formelle des configurations prosodiques et des matières textuelles est grande.
56
paramètres formels prosodiques, mais plusieurs. Le choix du paramétrage adéquat
est, nécessairement, contraint par l’usage et la pratique de lecture au sein de laquelle
l’application se situe, par l’intention du locuteur, etc. Nous discuterons ces thèmes
plus dans les chapitres 5, 8 et 9. Notons seulement que ce choix dans le paramétrage
expressif fera l’objet des évaluations perceptives finales, dont le protocole et les
résultats sont décrits à la fin du chapitre 9.
fde 2
fde 3
fde 1
txt gph syn sylreprésentation
structure mélodique
(F)
et
...
txt
gph
syn
manipulation
syl
structure temporelle
(T)
fde n
formelles syl syn
gph txt
structure énergétique
(I)
txt
gph
syn
morphologie
lexique
...
syntaxe
sémantique
phonétique
situation discursive
(ds)
synthèse
analyse
syl
typographie
ponctuation
figures de discours
matière textuelle
profil du locuteur
(rp)
genre textuel
(tg)
Figure 3.11 : Illustration des phases méthodologiques dans le cadre-modèle construit
57
CHAPITRE 4
CONSTITUTION DES CORPUS. SUPPORTS TEXTUELS, REALISATIONS ORALES.
Résumé
Ce chapitre porte sur la constitution des corpus pour l’analyse des formes discursives
expressives. Plus précisément, nous présentons ici : i) la constitution des divers corpus
écrits, supports textuels pour les réalisations expressives étudiées : un corpus principal
composé d’un corpus d’horoscopes et un corpus des textes procéduraux prosodiquement
similaires aux horoscopes, et un corpus secondaire formé d’un ensemble de parodies
(de contenu et prosodiques) ; ii) la constitution de divers corpus oraux associés à ces
corpus écrits, qui regroupent les données observables permettant l’analyse et la
restitution ultérieure des formes expressives.
Sommaire du chapitre
4.1
4.2
Constitution des corpus de travail écrits………………...…………….…………………………... 60
4.1.1
Corpus principal d’étude : les horoscopes………….………………………..................... 60
4.1.1.1 L’horoscope : un genre dans la famille des textes procéduraux ……………... 63
4.1.1.2 Similarités prosodiques trans-génériques. Corpus alternatif….……………... 65
4.1.2
Corpus secondaire d’étude : les parodies………………………………..……………….. 67
4.1.2.1 Pratiques hypertextuelles, parodies, visées parodiques.....…………………... 67
4.1.2.2 Parodies de contenu, parodies prosodiques...…………………….…………… 68
Recueil des corpus de travail oraux………………..…….……………………..…………………... 73
4.2.1
Enregistrement et locuteurs ……………………………………………………………….. 73
4.2.2
Transcription et segmentation des bases acoustiques ………………………………….. 75
58
L’étude des formes discursives expressives s’érige à partir d’un ensemble d’énoncés
discursifs (écrits et oraux) qui constituent le corpus initial de recherche. Délimitant
assurément le champ d’investigation des phénomènes expressifs, le corpus est
considéré comme un échantillon représentatif [DUB’01] pour l’étude de ces derniers.
Usuellement, tout corpus est supposé illustrer une gamme pertinente et satisfaisante
de caractéristiques (ici, expressives) pour l’examen scientifique pour lequel il sert (ici,
l’étude des formes discursives expressives).
Dans le choix d’énoncés discursifs à retenir pour la constitution de notre corpus
expressif, une décision importante concerne le type de discours (i.e. lu ou spontané). Si
le principal avantage du discours spontané est sans doute le « naturel » de l’élocution,
des contraintes intrinsèques à l’acquisition d’un échantillon spontané « homogène »
en termes de locuteurs et de conditions pragmatiques de réalisation des discours
expressifs, en limitent son intérêt pratique. En effet, aussi bien la constitution d’un
échantillon représentatif et de qualité suffisante pour les analyses ultérieures du
phénomène expressif, que les opérations d’étiquetage de ces données ralentissent le
processus d’analyse, pénalisent considérablement les recherches, et limitent la
reproductibilité du phénomène expressif observable.
Effectivement, les travaux expérimentaux qui s’appuient sur des corpus de
synthèse vocale collectés en milieu écologique (naturel) sont assez peu nombreux.
Nous pouvons en mentionner ici les travaux de synthèse dite « par rush », qui utilise
une parole non dédiée à priori aux technologies vocales, « récoltée » par des moyens
hétérogènes. C’est le cas des voix récupérées des enregistrements audio diffusés sur
les chaines radio (en direct ou décalé), des voix extraites des bandes audio des films,
etc. Le grand inconvénient de ces pratiques réside dans le fait qu’elles requirent la
détention des droits d’utilisation de ces voix, qui est souvent très coûteuse.
À l’inverse, le choix d’un discours expressif lu (dit aussi acté), partant soit d’un
ensemble d’énoncés textuels, soit d’un ensemble de phrases sans lien sémantique1, a
comme avantage principal de renfermer l’étude expressive dans un espace d’analyse
certes, plus réduit mais qui s’avère être plus facilement contrôlable (en termes de la
qualité de l’enregistrement et du contenu phonétique cf. [AUD’08]). Cette pratique
d’acquisition de corpus est plus aisément mise en œuvre, et facilite l’étiquetage des
données observables, ainsi que leurs analyses ultérieures. Ceci est vraisemblablement
la principale raison pour laquelle le recueil de corpus lus (actés) reste, de loin, la
pratique la plus couramment utilisée dans les études dédiées à la synthèse vocale.
Remarquons que ceci reste, de loin, le choix favori de la plupart des démarches se synthèse, même si dissimulé
derrière un corpus initialement constitué des énoncés textuels (mais qu’elles décomposent toujours en phrases).
1
59
4.1
Constitution des corpus de travail écrits
En vue de valider le cadre (cf. chapitre 1) et les hypothèses de travail (cf. chapitre 2),
nous avons opté ici pour un corpus acté composé, à la différence d’une suite de
phrases isolées qui ne constituent pas un espace linguistique clos, d’un ensemble de
textes situés dans un genre bien spécifié. En suivant les démarches de la phase
méthodologique Ph1 (cf. section 3.1 et figure 3.2), nous avons constitué plusieurs
corpus écrits, comme présentés dans les sous-sections suivantes.
4.1.1 Corpus principal d’étude : les horoscopes
fde 2
fde 3
fde 1
...
fde n
txt
gph
syn
syl
txt gph syn syl
structure mélodique
(F)
syl syn gph txt
structure temporelle
(T)
structure énergétique
(I)
txt
gph
syn
syl
Le premier et le plus consistant corpus écrit d’étude est dédié
au genre « horoscope ». Il est constitué d’un ensemble de 255
textes bien formés (i.e. qui ne nécessitent aucun prétraitement
lexical ou grammatical) et bien structurés (représentés sous la
forme : signe / titre section / corps section), correspondant à 195
horoscopes quotidiens et 60 horoscopes hebdomadaires2.
morphologie
lexique
...
syntaxe
sémantique
phonétique
situation discursive
(ds)
typographie
ponctuation
figures de discours
matière textuelle
profil du locuteur
(rp)
Du point de vue opérationnel, nous avons procédé au recueil
automatique de ces données textuelles, à l’aide des modules
informatiques suivants :
genre textuel
(tg)
A
fichier .html
récuperation
des données
en ligne
B
fichier .txt
balisage
descriptif
des données
fichier .xml
horoscope.dtd
Figure 4.1 : Modules de récupération des données et de balisage descriptif
Le premier module vise à saisir et à récupérer les données pertinentes sous la
forme de données textuelles non-formatées (« brutes »). Le second a comme objectif
le balisage et l’archivage de ces données « brutes » sous un format approprié à leurs
spécifications de description, cf. la DTD3 dédiée à ce type particulier d’horoscope qui
décrit la segmentation de ces derniers en leurs principaux composants structurels :
Outre les dimensions quantitatives de leur contenu (i.e. plus courts ou plus longs), la différence entre ces deux
types relève de leur structuration interne : les horoscopes quotidiens sont divisés en 2 sections (« Vie privée » et
« Vie professionnelle »), et ceux hebdomadaires en 3 (« Vie privée », « Vie professionnelle », « Vie quotidienne »).
3 La DTD (Document Type Description) donne un aperçu du futur balisage descriptif des données textuelles.
2
60
<!ELEMENT horoscope (signe, section, section, section?)>
<!ELEMENT signe (#PCDATA)>
<!ELEMENT section (titre, corps?)>
<!ELEMENT titre (#PCDATA)>
<!ELEMENT corps (#PCDATA)>
Nous illustrons sur un texte issu du corpus d’horoscopes hebdomadaires. Après le
balisage descriptif, et conformément à la structure spécifiée par la DTD, ce texte est
converti en vue des traitements ultérieurs4 dans un fichier de format « .xml » :
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE horoscope SYSTEM "horoscope.dtd">
<horoscope type = "weekly">
<signe> Bélier </signe>
<section>
<titre> VIE PROFESSIONNELLE : </titre>
<corps> Vous recevez d'excellentes nouvelles concernant votre carrière, et de nouvelles
portes s'ouvrent devant vous. Votre situation actuelle se stabilise. Vous pouvez avoir
l'impression d'être dans une impasse, mais en réalité vous faites de grands progrès.
</corps>
</section>
<section>
<titre> VIE PRIVÉE : </titre>
<corps> On exige beaucoup de vous, mais vous pouvez trouver une solution pour
surmonter ces épreuves. Ne jugez pas d'après les apparences. Attendez de connaître tous
les faits avant d'émettre une opinion.
</corps>
</section>
<section>
<titre> VIE QUOTIDIENNE : </titre>
<corps> Vous prenez les choses trop au sérieux. Passez du temps avec vos proches,
sortez et amusez-vous ! Vous aurez du mal à vous enfermez dans une routine préétablie.
Exprimez votre désir d'indépendance.
</corps>
</section>
</horoscope>
(1)
Précisons que nous avons choisi cet exemple pour servir tout au long de ce travail
à illustrer les différentes étapes nécessaires à nos études sur l’expressivité discursive
des horoscopes de ce premier corpus.
Nous accordons dans la suite une attention particulière à quelques caractéristiques
linguistiques générales de ces horoscopes. Textes à contenu prépondérant libre, les
horoscopes présentent dans leur corps de section, des mixtures plus ou moins
régulières de phrases déclaratives et injonctives. Les phrases déclaratives (nommées
Portant l’organisation du contenu de ces documents textuels (i.e. horoscopes structurés), ce balisage descriptif
peut servir à long terme aussi bien à l’indexation automatique ou assistée par ordinateur des contenus de ce type
d’horoscopes, qu’à la recherche d’informations (textuelle et/ou prosodique) au sein de ces derniers.
4
61
également énonciatives ou assertives) sont les phrases le plus répandues, dont les
grammairiens ont fait la phrase type, canonique, exemplaire. Elles communiquent
une information, déclarent un fait, ou bien prévoient un changement :
« Les nuages se dissipent et le ciel est, de nouveau, clair. » (Scorpion, 30 avril)
« Vos relations personnelles s'améliorent grandement et vous avez l'impression de
pouvoir faire davantage confiance aux autres. » (Poissons, 30 avril)
« Le mois d'avril touche à sa fin et vous avez l'occasion de faire le point sur les progrès
que vous avez effectués et sur ceux qu'il vous reste à faire. » (Taureau, 29 avril)
« Les autres vous regardent avec envie, voire avec jalousie, car votre carrière semble
progresser à grande vitesse. » (Balance, 22 avril)
Les phrases injonctives (nommées aussi impératives) communiquent un ordre, une
interdiction, un conseil à suivre, un encouragement, etc. dans l’attente d’une action
de la part de celui qui les reçoit. Elles emploient soit le mode impératif, soit un temps
ayant la même valeur (infinitif, indicatif présent, futur, subjonctif présent) :
« Ayez confiance en vous et tout se fera de façon naturelle. » (Bélier, 30 avril)
« Vous devriez consacrer un peu plus de temps et d'énergie pour améliorer le confort de
votre intérieur. » (Vierge, 30 avril)
« Il est temps de vous ouvrir aux autres et de laisser parler votre cœur. Exprimez-vous,
vous en avez besoin ! » (Poissons, 30 avril)
« Ne passez pas à côté ! Saisissez votre chance ! » (Taureau, 22 avril)
Les phrases rhétoriques-interrogatives sont également présentes dans notre corpus
d’horoscopes, mais statistiquement peu représentées (7 sur l’ensemble de 255 textes) :
« Est-ce vraiment la peine de poursuivre ainsi ? » (Taureau, 28 avril)
« Pourquoi ne pas organiser un voyage et vous faire plaisir, pour une fois ? » (Sagittaire,
28 avril)
« Savez-vous qu'il existe un moyen de vous rendre la vie plus facile ? » (Taureau, 26 avril)
« Qui peut, mieux que vous, savoir ce que vous voulez ? » (Lion, 9 avril)
Les mixtures de phrases déclaratives et injonctives au sein d’horoscopes ne
tiennent pas compte d’un ordonnancement bien précis. Les déclaratives peuvent
apparaitre aussi bien avant, qu’après ou intercalées entre les injonctives :
62
« Les nuages se dissipent et le ciel est, de nouveau, clair. Il faut accepter le fait que certains
liens ne peuvent pas être renoués et ce, malgré votre plus grande volonté. Pensez à votre
avenir et allez de l'avant ! » (Scorpion, 30 avril)
« Évitez de vous isoler ! Recherchez la compagnie des autres, autant que possible.
Exprimez vos idées, et vos sentiments. Vous recevrez ainsi des conseils qui vous aideront
à faire des choix. » (Lion, 6 avril)
« Ne désespérez pas si votre vie amoureuse semble calme. En réalité, les choses
évolueront plus vite que vous ne le pensez et une véritable tornade de passion peut,
bientôt, vous submerger. Ne vous retenez pas et laissez-vous transporter par vos
émotions. » (Bélier, 14 avril)
Statistiquement, nous pouvons observer au sein de ce corpus, l’usage abondant
des impératifs dans les injonctives et des verbes généralement à la 2ème personne du
pluriel (3768 occurrences sur l’ensemble de 5385 verbes), ainsi que l’emploi régulier5
des pronoms et adjectifs pronominaux personnels « vous » (soit 2164 occurrences sur
l’ensemble de 28189 mots), « votre » (699 occurrences), et « vos » (315 occurrences) :
Unité linguistique
textes
sections
phrases
mots (dont utiles)
verbes
syllabes
Nombre total d’occurrences
195 + 60 = 255
195*2 + 60*3 = 570
1147 + 501 = 1648
28189 (19479)
5385
44080
Tableau 4.1 : Distribution de diverses unités linguistiques dans le corpus d’horoscopes
Ces récurrences lexicales orientent le genre horoscope vers un genre d’adresse
directe, « intentionnellement distante », à faible connotation autoritaire, allant des
propositions, recommandations ou suggestions, aux avertissements, incitations, ou
actions d’engagements personnels. Plus que de simples textes injonctifs ou textes à
consigne, les horoscopes se situent dans un genre d’adresse attaché à un discours que
la littérature de spécialité [AOU’06] appelle « procédural ».
4.1.1.1 L’horoscope : un genre dans la famille des textes procéduraux
Selon [DEL’08], les textes procéduraux se présentent sous la forme d’un ensemble
organisé d’instructions, et/ou d’un ensemble divers de conseils. Ils s’étalent sur des
genres très différents, qui vont des simples recettes de cuisine, jusqu’au manuels
d’utilisation très élaborés, passant par divers documents [AOU’06] comme : les notices
Selon les statistiques, ils dépassent les 20% du nombre total des mots utiles (c’est-à dire de l’ensemble des mots
dont on a soustrait les prépositions, les conjonctions et les déterminants) dans le corpus.
5
63
médicales, les phrases des services vocaux, les recommandations concernant le
comportement social ou familial, les directives pour l’utilisation d’un produit, les
notices d’assemblage ou les « modes d’emploi », les guides d’itinéraire, les divers
conseils et astuces, les textes dits de type « do-it-yourself », etc.
Adhérant d’une façon plus ou moins explicite à un nombre de critères de
structuration qui dépendent des traditions associées au genre dans lequel ils
s’inscrivent, mais aussi des habiletés rédactionnelles de l’auteur, ces textes présentent
une large variété des réalisations qui rend souvent difficile, l’identification de leur
structure. Cependant, il existe des genres où cette structuration textuelle est livrée
« visible » par l’intermédiaire des divers marqueurs micro- ou méso-linguistiques
et/ou typographiques, comme, par exemple, dans le cas des recettes de cuisine ou des
horoscopes constituant notre corpus principal. Rappelons ici (cf. chapitre 2, section
2.2) que la typographie relève de la mise en forme matérielle, et conduit à envisager
les marqueurs d’organisation (des segments discursifs) comme des configurations de
marques lexico-syntaxique, typo-dispositionnelles, ou de ponctuation, etc.
L’hypothèse de signalisation linguistique explicite de l’organisation textuelle est,
selon [PER’98] accompagnée d’une hypothèse de variation des marques réalisant cette
signalisation, en fonction d’un nombre de facteurs liés à la situation discursive (ou de
communication). Une distinction entre genres ou registres (définis sur des critères
situationnels) et type de texte (définis sur des critères linguistiques) est nécessaire au
sens des travaux de [BIB’88] et [BIB’93]. Autrement dit, la diversité des formes que
peuvent revêtir les textes procéduraux (nommés également « procédures ») devient
perceptible uniquement si la méthode d’observation distingue nettement la
classification liée à la visée procédurale (paramètre appartenant au registre) d’un
texte, de celle liée aux réalisations linguistiques.
Évitant ces débats sensibles de catégorisation, [AOU’06] se contente de rassembler
ces textes « paraissant se ressembler » dans des « familles de textes procéduraux ».
Généralement composés d’une séquence d’instructions, précédées parfois par un
ensemble de pré-requis (comme c’est le cas des recettes de cuisine), celles-ci opèrent
sur un ensemble spécifique d’entités pour atteindre un objectif. Selon l’auteur, les
objectifs (munis parfois des sous-objectifs) constituent la structure squelettique des
textes procéduraux. Ainsi, de la même famille que les textes évoqués auparavant font
partie les divers plans ou les nombreux libelles dits d’« Attention ! ». Cependant,
d’après nos lectures, jusqu’à présent, il n’y a pas de citation qui place les horoscopes
dans la grande famille des textes procéduraux. Et pourtant…
Semblablement à la plupart des textes procéduraux, les horoscopes présentent,
eux aussi, les marques particulières relevant des trois critères de base qui assurent
l’identification des instructions [AOU’06] : i) les critères typographiques (comme la
structuration du texte en titre et un nombre limité de sections), ii) les critères
morphologiques (comme les innombrables formes impératives et/ou infinitives des
verbes), et iii) les critères sémantiques (comme par exemples, les verbes d’action,
64
couramment nommés « tropes », les plus représentatifs étant les factifs, et ensuite les
déclaratifs et les performatifs).
fde 2
fde 3
fde 1
...
fde n
txt
gph
syn
syl
txt gph syn syl
structure mélodique
(F)
syl syn gph txt
structure temporelle
(T)
structure énergétique
(I)
txt
gph
syn
syl
morphologie
lexique
...
syntaxe
sémantique
phonétique
situation discursive
(ds)
typographie
ponctuation
figures de discours
matière textuelle
profil du locuteur
(rp)
genre textuel
(tg)
Sont également présentes dans les horoscopes, les marques
discursives spécifiques aux textes procéduraux (cf. op. cit.), tels
les marqueurs temporels classiques (« aujourd’hui », « jeudi »,
« en début de semaine ») ; les diverses signes des restrictions,
conditions, alternatives, comparaisons, ainsi que les marqueurs
causaux (« si vous ouvrez l’œil… », « si vous faites attention
aux signes… »), qui permettent l’identification des objectifs,
attentions, préventions, conséquences, etc. Dans le modèle
défini en 2.6, ces marques sont situées toutes au niveau des
descripteurs linguistiques <U>.
Nous allons voir dans la suite l’intérêt porté dans notre cadre applicatif de
synthèse de la parole, par l’existence de ces familles de textes procéduraux, pour la
synthèse d’une voix dédiée (initialement) aux horoscopes.
4.1.1.2 Similarités prosodiques trans-génériques. Corpus alternatif.
Tout d’abord, notre expérience dans l’approche de synthèse par corpus nous révèle
le fait que certains genres6 textuels semblent plus « proches » que d’autres en termes
prosodiques, relativement à un corpus initial donné. D’une certaine façon, une sorte
de similarité prosodique intrinsèque (et, de ce fait, implicite) entre le corpus d’origine
de voix naturelle et celui de synthèse est préférée, en vue de garantir une expressivité
adéquate (ou, au moins, acceptable) de ce dernier.
Pour éclaircir les questionnements sur ce sujet de similarité prosodique, nous
avons proposé, pour le corpus d’horoscopes « typiques »7, un mini-corpus textuel
alternatif, comportant 5 genres différents : i) un ensemble de conseils à thème varié
(astuces pour les bricoleurs, pour l’entretien de la maison, ou le jardinage, etc.) ; ii)
une variété de courts textes publicitaires pour divers objets et services ; iii) un type
particulier de citations et de proverbes ; iv) quelques brefs textes issus de genres
différents (recettes de cuisine, questionnaires auto-école) ; ainsi que v) un ensemble
réduit de textes spécialement conçus pour cette étude. Nous en illustrons ici quelques
énoncés, le lecteur intéressé pouvant trouver plus d’exemples dans l’annexe A10.
« Couper ses cheveux :
Avant de vous faire faire une coupe chez votre coiffeur, regardez les lunes sur votre
calendrier. Les cheveux poussent moins vite, lune descendante. » [Conseil beauté]
Traditionnellement nommés « domaines » dans la littérature technique.
Lus par des nos acteurs professionnels d’une manière plutôt spontanée (voir section 4.2, acquisition des corpus
oraux), en vue de créer des voix supposées porter, implicitement, un grand potentiel expressif d’horoscopes.
6
7
65
« Gagnez un an de salaire ! Un cadeau offert à l’inscription ! Cliquez-ici ! » [Publicité jeu]
« N'offre pas une cravate à qui a besoin d'une chemise. » [Proverbe anglais]
« Mesdames, un conseil. Si vous cherchez un homme beau, riche et intelligent... prenez-en
trois ! » [Coluche]
« Ici, c'est le mixer qui fait tout. Laissez-le réduire votre belle mangue bien mûre en coulis
avec une touche de sucre puis versez harmonieusement cette pulpe en alternance avec du
fromage blanc. Ultra simple, mais efficace ! » [Recette cuisine facile]
Selon notre postulat, ces textes de genre et contenu extrêmement variés montrent,
dans leur manière d’élocution générale, une similarité prosodique intrinsèque avec
les horoscopes. Celles-ci témoigne de la présence d’un ensemble de motifs (ou de
schémas, cf. chapitres 5 et 9) prosodiques trans-génériques, propres aux élocutions
injonctives retrouvées dans les discours associés aux textes procéduraux.
Côté applicatif, cette similarité trans-générique attachée aux textes procéduraux
est intéressante pour une approche de synthèse par corpus. Sachant qu’une des
limites d’une voix naturelle enregistrée est sa prosodie intrinsèque (dite aussi
« playback »), un des objectifs sous-entendus de ce type de démarche de synthèse est
la recherche d’une minimisation des grands « contrastes » (ou « dissimilitudes »)
dans les motifs prosodiques trans-génériques. De sorte que, régulièrement, on évite
la synthèse de nouveaux textes avec une voix issue d’un corpus initial prosodiquement trop « éloigné » (prenons le cas de certains textes procéduraux, tels les conseils
maison, synthétisés avec une voix dédiée aux contes pour les enfants) qui pourrait
mener à des interprétations inappropriées (pouvant varier entre celles de facture
parodique, jusqu’au non sens). Probablement, pour ces cas, le rendu d’une voix
« neutre » sera perceptivement préféré, car plus « proche » de celui attendu pour le
genre de texte à synthétiser. Rappelons (cf. discussions en chapitre 1) ici l’intérêt de
certaines applications de travailler avec des corpus oraux « neutres », volontairement
« équidistants » de toute expressivité prosodique : la synthèse vocale « neutre »
assure la dé-contextualisation de la parole sans aucune intention explicite de récontextualisation (contrairement à la synthèse partant d’une « voix d’horoscopes »
qui assure une ré-contextualisation forcée pour les textes à synthétiser).
Nous discuterons dans le chapitre 9 sur quelques exemples l’impact de la prosodie
(et donc, de l’expressivité) intrinsèque du corpus initial (d’un genre donné) sur la
prosodie des textes issus des genres différents, synthétisés ultérieurement. Retenons
ici que, dans ces termes, le corpus alternatif de textes procéduraux proposé plus haut
peut être vu comme une des possibles extensions applicatives pour une voix de
synthèse dédiée initialement aux horoscopes.
66
4.1.2 Corpus secondaire d’étude : les parodies
Nous proposons ici et présentons de façon plus détaillée dans l’annexe A10, un
corpus secondaire, conçu pour cadrer et illustrer quelques pratiques parodiques qui
portent, selon le cas, soit sur le contenu (verbal), soit sur la forme (prosodique) d’un
ensemble de textes. Introduire ce corpus de parodies a, comme nous le discuterons
dans la section 4.1.2.2, un grand intérêt pour l’étude des divers déplacements de
régimes de signifiance produits sur l’expressif discursif.
Dans les sous-sections qui suivent, nous situons d’abord ces pratiques dans un
cadre théorique s’intéressant notamment aux formes spécifiques d’hypertextualité, et
nous indiquons ensuite quelques exemples de déformations parodiques.
4.1.2.1 Pratiques hypertextuelles, parodies, visées parodiques
Largement débattue par Genette [GEN’82], l'hypertextualité8 se définit comme toute
relation unissant un texte B, appelé « hypertexte », à un texte antérieur A, appelé
« hypotexte », sur lequel il se greffe d'une manière9 qui ne ressort pas à la métatextualité du commentaire. L’hypertexte relit ainsi l’hypotexte « au terme d'une
opération qualifiée, provisoirement encore, de transformation, en l’évoquant, sans
nécessairement parler de lui ou le citer ». Nous pouvons schématiser ceci par :
parodie
hypotexte
texte A
hypertexte
commentaire
texte B
pastiche
Figure 4.2 : Relations hyper-textuelles : parodies et pastiches
C’est précisément la nature de cette opération de transformation qui différencie,
au sein des pratiques hypertextuelles, les pastiches des parodies (les seules relations
hypertextuelles discernées en op. cit.). Mais l'imitation quasi-technique propre aux
pastiches ne doit pas se confondre avec le travestissement burlesque ou satirique
propre aux parodies. Là où le pastiche relève plutôt d'une imitation stylistique pour
laquelle l’hypotexte est souvent flou, la parodie procède par transformation d'un
matériau textuel (ou prosodique, comme exposé plus loin) très bien identifié.
Selon l’auteur, l’hypertextualité est une forme spécifique de trans-textualité (i.e. transcendance textuelle), à côté
de l’intra-textualité, para-textualité, et métatextualité.
9 Généralement l’hypertexte ne parle nullement de l’hypotexte, mais ne pourrait exister tel quel sans ce dernier.
8
67
Pour résumer, la pratique de la parodie (celle du contenu, du moins) est fondée
sur un texte support qu'elle réécrit, ce qui l'inscrit comme forme d'hypertextualité.
Imitation, travestissement, caricature, ou bien simulacre, elle va d’une simple reprise,
jusqu'à une transposition signifiante, créant ainsi des formes (partant de polyphonies
aux cacophonies textuelles) « volontairement discordantes » 10 [ABO’07]. Marquant
l'apparition d'un lecteur critique « capable de jouer avec le code littéraire » [ABO’02] la
dégradation parodique implique un double front : elle met en jeu l'hypotexte connu
avec un contexte nouveau, dans une confrontation inédite et signifiante. Cette
interrelation de l'hypotexte avec le contexte, qui constitue le moteur de la parodie,
permet de comprendre que la parodie peut viser l'un ou l'autre, selon le cas. Selon
[GEN’82], cela peut se réaliser parfois de manière extrêmement économique, en ne
changeant rien à l'hypotexte (telles les citations qui instaurent un nouveau contexte).
Mais quelle serait, en fin de comptes, l’impulsion qui pousse à pratiquer l'écriture
d'un texte à partir d'un autre ? Selon [ABO’02], cette réécriture « produit et s'appuie
massivement sur un plaisir de dégradation essentiellement comique, si l'on veut bien
confondre sous ce vocable l'ironie, l'humour, la satire, la polémique, le burlesque… ».
Pourtant, toute pratique de transposition parodique ne se réduit pas à cette visée.
Genette [GEN’82] a eu le mérite d’insister sur le régime sérieux de certaines parodies
qui ne se laissent pas réduire à des pratiques de réécriture liées au comique. À côté
du régime sérieux, il mentionne deux autres régimes de décalage : le ludique, qui
« songe à s'amuser sans vraiment s'engager dans une visée violemment agressive » et
le satirique qui, au contraire, se manifeste plus agressivement. Malgré la précision
que « l'ironique et l'humoristique encadrent le ludique, tandis que le polémique se
situe entre le satirique et le sérieux », les limites d’une codification fixant la formule11
de dégradation volontaire des textes par des moyens parodiques, restent floues.
Dans nos études sur l’expressivité discursive nous nous intéressons exclusivement
aux dégradations parodiques à visée humoristique. Nous poursuivons en illustrant
quelques scénarios de ces dégradations à finalité applicative.
4.1.2.2 Parodies de contenu, parodies prosodiques
A. Parodies de contenu
Nous étudions ici un cas de déplacement de contenu de signifiance, qui concerne les
pratiques hypertextuelles de nature parodique se manifestant sur les textes issus du
genre horoscopes. Par sa diffusion à grande échelle, sous multiples formes et sur
divers supports, le genre horoscope est devenu, à côté des pronostics météo ou des
nouvelles politiques ou sportives, un genre de « consommation » quotidienne.
[ABO’02] cite ici la reprise des mélodies populaires pour y placer des paroles nouvelles, ou bien les traductions
des écrits sacrés (Psaumes de David) dans les structures et les harmoniques des diverses chansons profanes.
11 Autant valorisée que condamnée par la langue courante…
10
68
Abondamment médiatisés par des moyens variés (la radio, la télévision, les journaux,
sans omettre l’internet), les horoscopes se sont vite inscrits dans les pratiques de
l’homme moderne. L’hypotexte horoscopique, même si amplement diversifié car
sans contraintes fortes12 de contenu, est essentiellement reconnu par sa structuration
(en sections « Santé / Travail / Amour », ou « Vie professionnelle / Vie privée / Vie
quotidienne »), par son contenu et sa visée prétendument « sérieuse » du côté de sa
réceptivité (descriptions des faits présents, conseils et scénarios prévisionnistes, etc.)
Un des scénarios des déplacements parodiques des horoscopes affecte précisément
ces dimensions. Se greffant sur leur structure, et/ou déformant leur visée distante
(qui reste toujours « politiquement correcte »), à l’aide des contenus volontairement
contournés, ces parodies changent les anciennes pratiques des horoscopes « sérieux »
et engendrent des usages inédits. Un nouveau genre se voit donc émerger, que la
littérature, encore faible en matière de terminologie générique, nomme simplement
« humouroscope » (cf. [BRE’06]) :
Bélier
Santé :
Vous avez tendance à suer des pieds, il faudrait consulter un spécialiste.
Travail :
Faites une pause, votre moral est au plus bas.
Amour :
Si vous investissez dans un déodorant de qualité, vous aurez peut-être une chance !
Traduit en termes d’hypertextualité, cet exemple use de la structure d’un support
hypotextuel propre aux horoscopes « véritables » (i.e. « sérieux »). La réécriture de
l’hypertexte sur l’hypotexte se traduit ici (tout comme pour les parodies de [ACH’06])
précisément par le remplacement délibéré du contenu textuel sérieux des sections.
Cette mutation permet de placer, si ce n’est dès le début13, au moins au cours de la
lecture, l’hypertexte dans une pratique décalée, propre à la parodie :
Figure 4.3 : Relations hyper-textuelles : parodies de contenu
12
13
Puisqu’en termes de contenu, les horoscopes présentent un vocabulaire plutôt libre.
Même si sa visée comique ou ironique n’est pas encore dévoilée, faute de présence d’autres éléments signifiants.
69
Facétieux, méchants, amusants ou ironiques, en tous les cas déplacés, les textes des
humouroscopes rassemblent des déclaratives et des injonctives déformées, dans des
contenus inattendus, transposés. Le journal [BRE’06] en propose quelques exemples :
« Votre situation financière vous oblige à vous laver seulement une fois par semaine afin
d’économiser le savon. »
« Ne jouez pas au ping-pong, optez pour un sport moins dangereux comme le football ! »
« Méfiez-vous des petites créatures vertes qui font la fête dans votre brosse à dents. »
Outres ces moyens de déformation du contenu horoscopique, nous pouvons citer :
i)
le comique issu de l’usage de l’autoréférence :
« Ne croyez pas tout ce que vous lisez, surtout pas les horoscopes. »
ii)
la présence d’un « locuteur » directement impliqué, contrairement aux
horoscopes où les locuteurs restent distants et très souvent « anonymes » :
« Je sais que les vacances c'est pour bientôt, mais allez-y doucement quand même. »
« Moi, je comprends très bien que l'on tombe amoureux de vous. »
iii)
l’inter-changement délibéré des contenus textuels initialement dédiés aux
domaines d’intérêt différents (par exemple, la permutation des sections
« Travail » et « Amour », « Santé » et « Travail », « Amour » et « Santé ») :
Bélier
Santé :
Travail, il n'y a pas que ça dans la vie !
Travail :
Votre libido est à son maximum, sachez vous contrôler.
Amour :
Attention à vos yeux, ils sont fragiles, protégez-les !
Nous pouvons élargir ce procédé de création d’humouroscope par l’accaparation
dans la structure horoscopique hypotextuelle, d’un ensemble d’extraits textuels
appartenant à des genres différents. D’une façon similaire au phénomène présenté en
iii), le déplacement parodique est dû ici à la confrontation de deux signifiances,
produite suite à la ré-contextualisation du matériau hypertextuel (nouveau) sur le
schéma hypotextuel (initial) :
70
Balance
Santé :
Honorez le médecin avant que vous n'ayez besoin de lui. [Proverbe hébreu]
Travail :
Demandez un conseil à votre ennemi et faites le contraire. [Proverbe juif]
Amour :
Si vous avez besoin de quelque chose, appelez-moi. Je vous dirai comment vous en
passer. [Citation Coluche]
Le lecteur intéressé trouvera dans l’annexe A10 un ensemble d’extraits textuels
issus des genres très diversifiés, pouvant servir de point de départ à la création de
nouvelles « recettes » d’humouroscopes. Nous en présentons ci-dessous un exemple
d’exécution d’un outil simple mis en place pour l’affichage de ces dernières :
Figure 4.4 : L’humouroscopotron – outil pour la reproduction du contenu parodique
Précisons que le procédé de fonctionnement de cet outil de reproduction parodique
est basé sur celui du Pipotron (cf. la référence originale [PIP’06]).
71
B. Parodies prosodiques
Les scénarios « déplacés » mentionnés ci-dessus relèvent tous de la dimension
« verbale » (ou du contenu) du textuel, par la réécriture parodique d’un hypertexte
d’humouroscope sur un hypotexte d’horoscope profusément assimilé dans la doxa.
Nous pouvons envisager des scénarios de déplacements analogues relevant cette
fois-ci, non pas d’une trans-textualité, mais plutôt d’une trans-prosodicité (d’hyper,
voire même intra-prosodicité entre les énoncés en question). De sorte que, si nous
dénommons « parodie prosodique » le résultat de ce déplacement, nous obtenons :
Figure 4.5 : Relations hyper-prosodiques : parodies prosodiques
La relation de trans-prosodicité traduit un déplacement de signifiance entre le
régime hypoprosodique A et le régime hyperprosodique B pour le même texte initial
A. Nous nous intéressons ici particulièrement aux cas où ce déplacement délibéré
engendre des mutations (ou déformations) prosodiques à visée parodique.
Pour le recueil des données de déformation parodique prosodique, nous avons
choisi, tout d’abord, deux textes de notre corpus d’horoscopes. Nous avons défini
pour chacun de ceux-ci, un ensemble limité mais suffisamment illustratif, de
différents types de lecture, susceptibles de produire en réception, des déplacements
signifiants de leurs réalisations orales (i.e. leurs hyper-prosodies), par rapport aux
hypo-prosodies dites « typiques » attendues implicitement pour les horoscopes.
Ces variantes hyper-prosodiques constituent notre corpus secondaire de travail.
Nous avons recueilli (cf. section 4.2) ainsi de diverses lectures simulées de ces textes
d’horoscopes : i) exagérément lentes ou rapides14, en mode « interrogatif » ou « de
déchiffrage », bégayées, extasiées ou peureuses, tristes ou agressives, ii) de façon
« commentaire sportif », « politique » ou « messe », mais aussi de type iii) « paysan »,
« aristocrate », « fillette », « vieux », ou « avec l’accent » québécois, africain, ou italien.
Un des objectifs étant l’analyse comparative de leur débit moyen avec celui des lectures dites « typiques », cf.
discussions menées à la fin du chapitre 8 et dans l’annexe A9.
14
72
fde 2
fde 3
fde 1
...
fde n
txt
gph
syn
syl
txt gph syn syl
structure mélodique
(F)
syl syn gph txt
structure temporelle
(T)
structure énergétique
(I)
txt
gph
syn
syl
morphologie
lexique
...
syntaxe
sémantique
phonétique
situation discursive
(ds)
typographie
ponctuation
figures de discours
matière textuelle
profil du locuteur
(rp)
genre textuel
(tg)
Nous ne recelons pas le fait que derrière ce choix varié en
termes d’hyper-prosodicité se cache un projet d’observation des
déplacements de régimes de signifiance produits sur l’expressif
discursif. De la sorte que si nous nous rapportons au cadre de
modélisation décrit dans le deuxième chapitre, nous pouvons
remarquer facilement le fait que ces réalisations remettent en
jeu, pour un genre spécifié (ici, horoscope), les trois dimensions
extratextuelles censées référencier la matière textuelle d’étude :
le tg – pour les lectures ii), le rp – pour les lectures iii) et la ds –
pour les lectures i).
Les chapitres suivants décrivent l’étiquetage (cf. annexe A3) et la représentation
formelle (cf. chapitres 5, 6) de l’ensemble de ces observables prosodiques à potentiel
parodique. Pour le traitement de ces dernières, nous avons procédé du point de vue
technique exactement de la même manière15 que pour les données issues des lectures
dites « typiques » qui constituent le corpus principal de nos 255 horoscopes. Les
principaux résultats des comparaisons de ce deux jeux des données (hypo- et hyperprosodiques) sont illustrés en détails dans le chapitre 8, section 8.2 et l’annexe A9.
4.2 Recueil des corpus de travail oraux
Les corpus de travail oraux contiennent les réalisations des corpus principal et
secondaire qui constituent la base de notre expérimentation. Dans ce qui suit, nous
appelons celles-ci, des données expérimentales observables. Ces données observables
sont la résultante d’un ensemble de facteurs16 tels que : i) le support textuel, ii) les
consignes de lecture (qui substituent aux conditions « naturelles » d’élocution,
d’autres conditions pragmatiques liées à la lecture actée de textes sous certaines
contraintes expressives), iii) l’enregistrement lui-même (avec tous ses aspects
techniques et physiques), iv) le consentement incessant des locuteurs à la réalisation
de ce dernier (compte tenant de leurs implications physiques et psychologiques) et,
enfin, v) le bon achèvement de cette tâche, dans sa globalité.
4.2.1 Enregistrements et locuteurs
Les enregistrements se sont déroulés au sein des laboratoires de recherche Orange
Labs, dans une pièce non bruyante et isolée acoustiquement, habituellement utilisée
comme studio d’enregistrement ou de test pour les études portant sur la parole ou
sur le son, en général. Exception faite de la phase de mise en place du calibrage
15
16
C’est-à-dire en passant par les mêmes étapes et utilisant les mêmes algorithmes de traitement.
Même si pour certains, le texte reste uniquement une donnée à lire avec son mode d’emploi.
73
technique assisté par deux experts en acoustique, chacun de nos locuteurs se
retrouvait uniquement en présence de l’expérimentateur. Les recommandations et les
consignes17 concernant la réalisation des lectures expressives ont été transmises soit i)
par différents gestes à priori codifiés, et visibles à travers un mur transparent qui
départageait la chambre sourde du local d’enregistrement, soit ii) par des messages
transmis à l’aide d’un microphone (côté expérimentateur) et captés à l’aide d’un
casque (côté locuteur). Toutes ces contraintes techniques ont été nécessaires pour
assurer une bonne qualité de l’enregistrement de nos corpus.
Nous avons travaillé avec deux locuteurs, Alain [MAI’08] et Geneviève [ROB’06],
ayant une formation et une longue expérience de comédiens professionnels, et faisant
partie d’un groupe socioculturel homogène. Leur sélection a été faite, certes, en
fonction de leurs compétences linguistiques, traduites en termes d’articulation,
d’intelligibilité et de fluidité de diction, mais aussi en fonction de leurs performances
individuelles, traduites en termes d’aisance de production simulée 18 de diverses
expressivités. Selon [DUB’91], la compétence est liée à la langue et est définie comme le
système de règles intériorisé par les sujets parlants et constituant leur savoir
linguistique, grâce auxquelles ils sont capables de construire, de reconnaître, de
comprendre et de reproduire les énoncés de cette langue. En revanche, la
performance est attachée à la parole et est définie par l’ensemble des contraintes qui
s’exercent sur la compétence pour en limiter l’usage. La performance rend compte
des manifestations de la compétence des sujets parlants dans leurs multiples actes de
parole, i.e. dans les situations diverses de communication
Comme les deux locuteurs ne se sont rencontrés ni avant ni pendant la période
d’enregistrement de nos deux corpus, nous pouvons stipuler que leurs réalisations
prosodiques n’ont pas été influencées mutuellement. Cependant, ayant connaissance
du genre textuel (horoscope, pour le corpus principal) à enregistrer ultérieurement,
ils ont été libres d’écouter, en préalable, divers extraits dans les médias pour les
guider dans leurs futures lectures.
Les interventions de l’expérimentateur pendant la durée de l’enregistrement des
deux corpus ont été globalement, peu nombreuses. Elles ont concerné notamment
l’ajustement du débit global de la parole, et les demandes de reprise dues à quelques
soucis ponctuels d’articulation. Car même si les locuteurs étaient psychologiquement
prêts pour la réalisation de cette tâche, et habitués à un travail de diction de longue
durée, nous avons pu remarquer une fatigue physique graduelle durant les journées
d’enregistrement. Afin de recueillir un corpus expressif « homogène » du point de
vue des conditions d’enregistrement (pour les mêmes consignes de genre textuel et le
type de lecture), nous avons fait des comparaisons perceptives ponctuelles entre les
enregistrements effectués en début, en milieu et à la fin de la journée. En fonction de
17
18
Nous pensons ici particulièrement aux lectures expressives « simulées » constituant le corpus secondaire
Celles-ci étant soit imposées ponctuellement par l’expérimentateur, soit laissées au libre choix des locuteurs.
74
l’aperçu de ces comparaisons, nous avons formulé des directives d’ajustements
locaux de débit et/ou de timbre global d’élocution.
Le processus d’acquisition du matériau oral reste toujours modérément coûteux
en termes de temps de parole « utile » rapporté au temps de parole « brute ». Nous
avons estimé ce rapport à 1/4, soit environ 3h de parole « utile » pour 12h de parole
« brute », pour chaque locuteur. À titre d’exemple, nous avons compté environ de
100 reprises partielles par locuteur sur l’ensemble de 255 textes d’horoscopes.
Nous avons recueilli pour chaque locuteur, l’ensemble de ses réalisations orales
correspondant au corpus principal d’horoscopes « typiques » et au corpus secondaire
des parodies prosodiques. Ces réalisations constituent les données expérimentales et
par conséquent, les observables expressifs pour tout notre travail ultérieur.
4.2.2 Transcription et segmentation des bases acoustiques
Selon [DUB’91], transcrire, c’est « faire correspondre terme à terme les unités discrètes
de la langue parlée et les unités graphiques ». Dans les travaux sur la parole lue, ceci
se traduit par la correspondance entre les données acoustiques recueillies dans la
phase d’enregistrement, et leur support textuel de départ. La transcription oral-écrit
est le premier pas de l’annotation phonétique, et constitue une des étapes de la phase
d’acquisition du corpus de travail Ph1, préliminaire aux traitements formels des
observables expressifs. Rappelons (cf. chapitre 3) ici l’enchaînement schématique :
Figure 4.6 : Principales étapes dans la phase d’acquisition du corpus expressif
Pour transcrire les réalisations expressives composant nos corpus oraux, nous
avons utilisé une plateforme (libre de droits quand à son utilisation) dédiée à cette
tâche, qui est le « Transcriber » [TRA’08]. Nous illustrons dans la figure suivante un
exemple de transcription semi-automatique pour un horoscope de notre premier
corpus d’étude :
75
Figure 4.7 : Exemple de transcription d’un extrait d’horoscope (©Transcriber)
L’étape suivante consiste en la transcription phonétique proprement dite. Celle-ci
fait correspondre à des phonèmes de la langue des symboles uniques empruntés à
l’alphabet phonémique19 choisi à la représentation. Nettement distinguée de l’écriture
textuelle qui, au contraire, existe en tant que système relativement autonome, « cette
représentation tend à conserver sous forme graphique ce qui a été dit, sans rien en
rajouter ou supprimer » [DUB’01]. La transcription phonétique pour le même extrait
d’exemple, se présente sous la forme :
#_|_B_EI_L_Y_EI_#
#_|_V_I_|_P_R_AU_F_EI_S_Y_AU_N_AI_L_E_#
#_|_V_OU_|_R_EU_S_EU_V_EI_|_D_EI_K_S_EI_L_AN_T_|_N_OU_V_AI_L_|_K_ON_S_AI_R_N_AN_V_O_T
_R_E_|_K_A_R_Y_AI_R_E_#_|_EI_D_EU_|_N_OU_V_AI_L_|_P_O_R_T_E_|_S_OU_V_R_E_|_D_EU_V_AN_|
_V_OU_#_|_V_AU_T_R_E_|_S_I_T_U_A_S_Y_ON_|_A_K_T_U_AI_L_|_S_EU_|_S_T_A_B_I_L_I_Z_#_|_V_O
U_|_P_OU_V_EI_A_V_W_A_|_L_IN_P_R_EI_S_Y_ON_|_D_AI_T_R_E_|_D_AN_Z_U_N_|_IN_P_A_S_|_M_A
I_AN_|_R_EI_A_L_I_T_EI_|_V_OU_|_F_AI_D_|_D_EU_|_G_R_AN_|_P_R_AU_G_R_AI_#
#_|_V_I_|_P_R_I_V_EI_#
#_|_ON_|_N_EI_G_Z_I_J_B_AU_K_OU_|_D_EU_|_V_OU_#_|_M_AI_|_V_OU_|_P_OU_V_EI_T_R_OU_V_EI
_|_U_N_|_S_AU_L_U_S_Y_ON_|_P_OU_R_|_S_U_R_M_ON_T_EI_|_S_EI_|_Z_EI_P_R_OE_V_#_|_N_EU_|_J
Dans ce travail, nous utilisons un alphabet phonémique interne à France Télécom, détaillé en [DFT’00]. Note :
Le symbole # est utilisé ici pour marquer les pauses (remplies ou silencieuses), et le symbole |, pour marquer les
frontières des deux mots consécutifs (puisque les outils existants permettent ce découpage).
19
76
_U_J_EI_P_A_|_D_A_P_R_AI_|_L_EI_|_Z_A_P_A_R_AN_S_#_|_A_T_AN_D_EI_|_D_EU_|_K_AU_N_AI_T_R
_E_|_T_OU_L_EI_|_F_AI_|_A_V_AN_|_D_EI_M_AI_T_R_|_U_N_|_AU_P_I_N_Y_ON_#
#_|_V_I_|_K_AU_T_I_D_Y_AI_N_#
#_|_V_OU_|_P_R_EU_N_EI_|_L_EI_|_CH_AU_Z_|_T_R_AU_|_P_AU_|_S_AI_R_Y_EU_#_|_P_A_S_EI_|_D_
U_|_T_AN_|_A_V_AI_K_V_AU_|_P_R_O_CH_#_|_S_O_R_T_EI_|_EI_|_A_M_U_Z_EI_V_OU_#_|_V_OU_|_
Z_AU_R_EI_|_D_U_|_M_A_L_|_A_|_V_OU_|_Z_AN_F_AI_R_M_EI_|_D_AN_Z_U_N_E_|_R_OU_T_I_N_|_
P_R_EI_EI_T_A_B_L_I_#_|_AI_K_S_P_R_I_M_EI_|_V_O_T_R_E_|_D_EI_Z_I_R_|_D_IN_D_EI_P_AN_D_AN_
S_#
(2)
L’étape subséquente à la transcription phonétique consiste en l’alignement des
données acoustiques et textuelles. Dans notre travail, cet alignement est réalisé d’une
manière semi-automatique : d’abord, i) nous avons employé des outils existants pour
la génération automatique des chaînes phonémiques partant du matériau textuel
donné ; et ensuite, ii) nous avons fait vérifier et corriger manuellement par trois
personnes expérimentées20, la correspondance entre ces chaines et celles qui ont été
effectivement réalisées dans la parole. Il est à important de mentionner ici que la
phase de vérification et correction manuelle s’avère extrêmement lourde, dans le sens
où elle demande beaucoup de ressources de temps pour son accomplissement. À
titre illustratif, nous avons estimé pour la lecture « typique » d’un texte d’horoscope
d’environ 40 sec de parole, une quantité de travail pour la vérification manuelle
phonétique et segmentale d’ordre de 40 min. Notons que certaines lectures parodiées
(comme celles en mode « bégayé », « sportif », ou en « na-na », etc.) en demandent
davantage pour leur vérification.
Après la réalisation de cet alignement, la phonétisation et la segmentation sont
considérées achevées. Ainsi, à la fin de la phase d’acquisition du corpus (Ph1), nous
sommes en possession d’une base acoustique des données expressives proprement
segmentées, apprêtée pour l’étiquetage et les traitements formels.
L’étiquetage des caractéristiques expressives extratextuelles se fait comme illustré
dans l’annexe A3, et les traitements formels qui font l’objet des principales grandes
étapes de la phase méthodologique Ph2, comme détaillés dans les chapitres 5, 6 et 8.
20
Leurs compétences linguistique et phonétique étant exigées pour la réalisation de cette tâche.
77
CHAPITRE 5
CADRE FORMEL DE DESCRIPTION DES FORMES DISCURSIVES EXPRESSIVES
Ce chapitre est consacré à la formalisation des faits discursifs expressifs par la spécification
des composantes formelles décrites schématiquement dans le chapitre 2. Précisément,
nous présentons ici, pour une matière discursive (et textuelle) donnée : i) le codage des
caractéristiques textuelles intrinsèques permettant de définir les quatre paliers d’analyse
pour les formes expressives et le balisage textuel ancré sur ces derniers ; ii) la
description phonologique des variables prosodiques associés à chaque palier d’analyse
qui relèvent des structures mélodiques et temporelles et composent l’espace formel
des observables expressifs ; iii) la représentation formelle des trois caractéristiques
extratextuelles étiquetées au préalable, traduites par de signatures expressives définies
sur le jeu d’un ensemble de contraintes agissant sur les variables définies auparavant ;
et iv) basée sur ce jeu de contraintes, la rationalisation des rythmes expressifs définissant
quelques critères de discernabilité expressive d’un discours oralisé.
Résumé
Sommaire du chapitre
5.1
5.2
5.3
5.4
Délimiteurs pour les niveaux d’analyse. Balisage textuel. ……………….……..…….. 79
Descriptions prosodiques formelles. Variables prosodiques. …………….………..….. 82
Formalisation prosodique des caractéristiques extratextuelles ………………………... 87
5.3.1
Isotopies prosodiques génériques, situationnelles, idiolectales ………..…….. 87
5.3.2
Contraintes expressives, signatures expressives ………….…………………… 88
5.3.3
Affectations des contraintes expressives ………..………….…………………... 91
Enveloppes rythmiques expressives. Discernabilité prosodique. …………..…….… 94
78
Ce chapitre est entièrement consacré aux descriptions formelles nécessaires pour les
étapes de la sous-phase s1-Ph2 (cf. chapitre 6) de représentation formelle des faits
expressifs discursifs, comme mentionnées dans la méthodologie de travail décrite
dans la section 3.2. Ainsi, toutes les entreprises de nature descriptive qui seront
détaillées dans les sections suivantes, et qui pourraient sembler souvent ingrates,
doivent être vues par le prisme de cette démarche méthodologique.
5.1
Délimiteurs pour les niveaux d’analyse. Balisage textuel.
Les éléments de délimitation des paliers d’analyse textuelle choisis pour cette étude,
que nous appelons ici marqueurs logiques de balisage textuel s’appliquent, dans l’ordre
descendant, à chacune des quatre unités textuelles mentionnées auparavant :
fde 2
fde 3
fde 1
...
fde n
txt
gph
syn
syl
txt gph syn syl
structure mélodique
(F)
syl syn gph txt
structure temporelle
(T)
Unité d’analyse
Marqueurs logiques de balisage
texte
<txt> … </txt>
groupe phrastique
<gph> … </gph>
syntagme
<syn> … </syn>
syllabe
<syl> … </syl>
structure énergétique
(I)
txt
gph
syn
syl
morphologie
lexique
...
syntaxe
sémantique
phonétique
situation discursive
(ds)
typographie
ponctuation
figures de discours
matière textuelle
profil du locuteur
(rp)
Tableau 5.1 : Marqueurs logiques pour le balisage textuel
genre textuel
(tg)
Le balisage logique de ces niveaux d’analyse fait appel (cf. section 2.3) à un
ensemble d’éléments résultants des diverses analyses textuelles qui relèvent soit de
l’analyse du discours (nous pensons ici particulièrement aux regroupements en gph),
soit des analyses morphosyntaxiques ou rythmiques (pour les groupements en syn),
soit des analyses lexicales ayant comme but la décomposition syllabique (pour les
syl). Pendant que le découpage syllabique s’avère être le plus robuste parmi tous ces
traitements, la délimitation textuelle en unités compositionnelles d’ordre supérieur
(syn ou gph) est loin d’être indépendante du genre textuel tg et/ou de la situation
discursive ds. Nous détaillons et illustrons ces aspects de balisage sur quelques
exemples issus du corpus d’étude dédié aux horoscopes.
Le balisage en unités d’analyse des textes constituant le corpus d’horoscopes
trouve son support sur la structure textuelle récupérée par le module de balisage
descriptif de ces textes (cf. section 4.1.1). Nous reprenons ici le schéma de la figure 4.1,
en l’enrichissant avec un module de balisage en unités d’analyse :
79
A
fichier .html
récuperation
des données
en ligne
B
fichier .txt
balisage
descriptif des
données
fichier .xml
horoscope.dtd
C
sdd.dtd
balisage
d'analyse des
données
fichier_tag .xml
Figure 5.1 : Modules de récupération des données, de balisage descriptif et d’analyse
Cette nouvelle fonctionnalité est assurée par le module C. Son objectif est de
générer, à partir du fichier .xml présenté en sortie du module B de balisage descriptif,
un nouveau fichier, sous format .xml (soit ici le « fichier_tag.xml »), considérant la
structure définie en « sdd.dtd » qui contient les unités d’analyse choisies :
<!ELEMENT txt (ghp, gph?)>
<!ELEMENT txt (#PCDATA)>
<!ELEMENT gph (#PCDATA)>
<!ELEMENT gph (syn, syn?)>
<!ELEMENT syn (#PCDATA)>
<!ELEMENT syn (syl, syl?)>
<!ELEMENT syl (#PCDATA)>
La correspondance entre les balises de deux DTDs « sdd.dtd » et « horoscope.dtd »
se fait pour ce type d’horoscope d’une manière immédiate1 pour le niveau txt et celui
des gph. Les délimitations en syl sont assurées robustement par la valeur rajoutée de
notre environnement de développement (comme détaillé en annexe A5, cf. [DFT’80]),
indépendamment des autres balisages. En revanche, le balisage syn soulève plusieurs
problèmes et rend la dite correspondance bien plus difficile. C’est pour cela que nous
avons choisi de consacrer à sa description détaillée l’annexe A4 en entier.
1 Ce découpage tient compte des aspects de cohérence discursive, relevant de la macro-sémantique et de l’analyse
du discours : la spécification du titre de l’horoscope (gph de type « signe »), des titres (gph de type « titre section »)
et des corps des sections (gph « corps sections »). À chaque passage à une entité discursive-logique différente, une
frontière de groupe phrastique <gph> est introduite. Pour une lecture « typique », cette frontière est plus ou
moins marquée, en fonction de la nature des entités discursives composant les gph voisins. Elles sont mises en
évidence le plus souvent par l’intermédiaire des pauses nommées plus loin « pauses inter-gph ». Porteuses de sens
discursif, ces frontières aident à la hiérarchisation et la structuration de l’ensemble du discours, et deviennent
ainsi des éléments essentiels pour l’instauration et la perception des rythmes prosodiques globaux (cf. chapitre 1).
80
Comme illustré dans la figure 5.2, le module C de balisage en unités d’analyse se
décompose en trois sous-modules : le premier (ici, C1) traite les balises <txt> et <gph>,
le deuxième (C2) traite les balises <syn> et le troisième (C3) traite les balises <syl> :
fichier .xml
C1
balisage
txt et gph
fichier_tag_gph .xml
C2
balisage
syn
sdd.dtd
fichier_tag_syn .xml
C3
balisage
syl
fichier_tag .xml
Figure 5.2 : Sous-modules du module de balisage d’analyse, cf. « sdd.dtd »
Les sous-modules séquentiels C2 et C3 sont détaillés dans les annexes A4 et
respectivement A5. Nous illustrons ici uniquement la sortie du sous-module de
balisage C1. À partir des informations textuelles et des informations disposées suite
au balisage descriptif, C1 génère le fichier avec les marqueurs logiques <txt> et <gph>
adéquats. Pour l’horoscope-exemple (cf. section 4.1), ceci se présente comme suit :
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE horoscope SYSTEM "sdd.dtd">
<txt type="horoscope weekly">
<gph type="signe"> Bélier </gph>
<gph type="titre section"> Vie professionnelle : </gph>
<gph type="corps section"> Vous recevez d'excellentes nouvelles concernant votre carrière,
et de nouvelles portes s'ouvrent devant vous. Votre situation actuelle se stabilise. Vous
pouvez avoir l'impression d'être dans une impasse, mais en réalité vous faites de grands
progrès. </gph>
<gph type="titre section"> Vie privée : </gph>
<gph type="corps section"> … </gph>
<gph type="titre section"> Vie quotidienne : </gph>
<gph type="corps section"> ... </gph>
</txt>
81
Il convient de signaler quelques points concernant l’apport de ces modules de
balisage pour la modélisation de l’expressivité. Définies en fonction des contraintes
syntaxiques, rythmiques, voire sémantiques, mais aussi en fonction de la situation de
lecture, du débit verbal ou, plus généralement, des préférences d’expression propres
à chaque locuteur, ces formes variées de découpage et donc de regroupement textuel
(notamment en syntagmes et en groupes phrastiques) sont essentielles pour l’étude
de l’expressivité (citons ici [MER’03] pour la cohérence discursive). Offrant au modèle
d’expressivité une marge de « flexibilité », elles révèlent soit la fluidité de la parole
(recherchée, par exemple, pour les lectures « typiques »), soit au contraire, l’entrecoupure de la parole réalisée, par exemple, par des scénarios de rupture syntagmique
délibérée (c’est le cas des lectures « lente », « indécise », « commentaire sportif », etc.).
Nous avons illustré dans l’annexe A4 quelques variantes de découpage en syntagmes
rythmiques du texte-exemple, pour trois situations de lecture simulées (« rapide »,
« lente » et « commentaire sportif »), en plus de celle « typique ».
Le marquage logique par balises décrit dans cette section contribue à la définition
des diverses unités d’analyse qui serviront des domaines d’association pour les
descriptions prosodiques formelles des observables expressifs. Et de ce fait, à la
variabilité expressive d’un discours oralisé.
Grâce à ces marquages logiques, nous disposons à présent d’une matière textuelle
segmentée en un ensemble d’unités linguistiques, allant du texte aux syllabes (donc
des informations nécessaires pour la définition du vecteur <U>, cf. cadre-modèle
exposé en 2.6), que nous pouvons analyser par la suite, dans le but d’extraire leurs
caractéristiques formelles prosodiques (vecteur <P>) qui entrent dans la définition
des formes expressives discursives. Les principales étapes de traitement de l’écrit
sont ainsi closes, laissant la place aux traitements sur la matière orale.
5.2
Descriptions prosodiques formelles. Variables prosodiques.
fde 2
fde 3
fde 1
...
fde n
txt
gph
syn
syl
txt gph syn syl
structure mélodique
(F)
syl syn gph txt
structure temporelle
(T)
structure énergétique
(I)
txt
gph
syn
syl
morphologie
lexique
...
syntaxe
sémantique
phonétique
situation discursive
(ds)
typographie
ponctuation
figures de discours
matière textuelle
profil du locuteur
(rp)
genre textuel
(tg)
Pour pouvoir représenter les formes expressives discursives
sur chacun des quatre paliers de textualité balisés, nous nous
servons d’une description phonologique des observables
prosodiques associées à ces formes. La littérature de spécialité
dispose d’une gamme variée de systèmes de représentation
(nommés aussi d’annotation ou transcription) phonologique,
tels le ToBI [BEC’05], INTSINT [HIR’00], IViE [GRA’01], celui proposé
par [MER’87], pour en citer quelques uns. Pour leur présentation ou leur comparaison, nous conseillons [VAI’02] ou [DEL’06].
Le choix de la description de nos observables expressifs n’est
donc à priori pas facile, mais il sera vite éclairé par notre
démarche de modélisation (cf. cadre défini dans la section 2.6).
82
Nous avons opté ici pour la représentation INTSINT décrite en [HIR’00], que nous
avons adaptée en fonction de nos besoins de description formelle. Utilisé initialement
dans les travaux d’analyse phonologique menés par les équipes de recherche d’Aixen-Provence, France, INTSINT se veut un Système International de Transcription de
l’Intonation qui se base sur les contrastes des valeurs de pitch (i.e. de fréquence
fondamentale) dans la description des patterns intonatifs.
Voulant offrir un moyen de discrétiser le continu intonatif, le système propose une
solution formelle pour la description de l’intonation. Plusieurs niveaux (ou tons)
intonatifs, ainsi que les transitions qui s’installent entre ceux-ci, sont ici définis. Nous
détaillons les premiers tels quels dans l’annexe A6 (dédiée à la description de cet
alphabet phonologique), et nous discutons les seconds dans l’annexe A7 (dédiée à la
spécification des règles de consistance formelle imposées lors de ces transitions).
Les montées et les descentes intonatives visent à définir les contours mélodiques qui,
dans la plupart des travaux basés sur la notation INTSINT, se limitent souvent à un
groupement de mots (syntagme) ou à une phrase. Malgré le fait que cette dernière
reste l’étendue classique des grammairiens et la privilégiée de la majorité des
phonologues, elle ne convient pas à nos études sur l’expressif discursif qui s’y
étalent au-delà. En conséquence, dans la solution phonologique choisie, nous avons
besoin de considérer un ensemble d’aspects globaux de représentation. De sorte que
pour rendre possible une représentation pour des niveaux de différente granularité
(telle que décrits en chapitre 2, section 2.4) de variations prosodiques, nous avons dû
introduire ici une extension à la transcription d’INTSINT classique. Elle est exposée dans
la deuxième partie de l’annexe A6.
Bien que basée sur la transcription formelle définie en INTSINT pour les variations
intonatives, notre solution de description phonologique ne concerne pas strictement
les représentations mélodiques, mais également celles temporelles et énergétiques.
Autrement dit, nous avons opté pour cette solution phonologique pour proposer (cf.
[SUC’06b]) un formalisme unique (cf. figure 3.6, section 3.2) pour décrire les paramètres
prosodiques des trois dimensions (<F>, <T> et <I>) du vecteur prosodique <P>.
Deux considérations sont à signaler ici. La première concerne la nature de la
description prosodique choisie, qui ne vise pas une représentation phonétique des
motifs prosodiques strictement liée aux paramètres physiques (ou acoustiques) du
signal, mais essaie d’attacher les variations expressives à des paliers de textualité
bien définis (démarche propre aux approches phonologiques). La seconde remarque
concerne la linéarité de la solution phonologique adoptée pour la représentation des
formes expressives, qui risque de simplifier volontairement 2 certains aspects très
locaux, pour favoriser l’étude des mouvements expressifs de la parole d’ordre global.
2
Par exemple, en approximant plus grossièrement les caractéristiques numériques de certains paramètres.
83
Comme mentionné en 3.2.1, les formes discursives expressives fde sont traduites
formellement par leur observables prosodiques. Associés à un des 4 paliers textuels
choisis, ces observables sont décrits d’abord par des données acoustiques et ensuite
par des représentations phonologiques conformes à la solution proposée plus haut.
Majoritairement, ces dernières se libellent par un ensemble des mOts prosodiques,
qui ne sont rien d’autre que des expressions formelles obtenues à partir de l’alphabet
formel décrit dans l’annexe A6. Si de point de vue constitutif, il est un couple d’une
chaîne symbolique bien formée et de la liste de ses amplitudes (cf. annexe A7), du
point de vue de la représentation phonologique, le mOt est une entité formelle de
description d’un mouvement prosodique associé à une unité d’analyse donnée.
Autrement dit, par l’intermédiaire de ces mOts prosodiques, nous pouvons observer
les faits expressifs discursifs projetés sur chacune des trois dimensions prosodiques
et sur chacun des quatre paliers d’analyse :
dimension prosodique
palier d’analyse
mélodique
temporelle
énergétique
syl
mOt_mel3
-
mOt_int
syn
mOt_mel
-
mOt_int
gph
mOt_mel
mOt_tempo
mOt_int
txt
mOt_mel
mOt_tempo
mOt_int
Tableau 5.2 : mOts prosodiques rapportés aux paliers d’analyse et aux dimensions prosodiques
Remarquons que généralement, l’expression des mOts associés aux unités macrotextuelles est plus élaborée que celle des mOts associés aux unités micro- et mésotextuelles. Puis, nous observons que les mOts sont présents pour chaque unité et à
chaque dimension prosodique, exception faite des caractéristiques temporelles pour
les syl et les syn. Pour ces dernières, les observables prosodiques (cf. ci-dessous, la
durée syllabique et le tempo syntagmique) ne sont pas traductibles en mOts formels.
Quelques questions se posent donc ici : 1) Quels sont, précisément, ces observables
prosodiques des formes discursives expressives ? 2) Lesquels parmi ces observables,
sont représentables à l’aide des moyens phonologiques (i.e. mOts prosodiques)
mentionnés auparavant ? 3) Quels sont les observables qui ne peuvent pas être
traduits en termes de représentations phonologiques formelles et, en conséquence,
comment peut-on les figurer autrement ? Nous essayons d’y répondre par la suite, en
précisant que le chapitre 6 éclaircira par quelques exemples, chacun des paramètres
qui traduisent ces observables prosodiques.
Ici, mOt_mel est la notation d’un mOt mélodique, mOt_int, celle d’un mOt d’énergie, et mOt_tempo, la notation
d’un mot formel décrivant le mouvement de tempo.
3
84
Nous convenons ici que les observables représentables phonologiquement sont les
mOts marqués dans le tableau 5.2, et ceux qui sont uniquement transcriptibles par
des paramètres acoustiques sont les suivants : les marqueurs de fluence (traduits par
les durées des pauses), les durées syllabiques, les tempos syntagmiques, les indices
de déclinaison mélodique des syntagmes et des groupes phrastiques ainsi que les
tessitures mélodiques des groupes phrastiques et des textes.
Si nous rassemblons tous ces éléments, nous obtiendrons un ensemble hétéroclite
qui trace plus clairement notre espace des observables prosodiques. Nous nommons
dans la suite les divers éléments qui composent cet ensemble, des variables prosodiques
expressives. Chacune de ces variables prosodiques correspond donc à un paramètre
qui affecte une des 3 dimensions prosodiques et un des 4 paliers de textualité tel que :
Dimension prosodique <P>
Niveau
analyse
(L)
mélodique (F)
temporelle (T)
énergétique (I)
syl
mot formel mélodique (V1)
durée (ms) (V9)
mot formel int
syn
mot formel mélodique (V2)
indice déclinaison syn (V3)
tempo (syl/s) (V10)
(mot formel durées syl)
indice pauses faibles (V11)
mot formel int
…
gph
mot formel mélodique (V4)
mot formel déclinaison syn (V5)
tessiture mélodique (V6)
mot formel tempo (V12)
indice pauses fortes (V13)
mot formel int
…
txt
mot formel mélodique (V7)
tessiture mélodique (V8)
mot formel tempo (V14)
tessiture temporelle (V15)
indice pauses fortes (V16)
durée texte (V17)
mot formel int
tessiture énergétique
…
Tableau 5.3 : Variables prosodiques par structure prosodique et par palier d’analyse
Une telle variable expressive prend ses valeurs dans un ensemble (numérique ou
formel, selon le cas) donné, appelé domaine prosodique expressif. Comme nous allons le
voir dans le chapitre 6, ces domaines se traduisent soit par : i) des valeurs (les indices
de déclinaison V3) ou des intervalles numériques (les durées syllabiques V9 ou
textuelles V17, les tempos syntagmatiques V10, ou les indices de pauses faibles V11
ou fortes V13, V16) ; ii) des dictionnaires des mOts formels bien formés (les mOts de
tempo V14, mélodiques de syn V1, de syn V2 ou de gph V4) ; ou iii) par les deux (la
tessiture V6 et le mOt de déclinaison V5).
Nous convenons ici que la variabilité expressive rencontrée dans un discours oralisé doit
pouvoir s’observer et se décrire, puis se manier à l’aide de ces variables prosodiques. Leur
liste n’est assurément pas close, mais dans ce travail nous nous contentons de traiter
seulement les variables citées dans le tableau 5.3. Nous insistons sur cette convention,
car elle est essentielle pour la compréhension de la suite de notre démarche.
85
Si nous reprenons la figure 2.7, nous pouvons schématiser la distribution des
variables prosodiques expressives mentionnées comme suit :
V4
V8
° V2
° V5
°
V3
V7 °
°
V6
°
°
V1
°
structure mélodique
(F)
V15
V16
V14
°
V12 V13°
°
°
V11 V10°
° V9 °
°
structure temporelle
(T)
...
structure énergétique
(I)
Figure 5.3 : Distribution des observables expressifs sur les structures prosodiques (F et T)
En conséquence, en projetant les formes expressives discursives sur les structures
prosodiques télescopiques, nous obtiendrons un ensemble de portées formelles des
variables prosodiques au niveau du texte (L= <txt>), des groupes phrastiques (L= <gph>),
des syntagmes (L= <syn>) et des syllabes (L= <txt>). Ces portées formelles véhiculent
donc les observables prosodiques correspondants au palier d’analyse et à la structure
prosodique concernés, qui sont représentés par les vecteurs hybrides des variables
prosodiques. Cependant, avant que les paramètres de ces vecteurs soient instanciés
par des valeurs physiques ou des représentations phonologiques formelles, ces
portées sont, pour une matière textuelle découpée au préalable en niveaux d’analyse,
des portées prosodiques abstraites (nommées aussi, des squelettes). Nous retraçons pour
notre texte-exemple, deux exemples de ces portées. Nous avons ainsi :
i) la portée temporelle abstraite pour le syntagme « vous recevez d’excellentes nouvelles
concernant votre carrière » qui se présente sous la forme :
<syl>VOU <syl> R EU <syl> S EU <syl> V EI <syl>…<syl> K A <syl> R Y AI R E <syl>
V10
V11
x ..……………………………………………….........……………………………………….
x ……………………………………………….........…………………………………………
ii) la portée prosodique hybride abstraite pour chacune des syllabes de ce syntagme :
<syl>VOU <syl> R EU <syl> S EU <syl> V EI <syl>…<syl> K A <syl> R Y AI R E <syl>
V1
V9
x ………… x ………… x ………… x ……………….. x …................. x
x ………… x ………… x ………… x ……………….. x …................. x
86
D’une manière similaire, nous pouvons tracer les portées mélodiques pour les
syllabes, des portées hybrides pour les groupes phrastiques, des portées temporelles
pour le texte, etc. Il est donc possible d’envisager une différenciation des portées
(abstraites d’abord, puis instanciées) selon la dimension prosodique <P> ou le niveau
d’analyse textuelle (L) qu’elles mettent en jeu.
C’est précisément ce multiple départage des observables expressifs en portées des
variables prosodiques qui soutiendra dans la suite les comparaisons de diverses
formes expressives discursives selon leurs dimensions textuelles ou extratextuelles
(cf. chapitre 8). Ceci présuppose l’instanciation au préalable de ces portées abstraites.
Autrement dit, l’obtention des données concrètes pour les diverses variables
prosodiques, qui se fait dans les étapes de traitements de paramètres prosodiques,
présentées dans le chapitre 6.
5.3
Formalisation prosodique des caractéristiques extratextuelles
Nous avons débattu dans le chapitre introductif de ce manuscrit sur l’importance
des isotopies et des rythmes expressifs tant dans la production que dans la réception
et donc l’interprétation des productions verbales orales. Nous abordons à présent
ces deux notions en proposant des moyens de rationalisation de celles-ci.
5.3.1 Isotopies prosodiques génériques, situationnelles, idiolectales
Rappelons d’abord qu’une isotopie expressive traduit « la permanence des certaines
caractéristiques expressives contextuelles qui, dans leur variance, ne détruisent pas
l’unité du texte ou du discours, mais la confirment » (cf. [RAS’81], cité en 1.2.2). Au
risque d’être redondantes, espérées ou attendues, ces caractéristiques sont répétées
au sein d’un discours, y assurant sa cohérence expressive et ses interprétations. Or,
nous avons convenu (cf. section 3.2.1) sur le fait que ces caractéristiques expressives
sont rendues observables (et donc ultérieurement manipulables) par l’intermédiaire
des variables prosodiques. Nous définissons donc ici l’isotopie prosodique (IP) comme
la constance, observée en termes prosodiques, d’aller dans une seule direction qu’un
discours manifeste quand il est soumis à des règles de cohérence expressive.
Du point de vue opérationnel, le résultat d’une analyse d’isotopie quelconque se
concrétise par « une liste de termes ayant certaines caractéristiques contextuelles en
commun » [RAS’81]. Transposant à notre cas, nous convenons ici que le résultat d’une
analyse d’IP se matérialise par une liste des récurrences prosodiques locales ou globales,
qui portent sur des caractéristiques expressives homogènes. Autrement dit, par un
87
ensemble4 d’éléments sémiques (i.e. porteurs de sens, selon [RAS’99]) de nature prosodique,
redondants5 et discernables du point de vue expressif. Les isotopies prosodiques circonscrivent ainsi l’univers expressif en définissant des formes particulières d’expressivité,
récurrentes, propres aux genres textuels, aux situations d’élocution, aux profils des
locuteurs, etc. Nous allons parler en conséquence d’isotopies prosodiques génériques,
situationnelles ou idiolectales, définies chacune, comme exposé dans la section suivante,
à l’aide d’un ensemble de contraintes expressives.
5.3.2. Contraintes expressives, signatures expressives
Nous définissons ici une contrainte expressive comme une restriction dans les degrés de
liberté expressive de la parole, telle que dictée par des normes linguistiques, culturelles
et/ou sociales. Les contraintes expressives s’agissent sur la parole dans la production
et la réception de ses formes expressives, reconnaissables et reproductibles.
Une contrainte expressive s’opérationnalise par une relation entre les différents
paramètres véhiculés par les variables prosodiques V. Rappelons que chacune de ces
variables prosodiques expressives prend ses valeurs dans son domaine prosodique D.
Remarquons quelques caractéristiques (cf. [ROY’98]) des contraintes expressives :
a) une contrainte est relationnelle (et non pas dirigée, comme une fonction qui
définit la valeur d’une variable en fonction des valeurs des autres variables) ;
b) une contrainte est déclarative (elle spécifie quelle relation on doit trouver entre
les variables, sans donner de procédure opérationnelle pour effectivement
assurer ou vérifier cette relation) ;
c) l’ordre dans lequel sont posées les contraintes n’est généralement pas significatif,
puisqu’en principe, toutes doivent être satisfaites. Cependant, dans notre cas,
celui-ci peut avoir une influence sur l’efficacité de la résolution des contraintes
et par conséquent dans le choix des paramètres prosodiques, surtout dans en
ce qui concerne la sélection d’unités.
Restreignant ou régularisant l’espace d’exploration expressive d’un discours oral
donné, cette contrainte devient un élément clé de ce que nous appellerons par la suite
signature expressive de chacune des dimensions extratextuelles tg, ds et rp. Unique ou
pas, la signature expressive de genre textuel, de situation d’élocution ou d’idiolecte
relève des différents niveaux, tant prosodiques que phonémiques. Pour illustrer ces
derniers, prenons l’exemple des phonèmes déformés pour un locuteur (rp) ayant un
accent étranger (canadien, africain, anglais), nasalisés pour un (rp) aristocrate ou une
élocution (ds) enrhumée, ou bien doublés pour un rp balbutié, etc. Notons que même
si indispensables dans une étude générale sur l’expressivité, ces traits phonémiques
À priori, non ordonné.
Rappelons ici (cf. discussion sur l’état de l’art, dans le chapitre 1) que selon [JAK’63], les traits redondants aident
à l’identification d’autres traits, distinctifs, configuratifs ou expressifs.
4
5
88
récurrents ne sont pas traités dans cette étude et font l’objet des perspectives de notre
travail (cf. section 10.4.2).
Ensemble, les signatures prosodiques génériques, situationnelles et idiolectales
forment la signature expressive des caractéristiques extratextuelles pour un discours
oralisé, que nous appellerons ici signature expressive extrinsèque. Comme discuté plus
bas, cela ne se résume pas à la simple addition des signatures individuelles, mais est
sujette à une stratégie complexe de choix expressif.
Formellement, nous définissons une signature expressive (SE) par le triplet (V, D, C) :
-
V = {V1, V2, …, Vn} est l’ensemble des variables prosodiques, associées aux
dimensions prosodiques F, T, I sur les quatre niveaux d’analyse (ici, n = 16)
D est la fonction qui associe à chaque variable Vi (i = 1…n), son domaine
D(Vi), noté Di, i.e. l’ensemble des valeurs que peut prendre Vi.
C = {C1, C2, …, Cm} est l’ensemble des contraintes expressives restreignant
les valeurs que peuvent prendre simultanément les variables prosodiques.
Nous pouvons illustrer ici l’impacte de quelques contraintes Ci sur les variables Vj :
Figure 5.4 : Contraintes expressives sur les variables prosodiques (F et T)
La définition des SE nous servira dans la suite de notre travail pour l’extraction de
règles de récurrence prosodique au sein des formes expressivement homogènes (cf.
chapitre 8, section 8.1) et des règles de discernabilité prosodique au sein des formes
expressivement hétérogènes (cf. section 8.2 et annexe A9). Puisque lors des analyses
comparatives de ces dernières, nous utilisons des scénarios de comparaison formelle
des signatures expressives génériques, situationnelles ou idiolectales, selon le cas.
Nous pouvons avoir donc des comparaisons des signatures des formes issues les
lectures d’un même texte d’horoscope en mode « typique » et une élocution simulée
(par exemple en mode « lent », « rapide », « interrogatif », etc.), qui mettant en jeu
une variabilité prosodique selon la dimension ds. Nous pouvons également avoir une
comparaison de signatures des formes issues des lectures d’un même horoscope
« typique », réalisées par nos deux locuteurs, traduisant une variabilité expressive
89
sur la dimension rp. Enfin, nous pouvons imaginer des comparaisons des signatures
expressives de formes issues les lectures de textes des tg différents (horoscope et
conte, par exemple), simulées par un même locuteur dans un même type d’élocution.
Compte tenu des considérations précédentes, nous pouvons définir formellement
chacune des dimensions du vecteur extrinsèque S = < tg, ds, rp > (cf. chapitre 2,
section 2.1) par sa signature expressive correspondante. Autrement dit, il s’agit de
substituer ici à ces dimensions, leur « impacte » prosodique sur une forme fde, tel
qu’exprimé en termes des contraintes expressives Ci sur les variables prosodiques Vj.
Ainsi, tg, ds et rp sont définis chacun comme un parcours (ici, non ordonné) parmi
l’ensemble des contraintes expressives, i.e. par un sous-ensemble de ces dernières :
tg =df PATHtg = Σ Ci tg
ds =df PATHds = Σ Cj ds
rp =df PATHrp = Σ Ck rp
Bien évidemment, nous pouvons illustrer ici par un l’exemple fictif :
tgi =df PATHtg = { C1, C5, C6, C8, C9 }
dsj =df PATHds = { C2, C3, C6, C7}
rpk =df PATHrp = {C2, C3, C4, C6, C7}
Que nous pouvons représenter schématiquement par la figure suivante :
Figure 5.5 : Description des caractéristiques extrinsèques à l’aide des contraintes expressives
Pour résumer, les signatures expressives génériques, situationnelles et idiolectales
(de tg, ds et rp) qui s’installent dans le discours oralisé d’une manière plus ou moins
marquée, sont observables et puis rendues manipulables par le jeu des diverses
contraintes expressives sur les variables prosodiques.
90
5.3.3. Affectation des contraintes expressives
Dans une démarche formelle comme la nôtre (cf. définitions faites précédemment),
choisir un jeu des caractéristiques extrinsèques < tg, ds, rp > revient donc à formuler
un problème de satisfaction des contraintes expressives. Ce type de problème est connu
dans la littérature (citons [ROY’98]) sous le nom de CSP (Constraint Solving Problem).
La solution de ce problème de satisfaction des contraintes expressives consiste
dans l’affectation des valeurs Vali aux variables Vi. Ces valeurs, numériques (si elles
affectent les variables acoustiques), ou formelles (si elles concernent les variables à
représentation phonologique), doivent s’inscrire dans leur domaine de variation Di,
en fonction des contraintes déterminées par l’ensemble C :
A =df {(V1, Val1), (V2, Val2), …, (Vn, Valn)}
Suivant le cas, cette affectation peut instancier l’ensemble intégral des variables
prosodiques définies auparavant, ou bien seulement une partie de celui-ci. Dans le
premier scénario, l’affectation est dite totale, et dans le second, partielle. Notons que
dans notre problématique, l’affectation des valeurs prosodiques ne peut être qu’une
affectation partielle (cf. plus bas).
Une affectation A viole une contrainte Ck si toutes les variables prosodiques de Ck
sont instanciées dans A et si leur valeur ne vérifie pas la relation Ck. De sorte qu’une
affectation partielle A’ peut, par exemple, violer certaines contraintes sans en violer
d’autres, dans la mesure où les variables maniées par ces dernières ne sont pas
instanciées en A’.
Enfin, une affectation (totale ou partielle) est dite consistante si elle ne viole aucune
contrainte et inconsistante si elle viole au moins une.
Une solution expressive est une affectation totale et consistante, i.e. une évaluation
de toutes les variables prosodiques qui ne viole aucune contrainte expressive.
Précisons que nous ne pouvons pas prétendre à une solution (unique ou non) au
problème CSP d’expressivité discursive uniquement en considérant les dimensions
textuellement extrinsèques tg, ds, et rp, puisque toute affectation expressive des
variables prosodiques reste, en fin de compte, une affectation partielle. Cependant,
fixer l’ensemble des contraintes extrinsèques, nous permet de restreindre l’espace
expressif de recherche. Or, bien qu’aucune solution totale ne soit envisageable, il
nous est possible de garantir l’existence d’un espace de solutions partielles sur
lesquelles de nouvelles contraintes peuvent se greffer, en proposant des alternatives
prosodiques. Celles-ci peuvent être issues, par exemple, des traitements syntaxiques,
sémantiques, typographiques (cf. contraintes prosodiques du projet [ROS’98]), etc.
91
De sorte que nous définissons ici l’espace des solutions expressives comme étant une
affectation partielle (mais maximale) et consistante des variables prosodiques.
Convenant à une solution partielle, l’espace des solutions expressives extrinsèques sera
obtenu à l’aide du solveur des contraintes extrinsèques, schématisé par la figure 5.6 :
Figure 5.6 : Scénarios de résolution des conflits sur les contraintes extrinsèques
Les scénarios de décision en cas de conflit sur certaines des contraintes génériques,
situationnelles et/ou idiolectales au sein du solveur des contraintes expressives
extrinsèques sont variés. Nous en illustrons ici les principaux :
1. intégration : stratégie de fusion des contraintes expressives, qui correspond
à un scénario de coopération expressive entre les trois dimensions extratextuelles. L’intégration apparaît notamment dans deux cas : i) s’il n’y a
aucune variable prosodique en commun entre les contraintes du premier
set (vraisemblablement, ceci est le cas idéal, difficilement rencontré dans
l’expérience prosodique) ; ou ii) s’il existe bien des variables en commun,
mais l’affectation de leurs valeurs reste consistante (i.e. même si partielle,
celle-ci « va dans le même sens »). Nous pouvons schématiser par :
PATHS = PATHtg + PATHds + PATHrp = Σ Ctg + Σ Cds + Σ Crp
2. compromis : c’est un cas de non consistance expressive, traduisant un conflit
prosodique dû à la violation d’une ou de plusieurs contraintes par une ou
plusieurs d’autres. Il s’agit donc d’une affectation non consistante des
valeurs d’une ou de plusieurs variables prosodiques partagées entre les
différentes contraintes expressives. Un cas de compromis peut consister
dans le choix des valeurs moyennes pour ces variables, valeurs qui parfois
peuvent ne satisfaire aucune des contraintes en question. Nous avons ainsi :
PATHS = (PATHtg) + (PATHds) + PATHrp = Σ (Ctg) + Σ (Cds) + Σ Crp
92
3. autres stratégies de choix : appariées au cas du compromis, s’utilisent dans
des conjectures d’affectation non consistante des variables prosodiques
communes. Différentes stratégies d’évitement de violation des contraintes
et donc du conflit de consistance peuvent être envisagées. Par exemple :
• la stratégie préférentielle globale : se caractérise par l’inhibition de toutes
les contraintes d’une dimension globale donnée (tg, ds ou rp, selon le cas) :
PATHS = PATHtg + PATHds + PATHrp = Σ Ctg + Σ Cds + Σ Crp = Σ Cds + Σ Crp
• la stratégie préférentielle locale : inhibition d’un sous-ensemble pertinent
des contraintes expressives pour une dimension extratextuelle spécifiée. Ici,
la pertinence se traduit en termes de non-violation de consistance.
PATHS = (PATHtg) + PATHds + PATHrp = Σ (Ctg) + Σ Cds + Σ Crp
Par exemple, si (PATHtg) = C1 + C9 + C13, nous avons pour (PATHtg) :
C8
°
C4
°
C2
°
C3
C6 °
°
C1
°
structure mélodique
(F)
C15 C16
°
°
C12 °
C13
C10°
C9 °
°
structure temporelle
(T)
...
structure énergétique
(I)
Figure 5.7 : Stratégie préférentielle locale pour la résolution des conflits expressifs
Ci-haut, (PATHtg) est un sous-ensemble de l’ensemble des contraintes PATHtg ; PATHtg
est un ensemble vide, obtenu par l’inhibition totale des contraintes PATHtg , et (PATHtg)
est l’ensemble obtenu par l’inhibition (totale) des contraintes (PATHtg), et donc par
l’inhibition partielle de l’ensemble des contraintes PATHtg.
Précisons que les scénarios les plus fréquents rencontrés dans la résolution des
conflits dus aux affectations des contraintes prosodiques sont celui du compromis et
de la stratégie préférentielle locale. Nous les avons discutés en détails et illustrés en
[SUC’07b], lors de l’analyse de la prédominance de certaines influences expressive (ici,
traduites par les signatures expressives) situationnelles (ds) sur celles génériques (tg).
Il existe également des cas où la stratégie préférentielle globale est volontairement
recherchée. Ceci est souvent rencontré dans les réalisations exagérées des parodies
prosodiques, telles les lectures en mode « ivre » des contes pour les enfants, ou celles
des horoscopes « ironiques » ou bien « en colère ». Ces parodies opèrent précisément
sur un régime de signifiance où la signature expressive situationnelle cherche à violer
les attentes prosodiques (en termes des contraintes sur les mouvements locaux ou
globaux) spécifiques au tg original (hypoprosodique), que l’auditeur a culturellement
et socialement acquis, adopté et activé parce qu’elles prennent sens pour lui.
93
5.4
Enveloppes rythmiques expressives. Discernabilité prosodique.
Nous avons mentionné dans le chapitre introductif (cf. chapitre 1) l’importance que
les notions d’isotopie et de rythme ont pour notre démarche d’étude de l’expressivité
discursive. C’est la raison principale pour laquelle nous les avons consacrés quelques
lignes en particulier en [SUC’07] : « dans la danse des sons et des silences, des schémas
prosodiques s’instaurent et des isotopies expressives se développent pour faire
émerger, graduellement, une cohérence globale ». Ces isotopies sont donc conservées
pour « préserver la cohérence discursive » et « garantir les rythmes expressifs sur un
plan macroscopique ». Mais quels sont les éléments de perception de ces rythmes ?
Quelle est leur nature ? Et surtout, comment sont-eux liés aux isotopies prosodiques,
aux contraintes et aux signatures expressives ? Nous y répondrons dans la suite.
Parmi les nombreuses publications vouées aux études sur le(s) rythme(s) que la
littérature nous met à présent à la disposition, nous avons retenu celle de [SAU’00].
Cherchant les éléments essentiels qui constituent ou pourraient constituer un rythme,
l’auteur converge vers une schématisation rationnelle des composants rythmiques,
qui se regroupent sous une triade conceptuelle : la structure (S)6, la périodicité (P) et
le mouvement (M). Bien qu’aucun de ces composants pris seul ne crée un rythme, la
combinaison de deux (ou trois) de ceux-ci peut l’engendrer : (SP), (SM), (MP), (SMP).
Nous reprenons ici la représentation schématique telle qu’esquissée en [SAU’00] :
STRUCTURE
sonore
SPM
S
durée
intensité
timbre
hauteur
visuelle
durée
intensité
matière
couleur
SM
SP
PERIODICITE
PM
sonore
période
fréquence
(vitesse, tempo)
nombre
(répétition)
P
M
visuelle
MOUVEMENT
période
fréquence
(echelle)
nombre
(multiplication)
L'autre du même : Le même dans l'autre :
émergence
transformation
de la S et/ou de la P d'une S et/ou d'une P
Figure 5.8 : Le rythme, combinaison de (S)tructure, (P)ériodicité et/ou (M)ouvement
Nous convenons de noter ces éléments par (S), (P) et (M) pour éviter le risque de confusion avec les vecteurs
extratextuel <S> et prosodique <P> (cf. chapitre 2, section 2.6).
6
94
Le rythme est ainsi défini comme « tout phénomène perçu, subi ou agi, auquel un sujet
peut attribuer au moins deux des critères suivants : structure, périodicité, mouvement ».
Combinatoire des critères à des degrés divers plutôt qu’une simple addition des
propriétés caractéristiques, cette définition se reformule par : « le rythmique est le
structuré et/ou le périodique et/ou le mouvant ». Précisons, avec l’auteur, qu’il ne
s’agit pas de dire « le rythme, c’est (SPM) » mais plutôt « quelque chose devient du
rythme lorsque (SPM) sont combinés en un phénomène ».
Par contraste avec l’arythmique, « le rythmique, au sens fort du terme, est à la fois
discontinu (S) et régulier (P), tout en se laissant une certaine tolérance d’irrégularité
(M) et en se donnant globalement comme une continuité (l’ensemble SPM) ». Ou
encore, il est « structure périodique en mouvement, cycle d’une forme en devenir, ou
dynamique des retours et de figures » [SAU’00].
Formes mouvantes et dynamiques des figures, nous apercevons déjà une façon de
relier cette rationalisation du phénomène rythmique à nos travaux de modélisation
de l’expressivité discursive. Et si celle-ci nous fournissaient une nouvelle manière de
distribuer (ou plutôt d’organiser) nos multiples variables prosodiques ?
Dans la section 5.2, les variables prosodiques V ont été distinguées soit en fonction
du niveau d’analyse et de la dimension prosodique, soit en fonction de la nature de
leur représentation formelle. Si nous adoptons l’approche de [SAU’00], nous pouvons
proposer ici (et opérationnaliser dans les chapitres 6, 8 et 9) la disposition de ces
variables, suivant la combinatoire des composants de la triade rythmique :
Figure 5.9 : Distribution des variables prosodiques en fonction des composants rythmiques (S, P, M)
La structure (S) tracerait ainsi les trois dimensions prosodiques de l’espace des
observables expressifs. Dans l’univers sonore, elle différencie, selon l’auteur, la durée,
la hauteur, l’intensité et le timbre, paramètres qui décrivent les variables prosodiques
de niveau local. Le tempo syntagmique se situerait du côté de la périodicité (P),
tandis que les multiples variables traduites par des mOts formels relèveraient des
mouvements (M) prosodiques mélodiques, temporels, ou énergétiques. De sorte que
les jeux hybrides de structures, périodicités et mouvements prosodiques pourraient
effectivement définir des enveloppes rythmiques à des paliers de textualités différents.
Le texte situé serait donc la portée linguistique juste pour garantir un espace suffisant
pour le développement des rythmes expressifs prosodiques.
95
Notons que les enveloppes rythmiques d’une parole expressive et les signatures
expressives des fde, opèrent, toutes les deux, un choix parmi un ensemble d’éléments
expressifs, qui sont les observables expressifs véhiculés par nos multiples variables
prosodiques. Ce choix est fait en mettant en jeu des contraintes qui agissent sur ces
variables organisées maintenant selon la combinatoire des composants de la triade
rythmique. De sorte que si les contraintes expressives concernent les caractéristiques
génériques, situationnelles et idiolectales, nous avons la représentation rythmique
des signatures expressives figurées en 5.5, telle que schématisée ci-dessous :
S TRU CTU RE
S
PERIODICITE
M
P
MOUVEME NT
S TRU CTU RE
S
PERIODICITE
M
P
MOUVEME NT
S TRU CTU RE
S
PERIODICITE
P
M
MOUVEME NT
Figure 5.10 : Description des caractéristiques extrinsèques par contraintes expressives rythmiques
Nous postulons ici (avec op. cit.) que la combinatoire des structures, périodicités et
mouvements prosodiques définit des possibles critères de discernement des formes
rythmiques dans le discours. Les rythmes discursifs expressifs se ressemblent donc ou
se rapprochent selon l’allure (générale ou spécifique) de leurs enveloppes. C’est sans
doute cette parenté qui justifie l’existence des certaines formes d’hyper-rythmicité
textuelle (traduite par une hyper-prosodicité), qui semblent propices à l’instauration
d’isotopies prosodiques trans-génériques. Rappelons pour cela les illustrations des
parodies prosodiques obtenues suite à des similitudes rythmiques trans-génériques
que nous avons mentionnées dans le chapitre 4, section 4.1.1.2 et détaillées en A10.
Or, comme l’expressif discursif est véhiculé ici par les observables prosodiques, la
discernabilité expressive se traduit en termes d’une discernabilité prosodique, qui
révèle différentes affectations pour les variables prosodiques. Et, avec celles-ci, des
signatures expressives différentes.
Nous pouvons donc facilement imaginer des scénarios de comparaison formelle
pour les formes discursives expressives, compte tenu des affectations prosodiques
imposées par leurs signatures expressives. Pour ceci, nous avons défini une famille
d’opérateurs formels de comparaison binaire, R < fdep, fdeq > :
96
Figure 5.11 : Opérateurs de comparaison formelle R des fde
Lors de l’application d’un opérateur de type R, les expressions formelles des deux
arguments fdep et fdeq sont comparées selon les dimensions des vecteurs linguistique
U = < L, C, D >, extratextuel S = < tg, ds, rp > et/ou prosodique P = < F, T, I >, désirées.
Notons que ceci est possible ssi. les fde ont le même niveau d'analyse L. Le résultat de
la comparaison formelle est exprimé ensuite par une relation d’identité / non-identité
(ou d’équivalence / non-équivalence) projective entre les deux formes. La projection
concerne uniquement la (ou les) dimension(s) affectée(s) par la comparaison.
Si la comparaison formelle affecte particulièrement les dimensions prosodiques,
ces relations servent d’éléments de discernabilité prosodique des formes concernées.
Or, si nous notons par E, l'ensemble des formes discursives expressives à étudier,
nous nommons ici extension d'une fdep sur une dimension prosodique donnée, le sousensemble d'éléments de E ayant le même niveau d’analyse L et la même description
prosodique pour cette dimension que fdep.
Nous appelons extension partielle d'une fdep, le sous-ensemble d’éléments de E qui
ont le même niveau d’analyse L et la même description que fdep sur une ou plusieurs
dimensions (pas exclusivement prosodiques), et extension totale d'une fdeq, le sousensemble d’éléments de E qui ont le même niveau d’analyse L et la même description
que fdeq sur toutes les dimensions (prosodiques et autres).
Nous pouvons définir d’une manière similaire des extensions des formes sur de
portées, et non pas de dimensions prosodiques. Les descriptions concerneront ici
uniquement la variable prosodique de la portée respective.
Les cas d'extension comportent plusieurs niveaux d'indiscernabilité. Ceux-ci sont
spécifiés à l’aide d’un paramètre (cf. [ZAL’95]) appelé degré d'égalité projective (dep).
Ainsi, le dep prosodique entre deux formes quelconques fdep =df <…Lp, …<Fp, Tp, Ip>> et
fdeq =df <…Lq, …<Fq, Tq, Iq>> varie, cf. tableau suivant, entre :
97
Notations
Caractéristiques
« Configurations » prosodiques possibles
≠ext
Formes extensionnellement
discernables sur toutes les
trois dimensions prosodiques
dep (fdep, fdeq) = 0 ssi <Lp>=<Lq> et la relation suivante
est satisfaite : ((Fp≠Fq) ∧ (Tp≠Tq) ∧ (Ip≠Iq))
=ext (F),
=ext (T),
ou
=ext (I).
Formes extensionnellement
discernables sur deux des
trois dimensions prosodiques
=ext (F,T),
=ext (T,I),
ou
Formes extensionnellement
discernables sur une seule
dimension prosodique
=ext (I,F).
=ext
Formes extensionnellement
indiscernables sur toutes les
trois dimensions prosodiques
dep (fdep, fdeq) = 1 ssi <Lp>=<Lq> et, en plus, une seule
des trois relations suivantes est satisfaite :
a. ((Fp=Fq) ∧ (Tp≠Tq) ∧ (Ip≠Iq))
b. ((Fp≠Fq) ∧ (Tp=Tq) ∧ (Ip≠Iq))
c. ((Fp≠Fq) ∧ (Tp≠Tq) ∧ (Ip=Iq))
dep (fdep, fdeq) = 2 ssi <Lp>=<Lq> et, en plus, une des
trois relations suivantes est satisfaite :
a. ((Fp=Fq) ∧ (Tp=Tq) ∧ (Ip≠Iq))
b. ((Fp≠Fq) ∧ (Tp=Tq) ∧ (Ip=Iq))
c. ((Fp=Fq) ∧ (Tp≠Tq) ∧ (Ip=Iq))
dep (fdep, fdeq) = 3 ssi <Lp>=<Lq> et, en plus, la relation
suivante est satisfaite : ((Fp=Fq) ∧ (Tp=Tq) ∧ (Ip=Iq))
Tableau 5.4 : Discernables prosodiques pour les fde en fonction des dpe
Nous avons imaginé des scénarios similaires pour les comparaisons R des fde, qui
considèrent les variables prosodiques organisées selon les critères rythmiques. Nous
avons obtenu ainsi des identités extensionnelles sur la combinatoire des composants :
dsk
rpj
fdep
=, ≠(S)
=, ≠(P)
tgi
R
=, ≠(M)
=, ≠(SP)
dsn
...
rpm
fdeq
=, ≠(SPM)
tgl
Figure 5.12 : Famille d’opérateurs de comparaison formelle R des fde selon les critères rythmiques
Nous pouvons imaginer aussi des comparaisons faites par les opérateurs de la
famille R qui affectent d’autres dimensions formelles, comme, par exemple, celles du
vecteur linguistique <U>. Dans ce cas précis, les fde seront étudiées et distinguées
selon les descripteurs de leurs vecteurs <C> et/ou <D>. La discernabilité expressive se
traduirait ainsi, non pas par des relations de discernabilité prosodique, mais par des
relations de discernabilité compositionnelle et/ou linguistique. Nous y reviendrons
dans le chapitre 8, dédié entièrement aux comparaisons des formes expressives fde.
98
CHAPITRE 6
ANALYSE DES PARAMETRES PROSODIQUES. OUTILS DE TRAITEMENT. RESULTATS.
Nous présentons dans ce chapitre les principaux traitements numériques et formels
nécessaires pour l’extraction et l’analyse des paramètres prosodiques, mentionnés dans le
chapitre précédent. Tout d’abord, notre attention se dirige vers les traitements des
paramètres temporels, soient les durées des syllabes (V9), les tempos des syntagmes
(V10), les mouvements de tempos des groupes phrastiques (V12) et des textes (V14).
Ensuite, nous présentons brièvement quelques outils nécessaires pour le traitement
des paramètres dédiés aux pauses inter-syntagmes (V13) et inter-groupes phrastiques
(V16). Puis, nous nous concentrons sur les outils numériques et formels indispensables
à l’extraction, la stylisation et la formalisation des divers paramètres mélodiques : les
mouvements mélodiques des syllabes (V1), des syntagmes (V2), des gphs (V4), et des
txt (V7) les indices de déclinaison des syntagmes (V3) et des groupes phrastiques (V5),
ainsi que les tessitures mélodiques des groupes phrastiques (V6) et du texte (V8). Nous
concluons sur quelques observations concernant la constitution de la base prosodique
initiale.
Résumé
Sommaire du chapitre
6.1
6.2
6.3
6.4
6.5
Considérations générales sur l’analyse des paramètres prosodiques ……….………. 100
Traitements prosodiques pour les paramètres temporels (<T>) ………..…………… 102
6.2.1
Extraction des durées syllabiques ………………………...…………………… 103
6.2.2
Calcul des tempos de syntagmes ……………………………………………… 105
6.2.3
Formalisation des tempos et de leurs mouvements ………………………… 107
6.2.4
Mouvements temporels formels et numériques au palier textuel ………… 110
Traitements prosodiques pour les paramètres de pauses …….……………………… 113
6.3.1
Extraction des pauses inter-syntagmiques ……………...……………………. 116
6.3.2
Extraction des pauses inter-groupes phrastiques ……………………………. 119
6.3.3
Discussion sur les pauses inter-textuelles …………………………….………. 121
Traitements prosodiques pour les paramètres mélodiques (<F>) …………………… 124
6.4.1
Extraction des fréquences fondamentales pour les syllabes ……….……… 125
6.4.2
Stylisation des courbes mélodiques pour les syllabes ………………………. 126
6.4.3
Formalisation des courbes mélodiques pour les syllabes ………..……….… 130
6.4.4
Extraction et stylisation des contours mélodiques pour les syntagmes …… 133
6.4.5
Formalisation des contours mélodiques pour les syntagmes ……….…..…. 134
6.4.6
Calcul des indices de déclinaison mélodique pour les syntagmes ………… 136
6.4.7
Discussion sur les indices de déclinaison mélodique pour les gphs ………. 140
6.4.8
Discussion sur la formalisation des contours des gphs et du texte ………… 141
6.4.9
Calcul de la tessiture mélodique des gph et du texte ……………………… 143
Premiers pas vers la constitution de la base initiale des formes prosodiques ……… 146
99
6.1
Considérations générales sur l’analyse des paramètres prosodiques
L’analyse des paramètres prosodiques constitue la première et la plus consistante
étape de la phase d’analyse des phénomènes discursifs expressifs (cf. section 3.1).
Comme nous l’avons souligné en 3.2, l’objectif primordial de cette phase consiste en
l’acquisition d’un ensemble de formes discursives expressives fde afin de constituer
une base des représentations formelles expressives que nous avons convenu (cf.
figure 3.7) de nommer « base initiale des formes expressives situées ».
Deux considérations sont à faire ici : la première concerne l’ensemble des formes
expressives et la seconde, leurs représentations dans la base expressive. Les fde sont
détectées, identifiées et formalisées conformément au cadre général de modélisation
défini dans le chapitre 2 et du formalisme phonologique multi-niveaux que nous
avons choisi, tel que décrit dans la section 5.2 et A6. Or, puisque nous n’avons pas la
prétention de mener ici une étude sur la totalité des formes expressives possibles, il
s’agit d’en analyser qu’un ensemble, certes, réduit, mais représentatif. Autrement dit,
l’objectif de ce travail n’est pas la recherche de l’exhaustivité expressive au sein des
formes discursives, mais bien la démonstration de la possibilité d’implémenter
certaines de celles-ci, une fois extraites et définies au sein de quelques pratiques
discursives bien précises. Ainsi, les fde sont organisées dans la base expressive initiale
en fonction de critères de genre textuel, situation discursive et locuteur, mais aussi en
fonction des critères issus de multiples analyses linguistiques, dédiées à chacun des
paliers phonologiques choisis dans cette étude. La figure suivante schématise les
étapes1 nécessaires à la réalisation de ces objectifs :
Figure 6.1 : Étapes concernées par l’analyse des paramètres prosodiques dans la sous-phase s1-Ph2
1
Notons que les seules étapes utilisant des modules (informatiques) déjà existants sont celles marquées en gris.
100
L’étape d’analyse des paramètres prosodiques est censée opérer l’ancrage des
diverses formes discursives expressives dans des réalités physiques mesurables et
reproductibles, illustrées par les différents paramètres prosodiques mentionnés en
5.4. Autrement dit, il s’agit ici d’élaborer les mécanismes indispensables pour rendre
observables les faits expressifs par l’entremise de leurs réalisations prosodiques.
Plus concrètement, cette étape regroupe un ensemble d’outils de traitement
prosodique, consacrés d’abord à l’extraction et ensuite à la formalisation de ces
paramètres. Il s’agit donc de la mise en place des traitements numériques et formels,
voués notamment à l’acquisition des paramètres correspondant aux dimensions
prosodiques2 temporelle et mélodique. Mais l’étape d’analyse prosodique concerne
également les traitements nécessaires pour l’obtention d’informations relatives aux
transitions entre ces paramètres, qui traduisent les contrastes ou les liaisons dans le
flux discursif, et qui se matérialisent par les intervalles de pause signifiants entre
syntagmes, groupes phrastiques ou bien entre textes.
Ces traitements sont détaillés dans les sections suivantes. La figure 6.2 schématise
les groupes d’outils qui relèvent de l’analyse prosodique :
outils d'analyse prosodique
.pfo
P
outils pour
le traitement
temporel
outils pour
le traitement
des pauses
outils pour
le traitement
mélodique
autres (pour
le traitement
énergétique)
.bnd
Figure 6.2 : Principaux groupes d’outils d’analyse prosodique
Les exemples qui illustreront ces traitements prosodiques se fondent sur des
données extraites d’un des textes du corpus principal, soit un horoscope lu par Alain
d’une manière conventionnellement nommée « typique ». Ponctuellement, nous
enrichirons les discussions sur les résultats obtenus à l’aide de ces outils d’analyse,
avec quelques exemples de traitements des données issues des corpus secondaire et
alternatif, que nous jugeons signifiants. Une étude plus générique des paramètres
prosodiques, ainsi que l’analyse comparative des résultats de ces traitements, feront
l’objet du chapitre 8 entier.
Nous rappelons ici le fait que, bien que notre cadre de modélisation soit conçu pour et donc il le permet, les
paramètres énergétiques ne sont pas traités dans cette étude, à l’exception de quelques remarques ponctuelles.
2
101
6.2 Traitements prosodiques pour les paramètres temporels (T)
Nous nous intéressons ici aux traitements prosodiques temporels qui concernent les
observables expressifs traduits par les variables prosodiques temporelles (V9, V10,
V14, V15, et respectivement V17, cf. tableau des variables prosodiques décrit en 5.4).
Il s’agit donc de l’extraction des durées syllabiques (V9) et textuelles (V17), du calcul
des tempos des syntagmes (V10), de la représentation formelle des mouvements
globaux de ces tempos au sein d’un groupe phrastique (V14), puis, d’un texte (V15) :
outils pour le traitement temporel
traitements numériques
traitements formels
extraction
de la durée totale
du texte
...
extraction
de la durée des
groupes
phrastiques
formalisation
des mouvements
des tempos
syntagmiques
calcul
des tempos des
syntagmes
formalisation
des tempos des
syntagmes
extraction
des durées
syllabiques
formalisation
des durées
syllabiques
T
.bnd
Figure 6.3 : Outils pour le traitement prosodique temporel
Certes, au premier abord, cette démarche d’analyse prosodique pourrait paraître
purement de type « bottom-up », puisque c’est en partant des durées syllabiques que
l’on calcule et formalise les paramètres temporels associés aux syntagmes, aux
groupes phrastiques, et au texte. Mais, comme montré par la suite, si l’on regarde un
peu plus en profondeur, elle s’inscrit plutôt dans une démarche se type organique,
qui remet à tout moment en jeu les multiples interdépendances entre les variables
locales et celles globales. Pour exemplifier, les traitements de formalisation des
tempos syntagmiques considèrent comme portée d’analyse prosodique, le groupe
phrastique, et c’est en fonction de ce dernier que leurs mouvements seront décrits.
Comme nous allons le voir dans la suite, cet intérêt n’est pas épisodique. En effet, il
102
résume la volonté de maintenir nos études dans un projet tel que décrit dans les
chapitres 2 et 3.
Rappelons que chaque paramètre prosodique est associé à un niveau d’analyse
linguistique d’ordre local (comme c’est le cas des durées des syllabes) ou global
(comme, par exemple, les mouvements de tempos des syntagmes au sein d’un
groupe phrastique). Cette association est réalisée par l’identifiant unique < id > (cf.
section 2.6), qui comporte une partie spécifique au niveau d’analyse sur lequel le
paramètre prosodique en question opère, et une partie d’appartenance aux niveaux
d’analyse supérieurs (appartenance de syn, gph et txt, pour les identifiants des syl ;
appartenance de gph et txt, pour les identifiants des syn ; appartenance de txt pour
ceux des gph). Pour exemplifier, « t001f03S01s02 » identifie la 2ème syllabe du 1er
syntagme du 3ème groupe phrastique du 1er texte d’un corpus donnée. De la même
manière, « t008f07S04 » identifie le 4ème syntagme du 7ème groupe phrastique du 8ème
texte du corpus courant ; et « t002f01 », le premier syntagme du 2ème texte.
6.2.1 Extraction des durées syllabiques (V9)
La première sous-étape des traitements prosodiques temporels concerne l’extraction
des durées des syllabes. Pour ceci, nous partons des informations disponibles dans
les fichiers de type .bnd, générés automatiquement à partir des outils existants.
Nous avons opté ici pour une représentation selon laquelle à chaque groupe
phrastique (i.e. signe, titre ou corps de section, pour les horoscopes) correspond un
fichier de type « .bnd » contenant :
i)
la représentation phonémique pour chaque syllabe de chaque syntagme du
groupe phrastique en question
ii)
les frontières gauche et droite délimitant la syllabe respective, exprimées
en nombre de trames (ici, une trame correspond à un intervalle de 10 ms).
Pour illustrer, nous présentons ci-dessous l’ensemble des fichiers « .bnd » associés
aux sept gphs qui composent l’horoscope d’exemple, cité dans le chapitre 4.
Figure 6.4 : Exemple des fichiers « .bnd » pour l’horoscope exemple « Bélier » (texte n° 8)
103
Partant des données issues des fichiers « .bnd » et considérant les informations
acoustiques relatives au format des fichiers audio adopté3 ici, nous pouvons extraire
d’une manière immédiate, les durées (exprimées en ms) pour chaque syllabe :
durée [ms] = (frontière_droite – frontière_gauche) / 16000 * 1000
Le stockage des durées syllabiques, aussi bien que la mise en correspondance avec
leurs identifiants formels respectifs, se font dans les fichiers de type « .dur » :
Figure 6.5 : Exemple des fichiers « .dur » pour l’horoscope exemple « Bélier » (texte n° 8)
Nous observons que les syllabes finales des syntagmes ont, généralement, une
durée largement plus significative que les autres syllabes du même syntagme. C’est
le cas ici des syllabes d’identifiants t008f01S01s02, t008f02S01s05, t008f03S01s15,
t008f05S01s07, t008f05S02s17, etc. Ceci s’avère être un fait prosodique récurrent (cf.
traits de récurrence décrits dans le chapitre 8, section 8.1) dans l’usage de la langue
française (tant en parole lue que spontanée) et s’appuie sur de nombreuses références
théoriques et expérimentales (cf. [DEL’84], [MOR’98], [POR’02], et [DOD’01]). Toutefois,
nous pouvons remarquer d’autres syllabes qui s’écartent du reste des syllabes du
même syntagme quant à leur durée, et qui ne sont pas des syllabes finales, telles les
syllabes t008f03S01s05, t008f03S02s05, t008f03S02s06, t008f05S01s03, t008f05S02s10,
t008f05S02s12, ou bien t008f07S01s05. Cette présence d’élongation pourrait traduire
plusieurs phénomènes. Le premier tient des considérations purement intrinsèques :
la durée d’une syllabe est tributaire de sa structure syllabique (cf. par exemple,
[OBI’08]), i.e. du nombre et de la disposition des voyelles et des consonnes qui la
composent. C’est le cas des syllabes t008f03S02s05 (P_O_R_T_E) et t008f03S02s06
(S_OU_V_R_E) composées chacune des 5 phonèmes et qui, naturellement, possèdent
une durée intrinsèque supérieure à celles des syllabes contenant moins d’unités
phonémiques. La structure syllabique est donc un indice pertinent qui doit être pris
en compte dans les traitements temporels dédiés aux niveaux locaux.
Nous pensons ici notamment à la fréquence d’échantillonnage qui, pour la totalité des fichiers audio
de notre étude, est de 16 KHz.
3
104
Un autre phénomène, cette fois-ci de nature prosodique, qui pourrait se traduire
par une élongation syllabique, est la présence des frontières des syntagmes qui ne se
manifestent pas par des intervalles de pause suffisamment significatifs pour être
perçus par les personnes transcrivant le corpus oral (cf. section 4.2.2), voire même
repérés automatiquement. Ces frontières syntagmiques se concrétisent uniquement
par l’allongement de la syllabe finale d’un syntagme, qui sera « collée » à la première
syllabe du syntagme suivant. C’est le cas ici des syllabes identifiées par t008f05S01s03
(soit Z_I_J), t008f05S02s10 (soit S_Y_ON), et t008f07S01s05 (soit CH_AU_Z), censées à
traduire les découpages intonatifs « on exige / beaucoup de vous », « mais vous
pouvez trouvez une solution / pour surmonter ces épreuves » et respectivement,
« vous prenez les choses / trop au sérieux ». Se sorte que le dépistage automatique de
ce type de regroupement syntagmique requiert des outils de correspondance entre la
réalisation rythmique et une arborescence syntaxique associée.
Les élongations syllabiques peuvent traduire d’autres phénomènes prosodiques,
plus ou moins complexes. Nous pensons ici précisément à la réalisation du focus
linguistique sur un mot précis dans un syntagme, au niveau syllabique. Présent pour
la syllabe t008f03S01s05 (soit D_EI_K) du syntagme « vous recevez d’excellentes
nouvelles… », ou pour la syllabe t008f05S02s12 (soit S_U_R) du syntagme « pour
surmonter ces épreuves...», ce type de focus ne peut pas être discerné uniquement
par des élongations syllabiques. Sa détection requière l’étude de ces dernières
marques temporelles en rapport avec d’autres manifestations dans la prosodie
(comme, par exemple, la montée mélodique ou énergétique sur les mêmes syllabes).
Une discussion plus conséquente sur les questions liées aux durées syllabiques, est
menée dans le chapitre 8 lors de l’étude des résultats obtenus sur une plus grande
masse de données (en lecture « typique » et en différentes versions simulées).
6.2.2 Calcul des tempos de syntagmes (V10)
La deuxième sous-étape des traitements prosodiques temporels est dédiée au calcul
(numérique) des tempos de lecture pour les syntagmes. Partant des informations
relatives aux durées syllabiques extraites précédemment, disponibles dans les
fichiers de type .dur, nous calculons4 le tempo pour un syntagme comme l’inverse de
la moyenne non pondérée des durées des syllabes5 le composant :
tempo Si [syl/s] = (no syllabes du Si / Σ durées des syllabes du Si) * 1000
Les tempos sont exprimés ici en u.t. correspondant au nombre moyen de syllabes/s. Selon [ZEL’98], en français
parlé, un tempo traduisant un débit plutôt « normal » de parole, est estimé à environ 5 syl/s (syllabes/seconde,
noté le plus souvent σ/s), un débit lent à 3-4 syl/s, un débit rapide à 7-8 syl/s, et un débit très rapide à 9-11 syl/s.
5 Pour ceci, nous avons prévu deux modalités de calcul du tempo : la première, considérant toutes les syllabes du
syntagme courant (voir les exemples qui suivent), et la seconde, considérant que les syllabes non-terminales. La
raison principale pour cette seconde approche se fonde sur les observations faites en 6.2.1, relatives au statut
particulier des syllabes finales (durée plus grande par rapport aux autres syllabes du même syntagme).
4
105
Pour illustrer, soit le gph associé au signe de l’horoscope d’exemple (B_EI L_Y_EI).
Les valeurs des durées (exprimées en ms) des deux syllabes composant le syntagme
unique de ce gph ont été enregistrées dans le fichier « alainHr100050.dur » :
t001f01S01s01 175
t001f01S01s02 305
Le tempo de ce syntagme est donc de : 2 / (175 + 305) * 1000, soit de 5.71 syl/s.
Un nouveau fichier « .tmp » est ainsi généré pour chaque groupe phrastique. Il
contient les valeurs effectives des tempos de lecture calculées pour chaque syntagme
(2ème colonne), ces dernières mises en correspondance avec les identifiants formels
(1ère colonne) et avec la composition syllabique6 (3ème colonne) du syntagme respectif :
Figure 6.6 : Exemple des fichiers « .tmp » pour l’horoscope exemple « Bélier » (texte n° 8)
Partant des données présentées dans ces fichiers, nous pouvons constater pour cet
exemple, un tempo généralement rapide, tournant souvent autour de 6-7 syl/s, muni
ponctuellement de ralentissements et d’accélérations locales peu significatives :
Figure 6.7a : Tempos syn pour l’horoscope exemple « Bélier » (texte n° 8)
Les deux extrêmes des mouvements des tempos d’élocution pour ce texte sont
situés au sein du 7ème gph : le 3ème syntagme (soit « sortez ») avec un tempo d’environ
3 syl/s et le 4ème (« et ») avec un tempo d’environ 9 syl/s. Si la chute en tempo du
6
La composition syllabique traduit ici le nombre de syllabes du syntagme courant.
106
troisième syntagme peut expliquer un phénomène d’accentuation7, habituellement
présent sur les verbes procéduraux, le phénomène de montée en tempo du quatrième
syntagme est dû plutôt à un « mauvais » découpage8 en syntagmes. Une solution de
« remède » consiste en la reconsidération (et, par conséquent, la régénération) du
découpage en syntagmes, une fois les pauses inter-syntagmes extraites (cf. section
suivante) et les short-pauses éliminées. Dans le cas exposé, ceci revient à « faire
accoler » les syntagmes n° 4 et 5 du gph n° 7 dans un seul syntagme (« et amusezvous »), qui aura associé, après un calcul rapide, le tempo de 6.28 syl/s :
Figure 6.7b : Tempos syn (modifiés) pour l’horoscope exemple « Bélier » (texte n° 8)
Notons que les tempos locaux, les tempos maximal ou minimal et, avec ceux-ci, le
tempo-range (i.e. l’intervalle numérique entre le tempo maximal et celui minimal)
sont extrêmement dépendants de (et donc sensibles à) ce découpage.
6.2.3 Formalisation des tempos des syntagmes et de leurs mouvements (V12)
La troisième sous-étape des traitements temporels est dédiée à la formalisation des
valeurs des tempos pour chaque syntagme d’un groupe phrastique, calculées
précédemment (et rendues disponibles dans les fichiers de type « .tmp »). Les fichiers
« .ftmp » comportant les informations relatives à ces valeurs formelles sont constitués
des trois colonnes. La 1ère et la 3ème colonne de ces fichiers sont identiques à celles des
fichiers de type « .tmp » contenant respectivement l’identifiant attribué au syntagme
courant, et la structure syllabique de ce dernier.
La 2ème colonne est traduite par un « tuple » formel associé à chaque syntagme du
groupe phrastique courant. Ce tuple est constitué d’une lettre formelle (cf. alphabet
L’accentuation (ou le focus) qui se présente par une élongation des durées syllabiques, se traduit également par
un ralentissement dans le tempo syntagmique.
8 Découpage qui considère les pauses inter-lexicales extrêmement brèves (de 10 à 30 ms), nommées souvent des
« short-pauses » (cf. [ZEL’94]), comme des pauses suffisamment significatives pour en constituer des frontières
syntagmiques – ce qui n’est pas toujours le cas.
7
107
formel défini dans le chapitre 5) décrivant le mouvement des tempos syntagmiques
lors de la transition au syntagme courant, et d’une valeur relative qui décrit
l’amplitude de ces variations de tempo (entre les valeurs numériques du syntagme
courant et celui précédent). Cette valeur relative est exprimée en multiples de l’unité
fondamentale de description des tempos, notée εtempo. Nous avons convenu ici sur
une affectation par défaut de εtempo = 1 u.t. (syl/s).
La figure 6.8 illustre les fichiers « .ftmp » correspondants pour le texte-exemple :
Figure 6.8 : Exemple des fichiers .ftmp pour l’horoscope exemple « Bélier » (texte n° 8)
Pour un plus de lisibilité, nous illustrons ci-dessous les équivalents numériques et
formels pour le même exemple récurent, soit les fichiers alainHr100050 – 56 :
Tempos numériques et formels (εtempo=1 syl/s)
alainHr100050. tmp
t008f01S01
5.71
alainHr100050. ftmp
2
alainHr100051. tmp
t008f02S01
6.02
5.78
5.04
6.38
5.85
5
15
9
12
25
alainHr100053. tmp
t008f01S01
(X, 5)
2
-
5
-
alainHr100051. ftmp
alainHr100052. tmp
t008f03S01
t008f03S02
t008f03S03
t008f03S04
Mouvement des tempos formels (pour gph)
t008f02S01
(X, 6)
alainHr100052. ftmp
t008f03S01
t008f03S02
t008f03S03
t008f03S04
(X, 5)
(S, 0)
(T, 1)
(S, 0)
15
9
12
25
alainHr100053. ftmp
-
108
t008f01S01
5.83
3
alainHr100054. tmp
t008f03S01
t008f03S02
t008f03S03
t008f03S04
t008f03S05
6.28
6.77
7.47
6.61
7.81
7
17
10
9
8
7.11
5.97
8.15
3.13
9.52
7.56
6.64
5.55
3
t008f03S01
t008f03S02
t008f03S03
t008f03S04
t008f03S05
(X, 6)
(S, 0)
(S, 0)
(S, 0)
(T, 1)
7
17
10
9
8
alainHr100055. ftmp
4
alainHr100056. tmp
t008f03S01
t008f03S02
t008f03S03
t008f03S04
t008f03S05
t008f03S06
t008f03S07
(X, 5)
alainHr100054. ftmp
alainHr100055. tmp
t008f01S01
t008f01S01
9
8
2
1
4
18
10
t008f01S01
(‘X’, 7)
4
-
alainHr100056. ftmp
t008f03S01
t008f03S02
t008f03S03
t008f03S04
t008f03S05
t008f03S06
t008f03S07
(‘X’, 5)
(‘H’, 2)
(‘B’, 5)
(‘T’, 6)
(‘L’, 1)
(‘S’, 0)
(‘L’, 1)
9
8
2
1
4
18
10
Tableau 6.1 : Tempos numériques et leurs mouvements formels pour les gphs de l’horoscope exemple
Une fois les tempos syntagmiques formalisés, les fichiers constituant la deuxième
colonne du tableau 6.1 décrivent les mots formels associés aux mouvements des
tempos des syntagmes pour chacun des groupes phrastiques définis au sein de notre
texte. Nous pouvons distinguer dans les représentations formelles illustrées ici, des
mouvements légers de tempos syntagmiques, à amplitude locale réduite, de 0, 1,
voire 2 u.t., exception faite des cas ponctuels des syntagmes 3 et 4 du dernier groupe
phrastique, discutés auparavant. Ces mouvements formels traduisent les variations
numériques qui se concentrent autour de tempos moyens et se distribuent dans les
tempos-ranges (nommés également tessitures numériques de tempos), associés à
chaque groupe phrastique (cf. fig. 6.9 plus bas).
Anticipant les résultats menés à une plus grande échelle sur l’ensemble des textes
constituant notre corpus d’horoscopes qui seront exposés plus loin dans le chapitre 9,
nous remarquons que les mêmes phénomènes temporels d’ordre global apparaissent
pour les horoscopes lus d’une façon « typique » : ils se traduisent par la tendance
prosodique de garder un tempo soutenu (6-7 u.t.), généralement constant (induisant
peu de variations, ou manifestant peu de dynamisme).
109
Figure 6.9 : Tempos syntagmiques moyens et leur écart-types pour les gphs de l’horoscope exemple
6.2.4 Mouvements temporels formels (V14, V15) et paramètres numériques (V17) au
palier textuel
L’intégration des mouvements formels des tempos syntagmiques (V12), décrits en
6.2.3, dans des mouvements temporels formels associés au palier textuel (V14) est
immédiate. Représenter ces mouvements sous un format facilement « relativisable »
(puisque toute forme commence par un symbole initial ‘X’ encodant le niveau de
départ, soit en tempo, comme c’est le cas ci-dessus, soit en tonalité, comme illustré
dans la section 6.3), c’était assurément une décision de formalisation, prise en vue de
favoriser cette intégration. À titre d’exemple, nous présentons ici les mouvements
formels des tempos syntagmiques pour l’intégralité du texte-exemple :
Figure 6.10 : Mouvements des tempos syntagmiques pour l’ensemble du texte-exemple (εtempo= 1 u.t.)
Une possibilité d’étudier les phénomènes de variation globale, sans tenir compte
des micro-variations locales est d’opérer une sorte de procédé de « zoom » sur les
représentations formelles, lors des transitions vers les niveaux supérieurs d’analyse.
Ce procédé se traduit par un redimensionnement quantitatif dans les amplitudes de
110
variation formelle, qui, dans certains cas, peut engendrer des mutations qualitatives
dans ces variations. Relevant des changements dans la précision de la représentation
formelle, ce redimensionnement se réalise soit par une augmentation (par exemple,
de 2, 3 ou plus de fois) soit par une diminution de la valeur par défaut de εtempo.
Figure 6.11 : Mouvements des tempos syntagmiques pour l’ensemble du texte-exemple (εtempo= 2 u.t.)
Si nous examinons les différences entre les mouvements formels de tempos
illustrés dans les figures 6.10 et 6.11, nous pouvons en distinguer un changement
qualitatif qui affecte les mouvements d’amplitude réduite, associés aux premiers
12+1 syntagmes. Ce changement se produit lors du passage de εtempo de 1 à 2 u.t.
(syl/s), et témoigne des phénomènes de macro-variation dans les formes de tempos
syntagmiques, et rend les micro-variations d’amplitude inférieure à la nouvelle
valeur εtempo, formellement non-pertinentes et donc, « indiscernables ». Cependant,
les mouvements des tempos associés aux syntagmes suivants (de 14 à 16), restent
encore visibles. Nous pouvons conclure qu’à ce degré d’observation, le tempo est
perçu comme globalement constant sur l’étendue du texte, exception faite de quelque
cas très locaux (soit les trois syntagmes du 7ème gph mentionnés avant).
Outre les représentants formels décrivant la dynamique des tempos syntagmiques,
nous avons retenu (cf. 5.4) également comme paramètres temporels numériques pour
le niveau textuel, la valeur moyenne des tempos syntagmiques (exprimée en u.t.), les
valeurs extrêmes de variation de ces tempos (i.e. le minimum et le maximum dans les
mouvements formels, retraduits en u.t., qui correspondent au tempo-range V15),
ainsi que la durée effective du texte, exprimée en secondes (s).
Pour notre exemple, les valeurs de tempos de départ, moyenne, et les extrêmes,
peuvent être retrouvée facilement dans la figure 6.9. Pour cet horoscope, le locuteur a
donc débuté à une vitesse de locution d’environ 5 u.t., tout en gardant celle-ci comme
vitesse moyenne, et s’est écarté, durant la lecture du texte entier, de ± 3 εtempo (1 u.t.).
Outre les paramètres prosodiques révélant de la progression du tissu verbal selon
l’axe temporelle qui concernent les tempos des syntagmes et leurs mouvements au
palier textuel, nous mentionnons ici la durée effective de lecture d’un texte (soit V17).
111
Comme les autres paramètres prosodiques, cette durée est influencée d’un côté, par
les caractéristiques textuelles internes et de l’autre côté, par celles extratextuelles. En
ce qui concerne les caractéristiques internes, nous traitons ici la structuration de texte
en plusieurs sections. La durée moyenne pour un horoscope « typique » comportant
3 sections, issu du corpus hebdomadaire (tel le texte-exemple « Bélier ») s’élève à 40 s,
tandis que la durée pour un horoscope « typique » structuré en deux sections, issu du
corpus d’horoscopes quotidiens, s’élève à 25 s.
Le choix des caractéristiques extratextuelles induit également une variation dans
les valeurs absolues de la durée textuelle totale. À titre illustratif, nous présentons icibas une image comparative des durées du texte-exemple d’horoscope hebdomadaire,
pour 6 (parmi celles réalisées) types de lecture différentes. Ceci anticipe les travaux
d’étude comparative des récurrences prosodiques globales, menés dans le chapitre 8 :
Figure 6.12 : Durée de lecture totale pour un texte, en fonction de la situation discursive (ds)
Quelques pistes de discussion sont soulevées par les informations globales portées
par le graphique de la figure 6.13. La comparaison entre elles des durées associées
aux trois premiers types de lecture ne semble pas apporter un plus d’information par
rapport à ce que chaque lecteur, d’une manière intuitive, aurait attendu : la lecture
« typique » (40,7 s) est plus courte que celle « lente » (74,5 s) et plus longue que celle
« rapide » (25,6 s). Par contre, rapportée à la lecture « en vitesse normale » (50 s), la
lecture « typique » s’avère être plus rapide. Ceci justifie, une fois de plus, les
considérations empiriques faites dans la section 5.1, relatives à la prédisposition
manifestée par les horoscopes « typiques » de regroupement rythmique dans des
syntagmes grammaticaux maximaux.
Nous concluons cette section par la schématisation des modules informatiques
nécessaires à l’exécution des traitements temporels formels :
112
.bnd
TPP_T_syl
module
d'extraction
des durées
syllabiques
.dur
TPP_T_syn_1
module de calcul
des tempos
syntagmatiques
TPP_T_syn_2
module de
formalisation
des tempos
syntagmatiques
.tmp
.ftmp
TPP_T_gph
module de
formalisation des
mouvements des
tempos
.mtmp
Figure 6.13 : Schéma des modules informatiques pour le traitement des paramètres temporels
6.3
Traitements prosodiques pour les paramètres dédiés aux pauses
(V11, V13, V16)
Parmi les observables prosodiques non représentables par des mOts formels, nous
comptons aussi les modalités de fluence : les legato, qui relèvent de la continuité (ou
fluidité) de la parole et les staccato, qui dévoilent des formes de coupure (ou rupture)
dans le dire. Inspirés par les traditions de notation musicale, nous les notons ici par :
modalité de fluence
codage
convention
legato
_
link_syn ou link_gph à valeur nulle
staccato
||
link_syn ou link_gph à valeur non-nulle
Tableau 6.2 : Codage des modalités de fluence
Autrement dit, ces modalités spécifient si les mouvements prosodiques des unités
qui composent une unité supérieure sont reliés ou dissociés. En phonologie, les
modalités de fluence ne sont habituellement pas représentées, puisque implicitement
traduites par la présence (pour le staccato) ou l’absence (pour le legato) des coupures
discursives, régulièrement saisies sous la terminologie de pause.
Par sa fonction isolante, la pause est, premièrement, un démarqueur. Elle permet
« la distinction des unités dans la chaîne parlée », mais aussi « le point de contact
entre eux » [LAF’93]. Métaphoriquement, la pause joue le rôle d’un pont : elle sépare et
lie en même temps, les syllabes à l’intérieur d’un syntagme, aussi que les syntagmes
à l’intérieur d’un groupe phrastique, ou les groupes phrastiques à l’intérieur d’un
texte. Le discours se construit, bien évidemment, sur du contenu verbal, mais aussi
sur des instances des pauses et des silences. Précisons que la littérature distingue,
selon leur contenu, deux types de pauses : les pauses silencieuses ou les silences, et
113
les pauses remplies avec divers éléments épivocaux, tels les respirations, les rires, les
éternuements, les toux, ou d’autres « bruits » (cf. par exemple, [SEG’08]).
Généralement, les pauses présentes au sein d’un discours sont dénommées faibles
ou fortes. Les premières correspondent à une ponctuation faible (présente à l’intérieur
d’une phrase, entre les syntagmes, les mots ou les syllabes), et les secondes, à une
ponctuation forte (présente à l’intérieur d’un texte, entre les groupes phrastiques, ou
entre les phrases). D’autres approches, comme celle proposée par [ZEL’94] attribuent
aux pauses faibles le caractère intra-segmental ou intra-lexical. Si les pauses intrasegmentales sont associées aux pauses inter-syllabiques (variables V11), les pauses
intra-lexicales conviennent plus à des pauses inter-syntagmatiques (link_syn et V13).
Les pauses fortes sont, pour [ZEL’94], les pauses inter-phrastiques (link_gph et V16).
Néanmoins, multiples sont les travaux qui ont montré que ni l’emplacement, ni la
durée des pauses (dans une parole lue ou spontanée) ne peuvent s’anticiper (même si,
selon [POR’02], la parole lue conserve la plupart des pauses issues des découpages
morphosyntaxiques) en considérant uniquement leur correspondance [ZEL’96], [CAE’81]
avec la ponctuation. Nous convenons, avec ces auteurs, qu’il n’existe pas de règles
précises de « bijection » entre un démarqueur de ponctuation et la valeur de la pause
y correspondant. Or, si ceci constitue un grand avantage pour la modélisation
« flexible » des faits expressifs, il est un inconvénient souvent gênant pour les
traitements automatiques de synthèse vocale. Pour illustrer, une virgule impose à un
moment du discours, l’insertion d’une pause d’ordre de 50 ms, et à un autre moment,
l’insertion d’une pause de 200 ms. Les deux virgules ne sont prosodiquement pas
identiques, car différemment placées dans la structure hiérarchique du discours.
Toutefois la différenciation des corrélats prosodiques pour un même signe de
ponctuation peut être aussi due aux changements dans la vitesse locale d’élocution,
ainsi qu’à des aspects bien plus complexes, comme ceux de choix générique ou
situationnel de lecture. Par exemple, les coupures rythmiques à l’intérieur des vers
du récit stylisé d’un poème, dans les moments les plus inattendus, peuvent déjouer la
présence des pauses couramment associées aux virgules. Le même phénomène de
variabilité dans l’emplacement et les durées des pauses peut se produire lors d’une
lecture parodiée d’un horoscope ou d’un conte, en version sportive.
Éléments essentiels pour l’organisation temporelle, d’un discours, les pauses sont
des observables prosodiques (V11, V13, V16) qui mettent en jeu des considérations
d’ordre supérieur : par leurs emplacements et leurs durées relatives à la vitesse
générale d’élocution, les pauses sont porteuses de cohérence et de sens discursif. De
la sorte qu’une pause mal placée dans un groupe phrastique, ainsi qu’une pause
placée à l’intérieur d’un syntagme compacte9 ou une autre trop longue ou trop courte
par rapport à celle « attendue » au moment discursif respectif, peuvent nuire à la
fluidité discursive. Plus encore, elles peuvent induire des déviations interprétatives
Nous avons vu (cf. chapitre 2) que, pour une lecture « typique », le syntagme est (exception faite des « shortpauses ») une unité minimale par rapport à la dissociation en unités séparées par des pauses. En d’autres termes,
aucune pause « quantitativement consistante » n’est acceptée à l’intérieur d’un syntagme.
9
114
engendrées par ce non-naturel de la parole. Pour exemplifier, certaines pauses
interprétées comme des hésitations peuvent classer un discours comme indécis. De
même que, en l’absence de certaines pauses, une lecture rapide peut être jugée
comme extrêmement précipitée, voire souvent, non naturelle. Ainsi, imaginons l’effet
que puisse avoir, dans l’exemple suivant, la suppression des déjà peu nombreuses
pauses. Extrêmement contractées, celles-ci sont entièrement remplies des respirations.
Il s’agit ici de la transcription de la réalisation « rapide » d’un des horoscopes de
notre corpus (cf. section 4.1.2), où les pauses sont marquées par [r] :
Figure 6.14 : Transcription d’un horoscope de notre corpus en lecture « rapide »
Notons aussi que les pauses, remplies de divers éléments épivocaux (notamment
des respirations) ou silencieuses, ont, bien évidemment, un impacte important, tant
du point de vue quantitatif que qualitatif, sur la dimension temporelle de la structure
prosodique (i.e. le vecteur <T>). C’était la raison principale pour laquelle nous les
avons classées dans le chapitre 5, parmi les paramètres prosodiques temporels.
Cependant, du fait qu’elles traduisent des intervalles d’intensité et de fréquence
nulles, les pauses impactent également sur la dimension énergétique (vecteur <I>) et
mélodique (<F>) du vecteur prosodique <P>.
115
Du point de vue opérationnel, nous nous intéressons ici à la mise en place des
traitements numériques et, cf. figure 6.15, éventuellement10 formels, nécessaires pour
obtenir les paramètres prosodiques qui correspondent aux intervalles des pauses
significatives situées entre les syntagmes et entre les groupes phrastiques d’un texte.
Dans une démarche de synthèse vocale qui s’inscrit dans un cadre applicatif
particulier de lecture d’une suite des textes, nous pouvons également prendre en
compte les intervalles de pauses présentes entre plusieurs textes. Une discussion en
est faite à la fin de la section courante.
outils pour le traitement des pauses
traitements formels
traitements numériques
.pcm
extraction des
durées des pauses
inter-txt
formalisation
des durées des
pauses inter-txt
extraction des
durées des pauses
inter-gph
formalisation
des durées des
pauses inter-gph
extraction des
durées des pauses
inter-syn
formalisation
des durées des
pauses inter-syn
.bnd
T
F
I
Figure 6.15 : Outils prévus pour le traitement prosodique des différentes pauses
6.3.1 Extraction des pauses inter-syntagmiques (V13)
Les traitements prosodiques dédiés à l’extraction des pauses inter-syntagmiques
usent uniquement des fichiers de type « .bnd », mentionnés dans la figure 6.4. Nous
avons pointé dans le format de ces fichiers, les frontières des syntagmes d’une
manière facilement repérable, i.e. sous la forme des lignes vides, censées traduire
l’emplacement des pauses inter-syntagmiques. Ceci se présente uniquement pour les
gph de type « corps de section », soit fichiers alainHr100052, alainHr100054 et
respectivement alainHr100056.
10
Dans cette figure, les étapes de traitement formel sont représentées en pointillées.
116
Si leur distribution est directement repérable, le calcul des durées des pauses intersyntagmiques est trivial. De la même façon que pour le calcul des durées syllabiques
(cf. section 6.2.1), nous considérons les informations acoustiques relatives au format
des fichiers audio adopté (la fréquence d’échantillonnage fe est ici de 16 KHz) pour
extraire d’une manière immédiate, les durées pour chaque pause inter-syntagmique :
durée_pause_syn_Si_Sj [ms] = (frontière_droite_première_syl_Sj –
– frontière_gauche_dernière_syl_Si) / fe * 1000
Pour exemplifier, la durée de la pause présente dans le troisième gph entre le
syntagme « vous recevez d’excellentes nouvelles concernant votre carrière » et celui
suivant « et de nouvelles portes s’ouvrent devant vous », se calcule selon :
durée_pause_syn_S1_S2 [ms] = (48718 – 47672) / 16000 * 1000 = 65,375 ≅ 65
Transformée en unités de tempo, et ensuite en multiples de l’unité élémentaire de
tempo εtempo (ici, = 1 u.t.), cette durée est équivalente à :
tempo_pause_syn_S1_S2 [syl/s] = 1/ 65 * 1000 = 15,38 ≅ 15 εtempo
Le stockage des durées des pauses inter-syntagmiques, aussi bien que la mise en
correspondance avec leurs identifiants, se font dans les fichiers de type « .dpo » :
Figure 6.16 : Fichiers de type « .dpo » pour le texte-exemple
Les mêmes durées absolues de ces pauses inter-syntagmiques pour le texte entier,
représentées graphiquement se présentent comme suit :
Figure 6.17 : Durée des pauses inter-syn pour les 7 gphs du texte-exemple
117
Nous pouvons discerner dans la figure 6.17, d’une manière grossière, trois grands
types de pauses inter-syntagmiques : celles à durée inférieure à 100 ms, celles à durée
absolue d’environ 350 ms, et celles à durée de 500 ms. Cependant, lors de leur
traduction en unités de tempo, ce regroupement en classes de syllabes change :
Figure 6.18 : Pauses inter-syn pour les gphs du texte-exemple, exprimées en u.t.
Nous pouvons effectivement distinguer dans la figure 6.18, deux types de pauses :
celles décrites par un tempo de 2-3 syl/s, et celles à tempo d’environ 14-15 syl/s. Nous
nommons le premières des pauses longues (ou lentes) et les secondes, des pauses
courtes (ou rapides). De sorte que si nous convenons de noter par ρ, le quotient entre
le tempo des pauses inter-syntagmiques et le tempo syntagmique moyen calculé
auparavant (de valeur 5-6 syl/s), nous avons un rapport ρ ≅ 0.5 pour les pauses
longues et un rapport ρ ≅ 5 pour les pauses courtes. Contrôler ce genre de paramètre
permet d’apporter un plus de « naturalité » dans la variabilité prosodique recherchée
par les solutions actuelles de synthèse vocale. Car à présent celles-ci disposent d’une
génération entièrement automatique des durées (absolues) de pauses, qui ne prend
malheureusement pas en compte leurs valeurs relatives à la vitesse d’élocution.
Regardons maintenant l’association de ces types de pauses avec les éléments de
ponctuation existants dans le support textuel ayant servi pour la lecture, telle que
décrite dans le tableau 6.3. Nous pouvons constater sur cet exemple que les pauses
« lentes » correspondent en général aux marqueurs de ponctuation forte, représentés
ici par « . » ou « ! », exception faite de la frontière des syntagmes t008f05S01 et S02,
qui se traduit en écrit par une virgule (vue ordinairement comme un marqueur de
pause faible) et en oral par une pause lente. À notre avis, ceci est une conséquence
des phénomènes rythmiques d’ordre global qui relèvent des comportements
prosodiques d’eurythmie. Notons que selon [DEL’84], l’eurythmie c’est un procédé qui
vise à équilibrer le nombre de syllabes contenues dans chaque groupe prosodique (ici,
syntagme). Dans les travaux de [LON’02], celui-ci est fixé à 7 syllabes par groupe pour
un débit d’élocution moyen, 4 à 5 pour un débit lent, et à 10 ou plus, en débit rapide.
118
élément typographique
pause inter-syntagmique
identifiant
type
t008f03S01_S02
t008f03S02_S03
t008f03S03_S04
rapide
lente
lente
,
.
.
t008f05S01_S02
t008f05S02_S03
t008f05S03_S04
t008f05S04_S05
lente
lente
lente
rapide
,
.
.
.
t008f07S01_S02
t008f07S02_S03
t008f07S03_S04
t008f07S04_S05
t008f07S05_S06
t008f07S06_S07
lente
rapide
rapide
rapide
lente
lente
.
,
rien
rien
!
.
Tableau 6.3 : Association entre les types de pauses inter-syn et les éléments de ponctuation (exemple)
Pour résumer, nous postulons avec [ZEL’96b], [POR’02] et [MAU’03] qu’il n’existe pas
d’isomorphisme général entre les marqueurs de ponctuation (forte ou faible, selon le
cas) et l’emplacement et la durée des pauses. Par exemple, une virgule ne correspond
pas toujours à une pause, et le cas échéant, la durée de cette pause est extrêmement
variable. Une des causes primaires de cette variabilité est l’emplacement de la virgule
dans la structure discursive. Les mêmes remarques sont valables pour les autres
signes de ponctuation faible ou forte, comme le point-virgule, ou le point final d’une
phrase, etc. Ces traits récurrents de non-isomorphisme typographique-prosodique
constituent un des indices pertinents de la variabilité expressive de la parole,
observable dans sa manifestation prosodique.
6.3.2 Extraction des pauses inter-groupes phrastiques (V16)
Nous avons retenu les pauses, remplies ou silencieuses, en fin de chaque groupe
phrastique, exception faite du dernier gph, qui était censé clore la lecture du texte.
Nous considérons la durée de ces pauses significative notamment pour la mise en
évidence de la structuration du texte en groupes phrastiques. Concrètement, leur
durée se mesure immédiatement à partir des fichiers « .bnd », comme résultat de la
soustraction entre la durée totale d’un fichier gph et la marque de fin de la dernière
syllabe du dernier syn du gph respectif, modulo la fréquence d’échantillonnage (fe =
16KHz). Ainsi, pour le texte-exemple, en lecture « typique », nous avons les durées :
119
Figure 6.19 : Pauses inter-gph [ms] pour le texte-exemple, en lecture « typique »
Nous pouvons constater, toujours grossièrement, dans la figure 6.19, deux types
de pauses inter-gph : celles à durée d’environ 500 ms, et celles à durée d’environ
1000-1100 ms. Les premières correspondent aux pauses présentes entre le gph de type
signe et le gph de type titre-section, ainsi qu’entre le gph de type titre-section et le gph
de type corps-section. Numériquement, elles ont le même ordre de grandeur que les
pauses inter-syntagmiques lentes (cf. 6.3.1). Les secondes correspondent aux pauses
présentes entre le gph de type corps-section et le gph titre-section suivante et ont un
ordre de grandeur environ deux fois plus grand que les précédentes. Nous
convenons de les appeler dans la suite « pauses très lentes ».
Notons ici que dans la lecture dite « typique », les pauses très lentes ont pour rôle
de faciliter le dépistage des frontières discursives d’ordre supérieur, en rendant ainsi
la structure du texte et donc l’organisation du discours associé, aisément repérable.
Plus encore, les pauses inter-gph sont des éléments prosodiques indispensables au
discernement de certains genres (comme c’est le cas, par exemple, des recettes de
cuisine discutées dans le chapitre 4, section 4.1.1.2 et illustrées dans l’annexe A10).
Observons maintenant le comportement de ces pauses en fonction de quelques
types de lecture (lecture « typique », lente, rapide, en vitesse normale, etc.) :
a
b
Figure 6.20 : Pauses inter-gph (en [ms] et [u.t.]) pour le texte-exemple, en fonction du type de lecture
120
La même tendance de regroupement en « familles » des pauses inter-gph lentes,
rapides, très rapides (cf. section précédente 6.3.1), s’observe dans la représentation de
ces pauses exprimées en u.t., comme le montre la figure 6.20b. Nous détailleront dans
le chapitre 8, section 8.2, l’analyse de ces pauses, lors des discussions sur les résultats
des études prosodiques comparatives menées sur un ensemble de formes expressives.
Nous illustrons ici les modules pour l’exécution des traitements pour les pauses :
TPP_pauses_1
.bnd
module d’extraction
des durées des
pauses inter-syn
.psyn
TPP_pauses_3
.pcm
TPP_pauses_2
module d’extraction
des durées de pauses
inter-gph
module d’extraction
des durées de pauses
inter-txt
.ptxt
.pgph
Figure 6.21 : Schéma des modules informatiques pour le traitement des paramètres de pause
6.3.3 Discussion sur les pauses inter-textuelles
Nous avons vu jusqu’ici le comportement des pauses inter-syntagmiques ou bien des
pauses inter-gph pour un texte donné. Qu’il s’agisse des premières ou des secondes,
ces pauses se placent toujours à l’intérieur d’un texte. Il est vrai que ceci suffit comme
étude si nous nous plaçons dans un cadre applicatif de synthèse vocale d’un seul
texte à la fois, comme un conte ou un horoscope (par exemple, personnel, voire
même personnalisable). Mais il serait intéressant d’imaginer un cadre applicatif qui
propose la lecture de plusieurs textes à la fois. Nous pensons précisément à la
synthèse vocale d’une suite d’horoscopes (ou d’humouroscopes) pour l’ensemble des
12 signes astrologiques rencontrés dans la culture occidentale, ou bien d’un sousensemble de ceux-ci qui intéressent l’utilisateur (par exemple, uniquement ceux des
membres de la famille, des amis proches, de la personne aimée). À terme, cette
nouvelle pratique pourrait remplacer ou diversifier la lecture d’horoscopes, sérieux
ou humoristiques, faite régulièrement tous les matins sur la plupart des chaînes radio.
Du point de vue des traitements prosodiques, le nouveau cadre applicatif décrit cidessus suppose un ensemble d’étapes d’analyse prosodique supplémentaires que
nous pouvons imaginer comme une ouverture du cadre de modélisation proposé ici.
Ces analyses doivent impérativement inclure le traitement des pauses apparaissant
entre plusieurs textes, mais en même temps étudier la façon dont la présence de cet
enchainement textuel, censé « faire un tout » discursif, apporte des changements
prosodiques internes à chacun des textes, qui le composant :
121
bélier
taureau
gémeaux
cancer
lion
...
pauses inter-txt
Figure 6.22 : Emplacement des pauses inter-txt pour une synthèse vocale multi-textuelle
En nous rapportant à plusieurs références pratiquant des lectures multi-textuelles
d’horoscopes, nous avons pu remarquer quelques procédés discursifs de réalisation
d’alternances, pas seulement prosodique, dans cet enchaînement textuel. Un de ceuxci, probablement le plus simple, consiste en le changement de voix du locuteur : les
textes des horoscopes sont prononcés alternativement, par une voix féminine et une
voix masculine. En lui sollicitant l’attention tout au long de cette lecture, l’alternance
des voix est vouée à apporter une « pigmentation » dans la monotonie que la lecture
des 12 textes pourrait produire chez l’auditoire. Ceci s’avère être une solution simple
de variation expressive (de nature idiolectale de timbre et/ou prosodique) pour les
unités discursives d’ordre supérieur.
Toutefois, à défaut d’avoir plusieurs voix dédiées à la cette lecture alternée
d’horoscopes multiples, d’autres références comme c’est le cas de [RTL’10], utilisent
des procédés discursifs d’alternance prosodique trans-textuelle qui s’appuient, par
exemple, sur la variation des pentes mélodiques associées aux groupes phrastiques
(le plus couramment, ceci est rencontré pour les gph de type « signe ») :
Figure 6.23 : Alternance des pentes mélodiques des signes dans une synthèse vocale multi-textuelle
Cette façon de réaliser une sorte de variation expressive à l’aide d’une alternance
(montant / descendant / montant / descendant, etc.) dans les contours mélodiques, est
un procédé prosodique caractéristique à la vocalisation des suites de divers éléments.
Nous l’avons ponctuellement rencontré lors de l’étude des titres de sections dans les
pratiques de verbalisation orale d’horoscopes :
Figure 6.24 : Alternance des pentes mélodiques des titres des sections dans un texte d’horoscope
122
Il nous semble important de jeter un coup d’œil rapide sur un cadre applicatif
concerné par ce type de manifestation prosodique locale, qui est censée mettre en
proéminence une structure textuelle (voire inter-textuelle) de suite d’éléments. Nous
mentionnons MediaDico, une application disponible en ligne à [MED’08] qui emploie
la synthèse vocale développée par France Télécom. La fonctionnalité de vocalisation
d’un mot spécifié et de sa liste de synonymes proposée est assurément intéressante
pour la commercialisation du produit de synthèse vocale. Cependant, le grand
désagrément pour son utilisation à long terme, réside dans le fait que le rendu vocal
de cette application montre une pauvreté expressive, perçue principalement par la
non-alternance des contours mélodiques associés à chaque item dans la liste des
termes11 synonymiques.
Nous présentons un exemple d’utilisation (ici, en format écrit) de cette application :
> mot
Écouter les synonymes...
1/ terme: vocable, expression, réflexion, parole, locution.
2/ lettre: billet, missive, message.
3/ mot d'esprit: boutade, trait, plaisanterie, jeu de mot.
4/ jeu de mot: mot d'esprit, boutade, trait, plaisanterie, contrepèterie, anagramme.
5/ gros mot: grossièreté, insulte, invectives, juron, injure, jurement, blasphème.
Figure 6.25 : Aperçu d’un exemple de l’application MediaDico
À l’écoute, la liste des synonymes ressent comme monotone, les termes « terme » ,
« lettre », « mot d’esprit », …, « gros mot » étant prononcés avec la même intonation
que « vocable », « expression », …, « blasphème ». Dans ce cas d’absence évidente
d’une structure morpho-syntaxique « complète », la pauvreté expressive de cette liste
est due principalement à l’ignorance de regroupements de type syntagme ou groupe
phrastique, basés ici exclusivement sur les aspects typographiques. Ainsi, i) les items
terminés par « : », sont des syntagmes de type « sous-titre », tandis que les termes
séparés par « , », des syntagmes ordinaires ; et ii) le contenu de chaque « sens »
synonymique constitue un groupe phrastique et, de ce fait, la liste de synonymes
devient une liste des groupes phrastique, qui constitue le texte entier. Les pauses
entre chaque syntagme ordinaire (ainsi qu’entre les syntagmes « sous-titre » et le
premier de ces derniers), sont des pauses inter-syn, et celles associés aux points
« finaux », des pauses inter-gph. Par leurs valeurs, elles doivent faciliter le repérage
hiérarchique du contenu textuel en groupes phrastiques et syntagmes, repérage
réalisé également par l’alternance des contours mélodiques des syntagmes « soustitres », et aussi des syntagmes ordinaires en fin de groupe phrastique. Nous allons
revenir sur ce sujet dans la section suivante, dédiée aux traitements mélodiques.
11
Verbalisés sous la forme de : « premier sens », « deuxième sens », « troisième sens », « quatrième sens », etc.
123
6.4
Traitements prosodiques pour les paramètres mélodiques (F)
Nous présentons ci-dessous les étapes consacrées aux divers traitements mélodiques :
outils pour le traitement mélodique
traitements numériques
traitements formels
...
calcul de la tessiture
mélodique du texte
formalisation des
mouvements mélodiques
pour le texte entier
calcul de la tessiture
mélodique pour les
groupes phrastiques
calcul des indices de
déclinaison mélodique
des groupes phrastiques
...
formalisation des
mouvements mélodiques
pour les groupes phrastiques
F
calcul des indices de
déclinaison mélodique
pour les syntagmes
stylisation des contours
mélodiques pour les
syntagmes
formalisation des
mouvements mélodiques
pour les syntagmes
stylisation des contours
mélodiques pour les
syllabes
formalisation des contours
mélodiques pour les
syllabes
extraction
des fréquences
fondamentales
syllabiques
.pfo
.bnd
Figure 6.26 : Outils numériques et formels pour le traitement mélodique
124
6.4.1
Extraction des fréquences fondamentales pour les syllabes (V1)
Cette première étape de la chaîne de traitements prosodiques mélodiques est vouée à
l’extraction des valeurs numériques de la fréquence fondamentale, correspondant à
chaque syllabe. Il s’agit ici d’opérer le premier ancrage des mouvements mélodiques
sur des unités phonologiques, qui sont tout d’abord les unités d’analyse locales.
Cet ancrage est rendu possible grâce à la valeur ajoutée de l’environnement de
développement12, qui nous a permis de disposer d’outils d’extraction des données
fréquentielles « brutes ». Nous nous contentons de donner ici uniquement le résultat
de ces traitements d’extraction de fréquences fondamentales « brutes » à partir d’un
fichier audio sous format .pcm, en dirigeant le lecteur intéressé par plus de détails
vers les références de spécialité (cf. [VIN’05]). Nous exemplifions sur le gph n° 1 de
l’horoscope pris comme exemple, qui correspond au signe « Bélier ».
En sortie du module d’extraction des fréquences fondamentales F0
« brutes », nous avons un fichier comme celui-ci-contre, qui
contient des données organisées sur deux colonnes : i) la première
colonne contient les « trames » (appelées couramment « instants »)
à chaque 10 ms, traduites numériquement en multiples de 160 (car
fe = 16 KHz), et ii) la seconde, la valeur de la F0 extraite pour la
trame respective.
Les valeurs nulles des fréquences fondamentales correspondent
soit i) aux passages silencieux, présents ici en début et en fin de
fichier, mais qui pourraient, pour d’autres groupes phrastiques,
convenir aussi bien aux pauses inter-syntagmiques, soit ii) aux
parties de signal de parole non-voisées13, comme c’est le cas, par
exemple, du phonème initial « B ».
L’ancrage de ces valeurs mélodiques « brutes » sur chaque
syllabe se réalise à l’aide des fichiers « .bnd » qui contiennent les
informations relatives aux frontières syllabiques (cf. figure 6.28
plus loin). Nous avons ainsi les valeurs fréquentielles pour les
deux syllabes constituant ce groupe phrastique : B_EI et L_Y_EI.
Figure 6.27 : Exemple des données fréquentielles « brutes » pour le premier groupe phrastique
Nous rappelons que notre thèse a été élaborée au sein de l’équipe Vocalisation Multimodale Innovante (VMI)
dans le département de Speech and Sound Technologies Processing (SSTP), de France Télécom, Lannion.
13 En phonétique (cf. [BOI’00]), le voisement traduit le fait de réaliser un phonème avec une vibration des cordes
vocales. C’est le cas de toutes les voyelles et de certaines consonnes (comme le « z »). Les phonèmes non-voisés
(tels les « s », « t », « f », etc.), n’utilisent pas les cordes vocales, comme quand on siffle ou quand on utilise la
bouche comme cavité résonante. Ce procédé de non-voisement est également présent dans la parole chuchotée.
12
125
Figure 6.28 : Exemple des frontières syllabiques pour le premier gph (rappel)
Pour la syllabe B_EI, les valeurs fréquentielles correspondant aux trames contenues
entre les valeurs limitrophes 1920 et 4720, composent le vecteur numérique suivant :
[98, 98, 103, 105, 108, 114, 124, 134, 145, 157, 170, 182, 194, 209, 222, 226, 234, 235]
Pour la syllabe L_Y_EI, les valeurs fréquentielles « brutes », contenues14 entre les
trames 4720 et 9676, composent le vecteur numérique suivant :
[235, 221, 205, 197, 195, 195, 195, 190, 181, 169, 160, 158, 159, 160, 156, 149, 140, 133, 127, 119, 111, 103, 96]
Ces vecteurs de fréquences fondamentales « brutes » sont obtenus d’une manière
automatique, à l’aide d’outils informatiques (cf. module F_syl_1.py) spécialement
conçus pour cette tâche. Nous nous contentons d’illustrer ici seulement leur rendu :
Extraction des valeurs F0 :
t008f01S01s01
t008f01S01s02
98 98 103 105 108 114 124 134 145 157 170 182 194 209 222 226 228 234
235 221 205 197 195 195 195 190 181 169 160 158 159 160 156 149 140 133 127 119 111 103 96
Les valeurs « brutes » contenues dans ces vecteurs numériques vont servir comme
données d’entrée pour l’étape suivante dans la chaîne des traitements mélodiques,
qui consiste en la stylisation des fréquences fondamentales syllabiques.
6.4.2 Stylisation des contours mélodiques pour les syllabes (V1)
Avant de procéder à la formalisation des valeurs fréquentielles associées aux syllabes,
c’est-à-dire à leur « conversion » en contours (ou mouvements) formels, il est capital
de passer par une étape préliminaire, nommée dans la littérature de spécialité (cf.
[CAM’00]) « stylisation » de la fréquence fondamentale. Qu’elle soit appliquée pour les
syllabes ou les syntagmes, la stylisation apporte une « simplification » dans les
multiples valeurs numériques de fréquence fondamentale, extraites pour l’unité
phonologique respective (ici, la syllabe et, comme nous allons le voir en 6.4.4, le
14
Nous avons retenu uniquement les valeurs non-nulles pour la fréquence fondamentale.
126
syntagme). Cette simplification peut concerner : i) les valeurs dites « marginales »,
susceptibles d’être des valeurs « aberrantes », et dont la présence est due notamment
aux mauvaises segmentations (en syllabe, le plus souvent) ; ii) les valeurs dites
« intermédiaires » qui se situent sur la même pente mélodique (montée ou descente),
porteuses d’informations redondantes quant aux mouvements mélodiques, etc.
Pour nos deux syllabes d’exemple, la stylisation des fréquences fondamentales
donne (module F_syl_2.py, cf. schéma dans la figure 6.52), les résultats suivants :
Extraction des valeurs F0 pour les syllabes :
t008f01S01s01
t008f01S01s02
98 98 103 105 108 114 124 134 145 157 170 182 194 209 222 226 228 234
235 221 205 197 195 195 195 190 181 169 160 158 159 160 156 149 140 133 127 119 111 103 96
Stylisation des valeurs F0 extraites pour les syllabes :
t008f01S01s01
t008f01S01s02
[ [1, 98], [17, 234] ]
[ [0, 235], [22, 96] ]
Nous avons gardé les points de référence dans le temps pour les points cible de
stylisation syllabique. Ils sont exprimés par le numéro15 de la trame correspondant au
point cible respectif. Ainsi, les valeurs de points stylisées pour la première syllabe, 98
et 234, correspondent respectivement aux trames numéro 1 et 17. De la même
manière, les points stylisés pour la seconde syllabe, 235 et 96, correspondent aux
trames numéro 0 et 22, comme illustré dans la figure suivante :
Figure 6.29a : Stylisation mélodique (en [Hz]) pour les syllabes « B_EI » et « L_Y_EI »
Il s’agit ici de rechercher dans le vecteur des valeurs fréquentielles « brutes », qui
décrit l’excursion des fréquences fondamentales, les points-cible qui correspondent
aux extrêmes (minima et maxima) locaux dans cette excursion fréquentielle. Dans le
cas de la deuxième syllabe, qui présente un mouvement globalement descendant, ces
points-cible correspondent aux valeurs des points de départ (trame 0) et d’arrivée
15
Nous précisons que la numérotation des trames syllabiques commence ici par 0.
127
(trame 22) de l’excursion fréquentielle. Pour la première syllabe, les points cible
correspondent aux trames 1 et 17, la seconde étant la trame finale. Remarquons ici
que la valeur associée à la trame numéro 0 n’est pas prise en compte, puisque
« nettoyée », en préalable, par les algorithmes de stylisation. Le « nettoyage » des
valeurs fréquentielle dites « marginales » constitue la première sous-étape de l’étape
de stylisation et se réalise à l’aide d’un paramètre nommé δt, qui équivaut ici au 10%
du nombre total des trames pour la syllabe courante (cf., entre autre, [BOI’09]). Ainsi,
les premières et les dernières δt (10%) valeurs numériques des F0 pour une syllabe
seront examinées plus attentivement. Si elles se situent dans un mouvement global
de même pente que les suivantes (pour les premières) ou les précédentes (pour les
dernières), elles seront prises en compte dans la stylisation. Le cas échéant, elles
seront considérées comme des valeurs non-appropriées, probablement « aberrantes »,
en tout cas non-pertinentes pour la stylisation et seront, par conséquent, « nettoyées ».
Évidemment, il est aussi possible et facilement réalisable d’opérer la stylisation
d’excursions fréquentielles sur les mêmes données, mais exprimées cette fois-ci, sous
un format logarithmique16. L’ordonnée décrivant l’échelle numérique en Hz est ainsi
transposée en une ordonnée décrivant une échelle en demi-tons (dt) :
Figure 6.29b : Stylisation mélodique (en [dt]) pour les syllabes « B_EI » et « L_Y_EI »
Dans cette figure, le résultat de la stylisation syllabique illustre l’approximation
d’un mouvement fréquentiel d’environ un demi-ton, qui est strictement ascendant
pour la première syllabe et strictement descendant pour la deuxième syllabe.
Précisons que la stylisation proposée ici s’avère être une solution flexible quant à
sa facilité d’adaptation aux contextes expressifs divers et variés. Un court survol sur
les nombreuses solutions de stylisation existantes ([AST’97], [NAR’02], [CAM’00], pour
citer seulement quelques-uns), dévoile une tendance générale à garder un nombre de
Exprimer les mêmes mouvements fréquentiels en Hz ou en demi-tons est, certes, une question de choix de
représentation pour la précision de transition entre les niveaux fréquentiels, mais aussi de projection vers une
méthodologie d’évaluation perceptive (car, comme on le sait en musique, l’oreille humaine semble discerner les
fréquences sur une échelle logarithmique [ABI’05], [ROS’72]).
16
128
points cible constant pour chaque syllabe. Plus facile à traiter dans la suite, cette
contrainte de « normalisation » des syllabes dès l’étape de stylisation, utilisée
abondamment dans la littérature de spécialité, ne peut convenir comme solution
générique, dédiée à la formalisation (à posteriori) des contours mélodiques pour la
parole expressive en général, dans toute sa variabilité. Certes, notre solution de
stylisation par un nombre varié des points cible a aussi, ses limites. Pour exemplifier,
nous présentons ici la stylisation d’une syllabe issue de la lecture sportive du texte
exemple. Il s’agit, plus précisément, de la syllabe finale « D_AN_S_E » du dernier
mot du dernier syntagme de notre texte (« exprimez votre désir d’indépendance ») :
Figure 6.30 : Stylisation mélodique (en [Hz]) pour la syllabe « D_AN_S_E » en lecture sportive
Une courte discussion sur le résultat illustré dans cette figure nous semble
nécessaire ici. Nous pouvons donc remarquer dans la stylisation 6.30, un ensemble
de 4 paliers (voire 6, les deux derniers étant moins facilement distinguables) qui
correspondent au noyau vocalique complexe, formé par la voyelle principale « AN »
répétée plusieurs fois. La réalisation prosodique (fréquentielle et temporelle) de cette
syllabe est très particulière et s’apparente à celle employée par un commentateur de
match de football qui crie le fameux « Buuuuuut ! ». Nous en illustrons dans la figure
6.31 un aperçu de sa transcription, avec le sonagramme correspondant.
Les principales caractéristiques observables pour la réalisation prosodique de cette
syllabe illustrent : i) une durée syllabique fortement allongée, due principalement à
la présence du noyau vocalique complexe mentionné ci-dessus (d’environ 2500 ms,
soit 10 fois plus grande que la durée « moyenne ») ; et ii) une excursion fréquentielle
(accompagnée souvent d’une énergétique) à plusieurs paliers hauts, correspondant
aux réalisations répétées de la voyelle principale du noyau (« AN »), qui s’estompe
vers la fin. Des analyses prosodiques plus détaillées seront présentées dans le
chapitre 8, section 8.2, lors des discussions sur les résultats des études comparatives
entre les formes expressives discussives issues des lectures « typiques » et en mode
« commentaire sportif ».
129
Figure 6.31 : Exemple de réalisation acoustique pour la syllabe « D_AN_S_E » en lecture « sportive »
Remarquons en fin de cette sous-section que la solution de stylisation mélodique
proposée ici dessert volontairement la représentation phonologique formelle choisie,
tel que décrite dans le chapitre 5 du présent document, puisqu’en fin de compte, la
stylisation mélodique est vouée à faciliter la formalisation ultérieure des contours
mélodiques (cf. figure 6.26) :
stylisation des contours
mélodiques pour les
syllabes
formalisation des contours
mélodiques pour les
syllabes
extraction
des fréquences
fondamentales
syllabiques
.pfo
.bnd
Figure 6.32 : Outils pour le traitement mélodique syllabique : extraction, stylisation, formalisation
6.4.3
Formalisation des contours mélodiques pour les syllabes (V1)
L’étape suivante dans l’enchaînement d’étapes dédiées aux traitements mélodiques
consiste en la formalisation des contours mélodiques syllabiques. Nous partons ainsi
des données fréquentielles stylisées auparavant (cf. figure 6.29a), que nous allons
convertir dans des représentations formelles adéquates. Pour illustrer, prenons le
même exemple des deux syllabes issues de la lecture typique « B_EI » et « L_Y_EI » :
130
Formalisation des valeurs F0 stylisées pour les syllabes :
t008f01S01s01
t008f01S01s02
[('X', 9), ('T', 14)]
[('S', 0], ('B', 14)]
Leur correspondance avec les valeurs stylisées est illustrée dans la figure suivante :
Figure 6.33a : Contour mélodique stylisé et formel pour la syllabe « B_EI »
Figure 6.33b : Contour mélodique stylisé et formel pour la syllabe « L_Y_EI »
La formalisation des valeurs fréquentielles stylisées ne se fait pas ici pour chaque
syllabe isolément, contrairement aux plus nombreuses approches de formalisation
phonologique qui se contentent de garder une portée très locale d’analyse des
phénomènes de variation mélodique. Si tel était le cas, l’algorithme utilisé pour notre
formalisation, aurait donné comme résultat (*fictif) les mouvements formels suivants :
t008f01S01s01
t008f01S01s02
[('X', 9), ('H', 14)]
[('X', 23], ('L', 14)]
131
Bien que notre formalisation concerne chaque syllabe, celle-ci est réalisée compte
tenu du voisinage d’excursion fréquentielle, qui définit un « contexte mélodique »,
aussi bien antérieur que postérieur à la syllabe concernée. De sorte qu’en suivant
l’exemple ci dessus, la deuxième syllabe (t008f01S01s02) est liée de la première, par
son point référent (‘X’, 23) qui devient (‘S’, 0), le niveau fréquentiel de départ pour
t008f01S01s02 étant identique à celui de fin pour t008f01S01s01. La portée maximale
des « dépendances contextuelles » dans cette formalisation est définie par le groupe
phrastique : c’est au niveau de ce dernier que sont définis les niveaux absolus T et B
(tant mélodiques que temporels), ainsi que la valeur unique référentielle X.
Si nous nous rapportons à la typologie élémentaire des représentations formelles
telle qu’évoquée en A8, nous constatons que les contours mélodiques des syllabes
t008f01S01s01 et s02 conviennent à des mouvements de type 1 et 2, de la classe alpha :
contour classe alpha-type 1 (montant)
contour classe alpha-type 2 (descendant)
Figure 6.34 : Typologie des contours mélodiques formels pour les syllabes « B_EI » et « L_Y_EI »
Les mêmes procédés de mise en représentation formelle s’appliquent pour toute
excursion fréquentielle syllabique, à condition que cette dernière soit stylisée en
préalable. Et ceci, indépendamment de la provenance des syllabes qui restent
assidûment tributaires des caractéristiques extratextuelles de genre, d’idiolecte et de
situation de lecture. Pour finir l’illustration, le contour mélodique formel associé à la
syllabe finale « D_AN_S_E » en lecture « sportive », dont la stylisation mélodique a
été divulguée précédemment, se présente sous la forme suivante :
Figure 6.35 : Contours mélodiques (stylisé et formel) pour la syllabe « D_AN_S_E » en lecture sportive
132
Les paliers fréquentiels stylisés qui correspondent au noyau vocalique multiple (cf.
la section 6.4.2) se retrouvent comme tels dans la représentation formelle, qui retrace
la même allure de l’excursion fréquentielle, soit une allure globalement descendante.
Cependant, la complexité du mOt_mel formel (ayant la composante littérale, pour
une valeur d’epsilon_mel de 10 Hz, SSLSLSLSLSLHLSLSLSSSSLSB) qui décrit cette
représentation, rend la classification du contour mélodique de la syllabe courante,
très ardue. Nous convenons (cf. taxinomie formelle décrite en annexe A8) de classer
ce contour parmi les mouvements complexes et très irréguliers de la classe delta :
contour classe delta (complexe, globalement descendant)
Figure 6.36 : Typologie du contour mélodique formel pour la syl « D_AN_S_E » en lecture sportive
6.4.4
Extraction et stylisation des contours mélodiques pour les syntagmes (V2)
De la même manière que pour les traitements numériques dédiés à l’extraction et à la
stylisation des contours mélodiques syllabiques (V1), l’extraction et la stylisation des
contours mélodiques syntagmiques est une étape qui précède la formalisation des
mouvements fréquentiels (variables V2) associés à ces unités phonologiques à portée
plus globale. Or, si le procédé algorithmique d’extraction des valeurs fréquentielles
pour les syntagmes reste identique17 à celui employé pour l’extraction des fréquences
syllabiques, l’algorithme de stylisation syntagmique, lui, peut (mais ce n’est pas exigé)
comporter quelques modifications, certes infimes, par rapport à celui de stylisation
syllabique : un paramétrage δt moins précis18 que pour les syllabes, censé diminuer le
taux d’omission des valeurs marginales, susceptibles d’être des valeurs aberrantes,
dont la présence, pour les syllabes, est due notamment aux mauvaises segmentations.
Pour notre premier syntagme « Bélier » (t008f01S01), constitué des deux syllabes
mentionnées précédemment « B_EI » (t008f01S01s01) et « L_Y_EI » (t008f01S01s02),
Dans ce cas, les fichiers de type « .bnd » contiennent les marques gauche et droite du découpage en syntagmes.
La segmentation en syntagmes étant moins exigeante et donc plus simple, nous avons convenu ici à une valeur
par défaut de δt de 5% du nombre total des valeurs fréquentielles pour un syntagme.
17
18
133
l’extraction et la stylisation des fréquences fondamentales donne respectivement (cf.
modules F_syn_2.py et F_syn_3.py, figure 6.52), les résultats suivants :
Extraction des valeurs F0 pour les syntagmes :
t008f01S01
98 98 103 105 108 114 124 134 145 157 170 182 194 209 222 226 228 234 235 221 205 197 195 195 195
190 181 169 160 158 159 160 156 149 140 133 127 119 111 103 96
Stylisation des valeurs F0 extraites pour les syntagmes :
t008f01S01
[[1, 98], [18, 235], [40, 96]]
Figure 6.37 : Stylisation mélodique (en [Hz]) pour le syntagme « Bélier » (lecture typique)
6.4.5
Formalisation des contours mélodiques pour les syntagmes (V2)
Si nous retournons à la figure 6.26, nous remarquons le fait que la formalisation des
mouvements mélodiques pour les syntagmes puisse être réalisée par deux voies
différentes : soit i) à partir des résultats de la stylisation des valeurs fréquentielles
extraites pour le syntagme respectif, soit ii) à partir des résultats de la formalisation
des contours mélodiques pour les syllabes composant le syntagme :
stylisation des contours
mélodiques pour les
syntagmes
formalisation des
mouvements mélodiques
pour les syntagmes
i)
ii)
formalisation des contours
mélodiques pour les
syllabes
Figure 6.38 : Procédés possibles dans la formalisation des contours mélodiques des syntagmes
i) Le premier procédé consiste à formaliser les contours mélodiques pour chaque
syntagme en partant, comme détaillé dans le cas des syllabes (cf. section 6.4.3),
134
directement des valeurs fréquentielles issues de l’étape de stylisation. De ce fait,
pour l’exemple du syntagme « Bélier » mentionné auparavant, nous avons :
Stylisation des valeurs F0 extraites pour les syntagmes :
t008f01S01
[[1, 98], [18, 235], [40, 96]]
Formalisation des F0 stylisées pour les syntagmes :
t008f01S01
[('X', 9), ('T', 14), ('B', 14)]
Figure 6.39 : Contour formel issu des données stylisées - i) pour le syntagme « Bélier »
Remarquons que par l’imposition du groupe phrastique comme portée minimale
d’analyse, la cohérence de représentation des niveaux des extrêmes mélodiques T
et B entre les contours formels des syllabes et ceux des syntagmes, est assurée.
Nous n’insistons pas plus ici sur la formalisation de ceux-ci, mais conseillons le
lecteur intéressé, de revoir le sujet, débattu pour les syllabes, dans la section 6.4.3.
ii) Le second procédé consiste à formaliser, pour chaque syntagme, les contours
mélodiques en partant des contours mélodiques des syllabes qui composent le
syntagme courant, qui ont été formalisés en préalable. Dans un premier temps, il
s’agit assurément d’une concaténation19 « formelle » des mouvements syllabiques.
Puis, selon le cas, une étape de vérification de la « bonne écriture formelle » du
résultat de cette concaténation est requise. En guise d’illustration, prenons le
même exemple du syntagme mentionné auparavant, « Bélier » en lecture typique :
Formalisation des valeurs F0 stylisées pour les syllabes :
t008f01S01s01
t008f01S01s02
[('X', 9), ('T', 14)]
[('S', 0], ('B', 14)]
Comme détaillé dans l’annexe A7, cette concaténation « néglige » volontairement les S initiaux (nommés ici des
« S cohésifs ») des représentations formelles des mélodies syllabiques.
19
135
Concaténation des mélodies syllabiques pour les syntagmes :
t008f01S01
[('X', 9), ('T', 14), ('B', 14)]
+
=
Figure 6.40 : Contour formel issu des données syllabiques formelles – ii) pour le syntagme « Bélier »
En comparant les résultats (cf. figures 6.39 et 6.40 ci-dessus) des deux procédés de
formalisation des contours mélodiques pour les syntagmes (variables prosodiques
V2), nous pouvons aisément constater une totale conformité entre ceux-ci. Cela
s’avère fréquemment valable pour les représentations syllabiques simplistes (i.e.
traduites par des contours de classe alpha ou bêta).
6.4.6
Calcul des indices de déclinaison mélodique pour les syntagmes (V3)
Les syntagmes, unités phonologiques d’ordre supérieur par rapport aux syllabes,
comportent en plus de la description formelle de leurs contours mélodiques, deux
indices numériques20, que nous nommons dans la suite « indices de déclinaison ».
Retrouvés couramment dans la littérature (cf. [MAR’87], [LAC’99]) sous la terminologie
d’ « indices (ou de degrés) de déclinaison tonale », ceux-ci font partie, parmi les
variations qui affectent la fréquence fondamentale, des phénomènes les plus étudiés
probablement parce qu’ils sont considérés des phénomènes universels du langage
(cf. [GRO’02]). Si leur visée quantitative reste la description du caractère montant (ou
descendant) de la pente21 mélodique des syntagmes, leur visée qualitative, surtout en
termes d’analyse du discours, est sujette à des débats scientifiques ardus.
Selon [LAC’99], la déclinaison tonale globale définit un « abaissement progressif de
la fréquence fondamentale du début à la fin » (de l’énoncé ou du syntagme). Puis,
selon [LAD’84], et citant [GRO’02], les études sur la déclinaison relèvent soit : i) des
approches statistiques, qui généralisent certaines propriétés acoustiques de la
fréquence fondamentale sans proposer aucun modèle du phénomène, soit ii) des
approches phonologiques, selon lesquelles la déclinaison est traitée comme une
Ceci dit, leur expression numérique se fait toujours en multiples d’unités fondamentales (i.e. epsilon_mel), de la
même manière que l’expression de la partie numérique des mOts formels (cf. chapitre 5).
21 Globale pour l’indice de déclinaison globale (ou « totale »), ou locale pour celui de déclinaison locale (« finale »).
20
136
modification systématique, durant l’énoncé, du cadre de référence phonétique dans
lequel les éléments phonologiques (comme par exemple l’emphase,, etc.) sont
réalisés. Et même si les premières approches « se bornent à observer qu’il y a plus de
contours intonatifs qui déclinent que de contours qui ne déclinent pas », et que seules
les approches phonologiques proposent un modèle explicatif de la déclinaison,
[LAD’84] admet qu’ « il y a autant d’arguments pour et contre le fait de considérer ce
phénomène comme étant automatique, et ayant donc une pertinence au niveau
phonologique ». [GRO’02] continue en posant la question de la chute de la fréquence
fondamentale qui caractérise souvent le syntagme final d’un énoncé : « comment être
sûr que cette chute est due à la déclinaison tonale plutôt qu’à une loi phonologique
d’abaissement final qui s’appliquerait dans certains environnements discursifs ? »
Effectivement, il semble difficile de savoir si la déclinaison tonale constitue « une
composante intrinsèque de la fréquence fondamentale » qui s’expliquerait au moyen
de causes physiologiques souvent incontrôlables, ou si elle est « parfaitement
contrôlée par le locuteur afin de véhiculer des informations précises » [LAC’99]. Dans
tous les cas, « quel que soit le caractère du phénomène, automatique ou programmé,
conscient ou non », [GRO’02] conclue que la ligne de déclinaison est un élément
pertinent pour la segmentation (automatique ou pas) de l’ensemble du discours.
Dans le même ordre d’idées, Martin mentionne en [MAR’87] (voir aussi [POR’02], et
[CAE’81]) que les contours mélodiques montants et descendants portés par les syllabes
accentuées en final de groupes rythmiques22, permettent à l’auditeur la structuration
de l’énoncé en unités, lui facilitant la reconstruction du sens global. Ainsi, les notions
de groupe rythmique et de mouvement (pente) mélodique deviennent indissociables
pour une langue comme le français. Puis, partant vraisemblablement plus sur les
aspects quantitatifs, l’auteur propose deux mécanismes intonatifs très simples qui
expliqueraient le découpage, en français, d’un discours23 en groupes rythmiques : i)
l’inversion de la pente mélodique (abrégée par IPM) et ii) l’amplitude de variation
mélodique (abrégée dans la suite par AVM).
Selon le premier mécanisme, lorsque l’on divise un énoncé en deux ou plusieurs
groupes (ou syntagmes) rythmiques, chacun de ces derniers recevra un contour
mélodique dont la pente sera inverse de la pente du dernier groupe rythmique :
syntagme1
syntagme2
syntagme3
Figure 6.41 : Exemple d’inversion des pentes mélodiques pour 3 syntagmes rythmiques
Dans le cas d’une présence de plusieurs groupes rythmiques, la hiérarchisation de
ceux-ci au sein du discours se fera, selon le second mécanisme, en fonction de la
différence dans le degré ou l’amplitude de variation mélodique des pentes de ces
22
23
Les groupes rythmiques ne sont rien d’autre que ce que nous avons nommé avant « syntagmes rythmiques ».
Restreint, dans les travaux cités par [MAR’87], à un seul énoncé.
137
groupes. Ainsi, deux contours descendants (ou montants) qui ne sont pas associés au
même niveau dans la hiérarchie discursive, peuvent être signalés par l’intermédiaire
de l’intonation s’il y a une différence de degré dans leur pente mélodique. Celle-ci
étant souvent traduite par une descente mélodique moins forte (qui correspond dans
la figure 6.41 au syntagme n° 1) entre les groupes rythmiques associés aux niveaux
hiérarchiques inférieurs, et inversement.
Nous illustrons plus loin (cf. section 8.1), sur plusieurs exemples, la façon dont ces
deux règles prosodiques opèrent sur la démarcation des frontières des syntagmes
rythmiques à l’intérieur d’un groupe phrastique, et puis d’un texte entier.
Compte tenu de ces considérations, nous retenons que les indices de déclinaison
mélodique qui décrivent (localement ou globalement) chaque syntagme, sont des
éléments essentiels pour la caractérisation de la variabilité des contours prosodiques
mélodiques. Nous procédons dans la suite à leur calcul. Ainsi, pour le syntagme
d’exemple, « Bélier » en lecture typique, nous avons :
Calcul des indices de déclinaison mélodique totale pour les syntagmes :
t008f01S01
[('X', 9), ('T', 14), ('B', 14)]
[0, 0]
0
La première valeur du couple [0, 0] indique la valeur de l’indice de déclinaison
totale, tel que calculé formellement, par l’addition des pentes mélodiques associées à
chaque mouvement composant le mouvement total, soit des pentes positives pour les
mouvements ascendants et des pentes négatives pour les mouvements descendants.
Nous allons nommer dans la suite cet indice, « indice de déclinaison totale indirect ».
Pour notre mouvement XTB, cet indice est le résultat de l’addition : (+14) + (-14) = 0.
La pente de déclinaison nulle traduit une ligne de déclinaison stagnante :
Figure 6.42a : Ligne de déclinaison totale indirecte (en noir) pour le syntagme « Bélier »
La deuxième valeur du couple [0, 0] indique la valeur de l’indice de déclinaison
totale, tel que calculé directement des valeurs acoustiques (fréquentielles) de début et
138
de fin de syntagme24, une fois que la stylisation a été faite. Nous allons nommer cette
valeur « indice de déclinaison totale direct ». Ainsi, cf. section 6.4.4, nous avons pour
notre syntagme d’exemple, la différence des deux valeurs 96 Hz et 98 Hz, normalisée
par εmel (ici, 10 Hz), soit : (96-98) / 10 ≅ 0. L’illustration graphique de cet indice se fait
par la ligne de déclinaison mélodique :
Figure 6.42b : Exemple de ligne de déclinaison totale directe (en noir) pour le syntagme « Bélier »
La dernière valeur (ici, toujours nulle) est calculée comme la différence entre les
valeurs des deux indices de déclinaison totale cités (direct et indirect), et est une
mesure exclusivement numérique, de la « perte » d’informations mélodiques dans le
processus de formalisation des mouvements syllabiques et/ou syntagmiques.
L’indice de déclinaison mélodique locale, à son tour, traduit la pente mélodique
telle qu’elle est utilisée dans les règles de P. Martin (cf. [MAR’87]), comme l’amplitude
de la déclinaison mélodique de la dernière syllabe accentuée (ici, la dernière) d’un
syntagme rythmique. Pour notre exemple, nous avons :
Calcul des indices de déclinaison mélodique finale pour les syntagmes :
t008f01S01
[('X', 9), ('T', 14), ('B', 14)]
[-14, -14]
0
Nous pouvons remarquer ici que : i) les indices de déclinaison locale directe et
indirecte (la première, et respectivement, la seconde valeur du couple [-14, -14])
coïncident, ce qui fait que pour ce syntagme, la « perte » formelle finale est nulle ; et ii)
le syntagme présente une pente mélodique finale fortement descendante (valeur -14) :
Plus précisément, la valeur de début correspond à la valeur de la première fréquence associée à la première
syllabe du syntagme en question, et celle de fin, à la valeur de la dernière fréquence associée à la dernière syllabe.
24
139
Figure 6.43 : Exemple de ligne de déclinaison finale (en noir) pour le syntagme exemple « Bélier »
Cette forte descente de la pente finale du syntagme pris comme exemple pourrait
s’expliquer par le fait que ce dernier constitue, en soi, un groupe phrastique de type
« signe ». Nous allons discuter ce genre de particularité prosodique succinctement
dans la section suivante et plus en détail, dans le chapitre 8 du présent document.
6.4.7
Discussion sur les indices de déclinaison mélodique pour les gphs (V5)
Il est formellement et/ou bien évidemment numériquement envisageable de procéder,
exactement de la même manière que pour les syntagmes, au calcul des indices de
déclinaison mélodique totale et locale pour les groupes phrastiques (V5). Si pour les
indices directs cela ne pose aucun problème (les valeurs fréquentielles de début et de
fin de chaque groupe phrastique, étant extraites en préalable), pour les indices de
déclinaison indirects la tâche devient, de point de vue purement descriptif, beaucoup
plus problématique, précisément en ce qui concerne l’indice de déclinaison totale.
Pour éclairer ceci, nous nous rendons à notre corpus d’étude dédié aux horoscopes :
Pour tous les gphs de type « signe » et « titre section », en lecture « typique », nous
avons habituellement un seul syntagme composant le groupe phrastique. Dans ce cas
particulier, l’indice de déclinaison totale pour le gph s’identifie avec celui calculé
pour le syntagme respectif et de ce fait, sa description reste pertinemment parlante
pour la variabilité mélodique du groupe phrastique, aussi. Par contre, pour un gph de
type « corps section », qui comprend en moyenne 4 syntagmes maximaux (voir
chapitre 8), à l’étendue moyenne de 12 syllabes par syntagme, l’indice de déclinaison
mélodique totale pour le gph n’a plus la même fonctionnalité descriptive de rendre
de la « lisibilité » des contours mélodiques globaux. Bien au contraire, il se peut que
cet indice, au lieu de faciliter l’expression de la variabilité de ces contours, devienne
un paramètre qui empêche cette expression.
En revanche, les indices de déclinaison mélodique syntagmique finale, semblent
avoir une importance capitale dans les descriptions mélodiques des gphs. Selon
[MOR’98] et [POR’02], ces indices sont un facteur déterminant pour la structuration
discursive au sein du groupe phrastique, voire même du texte entier. Autrement dit,
140
la déclinaison du dernier syntagme d’un gph, que nous allons caractériser dans la
suite par l’« indice de déclinaison mélodique finale pour le groupe phrastique »,
facilite, tant en production qu’en perception, la structuration du discours en gphs :
syntagme1
syntagme2
syntagme3
Figure 6.44 : Exemple de ligne de déclinaison finale pour un gph constitué de 3 syntagmes
De sorte que cet indice (V5) est, avec les indices de déclinaison mélodique finale
pour chacun des syntagmes non finaux qui composent le groupe phrastique (V3), un
élément pertinent pour la description de la variabilité prosodique des gph et du texte,
et donc pour notre étude. Nous reviendront dans le chapitre 8 avec plus d’exemples.
6.4.8
Discussion sur la formalisation des contours mélodiques de gph et txt (V4, V7)
La prise en compte des indices de déclinaison mélodique totale pour les groupes
phrastiques suppose de procéder, en préalable, à la formalisation des mouvements
mélodiques qui décrivent ces derniers. Néanmoins, les mêmes remarques faites lors
des discussions sur la non-considération de ces indices, sont valables ici, aussi. Une
description trop détaillée des mouvements mélodiques des gphs trop étendus25 quant
à la quantité de leur matière (textuelle et prosodique), ne nous semble pas d’une
grande relevance pour nos traitements, ni en description (i.e. l’étape d’analyse), ni en
génération (i.e. l’étape de synthèse). Cependant, il est vrai que : i) pour les groupes
phrastiques plus courts, formaliser leurs contours mélodiques peut être utile pour
l’illustration des certains traits observables des phénomènes prosodiques (et aussi
linguistiques) particuliers, comme les emphases locales ou les parenthèses (par
exemple, par la mise en relief mélodique « haut » ou « bas », selon le cas) ; ii) pour les
groupes phrastiques plus étendus, la formalisation de la totalité de leur mouvements
mélodiques peut être intéressante si, en préalable, elle a usé d’une opération de mise
à l’échelle de ces mouvements. Autrement dit, la représentation mélodique formelle
pour des unités plus étendues rend les phénomènes prosodiques plus facilement
discernables, une fois que nous avons opéré un procédée de type « zoom-out » sur
les mouvements mélodiques, soit dans l’étape de stylisation fréquentielle, soit lors de
la concaténation formelle des contours syntagmiques. Notons que la formalisation
des mouvements mélodiques se fait, par défaut (i.e. en absence de mise à l’échelle),
de la même manière pour les groupes phrastiques (par la concaténation formelle des
contours mélodiques syntagmiques), que pour les syntagmes (concaténation formelle
des contours mélodiques syllabiques). Pour exemplifier, nous présentons le cas du
premier gph de type « corps section » de notre texte :
25
Comme c’est le cas des gphs de type « corps section » présents dans notre corpus d’horoscopes.
141
+
+
+
Figure 6.45a : Contours mélodiques formels pour les syntagmes du gph exemple « alainHr100052 »
Ce groupe phrastique est composé de 4 syntagmes dont les contours mélodiques
formels sont représentés ci-dessus. Par la concaténation26 de ces contours, en tenant
compte des positions de départ, relatives pour chaque contour, nous obtenons, pour
le gph en question, le mouvement formel « global » (avec le même εmel = 10 Hz) :
Figure 6.45b : Contour mélodique formel (obtenu par concaténation) pour le gph « alainHr100052 »
Certains « artifices » formels ont été utilisés dans cette opération de concaténation.
Parmi ceux-ci, le plus important reste probablement l’« assemblage » des contours
mélodiques individuels des syntagmes dans un seul contour global, associé au
groupe phrastique, sans la prise en compte de la présence des pauses entre certains
syntagmes. Autrement dit, cet artifice introduit des montées et/ou des descentes
mélodiques intermédiaires qui ne correspondent pas à des contours formels de faits
mélodiques proprement dits, mais aux transitions cohésives entre leurs contours.
Nous avons évoqué un peu plus haut l’intérêt que l’opération de mise à l’échelle
des mouvements mélodiques globaux des unités étendues (ici, groupes phrastiques)
peut apporter à leur formalisation. Pour notre exemple, le résultat du procédée de
« zoom-out » lors de la concaténation formelle des contours syntagmiques, donne, en
fonction de la valeur du paramètre εmel (ici, égal à 20 Hz, soit une échelle 1 :2), des
contours mélodiques globaux similaires, mais d’amplitudes réduites (cf. figure 6.46).
Nous en reviendrons avec plus d’exemples et de commentaires dans le chapitre 8.
26
Ceci est réalisé en rapportant le point de départ X de chaque syntagme, à la fin du syntagme précédent.
142
Figure 6.46 : Contour mélodique formel à l’échelle 1:2 pour le gph « alainHr100052 »
6.4.9
Calcul des tessitures mélodiques des groupes phrastiques (V6) et du texte (V8)
Si nous récapitulons les paramètres mélodiques que nous avons retenus comme
essentiels pour la description de la variabilité prosodique des faits expressifs, nous
avons jusqu’ici : les mouvements mélodiques formels des syllabes et des syntagmes
(cf. sections 6.4.1 à 5), et les indices de déclinaison mélodique (finale et/ou totale) des
syntagmes, et des groupes phrastiques (cf. sections 6.4.6 et 6.4.7). Or, comme [POR’08],
ou [MER’04] nous estimons importante pour la description de cette variabilité, la prise
en compte de la tessiture mélodique pour les gphs et pour le texte.
Par tessiture mélodique, nous désignons un paramètre qui s’apparente à ce que la
littérature de spécialité [W3C’04] nomme pitch range, qui est l’intervalle de variation de
pitch (fréquence fondamentale) ou autrement dit, l’intervalle compris entre les
valeurs fréquentielles minimale et maximale, extraites pour un segment27 donné. La
tessiture mélodique est numériquement égale à cet intervalle, toujours positif,
normalisé par la valeur de εmel, et spécifié entre les niveaux tonals T et B associés,
selon le cas, à un groupe phrastique ou au texte entier.
Pour notre texte d’exemple, le premier gph, composé uniquement du syntagme
« Bélier » a la tessiture mélodique, l’intervalle entre les niveaux T et B, égal à 14 εmel :
Figure 6.47 : Contours (gauche) et tessiture (droite) mélodiques pour le gph n° 1, « Bélier »
Le terme désigne, dans les références issues du traitement de signal, une étendue dans la chaîne sonore, qui ne
correspond pas obligatoirement à une unité phonologique (comme la syllabe, le syntagme, le gph, ou le texte).
27
143
Le deuxième gph de type « titre section » est composé exclusivement du syntagme
« Vie professionnelle » et a comme tessiture mélodique, l’intervalle entre les niveaux
T et B y associés, soit numériquement égale à 19 εmel :
Figure 6.48 : Contours et tessiture mélodiques pour le gph n° 2, « Vie professionnelle »
De la même manière, le troisième gph de type « corps section », mentionné dans la
section précédente, a comme tessiture mélodique, l’intervalle égal à 14 εmel :
Figure 6.49 : Contours et tessiture mélodiques pour le gph n° 3, corps de « Vie professionnelle »
De la même façon, nous avons la possibilité d’entrevoir la représentation des
contours formels et des tessitures mélodiques associées pour le reste des 4 gphs de
notre texte-exemple. Puis, nous poursuivons à la formalisation des mouvements des
extrêmes haute (T) et basse (B) de leurs tessitures, illustrés dans la figure 6.50. Nous
observons dans cette figures que : i) l’extrême haute de la tessiture mélodique du
deuxième gph se situe à un niveau tonal supérieur (+4εmel) que celle du premier gph,
mais que le niveau maximal absolu (T dans la figure de gauche) est atteint seulement
pour le troisième gph ; ii) à partir du troisième gph, les extrêmes hautes des tessitures
mélodiques suivent un mouvement constant ou légèrement (-1 ou -2εmel) descendant ;
iii) les extrêmes basses des tessitures mélodiques semblent « osciller » entre deux
niveaux tonals, dont la différence (2εmel) n’est pas considérablement significative.
144
Figure 6.50 : Mouvements mélodiques formels des niveaux T (gauche) et B (droite) des gphs du texte
Si nous alignons maintenant ces deux mouvements d’extrêmes (haute et basse) des
tessitures mélodiques des groupes phrastiques, nous obtenons la figure suivante :
Figure 6.51 : Mouvements de T et de B et tessiture mélodiques (bleu) pour le texte exemple entier
Nous avons interposé ici en miniature les contours mélodiques formels (cf. plus
haut) pour les premiers 3 (sur 7) gphs dans les tessitures qui leur sont associées. Puis,
en fonction de l’écart formel de départ (traduit par la différence entre les tons ‘X’),
nous pouvons calculer (et représenter graphiquement) la tessiture mélodique globale
145
pour le texte exemple. Elle correspond à la différence entre les tons absolus T (i.e. le T
des mouvements de T) et B (i.e. le B des B), numériquement égale à 21εmel.
Nous concluons ici en illustrant l’enchaînement des modules informatiques
nécessaires à l’exécution des traitements prosodiques mélodiques mentionnés avant :
.bnd
TPP_F_syl_1
module
dʹextraction des
fréquences
syllabiques
TPP_F_syl_2
.foe
TPP_F_syl_3
module de
stylisation des
fréquences
syllabiques
.sty
module de
formalisation des
contours mélodiques
syllabiques
.syl
.pfo
.bnd*
TPP_F_syn_3
TPP_F_syn_4
TPP_F_syn_1
module
dʹextraction des
fréquences
syntagmiques
module de
stylisation des
fréquences
syntagmiques
module de
formalisation des
contours mélodiques
syntagmiques
.foe*
.sty*
TPP_F_gph_3
module de calcul des
tessitures mélodiques
pour les gphs
TPP_F_txt_2
module de calcul des
tessitures mélodiques
pour les txts
.syn
TPP_F_syn_2
module de calcul
d’indices de
déclinaison mélodique
pour les syns
TPP_F_gph_1
module de
formalisation des
contours mélodiques
pour les gphs
.gph
TPP_F_gph_2
module de calcul
d’indices de
déclinaison mélodique
pour les gphs
TPP_F_txt_1
module de
formalisation des
contours mélodiques
pour les txts
.txt
Figure 6.52 : Schéma des modules informatiques pour le traitement des paramètres mélodiques
6.5 Premiers pas vers la constitution de la base des formes prosodiques
Nous avons détaillé dans les sections précédentes de ce chapitre, les étapes dédiées
aux divers traitements numériques et formels des paramètres prosodiques. L’objectif
final de ces étapes est, comme mentionné dans le chapitre 3 et illustré dans la figure
3.6, la constitution d’une base initiale de formes prosodiques, intégrée ultérieurement
dans une base initiale de formes expressives situées.
Pour ceci, nous avons esquissé et mis en place un procédé automatique de
réitération des modules d'extraction et de traitement des paramètres prosodiques (du
vecteur <P>) temporels, mélodiques, et dédiés aux pauses, pour l'ensemble du corpus
d'étude. Nous avons ainsi généré l’ensemble des variables prosodiques (de V1 à V17)
pour chacune des unités phonologiques d’analyses (syl, syn, gph, txt) apparaissant
dans le corpus. Ensuite, nous avons procédé à l'organisation de cet amas des données,
en vue de constituer une base des formes prosodiques. Enfin, par l’association avec
leurs diverses correspondances intrinsèques et extrinsèques (vecteur <U> et <S>), ces
formes données ont été organisées dans une base de formes expressives, qui alimente
une structure de données adéquate dont la spécification fait l’objet du chapitre 7.
146
CHAPITRE 7
LA STRUCTURE DE DONNEES EXPRESSIVES
Ce chapitre porte sur la définition de la structure de données expressives développée pour
notre étude. Nous discutons tout d’abord de ce qu’est une structure de données et de
la relation qui existe entre celle-ci et les types abstraits des données. Ensuite, nous
présentons brièvement les types abstraits utilisés dans notre travail, qui font appel au
modèle d’expressivité discursive et au cadre de formalisation des faits discursifs
expressifs, cités dans les chapitres 2 et respectivement, 5. Les types abstraits pour le
formalisme phonologique, aussi que ceux utilisés pour la description de vecteurs prosodiques,
linguistiques ou expressifs extratextuels sont employés de ce fait dans la suite dans la
description d’unités phonologiques expressives. Nous concluons par la spécification des
types abstraits dédiés à ces unités et des types abstraits usités pour la structure des
dictionnaires des données expressives observables de notre corpus.
Résumé
Sommaire du chapitre
7.1
7.2
7.3
7.4
7.5
7.6
7.7
Structure de données expressives, types abstraits expressifs ……………………….... 148
Types abstraits pour le formalisme phonologique …………….…………………….... 150
Types abstraits pour la description des vecteurs prosodiques (<P>) ………..……… 153
7.3.1
Types abstraits pour le vecteur temporel (<T>) ……..……………………… 153
7.3.2
Types abstraits pour les structures des pauses …………………………….…. 154
7.3.3
Types abstraits pour le vecteur mélodique (<F>) ……………………………. 155
7.3.4
Types abstraits pour toutes les dimensions prosodiques (<P>) ..…………. 157
Types abstraits pour la description des vecteurs linguistiques (<U>) ……….……… 158
Types abstraits pour les unités phonologiques expressives (syl, syn, gph, txt) …..… 159
Types abstraits pour la description du vecteur extratextuel (<S>) ………...………… 160
Types abstraits pour la description des données expressives (<E>, <Esit>) ……..….. 161
147
7.1
Structure de données expressives, types abstraits expressifs
Le chapitre présent décrit brièvement la structure logique destinée à contenir les
données utilisées dans notre travail, afin de leur donner une organisation particulière
qui permet de simplifier leur traitement subséquent (i.e. de réduire de manière
significative la complexité de l’application informatique qui supporte ce traitement).
Chaque structure de données peut être développée autour d’un ou de plusieurs types
abstraits1 de données, qu’elle implémente concrètement. Le type abstrait spécifie tant
l’organisation des données que l’ensemble d’opérations indispensables à leur
manipulation, en détaillant un sous-ensemble de ses types abstraits, pour illustration.
Généralement, le choix de la structure des données constitue une des considérations
premières pour le design informatique. De sorte que la difficulté de l’implémentation
ultérieure, la qualité, ainsi que la performance des résultats finaux dépendent
considérablement de ce choix initial.
La structure des données expressives (notée SDEx) que nous allons présenter ici est
donc destinée à conserver et à organiser les données expressives (tant textuelles
qu’acoustiques) de manière à faciliter aussi bien leurs traitements prosodiques (cf.
chapitre 6) que les comparaisons formelles sur les résultats de ces traitements (cf.
chapitre 8). La SDEx se fonde sur un ensemble de types abstraits expressifs (TAEx), qui
spécifient les données expressives et les opérations qu’on leur associe. Comme tout
type abstrait, un TAEx est composé des champs suivants :
Type Abstrait : champ qui contient le nom du type courant et précise
éventuellement si c'est une extension. Par exemple, si « Type Abstrait : SpEx » (cf.
section 7.7) correspond au type abstrait qui définit l’espace des caractéristiques
expressives <S> = <tg, ds, rp>, alors « Extension Type Abstrait : SpEx » est une
extension de SpEx qui permet l’ajout de nouvelles dimensions à l’espace <S>.
Utilise : champ qui contient les types abstraits que l'on va réutiliser dans celui que
l'on décrit. Ainsi, le type abstrait « Type Abstrait : DataEx » correspond aux
données expressives et utilise, comme nous allons le voir dans la section 7.7, les
types SpEx et TxtEx (l’espace et respectivement, le texte expressif).
Opérations : champ qui englobe le prototypage de toutes les opérations (i.e. une
description des opérations par leur nom, leurs arguments et leur retour). Pour les
types plus complexes, les opérations sont réalisées par : i) les constructeurs, qui
permettent de créer un nouvel objet du type courant ; ii) les transformateurs, qui
permettent de modifier l’objet courant et son contenu ; et iii) les observateurs, qui
Notons que le type des données est qualifié d'abstrait dans le sens où il correspond à une sorte de « cahier des
charges » que la structure de données doit ensuite implémenter.
1
148
ne modifient pas l’objet, mais qui donnent des informations sur l'objet courant.
Dans la suite, les constructeurs seront traduits par des méthodes de type « init »,
les transformateurs par des méthodes de type « set » et les observateurs par des
méthodes de type « get ». Leurs noms sont suffisamment suggestifs pour désigner
les variables sur lesquelles ils agissent.
Notons qu’il est également possible de spécifier un champ supplémentaire nommé
Préconditions, qui contient les conditions requises pour le type abstrait (par exemple,
sur les arguments d'une fonction ou d’une opération pour que celle-ci puisse avoir
un comportement normal). C’est le cas du « Type abstrait : MOt » décrit en 7.2.
Les principaux TAEx utilisés dans ce travail sont schématisés ici-bas. La figure 7.1
donne un aperçu de la façon dont les données expressives sont disposées et agencées.
La logique de leur agencement, ainsi que le détail de leur fonctionnement individuel,
seront présentés dans les sections qui suivent.
∑
Figure 7.1 : Schéma global de la structure de données expressives, avec les TAEx employés
149
Précisons seulement que la SDEX définie dans ce travail est une structure de données
non-primitives 2 . Le langage de programmation adopté 3 pour son design étant un
langage orienté objet, nous avons pu bénéficier des facilités dont ce dernier dispose,
en déclarant chaque type TAEx comme une classe. Nous avons ainsi des classes pour
les mots formels qui constituent le fondement de notre formalisme phonologique
(voir section 7.2), aussi bien que des classes pour les dimensions prosodiques (cf.
section 7.3), linguistiques (cf. section 7.4) ou extra-linguistiques (cf. section 7.6) plus
complexes. Cependant, l’usage des classes semble manifester plus d’intérêt pour la
définition (cf. section 7.5) des types d’unités expressives : syllabes (SylEx), syntagmes
(SynEx), groupes phrastiques (GphEx), et textes (TxtEx). Puis, il est vrai que les
énormes quantités de données expressives décrites par ces unités, et issues de notre
corpus4 de travail, sont contenues dans des structures de données dédiées, traduites
par des dictionnaires. Nous avons de la sorte (voir section 7.7) des dictionnaires de
syllabes, de syntagmes, de groupes phrastiques, et de textes expressifs. Ce choix
d’organisation des données expressives a été délibérément fait pour faciliter leurs
futures comparaisons formelles (telles que détaillées dans le chapitre 8).
7.2
Types abstraits pour le formalisme phonologique
Nous commençons par détailler les principaux types abstraits qui décrivent les bases
du formalisme phonologique utilisé dans ce travail (cf. section 5.2 et annexes A6, A7) :
Figure 7.2 : Types abstraits pour le formalisme phonologique : vue globale
Pour plus d’informations, voir [BER’05].
Pour des raisons de compatibilité avec les algorithmes de traitements déjà existants dans l’équipe de travail,
nous avons choisi comme langage principal de programmation, Python [PYT’07].
4 Rappelons que seulement pour le corpus principal dédié aux horoscopes, nous avons 255 textes (cf. chapitre 4).
2
3
150
Type Abstrait :
AlphaForm
Utilise :
-
Attributs :
lettre - correspond à un symbole de l’alphabet formel
Opérations :
is_lettre_form (lettre) : vérification formelle de la lettre en argument,
retourne T / F
L’équivalent de cette description en langage UML [UML’08], est fait par le schéma :
Figure 7.3 : Type abstrait pour l’alphabet phonologique
Pour la définition de l’AlphaForm, et la validation d’une lettre formelle, nous
avons adopté l’extension de l’alphabet INTSINT (cf. annexes A6 et A7) :
Σ = {X, T, B, S, H, L, U, D}
(1)
Rappelons ici que les lettres formelles T (Top), B (Bottom), H (High), L (Low), S
(Same), U (Up), D (Down), et X (le symbole référence) correspondent aux principaux
mouvements de monotonie d’une fonction : T et B sont des symboles absolus (max et
min globaux), S, H et L sont des symboles relatifs non-itératifs (max et min locaux), et
U et D sont des symboles relatifs itératifs (états intermédiaires dans un mouvement
globalement ascendant ou descendant).
Type Abstrait :
MOt
Utilise :
AlphaForm, AutomOt
Attributs :
mOt_lit - correspond à un tableau des lettres formelles
mOt_num - tableau d’entiers (valeurs numériques normalisées)
mOt - tuple composé des lettres de mOt_lit et valeurs de mOt_num
Opérations :
set_mOt_lit (self, mOt_lit) : constructeur/transformateur partiel pour
l’objet, avec le champ mOt_lit mis à jour
set_mOt_num (self, mOt_num) : constructeur/transformateur partiel
pour l’objet, avec le champ mOt_num mis à jour
set_mOt (self, mOt) : constructeur total pour l’objet courant, avec les
champs mOt_lit et mOt_num mis à jour
151
get_mOt_lit (self) : observateur partiel, retourne le champ mOt_lit de
l’objet mOt passé en argument
get_mOt_num (self) : observateur partiel (idem), retourne mOt_num
get_mOt (self) : observateur total, retourne le mOt passé en argument
Préconditions :
is_valid_mOt (mOt) == T pour set_mOt (self, mOt)
is_lit_valid (mOt) et is_num_valid(mOt) ==T pour is_valid_mOt (mOt)
is_lit_valid (mOt) == T pour set_mOt _lit(self, mOt_lit)
is_num_valid (mOt) == T pour set_mOt_num (self, mOt_lit)
L’équivalent de cette description en langage UML est fait par le schéma :
Figure 7.4 : Type abstrait pour le mOt formel
Pour pouvoir être créé, un mOt doit être bien formé. Ce teste se fait à l’aide de la
fonction booléenne is_valid_mOt (mOt), incorporée dans le module AutomOt, qui fait,
à son tour, appel aux fonctions is_num_valid (mOt) et is_lit_valid (mOt). Nous avons
vu précédemment (en 5.2 et annexe A7), l’automate qui décrit les transitions d’états
possibles dont la fonction principale consiste en vérifier la consistance formelle des
mOts (littéraux). Nous illustrons ci-dessous un exemple d’exécution de ce test :
>>> Exécution du script MOt.py
Le mOt [('X', 2), ('H', 2), ('S', 0), ('B', 4), ('T', 6), ('L', 6)] est formellement valide ? True
Le mOt [('X', 2), ('H', 0), ('S', 0), ('B', 8), ('H', 6), ('L', 2)] est formellement valide ? False
Le mOt [('X', 2), ('T', 2), ('S', 0), ('L', 4), ('H', 6), ('L', 6)] est formellement valide ? False
Le mOt [('X', 2), ('T', 2), ('S', 0), ('L', 4), ('D', 6), ('L', 6)] est formellement valide ? False
Le mOt du premier exemple ne présente aucun conflit formel. Par contre, ceux des
autres exemples en rencontrent tous un, portant soit sur la dimension numérique (un
niveau ‘H’ à montée 0 pour le deuxième exemple ou un niveau ‘H’ à montée 6 qui
détrône le niveau ‘T’, à montée 2 défini pour le troisième), soit sur la dimension
littérale (un ‘L’ suivi d’un ‘D’ pour le quatrième exemple).
152
7.3
Types abstraits pour la description des vecteurs prosodiques (<P>)
Nous illustrons dans cette section les principaux types abstraits expressifs dédiés aux
dimensions prosodiques temporelle, mélodique et énergétique.
7.3.1 Types abstraits pour le vecteur prosodique temporel (<T>)
Figure 7.5 : Agencement des types abstraits pour la description du vecteur prosodique <T>
Nous pouvons observer dans la figure, un ensemble de quatre types abstraits pour
la dimension temporelle, associés à chacun des paliers d’analyse choisis : la syllabe,
le syntagme, le groupe phrastique et le texte. Les diagrammes UML correspondants à
ces types abstraits se présentent comme ici dessous :
T_txt
T_syl
T_syn
T_gph
+duree
+tempo
+mOt_tempo
+__init__()
+set_duree()
+get_duree()
+set_T_syl()
+get_T_syl()
+__init__()
+set_tempo()
+get_tempo()
+set_T_syn()
+get_T_syn()
+__init__()
+set_mOt_tempo()
+get_mOt_tempo()
+set_T_gph()
+get_T_gph()
+mOt_tempo_Top
+mOt_tempo_Bottom
+tempo_range
+__init__()
+set_mOt_tempo_Top()
+get_mOt_tempo_Top()
+set_mOt_tempo_Bottom()
+get_mOt_tempo_Bottom()
+set_T_txt()
+get_T_txt()
Figure 7.6 : Types abstraits pour la description du vecteur prosodique <T>
Remarquons d’abord que les attributs des classes associés à ces types décrivent les
variables prosodiques temporelles citées dans la section 5.2, telles la durée, le tempo,
les mOts_tempo, etc. La liste reste ouverte si le besoin exige des nouvelles variables.
Puis, les quatre types abstraits sont intégrés dans une structure temporelle décrite
schématiquement par :
153
struct_T
+T_syl
+T_syn
+T_gph
-T_txt
+__init__()
+set_T_syl()
+get_T_syl()
+set_T_syn()
+get_T_syn()
+set_T_gph()
+get_T_gph()
+set_T_txt()
+get_T_txt()
+set_T()
+get_T()
Figure 7.7 : Type abstrait pour la description de la structure prosodique <T> globale
Une démonstration de l’implémentation des T_syl, T_syn, T_gph, et T_txt est
exposée dans les sous-menus du démonstrateur dont nous illustrons ici un aperçu :
Figure 7.8 : Aperçu du Démonstrateur des types abstraits pour la dimension <T>
7.3.2 Types abstraits pour les vecteurs prosodiques décrivant les pauses
Figure 7.9 : Agencement des types abstraits pour la description des structures de pauses
154
Les types abstraits dédiés à ces structures sont décrits par les diagrammes suivants :
Link_syl
Link_syn
+ids
+leg
+dur
+__init__()
+set_ids()
+get_ids()
+set_leg()
+get_leg()
+set_dur()
+get_dur()
+set_Link_Syl()
+get_Link_Syl()
Link_gph
+ids
+leg
+dur
+__init__()
+set_ids()
+get_ids()
+set_leg()
+get_leg()
+set_dur()
+get_dur()
+set_Link_Syn()
+get_Link_Syn()
+ids
+leg
+dur
+__init__()
+set_ids()
+get_ids()
+set_leg()
+get_leg()
+set_dur()
+get_dur()
+set_Link_Gph()
+get_Link_Gph()
Link_txt
+ids
+leg
+dur
+__init__()
+set_ids()
+get_ids()
+set_leg()
+get_leg()
+set_dur()
+get_dur()
+set_Link_Txt()
+get_Link_Txt()
Figure 7.10 : Types abstraits pour la description des structures des pauses
Notons qu’il est possible d’envisager également un TAEx de type Link_txt dans le
cas où une structure de pauses intertextuelles pourrait présenter un intérêt applicatif
(ici, une pratique de plusieurs horoscopes, cf. pauses intertextuelles, section 6.3.3).
7.3.3 Types abstraits pour le vecteur prosodique mélodique (<F>)
Figure 7.11 : Agencement des types abstraits pour la description du vecteur prosodique <F>
Pareillement au cas temporel, nous avons ici 4 types abstraits pour la description
du vecteur mélodique, dont les diagrammes UML correspondants sont présentés ici :
155
F_txt
F_syn
F_syl
+mOt_mel
+__init__()
+set_mOt_mel()
+get_mOt_mel()
+set_F_syl()
+get_F_syl()
F_gph
+mOt_mel
+pent_mel
+__init__()
+set_mOt_mel()
+get_mOt_mel()
+set_pent_mel()
+get_pent_mel()
+set_F_syn()
+get_F_syn()
+mOt_mel
+pent_mel
+__init__()
+set_mOt_mel()
+get_mOt_mel()
+set_pent_mel()
+get_pent_mel()
+set_F_gph()
+get_F_gpn()
+mOt_mel_Top
+mOt_mel_Bottom
+mel_range
+__init__()
+set_mOt_mel_Top()
+get_mOt_mel_Top()
+set_mOt_mel_Bottom()
+get_mOt_mel_Bottom()
+set_F_txt()
+get_F_txt()
Figure 7.12 : Types abstraits pour la description du vecteur prosodique <F>
Remarquons aussi que l’ensemble d’attributs de ces TAEx correspond à l’ensemble
des variables prosodiques mélodiques mentionnées dans la section 5.2 : les mOts
formels décrivant les mouvements mélodiques des syllabes et des syntagmes, les
pentes mélodiques des syntagmes et des groupes phrastiques, les mouvements
mélodiques des tons haut et bas, ainsi que leur tessiture, au niveau du texte.
Le regroupement de quatre TAEx dans une seule structure mélodique unifiée se
fait par l’intermédiaire du type abstrait5 suivant :
struct_F
+F_syl
+F_syn
+F_gph
+F_txt
+__init__()
+set_F_syl()
+get_F_syl()
+set_F_syn()
+get_F_syn()
+set_F_gph()
+get_F_gph()
+set_F_txt()
+get_F_txt()
+set_F()
+get_F()
Figure 7.13 : Types abstraits pour la description de la structure prosodique <F> globale
Précisons que même si nous n’avons pas traité dans ce travail les paramètres
prosodiques énergétiques, nous avons cependant envisagé l’implémentation des
types abstraits dédiés à la structure énergétique (<I>). Ces derniers s’apparentent plus
aux TAEx dédiés à la structure mélodique qu’à ceux dédiés à la structure temporelle.
5
Notons que les attributs F_syl, F_syn, F_gph, F_txt mentionnés ici ont le type de la classe respective.
156
Figure 7.14 : Agencement des types abstraits pour la description du vecteur prosodique <I>
7.3.4 Types abstraits pour toutes les dimensions prosodiques (<P>)
De la même manière que pour chacune des dimensions prosodiques individuelles,
nous pouvons envisager les types abstraits prosodiques « composés » suivants :
P_syl
P_syn
P_gph
P_txt
+F_syl
+T_syl
+I_syl
+__init__()
+set_F_syl()
+get_F_syl()
+set_T_syl()
+get_T_syl()
+set_I_syl()
+get_I_syl()
+set_P_syl()
+get_P_syl()
+F_syn
+T_syn
+I_syn
+__init__()
+set_F_syn()
+get_F_syn()
+set_T_syn()
+get_T_syn()
+set_I_syn()
+get_I_syn()
+set_P_syn()
+get_P_syn()
+F_gph
+T_gph
+I_gph
+__init__()
+set_F_gph()
+get_F_gph()
+set_T_gph()
+get_T_gph()
+set_I_gph()
+get_I_gph()
+set_P_gph()
+get_P_gph()
+F_txt
+T_txt
+I_txt
+__init__()
+set_F_txt()
+get_F_txt()
+set_T_txt()
+get_T_txt()
+set_I_txt()
+get_I_txt()
+set_P_txt()
+get_P_txt()
struct_P
+F
+T
+I
+__init__()
+set_F()
+get_F()
+set_T()
+get_T()
+set_I()
+get_I()
+set_P()
+get_P()
Figure 7.15 : Types abstraits pour la description du vecteur prosodique <P>
La différence entre les premiers quatre types concerne exclusivement le type de
leurs attributs. Ainsi, le TAEx P_syl a un mOt_mel, une durée et éventuellement un
mOt_int, le TAEx P_syn a un mOt_mel, une pent_mel, un tempo, et éventuellement
les variables correspondantes pour la structure énergétique et ainsi de suite.
157
7.4
Types abstraits pour la description des vecteurs linguistiques (<U>)
La description des types abstraits associés au vecteur linguistique <U> a comme
prérequis les descriptions des TAEx des vecteurs composant celui-ci : le vecteur
compositionnel <C> (soit ici, ComposEx) et le vecteur descriptif <D> (ici, DescriptEx) :
Figure 7.16 : Agencement des types abstraits pour la description du vecteur linguistique <U>
À son tour, le type abstrait DescriptEx utilise le type PonctEx dédié à la ponctuation
intra-textuelle. Nous illustrons succinctement les diagrammes de tous ces TAEx :
DescriptEx
PonctEx
+ids
+pct
+sng
+__init__()
+set_ids()
+get_ids()
+set_pct()
+get_pct()
+set_sng()
+get_sng()
+set_PonctEx()
+get_PonctEx()
+text_unit
+phon_unit
+type_unit
+pos_unit
+__init__()
+set_text_unit()
+get_text_unit()
+set_phon_unit()
+get_phon_unit()
+set_type_unit()
+get_type_unit()
+set_pos_unit()
+get_pos_unit()
+set_DescriptEx()
+get_DescriptEx()
LingEx
ComposEx
+no_unit
+liste_id_unit
+__init__()
+set_no_unit()
+get_no_unit()
+set_liste_id_unit()
+get_liste_id_unit()
+set_ComposEx()
+get_ComposEx()
+is_C_valid()
+L
+C
+D
+__init__()
+set_L()
+get_L()
+set_C()
+get_C()
+set_D()
+get_D()
+set_LingEx()
+get_LingEx()
Figure 7.17 : Types abstraits pour la description du vecteur linguistique <U>
158
7.5
Types abstraits pour les unités phonologiques expressives
Nous approchons enfin des types abstraits dédiés aux syllabes, aux syntagmes, aux
groupes phrastiques et aux textes expressifs. Il est à préciser ici que pour leur
description, il nous a fallu définir la totalité des TAEx mentionnés auparavant.
Schématiquement, ces types sont reliés par :
Figure 7.18 : Agencement des types abstraits pour la description d’unités expressives
Les TAEx pour les unités expressives portant un haut intérêt dans notre travail sont :
SylEx
SynEx
+id
+U
+P
+__init__()
+set_U()
+get_U()
+set_P()
+get_P()
+set_SylEx()
+get_SylEx()
+id
+U
+P
+__init__()
+set_U()
+get_U()
+set_P()
+get_P()
+set_SynEx()
+get_SynEx()
GphEx
+id
+U
+P
+__init__()
+set_U()
+get_U()
+set_P()
+get_P()
+set_GphEx()
+get_GphEx()
TxtEx
+id
+U
+P
+__init__()
+set_U()
+get_U()
+set_P()
+get_P()
+set_TxtEx()
+get_TxtEx()
Figure 7.19 : Types abstraits pour la description d’unités expressives
Notons que si les diagrammes de ces types se ressemblent entre eux, lors de leur
implémentation, leurs attributs et leurs méthodes se différencient en fonction du
niveau phonologique L sur lequel ils se situent. De sorte que le choix du niveau L,
159
opéré dans le constructeur __init__(), détermine tout d’abord le type d’identifiant id,
et ensuite, le type d’information formelle composant les vecteurs linguistique <U> et
prosodique <P>.
Nous présentons ici un aperçu de la plateforme d’implémentation de ces TAEx :
Figure 7.20 : Aperçu du menu du Démonstrateur pour les unités expressives
7.6
Types abstraits pour la description du vecteur extratextuel (<S>)
Figure 7.21 : Agencement des types abstraits pour la description du vecteur extratextuel <S>
Les diagrammes UML illustrant les TAEx dédiés aux 3 principales caractéristiques
extratextuelles se présentent ainsi :
SpaceEx
Tg
Ds
Rp
+tg_name
+ds_name
+rp_name
+__init__()
+set_tg_name()
+get_tg_name()
+set_Tg()
+get_Tg()
+__init__()
+set_ds_name()
+get_ds_name()
+set_Ds()
+get_Ds()
+__init__()
+set_rp_name()
+get_rp_name()
+set_Rp()
+get_Rp()
+tg
+ds
+rp
+__init__()
+set_tg()
+get_tg()
+set_ds()
+get_ds()
+set_rp()
+get_rp()
+set_SpaceEx()
+get_SpaceEx()
Figure 7.22 : Types abstraits pour la description du vecteur extratextuel <S>
160
Les attributs tg, ds et rp du type SpaceEx sont définis dans le constructeur __init__()
lors de son implémentation, respectivement des types Tg, Ds, Rp.
7.7
Types abstraits pour la description des données expressives
Pour garder les diverses unités phonologiques expressives dans une structure dédiée,
nous avons tout d’abord envisagé le type abstrait Data (voir figure suivante), qui
correspond au vecteur <E> des données expressives (cf. section 2.6). Puis, en voulant
placer ces données dans l’espace des caractéristiques extratextuelles S (en se servant
ainsi du type SpaceEx), nous avons imaginé le type abstrait « situé » DataEx :
∑
Figure 7.23 : Types abstraits pour la description des données expressives DataEx
Les données expressives situées (i.e. vecteur <Esit>) de type DataEx sont prévues
d’être contenues dans une structure plus complexe de type dictionnaire, nommée ici
DictFormEx. Suite à l’exécution des traitements linguistiques et prosodiques, celle-ci
est censée englober l’ensemble des caractéristiques observables des données de nos
corpus expressifs. Le chapitre suivant illustre quelques scénarios de comparaison
formelle des données expressives organisées selon les TAEx.
161
CHAPITRE 8
ANALYSES PROSODIQUES. RECURRENCES ET DISCERNABILITES EXPRESSIVES.
Ce chapitre est consacré aux diverses comparaisons formelles effectuées entre les
observables prosodiques composant les bases initiales des formes discursives expressives
situées. Il s’agit, précisément, d’appliquer sur ces formes un ensemble d’opérateurs
formels de comparaison (R). Dans un premier temps, nous étudions les observables des
formes expressivement homogènes (i.e. issues de la même base expressive), en comparant
leurs descriptions prosodiques traduites par les variables prosodiques. Ainsi, nous
procédons à l’analyse des invariants présents au sein de ces variables, l’objectif étant
d’extraire un ensemble pertinent de traits expressifs récurrents. Ensuite, nous étudions
la variabilité prosodique retrouvée au sein d’un ensemble plus réduit de formes
expressivement hétérogènes (de bases expressives différentes). Enfin, nous discutons sur
la discernabilité expressive, traduite en termes prosodiques.
Résumé
Sommaire du chapitre
8.1
8.2
Recherche de récurrences parmi les formes expressives discursives …………..……. 164
8.1.1
Récurrences prosodiques dans les titres d’horoscopes ……………………… 165
8.1.2
Récurrences prosodiques dans les titres de sections ……………..………… 170
8.1.3
Récurrences prosodiques dans les corps de sections ….………….………… 173
8.1.4
Récurrences prosodiques au niveau du texte ………………..……….……… 181
8.1.5
Discussion sur les invariants prosodiques intra-expressifs ………………… 185
Recherche de traits expressifs discernables. Exemples inter-génériques. ………… 188
162
Le chapitre présent s’intéresse à un ensemble d’analyses prosodiques comparatives des
formes discursives expressives composant les bases expressives d’étude. Si nous
rapportons ces analyses à la méthodologie de travail décrite dans le chapitre 3, elles
se situent dans la sous-phase s2-Ph2 (cf. section 3.2.2) de manipulations formelles.
Ainsi, l’étape suivante à la constitution des bases des formes expressives situées
consiste en l’analyse comparative de ces dernières, dans l’objectif d’extraire diverses
régularités prosodiques. Ceci requiert la mise en place d’un ensemble d’outils
formels de comparaison expressive (i.e. les divers opérateurs formels de comparaison
binaire de type R, appliqués sur deux formes différentes fdep et fdeq, cf. section 5.4).
Figure 8.1 : Famille d’opérateurs de comparaison formelle R des formes discursives expressives
Rappelons (cf. la même section 5.4) que lors de l’application d’un opérateur de
type R, les expressions formelles des deux arguments fdep et fdeq sont comparées selon
les dimensions des vecteurs linguistique <U> = < L, C, D >, extratextuel <S> = < tg, ds,
rp > et prosodique <P> = < F, T, I >, désirées. Avec la remarque qu’une comparaison
est possible uniquement pour les formes ayant le même niveau d'analyse L. Ici, les
comparaisons formelles affectent particulièrement les dimensions prosodiques et, par
conséquent, leurs résultats se traduisent en termes de relations d’équivalence / nonéquivalence, ou de tolérance / rupture projective1 entre les observables prosodiques
des formes comparées.
Précisons que les nombreuses comparaisons formelles nous servent à étudier les
observables prosodiques des diverses formes expressives discursives situées dans un
espace extratextuel premièrement homogène (i.e. leurs vecteurs <S< = < tg, ds, rp >
sont identiques) et ensuite, hétérogène (les vecteurs <S> sont différents). Le premier
scénario de comparaison correspond à la recherche des récurrences expressives (cf.
section 8.1) et le second, à la recherche des discernabilités expressives (cf. section 8.2).
1
La projection concerne précisément la dimension choisie pour la comparaison.
163
8.1
Recherche de récurrences parmi les formes expressives discursives
Les premières comparaisons formelles portent sur les observables prosodiques des
formes expressives homogènes, et ont comme objectif final l’extraction des traits
expressifs récurrents au sein de ces formes. Cette procédure débute par l’analyse des
multiples paramètres physiques ou formels (cf. chapitre 6) associés aux variables
prosodiques (cf. section 5.2) qui décrivent les observables expressifs :
Figure 8.2 : Étapes pour la recherche des récurrences prosodiques (dans la s2-Ph2)
Les analyses méthodiques menées sur les différents paramètres prosodiques nous
permettent de détecter un ensemble de caractéristiques qui s’avèrent être récurrentes
au sein des formes expressives fde analysées. Relevant des coutumes discursives
spécifiques au tg et au rp (pour une ds typique), ces traits récurrents servent d’abord
à décrire (cf. ci-dessous) et ensuite à prescrire2 le comportement prosodique d’une
matière textuelle située.
Nous exposons dans cette section quelques résultats des analyses des récurrences
prosodiques qui ont été effectuées sur notre base expressive d’horoscopes contenant
les 255 textes lus en lecture « typique ». Nous entamons nos analyses, par l’étude des
variables prosodiques caractérisant les titres des textes et de sections. Ensuite, nous
examinons les récurrences prosodiques à l’intérieur des corps des sections, pour finir
avec quelques analyses d’invariant au sein d’un texte entier. Nous nous intéressons
également aux éventuelles récurrences portées par les diverses pauses (inter-syn
et/ou inter-gph) qui ponctuent l’ensemble du discours. Nous illustrons chacune de ces
analyses par quelques exemples de traits prosodiques récurrents et discutons sur la
possibilité de généraliser ces derniers comme invariants prosodiques représentatifs
pour l’expressif discursif visé (ici, horoscopique « typique »).
2
Dans les étapes dédiées à la re-synthèse des formes expressives (cf. phase Ph3).
164
8.1.1 Récurrences prosodiques dans les titres d’horoscopes
Groupes phrastiques de type « signe », composés d’un seul syntagme, uni- (L_Y_ON,
V_Y_AI_R_J_E), bi- (B_A – L_AN_S, B_EI – L_Y_EI, K_AN – S_AI_R, J_EI – M_AU, P_W_A – S_ON,
S_K_O_R – P_Y_ON, T_AU – R_AU, V_AI_R – S_AU) ou tri-syllabique (K_A – P_R_I – K_O_R_N,
S_A – J_I – T_AI_R), les titres sont des éléments textuels introductifs dont le jeu des
observables prosodiques annoncent3 l’expressif discursif dévoilé graduellement dans
la suite de la lecture. Les diverses analyses sur ces observables menées aux niveaux
micro et méso-linguistiques (soit de la syllabe au groupe phrastique) en révèlent un
ensemble de traits de variance et d’invariance prosodique. Pour les illustrer, nous
exposons dans la suite quelques exemples des portées prosodiques hybrides, qui
contiennent4, dans l’ordre : les contours mélodiques formels (variable prosodique V1)
et les durées (variable prosodique V9) syllabiques, les contours mélodiques formels
(variable V2, ici identique à V4), les indices de déclinaison (variable V3), les tessitures
mélodiques (V6 identique à V8) et les tempos (variable V10) syntagmique. Précisons
que pour ce cas particulier de gph uni-syntagmique, les variables V5 (décrivant le mot
formel de déclinaison mélodique syntagmique), V12 (le mot formel des tempos), ainsi
que V11 et V13 (décrivant les pauses intra- et inter-syn) ne sont pas relevantes.
Nous illustrons ci-dessous les portées prosodiques hybrides pour trois groupes
phrastiques de type « signe » bi-syllabiques :
<gph> <syn> <syl>
V1
V9
V2/V4
V3
V6/V8
V10
L_Y_EI </syl> </syn> </gph>
B_A
<syl>
L_AN_S </syl> </syn> </gph>
[(X,12), (T,9)] ……. [(S,0), (B,15)] ……..……………
149 ………………… 499 ………………..…………..
[(X,12), (T,9), (B,15)] …………………….……………………………….
-15 …………………….……………………………….…………………..
15 …………………….……………………………….……………………
6,97 …………………….……………………………….………………….
<gph> <syn> <syl>
V1
V9
V2/V4
V3
V6/V8
V10
<syl>
[(X,10), (T,13)] ……. [(S,0), (B,15)] …….………….
166 ………………… 319 ………………..…………
[(X,10), (T,13), (B,15)] …………………….………………………………
-15 …………………….……………………………….……………………
15 …………………….……………………………….……………………
6,03 …………………….……………………………….…………………..
<gph> <syn> <syl>
V1
V9
V2/V4
V3
V6/V8
V10
B_EI
V_AI_R <syl> S_AU </syl> </syn> </gph>
[(X,12), (T,12)] ………... [(S,0), (B,13)] ……..……
220 ……………………... 316 ………..……...…….
[(X,12), (T,12), (B,13)] …………………….………………………………
-13 …………………….……………………………….……………………
13 …………………….……………………………….……………………
4,60 …………………….……………………………….………………….
Nous pouvons espérer que certaines caractéristiques prosodiques expressives propres aux textes procéduraux
(cf. chapitre 4, section 4.1.1.1) soient présentes dès le titre de chaque texte.
4 Précisons que les variables prosodiques illustrées sur ces portées sont des moyennes sur l’ensemble du corpus.
3
165
Quant aux signes uni-syllabiques, nous avons obtenu les portées prosodiques
hybrides suivantes :
<gph>
V1
V9
V2/V4
V3
V6/V8
V10
<syn> <syl>
L_Y_ON </syl> </syn>
</gph>
[(X,11), (T,11), (L,6)] …..…….
413………………….…………
[(X,11), (T,11), (L,6)] …………………….…………
-6 …………………….………………………………
11 …………………….………………………………
2,43 …………………….…………………………….
<gph>
V1
V9
V2/V4
V3
V6/V8
V10
<syn> <syl>
V_Y_AI_R_J
</syl> </syn> </gph>
[(X,11), (T,13), (L,8)] …..……………
597………………….………………..
[(X,11), (T,13), (L,8)] …………………….…………………
-8 …………………….……………………………….……...
13 …………………….……………………………….……..
2,02 …………………….……………………………….……
Enfin, nous exposons les portées hybrides pour les deux signes tri-syllabiques :
<gph>
V1
V9
V2/V4
V3
V6/V8
V10
K_A
<syl>
P_R_I <syl>
K_O_R_N
</syl> </syn> </gph>
[(X,25), (T,1)] ……… [(S,0), (L,4)] ……… [(S,0), (B,13)] ………….……….
113 …………………. 159 ………………… 449 …………………….………
[(X,25), (T,1), (B,17)] …………………….……………………………….………….………….…….
-13 …………………….……………………………….…………………….………….………….…..
17 …………………….……………………………….…………………….………….………….……
7,34 …………………….……………………………….…………………..………….………….……
<gph>
V1
V9
V2/V4
V3
V6/V8
V10
<syn> <syl>
<syn> <syl>
S_A
<syl>
J_I <syl>
T_AI_R
</syl> </syn> </gph>
[(X,24), (T,2), (L,2)] … [(S,0), (L,5)] ……… [(S,0), (B,11)] .…………
190 …………………… 165 ………………... 425 …………………....
[(X,24), (T,2), (B,18)] …………………….……………………………….………….……….
-11 …………………….……………………………….…………………….………….……..
18 …………………….……………………………….…………………….………….………
5,48 …………………….……………………………….…………………..………….………
Quelques commentaires sont sans doute nécessaires ici. Les analyses micro et
méso-mélodiques montrent que chacun de ces gph / syn porte une emphase
mélodique qui se retrouve sur la syllabe accentuée (généralement, la première) du
mot décrivant le signe. Pour les signes bi-syllabiques, celle-ci est réalisée par un
mouvement mélodique montant qui retrace une excursion fréquentielle amplement
escarpée. Nous avons illustré dans le chapitre 6, (cf. figure 6.33) le mouvement
mélodique formel pour une réalisation de la syllabe accentuée du gph titre « B_EI –
L_Y_EI ». Des comportements mélodiques (décrits par la variable prosodique V1, cf.
chapitre 5, tableau 5.3,) similaires s’observent pour toutes les syllabes accentuées du
même signe (soit « B_EI » du « B_EI – L_Y_EI ») ou des autres signes bi-syllabiques de
notre corpus. De sorte que nous avons illustrés, dans l’ordre, les mouvements
166
fortement montants des syllabes accentuées des titres mentionnés auparavant : B_EI
(de « B_EI – L_Y_EI »), B_A (de « B_A – L_AN_S »), V_AI_R (de « V_AI_R – S_AU ») :
Contours de classe alpha-type 1 (fortement montants)
Figure 8.3a : Exemples de V1 fortement montants pour les syl accentuées des titres bi-syllabiques
Le syllabes accentuées des titres bi-syllabiques K_AN – S_AI_R, S_K_O_R – P_Y_ON,
T_AU – R_AU et P_W_A – S_ON présentent eux aussi une excursion mélodique montante
de classe alpha-type 1 (soit un mouvement formel de type « X H »), mais l’amplitude
moyenne de cette excursion est plus réduite (dans l’ordre : 3, 2, 2, et 2*ε mel) :
Contours de classe alpha-type 1 (légèrement montants)
Figure 8.3b : Exemples de V1 légèrement montants pour les syl accentuées des titres bi-syllabiques
Bien que la plupart des titres des textes sont des syntagmes bi-syllabiques dont la
première se caractérise par une excursion mélodique strictement montante (ce qui
traduit une première récurrence prosodique qui affecte la variable V1), les aspects
mélodiques sont un peu différents pour les titres uni- ou tri-syllabiques. Si nous
examinons leurs portées, nous observons que : i) les derniers ont des comportements
irréguliers, renvoyant soit aux titres bi-syllabiques, soit aux titres uni-syllabiques, et
ii) les premiers présentent une excursion mélodique syllabique (et, de ce fait, aussi
syntagmique) régulière de classe bêta – type 5 (soit un mouvement formel de type
« X H L ») que nous pouvons toutefois décomposer en une montée « X T » de classe
alpha – type 1 et une descente « T B » de classe alpha – type 2). Le même type de
mouvement mélodique formel « X T L » peut être observé pour les titres-signes bi- ou
tri-syllabiques, mais au niveau syntagmique :
167
Contours de classe bêta-type 5
Figure 8.4 : Exemples d’excursions des V2/V4 pour les titres-signes bi-, uni-, et tri-syllabiques
Ceci nous encourage à comparer les mouvements mélodiques des titres-signes sur
les portées des variables prosodiques V2 (ici, identiques aux V4), et V3 plutôt que sur
les portées syllabiques des V1. Au sein des portées syntagmiques, nous pouvons
trouver les traits de récurrence mélodique qui ne dépendent pas de la structure
syntagmique (ici, du nombre de syllabes). Premièrement, nous remarquons que tous
les syntagmes sont caractérisés par des V2/V4 décrivant un mouvement mélodique
« X H L » de classe bêta–type 5, même si les amplitudes de leurs excursions varient
selon la structure syntagmique (et/ou éventuellement syllabique), soit des montées
fortes pour les syntagmes uni-syllabiques et la plupart des syntagmes bi-syllabiques,
et plus légères, pour le reste des derniers et pour les syntagmes tri-syllabiques.
Ensuite, en analysant les portées des variables prosodiques V3, nous observons
que tous les titres-signes désignent une forte déclinaison (entre 6 et 15 εmel) située à la
fin de l’excursion mélodique syntagmique. Ramenée aux portées des variables
prosodiques V6 (ici, identiques aux variables V8), celle-ci correspond à une descente
mélodique qui recouvre sinon toute, plus que la moitié de la tessiture mélodique
(s’étalant de 8 à 18 εmel) phrastique respective :
Figure 8.5 : Exemples de déclinaisons V3 et des tessitures mélodiques V6 pour les gph titres-signes
Enfin, constatons aussi que les contours fortement montants présentent un point
de départ (ici, X) situé sur un niveau mélodique « moyen » (d’environ 10 à 12 εmel),
contrairement aux contours légèrement montants qui partent d’un niveau mélodique
placé déjà très haut (environ 24-25 εmel).
168
Avant d’examiner les portées des variables temporelles, précisions que toutes les
caractéristiques mélodiques récurrentes mentionnées auparavant ont été observées
parmi l’ensemble de notre corpus d’horoscopes, et correspondent, par conséquent, à
des titres-signes des textes définis dans une pratique d’oralisation uni-textuelle (i.e.
un seul texte oralisé à la fois). Or, pour une pratique horoscopique intertextuelle (les
12 signes à la suite, cf. chapitre 5), ces caractéristiques peuvent être soumises à des
mutations mélodiques radicales. Ainsi, un des scénarios prosodiques possibles pour
faire remarquer la hiérarchisation intertextuelle consiste en l’alternance volontaire
des contours mélodiques finaux des titres-signes consécutifs (descendant / montant /
descendant, etc.), cf. chapitre 5, suivant la règle d’inversion des pentes mélodiques,
évoquée dans la section 6.4.6. Elle affecterait la portée des variables prosodiques V3.
Pour ce qui relève des portées prosodiques temporelles, nous observons une
énorme variabilité parmi les durées syllabiques V9 et les tempos syntagmiques V10.
Ceci est dû essentiellement à leur dépendance directe de la structure syllabique (i.e.
n° et type de phonèmes) et/ou syntagmique (i.e. n° des syllabes). Cependant, nous
pouvons en apercevoir quelques traits prosodiques récurrents. Le premier concerne
la dernière syllabe du titre-signe dont la durée est considérablement plus grande que
celles des autres syllabes du même syntagme. Son étendue phonémique presque
doublée par rapport à celles des dernières (soit d’environ 140 ms/phonème, comparé
à 75 ms/phonème), garantit à la dernière syllabe le temps nécessaire pour réaliser la
déclinaison mélodique finale, mentionnée auparavant. Ceci est valable aussi bien
pour les signes bi- ou tri-syllabiques, que pour ceux uni-syllabiques, qui manifestent
sur la portée des variables temporelles V9 un comportement identique à celui d’une
syllabe finale.
Figure 8.6 : Étendues phonémiques moyennes pour les syllabes des gph titres-signes
Ensuite, nous nous intéressons aux possibles récurrences prosodiques concernant
les portées numériques des tempos syntagmiques. Or, l’étude d’observables V10
nous permet d’en constater une très grande variabilité prosodique, dont la moyenne
s’étale entre 2,2 syl/sec pour les titres-signes uni-syllabiques, et 7,34 syl/sec pour les
signes tri-syllabiques. À cause de leur forte dépendance de la structure syntagmique,
nous ne pouvons pas considérer les variables temporelles V10 comme étant des
éléments pertinents pour la recherche des récurrences prosodiques des titres-signes.
169
8.1.2 Récurrences prosodiques dans les titres de sections
Des comportements prosodiques similaires à ceux des titres de textes se manifestent
pour les titres de sections, qui sont des gph uni-syntagmiques composés de trois (V_I
P_R_I – V_EI), quatre (V_I K_AU – T_I – D_Y_AI_N) ou cinq (V_I P_R_AU – F_EI – S_Y_AU –
N_AI_L) syllabes. Nous illustrons ci-dessous leurs portées hybrides moyennes :
<gph> <syn> <syl> V_I <syl> P_R_AU <syl> F_EI <syl> S_Y_AU <syl> N_AI_L </syn> </gph>
V1
V9
V2/V4
V3
V6/V8
V10
[(X,11), (T,14)]…[(S,0), (L,3)] … [(S,0), (L,2)]…[(S,0), (L,2)]……...[(S,0), (L,3)]………
180 ……………. 163…………… 113 …………196………………..303…………………
[(X,11), (T,14), (L,10)] …………………….……………………………….………….…………...
-3 …………………….……………………………….…………………….………….…………….
10 …………………….……………………………….…………………….………….……………
5,86 …………………….……………………………….…………………..………….……………
<gph>
V1
V9
V2/V4
V3
V6/V8
V10
<syn> <syl>
V_I
<syl>
P_R_I
<syl>
V_EI
</syl>
</syn>
</gph>
[(X,11), (T,13)] … [(L,2), (D,7)] ……… [(D,1), (B,7)] .……….
168 ……………… 179 ………………... 215 ………………….
[(X,11), (T,13), (B,17)] …………………….……………………………….………….………..
-7 …………………….……………………………….…………………….………….…………
17 …………………….……………………………….…………………….………….………..
5,75 …………………….……………………………….…………………..………….………..
<gph> <syn> <syl> V_I <syl> K_AU <syl> T_I <syl> D_Y_AI_N </syl> </syn> </gph>
V1
V9
V2/V4
V3
V6/V8
V10
[(X,12), (T,13)]…[(S,0), (L,5)] … [(S,0), (L,3)]…[(S,0), (B,9)]…………………..
153 …………….. 124…………… 120 …………. 452 …………………………..
[(X,12), (T,13), (B,17)] …………………….……………………………….………….………
-9 …………………….……………………………….…………………….………….………..
17 …………………….……………………………….…………………….………….………
6,34 …………………….……………………………….…………………..………….………
Plusieurs traits relevant des comportements expressifs des titres des sections
peuvent être observés sur ces portées prosodiques. Premièrement, nous pouvons
constater sur les portées des variables prosodiques syllabiques V1, la présence
récurrente d’un mouvement mélodique « X T » fortement montant (d’amplitude de
13 à 14εmel) qui caractérise la première syllabe des titres-sections (ici, V_I), et qui nous
rappelle les contours mélodiques des syllabes porteuses d’emphase mélodique des
gph de type titres-signes :
170
Contours de classe alpha-type 1 (fortement montants)
Figure 8.7 : Exemples de V1 fortement montants pour les syl accentuées des titres des sections
Ensuite, nous remarquons au niveau syntagmique, une allure formelle similaire
des contours mélodiques moyens, de classe bêta-type 5, qui a comme point de départ
un niveau fréquentiel moyen (niveau X de départ sur 11-12εmel). Nous illustrons ici
les mouvements mélodiques des 3 titres de sections mentionnés, soit dans l’ordre :
Contours de classe bêta-type 5
Figure 8.8 : Exemples d’excusions des V2/V4 pour les titres-section
Notons ici que si leurs tessitures mélodiques V6 (i.e. la différence des niveaux T et
B, entre 14 et 17εmel) restent numériquement comparables à celles des titres-signes, les
indices de déclinaison finale V3 ont une couverture plus réduite (soit entre un tiers et
la moitié) des tessitures mélodiques, et s’avèrent être généralement moins importants
pour les titres de sections :
Figure 8.9 : Exemples de déclinaisons V3 et des tessitures mélodiques V6 pour les gph titres-section
171
Cependant, ces derniers gardent la même allure formelle descendante pour la
pente mélodique de la syllabe finale, moins prononcée pour la première section
(« Vie professionnelle »), et de plus en plus considérable pour les deux autres (cf.
figure). Vraisemblablement, cette particularité mélodique des indices de déclinaison
V3 révèle un comportement prosodique méso-local qui rend perceptible (et donc,
discernable) la hiérarchisation du tout discursif.
Ensuite, pour ce qui relève des portées prosodiques temporelles, nous pouvons
constater quelques régularités dans la variabilité des durées syllabiques (portée V9)
et quelques récurrences dans les tempos syntagmiques V10. De sorte que si nous
illustrons les durées phonémiques moyennes des syllabes (i.e. les V9 rapportées à la
structure syllabique), nous avons pour les titres de sections :
Figure 8.10 : Étendues phonémiques moyennes pour les syllabes des gph titres-sections
Nous constatons que les durées phonémiques moyennes pour les syllabes
terminales restent généralement plus importantes (environ 110 ms) que celles des
syllabes non-terminales (environ 60 ms), et augmentent avec le déroulement discursif
(i.e. durée plus grande pour la syllabe finale de la troisième section). Cependant,
nous pouvons remarquer un comportement particulier des syllabes initiales des titres
de sections dont la durée phonémique moyenne est considérablement plus grande
que celle des syllabes non-terminales (et qui décroit doucement avec le déroulement
discursif). Ce comportement est très probablement lié au procédé d’emphase
mélodique sur la syllabe respective (manifestée et observée sur la portée prosodique
V1) qui est, par conséquent, davantage mise en relief.
Enfin, pointons ici que les observables syntagmiques retrouvés sur les portées des
variables temporelles V10 révèlent une variabilité prosodique moins marquée que
celle des tempos des titres-signes. La figure suivante illustre une moyenne pour les
tempos syntagmiques des titres-sections de 6 syl/sec (avec un écart-type insignifiant,
inférieur à 0.5 syl/sec) :
172
Figure 8.11 : Tempos syntagmiques moyens pour les gph titres-sections
Ce trait prosodique récurrent nous permet de considérer les variables V10 comme
éléments pertinents dans la recherche des invariants prosodiques des titres-sections.
8.1.3 Récurrences prosodiques dans les corps de sections
Contrairement aux titres de textes et de sections analysés jusqu’à présent qui sont des
gphs uni-syntagmiques simples (quant à leur contenu linguistique), les corps de
sections sont des gphs plus complexes, formés de plusieurs phrases et comportant de
nombreux groupements syntagmiques dont la nature reste très diversifiée. L’analyse
comparative des portées des variables prosodiques pour les corps de sections est, de
ce fait, plus délicate, voire parfois très difficile à opérer. Il s’avère que certaines de ces
variables sont plus pertinentes pour une étude expressive « moyenne » que d’autres.
Ainsi, au niveau syllabique, nous nous intéressons aux unités marquées par des
traits que nous avons constatés comme récurrents pour les groupes phrastiques de
type titre-signe et titre-section. Plus précisément, il s’agit d’observer : i) les syllabes
situées en fin de syntagme (terminal ou non-terminal), en vue d’examiner leur durée
phonémique moyenne, relative à celle des syllabes non-terminales, ainsi que leur
indice de déclinaison mélodique ; et ii) les syllabes marquées par des mouvements
mélodiques particuliers, auparavant typés (de classe alpha-type 1 et bêta-type 5).
Au niveau syntagmique, nous examinons particulièrement les portées décrivant
les indices de déclinaison mélodique (V3) et les portées des tempos (V10), et
discutons sur les mouvements mélodiques illustrés sur les portées prosodiques V2.
Enfin, au niveau du groupe phrastique, nous étudions les portées des tessitures
mélodiques (V6), des indices de déclinaison mélodique finale (V5), des mouvements
de tempos syntagmiques (V12), ainsi que des indices de pauses (V13).
Nous commençons donc par une illustration de quelques portées des variables
prosodiques syntagmiques associées aux unités 5 textuelles spécifiées par leurs
identifiants. Ainsi, pour le troisième groupe phrastique (gph n° 3) de notre texte-
5
Ceux-ci correspondent aux regroupements syntagmiques maximales (cf. chapitre 4).
173
exemple (cf. chapitres 4 et 5), nous avons les groupements syntagmiques avec les
identifiants subséquents :
t008f03S01 V_OU R_EU S_EU V_EI D_EI_K S_EI L_AN_T N_OU V_AI_L K_ON S_AI_R
N_AN V_O_T_R_E K_A R_Y_AI_R_E
t008f03S02
EI D_EU N_OU V_AI_L P_O_R_T_E S_OU_V_R_E D_EU V_AN V_OU
t008f03S03
V_AU_T_R_E S_I T_U A S_Y_ON A_K T_U AI_L S_EU S_T_A B_I L_I_Z
t008f03S04 V_OU P_OU V_EI A V_W_A L_IN P_R_EI S_Y_ON D_AI_T_R_E D_AN Z_U_N
IN P_A_S M_AI AN R_EI A L_I T_EI V_OU F_AI_D D_EU G_R_AN P_R_AU G_R_AI
Les portées prosodiques associées à ce corps de section se présentent comme suit :
<gph> <syn id=’t008f03S01’>…</syn>
V2
V3
V10
V6
V13
<syn id=’t008f03S02’>…</syn>
[(X,11), (H,11), (L,9), (T,10), (L,9), (H,7)]
[(D,6), (H,7), (L,10)] …………….……
+7 …………………….…………………
-10 …………………….………….……
5,79 …………………….……………….
5, 05…………………….………….……
15 …………………….………………………………………………………………………………………………
……………………………………………………………… 66 …………………………………………… 503 …
<syn id=’t008f03S03’>…</syn>
V2
V3
V10
V6
V13
<syn id=’t008f03S04’>…</syn> </gph>
[(S,0), (H,10), (B,13)] …………
[(U,4), (H,8), (L,8), (H,6), (L,7)] ….…
-13 …………………….………
-7…………………….………….………
6,37 …………………….……..
5,85…………………….………….…….
…………………….……………………………………………………………………………………………...….……
……………………………………………………………… 498 ………………………………………………….……
Quelques remarques sont nécessaires ici. Premièrement, nous nous concentrons
sur la portée des variables prosodiques V2. Nous pouvons observer pour les
syntagmes t008f03S02 et t008f03S03, des mouvements mélodiques globaux de classe
bêta-type 5 qui rappellent les mouvements mélodiques des syntagmes titres-signe ou
titres-section. Ceci s’explique en raison du fait que ces syntagmes sont des
groupements de mots qui composent des phrases courtes, indépendantes. Nous
allons retrouver dans le reste de notre corpus d’étude, des mouvements mélodiques
similaires pour les syntagmes du même type. Pour illustrer, nous exemplifions cidessous les portées pour le deuxième et le troisième gph de type corps-section, du
même texte. Ainsi, pour le deuxième gph de type corps de section, nous avons les
groupements syntagmiques avec leur identifiants correspondants :
t008f05S01
ON N_EI_G Z_I_J B_AU K_OU D_EU V_OU
t008f05S02 M_AI V_OU P_OU V_EI T_R_OU V_EI U_N S_AU L_U S_Y_ON P_OU_R
S_U_R M_ON T_EI S_EI Z_EI P_R_OE_V
t008f05S03 N_EU J_U J_EI P_A D_A P_R_AI L_EI Z_A P_A R_AN_S
t008f05S04 A T_AN D_EI D_EU K_AU N_AI_T_R_E T_OU L_EI F_AI A V_AN D_EI
M_AI_T_R U_N AU P_I N_Y_ON
174
Les portées prosodiques au niveau syntagmique pour ce groupe phrastique sont :
<gph> <syn id=’t008f05S01’>…</syn>
V2/V4
V3
V10
V6
V13
<syn id=’t008f05S02’>…</syn>
[(X,19), (L,8), (H,11), (L,7), (H,2), (L,6), (T,12)]
[(L,9), (H,10), (B,16)] ………...….……
+7 …………………….…………………
-13 …………………….………….……
6.28 …………………….………………..
6.74 …………………….………….……
16 …………………….………………………………………………………………………………………………
…………..………………………………………………… 336 …………………………………………… 545 …
<syn id=’t008f05S03’>…</syn>
V2/V4
V3
V10
V6
V13
<syn id=’t008f05S04’>…</syn> </gph>
[(U,6), (H,6), (L,12)] …………
[(U,12), (H,3), (L,9), (H,9), (L,8), (H,2), (L,8)]
-13 …………………….………
-13 …………………….………….………..
7.49 …………………….………
6.38 …………………….………….………..
…………………….………………………………………………………………………………………………….
…………..………………………………………………… 345 ……………………………………………………
Enfin, le dernier gph de type corps-section comporte les syntagmes suivants :
t008f07S01
V_OU P_R_EU N_EI L_EI CH_AU_Z T_R_AU P_AU S_AI R_Y_EU
t008f07S02
P_A S_EI D_U T_AN A V_AI_K V_AU P_R_O_CH
t008f07S03
S_O_R T_EI EI A M_U Z_EI V_OU
t008f07S04 V_OU Z_AU R_EI D_U M_A_L A V_OU Z_AN F_AI_R M_EI D_AN Z_U_N_E
R_OU T_I_N P_R_EI EI T_A B_L_I
t008f07S05
AI_K_S P_R_I M_EI V_O_T_R_E D_EI Z_I_R D_IN D_EI P_AN D_AN_S
Les portées des variables prosodiques pour ces syntagmes sont :
<gph> <syn id=’t008f07S01>…</syn>
V2/V4
V3
V10
V6
V13
<syn id=’t008f07S02’>…</syn>
[(X,10), (T,14), (L,3), (H,2), (L,8)]
[(H,9), (L,12), (H,12)] ………...….………
+7 …………………….…………………
-13 …………………….………….………..
5,98 …………………….………………..
8,61 …………………….………….……….
16 …………………….…………………………………………………………………………………………………………..
…………..………………………………………………… 385 …………………………………………… 66 ………………
<syn id=’t008f07S03’>…</syn>
V2/V4
V3
V10
V6
V13
<syn id=’t008f07S04’>… </syn>
[(L,6), (H,3), (L,7), (H,3), (L,5), (H,5)]
[(L,4), (H,7), (L,5), (H,4), (L,5), (H,6), (L,8),(H,3)]
+5 …………………….…………………….
+3 …………………….………..….………..….……
4,95 …………………….………………….
6,64 …………………….………….………..….……
…………………….………………………………………………………………………………………………………
…………………………………………………………… 482 …………………………………………… 441 ………..
175
<syn id=’t008f07S05’>…</syn> </gph>
V2/V4
V3
V10
V6
V13
[(H,4), (L,3), (H,2), (B,10)]…… ….……
-10 …………………….………….………
5,54 …………………….……..….………
…………………….……………………………………….…
………………………………………………………….….…..
Or, nous pouvons facilement constater sur les portées des variables prosodiques
V2, des récurrences des mouvements mélodiques syntagmiques de classe bêta-type 5,
pour les syntagmes t008f03S02, t008f03S03, t008f05S02, t008f05S03, t008f07S02, qui sont tous
des phrases courtes, indépendantes. Cependant, nous ne pouvons pas généraliser ce
trait de récurrence comme étant un invariant prosodique global pour tous les
syntagmes - phrases courtes, indépendantes, puisqu’il existe de nombreux cas où ces
derniers présentent une allure mélodique différente. Pour ceci, il suffit de scruter les
mouvements des variables V2 des syntagmes t008f05S01, t008f07S03 ou bien t008f07S05,
d’apparence plus sophistiquée, que nous avons typée (cf. chapitre 5) de classe delta,
et qui ressemble à ceux des syntagmes complexes (comme, par exemple, t008f03S04,
t008f05S04, t008f07S04). Ainsi, la grande variabilité mélodique syntagmique, qui s’avère
très dépendante du contenu linguistique (injonctif ou déclaratif, cf. chapitre 4), ne
nous permet pas de considérer les variables V2 comme étant des éléments pertinents
pour la recherche des récurrences prosodiques sur les corps des sections.
Les influences de cette grande variabilité mélodique au sein des syntagmes du
corps des sections vont toucher également la portée des indices de déclinaison finale
V3. Cette dernière est très sensible à divers autres paramètres, dont le plus prégnant
est la structuration (ou hiérarchisation) du discours. Nous pouvons ainsi observer
que tous les syntagmes situés en fin de groupe phrastique (i.e. finaux ou terminaux)
présentent une déclinaison mélodique importante (une pente négative considérable).
Pour les trois corps de section exemplifiés ici, les valeurs des variables V3 sont -7, -13
et respectivement, -10. Comme illustrés dans la figure suivante, ces déclinaisons
couvrent en moyenne entre ½ et ¾ des tessitures mélodiques des corps de section
décrites par les variables V6 :
a.
b.
Figure 8.12 : Déclinaisons V3 et tessitures V6 mélodiques pour les gph corps (a) et titres (b) de section
176
Notons ici que les tessitures mélodiques des gph de type corps-section sont
numériquement comparables à celles des gph de type titres-section, et s’étalent sur un
intervalle moyen de 16 (soit de 7 à 23 εmel). Or, comme les indices de déclinaison
finale des derniers ont une couverture de la tessiture mélodique plus réduite par
rapport aux premiers, nous pouvons retenir comme trait récurrent que la chute
mélodique est plus importante en fin de corps de section qu’en fin de titre de section.
Néanmoins, remarquons qu’il n’existe pas une correspondance évidente entre
l’amplitude, absolue ou relative, de cette déclinaison et l’emplacement du groupe
phrastique (ici, section de l’horoscope) dans le discours.
En ce qui concerne les portées prosodiques temporelles des gph corps-section,
nous observons au sein des variables V10, des mouvements de tempos syntagmiques
d’amplitude moyenne généralement réduite (exception faite les tempos du 2ème et du
3ème syntagme du gph 7 dans le texte-exemple), cf. figure suivante :
Figure 8.13 : Tempos syntagmiques pour les gph corps-sections (texte-exemple et texte n° 2)
Or, si nous traduisons ces quantités en termes de valeurs moyennes de tempos
syntagmiques et de tessitures temporelles phrastiques, nous observons dans notre
corpus, des traits prosodiques récurrents pour les variables V10 des corps de section :
un tempo moyen d’environ 6.5 syl/sec, avec un écart type moyen inférieur à 1 u.t. et
une tessiture temporelle moyenne inférieure à 2 syl/sec. Nous y reviendrons.
Ensuite, un ensemble de récurrences prosodiques peuvent être observées aussi sur
les portées des variables phrastiques V13 qui décrivent les durées des diverses
pauses inter-syntagmiques. De sorte que, si nous comparons6 les figures suivantes,
nous remarquons la présence des pauses : i) très courtes, d’une durée moyenne de 65
ms, situées généralement après ou entre des syntagmes courts (habituellement
composés de 7-8 syllabes) ; ii) de durée moyenne de 300-400 ms, placées à la frontière
de deux syntagmes longs, qui est marquée par une ponctuation forte ; et iii) de durée
moyenne de 500-600 ms, situées habituellement entre deux syntagmes longs :
6
Nous pouvons, bien évidemment, généraliser cette procédure de comparaison sur d’autres textes que ceux-ci.
177
Figure 8.14 : Durées des pauses inter-syn pour les gph corps-sections (texte-exemple et texte n° 2)
Ces illustrations montrent une forte dépendance quantitative (mais non-univoque)
des variables V13 à la structuration discursive globale, aux signes de ponctuation et à
la nature des frontières de regroupements syntagmiques, en particulier.
Nous concluons nos analyses comparatives au sein des gphs de type corps-section
par quelques récurrences micro-prosodiques rencontrées sur les portées des variables
V1 et V9. Comme mentionné auparavant, notre intérêt se dirige ici en particulier vers
les unités marquées par des traits que nous avons constatés comme récurrents pour
les groupes phrastiques de type titre-signe et titre-section. Nous observons d’abord
les syllabes situées en fin de syntagme7, en vue d’examiner leur durée phonémique
moyenne. Nous avons ainsi, pour le texte-exemple, la distribution suivante :
Figure 8.15 : Étendues phonémiques moyennes pour les syl des gph corps-sections (texte-exemple)
La figure 8.15 traduit pour notre texte-exemple, la différence entre les étendues
phonémiques moyennes respectivement des syllabes non-terminales (d’environ 6070ms) et terminales (d’environ 120-130ms). Un rapport quantitativement similaire
entre ces deux types de durées peut se retrouver pour d’autres textes du même
corpus expressivement homogène :
7
Qu’il soit terminal ou non-terminal pour le groupe phrastique de référence.
178
Figure 8.16 : Étendues phonémiques moyennes pour les syl des gph corps-sections (plusieurs textes)
Nous pouvons ainsi constater que toutes les syllabes situées en fin des syntagmes
gardent pour les corps de section, le même trait caractéristique sur la portée V9
(modulo n° des phonèmes), comme évoqué pour les titres-signes et les titres-sections.
Enfin, pour finir, nous nous intéressons à un ensemble de syllabes marquées par
des mouvements mélodiques particuliers, semblables à ceux auparavant typés (de
classes alpha-type 1 et de classe bêta-type 5). Notons que sur l’ensemble du corpus
d’horoscopes, les corps de section en disposent d’une multitude d’exemples. Tout
d’abord, c’est le cas des syllabes accentuées des verbes injonctives qui se caractérisent
sur la portée V1 par des mouvements mélodiques montants, de type « X H »
d’amplitude variable. En fonction de la valeur de cette amplitude, ces syllabes se
remarquent par des contours légèrement ou fortement montants, selon le cas. Pour
exemplifier, les premiers (d’une amplitude moyenne de 3εmel) s’observent pour les
syllabes AU de « occupez-vous », P_R_EU de « prenez », EI de « éloignez-vous », etc. :
V1
<syn> … <syl> AU </syl> … </syn>
<syn> … <syl> EI </syl> … </syn>
[(X,19), (H,3)]……………………..
[(X,21), (H,4)] …………………
Plus encore, d’autres syllabes accentuées des injonctives se distinguent par des
contours mélodiques de classe alpha-type 1, d’amplitude considérable (soit en
moyenne de 8-9εmel). Ceci est le cas des syllabes S_W_A de « soyez », ou R_EI de
« réussissez », mais aussi de Z_AU (de « vous aurez »), etc., dont la montée mélodique
est encore plus considérable :
<syn> … <syl> S_W_A </syl> … </syn>
V1
<syn> … <syl> Z_AU </syl> … </syn>
[(L,1), (H,8)]……………………………..
[(L,2), (H,12)] ………………………
Cependant, si nous observons d’autres syllabes de notre corpus, nous remarquons
que ces mouvements ne caractérisent pas uniquement les syllabes des injonctives.
Des emphases mélodiques similaires sont également présentes au sein de divers mots
provenant des catégories grammaticales variées, telles :
179
i) les substantives (comme AU de « une opportunité », D_EI de « détails pratiques »,
V_AU de « volontarisme », S_U_R de « surprise », etc.) :
<syn> … <syl> AU </syl> … </syn>
V1
<syn> … <syl> S_U_R </syl> … </syn>
[(U,1), (H,5)]……………………………..
[(S,0), (H,6)] ………………………
ii) les adjectives (comme D_I de « angle différent », I de « dispute inutile », M_AI de
« un weekend mémorable », etc.) :
<syn> … <syl> D_I </syl> … </syn>
V1
<syn> … <syl> M_AI </syl> … </syn>
[(S,0), (H,5)]……………………………..
[(S,0), (H,4)] ………………………
iii) les pronoms – dont les plus représentés et marqués sont ceux d’adresse (V_OU de
« vous réussissez », « vous aurez »), et les adjectives pronominaux correspondants
(V_AU de « vos idées », ou de « vos mains », V_AU_T_R de « votre destinée », etc.) :
<syn> … <syl> V_OU </syl> … </syn>
V1
<syn> … <syl> V_AU </syl> … </syn>
[(L,2), (H,8)]……………………………..
[(L,1), (H,9)] ………………………
Pareillement, les contours mélodiques de classe bêta-type 5 ne caractérisent pas
exclusivement certaines syllabes des verbes injonctives (comme, par exemple, C_ON
de « constater », Z_AI_T de « vous êtes », EI de « essayez », etc.), mais aussi les syllabes
accentuées, comme P_L_U de « plutôt », P_A de « ne perdez pas », V_I_V de
« discussion vive », B_AU de « beaucoup », S_Y_AI_R d’« opportunité financière », etc. :
<syn> … <syl> Z_AI_T </syl> … </syn>
V1
<syn> … <syl> P_A </syl> … </syn>
[(S,0), (H,10), (L,4)]………………………
[(L,3), (T,6), (L,5)] …………………
<syn> … <syl> B_AU </syl> … </syn>
V1
<syn> … <syl> S_Y_AI_R </syl> … </syn>
[(S,0), (H,14), (L,5)]………………………
[(S,0), (H,5), (L,1)] ………………………
Nous observons que ces mouvements mélodiques semblables décrivent des
syllabes accentuées appartenant à des mots grammaticalement hétéroclites. De sorte
qu’il s’avère que le procédé discursif traduit ici par l’emphase syllabique (qui sert à
mettre en évidence les rhèmes dans les thèmes, cf. [MOR’92]) détermine d’avantage
que la classification grammaticale les récurrences prosodiques sur les portées des
variables mélodiques V1.
180
8.1.4 Récurrences prosodiques au niveau du texte
Les dernières analyses comparatives visant la recherche des récurrences prosodiques
s’intéressent aux traits observables au niveau du texte. Les variables prosodiques
particulièrement concernées par ces analyses sont : les tessitures mélodique (V8) et
temporelle (V15), la durée totale du texte (V17), ainsi que les pauses inter-gph (V16).
Nous allons toutefois discuter sur les possibles analyses comparées des mouvements
formels mélodiques (V7) et temporels (V14).
Premièrement, nous examinons les possibles traits de récurrence prosodique
parmi les paramètres décrivant les pauses inter-gph retrouvées sur les portées V16.
Leur emplacement étant toujours fixe au sein du discours, nous en exemplifions leurs
durées absolues pour le texte-exemple de notre corpus d’horoscopes « typiques » :
<txt> <gph type="signe">…</gph> <gph type="titre section">…</gph> <gph type="corps
V16
435 …………….………………………………. 459 ………………..……
section">...</gph> <gph type="titre section">…</gph> <gph type="corps section">…</gph>
V16
……………………… 1210 …………………….……………………… 527 ……….…………………..………….………
<gph type="titre section">...</gph> <gph type="corps section"> </txt>
V16
964 …………………….…………………… 528
Remarquons ici que la durée de la pause située entre le titre-signe et le titre-section
est numériquement comparable aux durées des pauses situées entre les titres-section
et les corps-section, généralement d’ordre de 400-500 ms. Rapporté à celles-ci, les
pauses départageant le corps d’une section et le titre de la section suivante ont des
durées absolues doubles, voire triples (environ 1000-1200 ms). Un court survol sur les
portées des variables V16 d’autres textes du même corpus nous révèle le fait que ceci
est un trait prosodique rencontré couramment. Il dévoile la dépendance immédiate
des durées des pauses inter-gph, à la hiérarchisation discursive en unités des gph :
Figure 8.17 : Durées des pauses inter-gph – horoscopes weekly (texte-exemple, texte n° 2, texte n° 10)
181
Précisons que cette caractéristique prosodique se retrouve également au sein des
textes du corpus d’horoscopes quotidiens qui incluent seulement deux sections (par
rapport aux horoscopes hebdomadaires qui en comprennent trois) :
Figure 8.18 : Durées des pauses inter-gph – horoscopes daily (texte n° 100, texte n° 255)
Nous examinons ensuite la durée totale des textes, telles qu’elle est illustrée sur les
portées des variables prosodiques V17. Nous en montrons8 ici quelques exemples :
V17
V17
<txt type="horoscope weekly"> … </txt>
<txt type="horoscope weekly"> … </txt>
42.6 …………………….……………………………..
44.3 ………………………………………………………
<txt type="horoscope daily"> … </txt>
<txt type="horoscope daily"> … </txt>
32.8 …………….………………………………………
34.7 ………………..…………………………………….
Nous pouvons présenter le résultat des analyses comparatives des durées V17 sur
l’ensemble des deux corpus (hebdomadaire et quotidien), sous la forme suivante :
Figure 8.19 : Durées totales moyennes des textes (horoscopes weekly, horoscopes daily)
8
Notons que toutes les valeurs absolues des variables V17 sont exprimées en [sec].
182
Nous observons ainsi que l’étendue moyenne des horoscopes hebdomadaires
s’élève à 46sec, tandis que celle des horoscopes quotidiens à 33 sec soit environ 16 sec
par section, pour chaque type de texte. Ce trait prosodique traduit indirectement : i)
l’équilibre du contenu linguistique (ici, le nombre total des syllabes), et ii) le tempo
syntagmique à tendance généralement constante (environ 6-7 syl/sec) des horoscopes
de notre corpus. La distribution dans le corpus, de ces tempos dont les mouvements
sont décrits au niveau textuel par les variables V14 peut être représentée ainsi :
Figure 8.20 : Tempo moyen des gph et leur écarts-type (texte n° 2, texte n° 255)
Les analyses prosodiques suivantes concernent les portées des tessitures
temporelle (V15) et mélodique (V8) globales. Nous en illustrons quelques exemples :
V15
V8
<txt id="t008"> … </txt>
<txt id="t002"> … </txt>
[(B,4),(T,3)] …………………….……………………..
[(B,7),(T,27)] …………………….……………………
[(B,6),(T,1)] ……………………………………………
[(B,7),(T,28)] …………………………………………
Si nous examinons les portées des variables prosodiques V15 de ces exemples,
nous apercevons une variabilité consistante au sein des tessitures temporelles
globales : un intervalle d’excursion des tempos de 3 u.t. pour le premier texte, vs. un
intervalle de seulement 1 u.t. pour le second. Ainsi, les tessitures V15 semblent, au
premier regard, ne pas nous apporter des informations révélatrices sur les
récurrences prosodiques au niveau textuel. Néanmoins, si nous observons plus
attentivement les maxima des variables V15 illustrées dans les portées ci-dessus,
nous constatons qu’elles se situent sur le même niveau temporel, soit 7 u.t. (syl/sec).
Ce dernier s’avère correspondre au niveau moyen des excursions des maxima
absolus pour l’ensemble des textes de notre corpus d’horoscopes en lecture
« typiques » (cf. figure suivante). Remarquons, dans la même figure, que la moyenne
des excursions des minima absolus est située à 6 syl/sec. Ceci traduit pour l’ensemble
de ce corpus, une tessiture globale moyenne d’environ 1 u.t., qui est comparable aux
tessitures moyennes individuelles des minima et des maximas de tempos. Autrement
dit, comme mentionné auparavant, le tempo des horoscopes « typiques » est
généralement constant (de 6 à 7 syl/sec).
183
Figure 8.21 : Tessitures temporelles moyennes pour les textes du corpus « typique »
Ensuite, comme exposé sur les portées des variables V8, nous pouvons constater
une grande similarité entre les tessitures mélodiques globales des deux textes. Cette
caractéristique macro-prosodique s’avère être un trait représentatif pour les textes de
notre corpus « typique », qui présentent des excursions fréquentielles usuellement
situées entre les niveaux 8 εmel (le min moyen) et 26 εmel (le max moyen) :
Figure 8.22 : Tessitures mélodiques moyennes pour les textes du corpus « typique »
Enfin, les observations sur les mouvements mélodiques et temporels globaux
décrits par l’intermédiaire des variables formelles V7 et V14, nous en dévoilent une
variabilité prosodique présente tant au sein de chaque texte qu’au sein du corpus
entier. Or, celle-ci témoigne, pour les lectures « typiques », de la dépendance directe
entre ces mouvements prosodiques et le contenu textuel (linguistique). Pour ces
raisons, nous ne pouvons pas retenir les variables prosodiques V7 et V14 comme
étant des éléments pertinents pour la recherche des récurrences prosodiques telle que
menée dans les travaux présents.
184
8.1.5 Discussion sur les invariants prosodiques intra-expressifs
Si nous résumons les résultats des diverses analyses prosodiques comparatives entre
les formes expressivement homogènes (d’horoscopes en lecture « typique ») de notre
corpus, nous en distinguons un ensemble de traits d’invariance, que nous pouvons
traduire en termes de contraintes partielles sur les variables prosodiques (cf. 5.2) :
Niveau
d’analyse
syl
Dimension prosodique
mélodique (F)
temporelle (T)
C1 : V1 en classe alpha-type1 ou bêta- type 5
pour les syl accentuées des mots porteurs
d’emphase9 (signes, titres sections, injonctives,
divers mots accentués, etc.)
C9 : V9 (/n° de phonèmes) doublées pour les
syl terminales des syn par rapport aux syl
non-terminales pour les titres-sections (soit
100-120 ms vs. 40-50 ms), légèrement plus
grandes pour les titres-signes et les corpssection (soit 130-150 ms vs. 60-70 ms)
C2 : V2 en classe bêta-type 5 pour les
syntagmes indépendants courts (signes titres,
phrases courtes dans les corps de section), nonpertinentes (*)10 pour les syn plus complexes
C10 : V10 dépendantes des regroupements
syntagmiques, non-significatives pour les
titres signes (car gphs uni-syn, bi- ou tri-syl),
en moyenne de 5-6 ou de 7-8 syl/sec pour les
syn des autres gph (titres- et corps-section)
C3 : V3 en forte pente négative (8-15 εmel) pour
tous les syn terminaux et en alternance
positive/négative (cf. IPM, AVM) pour les syn
consécutifs de la même phrase
C11 : V11 non pertinentes (*) pour la
recherche des récurrences dans ce corpus
C4 : V4 identiques à V2 pour les titres-signe et
les titres-section, mais non-pertinentes(*)
quant aux récurrences dans les corps de section
C12 : V12 peu prononcés (environ 1 syl/sec)
pour le corpus d’horoscopes « typiques », car
tempo généralement constant de 6-7 syl/sec.
C5 : V5 non pertinentes (*) pour la recherche
des récurrences dans ce corpus
C13 : V13 très courtes (de durée moyenne de
65 ms) si après ou entre les syn courts
(composés de 7-8 syl) ; V13 moyennes de 300-
syn
gph
Le degré de cette emphase détermine l’amplitude moyenne des contours montants des V1, soit 13-15 εmel pour
les emphases fortes, 7-8 εmel pour les emphases « moyennes » et 3-4 εmel pour celles plus « légères ».
10 (*) Puisque trop complexes et ayant une grande variabilité (fort dépendantes du contenu linguistique).
9
185
C6 : V6 considérables (15-16 εmel) pour les
titres-signes et les titres-section, et encore plus
importantes (jusqu’à 20 εmel) pour les gph de
type corps de section
400 ms si placées à la frontière des deux syn
longs et/ou marquées par une ponctuation
forte ; V13 moyennes d’environ 500-600 ms
couramment situées entre deux syn longs
C7 : V7 non pertinentes (*) pour la recherche
des récurrences dans ce corpus
C14 : V14 non pertinentes (*) pour la
recherche des récurrences dans ce corpus
C8 : V8 d’amplitude moyenne de 18 εmel (soit
une excursion mélodique située entre le niveau
B absolu moyen de 8 εmel et le niveau T absolu
moyen de 26 εmel)
C15 : V15 d’amplitude moyenne de 1 syl/sec
(soit une excursion temporelle située entre le
niveau B absolu moyen de 6 syl/sec et le
niveau T absolu moyen de 7 syl/sec)
txt
C16 : V16 moyennes (400-500 ms) entre les
signes et les titres-section, ainsi qu’entre les
titres-section et les corps-section ; V16 fortes
(1000-1200 ms) entre les corps-section et le
titre de la section suivante
C17 : V17 moyennes d’environ 45-46 sec
pour les horoscopes hebdomadaires et
d’environ 30-33 sec pour ceux quotidiens
Tableau 8.1 : Contraintes des variables prosodiques par dimension et palier d’analyse
Or, si l’on veut situer les contraintes résumées dans le tableau 8.1, dans le cadremodèle de l’expressivité discursive tel que défini dans le chapitre 2 et formalisé en
chapitre 5, nous en retrouvons une distribution conforme sur les dimensions F et T :
Figure 8.23 : Distribution des contraintes des observables expressifs sur les structures F et T
Plus encore, si nous nous rapportons à la rationalisation du phénomène rythmique
proposée par [SAU’00], reprise et adaptée pour notre cadre d’étude (cf. chapitre 5,
186
section 5.4), les contraintes prosodiques mentionnées auparavant suivent les mêmes
critères d’organisation que les variables prosodiques qu’elles concernent :
Figure 8.24 : Distribution des contraintes prosodiques en fonction des composants rythmiques
Distinguées auparavant selon le niveau d’analyse et la dimension prosodique,
mais aussi selon la nature (acoustique ou formelle) des paramètres qu’elles affectent,
ces contraintes prosodiques sont disposées ici dans une représentation équivalente
qui suit la combinatoire des composants de la triade rythmique (S, P, M). Les jeux
hybrides de ces structures, périodicités et mouvements prosodiques signalés par les
diverses contraintes C1–C17, définissent les enveloppes rythmiques qui caractérisent
l’expressif discursif de notre corpus à des paliers de textualité (donc d’observation et
d’analyse) différents. Autrement dit, ces contraintes prosodiques dévoilent (certes, en
partie) la signature expressive qui caractérise cet horoscope en lecture « typique » de
notre corpus (soit la PATHtg=1, ds=0, rp=1 , cf. chapitre 5, section 5.3.2) :
STRUCTURE
S
PERIODICITE
P
M
MOUVEMENT
Figure 8.25 : Signature expressive par contraintes prosodiques (horoscopes en lecture « typique »)
Rappelons ici que sur le plan opérationnel, les signatures expressives relèvent
d’isotopies prosodiques et se traduisent par un ensemble de récurrences dans le
choix que les contraintes prosodiques opèrent parmi les variables prosodiques (i.e.
sur leurs possibles valeurs). Toutefois, sur le plan interprétatif, ces signatures sont
des véritables interprétants expressifs d’ordre supérieur qui permettent le repérage et
incitent ainsi au discernement des formes rythmiques, caractéristiques d’une
pratique discursive spécifiée par un genre (tg), une situation (ds) et un idiolecte (rp).
La section suivante développe ce sujet, en illustrant sur quelques exemples, un
ensemble de traits prosodiques qui témoignent du discernement expressif des formes
composant notre corpus de parodies.
187
8.2
Recherche de traits discernables. Exemples inter-génériques.
L’analyse comparative des divers observables prosodiques s’étend ici à des formes
discursives expressives situées dans des espaces extratextuels hétérogènes, issues des
divers corpus alternatifs (cf. chapitre 4). Dans ce cas, les comparaisons11 formelles
servent à extraire un ensemble de règles prosodiques qui mettent en jeu des critères
de discernabilité expressive formelle (cf. section 5.4). Nous appelons ces dernières,
règles expressives de variance (ou inter-expressives), vs. les règles expressives de
récurrence (ou intra-expressives), citées dans la section 8.1 (cf. figure 8.2) :
Figure 8.26 : Étapes pour la recherche des discernabilités prosodiques (dans la s2-Ph2)
Si le discernement des formes expressives discursives concerne particulièrement
une ou plusieurs caractéristiques extratextuelles de ces formes, les règles expressives
de variance dévoileront un ensemble d’éléments prosodiques signifiants relevant des
isotopies génériques, situationnelles et/ou idiolectales.
Nous illustrons dans la suite quelques exemples des règles de discernement
prosodique des formes expressives qui composent notre corpus alternatif, telles que
traduites par les jeux variés des contraintes sur les variables prosodiques associées.
Rappelons (cf. annexe A3 et section 4.1.2) ici que notre corpus alternatif est composé
d’un ensemble réduit de réalisations orales correspondant à des lectures différentes
de deux textes horoscopiques (dont le texte-exemple mentionné dans les chapitres
antérieurs). Ne s’agissant pas d’épuiser la combinatoire des caractéristiques tg, ds et
rp, nous avons choisi pour cette étude comparative un ensemble illustratif des types
d’élocutions de ces textes (cf. sections suivantes), pour chacun des deux locuteurs.
L’étude de la variabilité des formes discursives expressivement hétérogènes
débute ici par la recherche de divers traits prosodiques qui témoignent d’une
discernabilité expressive inter-générique (selon la dimension tg du vecteur < S >).
Pour ceci, nous procédons par : i) extraction et observation des variables prosodiques
associées à ces formes et ii) comparaison de leurs diverses affectations prosodiques.
11
Notons que pour différencier prosodiquement les fde, leur comparaison formelle est obligatoire en préalable.
188
Nous analysons premièrement les traits expressifs propres à la lecture du texteexemple d’horoscope (tg1) en mode « commentaire sportif » (tg2), pour laquelle nous
avons obtenu, en préalable, le découpage syntagmique rythmique tel qu’évoqué dans
le chapitre 5, section 5.1. Nous présentons ici la correspondance entre les syntagmes
des corps de sections (les autres étant identiques à ceux en lecture « typique ») et
leurs identifiants respectifs. Nous avons ainsi, pour le premier corps de section :
t006f03S01
V_OU R_EU S_EU V_EI
t006f03S02
D_EI_K S_EI L_AN_T N_OU V_AI_L
t006f03S03
K_ON S_AI_R N_AN V_O_T_R_E K_A R_Y_AI_R_E
t006f03S04
EI D_EU N_OU V_AI_L P_O_R_T_E S_OU_V_R_E D_EU V_AN V_OU
t006f03S05
V_OU
V_AU_T_R_E S_I T_U A S_Y_ON A_K T_U AI_L S_EU S_T_A B_I L_I_Z
t006f03S04
P_A_S
P_OU V_EI A V_W_A L_IN P_R_EI S_Y_ON D_AI_T_R_E D_AN Z_U_N IN
t006f03S02
M_AI
t006f03S02
AN R_EI A L_I T_EI V_OU F_AI_T_E
t006f03S02
D_EU G_R_AN P_R_AU G_R_AI
Le deuxième corps de section (le gph n° 5) présente les mêmes regroupements en
syntagmes qu’en lecture « typique », soit les suivants :
t008f05S01
ON N_EI_G Z_I_J B_AU K_OU D_EU V_OU
t008f05S02 M_AI V_OU P_OU V_EI T_R_OU V_EI U_N S_AU L_U S_Y_ON P_OU_R
S_U_R M_ON T_EI S_EI Z_EI P_R_OE_V
t008f05S03 N_EU J_U J_EI P_A D_A P_R_AI L_EI Z_A P_A R_AN_S
t008f05S04 A T_AN D_EI D_EU K_AU N_AI_T_R_E T_OU L_EI F_AI A V_AN D_EI
M_AI_T_R U_N AU P_I N_Y_ON
Enfin, le dernier gph de type corps-section comporte les syntagmes :
t008f07S01
V_OU P_R_EU N_EI L_EI CH_AU_Z T_R_AU P_AU S_AI R_Y_EU
t008f07S02
Z_EI V_OU
P_A S_EI D_U T_AN A V_AI_K V_AU P_R_O_CH S_O_R T_EI EI A M_U
t008f07S03 V_OU Z_AU R_EI D_U M_A_L A V_OU Z_AN F_AI_R M_EI D_AN Z_U_N_E
R_OU T_I_N P_R_EI EI T_A B_L_I
t008f07S04
AI_K_S P_R_I M_EI V_O_T_R_E D_EI Z_I_R D_IN D_EI P_AN D_AN_S
189
Notons tout d’abord que l’élocution du type « commentaire sportif » se remarque
par une grande irrégularité quant aux regroupements syntagmiques sur des critères
rythmiques : majoritairement minimaux, ou volontairement cassés12, au début de la
lecture et majoritairement maximaux13 en fin de lecture. Cette irrégularité rythmique
veut reproduire la variabilité temporelle du flux discursif caractéristique à ce genre,
par excellence spontané (cf. chapitre 4 et section 2.1).
La première conséquence de ces diverses formes de regroupement est ressentie sur
les portées des variables prosodiques V13, les durées des pauses inter-syntagmiques
étant, elles aussi, très irrégulières :
vs.
Figure 8.27 : Durées des pauses inter-syn pour les gph corps-section ( Bélier « sportif » vs. « typique »)
Les récurrences prosodiques des variables V13 pour la lecture « typique » ne sont
plus retrouvées dans le « commentaire sportif » : i) les pauses très courtes, de durée
moyenne de 65 ms, situées en lecture « typique » généralement après ou entre des
syntagmes courts, disparaissent ici ; ii) les pauses de durée moyenne de 300-400 ms,
départageant auparavant deux syntagmes longs, ne concordent plus avec une
ponctuation forte ; et iii) les pauses de durée moyenne de 500-600 ms, situées
habituellement entre deux syntagmes longs sont remplacées en fin de lecture par des
pauses plus courtes, ayant une durée moyenne de 100-200 ms. De sorte que la
dépendance que les variables prosodiques V13 manifestaient à la structuration
discursive, des signes de ponctuation ou à la nature des frontières de groupements
syntagmiques, n’est plus satisfaite dans la lecture de type « commentaire sportif ».
Des comportements prosodiques similaires sont présents au sein des pauses intergph. Ainsi, les variables des portées V16 ne témoignent plus de la hiérarchisation du
discours en unité de gphs (comme c’était le cas pour la lecture « typique ») mais
plutôt du développement des mouvements prosodiques globaux convergeant vers le
si typiquement attendu « Buuut ! » final :
Comme c’est l’exemple de : (Votre situation actuelle se stabilise. Vous) (pouvez avoir l’impression d’être dans
une impasse) (mais) (en réalité vous faites) (de grands progrès)).
13 Comme c’est le cas de : (Vous prenez les choses trop au sérieux) (Passez du temps avec vos proches, sortez et
amusez-vous !) (Vous aurez du mal à vous enfermez dans une routine préétablie.) (Exprimez votre désir
d'indépendance.))
12
190
vs.
Figure 8.28 : Durées des pauses inter-gph ( Bélier en lecture. « sportive » vs. « typique »)
La variabilité rythmique du « commentaire sportif » se ressent également sur les
portées des variables temporelles V9. Nous observons que les syllabes manifestent,
au cours du discours « sportif », des élongations et des compressions irrégulièrement
répétées, leurs durées étant, par conséquent, très variées :
Figure 8.29a : Étendues phonémiques des syl du gph n° 3 ( Bélier en lecture « sportive »)
Figure 8.29b : Étendues phonémiques des syl du gph n° 5 ( Bélier en lecture « sportive »)
191
Figure 8.29c : Étendues phonémiques des syl du gph n° 7 ( Bélier en lecture « sportive »)
Remarquons ici la grande variabilité parmi les étendues phonémiques moyennes
des syllabes non-terminales des syntagmes des deux premiers gphs (notamment, le
gph3). Quant aux syllabes terminales, elles préservent une durée phonémique
moyenne globalement plus élevée que celles non-terminales, mais le rapport entre
celles-ci n’est plus comparable avec le rapport analogue en lecture « typique » (cf.
section 8.1). Ce rapport peut arriver, pour le gph n° 7 à des valeurs situées dans le
voisinage de 1, qui traduit la non-différenciation des syllabes terminales de celles
non-terminales. Une exception rapidement observable est la dernière syllabe du
dernier syn du gph n° 7, dont le comportement prosodique très singulier (évoqué
dans le chapitre 6) biaise l’observation des micromouvements temporels :
Figure 8.30 : Étendues phonémiques des syl du gph7 sans la syl finale ( Bélier en lecture « sportive »)
Ce type particulier d’élocution se remarque donc au niveau syllabique : i) par une
disposition disparate dans le discours des syllabes à durée phonémique moyenne
considérable, et ii) par une syllabe de durée phonémique très élevée (soit environ 10
fois la durée des autres syllabes), située en fin du discours et qui laisse, comme nous
allons le voir plus bas, la place au comportement prosodique singulier du « Buuut ! ».
192
Nous avons évoqué dans le chapitre 6 (cf. figures 6.35 et 6.36), lors de l’étape de
stylisation et formalisation mélodique, l’exemple de cette syllabe si singulière. Nous
en avons ainsi l’illustration comparative des V1 en lecture « sportive » et « typique » :
vs.
Figure 8.31 : Contours mélodiques de la syl finale (Bélier en lecture « sportive » vs. « typique »)
Ce comportement mélodique particulier est caractéristique pour l’élocution de
type « sportif », exclusivement pour la syllabe finale du dernier gph. Les syllabes
finales des autres gphs (gph n° 1 à 6) présentent sur la portée V1 un comportement
intonatif assez régulier :
<gph id=’f01’> … <syl> L_Y_E </syl> </gph>
V1
[(L,1), (T,10)]………………
<gph id=’f03’> … <syl> G_R_AI </syl> </gph>
V1
<gph id=’f02’ >… <syl> N_AI_L </syl> </gph>
[(S,0), (T,4)] ………………
<gph id=’f04’> … <syl> V_AI </syl> </gph>
[(L,1), (H,13)]………………
[(L,1), (T,17), (L,2)] ……
<gph id=’f04’> … <syl> N_Y_ON </syl> </gph> <gph id=’f05’>…<syl>D_Y_AI_N</syl </gph>
V1
[(S,0), (H,10), (L,15)]…………
[(L,3), (T,14), (L,15)] ………
Remarquons sur ces portées la présence des contours de classe alpha-type 2 (soit
des mouvements formels de type « X H »), légèrement (4 εmel) ou fortement (de 10,
voire 13 εmel) montants, ainsi que de classe bêta-type 5 de forte amplitude (soit de 10,
14, à 17 εmel). Inhabituels pour les syllabes finales14 de gphs dans la lecture « typique »,
ces contours sont des marques prosodiques du suspense discursif propre aux genres
communicationnels tels que les commentaires sportifs.
14
Qui présentent en unanimité des mouvements mélodiques forts descendants
193
Les mêmes types de contours mélodiques sont également rencontrés pour les
syllabes finales des syntagmes non-terminaux des gphs de type corps-section. Nous
en illustrons quelques exemples, pour le premier corps de section :
<syn id=’f03S01’> … <syl> V_EI </syl> </syn>
V1
<syn id=’f03S02’>…<syl>V_AI_L</syl></syn>
[(D,1), (L,3), (H,7)]………
[(S,0), (H,6), (D,2)] …
<syn id=’f03S03’>…<syl>R_Y_AI_R </syl> </syn>
V1
[(L,2), (H,4)]………………
<syn id=’f0304’>…<syl>V_OU</syl></syn>
[(L,4), (T,12)] ………………
Pour les deux autres corps de section, nous avons des portées V1 similaires :
<syn id=’f05S01’>…<syl>V_OU</syl></syn>
V1
<syn id=’f05S02’>…<syl>P_R_OE_V</syl></syn>
[(L,4), (H,13)]………………
[(L,3), (H,12), (D,1)] ……
<syn id=’f05S03’> … <syl> R_AN_S </syl> </syn>
V1
[(L,3), (H,15), (L,4), (T,6)]……
<syn id=’f07S01’> … <syl> Y_EU </syl> </syn>
V1
[(L,3), (H,13), (D,9)]……
<syn id=’f07S02’> … <syl> V_OU </syl> </syn>
[(S,0), (H,4), (D,5)] ……
<syn id=’f07S03’> … <syl> B_L_I </syl> </syn>
V1
[(S,0), (T,4), (D,9)]……
Nous pouvons constater une régularité sur les portées V1 des syllabes terminales
des syntagmes non-terminaux du dernier groupe phrastique : elles présentent toutes
des mouvements de classe bêta - type 5, mais d’amplitude très variable. Ceci est dû
probablement au fait qu’à la fin du discours de type « commentaire sportif », tel que
réalisé ici, les regroupements syntagmiques tendent à être maximaux.
Au niveau syntagmique et de groupes phrastiques, les observations prosodiques
donnent des résultats moins impressionnants. Nous illustrons dans la suite les gphs
uni-syntagmiques, soit le titre-signe (t006f01S01) et les titres-sections (le reste) :
<syn id=’t006f01S01’>…</syn>
V2/V4
V3
V10
V6
V12
[(X,12), (B,1), (H,4), (L,1), (T,10)]……
+6 …………………….…………………
5,03 …………………….………………
13 …………………….…………………………….
(X,5) …………………….…………………………
<syn id=’t006f02S01’>…</syn>
.
[(X,11), (H,9), (L,3), (T,6)] …………….
+4 …………………….…………………
6, 46…………………….………………...
12…………………………………………
(X,6)……………………………………….
194
V2/V4
V3
V10
V6
V12
<syn id=’t006f04S01’>…</syn>
<syn id=’t006f06S01’>…</syn>
[(X,10), (H,4), (L,1), (T,17), (L,2)] ……..
[(X,18), (B,2), (H,13), (L,7), (H,8), (L,5),
(H,2), (L,4), ‘H,4), (L,5), (T,14), (L,15)]
-1 …………………….…………………
6, 65…………………….…………………
23…………………………………………….
(X,7)………………………………………….
+15 …………………….………………
5,93 …………………….………………
20 …………………….……………………………
(X,6) …………………….…………………………
Nous pouvons constater sur les portées des variables V2/V4 une grande variabilité
mélodique qui ne dépend ni du nombre des syllabes du syntagme, ni de la position
de ce dernier dans le flux discursif. Précisons qu’un comportement similaire peut être
observé pour les variables V2 des syntagmes composant les gph multi-syntagmiques.
Nous en illustrons quelques exemples pour les syntagmes du gph n° 3 :
<gph> <syn id=’t006f03S01’>…</syn>
V2/V4
V3
V10
V6
V12
<syn id=’t006f03S02’>…</syn>
[(X,14), (H,7), (L,5), (H,7)]……………. .
[(L,6), (H,6), (L,3), (H,2), (L,2), (H,6), (D,2)]
+4 …………………….…………………
+4 …………………….…………………
4,92 …………………….………………
4, 94…………………….………………...
20 …………………….………………………………………………………………………………………….
[(X,5), (S,0), (L,1), (S,0), (S,0), (U,1), (-), (T,2), (L,1)] …….……………………………………………………………..
<syn id=’t006f03S07’>…</syn>
V2/V4
V3
V10
V6
V12
<syn id=’t006f03S09’>…</syn> </gph>
[(L,7), (H,8)] ……………………………
[(B,9), (H,2), (L,1), (H,3), (L,2), (H,2), (L,1), (H,13)]
+8 …………………….………………
+13 …………………….……………………………
(*)15 …………………….………………
5,38…………………….……………………………
…………………….………………………………………………………………………………………………………
….………………………………………………………………………………………………………………………….
Pareillement, pour le dernier gph de type corps de section, nous avons les portées :
<gph> <syn id=’t006f07S01’>…</syn>
V2
V3
V10
V6
V12
V2
V3
15
<syn id=’t006f07S02’>…</syn>
[(X,19), (H,8), (L,4), (H,3), (L,4), (H,5),(L,2),
[(L,2), (H,3), (L,3), (H,5), (L,5), (H,4), (L,5), (H,8),
(H,3), (L,6), (H,7), (L,5), (H,4), (L,7), (H,5),
(L,4), (H,3), (L,7), (H,8), (L,7), (H,12), (L,7), (H,7),
(L,6), (H,5), (L,3), (H,13), (L,9)]
.
(L,13), (H,12), (L,1), (H,4), (L,4), (H,9), (L,5)]
+4 …………………….…………………
+1 …………………….………………………………
6,71 …………………….………………
6, 86…………………….…………………………….
26 …………………….……………………………………………………………………………………………………..
[(X,7), (S,0), (T,1), (B,3)] .………………………………………………………………………………………………….
<syn id=’t006f07S03’>…</syn>
<syn id=’t006f07S04’>…</syn> </gph>
[(L,7), (H,7), (L,7), (H,8), (L,1), (H,1),(L,2),
(H,1), (L,1), (H,3), (L,2), (H,2), (L,4), (H,4),
(L,6), (H,7), (L,2), (H,2), (L,7), (H,7),(L,2),
(H,4), (L,2), (H,2), (L,2), (H,2), (L,4), (H,6),
(L,4), (T,6), (L,9)]
-5 …………………….…………………
[(L,7), (H,16), (L,10), (H,8), (L,2), (H,2),
(L,2), (H,2), (L,6), (H,5), (B,15)]
Sans relevance, car le syntagme est uni-syllabique.
195
-9 …………………….……………………
V10
V6
V12
8,08 …………………….………………
5, 03…………………….…………………
…………………….…………………………………………………..…………………………………………………..
…………………….………………………………………………………………………………………………………
Si nous observons les contours mélodiques V2 des syntagmes du dernier gph, nous
remarquons qu’ils disposent de représentations formelles encore plus complexes.
Cette variabilité dans les divers contours mélodiques syntagmiques est un témoigne
des nombreuses réalisations du suspens (le plus souvent, par les pentes montantes)
dans le flux discursif à l’intérieur des syntagmes, ainsi que de ses nombreuses
reprises (couramment par les pentes descendantes). L’absence de traits de récurrence
parmi les contours syntagmiques ne nous permet pas de les prescrire en re-synthèse
(ils ne peuvent donc pas être anticipés).
Ensuite, sur les portées V3, nous remarquons une générale prédominance des
indices d’inclinaison mélodique positifs (fortement prononcés parfois), qui confirme
les régularités mélodiques auparavant mentionnées. Des pentes mélodiques
similaires se remarquent pour la majorité des syntagmes des gphs corps-section,
exception faite des deux derniers syntagmes. Manifestant des déclinaisons négatives,
ces derniers s’approchent le plus de leurs homologues en lecture « typique ».
Puis, l’examen des portées V6 nous révèle des tessitures mélodiques de gph qui
accroissent avec l’augmentation des maxima mélodiques respectifs. Ceci est un fait
révélateur de la dynamique mélodique du discours et témoigne de l’importance de la
position du gph en question. Nous illustrons ici les mouvements comparatifs de
minima et des maxima mélodiques pour chaque gph, qui définissent ces tessitures :
vs.
Figure 8.32 : Tessitures mélodiques respectives des gphs (Bélier en lecture « sportive » vs. « typique »)
Si nous représentons les variables prosodiques pour le niveau txt, nous avons16 :
V8
V15
V17
16
<txt type=’horoscope sportif>… </txt>
<txt type=’horoscope typique’>…</txt>
[(B,11),(T,32)] ………………….……………………..
[(B,4),(T,4)] …………………….……………………..
49,1 (sec)………………………………………………
[(B,8),(T,20)] …………………………………………
[(B,4),(T,3)] ……………………………………………
42,6 (sec) ………………………………………………
Les portées V14 et V7 ne sont pas présentées ici, car intrinsèquement complexes et donc, non-relevantes.
196
Remarquons ici l’élargissement considérable de la tessiture mélodique V8 pour la
lecture « sportive » (ici, 32 εmel) par rapport à celle obtenue dans la lecture « typique »
(soit 20 εmel). Nous pouvons également comparer les moyennes des minimas et des
maximas mélodiques absolus pour ces deux cas :
vs.
Figure 8.33 : Tessitures mélodiques globales pour le txt (Bélier en lecture « sportive » vs. « typique »)
La figure 8.33 illustre non seulement cet élargissement moyen (par la différence
entre les moyennes des niveaux B et T et par leurs écarts-type respectifs), mais aussi
le déplacement fréquentiel de ces deux moyennes (avec environ +5 εmel).
Revenons maintenant sur les portées paramétriques V10. Nous constatons que les
variations des tempos syntagmiques sont moins importantes que celles attendues
probablement pour une lecture sportive. Ceci est expliqué par le fait que l’alternance
(parfois répétée) des syllabes allongées et compressées au sein du même syntagme
parvient à anéantir les fluctuations de tempos, perçues plus considérables. Toutefois,
nous pouvons observer sur ces portées, une légère accélération graduelle des tempos
syntagmiques entre le premier et le dernier gph :
vs.
Figure 8.34 : Tempos syntagmiques pour les gphs (Bélier en lecture « sportive » vs. « typique »)
197
Or, si nous illustrons les mouvements analogues des minimas et des maximas de
tempos syntagmiques pour chaque gph, nous obtenons leurs tessitures temporelles :
vs.
Figure 8.35 : Tessitures temporelles respectives des gphs (Bélier en lecture « sportive » vs. « typique »)
L’examen de ces graphiques nous révèle une très légère flexibilité des tessitures
temporelles de gph, entre les deux types de lecture. Nous observons ainsi pour le gph
n° 3 un élargissement (d’environ 1 u.t.) et pour le gph n° 5, une compression
(d’environ 0.5 u.t.) de tessitures pour la lecture « sportive », tandis que le gph n° 7
garde la même tessiture que celle en lecture « typique ». Ceci se ressent au niveau
textuel par une augmentation de 1 syl/sec pour la tessiture temporelle globale :
vs.
Figure 8.36 : Tessitures temporelles globales pour le txt (Bélier en lecture « sportive » vs. « typique »)
Enfin, sur les portées des variables prosodiques V17, nous pouvons observer une
légère différence quantitative entre les durées totales des deux réalisations, qui
traduit un allongement total d’environ 16% pour la lecture « sportive » par rapport à
la lecture « typique ».
198
Si nous résumons les résultats de ces analyses prosodiques comparatives entre les
formes expressivement hétérogènes (issues d’horoscopes en lecture « sportive » vs.
« typique », telles que présentes dans notre corpus), nous pouvons en distinguer un
ensemble de traits de discernabilité prosodique. Nous traduisons ces derniers en
termes de contraintes partielles sur les variables prosodiques (cf. 5.3.2) :
Niveau
d’analyse
syl
Dimension prosodique
mélodique (F)
temporelle (T)
C1 : V1 en classe bêta-type 5 ou alpha-type2
(d’amplitude marquée, mais irrégulière) pour
les syl terminales des syn non-terminaux ;
dans le reste des cas, très irrégulières et sans
lien direct avec le contenu linguistique ;
mouvement particulier, soutenu à plusieurs
paliers pour la syl finale
C9 : V9 (/n° de phonèmes) couramment plus
grandes pour les syl terminales des syn ; très
irrégulières pour les autres syl : en alternance
répétée entre les très courtes (30-40ms/phn)
et les très longues (150 ms/phn) ; syl finale de
txt à comportement particulier (2500 ms)
C2 : V2 en classe delta très complexes, avec des
mouvements H L répétés et d’amplitude locale
très variable (de 1 à 16 εmel)
C10 : V10 dépendantes de la position du syn
dans le discours : globalement peu variées,
légèrement plus rapides (+1syl/sec) vers la
fin, très lente pour le dernier syn (particulier)
C3 : V3 usuellement montants (pente de +1,
+4, +8, voire +13 εmel) pour la plupart des syn
terminaux, à l’exception de deux derniers
(pente plus prononcée en final : -5, et -9) ; les
règles IPM et AVM ne s’appliquent plus
C11 : V11 non pertinentes (*) ici
C4 : V4 en classe delta très complexes (cf. V2)
avec de nombreux mouvements H L répétés et
d’amplitudes locales irrégulières
C12 : V12 peu prononcées, comportant des
mouvements soit constants, soit légèrement
montants, et un ralentissement régulier sur
le dernier syn (niveau B à 3 u.t.), globalement
comparables avec celles « typiques »
syn
gph
C5 : V5 non pertinentes (*) ici
C6 : V6 localement plus flexibles, globalement
plus étirées (avec les niveaux T en montée plus
forte que les B) et légèrement déplacées vers le
haut (+5 εmel) qu’en lecture « typique »
199
C13 : V13 très irrégulières, souvent
inattendues quant à leur emplacement et leur
durée, mais régulièrement très courtes (100
ms) entre les syn situés à la fin de la lecture :
aucune règle de concordance avec la structure
hiérarchique du discours et/ou avec les signes
de ponctuation
C7 : V7 non pertinentes (*) ici
C14 : V14 non pertinentes (*) ici
C8 : V8 d’amplitude totale beaucoup plus
considérable que pour la lecture « typique »
(soit de 32 vs. 26 εmel) qui traduit une
excursion mélodique globale située entre les
niveaux absolus B de 11 et T de 43 εmel)
C15 : V15 d’amplitude moyenne comparable
à celle en lecture « typique » (soit de 4 vs. 3
syl/sec) qui traduit une excursion temporelle
située entre les niveaux absolus minimum B
de 4 et maximum T de 8 syl/sec)
txt
C16 : V16 fortes (1000-1200 ms) au début de
lecture, moyennes (600-700 ms) en milieu et
très courtes (environ 100 ms) à la fin de la
lecture « sportive ». Total manque de
dépendance de la hiérarchie discursive
C17 : V17 légèrement plus grande pour la
lecture « sportive » mais comparable avec
celle « typique » (soit environ +16%)
Tableau 8.2 : Contraintes prosodiques pour la lecture en mode « sportif » (vs. « typique »)
La distribution de ces contraintes peut être représentées d’une manière similaire
que celle évoquée dans la section 8.1.5 : soit sur les structures prosodiques (cf. figure
8.23), soit en suivant les critères d’organisation rythmique (cf. figure 8.24) précisant la
combinatoire des composants de la triade rythmique ((S)(P)(M)). Par le jeu des
paramètres prosodiques qu’elles affectent, les contraintes de C1 à C17 définissent les
enveloppes rythmiques spécifiques aux lectures simulées17 (partant d’un hypotexte
d’horoscope « typique ») en mode « commentaire sportif ». Elles résument l’ensemble
des traits prosodiques qui incitent au discernement expressif de cette pratique
discursive, en marquant la signature formelle qui le caractérise :
tg horoscope
ds « sportive »
tg commentaire sportif
contraintes
PATH
(horoscope, « sportive », Alain)
contraintes
PATH
(commentaire sportif, « typique », Alain)
ds
« typique »
STRUCTURE
STRUCTURE
S
rp Alain
S
PERIODICITE
P
rp
M
MOUVEME NT
PERIODICITE
P
M
MOUVEME NT
Alain
a
b
Figure 8.37 : Signatures expressives pour les horoscopes en mode « commentaire sportif »
Les résultats des comparaisons des portées prosodiques pour les réalisations « sportives » et « typiques » pour
un deuxième texte d’horoscope (« Balance ») en confirment les contraintes mentionnées dans le tableau 8.2.
17
200
Dans la figure 8.37a, la signature formelle en mode « sportif » veut reproduire par
imitation la signature prosodique originale d’un commentaire sportif « typique » (cf.
figure 8.37b). L’élocution simulée affecte donc non pas la dimension ds, mais le tg.
Du point de vue opérationnel, l’ensemble de ces traits prosodiques est traduit par :
PATHtg=5, ds=0, rp=1 = {C1, C2, C3, C4, C6, C8, C9, C10, C12, C13, C15, C16, C17}, où les contraintes Ci
sont obtenues (cf. tableau 8.2) suite aux multiples comparaisons formelles (famille
d’opérateurs formels R) avec le PATHtg=1, ds=0, rp=1 qui décrit les traits prosodiques
récurrents relevant de la lecture « typique » des horoscopes (cf. section 8.1) :
STRUCTURE
STRUCTURE
S
S
PERIODICITE
P
PERIODICITE
M
P
MOUVEMENT
M
MOUVEMENT
Figure 8.38 : Contraintes obtenues par comparaisons R (« commentaire sportif » simulé vs. horoscope)
Des démarches similaires d’analyse prosodique comparative sont appliquées
ensuite pour d’autres lectures simulées. L’objectif final est le même, c’est à dire
obtenir des traits prosodiques qui révèlent leurs observables expressifs, discernables.
Le résultat recherché se traduit pareillement, en termes de contraintes prosodiques
relatives (la référence étant toujours la lecture « typique ») et par conséquent, par des
signatures expressives génériques (lecture en mode « messe », ou « politique »),
situationnelles (en mode « lent », « rapide », « interrogatif », etc.) ou idiolectales,
selon le cas. Pour exemplifier, nous illustrons ci-dessous quelques traits prosodiques
avec leurs contraintes associées qui aident à repérer expressivement la lecture de
mode « messe/prière ».
Suite aux diverses analyses comparatives des lectures « typique » et simulée en
élocution « messe », nous observons : i) des regroupements syntagmiques souvent
maximaux (comprenant en moyenne de 15 à 25 syllabes), séparés par des pauses
inter-syn très courtes (d’environ 200 ms) (contrainte C13) ; ii) des pauses inter-gph très
courtes (de 100 à 200 ms) après le titre signes et les titres-section, et très grandes (de
1500 à 2000 ms) après les corps-section (C16) ; iii) des syllabes très allongées, de
201
durée entre 700 et 1300 ms (C9), situées à la fin des syntagmes terminaux et qui
présentent des comportements mélodiques particuliers (contrainte C2) ; iv) des
syllabes non-finales, régulièrement rencontrées en milieu de syntagme, avec des
contours mélodiques en classe bêta-type 5 légèrement allongées (C2 et C9) ; v) des
durées souvent (quasi-)régulières des syllabes non-terminales (C9) ; vi) l’absence
d’accélérations et de ralentissements des tempos syntagmiques, globalement rapides
(contraintes C10, C12). Notons aussi que : vii) les tessitures mélodiques des gphs en
mode « messe » sont comparables avec ceux en lecture « typique » (de 9 à 14 εmel pour
les titres-sections et titre-signe et de 16 à 18 ε mel pour les corps de section) (C6) ; viii)
les tessitures globales mélodique (contraintes C8) et temporelle (C15) sont également
comparables entre ces deux lectures.
Ces traits, récurrents pour la lecture en mode « messe », sont témoins des isotopies
prosodiques génériques qui s’installent dans le discours imitateur de cette pratique.
Ce sont ces récurrences des contraintes prosodiques, qui permettront le discernement
prosodique de l’expressif générique du mode « messe/prière » (rapporté à l’expressif
« typique »), en réception aussi qu’en production ou reproduction (cf. chapitre 9, par
divers scénarios d’affectation des contraintes). Elles décrivent ainsi une signature
expressive simulée en mode « messe », définie formellement par : PATHtg=6, ds=0, rp=1.
STRUCTURE
STRUCTURE
S
S
PERIODICITE
P
PERIODICITE
M
P
MOUVEME NT
M
MOUVEME NT
a
b
Figure 8.39 : Signature expressive pour les horoscopes en mode « messe »
Dans la figure 8.39a, la signature formelle en mode « messe » veut reproduire par
imitation la signature prosodique originale d’une prière « typique » (figure 8.37b).
L’élocution simulée affecte donc, comme pour la lecture « sportive », la dimension tg.
Enfin, nous pouvons imaginer quelques scénarios de comparaison formelle de
contraintes prosodiques et de signatures expressives pour : i) les lectures d’un même
horoscope en mode « typique » et une des nombreuses autres élocutions simulées par
exemple en mode « lent », « rapide », « interrogatif », etc. relevant des discernables
expressifs sur différentes dimensions ds, tg, ou rp (cf. figures 8.40a et b ci-dessous) ; ii)
les lectures d’un même horoscope « typique », réalisées par nos deux locuteurs,
traduisant les discernables expressifs du rp (cf. figure 8.41 ci-dessous), ainsi que pour
iii) les lectures de textes issus des genres différents (horoscope et conte, par exemple),
simulées par un même locuteur dans un même type d’élocution.
202
STRUCTURE
STRUCTURE
S
S
PERIODICITE
PERIODICITE
M
P
M
P
MOUVEME NT
MOUVEME NT
vs.
Figure 8.40a : Signatures expressives pour élocutions simulées (« interrogative » vs. « typique »)
tg
contraintes
PATH
horoscope
(horoscope, « rapide », Geneviève)
ds
rapide
STRUCTURE
STRUCTURE
S
S
PERIODICITE
rp
M
P
MOUVEME NT
vs.
PERIODICITE
M
P
MOUVEME NT
Geneviève
Figure 8.40b : Signatures expressives pour élocutions simulées (« rapide » vs. « typique »)
STRUCTURE
STRUCTURE
S
S
PERIODICITE
P
PERIODICITE
M
P
MOUVEME NT
M
MOUVEME NT
vs.
Figure 8.41 : Signatures expressives pour des élocutions« typiques » idiolectales (Alain vs. Geneviève)
Nous esquissons dans l’annexe A9 quelques résultats de ces comparaisons binaires
des signatures expressives génériques, situationnelles ou idiolectales. Notons que
certaines de ces signatures peuvent être facilement exprimées en termes de notre
approche par contraintes prosodiques. C’est le cas des lectures « rapide », « lente »,
« interrogative », etc. mettant en jeu une variabilité prosodique selon la dimension ds.
Cependant, d’autres lectures comme celles simulées en élocution « fillette »,
« vieux », « bégayée », etc. ou avec divers accents étrangers (variabilité notamment
sur la dimension rp), révèlent des traits expressifs signifiants qui ne peuvent pas être
traduits uniquement en termes des jeux des variables prosodiques. Très souvent, ces
traits portent des informations se trouvant au niveau segmental (phonèmes doublés
ou modifiés par diverses techniques opérant sur l’appareil phonatoire), qui n’est pas
représenté dans notre cadre présent de modélisation. Ainsi, pour pouvoir exprimer
ces signatures idiolectales, nous devons adapter notre cadre-modèle à ces nouveaux
besoin d’expressivité discursive. Nous y reviendrons dans le chapitre 10, lors des
discussions sur les possibles perspectives de recherche ouvertes par notre travail.
203
CHAPITRE 9
AFFECTATIONS DE CONTRAINTES PROSODIQUES. SYNTHESE ET VALIDATION.
Résumé
Ce chapitre est consacré à la validation des signatures expressives des formes discursives,
telles qu’exprimées par les affectations (toujours partielles) respectives des contraintes
prosodiques. La mise en pratique des affectations prosodiques est effectuée dans la
troisième phase méthodologique (cf. chapitre 3) de ce travail, dédiée à la synthèse de
formes expressives discursives. Du point de vue opérationnel, ceci est réalisé à l’aide
de deux plateformes applicatives qui mettent à la disposition de l’utilisateur des
moyens de manipulation de variables prosodiques, facilitant ainsi l’affectation des traits
prosodiques expressifs, récurrents (cf. 9.1) ou discernables (cf. 9.2), selon le cas. Une
fois les affectations prosodiques faites, nous procédons à la validation perceptive des
signatures expressives traduites par celles-ci. Nous présentons ici le protocole et la
plateforme dédiée à l’étape de validation, ainsi que les résultats des tests-utilisateurs,
discutés en termes de pertinence quant à l’expressivité discursive située (cf. 9.3).
Sommaire du chapitre
9.1
9.2
9.3
Affectations des contraintes prosodiques de récurrence expressive ………………… 206
Affectations des contraintes prosodiques de discernabilité expressive …………..… 219
Validation perceptive de signatures après affectations de contraintes. Résultats. … 224
204
Comme évoqué dans le chapitre 3, la troisième et la dernière phase méthodologique
(Ph3) est consacrée à la synthèse des observables prosodiques des formes discursives
expressives, traduite ici par la mise en pratique des affectations partielles des
contraintes imposées sur les diverses variables prosodiques :
Figure 9.1 : Synthèse par affectations des contraintes prosodiques dans la phase Ph3
Le premier procédé de synthèse expressive (dans la figure, synthèse (1)) consiste à
greffer les contraintes prosodiques sur la même matière (textuelle et sonore) que celle
utilisée au départ. Réalisé par le passage des diverses variables expressives formelles
dans des données acoustiques (cf. formalisme inversé1), ce procédé sert à disposer
d’un premier rendu audible des représentations formelles censées décrire les formes
discursives expressives captées. Il souscrit ainsi à la validation du formalisme adopté.
Le second procédé de synthèse (ici, synthèse (2)) utilise les contraintes expressives
de récurrence et/ou de discernabilité prosodique, telles qu’extraites en préalable. Par
l’intermédiaire des jeux multiples de variables prosodiques2, les diverses contraintes
expressives sont appliquées sur une matière textuelle nouvelle, choisie en fonction de la
pratique discursive initiale (cf. chapitre 4). Nous allons parler par conséquent d’une
génération prosodique réalisée par affectation des contraintes prosodiques.
Notons que des ajustements formels peuvent intervenir à plusieurs reprises pour assurer en sortie un rendu
vocal (quasi-)identique à celui constituant les bases initiales.
2 Dont celles formelles, étant traduites, elles aussi, dans des données acoustiques.
1
205
9.1
Affectations des contraintes prosodiques de récurrence expressive
Cette première section est consacrée aux affectations des contraintes prosodiques de
récurrence auparavant extraites (cf. section 8.1). Pour ceci, nous avons utilisé d’abord
une plateforme existante qui se présente sous la forme d’une application intuitive et
ergonomique permettant la création de messages vocaux personnalisés. L’utilisateur
dispose d’une fonctionnalité de saisie de texte (dans la première zone) et de retouche
du rendu sonore (dans la deuxième zone), cf. figure ci-dessous :
Figure 9.2 : Exemple d’affectations prosodiques pour le contenu hiérarchique (avec SpeechOnline©)
Notons que dans la zone de saisie de texte, le découpage textuel en phrases (pour
notre exemple, en groupes phrastiques) est matérialisé par les symboles « [ ] », et les
silences, par le symbole « || ». Ces derniers sont insérés systématiquement : i) entre
les phrases, en forçant une intonation descendante sur les syllabes les précédant ; et
ii) à l’endroit où se situent les virgules, en contraignant une intonation légèrement
montante. Toutefois, la durée et l’emplacement des silences insérés automatiquement
peuvent être adaptés, l’interface permettant l’insertion d’un silence indépendamment
de la ponctuation, ainsi que la suppression d’un silence inséré « par défaut ». Ceci
présente un fort intérêt pour l’implémentation des contraintes C16, qui agissent sur
les pauses inter-gph (cf. figure9.2) et C13, qui agissent sur les pauses inter-syn.
Une retouche sur le rendu sonore peut s’avérer souvent nécessaire pour modifier
la ligne mélodique ou la durée de certaines parties du message. L’utilisateur peut
sélectionner la partie du texte à retoucher (dans la figure, « Bélier ») qui s’affichera
dans le cadre inférieur. Ce cadre contient : i) les mots (ici, « Bélier ») et les syllabes
206
(« B_EI » et « L_Y_EI ») soulignés par un trait de longueur proportionnelle à leur
durée ; ii) les phonèmes (soit ici B, EI, L, Y, EI) et leur durée exprimées en
millisecondes ; iii) une courbe représentant l’intonation du message ; iv) les unités
acoustiques (marquées en gris/rouge) qui sont les morceaux de parole actuellement
sélectionnés3 par le système de synthèse.
L’exemple illustré dans la figure 9.2 permet de visualiser dans la zone de retouche
du rendu sonore, les affectations (ici, faites manuellement) des contraintes : C9
(l’allongement en durée de la dernière syllabe du gph titre-signe), C1 (la forte montée
mélodique en classe alpha-type 1 sur la syllabe « B_EI » qui est porteuse d’accent
dans le titre-signe), C2 et C4 (la courbe mélodique en classe bêta-type 5 d’amplitude
considérable de ce gph uni-syntagmique) et C3 (la déclinaison négative prononcée
pour ce syntagme titre-signe). Bien que les amplitudes de variation mélodique ne
soient pas spécifiées sur la courbe intonative, nous remarquons une tessiture
mélodique considérable (cf. contraintes C6). Somme toute, les contraintes C10 (et
subséquemment, C12), relatives aux tempos syntagmiques et à leur mouvement ne
sont pas visibles ici. Intrinsèquement déterminées par les durées syllabiques, elles
sont peu signifiantes pour les gphs de type titre-signe et titres-sections.
L’exemple figuré en 9.2 présente dans la zone de saisie textuelle le squelette d’une
structure hiérarchique spécifique aux horoscopes, tels ceux choisis pour notre corpus
d’étude principal (cf. procédé de synthèse (1)). Nous pouvons toutefois appliquer les
mêmes contraintes prosodiques pour construire une structure hiérarchique similaire
(cf. procédé de synthèse (2)) comportant, par exemple, les sections suivantes :
Figure 9.3 : Exemple d’affectations prosodiques pour une hiérarchie similaire (avec SpeechOnline©)
Pour la recherche d’unités de parole (rappelons que nos travaux s’inscrivent dans une démarche technologique
de synthèse par corpus), le module de sélection d’unités utilise des algorithmes puissants qui implémentent des
stratégies de minimisation des coûts de concaténation locale (phonémique ou autre, selon le cas).
3
207
Les affectations prosodiques désignées par les contraintes expressives utilisées
pour la construction de ces hiérarchies textuelles seront employées ultérieurement,
comme suit : la première, pour les horoscopes dits « typiques », et la seconde, pour
les textes constituant le corpus dédié aux parodies de contenu (i.e. humouroscopes,
cf. chapitre 4).
Soit ci-dessous un nouveau texte d’horoscope (« Lion », texte du 30 octobre 2009),
à synthétiser en lecture « typique ». Nous en illustrons les réalisations prosodiques
(cf. retouches expressives manuelles à l’aide de la plateforme SpeechOnline©) pour
quelques syntagmes qui composent les divers corps de sections :
Figure 9.4a : Exemple d’affectations prosodiques pour un horoscope « typique » (avec SpeechOnline©)
Figure 9.4b : Exemple d’affectations prosodiques pour un horoscope « typique » (avec SpeechOnline©)
208
Figure 9.4c : Exemple d’affectations prosodiques pour un horoscope « typique » (avec SpeechOnline©)
Nous pouvons visualiser dans les figures 9.4 quelques affectations des contraintes
prosodiques pour des unités d’analyse concernées, telles les suivantes : C1 (V1 en
classe alpha-type 1 ou bêta-type 5, pour les voyelles des syllabes en emphase P_EU,
CH_AU_Z, T_R_I_S_T, B_O_N, ainsi que des syllabes accentuées des injonctives
S_EI, P_R_AU, R_EI) ; C3 (V3 en déclinaison positive pour les syntagmes nonterminaux, comme « … tristes », « … attention », et négative pour ceux terminaux,
comme « … semaine » ; C9 (V9 considérablement allongées pour les syllabes finales
M_AI_N, S_Y_ON). Nous pouvons apercevoir aussi l’emplacement des pauses intersyn (V13) et inter-ghp (C16) dont la durée effective est précisée par les contraintes
C13 et respectivement, C16. Notons que les affectations des contraintes prosodiques
restantes (C4, C10, etc.) ne sont pas visibles dans ces illustrations.
Par la suite, nous allons employer les mêmes contraintes de récurrence expressive
locale pour la synthèse des textes issus de genres prosodiquement similaires4. Nous
illustrons dans la suite : i) l’exemple d’un humouroscope construit sur la hiérarchie
« Santé » / « Travail » / « Amour », et ii) quelques exemples de textes originaires de
genres variés (proverbes et citations, divers conseils, textes publicitaires courts, etc.) :
4
Rappelons sur ce sujet les discussions menées dans le chapitre 4.
209
Figure 9.5 : Exemple d’affectations prosodiques locales pour un humouroscope (avec SpeechOnline©)
Du point de vue de son contenu textuel, ce humouroscope s’avère utiliser un
vocable ponctuellement très différent de celui des horoscopes qui constituent notre
corpus principal (et, par conséquent, le lexique support pour nos voix dédiées aux
horoscopes). Un exemple présent dans cette illustration est le mot « déodorant » qui
n’existe pas dans notre corpus expressif et est restitué en quatre morceaux de parole.
Pourtant, en imposant sur la syllabe accentuée (D_EI), la même contrainte C1 (V1 en
classe alpha – type1 ou bêta - type 5) des syllabes accentuées des horoscopes, nous en
obtenons l’emphase nécessaire pour la mettre en relief dans le flux discursif.
Pareillement, C1 est appliquée sur d’autres syllabes porteuses d’emphase mélodique
locale, comme : K_A (« qualité »), AU (l’injonctif « aurez »), ou P_EU (« peut-être »).
Remarquons également dans ce même exemple : i) l’allongement des syllabes
finales des syntagmes (T_EI, CH_AN_S) qui justifie les contraintes C9 ; ii) l’inversion
des pentes mélodiques (cf. règle d’inversion de pentes mélodiques IPM pour les
contraintes C3) des syntagmes consécutifs « si vous investissez dans un déodorant de
qualité » et « vous aurez peut-être une chance », spécifiée par l’alternance +/- des
indices de déclinaison syntagmique (d’amplitude considérable) ; ii) la présence d’une
frontière marquée par une pause de longueur moyenne (cf. C13) entre ces syntagmes,
sans correspondant dans la ponctuation.
Des comportements prosodiques similaires peuvent être imposés pour les divers
textes qui relèvent de la même famille des « procéduraux ». Nous en illustrons dans
les figures de 9.6 à 9.10 quelques exemples d’affectations mélodiques et temporelles
choisies en conformité avec les contraintes locales C1, C3, C9, C13 et C16 :
210
Figure 9.6 : Exemple d’affectations prosodiques pour un proverbe/citation (avec SpeechOnline©)
Figure 9.7 : Exemple d’affectations prosodiques pour un conseil pratique (avec SpeechOnline©)
Nous pouvons distinguer l’affectation des contraintes C1 (V1 en classe bêta-type 5)
pour les syllabes N_O_F_R_E, P_A , et B_EU du premier exemple, ainsi que pour les
syllabes S_U, R_AN, et V_O_T_R_E du second. L’alternance des pentes mélodiques
V3 est partiellement visible pour les syntagmes « …cravate » (+) / « …chemise » (-) du
proverbe-exemple et les syntagmes non-maximaux « …casserole » (-) / « …brulé » (+)
/ « …remplir » (+) / « …casserole » (-) / « …eau » (+) / « …javel » (-), même si les
marqueurs de pauses inter-syn V13 ne sont pas toujours présents pour distinguer
leurs frontières. Nous avons ici un cas illustratif d’une structuration discursive en
unités syntagmiques réalisée plutôt par les variables V3 que par les variables V13.
211
Un exemple plus illustratif de ces alternances dans les déclinaisons mélodiques
syntagmiques finales (cf. règle de l’inversion des pentes mélodiques IPM [MAR’87],
[CAE’81]) imposées par les contraintes prosodiques C3 est présenté dans la figure
suivante pour les syntagmes « levez »/« baissez »/« levez »/« baissez ». Remarquons
ici aussi les allongements de chaque syllabe finale, imposés par les contraintes C9.
Figure 9.8 : Exemple d’affectations prosodiques pour un conseil sportif (avec SpeechOnline©)
Enfin, nous présentons dans la figure 9.9 un exemple particulier d’emphase locale
(cf. [HAK’99]) sur le mot « ici » issu d’un texte publicitaire recueilli en ligne, réalisée
non pas par une affectation des contraintes mélodiques C1 (puisque, cf. figure,
l’intonation reste plutôt plate), mais par l’insertion des deux micro-pauses (d’environ
50 ms) séparant le mot en question des mots voisins (à gauche et à droite) :
Figure 9.9 : Exemple d’affectations prosodiques pour un texte publicitaire (avec SpeechOnline©)
212
Notons que dans tous les exemples de textes (horoscopes, humouroscopes ou
autres) synthétisés à l’aide de cette première plateforme applicative, le choix des
affectations prosodiques est fait principalement d’une manière manuelle. Le système
de synthèse propose, nécessairement, une solution prosodique générique, (dite « par
défaut »), qui implémente seulement une sous-partie des contraintes prosodiques de
récurrence spécifiques au genre horoscope ou aux genres prosodiquement similaires.
Cette solution générique proposée est le résultat : i) d’une application (partielle) des
règles prosodiques du français lu (comme la descente mélodique avec l’allongement
de la dernière syllabe en fin de phrase, la montée mélodique pour les syllabes
précédant la virgule, etc.) et ii) d’un ensemble de procédés d’optimisation des coûts
locaux de concaténation de diverses unités. L’affectation du reste des contraintes
appliquées sur les variables prosodiques est faite, dans tous les exemples mentionnés
auparavant, par un choix manuel. Facilité par les fonctionnalités de l’application
SpeechOnline (©), ce choix prosodique multicritères favorise les unités qui satisfont
le plus les contraintes imposées :
Figure 9.10 : Affectations semi-automatiques des contraintes prosodiques à l’aide de SpeechOnline©
À ce procédé manuel d’affectation des contraintes prosodiques (ici, de récurrence
expressive), nous pouvons envisager deux solutions d’automatisation possibles. La
première consiste à introduire les diverses contraintes prosodiques à l’intérieur des
algorithmes de sélection d’unités5, cf. scénario illustré dans la figure 9.11. Ceci peut
rejoindre aisément les travaux de sélection des divers parcours intonatifs menés par
[POP’06] et plus généralement par [BOI’09]. Ce procédé de sélection des unités « plus
adéquates » déjà existantes dans la base de données acoustiques a certes, le mérite de
s’inscrire dans une démarche applicative comme la nôtre, i.e. de synthèse par corpus.
Pourtant, notre travail ne s’intéresse pas à ces moyens d’optimisation algorithmique,
et donc cette solution peut constituer seulement une perspective de cette étude.
Ces unités sont les morceaux de parole choisis, tenant compte d’une fonction d’optimisation des divers coûts de
concaténation (souvent très locale).
5
213
Figure 9.11 : Scénario d’affectation des contraintes prosodiques dans le module de sélection
La deuxième solution pour automatiser le choix manuel d’unités censées satisfaire
les contraintes prosodiques imposées par le genre et/ou par la pratique de lecture, est
proposée par l’auteur en [LAU’08]. Ce procédé aborde une étape ultérieure à la
sélection d’unités, qui utilise plusieurs techniques de déformation sur le signal pour
produire un rendu sonore approprié aux contraintes prosodiques imposées : des
rallongements ou des compressions d’unités syllabiques, des accélérations ou des
ralentissements des tempos syntagmiques, des dilatations ou des transpositions
[PEE’01] fréquentielles, etc. Ces techniques visent donc à déformer les caractéristiques
fréquentielles ou temporelles du signal, locales ou globales, selon le cas.
Figure 9.12 : Affectation des contraintes prosodiques ultérieurement à la sélection
Une des techniques les plus fréquemment utilisées dans la déformation du signal
de parole, est la PSOLA6 (cf. [BOI’00]), notamment parce qu’elle permet le changement
du pitch (i.e. la fréquence fondamentale) sans la modification7 de la durée du signal.
6 L’acronyme PSOLA correspond à « Pitch Synchronous Overlap Add Method ». La technique PSOLA originale
est à présent référencée comme TD (Time Domain)-PSOLA. Elle est un outil d'analyse/synthèse, qui permet à
partir des points cibles (obtenus par la stylisation, dans notre cas), de synthétiser la courbe originale à partir de la
courbe modélisée. LP-PSOLA constitue une alternative qui à la place des signaux correspondant aux diphones,
retient pour la représentation du signal plutôt les coefficients du module de prédiction linéaire (LP).
7 Une technique simple pour modifier le pitch consiste à changer la durée du signal : ainsi, un allongeant peut être
utilisé pour diminuer le pitch et une compression, pour l’augmenter.
214
L’algorithme de base PSOLA consiste en trois étapes : i) le signal d’analyse (pitchmarqué8 en préalable) est premièrement décomposé en plusieurs signaux à courtterme qui sont des segments individuels courts, et superposés ; ceci est réalisé par
une procédure de « fenêtrage »9 des segments10 autour de chaque « marque de pitch »
ou des maxima d’amplitude dans le signal d’origine ; ii) ensuite, en fonction de la
cible voulue, les segments sont approchés (pour l’augmentation du pitch) ou éloignés
(pour son diminution) ; iii) enfin, les divers signaux à court terme transformés sont
interpolés et concaténés par les techniques de superposition (« overlapping ») et
d’addition (« adding »), pour composer le signal de synthèse. Le résultat est donc un
signal avec le même spectre que l’original, mais avec une fréquence fondamentale
différente. Le pitch change donc, mais les caractéristiques spectrales se préservent :
a
b
Figure 9.13 : Procédure de diminution (a) et augmentation (b) mélodique dans la TD-PSOLA
La technique PSOLA peut également être appliquée pour modifier la durée d’un
signal en préservant ses caractéristiques fréquentielles originales. Dans ce cas, les
signaux à court terme synchronisés avec la période du pitch locale sont répétés (pour
augmenter la durée) ou éliminés (pour la diminuer) :
a
b
Figure 9.14 : Procédure de ralentissement (a) et accélération (b) temporelle dans la TD-PSOLA
Si nous résumons les transformations des signaux à court-terme, nous avons : i) les
translations, dont font partie les éloignements / rapprochements des signaux à court
terme (pour diminuer / augmenter la fréquence fondamentale) ; et ii) les duplications
/ suppressions des signaux à court terme (pour ralentir / accélérer la durée). Notons
ici que des applications simultanées des modifications de pitch et de durée sont
8 Pour les sons voisés, les marques de pitch correspondent à l’instant de fermeture de la glotte. Pour les sons non
voisés, les marques de pitch sont positionnées arbitrairement selon une répartition progressive définie d'après les
pitch voisés encadrant la zone non voisée. En cas d'absence de pitch voisé, un pitch arbitraire à 10 ms est utilisé.
9 Plus précisément, un signal à court terme est constitué du signal d'analyse multiplié par une fenêtre en cosinus
surélevé (Hanning) centrée sur un instant d'analyse (noté plus loin« Ian ») ou les marques de pitch.
10 Ces segments contiennent habituellement de 2 à 4 périodes de pitch.
215
possibles et que la décomposition en signaux à court terme est telle qu'en l'absence
de modification de pitch et de durée la reconstruction du signal est parfaite :
Figure 9.15 : Procédure de reconstruction parfaite dans la TD-PSOLA
Les techniques PSOLA sont connues pour produire des rendus sonores proches du
naturel pour des modifications fréquentielles (et/ou temporelles) qui ne sont pas
considérables, notamment quand la période du pitch ne change pas très rapidement
et quand elle peut être mesurée correctement. Parmi les limites de cette technique,
mentionnons la perte d’harmonicité dans le rendu sonore, et souvent, de la qualité su
son à cause des déformations prosodiques trop importantes.
Revenons maintenant à la solution proposée par [LAU’08], et évoquée auparavant.
Les techniques employées pour les déformations prosodiques sur le signal de parole
relèvent donc de diverses transformations TD-PSOLA, et visent à produire un rendu
sonore approprié aux contraintes expressives imposées sur les variables prosodiques.
Pour ceci, les auteurs ont conçu et mis en place une application11 se présentant sous la
forme d’une interface, comme illustrée dans la figure 9.16.
L’interface proposée offre un environnement simple et efficace à l’utilisateur
pour : i) le traitement de texte (i.e. la rédaction ou la modification du texte à oraliser,
ainsi que le balisage ou le dé-balisage de celui-ci) ; ii) la visualisation du texte avant
et après son formatage ; iii) l’écoute du résultat (sous forme des fichiers audio en
format .wav) ; et iv) l’ajustement de diverses 12 règles prosodiques traduisant les
contraintes expressives des variables prosodiques.
Cette dernière fonctionnalité permet à l’utilisateur de manipuler les variables
prosodiques et d’affiner leurs valeurs. La configuration manuelle de ces paramètres
s’effectue dans le panel de gauche. Celui-ci comporte différents curseurs positionnés
initialement sur une valeur qui traduit une affectation automatique des contraintes
prosodiques de récurrence. La valeur d’un curseur est observable dans la boîte de
texte positionnée immédiatement à sa droite. La mise à jour d’un curseur entraîne la
mise à jour des variables interne de l’application.
Cette interface est disponible sous forme d’application java plurifonctionnelle ou bien sous forme d’interface
web intégrant l’applet java du logiciel proposé ainsi que le synthétiseur vocal développé par France Télécom
permettant d’obtenir directement les sons au format « .wav ».
12 Au départ, l’interface a été conçue pour l’implémentation des règles prosodiques introduites par les marqueurs
typographiques et de ponctuation, mais elle peut être utilisée pour les autres contraintes, également.
11
216
Figure 9.16 : Exemple d’interface pour le paramétrage prosodique post-synthèse
Si le genre textuel choisi est l’horoscope, les éléments hiérarchiques affichés seront
« SIGNE », « TITRE DE SECTION » et « SECTION ». Ils sont indispensables pour rendre les
règles prosodiques interprétables par le synthétiseur. Leur paramétrage par défaut
(cf. fichier « défaut horoscope ») tend à satisfaire les contraintes prosodiques citées
dans le chapitre 8, mais il est calculé (cf. figure 9.16) relativement au rendu vocal de
référence, qui est obtenu ici par la synthèse avec une voix dite « neutre ».
Nous pouvons remarquer quelques actions sur les variables prosodiques
mélodiques et temporelles qui traduisent les contraintes de récurrence pour les
horoscopes : i) les pauses inter-gph (SIGNE_FIN_BREAK, TITRE_SECTION_FIN_BREAK,
SECTION_FIN_BREAK) sont plus marquées et satisfont les contraintes C16 ; ii) les
pauses de ponctuation inter-syn (ici, SECTION_GLOBAL_BREAK) au sein des corps de
sections sont moins marquées et satisfont les contraintes C13 ; iii) les tempos
syntagmiques (ici, les divers paramètres GLOBAL_RATE) sont généralement un peu
plus accélérés, cf. contraintes C10 et C12 ; iv) les tessitures mélodiques (les divers
paramètres PITCH_RANGE) sont globalement plus larges et satisfont les contraintes C6
et par conséquent, C8 ; v) les déclinaisons mélodiques finales (SECTION_FIN_PITCH) de
section sont considérables et conformes aux contraintes C3.
Précisons que l’interface n’implémente pas à présent toutes les contraintes agissant
sur les variables prosodiques (telles les C1, ou C9, etc.), mais elle est facilement
adaptable pour une telle extension. Nous pouvons toutefois remarquer la possibilité
du contrôle des valeurs des variables d’intensité (non traitées ici), réalisé à l’aide des
paramètres prosodiques GLOBAL_VOLUME.
217
L’interface permet également d’affecter un paramétrage ponctuel de ces variables,
qui traduit en termes prosodiques les divers marqueurs typographiques, tels le gras,
l’italique, ou bien les guillemets [PAM’89]. La figure suivante en illustre le cas du
paramétrage « par défaut » des correspondances prosodiques de ces éléments :
Figure 9.17 : Exemple de paramétrage prosodique des marqueurs typographiques ponctuels
Remarquons que cette interface de paramétrage ponctuel facilite la manipulation
des valeurs des variables prosodiques locales associées aux éléments typographiquement marqués. Nous avons la possibilité de : i) insérer des pauses autour d’un mot
(ou d’une expression) marqué en gras, italique, ou comprise entre les guillemets (par
les divers indices DEB_BREAK et FIN_BREAK) ; ii) modifier la tessiture mélodique
globale (GLOBAL_PITCH_RANGE), le niveau fréquentiel de départ (GLOBAL_PITCH), le
tempo (GLOBAL_RATE), ou l’intensité (GLOBAL_VOL) de ce mot (ou expression). Si
nous prenons l’exemple évoqué avant de la phrase publicitaire « Cliquez ici pour
gagner », nous pouvons obtenir pour le mot porteur d’emphase (en italique) un
paramétrage équivalent à celui illustré dans la figure 9.9 (obtenu avec SpeechOnline).
Pour conclure, précisons qu’une procédure similaire de choix de paramétrage peut
s’appliquer pour une voix de référence dédiée à la pratique discursive en question
(par exemple, la voix d’un de nos comédiens pour les horoscopes ou pour d’autres
textes procéduraux). Le fait de disposer des deux rendus sonores (soit l’original et le
transformé par les techniques PSOLA) permet une évaluation ultérieure par « pair
comparison »13 [GOL’95], de nature perceptive.
13
Le vocable est couramment employé en littérature pour désigner la comparaison des paires des signaux audio.
218
9.2 Affectations des contraintes prosodiques de discernabilité expressive
Si dans la section précédente nous nous sommes intéressés aux diverses affectations
des contraintes prosodiques de récurrence (intra-)expressive, dans cette section nous
nous concentrons sur les affectations des contraintes de variance ou de discernabilité
(inter-)expressive. Plus précisément, nous esquissons ici le cadre applicatif qui nous
permet de mettre en pratique les exemples d’affectations des contraintes prosodiques
de discernabilité mentionnés dans la section 8.2. Ce cadre, proposé par l’auteur en
[LAU’08] se présente sous la forme d’une fonctionnalité supplémentaire de la seconde
application de paramétrage prosodique, telle que décrite en 9.1. Celle-ci attribue aux
règles prosodiques de discernabilité expressive (extraites à partir des réalisations
d’horoscopes en mode « commentaire sportif » ou « messe/prière ») des équivalents
traduits par des schémas prosodiques. Précisons que certains genres textuels (comme
c’est le cas ici du commentaire sportif et de la prière/messe) se prêtent plus
facilement à ce type de pratique de transposition prosodique par des schémas, car les
contraintes prosodiques décrivant leur signature expressive peuvent être exprimées à
l’aide de règles prosodiques plus « simples ».
Les schémas prosodiques sont censés retracer pour une unité textuelle (syllabe,
mot) la description de ses caractéristiques prosodiques. Or, la représentation
musicale offre une représentation proche de ces modèles de schémas (mélodiques,
temporelles, énergétiques). Les auteurs ont opté pour utiliser la partition musicale
comme moyen de représentation de ces schémas prosodiques riches et sont parvenus
à composer aisément14 un exemple pour le commentaire sportif et un pour la prière :
Figure 9.18 : Exemple de schéma prosodique pour un extrait de commentaire sportif
Figure 9.19 : Exemple de schéma prosodique pour un extrait de prière/messe
14
Moyennant des connaissances de base en musique
219
Si nous appliquons15 ces schémas prosodiques sur la matière textuelle d’horoscope
qui constitue notre support hypo-prosodique (cf. parodies prosodiques, chapitre 4),
nous obtenons pour le commentaire sportif des représentations telles les suivantes :
Figure 9.20a : Exemple de schéma prosodique de type « sportif » pour le syntagme titre-signe
Figure 9.20b : Exemple de schéma prosodique de type « sportif » pour un titre-section
Figure 9.20c : Exemples de schéma prosodique de type « sportif » pour deux extraits de corps-section
Remarquons que les schémas dans les figures 9.20 tendent à implémenter les
affectations des contraintes prosodiques de discernabilité (« sportive ») expressive
évoquées dans la section 8.2 : i) irrégularités dans les regroupements en syntagmes
(contraintes C13); ii) durées des pauses inter-gph (contraintes C16) et inter-syn (C13)
irrégulières ; iii) grande variabilité des durées syllabiques, en alternances répétées
courtes/longues (C9) ; iv) accélérations et ralentissements répétés et non prévisibles
des tempos syntagmiques (C10 et C12) ; v) montées mélodiques régulières sur les
syllabes finales de syntagmes terminaux (C1).
15
Ce procédé est connu dans la littérature de spécialité sous le vocable de « placage prosodique ».
220
D’une manière similaire, en appliquant le schéma prosodique simplifié de type
« messe » sur le même texte horoscopique, nous obtenons les schémas suivants :
Figure 9.21a : Exemple de schéma prosodique de type « messe » pour le syntagme titre-signe
Figure 9.21b : Exemple de schéma prosodique de type « messe » pour un titre-section
Figure 9.21c : Exemples de schéma prosodique de type « messe » pour deux extraits d’un corps-section
Ces schémas illustrent partiellement les contraintes prosodiques évoquées en 8.2,
utilisées cette fois-ci pour le discernement prosodique de l’expressif générique de
« messe/prière » (rapporté à l’expressif « typique »). Nous pouvons observer ainsi : i)
des regroupements syntagmiques (très souvent) maximaux, comprenant de 15 à 25
syllabes, séparés par des pauses inter-syn très courtes (d’environ 200 ms) (cf. C13) ; ii)
des pauses inter-gph très courtes (de 100 à 200 ms) après le titre signes et les titressection, et très grandes (de 1500 à 2000 ms) après les corps-section (cf. C16) ; iii) des
syllabes très allongées (en moyenne, de 700 à 1300 ms) situées à la fin des syntagmes
terminaux (cf. C9), présentant des comportements mélodiques particuliers (cf. C2) ;
iv) des durées (quasi-)régulières des syllabes non-terminales (cf. C9) ; et iv) l’absence
221
d’accélérations et de ralentissements des tempos syntagmiques (cf. contraintes C10 et
C12). Enfin, notons que : v) les mouvements mélodiques particuliers des syllabes
finales (cf. C1) ont été réduits dans ces schémas à des contours formels de fin de
syntagme de type « X L H L » ; et que vi) les tessitures mélodiques des gph ont été
réduites par rapport à celles spécifiées par les contraintes C6 (cf. section 8.2).
Malgré ces réductions, les schémas musicaux s’avèrent riches quant à leur pouvoir
d’expression prosodique. Restant traductibles via le composant logiciel développé,
ils requièrent un balisage 16 particulier (cf. figures 9.22 et 9.23 décrites ci-dessous)
dédié au « mode » d’élocution désiré :
Figure 9.22 : Exemple de balisage d’horoscope en mode « sportif » (cf. schéma prosodique)
Figure 9.23 : Exemple de balisage d’horoscope en mode « messe » (cf. schéma prosodique)
Nous avons employé pour cette représentation la forme phonémique d’un extrait de notre horoscope-exemple,
car les unités affectées par ces schémas sont principalement, les syllabes. Or, comme le balisage offert par
l’interface du synthétiseur ne permettait pas d’agir sur une unité plus petite que le mot, nous avons dû faire un
compromis (soit des syllabes phonétiquement transcrites comme des mots) pour la composition de ces schémas.
16
222
La synthèse (ici, post-sélection d’unités) des textes d’horoscopes « à la manière »
d’un prêtre récitant sa prière ou bien d’un commentateur sportif, constitue un
exemple éclaircissant du pouvoir créatif de la prosodie en matière d’expressivité
discursive. Comme évoqué dans la section 3.3, la prosodie est plus d’un espace
d’observabilité expressive, un atelier de création de nouvelles formes expressives. De
sorte qu’à l’aide d’outils de déformation prosodique disposés par les techniques
PSOLA, nous avons pu définir quelques scénarios d’altération prosodique locale ou
globale (telles les élongations ou les compressions temporelles, les augmentations, les
diminutions ou les translations mélodiques) :
Figure 9.24 : Génération de l’expressif par l’affectation des contraintes prosodiques en post-sélection
Pour résumer, nous avons cherché à illustrer ici sur quelques exemples, l’apport
de deux plateformes applicatives conçues pour la manipulation des différentes variables
prosodiques, à l’affectation des divers traits prosodiques, expressivement récurrents ou
discernables. L’objectif de cette démarche opérationnelle consiste en la validation des
signatures expressives des formes discursives expressives telles qu’exprimées par les
jeux d’affectations (partielles) respectives des contraintes prosodiques. Le protocole choisi
pour cette évaluation, ainsi que les résultats des tests perceptifs mis en place pour
celle-ci, sont présentés en détail dans la section suivante.
223
9.3
Validation perceptive de signatures après affectations. Résultats.
Cette section est consacrée à la description du protocole de validation perceptive des
signatures expressives. Celle-ci concerne singulièrement17 les rendus sonores obtenus
suite aux affectations des contraintes prosodiques de récurrence extraites auparavant
(cf. section 8.1). Plus précisément, nous présentons d’abord la plateforme vouée à
soutenir le protocole de validation, et ensuite nous exposons les résultats des tests
utilisateurs réalisés dans le cadre de ce protocole. Quelques discussions sont menées
afin d’éclaircir la pertinence de ces résultats quant aux problématiques d’expressivité
discursive située retenues dans le cadre de notre travail.
Protocole d’évaluation perceptive : plateforme de validation
Pour la validation perceptive, nous avons conçu et mis en place une plateforme qui
se présente sous la forme d’une application intuitive et ergonomiquement légère, qui
permet à un utilisateur « lambda », connecté sur le serveur d’hébergement : i) de se
placer dans un environnement dédié à une pratique d’horoscopes (typiques), ii)
d’écouter deux versions audio du signe du jour choisi, et de noter ses préférences
quant aux extraits écoutés, en tenant compte d’un ensemble des critères spécifiés.
Nous allons détailler dans la suite.
Le protocole de validation est déclenché par l’invitation de participation au test
adressée aux potentiels futurs utilisateurs, avec la précision qu’aucune information
supplémentaire n’est donnée à priori :
« Il s’agit d’une évaluation concernant les recherches menées dans le cadre de ma thèse. Je
vous laisse le plaisir de découvrir l’intimité de la thématique abordée et ses enjeux… »
Ayant souhaité que ce protocole s’inscrive dans une pratique réelle d’utilisation
d’horoscopes vocalisés, l’invitation a été faite en ligne18, un lundi matin (puisqu’il
s’agit d’horoscopes hebdomadaires). Un ensemble de 91 personnes intéressées ont
répondu à l’appel de participation au test. Nous discuterons sur leurs provenances et
Notons que nous n’avons pas procédé ici à la validation de diverses affectations des contraintes prosodiques de
discernabilité, et ceci notamment en raison de l’insuffisance quantitative des données acoustiques « parodiques »
disponibles, indispensables à la constitution des bases (et donc des voix) dédiées. Précisons toutefois que les
analyses sur les exemples de lectures parodiques présentées auparavant, ainsi que leur comparaison avec les
lectures typiques sont pertinemment illustratives pour nos problématiques d’expressivité discursive située, mais
elles ne peuvent pas faire, dans l’état, l’objet d’une validation multicritère globale (telle que présentée dans la
section courante). Il reste cependant possible d’envisager leur validation future, par i) l’élargissement des bases
dédiées à chacune des lectures parodiques (i.e. une base pour la lecture sportive, une pour la lecture messe, etc.),
par ii) la spécification de nouveaux critères pertinents pour leur validation, et iii) la mise en place d’un protocole
de validation adéquat (contenant, par exemple, des questions de type « dans quel genre de lecture situez-vous
l’extrait écouté ? », « quel est l’effet que cette lecture vous a provoqué ? », « à quoi vous vous attendiez ? », etc.).
18 Par un mail automatique, ainsi que par l’intermédiaire d’un réseau social très connu et fréquenté.
17
224
leurs compétences plus tard. Indiquons ici qu’avec ce choix volontaire de mise en
scène du protocole de validation perceptive, certains paramètres de test ne sont pas
contrôlés et homogénéisés dès le départ. Il s’agit notamment des variables liées à la
situation et/ou aux conditions d’écoute, tels les éléments d’équipement (ordinateur /
téléphone portable, hauts parleurs / casques, etc.), d’environnement (maison / rue /
bureau, cadre bruité / silencieux, etc.), ou de disponibilité de chacun des utilisateurs.
Nous y reviendrons lors de la discussion finale.
Concrètement, le protocole se déroule comme suit : lors de sa première connexion
sur la plateforme, l’utilisateur lambda dispose d’un premier environnement de choix
d’un signe astrologique (un parmi les douze disponibles) :
Figure 9.25 : Plateforme de validation perceptive des signatures expressives (première page)
La définition du genre textuel (tg) horoscope lui permet d’identifier, au moins en
partie, la pratique discursive. Les attentes initiales liées à la situation discursives (ds)
et/ou aux dimensions de l’idiolecte (rp) apparaissent seulement ultérieurement, car à
ce premier stade, il n’y a aucune information permettant d’anticiper qu’il s’agit d’une
pratique de vocalisation. Notons aussi qu’environ 10% d’utilisateurs ayant répondu à
l’appel initial de participation au test (soit un ensemble de 9 personnes sur le total de
91) ont abandonné au cours de ce premier stade. Contactés ultérieurement, ils ont
justifié une réserve personnelle ou un manque d’intérêt général en ce qui concerne
les pratiques d’horoscopes. Nous n’avons pas insisté plus. Le reste de 82 utilisateurs
ont suivi avec succès le protocole de test, en entier. Par conséquent, tous les résultats
et les discussions ultérieures concernent uniquement les préférences de ceux-ci.
Après avoir validé son choix initial, l’utilisateur est dirigé vers une page dédiée au
test perceptif proprement dit. Celle-ci contient : i) le descriptif de la réglementation
du protocole d’évaluation, ii) les extraits audio soumis à l’évaluation, iii) l’ensemble
de 5 critères globaux d’évaluation, expliqués brièvement et iv) quelques questions en
réponses libres, particulièrement intéressantes pour notre problématique d’étude.
225
La seconde page du protocole de test se présente comme décrite ci-dessous :
Figure 9.26 : Plateforme de validation perceptive des signatures expressives (seconde page)
L’évaluation perceptive est basée sur un procédé de comparaison par paires PC
(cf. [KRA’05]), portée uniquement sur les aspects d’estimation qualitative. L’utilisateur
est donc invité à noter ses préférences, soit en choisissant l’extrait privilégié quant
aux critères cités, soit en optant pour une décision « identique » si le cas d’ex æquo
parmi ses préférences se présente. De sorte que, si nous convenons à noter les deux
alternatives distinctes (i.e. les deux stimuli audio présentés) par x et respectivement y,
les résultats possibles d’une comparaison par paires monocritère sont les suivants :
-
si l’utilisateur préfère x à y, alors
x > y, ou xPy
-
si l’utilisateur préfère y à x, alors
y > x, ou yPx
-
si l’utilisateur est indifférent entre x et y, alors
x = y, ou xIy
En raison de l’étendue des stimuli audio présentés, et de l’importance des critères
globaux auxquels ceux-ci sont soumis à l’évaluation, l’approche adoptée ici n’utilise
pas une échelle numérique d’évaluation, comme le font très systématiquement les
procédés d’évaluations traditionnelles locales (basés souvent sur une échelle de type
MOS (cf. [LEM’99]). Cela rejoint quelques uns des points clés mis en évidence par les
travaux de [POD’07] relatifs à l’importance de (re)définir des méthodes d’évaluation
plus pertinentes19 pour les tests d’écoute utilisateur. Précisons que la méthodologie
d’évaluation en soi fait l’objet de plusieurs travaux de recherche actuels (cf. [LAU’10]).
Plusieurs grilles d’évaluation perceptive multicritères des systèmes de synthèse vocale ont été initialement
proposées et revisitées régulièrement au sein du projet Blizzard Challenge [BLI’10].
19
226
Les deux extraits audio (1) et (2), présentés à l’utilisateur en ordre aléatoire pour
des signes astrologiques différents, sont issus (1) des procédés de sélection habituelle
d’unités acoustiques, correspondant à la sortie dite « par défaut » du système de
synthèse, et (2) du procédé de synthèse par affectation partielle des contraintes de
récurrence prosodique extraites en préalable (i.e. génération20 suite aux affectations),
comme discuté dans la section 9.1. Rappelons que le premier type de stimulus audio
correspond à la solution prosodique générique (notée « old ») qui implémente seulement
une sous-partie des contraintes prosodiques de récurrence spécifiques au genre
horoscope, tandis que le second type, à la solution prosodique proposée à l’aide de nos
signatures expressives (notée « new »). Évidemment, les deux stimuli audio relèvent du
même contenu textuel d’entrée, non existant dans la base initiale (car il s’agit de la
génération d’une nouvelle matière textuelle), qui correspond au nouveau horoscope
du jour (recueilli automatiquement à la veille, pour le signe respectif, à partir de la
même source en ligne, cf. chapitre 4). En reprenant la figure 9.10, nous avons :
Figure 9.27 : Schéma du protocole d’évaluation perceptive par comparaison de paires
Les cinq critères globaux auxquels nous nous sommes intéressés pour l’évaluation
perceptive des signatures expressives sont les suivants :
•
Intelligibilité - clarté de l’articulation et du contenu du message
•
Fluidité - pauses, ponctuation, groupes de mots
•
Intonation - variation mélodique dans le discours
•
Vitesse d’élocution - débit de la parole
•
Accentuation - emphase ou mise en relief de certains éléments du discours
Notons que la deuxième solution de génération décrite dans la seconde partie de la section 9.1 (cf. schéma dans
la figure 9.24) ne fait pas l’objet d’une évaluation perceptive dans le cadre du travail présent. La raison principale
est la présence de nombreux artefacts locaux introduits par les techniques de déformation de signal, nécessaires
pour produire un rendu sonore approprié, conforme aux contraintes prosodiques imposées en entrée. Cependant,
il est possible d’imaginer le même scénario d’évaluation par paires des rendu « par défaut » et « déformés ».
20
227
L’explication de chaque critère est donnée brièvement par une définition intuitive
(cf. ci-dessus), spécifiée à l’aide d’une info-bulle dédiée :
Figure 9.28 : Explication des critères généraux pour l’évaluation perceptive
Les mécanismes d’évaluation étant basés sur des jugements subjectifs de la part
d’utilisateurs, nous avons imaginé quelques questions ouvertes, à réponse libre, afin
de permettre à ceux-ci une expression « non formatée » de leur ressenti individuel
par rapport au test et/ou aux critères définis. Chaque question a un objectif principal.
La première question (« Pouvez-vous dire quelques mots sur l’expressivité des deux
extraits ? ») permet d’éclairer ou bien de découvrir les principales dimensions qui
semblent pertinentes pour chaque utilisateur en termes d’expressivité de la parole.
La seconde question (« Pensez-vous que la voix de l’extrait préféré soit appropriée
à la thématique ? Expliquez. ») permet de dévoiler et en conséquence de mieux situer
les attentes (initiales et/ou revisitées) que chaque utilisateur manifeste par rapport à
une voix (de synthèse et/ou naturelle) dédiée aux horoscopes. L’objectif est ici la
recherche de la confirmation (ou infirmation) de la concordance entre la solution
prosodique proposée (les marques phonostylistiques idiolectales en font partie) et les
caractéristiques attendues pour le genre textuel et la situation d’élocution donnés.
Enfin, la dernière question (« Pouvez-vous spécifier les conditions d’écoute dans
lesquelles vous avez effectué le test (casque, enceinte, environnement) ? ») vise à
répertorier un ensemble des paramètres restant incontrôlables par ce protocole de
test perceptif, afin de pouvoir étudier leur possible impact sur les résultats. Notons
que ceci est une des questions capitales posées par les chercheurs en méthodologie
d’évaluation perceptive. Pour illustrer, il est avéré que certains artefacts locaux ou
diffluences (prosodiques) ponctuelles introduits par les voix de synthèse sont plus
facilement perçus lors d’une écoute aux casques qu’aux hauts parleurs, et dans un
environnement silencieux plus que dans un contexte bruyant.
Une fois les champs libres remplis et les résultats validés, la plateforme prévoit la
redirection de l’utilisateur vers la première page, avec la proposition de poursuite du
test, par le choix d’un nouveau signe astrologique. Le processus d’écoute des stimuli
audio est donc itératif et non-réversible, l’utilisateur pouvant valider ses préférences
sur la totalité des stimuli pour les 12 signes (soit l’ensemble de 24 extraits audio).
228
Protocole d’évaluation perceptive : utilisateurs
Préalablement au recueil et donc à l’analyse des résultats de l’évaluation perceptive,
quelques considérations doivent être faites, notamment en ce qui concerne les 82
participants à ce test. L’ensemble présente une grande hétérogénéité quant aux traits
caractéristiques socioculturels et professionnels. Âgés de 17 à 65 ans, montrant une
distribution équilibrée entre les deux sexes, les participants sont issus des métiers
variés : ingénieurs, linguistes, retraités, écrivains, infirmiers, musiciens, étudiants en
lettres ou en sciences, docteurs, professeurs universitaires, techniciens de son,
demandeurs d’emploi, secrétaires, comédiens, vendeurs indépendants, etc. Ils
forment donc un échantillon représentatif de la population, que nous considérons
suffisamment pertinent pour cette étude d’évaluation d’horoscopes vocalisés.
De plus, étant lancé sur un réseau social mondial, le protocole de test a intéressé
aussi bien des natifs français que des étrangers assimilés français (i.e. ayant vécu plus
de 7 ans sur le territoire français, tous francophones et excellemment intégrés dans
les pratiques discursives françaises), dont certains bilingues ou avec une expertise de
niveau universitaire en langue française. Pour étudier le comportement aux tests
perceptifs parmi ces participants, nous avons établi une grille typologique spécifiant,
pour chaque utilisateur, son appartenance linguistique (natif/non-natif) et son niveau
d’expertise en expressivité (expert21/non-expert). Nous obtenons ainsi 4 catégories
(avec une distribution assez équilibrée), retrouvées dans la description des résultats :
expert
non-expert
natif
n_e (≈28%)
n_ne (≈31%)
non-natif
nn_e (≈17%)
nn_ne (≈24%)
Tableau 9.1 : Distribution des participants au test en fonction de leurs compétences linguistiques
Remarquons qu’il y a une présence légèrement majoritaire des natifs (59%), et une
présence légèrement majoritaire des non-experts (55%), les non-natifs experts étant
les moins représentés, et les natifs non-experts les plus représentés. engendrer
Une dernière précision concerne le fait que parmi l’ensemble d’utilisateurs, 78%
ont poursuivi l’évaluation des stimuli associés à l’ensemble des signes astrologiques,
et 22% à seulement une partie22 de ces derniers (en moyenne, 4 signes par personne).
Par conséquent, nous avons opté pour des représentations relatives, en pourcentage.
Nous avons considéré comme experts les écrivains, les linguistes, les comédiens, les étudiants en linguistique,
les musiciens, les techniciens de son. Les autres étant jugés comme non-experts (ou naïfs) quant à cette évaluation.
22 Chaque extrait audio durant environ 30 sec et, par conséquent, chaque paire 1 min n temps effectif d’écoute, les
22% des participants ont manifesté des contraintes importantes en termes de disponibilité temporelle, contraintes
qui ont entrainé un procédé d’écoute et de validation sélective.
21
229
Protocole d’évaluation perceptive : résultats et discussion
Nous présentons d’abord les résultats macroscopiques des tests d’évaluation (menés
comme mentionné précédemment), et continuons avec quelques descriptions des
résultats à portée plus locale. Ainsi, nous allons considérer premièrement l’effectif
total des participants, sans tenir compte de leur appartenance à une catégorie des
compétences linguistiques bien précise, et détailler dans la suite les comportements
au travers de ces catégories.
Nous introduisons une représentation23 graphique multidimensionnelle simplifiée,
ayant comme axes radiales les 5 critères discursifs globaux choisis pour l’évaluation
(soit l’intelligibilité, la fluidité, l’intonation, la vitesse d’élocution et l’accentuation du
discours). Sur chacun des axes, les données seront représentées en unités relatives,
traduites en pourcentage (entre 0 et 100) du nombre des participants considérés pour
l’étude, en fonction des cas. En plus, un code de couleurs est utilisé pour illustrer les
3 préférences possibles pour les stimuli « old » et « new », cf. figure 9.29 :
Figure 9.29 : Exemple du format de représentation graphique des résultats relatifs (%)
Nous détaillons dans la suite, pour chaque signe, les résultats des préférences des
utilisateurs, exprimés en pourcentage (nombre d’utilisateurs optant pour la variante
« new>old », « old>new » et respectivement « new=old », sur l’ensemble total des
participants). Les constellations de leurs préférences sont illustrées dans les figures
9.30 a) à l), comme suit :
23
Ce type de représentation est utilisé fréquemment pour figurer des données en mode « radar ».
230
a) bélier
b) taureau
c) gémeaux
d) cancer
e) lion
f) vierge
Figure 9.30a)-f) : Constellations de préférences globales / signe, en (%) sur l’ensemble de participants
231
g) balance
h) scorpion
i) sagittaire
j) capricorne
k) verseau
l) poissons
Figure 9.30g)-l) : Constellations de préférences globales / signe, en (%) sur l’ensemble de participants
232
En étudiant les 12 constellations présentées dans les figures 9.30, nous pouvons
souligner quelques traits perceptifs caractéristiques qui confirment nos hypothèses
d’affectations partielles de contraintes prosodiques (de récurrence) et valident ainsi la
démarche globale de modélisation de l’expressivité discursive à l’aide des signatures.
Premièrement, observons que le stimulus audio issu de notre solution prosodique est
préféré à une échelle plus large à son correspondant « par défaut ». Ceci est valable
régulièrement pour tous les 12 signes astrologiques, ainsi que pour tous les 5 critères
d’évaluation. Notons que certains des stimuli « new » manifestent une couverture de
préférences globale presqu’unanime (comme c’est le cas des extraits « vierge » ou
« capricorne »), tandis que d’autres privilégient une, voire plusieurs dimensions
d’évaluation : les extraits « gémeaux », « cancer », « scorpion » sont notés comme
étant plus intelligibles, « taureau », « sagittaire », « capricorne », « poissons » comme
plus fluides, « taureau », « capricorne », « poissons », « lion » comme plus accentués.
Certains stimuli « old » semblent généralement plus privilégiés pour les extraits
« verseaux », « scorpion », « lion », « balance », mais leur constellation de préférences
reste peu représentative par rapport à celle des stimuli « new ». Notons aussi que peu
de régularité s’observe dans la distribution pent-axiale des préférences « old ».
De plus, nous pouvons observer que les choix de type ex-æquo sont très souvent
préférés aux « old>new ». Ceci renforce davantage nos hypothèses d’évaluation.
Il est important à mentionner que les stimuli audio a)-f) présentés au test ont été
générés en utilisant la voix féminine (Geneviève), et les stimuli g)-l) un utilisant celle
masculine (Alain), i.e. les voix dédiées de nos deux comédiens. L’alternance des voix
F/H au travers les signes astrologiques reproduit une des pratiques intertextuelles
d’horoscopes (cf. discussions menées dans le chapitre 6). Les résultats globaux de
l’évaluation moyenne pour chacune des voix dédiée sont illustrés ci-dessous :
a) voix H (Alain )
b) voix F (Geneviève)
Figure 9.31 : Constellations de préférences globales / locuteur, en (%) sur l’ensemble de participants
233
Remarquons dans la figure 9.31 l’apparition des régularités dans les distributions
axiales notamment pour les participants ayant choisi notre solution prosodique
« new » (autour de 70%), tandis que les distributions des préférences « old>new » et
« new=old » restent comparables entre elles et beaucoup moins représentatives que
celles de type « new>old ». Notons aussi la grande similarité entre les constellations
de préférences « new>old » et « new=old »pour les deux locuteurs (i.e. a) vs. b)). Ces
choix ont permis de valider les signatures décrites dans le chapitre 8 :
tg
horoscope
contraintes
PATH
(horoscope, « typique », Alain )
ds
« typique »
S TR UC TU R E
S
rp
tg
P ERIODICITE
M
P
M OU V EME NT
Alain
horoscope
contraintes
PATH
(horosc ope, « typique », Geneviève)
ds
« typique »
STR U CT UR E
S
PER O
I DIC T
I E
rp
P
M
MOUV EME NT
Geneviève
Figure 9.32 : Validation des signatures expressives d’horoscopes « typiques » par choix de préférences
Toutes les préférences illustrées dans les constellations présentées jusqu’à présent
sont rapportées à l’effectif total des participants, sans tenir volontairement compte de
leur appartenance à une catégorie des compétences linguistiques précise. Nous allons
détailler maintenant les constellations de préférences au sein et au travers de ces
catégories, en discutant leurs comportements respectifs.
a) voix H (Alain )
b) voix F (Geneviève)
Figure 9.33 : Constellations de préférences / locuteur pour les participants auditeurs de catégorie n_e
234
Nous observons que les constellations de préférence des utilisateurs natifs experts
se caractérisent par une diminution des préférences « new>old » quant à la solution
proposée, par rapport aux résultats globaux obtenus sur l’ensemble des participants.
Cependant, celle-ci reste la privilégiée (notamment sur les dimensions de la fluidité
et de l’intonation), suivie du choix indifférent « new=old » et de celui « old>new ».
Un comportement similaire, avec un peu plus de chevauchement pour les stimuli
masculins (cf. figure 9.34a) est présent au sein des auditeurs natifs non-experts.
Comme le montrent les figures suivantes, ceux-ci privilégient davantage les critères
intonatif, ainsi que ceux de fluidité et accentuels :
a) voix H (Alain )
b) voix F (Geneviève)
Figure 9.34 : Constellations de préférences / locuteur pour les participants auditeurs de catégorie n_ne
Les utilisateurs francophones experts présentent des constellations de préférences
non-régulières, en pénalisant la vitesse d’élocution et privilégiant toutes les autres :
a) voix H (Alain )
b) voix F (Geneviève)
Figure 9.35 : Constellations de préférences / locuteur pour les participants auditeurs de catégorie nn_e
235
Notons que les profils pour les deux voix sont très différents, mais que la solution
« new>old » reste généralement la préférée (sauf pour le débit, où nous avons une
forte composante « new=old » qui apparait notamment pour les stimuli masculins).
Néanmoins, l’allure de la distribution des préférences change radicalement pour
les participants francophones naïfs, comme illustré dans les figures 9.36 ci-dessous :
a) voix H (Alain )
b) voix F (Geneviève)
Figure 9.36 : Constellations de préférences / locuteur pour les participants de catégorie nn_ne
La solution proposée est préférée presque d’une façon unanime, tandis que celle
« par défaut » est très peu représentée. Ce comportement bipolaire peut s’expliquer
par le manque d’un regard critique quant aux dimensions choisies pour l’évaluation.
Consommateurs probablement plus du contenu verbal que de la forme prosodique,
ces utilisateurs sont la cible idéale pour les pratiques d’horoscopes vocalisés avec les
voix dédiées, en considérant les signatures expressives.
En ce qui concerne l’acceptabilité et la bonne correspondance de la voix et de la
solution prosodique proposée avec le genre, les utilisateurs le confirment souvent, en
spécifiant que la voix masculine autoritaire renforce la crédibilité des contenus,
tandis que celle féminine « enjouée » est celle attendue pour ce type de pratique. La
plupart précisent toutefois que le débit de parole est trop rapide, et il qu’il serait
appréciable d’avoir des voix « un peu plus posées ».
Notons également que par les réponses aux questions issues du sondage final dans
le protocole d’évaluation, nous n’avons pas dépisté une dépendance particulière des
préférences perceptives avec les conditions d’écoute. Par écouteurs ou aux hauts
parleurs, dans un environnement bruité ou calme, au bureau ou à la maison, la
dispersion des préférences garde quasiment la même allure parmi les utilisateurs.
Par contre, ces derniers ont confessé la nécessité d’avoir recouru aux plusieurs
écoutes des stimuli (la fonctionnalité étant prévue dans le protocole d’évaluation).
236
Pour conclure, précisons que le protocole de comparaison par paires propose un
schéma de préférences global, exprimé soit sur la forme d’une représentation qualitative
multicritères, soit sous la forme d’une agrégation de préférences entre ceux derniers.
Dans ces travaux, nous avons illustrés le premier cas.
Les tests perceptifs ont fourni plusieurs informations. Au niveau local, ils ont
permis de : i) identifier si oui ou non les stimuli audio sont perçus comme identiques,
sur une des 5 dimensions (critères) mises à l’étude ; ii) établir si un des stimuli est
perceptivement privilégié (relation de supériorité) par rapport à un autre. Au niveau
global, les tests ont permis de iii) valider la bonne correspondance de la solution
prosodique proposée avec le genre textuel et la pratique d’horoscopes, iv) de tester et
valider le modèle proposé, notamment le formalisme de définition des signatures
expressives par affectation des contraintes prosodiques préalablement extraites.
Il est important à préciser qu’il n’existe pas de correspondance biunivoque entre
une contrainte prosodique et un critère d’évaluation, puisque chacun de ces derniers
englobe un jeu multiple de contraintes prosodiques, telles que définies dans le
chapitre 8 (cf. tableau 8.1, chapitre 8 et figure 8.23). Placée notamment au niveau
segmental, l’intelligibilité fait appel à des contraintes de concaténation d’unités
locales mais également aux contraintes syllabiques (C1 et C9). La fluidité relève des
contraintes mélodiques (C3, C6) et temporelles (C9, C10, C12, C13, C15, C16), tandis que la
vitesse d’élocution concerne particulièrement les contraintes temporelles (C10, C12,
C13). Enfin, l’accentuation touche à des dimensions prosodiques portées ici par les
contraintes (C1, C2, C6), ou (C9, C13), ainsi qu’à celles énergétiques (prévues à être
intégrée dans les perspectives de ce travail, cf. discussions dans le chapitre 10).
Subséquemment, les résultats des tests d’évaluation perceptive, exprimés en
termes de préférences d’utilisateurs (selon les dimensions définies par les critères
cités ici), souscrivent une démarche de validation d’affectations prosodiques globale,
pouvant toutefois soulever des questionnements sur les caractéristiques expressives
locales. C’est, par exemple, le cas des remarques faites sur le débit de parole (C10).
Une procédure d’évaluation plus vaste, englobant des critères plus saillants peut
être aussi envisagée dans la suite. De plus, avec l’aide des techniques avancées de
fouille de données, les tests d’écoute peuvent être utilisés avec d’autres informations
d’ordre plus technique pour l’amélioration des solutions expressives de synthèse,
afin d’augmenter la qualité des voix expressives déployées.
237
CHAPITRE 10
CONCLUSIONS ET PERSPECTIVES
Résumé
Ce dernier chapitre conclut le travail mené dans le cadre de cette thèse et esquisse
quelques perspectives de recherches ouvertes par celui-ci. Ainsi, les trois premières
sections résument la problématique de recherche, les aspects du cadre-modèle proposé pour
répondre aux besoins de cette problématique et les démarches techniques le soutenant
vers sa validation finale. La dernière section est dédiée à la description des possibles
directions pour les travaux ultérieurs. Si ceux-ci concernent l’étude de nouvelles formes
d’expressivité discursive, un affinement ou une adaptation du modèle initialement
proposé peuvent être parfois exigés. Ces procédés concerneront une ou plusieurs des
dimensions formelles utilisées pour la définition des signatures expressives. Ensuite, nous
discutons sur quelques scénarios possibles d’affinement d’outils de traitement, de
comparaison et de manipulation prosodique, et concluons sur quelques considérations
supplémentaires liées aux critères de validation de ces signatures.
Sommaire du chapitre
10.1
10.2
10.3
10.4
Le problème posé : la modélisation de l’expressivité discursive ……………………
Le cadre-modèle proposé pour l’expressivité discursive ……………………….……
Les démarches techniques soutenant le modèle proposé ………………..…………..
10.3.1 Structure de données expressives (SDEx) ……………………………………
10.3.2 Constitution des corpus de travail ……………...……….……………………
239
240
241
241
242
10.3.3 Outils pour le traitement de paramètres prosodiques (TPP) .……………… 242
10.3.4 Outils informatiques de liaison entre le TPP et la SDEx …………………… 243
10.3.5 Analyse des récurrences et des variabilités prosodiques …………………… 244
10.3.6 Outils de synthèse. Affectation des contraintes prosodiques. ……………… 244
10.3.7 Outil d’évaluation perceptive et résultats des tests ………………………… 245
Directions pour les travaux futurs. Perspectives. …………………………………….. 246
10.4.1 Intérêt pour d’autres formes d’expressivité discursive ……………………… 246
10.4.2 Affinement et adaptation du modèle proposé ……………………………… 248
10.4.3 Affinement d’outils de traitements et d’analyses prosodiques comparées 250
10.4.4 Affinement d’outils de manipulation formelle ……………………………… 253
10.4.5 D’autres pistes et critères de validation des signatures expressives ……… 254
238
10.1 Le problème posé : la modélisation de l’expressivité discursive
Dans ce travail, nous nous sommes intéressés au sujet de l’expressivité dans le cadre
de la synthèse de parole à partir de texte. L’intérêt que porte cette problématique
dans les travaux actuels de synthèse de parole est communément apprécié comme
majeur : l’expressivité est un enjeu scientifique et industriel essentiel pour les
recherches destinées à assouvir les nouveaux paradigmes d’interaction hommemachine réclamés par les nouvelles exigences ergonomiques de naturalité. Dans la
production de la parole artéfactuelle, il est ainsi un enjeu ergonomique qui révèle un
surcoût double : esthétique (dans la demande) et technologique (dans l’offre).
Dans la mesure où elle concerne un des véhicules importants de pratiques
communicationnelles humaines, l’expressivité appelle à des dimensions qui font de
la parole humaine un objet d’étude et d'application complexe. En engageant
l’homme, elle convoque des facteurs d’ordre culturel, situationnel, intentionnel, etc.
qui dépassent la sphère de ses compétences exclusivement linguistiques et les fait
entrer dans le jeu de production et de consommation du « naturel » vocal. C’est aussi
par la prise en considération ou bien par la volontaire omission de ces diverses
dimensions, que les démarches de modélisation de l’expressivité se différencient les
unes des autres.
Notre travail de modélisation de l’expressivité se situe au-delà des limites des
approches traditionnelles qui, se voulant robustes, ont systématiquement simplifié le
problème de la synthèse de parole (cf. chapitre 1), en le limitant à des portées
linguistiques locales. Partant du constat que la phrase ne suffit guère pour rendre
une expressivité qui révèle des rythmes discursifs globaux, nous avons convenu ici
que le texte est la juste unité linguistique d’observation de l’expressif discursif.
Véhicule de pratiques, la parole est tributaire des genres et des usages, qui sont les
éléments clés pour le rattachement du texte (écrit) à sa langue (orale, ici le français).
Si le genre (appelé parfois « domaine ») est attendu à organiser, d’une façon souvent
implicite, la diversité des productions verbales et de définir ainsi des « familles »
d’activités verbales expressives, l’usage de la parole, lui, relève surtout de ce que l’on
classe généralement par situationnel ou idiolectal. Explicites ou parfois implicites, ces
dimensions peuvent renforcer, modifier ou redéfinir, selon le cas, l’expressif discursif
habituellement imposé par le genre (cf. chapitre 2). Nous avons postulé ainsi que
l’expressivité telle que posée en termes discursifs est nécessairement transphrastique,
généralement intra-générique, et situationnellement et idiolectalement déterminée.
Ceci fonde les bases d’une approche qui, à notre connaissance, est novatrice dans les
travaux actuels de recherche dans le domaine.
239
10.2 Le cadre-modèle proposé pour l’expressivité discursive
Pour répondre aux problèmes posés dans le passage du texte à la parole, nous avons
défini dans le 2ème chapitre un cadre-modèle général pour l’expressivité discursive.
Convenablement maniable, le cadre proposé se prête à l’étude de diverses familles
d’expressivités retrouvées dans les pratiques discursives fréquentes. Le modèle mis
en place pour la description et la manipulation des phénomènes expressifs discursifs
est développé en plusieurs étapes. Il consiste à définir une signature formelle pour ce
que nous avons appelé « formes discursives expressives ».
Tout d’abord, nous avons commencé par situer une forme discursive expressive
dans un espace multidimensionnel <S> défini par trois caractéristiques extratextuelles : le genre textuel (tg), la situation discursive (ds), et l’idiolecte (rp) 1. Ensuite, en
raison d’efficience computationnelle, trois niveaux d’analyse phonologique (L) sont
choisis outre le texte (txt) : le groupe phrastique (gph), le syntagme (syn), et la syllabe
(syl). Issus des divers traitements (pdv) lexicaux, morphosyntaxiques, sémantiques,
de ponctuation, de typographie, etc., ces niveaux sont définis d’une manière souple
pour pouvoir souscrire à diverses variantes de découpage en hiérarchies
phonologiques, propres à chaque famille d’expressivité. Locale ou globale, selon le
cas, chaque unité phonologique porte des informations certes linguistiques (<U>),
mais aussi mélodiques (<F>), temporelles (<T>) et énergétiques (<I>). L’ensemble de ces
dernières érige trois structures prosodiques télescopiques (<P>). Les paramètres
décrivant ces structures sont nommés variables prosodiques (de V1 à V17) et leur
représentation formelle a été détaillée plus loin (cf. chapitre 5, section 5.2). Ils
définissent l’ensemble de nos observables prosodiques. Dans l’hypothèse que
l’expressivité discursive est véhiculée par ces divers observables prosodiques, nous
avons défini ensuite (cf. chapitre 2 toujours) une forme discursive expressive comme un
parcours parmi les variables prosodiques associées à une unité d’analyse donnée,
bien déterminée dans l’espace <S> : fde =df < <id, <U> <P> > <S> >.
Ensuite, nous sommes revenus (dans le chapitre 5) sur quelques considérations
liées à l’organisation des variables prosodiques mentionnées auparavant. En suivant
la proposition de rationalisation d’un phénomène rythmique décrite en [SAU’00], nous
avons défini en 5.4 une tripartition (S) – structure, (P) – périodicité, (M) – mouvement
censée englober ces variables. Ce sont ces dimensions rythmiques qui définiront, par
la combinatoire d’éléments qu’elles contiennent (i.e. par les jeux variés des variables
prosodiques), les principaux critères de discernabilité prosodique et donc expressive.
Rappelons que tg spécifie, par exemple, un horoscope, un proverbe, un conte, etc. ; ds informe sur les traits
permanents ou temporaires du locuteur (comme « énervé », « ivre »), ses intensions rhétoriques ou
argumentatives (« essayant de séduire », ou « d’être autoritaire », etc.) ou quelques manières spécifiques de parler
dépendantes de la situation (comme « lente », « rapide », « interrogatif », « triste », etc.) ; enfin, rp définit le profile
prosodique du locuteur, relevant quelques caractéristiques plus ou moins implicites, comme le sexe, l’âge,
l’accent, l’appartenance sociale ou le niveau de langage, la façon générale de parler, etc.
1
240
Enfin, nous avons proposé dans le même chapitre 5, une représentation formelle
des caractéristiques extratextuelles, censée faciliter l’opérationnalisation des critères
de discernabilité expressive. De sorte que nous avons défini une signature expressive
pour chacune de ces caractéristiques. Formellement, cette dernière est définie par le
triplet (V, D, C). Sur le plan opérationnel, les signatures expressives relèvent
d’isotopies prosodiques et se traduisent (cf. section 5.3) par un ensemble de récurrences
dans le choix opéré parmi les variables prosodiques (V), sur leurs valeurs possibles
(dans leurs domaines D) par différentes contraintes prosodiques (C). Sur le plan
interprétatif, ces signatures sont des interprétants expressifs avérés (i.e. éléments
saillants supérieurs) qui souscrivent au repérage et encouragent le discernement des
rythmes expressifs, propres à une pratique discursive spécifiée par un genre (tg), une
situation (ds) et un idiolecte (rp).
Précisons qu’à notre connaissance, tant la tripartition rythmique (S), (P), (M) que
les signatures expressives qui traduisent les isotopies prosodiques, relèvent des
démarches innovantes pour la synthèse de parole.
10.3 Les démarches techniques soutenant le modèle proposé
Ayant comme référence le cadre-modèle proposé auparavant et en conformité avec la
méthodologie de travail décrite dans le chapitre 3, nous avons conduit nos travaux
techniques, dans quatre directions principales, soit : i) la mise en place de la structure
des données expressives ; ii) la constitution des divers corpus écrits et oraux de
travail ; iii) le développement d’outils informatiques pour le traitement des divers
paramètres prosodiques ; iv) le développement d’outils pour la correspondance entre
les résultats des traitements prosodiques et la structure de données ; v) la mise en
place d’outils d’analyse prosodique comparative pour la recherche des traits de
récurrence ou de discernabilité expressive, exprimés à l’aide des contraintes sur les
variables prosodiques ; et enfin, vi) le développement (et/ou l’adaptation) d’outils de
validation notamment par l’affectation des contraintes prosodiques extraites avant.
10.3.1 Structure de données expressives (SDEx)
Le premier pas pour implémenter le modèle d’expressivité proposé, consiste en la
mise en place d’une structure de données expressives. Pour ceci, nous avons établi
(dans le chapitre 7) un ensemble des types abstraits expressifs (TAEx) relevant des
niveaux formels différents. Nous avons commencé par la définition d’un type
abstrait MOt, élément de base dans la représentation phonologique formelle choisie
(cf. annexes A6 et A7). Pour ceci, deux modules supplémentaires ont été nécessaires :
AlphaForm, qui décrit l’alphabet formel et AutoMOt, l’automate qui permet la
241
validation des mOts. Nous avons conçu aussi un canvas Tk [LUN’99] pour la
visualisation d’un mOt (Trace_mOt).
Ensuite, nous avons implémenté les TAEx pour chacun des vecteurs formels
décrits dans le modèle. Ainsi, pour le vecteur <S>, nous avons conçu les types Tg, Rp,
Ds et SpaceEx, et pour les <C>, <D> et <U>, les types ComposEx, DescriptEx, LingEx.
La partie concernant l’implémentation du vecteur prosodique <P> a été départagée
en plusieurs modules, chacun correspondant à une dimension prosodique, et à un
niveau d’analyse. Ainsi, pour <T>, nous avons implémenté les TDEx : T_syl, T_syn,
T_gph, T_txt, struct_T ; pour <F> : F_syl, F_syn, F_gph, F_txt, struct_F, etc. Quelques
modules supplémentaires ont été conçus pour le traitement des pauses (opérateurs
de liaisons) entre les niveaux L : LinksIds_syl, LinksIds_syn, LinksIds_gph, LinksIds_txt,
ainsi que Link_syl, Link_syn, Link_gph, Link_txt. Ensuite, nous avons établi les TDEx
pour <P> : P_syl, P_syn, P_gph, P_gph et struct_P qui intègrent les dimensions F, T, I.
Enfin, nous avons défini les identifiants composés : Id_syl, Id_syn, Id_gph, Id_txt.
Une fois ces modules établis, nous avons implémenté les TDEx correspondant aux
unités d’analyse pour chaque niveau phonologique : SylEx, SynEx, GhpEx, TxtEx et
ensuite nous avons constitué les dictionnaires des formes expressives situées (Esit).
Une interface graphique (en Tk) a été développée pour faciliter la manipulation de
tous les modules composant la structure des données.
10.3.2 Constitution des corpus de travail
Étape préliminaire à tout traitement prosodique, la constitution du corpus de travail
à consisté (cf. chapitre 4) principalement en : i) le choix des corpus de travail écrits,
soit le corpus principal, composé de 60 horoscopes hebdomadaires et 195 horoscopes
quotidiens (en total, 255 horoscopes), et le corpus secondaire, composé d’un ensemble
de textes procéduraux issus des genres différents (citations, proverbes, divers
conseils, textes publicitaires, etc.) prosodiquement « similaires » aux horoscopes ; ii)
le recueil (i.e. le choix de locuteurs et les enregistrements) des divers corpus oraux,
composés de l’ensemble des réalisations « typiques » des 255 horoscopes, ainsi que
des versions prosodiquement parodiées de deux parmi tous les horoscopes ; et iii) la
correspondance des corpus oraux et écrits, consistant en la validation de la
transcription et la segmentation, le découpage en unités phonologiques txt, gph, syn,
syl, et l’étiquetage conséquent.
10.3.3 Outils pour le traitement de paramètres prosodiques (TPP)
Une fois les données prêtes (cf. chapitre 4), nous avons utilisé les outils déjà existants
pour l’extraction d’un ensemble d’informations indispensables pour le traitement
242
prosodique. Celles-ci concernent les marques de frontières des syllabes, de pitch et
les valeurs de la fréquence fondamentale pour chaque fichier correspondant à un gph.
Ensuite, nous avons conçu et implémenté (cf. chapitre 6) les modules de traitement
prosodique pour les dimensions prosodiques F et T pour chaque niveau d’analyse L.
Nous avons commencé par l’extraction et la formalisation des paramètres temporels.
Ainsi, après l’extraction des durées syllabiques (TPP_T_syl), nous avons calculé les
tempos des syntagmes (TPP_T_syn1) et nous les avons formalisé (TPP_T_syn2),
compte tenu du palier gph. Nous avons représenté formellement les mouvements des
tempos des syntagmes au sein d’un gph et au sein d’un txt (TPP_T_gph1 et 2).
Ensuite, nous avons extrait et formalisé les durées des pauses inter-syn (intra-gph)
(TPP_T_syn_pauses) et inter-gph (soit intra-txt) (TPP_T_gph_pauses). Nous n’avons pas
analysé les pauses inter-txt, car dans l’enregistrement des textes de notre corpus il
n’y avait pas de consignes d’intertextualité (plusieurs textes lus à la suite).
Nous avons aussi implémenté les modules dédiés à l’extraction et la formalisation
de divers paramètres mélodiques. Plus précisément, nous avons réalisé la stylisation
des courbes mélodiques pour les syllabes (TPP_F_syl1 et 2), consistant en l’extraction
des vecteurs numériques, la suppression des parties non-voisées des syl, et la
réduction des mouvements mélodiques intermédiaires. Nous avons également
implémenté les modules pour la simplification (notamment par la réduction des
points-cible) des descriptions formelles mélodiques lors du passage au niveau syn
(TPP_F_snl1 et 2) et respectivement au niveau gph (TPP_F_gph1). Le calcul des pentes
mélodiques pour les gph et les txt a été effectué dans les modules adéquats. Par
contre, aucun paramètre d’énergie (cf. variables prosodiques, chapitre 5) n’a pas été
traité dans ce travail.
10.3.4 Outils informatiques de liaison entre le TPP et la SDEx
Nous avons également implémenté les modules informatiques qui effectuent le lien
entre la structure de données et les résultats des différents traitements prosodiques.
Leur visée consiste précisément à rassembler les informations stockées dans divers
fichiers et répertoires disparates en vue d’alimenter la SDEx. Ceci revient à associer à
chaque unité phonologique de type SylEx, SynEx, GhpEx, ou TxtEx de notre corpus,
l’ensemble de ses caractéristiques extratextuelles (vecteur <S>), linguistiques (vecteur
<U>), et bien sûr, prosodiques (vecteur <P>). Ces unités seront amassées ensuite pour
former des dictionnaires de formes expressives situées. Notons qu’une interface
graphique (en Tk) a été développée pour faciliter la manipulation de ces outils.
C’est aussi lors de cette étape de correspondance entre le TPP et la SDEx que les
portées abstraites de diverses variables prosodiques décrites dans le chapitre 5 sont
enfin instanciées avec les résultats des traitements obtenus (tels que décrits dans le
243
chapitre 6). Ceci concèdera aux multiples analyses comparatives ultérieures (voir le
chapitre 8) des formes expressives discursives.
10.3.5 Outils d’analyse des récurrences et des variabilités prosodiques
Dans la suite de nos travaux, nous avons mis en place un ensemble d’outils de
comparaison formelle entre les observables prosodiques des formes discursives
expressives situées. Le but était d’analyser les différentes portées de ces observables
et de proposer quelques consignes de récurrence ou de variabilité expressive parmi
ceux-ci. Pour cela, nous avons appliqué sur les formes extraites de notre corpus, les
opérateurs formels de comparaison binaire (R) tels que définis dans la section 5.4.
Nous avons étudié premièrement les observables expressivement homogènes
(issus de la base expressive d’horoscopes en lecture « typique », cf. section 8.1), et
nous avons établi un ensemble de traits expressifs récurrents. Secondement, nous
avons étudié la variabilité prosodique retrouvée au sein des formes expressivement
hétérogènes (issues des bases expressives des « parodies prosodiques », cf. section
8.2), et avons discuté sur les traits prosodiques témoignant des discernabilités
expressives. Dans les deux cas, les résultats d’analyses comparatives ont été exprimés
sous la forme de contraintes formelles sur les variables prosodiques. L’ensemble de
ces contraintes est censé définir les signatures expressives respectives des formes
discursives d’horoscopes « typiques » et des celles des simulations parodiées (dans
nos exemples, deux horoscopes lus en mode « commentaire sportif » et « prière »).
10.3.6 Outils de synthèse. Affectation des contraintes prosodiques.
Dans un premier temps, nous avons procédé à la validation de notre formalisme
phonologique en développant l’ensemble d’algorithmes de traitement prosodique
que nous avons nommé « inverse » (cf. chapitre 9). De sorte que certaines variables
prosodiques, une fois représentées sous une forme symbolique, sont traduites par ces
algorithmes (par exemple, les TPP_inv_T_syn2, TPP_inv_T_syn1, et TPP_inv_T_syl
qui ont été testés sur un sous-ensemble2 particulier des données des nos corpus) dans
les correspondants acoustiques équivalents. Ensuite, nous avons re-synthétisé à
l’aide des algorithmes de type PSOLA adéquats (cf. description dans le chapitre 9) les
différences entre les nouvelles données acoustiques et celles d’origine, en gardant les
autres consignes prosodiques invariables (i.e. les caractéristiques mélodiques pour
une re-synthèse dans le domaine temporel et inversement). Les résultats, obtenus
sous la forme des fichiers audio correspondant aux gph, ont été reconstitués dans des
Soit 40 horoscopes en lecture « typique » et 5 parodies « temporelles » d’horoscopes (i.e. quelques variantes sur
la vitesse de lecture et la lecture en mode « sportif »).
2
244
fichiers d’horoscopes complets (txt). Ils ont été utilisés pour l’évaluation perceptive
de différentes pertes induites par le formalisme phonologique utilisé (cf. chapitre 5).
Ensuite, nous nous sommes concentrés particulièrement sur les outils de synthèse
souscrivant à la validation des signatures expressives des formes discursives, telles
qu’exprimées par les affectations partielles respectives des contraintes prosodiques.
La mise en pratique de ces affectations prosodiques a été effectuée dans la dernière
phase méthodologique (cf. chapitre 3 et sa description a fait l’objet du chapitre 9). Du
point de vue opérationnel, ceci est réalisé à l’aide de deux plateformes applicatives
(SpeechOnline © déjà existante, et une seconde plateforme spécialement conçue pour
cette tâche de validation). Différemment, ces plateformes mettent à la disposition de
l’utilisateur des moyens de manipulation de diverses variables prosodiques : la
première, en présélection d’unités et la seconde, en post sélection. Facilitant le choix
des « valeurs » paramétriques des variables prosodiques, elles rendent possible
l’affectation des divers traits prosodiques expressifs, récurrents ou discernables,
selon le cas. Les contraintes expressives (dans l’exemple discuté, de tg) obtenues lors
des analyses prosodiques comparatives (cf. chapitres 6 et surtout 8) qui déterminent
les signatures expressives respectives, sont ici (chapitre 9) affectées. Les résultats de
ces affectations prosodiques sont sauvegardés sous un format audio, et ils seront
utilisés dans la suite dans les démarches de validation perceptive.
10.3.7 Outil d’évaluation perceptive et résultats des tests
Nous avons conçu et mis en pratique un protocole d’évaluation perceptive des
signatures expressives, par comparaison des paires (entre la solution d’affectation
prosodique proposée dans ce travail et celle générique, générée par défaut, cf. 9.1).
Pour des raisons discutées dans le chapitre précédent (cf. section 9.3), cette étape
d’évaluation concerne uniquement les rendus sonores obtenus suite aux affectations
des contraintes prosodiques de récurrence, extraites auparavant (cf. section 8.1).
D’abord, nous avons présenté la plateforme vouée à soutenir le protocole de
validation, et ensuite nous avons exposé les résultats des tests utilisateurs réalisés
dans le cadre de ce protocole. Quelques discussions ont été menées afin d’éclaircir la
pertinence de ces résultats quant aux problématiques d’expressivité discursive située
retenues dans le cadre de notre travail. Notons que la plateforme d’évaluation
subjective a été conçue pour permettre d’effectuer des tests d’écoute adaptés aux
objectifs de recherche ciblés. Pour qu’ils puissent être conformes à notre cadre de
modélisation, ces tests ont tout d’abord privilégié les caractéristiques prosodiques
globales, plus que celles segmentales. Ainsi, nous avons choisi comme critères pour
les tests : l’intelligibilité, la fluidité et l’intonation globale du discours, le débit
d’élocution et l’accentuation. Le protocole a aussi mis à la disposition de l’auditeur la
possibilité de définition des nouveaux critères d’évaluation expressive qui relèvent
des pratiques et des usages auxquels la parole de synthèse est destinée.
245
10.4 Directions pour les travaux futurs. Perspectives.
Nous avons proposé dans cette thèse un cadre formel pour l’étude de l’expressivité
discursive, telle que mise au service de la technologie de synthèse de parole. Cf.
sections précédentes, quelques pistes de recherche intéressantes ont été abordées
pour cette étude et des résultats prometteurs ont été obtenus. Cependant, ceux-ci
laissent entrevoir de nombreuses perspectives à ce travail, orientées tant scientifiques
que techniques. Nous en présentons ci-dessous quelques unes :
10.4.1 Intérêt pour d’autres formes d’expressivité discursive
Une première direction pour les travaux futurs concerne l’analyse du comportement
du cadre formel proposé, confronté à d’autres formes d’expressivité discursive, outre
celles étudiées ici. L’intérêt applicatif suscité par la prise en compte d’autres genres
textuels, situations d’élocution ou gammes d’idiolectes est grand.
Dans cette optique, nous nous sommes orientés vers d’autres pratiques discursives
susceptibles d’intéresser l’auditeur d’une parole artéfactuelle. Ainsi, nous avons
choisi de nous consacrer en particulier à la lecture de diverses histoires (pour enfants
et adultes), un genre entré dans l’usage du publique depuis des décennies déjà. Basé
sur une pratique fondamentalement orale et usuellement spontanée, la lecture à
haute voix d’histoires3 propose souvent des versions de celles-ci non pas uniquement
lues, mais également interprétées, voire accompagnées des ambiances musicales4.
Nous avons appris que dans le métier de conteur, par exemple, le texte sert, certes,
comme support initial, mais les réalisations orales s’y éloignent couramment, laissant
la place aux mouvements expressifs du discursif spontané.
Nous avons recueilli pour des études éventuelles un ensemble de 20 textes. Le
choix d’un corpus d’histoires courtes, privées d’une structure dialogique (pour éviter
les passages polyphoniques) a été assez difficile. Les étapes qui ont suivi ont été
similaires à celles pour notre corpus d’étude principal : enregistrement, transcription
phonétique et segmentation du corpus oral, traitements de divers paramètres
prosodiques et constitution des bases des formes expressives dédiées aux
« histoires ». Notons que pour ceci, nous avons appliqué les mêmes outils formels
utilisés pour les analyses des horoscopes, exception faite du découpage en groupes
phrastiques. Si pour les horoscopes celui-ci a été fait d’une manière automatique en
fonction de la DTD typée « horoscope » (et aussi des mots clés décrivant les titres de
sections), pour les histoires, ce découpage a été effectué semi-automatiquement et
ensuite vérifié manuellement. Les frontières de gph ont été détectées en fonction de
3
4
Tout comme celles des livres (souvent classiques) en format audio, retrouvées de plus en plus sur le marché.
Pour une démarche innovante dans le domaine d’écriture d’histoires, citons le projet mené par [FRE’09].
246
quelques critères typographiques (notamment le changement de paragraphe) et de
structure discursive (comme le titre, la morale, ou les références de l’auteur et de
l’ouvrage), mais aussi en fonction de la structure narrative (telle l’exposition,
l’intrigue, le développement, le point culminant, etc.), surtout pour les textes
dépourvus d’une typographie soignée.
Les outils de traitement TTP appliqués sur les données ainsi segmentées ont
permis l’obtention de l’ensemble des instanciations des variables prosodiques
traduisant les observables expressifs. Cependant, dû à sa taille réduite, ce corpus
montre une faible représentativité en matière d’expressif discursif spécifique aux
« histoires ». Par conséquent, une grande variabilité expressive y est présente. Pour
ces raisons, il a été difficile de trouver des traits expressifs récurrents lors des
analyses prosodiques comparatives (cf. chapitre 8), car leurs résultats ont manqué de
relevance.
Une proposition de travail en perspective consisterait donc en l’élargissement du
corpus recueilli initialement. Celle-ci permettra l’extension de la base des formes
expressives des « histoires » et apportera ainsi un surplus de données pour l’étude
des récurrences prosodiques de ces formes. Ces récurrences seront définies, comme
dans le cas des horoscopes, à l’aide des contraintes sur les variables prosodiques. À
leur tour, ces dernières détermineront les signatures expressives formelles des
« histoires » qui traduisent les isotopies et les rythmes expressifs propres à ce genre,
particulièrement riche en mouvements expressifs.
Une fois détectées, les contraintes expressives respectives pourront être affectées
sur une matière nouvelle, à l’aide d’outils de synthèse semblables à ceux présentés
dans le chapitre 9. Pour le scénario d’affectation en présélection d’unités, ceci
présuppose l’existence d’une voix dédiée, donc une taille des données considérable
(d’environ 3h de parole). Par contre, pour l’affectation des contraintes prosodiques
en post-sélection, la plateforme décrite en 9.2 peut faire l’affaire, sans critère de taille
imposé. L’interface de manipulation des variables prosodiques doit, par contre, être
adaptée pour l’affectation de ces nouveaux jeux de contraintes, cf. figure 10.1.
Précisons qu’en l’absence des règles de récurrence prosodique entre plusieurs
histoires, nous pouvons définir plusieurs « profils » prosodiques remplaçant celui
« par défaut », qui conviendraient plus à une histoire ou à une autre.
Enfin, nous pouvons concevoir des scénarios d’analyse et de synthèse similaires
aussi bien pour des textes issus d’autres genres, que pour des élocutions issues
d’autres situations que celle « typique ». Ceci traduit une démarche d’acquisition de
nouvelles formes expressives, hétérogènes selon leur provenance extratextuelle, qu’il
serait souhaitable d’organiser dans des bases expressives adéquates, en fonction des
mêmes critères expressifs (tg, ds, et rp).
247
Figure 10.1 : Exemple d’interface pour l’affectation des contraintes prosodiques pour une histoire
10.4.2 Affinement et adaptation du modèle proposé
Rappelons que l’intérêt de notre démarche était de façonner un modèle suffisamment
général de l’expressivité dans le cadre de la synthèse de parole. Or, si l’intérêt
applicatif pour la considération d’autres genres textuels, situations d’élocution ou
gammes d’idiolectes est grand, les moyens techniques et formels indispensables à
cette mutation expressive ne sont pas toujours immédiats. Il s’avère que quelques
adaptations sont parfois nécessaires. Nous en présentons ici quelques exemples.
Comme évoqué dans le chapitre 8 (cf. 8.2), certaines lectures simulées en élocution
fillette, vieux, aristocrate, bégayée, ou avec divers accents étrangers (rp), etc. révèlent
des traits expressifs signifiants qui ne peuvent pas être traduits en termes de jeux des
variables prosodiques. Souvent, ces traits portent des informations qui se trouvent au
niveau segmental (phonèmes doublés, substitués, modifiés, voire empruntés d’autres
langues, etc.). Or, dans notre modélisation, ce type d’information n’est pas traité, la
syllabe étant l’unité d’interface (et ainsi, d’analyse minimale) pour les représentations
prosodiques. Le cadre-modèle proposé dans ce travail devrait donc être adapté à ces
nouveaux besoins d’expressivité discursive. Une solution pour ceci consiste en
l’introduction d’un niveau d’analyse linguistique supplémentaire, le phonème (phn) :
248
Figure 10.2 : Adaptation du modèle avec une unité d’analyse linguistique supplémentaire (phn)
Notons qu’un ensemble de traitements appropriés à ce niveau segmental doivent
être envisagés en conséquence. Sur le plan formel, ils se traduiraient par les familles
d’opérateurs formels O qui permettraient les transformations5 sur les fde associées au
niveau phn. Ensuite, les opérateurs binaires R pourront opérer sur ces formes locales
dans le but de réaliser leurs comparaisons formelles multidimensionnelles.
Un second exemple d’adaptation du modèle proposé concerne certains aspects
bien particuliers des pratiques écrites. Nous avons mentionné lors de la description
des traitements linguistiques (cf. les pdv du chapitre 2 et les diverses discussions dans
le chapitre 8) possibles sur une matière textuelle donnée, l’importance d’éléments
typographiques (comme par exemple, les guillemets, les polices marquées en gras ou
en italique, etc.) pour certains choix prosodiques locaux. Les ruptures discursives se
réalisent par des changements d’intonation, l’introduction de pauses délimitant les
entités en question, etc. Une solution a été proposée lors de la description du scénario
d’affectation de règles ponctuelles (chapitre 9). À l’extrême, la prise en compte de
tous ces critères pourrait mener à des règles de correspondance police – prosodie,
extrêmement poussées, comme celles présentées dans les travaux de [ROS’98].
Enfin, quelques affinements du modèle proposé nous semblent nécessaires quant
aux structures prosodiques imbriquées décrites par le vecteur <P>. Ils porteront
premièrement sur la dimension <I>, qui volontairement n’a pas été traitée dans ce
travail. Or, nous avons pu remarquer lors de la manipulation de diverses variables
prosodiques (réalisée à l’aide des outils de synthèse par affectation des contraintes
post-sélection d’unités), l’impact de quelques paramètres énergétiques ponctuels sur
le rendu sonore (comme l’augmentation du volume au début de certains gph).
Secondement, les affinements prosodiques s’intéresseront à l’étude de diverses
dépendances ou interdépendances entre les structures F, T et I :
Comme la transformation de la parole normale en parole chuchotée (cf. [VIL’09]), criée, nasalisée, ou à accent
étranger. Aussi bien que, pour reprendre les mêmes exemples : la duplication de certains phonèmes (les plosives)
pour la lecture bégayée, le remplacement de « r » français avec un « r » roulé pour la lecture italienne, etc.
5
249
Figure 10.3 : Adaptation du modèle avec des dépendances entre les structures prosodiques (F, T, I)
Tels que proposées dans notre modèle (dans le chapitre 2), ces trois structures
prosodiques ont été tracées séparément et ainsi, leurs paramètres observés et traités
indépendamment les uns des autres. Cependant, nombreux sont les travaux (partant
de ceux de [ROS’79]) sur la prosodie qui ont montré qu’il y a souvent une dépendance
(voire, une forte dépendance) entre ces paramètres. Pour exemplifier, les montées
énergétiques dans la parole sont souvent associées aux montées fréquentielles, et ces
dernières sont habituellement portées localement par des unités plus allongées, etc.
Si nous voulons garder le cadre formel qui soutient la représentation des variables
prosodiques (cf. chapitre 5), une des solutions envisageables serait la redéfinition des
propriétés des contraintes prosodiques. Ainsi, nous pourrions introduire une relation
d’ordre et des relations ponctuelles de dépendance univoque ou biunivoque entre ces
dernières. Par contre, les choses se compliqueraient vite pour la définition des
signatures expressives, et l’inconvénient majeur serait le besoin de mise en place
d’une solution de résolution de conflits d’affectation [HAK’99] rencontrés lors de ce
type de représentation (voir pour cela, les discussions menées dans la section 5.3.3).
Enfin, nous pouvons imaginer également des solutions d’affinement prosodique
permettant l’adaptation de notre cadre-modèle d’expressivité à une pratique de voix
chantée [BEL’09], [MEU’02], cf. optiques d’ouverture scientifique discutées en [KAN’07].
10.4.3 Affinement d’outils de traitements et d’analyses prosodiques comparées
Sur le plan des outils de traitement prosodique TPP et de correspondances TPP-SDEx
avec la structure de données expressives, nous pourrions envisager une solution
informatique qui optimiserait les divers algorithmes les soutenant, tant en temps
d’exécution, qu’en espace de mémoire. Les libertés que nous nous sommes données
(i.e. plusieurs fichiers séparés pour une seule unité d’analyse) pour représenter les
formes expressives constituant les bases de travail, pourront être ainsi drastiquement
réduites. Dans la même idée, lors de l’exécution des correspondances TPP-SDEx,
nous pouvons envisager une solution de réduction des bases des formes expressives
par la réduction de nouvelles formes, qui s’avèrent redondantes6 avec celles déjà
Cette redondance s’exprime par les degrés d’indiscernabilité prosodique d’unités (cf. 5.4), identiques selon les
autres dimensions. Pour exemplifier, selon cette approche de réduction, il n’est pas nécessaire de préserver dans
la base expressive des horoscopes « typiques », 20 représentants des mêmes signes « balance », « bélier », etc.
6
250
extraites. Ceci faciliterait, certainement, les traitements prosodiques ultérieurs sur les
bases expressives, mais ne pourrait pas se réaliser sans de lourdes comparaisons
effectuées lors de ces correspondances. C’est l’usage ultérieur de ces bases qui
déterminera, en fin de compte, quelle solution de compromis adopter.
Sur le plan des analyses prosodiques comparées, il serait également souhaitable
d’approfondir l’analyse de certaines variables prosodiques, à présent négligées car
trop complexes (comme, par exemple, les mouvements mélodiques des syntagmes
intérieurs aux gph). Pour ceci, nous pouvons envisager un corpus composé d’un
ensemble de textes dérivés d’un texte dit « originel » par divers moyens de variation
paradigmatique, dans l’objectif d’étudier leurs éventuelles prédispositions de
ressemblance prosodique locale. Suivant le principe du « Pipotron » [PIP’06], nous
pouvons mettre en place une plateforme simplifiée de production textuelle d’un
Contotron : en sélectionnant un des textes constituants le corpus d’histoires (« Les
baisers du loup », cf. figure 10.1) et en proposant un ensemble de substitutions
locales. Ces variantes paradigmatiques, sont obtenues à partir du texte original7, en
changeant soit : i) le nombre de syllabes pour un syntagme (comme « Un loup »/« Un
ingénieur »/« Philippe »/« Le directeur du théâtre » ou « Évidemment. »/« Bien
évidemment. »/« C’était plus qu’évident. ») ; soit ii) le nombre des syntagmes dans
une phrase et donc dans un groupe phrastique (comme dans l’exemple « Il choisit la
plus adorable des oies d’un poulailler. »/« Il choisit la plus adorable, la plus blanche
des oies d’un poulailler. »/« Il choisit la plus adorable, la plus blanche, la plus
sensuelle des oies d’un poulailler. », etc.) ; soit iii) le nombre de groupes phrastiques
dans le texte (comme c’est le cas des versions sans la partie finale correspondant à la
conclusion ou/et à la morale : « … mangea l’oie jusqu’à la dernière plume.
Évidemment. Pas étonnant qu’on dise : bête comme une oie. »/« … mangea l’oie
jusqu’à la dernière plume. Évidemment. »/« … mangea l’oie jusqu’à la dernière
plume. » ).
7
Que nous avons fait correspondre à la variante générée par défaut dans le Contotron.
251
Figure 10.4 : Exemple de génération avec Contotron – version par défaut (VO)
Résultantes du jeu superposé des multiples substitutions, délétions, et/ou additions syntagmiques locales, les variantes générées par le Contotron préserveraient la
même structure narrative globale que la version originale du « conte ». La présence
de ce trait commun, ainsi que la connaissance du pattern de modification
paradigmatique faciliteraient la comparaison des variables prosodiques retrouvées
sur les portées analogues et permettraient l’observation des possibles équivalences
de celles-ci. Par conséquent, un nombre de règles de récurrence ou de variabilité
prosodique locale peuvent être extraites pour les groupes phrastiques et le texte.
Enfin, observons dans certaines variantes textuelles générées par le Contotron, une
intention explicite de distorsion8 de signifiance, par rapport au texte initial. Comme
évoqué dans le chapitre 4, cette déformation volontaire de sens est due à une relation
particulière qui s’instaure entre les deux textes (l’hypotexte de l’histoire originale et
l’hypertexte de sa version de « contotron ») qui définira le cadre où s’installera le
régime parodique (cf. chapitre 4, les parodies de contenu).
8
Nous pouvons remarquer ainsi, selon le cas, le rapprochement ou l’éloignement de leurs régimes de signifiance.
252
10.4.4 Affinement d’outils de manipulation formelle (opérateurs de déformation)
En ce qui concerne les procédés de manipulation formelle (comme évoquées dans les
chapitres 3 et 5) des vecteurs prosodiques, il serait souhaitable de s’intéresser plus en
détail aux opérateurs O de déformation des formes discursives expressives. Un
affinement de ceux-ci serait possible ainsi qu’une extension des scénarios d’altération
formelle des variables décrites par les vecteurs prosodiques. Quelques exemples des
plus fréquentes déformations rencontrées dans ce travail sont illustrés ci-dessous.
Elles ont été rassemblées dans des boîtes à opérateurs formels appropriées :
Figure 10.5 : Exemples de boîtes à opérateurs de déformation prosodique
Notons que la mise en application de ces transformations prosodiques peut être
réalisée par l’intermédiaire d’une interface utilisateur dédiée, dont le design restera à
décider. Bien évidemment, celle-ci réclamera lors de son implémentation, l’existence
d’une palette d’algorithmes adéquats pour la réalisation des déformations désirées.
L’intérêt de ces boîtes à opérateurs de déformation prosodique consiste dans le fait
qu’elles peuvent traduire en termes prosodiques des procédés expressifs discursifs,
tels les emphases9 sur les syllabes, les déclinaisons finales des groupes phrastiques,
etc. Chaque procédé expressif sera ainsi relié à un, voire plusieurs opérateurs formels
O. La correspondance entre les deux « mondes » n’étant jamais singulière, cette
démarche se veut proposer une formule parmi celles possibles pour la réalisation
prosodique du procédé discursif en question. Basée sur des observations effectuées
antérieurement, chacune de ces formules traduit, pour le procédé concerné, une
recette des combinaisons formelles d’opérateurs O. Éléments d’alchimie prosodique,
ces combinateurs formels (Cf) décrivent les divers jeux d’opérateurs formels O. Ils
sont formellement équivalents à l’ensemble des contraintes prosodiques. À titre
d’exemple, nous illustrons ici deux scénarios différents de réalisation de l’emphase
syllabique, tels qu’observés dans notre corpus d’horoscopes :
emphase_type1 -> Cf_1 : étirement sur V9 + contour fréquentiel bêta-5 sur V1
emphase_type2 -> Cf_2 : étirement sur V9 + contour fréquentiel alpha-1 sur V1
9
Comme nous avons discuté dans le chapitre 8, plusieurs scénarios sont possibles pour sa réalisation prosodique
253
10.4.5 D’autres pistes et critères de validation des signatures expressives
Vues en tant que déformations prosodiques, les recettes de combinaisons formelles
peuvent être utilisées en post-sélection d’unités comme des consignes prosodiques
pour les algorithmes PSOLA. Dans ce cas, les boîtes d’opérateurs et éventuellement de
divers combinateurs formels seront disposées en complément d’interface pour la
plateforme de validation des signatures expressives, décrite dans le chapitre 9. Elles
définiront des règles prosodiques similaires aux règles ponctuelles évoquées pour les
marqueurs typographiques locaux (gras, italique, guillemets, etc.). Néanmoins ces
recettes formelles peuvent être également utilisées dans la plateforme de validation
placée en présélection d’unités, comme moyens formels alternatifs de spécification de
contraintes expressives sur les variables prosodiques.
Cependant, le cas idéal serait qu’elles puissent être intégrées dans l’étape même de
sélection d’unités. Pour ceci, les affectations des combinateurs formels devraient être
converties, par exemple, en indices de coût globaux. Ces derniers participeront avec
les indices de coût locaux (de concaténation, par exemple) dans la procédure de
sélection d’unités, pour déterminer une solution appropriée [BOI’09]. Notons toutefois
que l’inconvénient de cette démarche est l’apparition de conflits dans le choix
d’unités. Induits par le besoin de prise en compte de ces deux types de coût de
sélection d’ordre prosodique et segmental, ces conflits sont souvent difficiles à gérer.
Surtout qu’en perception, une séquence d’unités acoustiques présentant des
problèmes ponctuels de concaténation segmentale, même si globalement elle arrive à
suivre les contraintes prosodiques désirées, sera souvent défavorisée par rapport à
une séquence sans problèmes de concaténation locale, qui ne suit pas ces contraintes.
Enfin, nous arrivons aux problématiques de validation perceptive des formes
expressives extraites et synthétisées. En engageant l’homme, cette étape ultime
touche à des aspects délicats qui font appel à des processus complexes, comme la
perception et l’interprétation. La parole artéfactuelle est ici soumise à des jugements
d’ordre interprétatif souvent irréductibles (car il se peut qu’une parole appréhendée
comme naturelle et expressive par une personne ne le soit pas pour une autre). Il
serait donc recommandable que les tests perceptifs mettent à la disposition de
l’auditeur des critères d’évaluation expressive qui relèvent des pratiques et des
usages auxquels la parole expressive de synthèse est destinée. Nous avons privilégié
dans le protocole d’évaluation perceptive les caractéristiques prosodiques globales
(telle l’intelligibilité, la fluidité, l’intonation, la vitesse d’élocution ou l’accentuation
dans le discours), mais une perspective à plus long terme serait de mieux exploiter
les dimensions qui définissent l’espace expressif extratextuel pour qu’elles puissent
apporter de nouveaux critères pertinents pour l’exploration et la validation de
diverses signatures des formes discursives expressives.
254
REFERENCES BIBLIOGRAPHIQUES
[ABI’05]
ABITBOL J., L’odyssée de la voix, Robert Laffont, 2005
[ABO’02]
ABOLGASSEMI M., Atelier de théorie littéraire : Visées parodiques, 2002, article apparu
en ligne sur Fabula – la recherche en littérature : http://www.fabula.org
[ABO’07]
ABOLGASSEMI M., Atelier de théorie littéraire : Pratiques hypertextuelles, 2007, article
apparu en ligne sur Fabula – la recherche en littérature : http://www.fabula.org
[ACH’06]
ACHI A., A. B. BRAHIM & ALII, Petits Chaperons dans le rouge, direction de P. Jourde, éd.
L’Archange Minotaure, 2006
[ALL’98]
ALLEN J., Natural Language Understanding, Benjamins Cummings, 1998
[AOU’06]
AOULADOMAR F., A semantic Analysis of Instructional texts. IWCS06, Tilburg, 2006
[ARI’91]
ARISTOTE, La Rhétorique, Librairie Générale Française, 1991
[ARM’85]
ARMENGAUD F., La Pragmatique, coll. Que sais-je ?, PUF, 1985
[AST’97]
ASTESANO C., R. ESPESSER, D. HIRST & J. LISTERRI, Stylisation automatique de la
fréquence fondamentale : une évaluation multilingue, Actes du 4ième Congrès Français
d’Acoustique, Marseille, 1997
[AUB’02]
AUBERGE V., Prosodie et émotion, publication en ligne disponible sur : http://sis.univtln.fr/gdri3/fichiers/assises2002/papers/15-Prosodie Et Emotion.pdf, 2002
[AUD’08]
AUDIBERT N., Prosodie de la parole expressive : dimensionnalité d’énoncés méthodologiquement contrôlés authentiques et actés, Thèse de doctorat, I.P. Grenoble, 2008
[BAC’02]
BACHIMONT B., Dossier patient et lecture hypertextuelle. Problématique et discussion,
Les cahiers du numérique, vol.2, 2002
[BAK’78]
BAKHINE M., Esthétique et théorie du roman, Paris, Gallimard, 1978
[BAK’84]
BAKHINE M., Esthétique de la création verbale, Paris, Gallimard, 1984
[BAL’05]
BALLY CH., Traité de stylistique française, Heildelberg-Paris, 1905
[BAN’04]
BANZIGER T., Communication vocale des émotions. Perception de l’expression vocale et
attributs émotionnelles, Université de Genève, 2004
[BAR’72]
BARTHES R., Le degré zéro de l’écriture, Paris, Seuil, 1972
[BEC’05]
BECKMAN M. E., J. HIRSCHBERG & S. SHATTUCK-HUFNAGEL, The original ToBI system
and the evolution of the ToBI framework, in S. A. Jun (eds), Prosodic Typology: The
Phonology of Intonation and Phrasing, Oxford University Press, 2005
[BEL’09]
BELLER G., Analyse et modèle génératif de l’expressivité, Application à la parole et à l’interprétation musicale, Thèse de doctorat, Université Paris VI - Pierre et Marie Curie, 2009
[BER’05]
BERSTEL J., D. BEAUQUIER, Structures de données, Éléments d’algorithmique, disponible
en ligne à : http://www-igm.univ-mlv.fr/~berstel/Elements/EAChap3.pdf, 2005
[BIB’88]
BIBER, D., Variation across speech and writing, Cambridge University Press, 1988
[BIB’93]
BIBER D., Representativeness in corpus design, Literary and Linguistic Computing, 1993
255
[BLA’03]
BLACK A., W., Unit selection and emotional speech, Eurospeech, 2003
[BLI’10]
BLIZZARD CHALLENGE, 2010, disponible à l’adresse : http://festvox.org/blizzard/
[BOE’02]
BOEFFARD, O., Synthèse de la parole. Analyse, synthèse et codage de la parole, Hermes
Lavoisier, 2002
[BOI’00]
BOITE R., H. BOURLARD, TH. DUTOIT & ALII, Traitement de la parole, Presses Polytechniques et Universitaires Romandes, Lausanne, 2000
[BOI’09]
BOIDIN C., Modélisation statistique de l’intonation de la parole expressive, Thèse de doctorat
Université Rennes 1, 2009
[BON’05]
BONASTRE J.-F., L’authentification biométrique vocale, Université d’Avignon, 2005, disponible à : http://pari-stic.labri.fr/TUTORIAL/tutorial_BIO_3_PARISTIC_05.pdf
[BOU’04]
BOUZON C., Rythme et structuration prosodique en anglais britannique contemporain, Thèse
de doctorat, Université Aix-Marseille I, 2004
[BOU’82]
BOURDIEU P., Ce que parler veut dire, Fayard, Paris, 1982
[BRA’05]
BRALÉ V., V. MAFFIOLO, I. KANELLOS &T. MOUDENC, Towards an Expressive Typology
in Storytelling: A Perceptive Approach, Proceedings of ACII 2005, First International
Conference in Affective Computing and Intelligent Interaction, Beijing, 2005
[BRE’06]
BRESTOIS (LE), Journal, Brest, 2006
[BUC’93]
BUCKINGHAM D., Sorting out TV: Categorization and Genre, Children Talking Television:
The Making of Television Literacy, Falmer Press, London, 1993
[BUL’02]
BULUT M., S. SHRIKANTH & ALII, Expressive speech synthesis using a concatenative
synthesizer, ICSLP, ATT Labs-Research, Florham Park, NJ, 2002
[CAE’08]
CAELEN- HAUMONT G., Prosodie et sens : une approche expérimentale, L’Harmattan, 2008
[CAE’81]
CAELEN G., Structures prosodiques de la phrase énonciative simple et étendue, Hamburg
Buske, 1998
[CAL’04]
CALVET L.-J., Essais de linguistique. La langue est-elle une invention des linguistes ?, 2004
[CAM’00]
CAMPIONE E., D. HIRST D. & J. VERONIS , Automatic stylisation and symbolic coding of
F0 : implementation of the INTSINT model, in ed. Botinis, Intonation, Research and
Application, Kluwer, Dordrecht, 2000
[CAM’01]
CAMPIONE E., Étiquetage semi-automatique de la prosodie dans les corpus oraux : algorithmes
et méthodologies, Thèse de doctorat, Université Aix-Marseille I, 2001
[CAN’06]
CANDITO M., Syntagmes et structure syntagmatique, Linguistique française : syntaxe,
disponible à : http://www.linguist.univ-paris-diderot.fr/ ~mcandito/Ens/LG2113/
[CAR’89]
CARON J., Précis de psycholinguistique, PUF, 1989
[CAR’97]
CARREIRA M. H. A., Modalisation linguistique en situation d'interlocution : proxémique
verbale et modalités en portugais, éditions Peeters Louvain-Paris, 1997
[CHA’97]
CHANDLER D., An Introduction to Genre Theory, disponible en ligne à l’adresse :
http://www.aber.ac.uk/media/Documents/intgenre/intgenre.html, visité le 7 mai 2007
[CIC’59]
CICERO, L’orateur, livre XXI, traduction de Nisard, J.-M., Paris, 1859
[COR’08]
CORDIAL, logiciel, Correcteur de l’orthographe et de la grammaire, version 2008,
développé et distribué par Synapse Développement : http://www.synapse-fr.com/
256
[COR’91]
CORNER J., Meaning, genre and context: the problematics of public knowledge in the
new audience studies, Mass Media and Society, éd. Curran & G, London E. A., 1991
[CRU’86]
CRUTTENDEN A., Intonation, Cambridge University Press, 1986
[DEL’06]
DELAIS-ROUSSARIE E., B. POST, C. PORTES, Annotation prosodique et typologie, TIPA’06
Travaux Interdisciplinaires du Laboratoire Parole et Langage d’Aix-en Provence, n°25, 2006
[DEL’08]
DELPECH E. & P. SAINT-DIZIER, Investigating the structure of procedural texts:
identification of titles and instructions, JADT’08 : 9èmes Journées internationales d’Analyse
statistique des Données Textuelles, 2008
[DEL’66]
DELATTRE P., Les dix intonations de base en français, French Review, vol. 40, n° 1, 1966
[DEL’84]
DELL F., L’accentuation dans les phrases en français, Hirst & Vergnaud, Forme sonore
du langage, Paris, Hermann, 1984
[DEL’96]
DELAIS-ROUSSARIE E., Phonological Phrasing and Accentuation in French, in HIL
Phonology Paper II, Nespor & Smith (eds), Holland Academic Graphics, La Haye, 1996
[DES’99]
DESESQUELLES A., L’expression musicale, Publications Universitaires Européennes, 1999
[DEV’03]
DEVILLERS L., I. VASILESCU & C. MATHON, Prosodic cues for perceptual emotion detection in task-oriented human-human corpus, ICPhS, 2003
[DFT’00]
DOCUMENT DE TRAVAIL INTERNE, France Télécom, L’alphabet phonémique FTR&D, 2000
[DFT’80]
DOCUMENT DE TRAVAIL INTERNE, France Télécom, Règles de syllabification, 1980
[DMO’95]
MONTAIGNE (DE) M., Les Essais, 1595, éd. Villey-Saulnier, Université de Chicago,
disponible en ligne à : http://www.lib.uchicago.edu/efts/ARTFL/projects/montaigne/
[DOD’01]
DODANE C., G. KONOPCZYNSKI, Utilisation des technologies multimédias dans la
correction prosodique de l’adulte (L2), École doctorale Européenne, 2001
[DUB’91]
DUBOIS J., M. GIACOMO & ALII, Dictionnaire de linguistique, Larousse, 1991
[DUC’80]
DUCROT O. & ALII, Les mots du discours, Paris Minuit, 1980
[DUT’09]
DUTEIL-MOUGEL C., La sémantique textuelle. Méthodologie et exemples d’analyse, 2009
[ECO’03]
ECO U., Come si fa una tesi di laurea, éd. Tascabili Bompiani, 2003
[ECO’85]
ECO U., Lector in fabula - Le rôle du lecteur, Grasset, 1985
[EME’77]
EMERARD F., Synthèse par diphones et traitement de la prosodie, Thèse de troisième cycle,
Université de Grenoble III, 1977
[ERM’02]
ERMIS, Emotionally Rich Man-machine Intelligent System, projet de recherche, 2002,
page de description principale : http://www.image.ntua.gr/ermis/
[EVE’08]
EVENE, ressource disponible à l’adresse www.evene.fr, consultée le 10 mars 2008
[EXP’07]
EXPRESSIVE, projet de recherche portant sur un Système automatique de diffusion vocale
d’informations dédicacées: synthèse de la parole expressive à partir des textes balisés, comme
décrit en http://recherche-technologie.wallonie.be/projets/index.html?IDD=8435, 2007
[FAC’00]
FACKRELL J., H. VEREECKEN, J. P. MARTENS & ALLI, The variation of prosody with text
type, IEEE Seminar on State of the Art in Speech Synthesis, London, 2000
[FEU’92]
FEUER J., Genre study and television, In Robert C Allen (Ed.): Channels of Discourse,
Reassembled: Television and Contemporary Criticism, London, 1992
257
[FIA’01]
FIANDINO C., Perception et expression du doute dans la parole, Quatrièmes Rencontres
Jeunes Chercheurs en Parole, Mons, 2001
[FIS’87]
FISKE J., Intertextuality, Television culture, Routledge, London, 1987
[FON’01]
FONTANILLE J., Post-face : oral et écrit, inclusions et modélisations réciproques, L’oral
dans l’écrit, Colloques d’Albi, 2001
[FON’83]
FONAGY I., La vive voix. Essais de psycho-phonétique, Paris, éditions Payot, 1983
[FON’87]
FONAGY I., Vocal expression of emotions and attitudes, Quaterni di studi semiotica, 1987
[FOW’89]
FOWLER A., Genre, International Encyclopedia of Communications, vol. 2, New York
Oxford University Press, éd. Barnouw, 1989
[FRE’94]
FREEDMAN A., P. MEDWAY, Genre and the New Rhetoric, Taylor & Francis, London, 1994
[FRE’09]
FREGER L., Le projet Nina, 2009, disponible sur : http://leprojetnina.canalblog.com/
[FUR’93]
FOURET Y., S. PELTANT, La rhétorique, Savoir parler en toutes circonstances, éd. Retz, 1993
[GEN’82]
GENETTE G., Palimpsestes, Le Seuil, coll. « Poétique », 1982
[GOL’95]
GOLDSTEIN M, Classification of methods used for assessment of TTS systems according
to the demands placed on the listener, Speech Communication, vol. 16, issue 3, 1995
[GOL’07]
GOLDMAN J.-PH., A. AUCHLIN, Phonostylographe : un outil de description prosodique.
Comparaison du style radiophonique et lu, Cahiers de Linguistique Française, n°28, 2007
[GOO’93]
GOODY J., Entre oralité et écriture, PUF, 1993
[GRA’01]
GRABE E., B. POST & F. NOLAN, Modelling intonational variation in English: The IViE
system, in Puppel & Demenko, Prosody 2000, Adam Mickiewicz University, 2001
[GRO’02]
GROBET A., A.C. SIMON, Différents critères de définition des unités prosodiques
maximales, Cahiers de linguistique française, n°23, 2002
[GRO’97]
GROBET A., La ponctuation prosodique dans les dimensions périodique et informationnelle du discours, Cahiers de linguistique française, n°19, 1997
[GUA’91]
GUAÏTELLA I., Rythme et parole : comparaison critique du rythme de la lecture oralisée et de la
parole spontanée, Thèse de doctorat, Université de Provence, 1991
[GUI’07]
GUIMIER E. & S. FESSARD, Évaluation d’un système de transcription de SMS, Actes de
Lexis and Grammar Conference’07, Bonifacio, France, 2007
[JAK’63]
JAKOBSON R., Phonologie, Essais de linguistique générale, éd. Minuit, 1963
[JAU’05]
JAUBERT A., Cohésion et cohérence. Études de linguistique textuelle, Langages éd. ENS, 2005
[JIA’08]
JIA H., J. TAO & X. WANG, Prosody Variation: Application to Automatic Prosody Evaluation of Mandarin Speech, Speech Prosody, Campinas, 2008
[JOB’05]
JOBARD C., Ma cuisine pour les amis, éd. Larousse, Paris, 2005
[HAK’99]
HAKULINEN J., M. TURUNEN, K.-J., RAIHA, The use of prosodic features to help users
extract information from structured elements in spoken dialogue systems, Proceedings
of the ESCA Workshop on Dialogue and Prosody, Veldhoven, 1999
[HIR’00]
HIRST D.J., A. DI CRISTO & R. ESPESSER, Levels of representation and levels of analysis
for the description of intonation systems, Prosody: Theory and experiment, Kluwer, 2000
[HIR’03]
HIRST D.J., Phonetic and phonological representations of speech prosody, Beijing, 2003
258
[HIR’98]
HIRST D.J. & A. DI CRISTO, A survey of intonation systems, Intonation Systems: A Survey
of Twenty Languages, Cambridge University Press, 1998
[HOU’98]
HOUDE O., D. KAYSER & ALII, Oral, Vocabulaire des sciences cognitives, PUF, 1998
[HUM’10]
HUMAINE, Association, 2010, informations disponibles à : http://emotion-research.net/
[KAN’00]
KANELLOS I., Indexation et recherche d’information imagée par le contenu : catégories
d’images dans le projet SemIndex, CIDE’2000 : Actes du Colloque International sur le
Document Électronique, Université de Lyon III, 2000
[KAN’00b]
KANELLOS I., T. THLIVITIS, Indexation anthropocentrée d’images au moyen de textes.
Arguments théoriques et directions applicatives du SemIndex, Incognito, n° 17, 2000
[KAN’05]
KANELLOS I., I. SUCIU & T. MOUDENC, Le concept de genre comme point de départ
pour une modélisation sémantique du document électronique, CIDE.8 : Actes du 8ème
colloque international sur le document électronique: Le Multilinguisme, Europia, Paris, 2005
[KAN’07]
KANELLOS I., I. SUCIU & T. MOUDENC, Expressive text-to-speech approaches. Productive homologies and irreducible discrepancies between natural and singing voice
synthesis modelling. SMC'07: Sound and Music Computing Conference, Greece, 2007
[KAN’08]
KANELLOS I., I. SUCIU & T. MOUDENC, La reconstitution du pathos en synthèse vocale,
Émotions et discours, L'usage des passions dans la langue, éd. M. Rinn, PUR, 2008
[KEL’02]
KELLER E., Improvements in Speech Synthesis, Univ.of Lausanne, J. Wiley & Sons, 2002
[KEL’02b]
KELLER ZELLNER B., E. KELLER, Representing Speech Rhythm, Improvements in Speech
Synthesis. COST 258: The Naturalness of Synthetic Speech, Wiley & Sons, 2002
[KRA’95]
KRAFT V., PORTELE T., Quality Evaluation of Five German Speech Synthesis Systems,
Acta Acusticae, vol. 3, 1995
[KRE’88]
KRESS G., Communication and Culture: An Introduction. Kensington, New South Wales
University Press, 1988
[LAC’00]
LACHERET-DUJOUR A., Prosodie : niveaux d’analyse et problèmes de représentation, La
parole, Hermes, 2000
[LAC’99]
LACHERET-DUJOUR A., B. BEAUGENDRE, La prosodie du français, Paris, éd. CNRS, 1999
[LAD’84]
LADD D. R., Declination: a review and some hypothesis, in Ewen C.J. & Anderson J.M.
(éds), Phonology Yearbook, vol. 1, London, CUP, 1984
[LAF’93]
LAFONT R., Il y a quelqu’un. La parole et le corps, Praxiling, 1993
[LAU’08]
LAUNAY J., L. SEGALEN & ALII, Speech expressiveness : Modeling and implementing
the expressive impact of typographic and ponctuation marks for textual inputs.
ICTTA’08 : 3rd International Conference in Information and Communication Technologies :
From Theory to Applications, Damascus, Syria, 2008
[LAU’10]
LAURENT M., BRETIER PH., MPOWERS: A Multi Points of VieW Evaluation Refine
Studio, Proceedings of SIGDIAL 2010 Conference, Tokyo, 2010
[LEM’99]
LEMMETTY S., Speech Quality and Evaluation, Review of speech synthesis technology,
these de master, Helsinki University of Technology, 1999, disponible à l’adresse :
http://www.acoustics.hut.fi/publications/files/theses/lemmetty_mst/chap10.html
[LEO’93]
LEON P., Précis de phonostylistique. Parole et expressivité, Paris, Nathan Université, 1993
259
[LID’03]
LIDA A., N. CAMPBELL, F. HIGUCHI & ALLI, A corpus-based speech synthesis with
emotion, Speech Communication, vol. 40, 2003
[LIN’08]
L’INTERNAUTE, ressource disponible à : http://www.linternaute.com/femmes/cuisine et
consultée le 19 avril 2008
[LIV’94]
LIVINGSTONE S., The rise and fall of audience research: an old story with a new ending.
In Mark R Levy & Michael Gurevitch (Eds.) Defining Media Studies: Reflections on the
Future of the Field. New York: Oxford University Press, 1994
[LON’02]
LONCHAMP F., Prévoir l’intonation d’une phrase française, 2002, ressource disponible
en ligne à : http://francois.lonchamp.free.fr/Linguistique/ et consultée le 23 mai 2009
[LOQ’09]
LOQUENDO, Vocal Technology and Services, page principale : www.loquendo.com, visité
le 10 septembre 2009
[LUN’99]
LUNDH F., An Introduction to Tkinter, 1999, consulté courant septembre-octobre 2008,
disponible sur : http://www.pythonware.com/library/tkinter/introduction/
[MAE’04]
MAEKAWA K., Production and Perception of Paralinguistic Information, Speech Prosody
Nara, Japan, 2004
[MAI’04]
MAINGUENEAU D., Discours littéraire, A. Colin, 2004
[MAI’08]
MAILLARD A., Résumé parcours : http://www.theatredugrain.com/qui.php?id=1, 2008
[MAL’04]
MALRIEUX D., Linguistique de corpus, genres textuels, temps et personnes, Langages
n°153, Larousse, Paris, 2004
[MAR’00]
MARUMOTO T., N., CAMPBELL, Control of speaking types for emotion in a speech resequencing system, Proceedings of the Acoustic Society of Japan, Spring Meeting, 2000
[MAR’77]
MARTIN PH., Questions de phonosyntaxe et phonosémantique en français, Linguistical
Investigations, 1977
[MAR’87]
MARTIN PH., Prosodic and Rhythmic Structures in French, Linguistics, 1987
[MAR’10]
MARY TTS, Modular Architecture for Research on speech sYnthesis, Text-to-Speech
System, 2010, decrit à l’adresse :http://mary.dfki.de/
[MAU’03]
MAUREL F., J. LEMARIE & N. VIGOUROUX, Oralisation de structures visuelles : de la
lexico-syntaxe à la prosodie, Interface Prosodique 2003, éd. Mettouchi & Ferré, 2003
[MED’08]
MEDIADICO, ressource consultée en novembre 2008, et disponible en ligne à l’adresse :
http://www.mediadico.com/dictionnaire/synonymes/mot/1
[MER’03]
MERTENS P., A. AUCHLIN & J-PH. GOLDMAN, Intonation du discours et synthèse de la
parole : premier résultats d’une approche par balises, Interface Prosodique 2003, éd.
Mettouchi & Ferré, 2003
[MER’04]
MERTENS P., Le prosogramme : une transcription semi-automatique de la prosodie,
Cahiers de l’Institut de Linguistique de Louvain, n°30, 2004
[MER’87]
MERTENS P., L’intonation du français. De la description linguistique à la reconnaissance
informatique, Doctorale dissertatie, KULeuven, 1987
[MEU’02]
MEUDIC B., TRAM - outil générique d’analyse formelle appliqué à la musique, Médiathèque
IRCAM, Institut de Recherche et Coordination Acoustique/Musique, Paris, 2002
[MON’02]
MONAGHAN A. I. C., Prosody in Synthetic Speech: Problems, Solutions and Challenges
Improvements in Speech Synthesis.The Naturalness of Synthetic Speech, Wiley & Sons, 2002
260
[MON’95]
MONAGHAN A. I. C., Syntax-free Speech Generation, Proceedings of CSNLP, Dublin City
University, 1995
[MOR’03]
MORANGE S., Rythmicité de l’identité vocale. Etude de quelques variations temporelles inter- et intra-individuelles. Actes du colloque Interfaces Prosodiques, éd. Mettouchi
A. & Ferré G., Université de Nantes, 2003
[MOR’05]
MORANGE S., Approches structurale, prosodique, psycho-cognitive de quelques propriétés
linguistiques subjectives de la parole : l’exemple de trois Montmartrois âgés, thèse de
doctorat, Université de Paris III, 2005
[MOR’90]
MORIN E., Introduction à la pensée complexe, Le Seuil, 1990
[MOR’92]
MOREL M.-A., L’opposition thème/rhème dans la structuration des dialogues oraux,
Journal of French Languages Studies, vol.2, Cambridge University Press, 1992
[MOR’98]
MOREL M.-A., L. DANON-BOILEAU, Grammaire de l’intonation, L’exemple du français oral,
Bibliothèque des Faits de Langues, éd. Ophrys, 1998
[MOZ’98]
MOZZICONACCI S. L., J., Speech Variability and Emotion: Production and Perception, PhD
Thesis, Technical University Eindhoven, 1998
[MYR’05]
MYRIAD, Melody Assistant, disponible : www.myriad-online.com, visité le 5 août 2005
[NAR’02]
NARUSAWA S., N. MINEMATSU & ALLI, A method for automatic extraction of model
parameters from fundamental frequency contours of speech, Proceedings of ICASSP’02
IEEE International Conference on Acoustics, Speech and Signal Processing, 2002
[NEC’00]
NECA, projet sur Multi-modal communication with animated synthetic personalities, 2000,
décrit à l’adresse : http://www.ofai.at/research/nlu/NECA/project/project.html
[NES’08]
NESTERENKO I., S. RAUZY, Utilisation des grammaires probabilistes dans les tâches de
segmentation et d’annotation prosodique, JEP’08, Journées D’Etudes sur la Parole, 2008
[OBI’08]
OBIN N., X. RODET & A. LACHERET-DUJOUR, Un modèle de durée des syllabes fondé sur
leurs propriétés intrinsèques et les variations locales de débit, JEP’08 : Journées d’étude
de la parole, Avignon, 2008
[OPP’05]
OPPY G. & D. DOWE, The Turing Test, Standford Encyclopedia of Philosophie, (publication
disponible en ligne sur : http://plato.stanford.edu/ entries/turing-test), visité en 2005
[OUD’03]
OUDEYER P.-Y., The production and recognition of emotions in speech: features and
algorithms, International Journal of Human-Computer Studies, n° 59, 2003
[PAM’89]
PAMELARS P.-L. & R. GUILBERT, Code typographique, 16ième édition, Fédération C.G.C. de la
Communication, 1989
[PEE’01]
PEETERS G., Modèle et modélisation du signal sonore adapté à ses caractéristiques locales,
thèse de doctorat, Université de Paris VI, 2001
[PER’98]
PÉRY-WOODLEY M.P., Signaling in written text: a corpus-based approach, COLING 98
Workshop on Discourse Relations and Discourse Markers, éd. Stede, Wanner & Hovy,
ACL, Montreal, 1998
[PIE’80]
PIERREHUMBERT J., The Phonology and Phonetics of English Intonation, Ph.D. dissertation,
MIT, 1980
[PIP’06]
PIPOTRON (LE), disponible à : http://www.domisse.fr/fun/management/pipotron.html,
consulté le 10 juin 2006
261
[POD’07]
PODSIADLO M., Large Scale Speech Synthesis Evaluation, 2007, disponible en ligne à
l’adresse : http://hdl.handle.net/1842/1943
[POP’06]
POPESCU A., C. BOIDIN, D. CADIC, Contraintes globales pour la sélection des unités en
synthèse vocale, JEP’06, Journée d’Études de la parole, 2006
[POR’02]
PORTES C., Approche instrumentale et cognitive de la prosodie du discours en
français, Travaux interdisciplinaires du Laboratoire Parole et Langage D’Aix-en-Provence,
n°21, éd. Université de Provence, 2002
[POR’08]
PORTES C., Pluripros : Représentation prosodique pluri-linéaire pour l’interprétation
du discours oral, Journée RHAPSODIE, Aix en Provence, 2008, ressource disponible à :
http://rhapsodie.risc.cnrs.fr/docs/27nov08_Portes.pdf, consulté le 3 décembre 2008
[POS’00]
POST B., Tonal and phrasal structures in French intonation, The Hague, Holland Academic
graphics, 2000
[PRO’05]
PROSODIE, Groupe de recherche interdisciplinaire, Université de Genève, informations
sur la page principale : http://www.latl.unige.ch/prosodie, visité le 15 mai 2005
[PYT’07]
PYTHON, Python Programming Language, disponible à: http://www.python.org, 2007
[RAS’01]
RASTIER F., Arts et sciences du texte, PUF, 2001
[RAS’06]
RASTIER F., Eléments de théorie des genres, Revue Texto, ressource disponible en ligne
à : http://www.revue-texto.net/index.php?id=555, consulté le 16 octobre 2006
[RAS’81]
RASTIER F., J. COURTES, Le développement du concept d’isotopie, Paris EHESS-CNRS, 1981
[RAS’99]
RASTIER F., Dalla significazione al senzo : per una semiotica senza ontologia, Eloquio
del senso , Costa & Nolan ,1999
[ROB’06]
ROBIN G., Parcours, http://christophe.pluchon.perso.neuf.fr/genevieverobin.htm, 2006
[ROD’06]
RODERO E., Analysis of intonation in news presentation on television, ISCA’06:
International Speech Communication Association: Tutorial and Research Workshop on
Experimental Linguistics, Athens, Greece, 2006
[ROS’72]
ROSSI M., Le seuil de glissando ou le seuil de perception des variations tonales pour
les sons de la parole, Acta Universitatis Carolina Philologica, n°1, 1972
[ROS’79]
ROSSI M., Les configurations et l’interaction des pentes de F0 et de I, Travaux de
l’Institut de phonétique D’Aix en Provence, n°8, 1979
[ROS’87]
ROSSI M., Peut-on prédire l’organisation prosodique du langage spontané, Études de
Linguistique Appliquée, n°66, 1987
[ROS’98]
ROSENBERG T., Prosodic Font: Between the Spoken and the Written. MIT Massachusetts
Institute of Technology: MAS Thesis, 1998
[ROS’99]
ROSSI M., L’intonation, le système du français : description et modélisation, Ophrys, 1999
[ROY’98]
ROY P., Satisfaction de contraintes et programmation par objets, Thèse de doctorat,
Université Paris VI, 1998
[RTL’10]
RTL RADIO, Astro, ressource disponible à : http://astro.rtl.fr/, consultée le 2 février 2010
[SAI’73]
SAINT-PIERRE FARINA Y., L’expressivité : un essai de définition, Meta : Journal des
traducteurs / Meta : Translator’s Journal, vol. 18, n° 3, 1973.
[SAU’00]
SAUVANET P., Le rythme et la raison - Rythmologiques, vol 1, éd. Kimé, 2000
262
[SAU’94]
SAUSSURE (DE) F., Cours de linguistique générale, Payot Paris, 1994 (4ème éd. 1916)
[SCH’01]
SCHRÖDER M., Emotional Speech Synthesis: A Review, EUROSPEECH’01, 7th European
Conference on Speech Communication and Technology, Danemark, 2001
[SCH’01b]
SCHRÖDER M., R. COWIE & ALLI, Acoustic Correlates of Emotion Dimensions in View of
Speech Synthesis, Proceedings of Eurospeech, Aalborg, vol. 1, 2001
[SCH’89]
SCHERER K., Les émotions : fonctions et composantes, Les émotions, Neuchâtel, Niestlé
& Delachaux, éditions Rimé & Scherer, 1989
[SEA’75]
SEARLE J. R., A toxinomy of illocutory acts. Language, Mind and Knowledge, University
of Minnesota, USA, 1975
[SEG’08]
SEGALEN L., D. CADIC, Introduction d’éléments paralinguistiques en synthèse vocale,
JEP’08, Journée d’Études de la parole, 2008
[SHA’05]
SHAFRAN I., M. MOHRI, A Comparison of classifiers for detecting emotion from speech,
IEEE Center for langage and Speech Processing, 2005
[SHU’93]
Les industries de la langue, Sciences Humaines, n°24, 1993
[SIM’07]
SIMON A.-C., Guide méthodologique, Transcription outillée-prosodies, École Thématique du
CNRS, Constitution, Traitement et Analyse de Corpus d’Interactions, Lyon, 2007
[SUC’06]
SUCIU I., I. KANELLOS & T. MOUDENC, What about the text? Modelling global expressiveness in speech synthesis, ICCTA'06: IEEE International Conference on Information and
Communication Technologies: from Theory to Applications, Damascus, Syria, 2006
[SUC’06b]
SUCIU I., I. KANELLOS & T. MOUDENC, Formal expressive indiscernibility underlying a
prosodic deformation model. ISCA’06: International Speech Communication Association:
Tutorial and Research Workshop on Experimental Linguistics, Athens, Greece, 2006
[SUC’07]
SUCIU I., I. KANELLOS & T. MOUDENC, Expressivité et synthèse vocale. Isotopies expressives, cohérence discursive et structures prosodiques, Nouveaux Cahiers de Linguistique
Française, n° spécial « Interfaces Discours-Prosodie », vol. 28, 2007
[SUC’07b]
SUCIU I., I. KANELLOS & T. MOUDENC, Prosody of expressive speech: bringing to light
some discursive situation influences. ACII 2007: 2nd International Conference on Affective
Computing and Intelligent Interfaces Conference, Lisbon, Portugal, 2007
[SWA’90]
SWALLES J. M., Genre Analysis. Cambridge University Press, 1990
[SYR’08]
SYRDAL A. K., Y.-J. KIM, Dialog speech acts and prosody: Considerations for TTS, 4th
International Conference on Speech Prosody, Campinas, Bresil, 2008
[THE’06]
THEUNE M., K. MEIJS, D. HEYLEN & R. ORDELMAN, Generating Expressive Speech for
Storytelling Applications, IEEE Transactions on Audio, Speech and Language Processing,
vol. 14, n° 4, 2006
[TRA’08]
TRANSCRIBER, 2008, disponible à : http://trans.sourceforge.net/en/presentation.php
[TSU’04]
TSUZUKI R., H., ZEN & ALLI, Constructing emotional speech synthesizers with limited
speech database, ICSLP’04, International Conference on Spoken Language Processing,
Nagoya Institute of Technology, 2004
[TUR’50]
TURING A. M., Computing machinery and intelligence, Mind, vol. 59, 1950
[UML’08]
UML, Unified Modeling Language, disponible en ligne à : http://www.uml.org/, et
consulté le 4 février 2008
263
[VAI’02]
VAISSIÈRE J., Cross-linguistic prosodic transcription, in Volskaja, Skrelin & Svetozarova
Problems and methods in experimental phonetics, St. Petersburg State University, 2002
[VAI’02b]
VAISSIERE J., Sur les universaux de substance prosodiques, Les universaux sonores, PUR,
éd. S. Wauquier, Actes de la conférence Sound Universals, Nantes, 2002
[VAI’75]
VAISSIERE J., On French Prosody, MIT Quarterly Progress Report, 1975
[VIL’09]
VILLAVICENCIO F., A. ROBEL, X. RODET, Applying improved spectral modeling for High
Quality voice conversion, IEEE ICASSP’09 International Conference on Acoustics, Speech
and Signal Processing, 2009
[VIN’05]
VINCENT D., O. ROSEC & TH. CHONAVEL, Estimation of LF glottal source parameters
based on ARX model, Interspeech, 2005
[VIO’00]
VION M., A. COLAS, Mode de recueil et outils d’analyse d’un corpus de parole spontanée étudié d’un point de vue psycholinguistique, TIPA’00, Travaux Interdisciplinaires
Parole et Langage, n°19, 2000
[VIV’08]
VIVOS, 2008, présentation du projet disponible à : http://www.vivos.fr/actualite.php
[WER’94]
WERNER S. & E. KELLER, Prosodic aspects of speech, en Fundamentals in Speech Synthesis
and Speech Recognition, J. Wiley & Sons, 1994
[WOL’97]
WOLFF F., La parole-monde et la déontologie de la parole individuelle, Dire le monde,
Presses Universitaires de France, 1997
[W3C’04]
W3C, Speech Synthesis Markup Language (SSML v.1.0), Prosody and Style, ressource
disponible en ligne à : http://www.w3.org/TR/speech-synthesis/#S3.2, publiée en 2004
[YAE’02]
YAEGER-DROR M., Register and prosodic variation, a cross language comparison,
Journal of Pragmatics, vol. 34, issues 10-11, 2002
[YE’04]
YE H., S. YOUNG, High quality voice morphing, ICCASP’04, International Conference on
Acoustics, Speech and Signal Processing, 2004
[ZAL’95]
ZALDIVAR-CARRILO V.-H., Contributions à la formalisation de la notion de contexte : le
concept de théorie dans la représentation des connaissances, Thèse de doctorat, Université
de Montpellier II, 1995
[ZEL’04]
ZELLNER B., The chaotic nature of speech rhythm, Integrating Speech Technology in
Language Learning, Swets & Zeitlinger, 2004
[ZEL’94]
ZELLNER B., Pauses and temporal structure of speech, Fundamentals in Speech Synthesis
and Speech Recognition, J. Wiley & Sons, 1994
[ZEL’96]
ZELLNER B., Structures temporelles et structures prosodiques en français lu, Revue
Française de Linguistique Appliquée, n°1, 1996
[ZEL’98]
ZELLNER B., Fast and slow speech rate: a characterization for French, Proceedings of the
Vth International Conf. on Spoken Language Processing (ICSLP’95), vol. 7, Sydney, 1998.
264
LISTE DE PUBLICATIONS
Article de revue avec comité de lecture :
[SUC’07]
SUCIU I., KANELLOS I. & MOUDENC T., Expressivité et synthèse vocale. Isotopies
expressives, cohérence discursive et structures prosodiques, Dans Nouveaux Cahiers de
Linguistique Française, N° spécial « Interfaces Discours-Prosodie », 2007, vol. 28, pp. 199
Chapitre de livre avec comité de lecture :
[KAN’08]
KANELLOS I., SUCIU I. & MOUDENC T., La reconstitution du pathos en synthèse vocale,
Dans Émotions et discours, L'usage des passions dans la langue, éd. Michael RINN, Presses
universitaires de Rennes, 2008, pp. 321-337
Communications dans une conférence avec comité de lecture :
[SUC’10]
SUCIU I., Prosodic parody for Expressive Speech Synthesis, in Humor- Theories, Applications, Practices, Piotrkow, Poland, 2010
[SUC’07b]
SUCIU I., KANELLOS I. & MOUDENC T., Prosody of expressive speech: bringing to light
some discursive situation influences. ACII 2007: 2nd International Conference on Affective
Computing and Intelligent Interfaces Conference, Lisbon, Portugal, 2007
[KAN’07]
KANELLOS I., SUCIU I. & MOUDENC T., Expressive text-to-speech approaches. Productive homologies and irreducible discrepancies between natural and singing voice
synthesis modelling. SMC'07: The 4th Sound and Music Computing Conference, Greece,
2007, pp. 79-87
[LEB’07]
LE BRAS TH., KANELLOS I., SUCIU I., The course as hermeneia: when interpretation leads
the modeling of e-learning systems. iPED 2007: 2nd International Conference:
Researching academic futures, September 10-11, Coventry, UK, 2007
[KAN’07b]
KANELLOS I., LE BRAS TH., SUCIU I. & DANILIIA S., Interpretative e-Learning
Personalization: Methodology, Formal Aspects and generic Scenarios of Individual
/Group Dynamics. A case of a course in art history. 11th International Conference on
User Modelling: Workshop in Personalisation in E-Learning Environments at Individual and
Group Level, Corfu, Greece, 2007, pp. 75-76
[SUC’06]
SUCIU I., KANELLOS I. & MOUDENC T., What about the text? Modelling global expressiveness in speech synthesis, ICCTA'06: IEEE International Conference on Information and
Communication Technologies: from Theory to Applications, Damascus, Syria, 2006
[SUC’06b]
SUCIU I., KANELLOS I. & MOUDENC T., Formal expressive indiscernibility underlying a
prosodic deformation model. ISCA’06: International Speech Communication Association:
Tutorial and Research Workshop on Experimental Linguistics, Athens, Greece, 2006
[KAN’05]
KANELLOS I. SUCIU I. & MOUDENC T., Le concept de genre comme point de départ pour
une modélisation sémantique du document électronique, CIDE.8 : Actes du huitième
colloque international sur le document électronique: Le Multilinguisme, éd. Khaldoun
ZREIK, Europia, Paris, 2005.
265
ANNEXE A1
EXEMPLES DE TEXTES COMPOSANT LE CORPUS PRINCIPAL
Nous proposons ici, pour un aperçu, quelques textes composant le corpus principal
d’étude. Comme mentionné dans le chapitre 4, ce corpus est constitué d’un ensemble
d’horoscopes hebdomadaires et quotidiens.
A1.1 Corpus d’horoscopes hebdomadaires. Exemples.
Le premier sous-corpus d’horoscopes contient des textes structurés en trois sections,
comme illustrés dans les exemples suivants :
Semaine du 30 mars au 6 avril
Bélier
VIE PROFESSIONNELLE :
Vous recevez d'excellentes nouvelles concernant votre carrière, et de nouvelles portes s'ouvrent devant vous.
Votre situation actuelle se stabilise. Vous pouvez avoir l'impression d'être dans une impasse, mais, en réalité,
vous faites de grands progrès.
VIE PRIVÉE :
On exige beaucoup de vous, mais vous pouvez trouver une solution pour surmonter ces épreuves. Ne jugez pas
d'après les apparences. Attendez de connaître tous les faits avant d'émettre une opinion.
VIE QUOTIDIENNE :
Vous prenez les choses trop au sérieux. Passez du temps avec vos proches, sortez et amusez-vous ! Vous aurez du
mal à vous enfermer dans une routine préétablie. Exprimez votre désir d'indépendance !
Semaine du 4 au 10 novembre
Balance
VIE PROFESSIONNELLE :
Qu'importe si les autres ont envie de " bouger " et de vous amener sur leur chemin, vous n'aurez qu'une envie :
celle de suivre votre route et de marquer votre indépendance. Il est temps de planifier votre vie à moyen et long
terme sans trop vous laisser influencer par les coups de tête de certains de vos proches.
VIE PRIVÉE :
Les prochaines semaines vont vous apporter un grand bouleversement du côté de vos émotions, c'est pourquoi,
pendant que vous " baignez " dans ces ondes positives, ne perdez pas de temps, et essayez d'éviter toutes les
influences néfastes que certains pourraient projeter sur vous.
VIE QUOTIDIENNE :
Vous pourriez régler des affaires urgentes dans le courant de la semaine, Jeudi vous aurez plus envie de " prendre
l'air " plutôt que de vous mettre aux tâches domestiques. N'hésitez pas à vous accorder un petit break ne serait-ce
que pour préparer un week-end qui s'annonce mémorable.
266
Semaine du 24 au 30 mars
Gémeaux
VIE PROFESSIONNELLE :
Vos projets de voyage sont sous la protection des astres, alors prenez un peu de repos, et organisez, ne serait-ce ,
qu'une petite excursion ! Vos finances sont sur le point de s'améliorer.
VIE PRIVÉE :
Vous ressentez une telle force en vous que vous en oubliez les faiblesses des autres. Faites preuve d'un peu plus
de tolérance, et essayez de comprendre que, certaines personnes, peuvent avoir des besoins différents des vôtres.
VIE QUOTIDIENNE :
Il est nécessaire d'avoir une approche délicate et compréhensible de vos affaires familiales. N'oubliez pas de
prendre en compte les sentiments des autres. Faites preuve d'un peu plus de compréhension, et de diplomatie, et
tout pourrait s'arranger dés cette semaine.
Semaine du 30 mars au 6 avril
Capricorne
VIE PROFESSIONNELLE :
" Pas de nouvelles, bonnes nouvelles". Mais ce n'est pas toujours vrai. Une personne ne vous donne pas de
nouvelles, et vous ignore délibérément. Faites lui savoir que vous existez, et que vous êtes en droit de recevoir des
informations. N'hésitez pas à prendre des initiatives et à vous faire remarquer surtout durant la première moitié
de semaine. A partir de jeudi, par contre, faites preuve d'une certaine prudence dans vos agissements.
VIE PRIVÉE :
Les temps changent, et vous aussi. Une relation semble avoir atteint ses limites, et vous ne pouvez rien faire pour
qu'elle évolue. Il n'y a que le temps qui pourra apporter une réponse. Alors patience !
VIE QUOTIDIENNE :
Restez en compagnie des personnes qui vous feront oublier vos soucis : amusez vous ! Vous avez, encore,
beaucoup de travail à faire, et c'est difficile, en ce moment, de prendre de nouvelles responsabilités. Apprenez à
dire non. Vous ne pouvez pas tout gérer vous-même.
Semaine du 24 au 30 mars
Taureau
VIE PROFESSIONNELLE :
Un changement de circonstances implique que vous n'aurez plus accès à certaines informations liées à votre
situation professionnelle. Vous devez réorganiser vos plans. Prenez, dés Lundi, des initiatives allant dans ce sens.
VIE PRIVÉE :
Il est parfois difficile de prendre des décisions personnelles. Le mieux, c'est de faire appel à un proche, et de lui
demander conseil. Le simple fait de lui parler de vos problèmes du moment vous aidera à comprendre ce que
vous désirez vraiment.
VIE QUOTIDIENNE :
Vous avez fait d'énormes sacrifices ces derniers temps et cela, notamment, pour des raisons familiales. A présent,
vous êtes en droit de demander de la reconnaissance. Cette semaine devrait voir une amélioration notable de
votre relationnel. Profitez, à fond, du moment présent sans trop vous poser de question sur l'avenir.
267
A1.2 Corpus d’horoscopes quotidiens. Exemples.
Ce second sous-corpus d’horoscopes est composé des textes comportant uniquement
deux sections, comme dans les exemples suivants :
Lundi 30 avril 2007
Bélier
VIE PRIVÉE :
L'amour et la romance sont vos priorités aujourd'hui et vous recherchez à vous rapprocher d'une personne en
particulier. Cependant, n'en faites pas trop. Il faut savoir se laisser guider et ne pas forcer les choses. Ayez
confiance en vous et tout se fera de façon naturelle.
VIE QUOTIDIENNE :
Cette journée sera, pour vous, d'un grand intérêt et ce n'est pas la moindre chose ! Vous recevrez des propositions
très intéressantes et on vous invite à prendre de plus grandes responsabilités. Cela vous ravie.
Lundi 30 avril 2007
Cancer
VIE PRIVÉE :
Vous pourriez être d'humeur changeante aujourd'hui. Essayez de prendre sur vous et de ne pas vous isoler dans
votre coin. Le meilleur moyen de retrouver le moral, c'est de rechercher la compagnie des personnes que vous
aimez !
VIE QUOTIDIENNE :
Vous pourriez ressentir quelques peurs ou des doutes, mais cela ne doit pas vous ralentir ! Ayez confiance en
vous ! Un partenaire ou un collègue de travail, a besoin de votre encouragement et de votre motivation, alors ne
le décevez pas !
Vendredi 27 avril 2007
Cancer
VIE PRIVÉE :
Les choses évoluent plus rapidement que vous ne l'imaginiez. Avant même de vous en rendre compte, une
relation, importante et profonde, se créera dans peu de temps. N'essayez pas de tout contrôler. Laissez place à la
spontanéité.
VIE QUOTIDIENNE :
Certaines personnes vous offrent la possibilité de progresser et ces propositions vous tentent. Cependant,
n'acceptez pas sans réfléchir et sans mener une réflexion préalable. Réfléchissez bien à toutes les conséquences
que cela pourrait occasionner.
268
Lundi 23 avril 2007
Scorpion
VIE PRIVÉE :
Prenez garde aux proches qui vous proposent d'intervenir dans votre relation amoureuse. Vous n'avez besoin de
personne pour cela, et vos affaires privées ne regardent que vous. Ne cédez pas et affirmez votre volonté et votre
esprit d'indépendance.
VIE QUOTIDIENNE :
Vous pourriez recevoir des nouvelles qui peuvent affecter vos projets financiers, au moins, sur le court terme.
Surveillez votre trésorerie et assurez-vous de trouver un moyen pour équilibrer, au mieux, votre budget. Faites,
éventuellement, appel à l'aide et aux conseils de personnes compétentes. Possibilité de rencontre intéressante avec
un Sagittaire.
Lundi 23 avril 2007
Poissons
VIE PRIVÉE :
Vous avez un défi à relever, notamment dans votre vie amoureuse, qui requiert toute votre attention, et certains
efforts. Demandez à vos proches de vous soutenir, car vous aurez besoin d'aide pour y parvenir. Ne culpabilisez
pas ! Des personnes de confiance seront ravies de vous prêter main forte !
VIE QUOTIDIENNE :
Vous pourriez recevoir de bonnes nouvelles concernant votre carrière, et cela devrait vous redonner le sourire.
Cependant, vous vous rendrez compte que cela vous demande, encore, beaucoup de travail supplémentaire. Que
cela ne vous décourage pas. Avec de la volonté, vous parviendrez à franchir, allégrement, cette nouvelle étape.
Lundi 23 avril 2007
Vierge
VIE PRIVÉE :
Une date importante se rapproche, et un rendez-vous est à préparer avec le maximum de sérieux, et en réunissant
le plus d'informations, et d'arguments, possibles. Essayez, de vous organiser pour être le plus efficace possible.
Vous verrez que, dans ces conditions, tout se passera très bien !
VIE QUOTIDIENNE :
On vous sollicite beaucoup et certaines personnes ne cessent de vous demander des conseils, ou des services.
Cependant, vous devez leur faire comprendre que vous ne pouvez pas être de partout à la fois ! Il faudra que
chacun attende son tour et vous devez faire en sorte de ne pas trop vous disperser et de penser, aussi, à vous!
269
ANNEXE A2
PARTICULARITES POUR LES REALISATIONS DU CORPUS PRINCIPAL
Pour l’ensemble des horoscopes lus par Alain, nous avons remarqué dans l’étape de
syllabification, l’existence de certaines syllabes purement consonantiques, composées
d’une seule consonne (couramment, ‘N’ ou ‘D’). Malgré la très bonne diction de notre
locuteur (comédien professionnel), ce phénomène s’explique notamment par le débit
global très élevé (5-6 syl/sec) de la lecture des horoscopes. Nous présentons ci-dessus
les cas répertoriés des syllabes complètement éclipsées des voyelles :
Syllabe purement
consonantique
‘N’
‘D’
‘S’
Nombre
d’apparitions
Observations concernant le
procédée (la raison)
Quelques exemples illustratifs
Sublimation du schwa
« Ne vous sentez pas… »
« … vous ne pouvez rien faire… »
« … vous ne voulez pas risquer… »
« Vous ne devez pas intervenir… »
« … qui ne vous concerne pas… »
Substitution phonétique
« … fin de semaine… »
Sublimation du schwa
« … première moitié de semaine »
« Prenez un peu de repos… »
« … vos projets de carrière. »
« … envie de vous engagez… »
« … vous ferra beaucoup de bien. »
« … avec trop de sérieux… »
Sublimation du schwa
« Vous savez ce que vous voulez… »
« … de tout ce qui doit être fait… »
« … tout ce que vous faites… »
« C’est ce qui fait votre valeur. »
38
17
11
‘L’
10
Sublimation du schwa
« Ne perdez pas le contact… »
« … peut vous remonter le moral… »
« … d’agir comme vous le faites. »
« Vous n’avez plus le moral… »
‘K’
2
Sublimation du schwa
« … jamais sûr de quoi que ce soit… »
« … pouvoir contrôler quoi que ce soit. »
Tableau A2.1 : Configurations syllabiques purement consonantiques
Notons également qu’au sein du corpus oral, les « short-pauses » (cf. section 6.2.3)
ont été incluses, chacune, systématiquement dans la syllabe qui la précède.
270
ANNEXE A3
ETIQUETAGE DES CARACTERISTIQUES EXPRESSIVES EXTRATEXTUELLES
La première dimension de l’espace expressif extratextuel (<S>) tel que défini dans la
section 2.6, correspond au genre (tg) à l’intérieur duquel la matière textuelle se place.
Les tg utilisés dans le recueil du corpus d’étude principal, de celui des similarités
prosodiques trans-génériques et du corpus des parodies prosodiques (discutées dans
le chapitre 4, section 4.2), sont les suivants :
Genre textuel
Notation
horoscope
1
conseils divers (maison, beauté, etc.)
2
texte publicitaire court
3
citation, proverbe
4
commentaire sportif
5
prière/messe
6
Tableau A3.1 : Étiquetage des genres textuels (tg) rencontrés dans notre travail
D’une manière opérationnelle, le codage décrivant la mise en correspondance de
ces caractéristiques extratextuelles se traduit sous la forme d’un dictionnaire comme :
{1 : horoscope, 2 : conseils, 3 : textes publicitaires, 4 : citation...})
L’étiquetage des genres textuels (tg) est ensuite complété par celui des types
d’élocution qui traduisent, chacun, une manière générale d’élocution d’un texte. Pour
un genre déterminé (ici, l’horoscope), nous avons d’abord l’élocution dite « typique »,
qui est présumée reproduire une expressivité discursive propre au genre en question.
Toutefois, dans le cadre de la parole actée, cette expressivité reste dépendante de ses
repères « originaux » retrouvés dans la doxa d’horoscopes oralisés et distribués par
divers médias, et par conséquent, elle varie selon le locuteur.
Ensuite, nous avons choisi un ensemble réduit d’élocutions simulées portant de
l’intérêt pour nos études sur l’expressif discursif. L’analyse portée ultérieurement ne
se sera par conséquent pas exhaustive sur la combinatoire des genres et des types de
lecture. Ainsi, nous avons enregistré l’ensemble de notre corpus d’horoscopes en
lecture « typique » et uniquement deux parmi ces textes, en lectures simulées, telles
qu’étiquetées dans le tableau A3.2. Selon le cas, ces élocutions renvoient soit à des
dimensions de la ds (les élocutions de 1 à 10), soit aux considérations de genre tg (de
11 à 13), soit aux divers aspects liés au rp (de 14 à 21) :
271
Type d’élocution
Notation
Type d’élocution
Notation
« typique »
0
sportive
11
rapide
1
messe
12
lente
2
politique
13
en vitesse normale
3
paysan
14
triste
4
aristocrate
15
agressive / colère
5
scolaire
16
interrogative
6
fillette
17
joyeuse / exubérante
7
vieux
18
extasiée
8
québécoise
19
pleureuse
9
africaine
20
peureuse
10
italienne
21
…
…
…
…
Tableau A3.2 : Étiquetage des élocutions simulées (ds, tg, et rp)
Nous distinguons dans ces derniers types d’élocutions : l’appartenance sociale (14
à 16), l’âge (17 et 18), et l’accent 1 (19 à 21) du locuteur imité. Ces paramètres
s’adjoignent à l’étiquetage de la dimension (rp) du vecteur <S> des caractéristiques
extrinsèques, qui dans une lecture « typique », se rapporte directement aux locuteurs.
En nous limitant à l’étude de leurs idiolectes « typiques », nous avons restreint notre
travail à deux profils de voix des comédiens professionnels :
Locuteur
Notation
Alain
1
Geneviève
2
Tableau A3.3 : Étiquetage des locuteurs
L’étiquetage des caractéristiques expressives tg, ds, et rp se fait automatiquement :
i) dans la phase d’analyse, en constituant des banques acoustiques correspondantes à
chacune de ces trois dimensions et ii) dans la phase de génération, par le choix des
paramètres, fait en entrée du système de synthèse, par un utilisateur lambda, à l’aide
d’une interface simplifiée telle qu’esquissée dans la figure A3.1 ci-dessous :
Ici, l’accent national. Mais nous pouvons imaginer aussi des scénarios de simulation d’élocutions à accent
régional (sud, nord, breton, etc.), comme dans les travaux décrits en [MOR’03] et [MOR’05].
1
272
Introduisez le texte :
Genre textuel
Type de lecture
Style / locuteur
Ou choisissez le fichier dʹentrée :
Synthétiser
Figure A3.1 : Proposition d’une interface d’entrée pour la synthèse de parole située
Cette interface permettrait donc à l’utilisateur de déterminer en entré, le jeu des
trois dimensions de l’espace expressif extratextuel désirées. Par exemple, la lecture en
mode « sportif » d’un horoscope lu par Alain serait décidée par la sélection :
Introduisez le texte :
horoscope
horoscope
Bélier
Vie professionnelle :
lecture sportive
Vous recevez dʹexcellentes nouvelles concernant votre carrière, et
de nouvelles portes sʹouvrent devant vous. Votre situation actuelle
se stabilise. Vous pouvez avoir lʹimpression dʹêtre dans une impasse,
mais en réalité vous faites de grands progrès.
lecture sportive
Alain
Ou choisissez le fichier dʹentrée :
Synthétiser
Figure A3.2 : Choix des dimensions expressives extratextuelles dans l’interface d’entrée
Cette sélection sera codifiée, cf. tableaux précédents, par le triplet <1, 11, 1>. Elle
servira à situer et à rechercher ensuite les formes fde dans cet espace extratextuel bien
défini. D’une manière similaire, une forme expressive issue d’une lecture « typique »
d’un horoscope faite par Geneviève aura associé le triplet <1, 0, 2>. Plus généralement,
une forme expressive fde issue de la lecture d’un texte de genre i, ayant une élocution
j qui est réalisée à la manière du locuteur k aura le vecteur <S> codifié par une
expression du type : <i, j, k>. Le triplet d’indices compose, cf. chapitre 2, section 2.1, le
vecteur <S> des caractéristiques expressives extrinsèques, dans l’ordre : le premier
indice fait référence au tg, le deuxième à la ds, et le troisième au rp.
273
ANNEXE A4
BALISAGE TEXTUEL AU NIVEAU DES SYNTAGMES
Nous détaillerons ici le sous-module de balisage textuel au niveau de syntagmes, qui
se présente sous deux facettes différentes, pas toujours équivalentes : le balisage en
syntagmes syntaxiques (ou grammaticaux) et le balisage en syntagmes rythmiques.
A. Balisage en syntagmes syntaxiques (grammaticaux)
Outre les spécifications liées aux niveaux d’analyse retrouvées en « sdd.dtd », et le
fichier balisé aux niveaux de gph (cf. « fichier_tag_gph.xml »), le sous-module du
balisage en syntagmes syntaxiques fait usage des résultats d’un module d’analyse
syntaxico-morphologique :
fichier_tag_gph .xml
sdd.dtd
C2 (A)
balisage
syn
analyseur syntaxico morphologique
fichier_tag_syn .xml
Figure A4.1 : Sous-module de balisage en syntagmes grammaticaux
Dans la tâche de balisage en syn syntaxiques, nous avons utilisé comme analyseur
morphosyntaxique, le logiciel Cordial (©), un analyseur grammatical en constituants,
développé par [COR’08]. À titre illustratif, nous exposons ci-dessous le listing d’un
extrait de l’analyse morphosyntaxique en constituants, correspondant à la première
phrase1 du premier gph de notre texte exemple :
Figure A4.2 : Extrait d’une analyse grammaticale générée avec Cordial (©)
1
Malheureusement, la phrase reste, de loin, la portée maximale dans toutes les études grammaticales.
274
Selon les règles de morphosyntaxe, plusieurs variantes alternatives sont possibles
pour le découpage en syntagmes grammaticaux. Généralement construits autour
d’un noyau morphologique (sujet, verbe, pronom, etc.), ces derniers se définissent
comme regroupements d’éléments linguistiques (morphèmes, lexèmes, etc.) formant
une unité dans une organisation hiérarchisée issue d’une analyse syntaxique [DUB’01].
L’équivalent de l’extrait A4.2 d’analyse grammaticale en constituants, sous une
forme arborescente multi-niveaux, est présenté dans la figure suivante :
Figure A4.3 : Arbre syntaxique pour la phrase n° 1, généré avec Cordial (©)
La lisibilité de cette décomposition arborescente laisse à désirer notamment pour
des phrases de taille et/ou de complexité considérables. Dans ces cas, les linguistes
lui préfèrent son équivalent parenthésé. Selon [DUB’01], la parenthétisation est une
représentation de la structure en constituants d’une phrase au moyen d’un système
de parenthèses emboîtées les unes dans les autres et de plus en plus incluantes.
Optionnellement, chaque parenthèse peut porter une étiquette qui est la catégorie
syntaxique (par exemple, SN, SV, pronominal, etc.) du constituant mis entre deux
parenthèses. Dans ce cas, la parenthétisation étiquetée a exactement les mêmes
propriétés que l’arbre syntaxique.
En raison d’une meilleure lisibilité à l’écrit, nous avons opté, dans ce qui suit, pour
la représentation parenthésée que nous confrontons ponctuellement avec son
275
équivalent arborescent. Nous illustrons plus bas les équivalents parenthésés de
l’arbre syntaxique présenté dans la figure A4.3 pour le premier énoncé de notre texte.
En fonction du niveau de profondeur désiré dans l’analyse morphologique, nous
avons des regroupements syntagmiques plus ou moins complexes, composés d’un
nombre plus ou de moins grand de constituants principaux ou dérivés :
((Vous recevez) (d’excellentes nouvelles) (concernant votre carrière)), ((et) (de nouvelles
portes) (s’ouvrent) (devant vous)).
(Vous recevez d’excellentes nouvelles concernant votre carrière), (et de nouvelles portes
s’ouvrent devant vous).
(Vous recevez d’excellentes nouvelles concernant votre carrière, et de nouvelles portes
s’ouvrent devant vous).
La chose paraît beaucoup plus simple pour la phrase n° 2 du même extrait textuel :
Figure A4.4 : Arbre syntaxique pour la phrase n° 2, généré avec Cordial (©)
À complexité syntaxique plus réduite que la précédente, cette phrase présente un
regroupement en syntagmes syntaxiques plus simple et un parenthésage plus limité :
(Votre situation actuelle) (se stabilise).
La troisième phrase du même groupe phrastique, plus complexe, présente un
arbre syntaxique plus développé que le précédent (cf. figure A4.5) et subséquemment,
des formes parenthésées plus riches en profondeurs et variées en regroupements :
((Vous pouvez avoir) (l’impression) (d’être) (dans une impasse)), ((mais en réalité) (vous
faites) (de grands progrès)).
(Vous pouvez avoir l’impression d’être dans une impasse), (mais en réalité vous faites de
grands progrès).
276
(Vous pouvez avoir l’impression d’être dans une impasse, mais en réalité vous faites de
grands progrès).
Figure A4.5 : Arbre syntaxique pour la phrase n° 3, généré avec Cordial (©)
La première forme parenthésée mentionnée ci-dessus correspond au dernier
niveau de profondeur dans l’arborescence syntaxique générée dans la figure A4.5.
Nous convenons de l’appeler ici forme maximale de regroupement syntagmique. De
même, la deuxième forme parenthésée traduit une des formes intermédiaires de
regroupement en constituants, et la dernière – la forme minimale.
Nous retenons2 ici les formes minimales de regroupement en syntagmes pour les trois
phrases du premier gph mentionné. Nous appliquons le même raisonnement pour le
choix du découpage du reste des gph du texte-exemple, en vue de constituer le fichier
« belier_tag_syn.xml », balisé en syn grammaticaux :
2
En raison du débit général d’élocution des horoscopes qui s’avère être plus élevé que celui en vitesse normale.
277
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE horoscope SYSTEM "sdd.dtd">
<txt type="horoscope weekly">
<gph type="signe">
<syn type="g"> Bélier </syn>
</gph>
<gph type="titre section">
<syn type="g"> Vie professionnelle : </syn>
</gph>
<gph type="corps section">
<syn type="g"> Vous recevez d'excellentes nouvelles concernant votre carrière, </syn>
<syn type="g"> et de nouvelles portes s'ouvrent devant vous. </syn>
<syn type="g"> Votre situation actuelle se stabilise. </syn>
<syn type="g"> Vous pouvez avoir l'impression d'être dans une impasse, </syn>
<syn type="g"> mais en réalité vous faites de grands progrès. </syn>
</gph>
<gph type="titre section">
<syn type="g"> Vie privée : </syn>
</gph>
<gph type="corps section">
<syn type="g"> On exige beaucoup de vous, </syn>
<syn type="g"> mais vous pouvez trouver une solution pour surmonter ces épreuves.
</syn>
<syn type="g"> Ne jugez pas d'après les apparences. </syn>
<syn type="g"> Attendez de connaître tous les faits avant d'émettre une opinion. </syn>
</gph>
<gph type="titre section">
<syn type="g"> Vie quotidienne : </syn>
</gph>
<gph type="corps section">
<syn type="g"> Vous prenez les choses trop au sérieux. </syn>
<syn type="g"> Passez du temps avec vos proches, </syn>
<syn type="g"> sortez et amusez-vous ! </syn>
<syn type="g"> Vous aurez du mal à vous enfermez dans une routine préétablie. </syn>
<syn type="g"> Exprimez votre désir d'indépendance. </syn>
</gph>
</txt>
(2)
B. Balisage en syntagmes rythmique
Pour le balisage en syntagmes dits rythmiques, nous faisons appel, outre le support
textuel d’étude (cf. « fichier_tag_gph.xml »), à sa réalisation orale transcrite (cf.
« fichier .trs » vérifiés manuellement) à partir des fichiers audio correspondants:
278
fichier_tag_gph .xml
sdd .dtd
C2 (B)
balisage
syn
fichier .trs
fichier_tag_syn .xml
Figure A4.6 : Sous-module de balisage en syntagmes rythmiques
Le fichier « belier_tag_syn.xml » résultant après ces considérations rythmiques est :
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE horoscope SYSTEM "sdd.dtd">
<txt type="horoscope weekly">
<gph type="signe">
<syn type="r"> Bélier </syn>
</gph>
<gph type="titre section">
<syn type="r"> VIE PROFESSIONNELLE : </syn>
</gph>
<gph type="corps section">
<syn type="r"> Vous recevez d'excellentes nouvelles concernant votre carrière, </syn>
<syn type="r"> et de nouvelles portes s'ouvrent devant vous. </syn>
<syn type="r"> Votre situation actuelle se stabilise. </syn>
<syn type="r"> Vous pouvez avoir l'impression d'être dans une impasse, mais en réalité
vous faites de grands progrès. </syn>
</gph>
<gph type="titre section">
<syn type="r"> VIE PRIVÉE : </syn>
</gph>
<gph type="corps section">
<syn type="r"> On exige beaucoup de vous, </syn>
<syn type="r"> mais vous pouvez trouver une solution pour surmonter ces épreuves.
</syn>
<syn type="r"> Ne jugez pas d'après les apparences. </syn>
<syn type="r"> Attendez de connaître tous les faits avant d'émettre une opinion. </syn>
</gph>
<gph type="titre section">
<syn type="r"> VIE QUOTIDIENNE : </syn>
</gph>
<gph type="corps section">
<syn type="r"> Vous prenez les choses trop au sérieux. </syn>
<syn type="r"> Passez du temps avec vos proches, </syn>
<syn type="r"> sortez et amusez-vous ! </syn>
<syn type="r"> Vous aurez du mal à vous enfermez dans une routine préétablie. </syn>
<syn type="r"> Exprimez votre désir d'indépendance. </syn>
</gph>
</txt>
(3)
279
La comparaison des deux variantes de balisage syntagmique présentées en (2) et (3)
permet de tracer un possible alignement syntaxiquement-rythmique (ou écrit / oral)
pour la même matière textuelle. Autrement dit, cette comparaison nous permet
d’étudier les scénarios de correspondances (i.e. de congruence [MAR’77]) possibles
entre les structures syntaxiques et prosodiques-rythmiques :
type de gph
n° syn g
n° syn r
observations
signe
1
1
découpage g et r complètement identique
titre section 1
1
1
découpage g et r complètement identique
corps section 1
5
4
découpage g et r identique, à l’exception des syn g
n° 4 et 5 qui ont « fusionné » dans le syn r n° 4
titre section 2
1
1
découpage g et r complètement identique
corps section 2
4
4
découpage g et r complètement identique
titre section 3
1
1
découpage g et r complètement identique
corps section 3
5
5
découpage g et r complètement identique
Tableau A4.1 : Alignement des découpages en syntagmes grammaticaux et rythmiques
Nous pouvons constater sur cet alignement que les regroupements du texte en
syntagmes rythmiques sont souvent3 équivalents aux regroupements minimaux en
syntagmes grammaticaux. Ceci est dû probablement au fait que les horoscopes lus
d’une manière « typique » présentent un débit globalement élevé, qui minimise les
pauses dans le discours et donc masque les frontières des syntagmes maximaux ou
intermédiaires. De ce fait, les réalisations d’horoscopes qui forment notre corpus oral
s’approchent plus de la parole spontanée que de la parole lue.
Nous illustrons ici quelques résultats des balisages rythmiques pour différents
types de lecture, obtenus à partir des fichiers de transcription « .trs » correspondants :
i)
Balisage en syntagmes pour la lecture « rapide » :
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE horoscope SYSTEM "sdd.dtd">
<txt type="horoscope weekly">
<gph type="signe">
<syn type="r"> Bélier </syn>
</gph>
<gph type="titre section">
<syn type="r"> Vie professionnelle : </syn>
</gph>
<gph type="corps section">
L’exemple choisi ne constitue pas un cas singulier, mais bien au contraire, il s’avère être un cas représentatif
pour l’ensemble des lectures « typiques » des textes formant le corpus d’horoscopes.
3
280
<syn type="r"> Vous recevez d'excellentes nouvelles concernant votre carrière, et de
nouvelles portes s'ouvrent devant vous. </syn>
<syn type="r"> Votre situation actuelle se stabilise. </syn>
<syn type="r"> Vous pouvez avoir l'impression d'être dans une impasse, mais en réalité
vous faites de grands progrès. </syn>
</gph>
<gph type="titre section">
<syn type="r"> Vie privée : </syn>
</gph>
<gph type="corps section">
<syn type="r"> On exige beaucoup de vous, mais vous pouvez trouver une solution pour
surmonter ces épreuves. Ne jugez pas d'après les apparences. Attendez de connaître tous
les faits avant d'émettre une opinion. </syn>
</gph>
<gph type="titre section">
<syn type="r"> Vie quotidienne : </syn>
</gph>
<gph type="corps section">
<syn type="r"> Vous prenez les choses trop au sérieux. Passez du temps avec vos proches,
sortez et amusez-vous ! </syn>
<syn type="r"> Vous aurez du mal à vous enfermez dans une routine préétablie. Exprimez
votre désir d'indépendance. </syn>
</gph>
</txt>
(4)
ii)
Balisage en syntagmes pour la lecture « lente » :
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE horoscope SYSTEM "sdd.dtd">
<txt type="horoscope weekly">
<gph type="signe">
<syn type="r"> Bélier </syn>
</gph>
<gph type="titre section">
<syn type="r"> Vie professionnelle : </syn>
</gph>
<gph type="corps section">
<syn type="r"> Vous recevez </syn>
<syn type= "r"> d'excellentes nouvelles concernant votre carrière, </syn>
<syn type="r"> et de nouvelles portes s'ouvrent devant vous. </syn>
<syn type="r"> Votre situation actuelle </syn>
<syn type="r"> se stabilise. </syn>
<syn type="r"> Vous pouvez avoir l'impression d'être dans une impasse, </syn>
<syn type="r"> mais </syn>
<syn type="r"> en réalité </syn>
<syn type="r"> vous faites de grands progrès. </syn>
</gph>
<gph type="titre section">
<syn type="r"> Vie privée : </syn>
</gph>
<gph type="corps section">
281
<syn type="r"> On exige beaucoup de vous, </syn>
<syn type="r"> mais vous pouvez trouver une solution </syn>
<syn type="r"> pour surmonter ces épreuves. </syn>
<syn type="r"> Ne jugez pas </syn>
<syn type="r"> d'après les apparences. </syn>
<syn type="r"> Attendez de connaître </syn>
<syn type="r"> tous les faits </syn>
<syn type="r"> avant d'émettre </syn>
<syn type="r"> une opinion. </syn>
</gph>
<gph type="titre section">
<syn type="r"> Vie quotidienne : </syn>
</gph>
<gph type="corps section">
<syn type="r"> Vous prenez les choses </syn>
<syn type="r"> trop au sérieux. </syn>
<syn type="r"> Passez du temps </syn>
<syn type="r"> avec vos proches, </syn>
<syn type="r"> sortez </syn>
<syn type="r"> et </syn>
<syn type="r"> amusez-vous ! </syn>
<syn type="r"> Vous aurez du mal </syn>
<syn type="r"> à vous enfermez dans une routine </syn>
<syn type="r"> préétablie. </syn>
<syn type="r"> Exprimez </syn>
<syn type="r"> votre désir d'indépendance. </syn>
</gph>
</txt>
iii)
(5)
Balisage en syntagmes pour la lecture de type « commentaire sportif » :
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE horoscope SYSTEM "sdd.dtd">
<txt type="horoscope weekly">
<gph type="signe">
<syn type="r"> Bélier </syn>
</gph>
<gph type="titre section">
<syn type="r"> Vie professionnelle : </syn>
</gph>
<gph type="corps section">
<syn type="r"> Vous recevez </syn>
<syn type="r"> d'excellentes nouvelles </syn>
<syn type="r"> concernant votre carrière, </syn>
<syn type="r"> et de nouvelles portes s'ouvrent devant vous. </syn>
<syn type="r"> Votre situation actuelle se stabilise. Vous</syn>
<syn type="r"> pouvez avoir l'impression d'être dans une impasse, </syn>
<syn type="r"> mais </syn>
<syn type="r"> en réalité </syn>
<syn type="r"> vous faites </syn>
<syn type="r"> de grands progrès. </syn>
282
</gph>
<gph type="titre section">
<syn type="r"> Vie privée : </syn>
</gph>
<gph type="corps section">
<syn type="r"> On exige beaucoup de vous, </syn>
<syn type="r">mais vous pouvez trouver une solution pour surmonter ces épreuves.
</syn>
<syn type="r"> Ne jugez pas d'après les apparences. </syn>
<syn type="r"> Attendez de connaître tous les faits avant d'émettre une opinion. </syn>
</gph>
<gph type="titre section">
<syn type="r"> Vie quotidienne : </syn>
</gph>
<gph type="corps section">
<syn type="r"> Vous prenez les choses trop au sérieux. </syn>
<syn type="r"> Passez du temps avec vos proches, sortez et amusez-vous ! </syn>
<syn type="r"> Vous aurez du mal à vous enfermez dans une routine préétablie. </syn>
<syn type="r"> Exprimez votre désir d'indépendance. </syn>
</gph>
</txt>
(6)
Précisons que le balisage en syntagmes, qu’ils soient grammaticaux ou rythmiques,
ne peut pas se faire toujours d’une manière automatique. D’une part, la présence des
diverses variantes [DEL’96] de regroupements syntagmiques (i.e. syntagmes minimaux,
maximaux, ou intermédiaires) demande une prise de décision, globale ou ponctuelle,
concernant la manière de réaliser ces regroupements [MON’95]. D’autre part, les
regroupements rythmiques, eux, sont disponibles uniquement à partir des fichiers
transcrits des réalisations orales. Dans l’absence4 de ces transcriptions, le découpage
rythmique devient difficile. Exception faite de certains algorithmes génériques de
distribution des pauses basés, en français, sur le principe d’eurythmie (discuté dans
le chapitre 6) qui fixent ainsi quelques frontières syntagmiques
Pour combler ce manque d’outils dans le balisage automatique, nous avons conçu
et implémenté un module disposant des fonctionnalités de découpage flexible en unités
d’analyse. Celui-ci permet à l’utilisateur soit i) de générer automatiquement un balisage
grammatical ou rythmique par défaut, soit ii) de choisir, selon ses préférences, un
balisage manuel personnalisé, fonction de ses besoins en matière d’expressivité. Le
module a été conçu au départ pour les horoscopes, mais il peut être également utilisé
pour le balisage d’autres textes (tels les humouroscopes, cf. section 4.1.2) qui suivent
une structuration similaire (titres, sous-titres, etc.). Nous en présentons ici un aperçu :
4
Cas correspondant, par exemple, à un nouveau texte (horoscope ou humouroscope) que l’on désire synthétiser.
283
Figure A4.7 : Module de balisage logique personnalisé (en gph et en syn) d’un texte donné
L’attribution des balises pour la délimitation des paliers d’analyse se fait, pour un
texte à analyser, dans l’ordre de priorité qui correspond à la descente des paliers (i.e.
du texte vers la syllabe). Cela se traduit, pour notre analyse, par l’assignation d’abord
des balises <txt>, puis des balises <gph>, puis des balises <syn> (grammaticaux ou
rythmiques), pour finir avec l’attribution des balises de découpage en <syl>.
284
ANNEXE A5
BALISAGE TEXTUEL AU NIVEAU DES SYLLABES
Nous détaillerons ici quelques considérations liées au module de balisage textuel au
niveau de syllabes. Similairement à la délimitation en syntagmes grammaticaux qui
réclamait un module complémentaire d’analyse morphosyntaxique, le balisage en syl
exige l’existence préalable d’un module dit de syllabification :
fichier_tag_syn .xml
sdd .dtd
C3
balisage
syl
module de
syllabification
fichier_tag .xml
Figure A5.1 : Module de balisage en syllabes
S’appuyant sur un ensemble d’analyses lexicales, ce module de syllabification
utilise des règles de décomposition syllabique propres au français (cf. [DFT’80]). Pour
ceci, nous avons utilisé un module déjà existant, développé dans notre équipe, que
nos expériences1 montrent très robuste. Conformément aux règles de découpage en
syllabes ainsi qu’à la transcription phonétique basée sur l’alphabet exposé en [DFT’00],
nous obtenons pour le texte-exemple, le découpage balisé en syllabes suivant :
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE horoscope SYSTEM "sdd.dtd">
<txt type="horoscope weekly">
<gph type="signe">
<syn type="r"> <syl> B EI <syl> L Y EI </syl> </syn>
</gph>
<gph type="titre section">
<syn type="r"> <syl> V I <syl> P R O <syl> F EI <syl> S Y AU <syl> N AI L </syl> </syn>
</gph>
<gph type="corps section">
1
Nous pensons ici particulièrement au découpage syllabique des transcriptions des lectures de type « bégayée »,
pour lequel le manque d’un noyau vocalique est une caractéristique qui revient d’une façon récurrente (pour
exemplifier : « k k qu’importe »). Quelques cas particuliers (une vingtaine sur tout le corpus) de syllabes dites
« purement consonantiques » sont également observés pour la lecture « typique ». Ils correspondent aux cas
d’omission de schwa dans les mots non-utiles (« vous n’ pouvez pas », « début d’ semaine », etc.), cf. annexe A2.
285
<syn type="r"> <syl> V OU <syl> R EU <syl> S EU <syl> V EI <syl> D EI K <syl> S EI <syl>
L AN T <syl> N OU <syl> V AI L <syl> K ON <syl> S AI R <syl> N AN <syl> V O T R E
<syl> K A <syl> R Y AI R E </syl> </syn>
<syn type="r"> <syl> EI <syl> D EU <syl> N OU <syl> V AI L <syl> P O R T E <syl> S OU V
R E <syl> D EU <syl> V AN <syl> V OU </syl> </syn>
<syn type="r"> <syl> V AU T R E <syl> S I <syl> T U <syl> A <syl> S Y ON <syl> A K <syl>
T U <syl> AI L <syl> S EU <syl> S T A <syl> B I <syl> L I Z </syl> </syn>
<syn type="r"> <syl> V OU <syl> P OU <syl> V EI <syl> A <syl> V W A <syl> L IN <syl> P
R EI <syl> S Y ON <syl> D AI T R E <syl> D AN <syl> Z U N <syl> IN <syl> P A S <syl> M
AI <syl> AN <syl> R EI <syl> A <syl> L I <syl> T EI <syl> V OU <syl> F AI T <syl> D EU
<syl> G R AN <syl> P R AU <syl> G R AI </syl> </syn>
</gph>
<gph type="titre section">
<syn type="r"> <syl> V I <syl> P R I <syl> V EI </syl> </syn>
</gph>
<gph type="corps section">
…
</gph>
<gph type="titre section">
<syn type="r"> <syl> V I <syl> K AU <syl> T I <syl> D Y AI N </syl> </syn>
</gph>
<gph type="corps section">
…
</gph>
</txt>
Il est convenu ici que dans le cas de présence des liaisons entre mots, la lettre
finale impliquée dans la liaison fait partie de la première syllabe du mot suivant.
Pour illustrer, soit l’exemple de la syllabe <syl> Z U N (pour la liaison entre
« dans_une ») du troisième gph décrit en (9).
286
ANNEXE A6
DESCRIPTION DE LA REPRESENTATION PHONOLOGIQUE INTSINT
Nous exposons ici d’abord l’alphabet INTSINT, tel que décrit en [HIR’00] et [HIR’03]. Cet
alphabet est défini par un ensemble fini des symboles : {T, M, B, H, S, L, U, D}. Les
trois premiers symboles (T, M et B) correspondent aux tons absolus, tels que : T (Top)
est le ton maximal, M (Middle) le ton moyen, et B (Bottom) celui minimal :
Figure A6.1 : Représentation des tons absolus T, M, et B dans le formalisme INTSINT
Leurs valeurs fréquentielles sont fixées au début et elles ne peuvent pas changer
au fil de la représentation (intonative, dans ces références).
En revanche, les symboles H, S, L, U, D correspondent à des tons relatifs. Ils n’ont
pas de valeur précise, mais dépendent de la valeur des entités précédentes (et, pour
certains, de suivantes). Parmi les tons relatifs, les deux derniers (U et D) sont itératifs,
et les trois premiers, sont non itératifs.
Les tons relatifs non itératifs S (Same), H (High) et L (Low) définissent le même
niveau, un niveau supérieur et un niveau intonatif inférieur au niveau précédent :
Figure A6.2 : Représentation des tons relatifs non itératifs S, H, et L dans INTSINT
Les niveaux H et L correspondent à des maxima, et respectivement des minima
locaux pour une fonction de variation quelconque. Le ton H code une intonation
prosodique montante qui arrête sa montée soit pour descendre (par exemple, L), soit
pour rester au même niveau (S) ; de la même façon, le niveau L code localement une
mélodie descendante, qui arrête sa descente soit pour ensuite monter (par exemple,
H), soit pour rester au même niveau (S).
287
Si les niveaux intonatifs montant et descendant ne satisfont pas les contraintes de
définition des tons H et L, ils sont nommés des tons relatifs itératifs, et sont symbolisés
en INTSINT par les symboles U (Upper) et, respectivement, D (Down). Le ton U
correspond à une intonation montante qui continue sa monté, tandis que le ton D
correspond à une intonation descendante qui continue sa descente (d’où l’explication
du qualificatif de tons « itératifs ») :
Figure A6.3 : Représentation des tons relatifs itératifs U et D dans le formalisme INTSINT
Ces définitions des niveaux absolus et relatifs imposent des contraintes pour
l’établissement ultérieur des expressions formées par l’enchaînement des symboles :
Les tons absolus T et B correspondent au niveau global, respectivement
aux tons relatifs non itératifs H et L.
(c_1)
Un ton relatif H ne peut pas être suivi par un autre ton montant (H ou U) ;
de même, aucun ton relatif L ou D ne peut suivre un ton L.
(c_2)
À partir de (c_1) et (c_2), une troisième contrainte (c_3) est établie par déduction :
Un ton absolu T ne peut pas être suivi par un autre ton montant (H ou U) ;
de même, aucun ton relatif L ou D ne peut suivre un ton absolu B.
(c_3)
Dans l’optique de faciliter la représentation phonologique des formes expressives
lors des passages aux niveaux macro-discursifs, nous avons introduit dans l’alphabet
formel adopté, un nouveau symbole, X, tel que :
X est un symbole quelconque de référence d’une forme, respectant les
contraintes de compatibilité formelle avec son successeur immédiat (qui
peut être tout symbole de l’ensemble {H, L, T, B, S, U, D})
Ici, X ne remplace pas le M (que nous n’utilisons pas car redondant), mais il sert
pour référencier les mouvements formels en vue de leur possible futur agencement
(par exemple, lors du passage à une échelle d’analyse plus globale, cf. plus bas).
Nous avons défini aussi quelques règles de réécriture formelle qui opèrent lors
d’une transition à une échelle plus globale d’analyse :
288
Lors d’un passage à un niveau global, tout symbole S, unique dans un
contexte (montant ou descendant) donné, se substitue à ce contexte. (c_4)
Comme corolaire à la contrainte (c_4), nous avons la contrainte formelle suivante :
Lors d’un passage à un niveau global, tout groupe des symboles HSH se
transforme en un mouvement de type U ; de la même façon, tout groupe
des symboles LSL, se transforme dans un mouvement de type D.
(c_5)
C’est justement ce passage obligé à des niveaux d’analyse plus globaux (i.e. de gph
ou de txt) qui pose ici quelques soucis, puisque le formalisme INTSINT à été utilisé
fréquemment dans des approches qui restreignaient l’analyse phonologique à l’étude
d’un groupement de mots, un syntagme ou une phrase, au maximum. Il a été aussi
employé, mais plus rarement (cf. [SIM’07], [NES’08] ou [VIO’00]), dans l’analyse des tours
de parole (par le prisme de notre modèle, ceux-ci sont des paliers macro-textuels,
d’ordre de gph) au sein d’un dialogue. Mais d’après nos lectures, ce formalisme n’a
jamais été utilisé pour l’analyse d’unités à portée plus étendue (i.e. un texte intégral).
Comme solution à ces sollicitudes de globalité, nous avons proposé une extension
du formalisme INTSINT. Celle-ci consiste à définir un formalisme de second ordre qui,
utilisant le même alphabet que celui du premier ordre (i.e. INTSINT habituel, étendu
avec le X), permettrait également l’étude des formes prosodiques globales. De sorte
que nous avons convenu d’attribuer le formalisme du premier ordre aux formes
situées au niveau gph et celui de second ordre, à celles situées au niveau txt. Ainsi, les
tons T et B sont des tons absolus pour un groupe phrastique spécifié, mais lors du
passage au texte, ils deviennent des tons relatifs. Pour les autres, ce passage vers le
global ne change rien : ils restent, dans tous les cas, des tons relatifs.
Nous avons ainsi introduit deux macro-tons absolus pour le txt, que nous convenons
de noter ici par T’ et B’, pour les différencier de ceux associés aux gph. Comme nous
cherchons à unifier les descriptions formelles pour les trois dimensions prosodiques,
nous remplaçons dans la suite le terme ton par celui plus générique de niveau.
Figure A6.4 : Niveaux absolus T et B et macro-niveaux absolus T’ et B’
Nous reviendrons dans les chapitres 6 et 8 avec de détails sur les interprétations
possibles de ces macro-niveaux absolus (la tessiture mélodique V8 ou temporelle V15).
289
ANNEXE A7
REPRESENTATIONS FORMELLES. REGLES DE CONSISTANCE.
Du point de vue constitutif, un mot formel littéral (noté mOt_lit) se définit comme une
chaîne bien formée de symboles issus de l’ensemble de base {X, T, B, H, S, L, U, D}.
Deux premières contraintes de consistance (contraintes (c_1) et (c_3)) de ces mOts_lit
ont été évoquées lors de la définition de l’alphabet formel (cf. annexe A6). Nous
complétons celles-ci avec un ensemble de règles de grammaire formelle, exprimées
par l’intermédiaire d’un automate aux états finis, de nature non-déterministe. Par
ceci, nous assurons la possibilité d’avoir plusieurs transitions à partir d’un état donné.
Nous définissons l’automate des mOts_lit par un quintuple <Σ, E, s0, δ, F>, tel que :
•
•
•
Σ est l’alphabet phonologique étendu (ensemble fini et non vide de symboles).
E est un ensemble fini et non vide d’états (ici, E est identique à Σ).
S0 est un état initial, un élément de E. Pour les automates non déterministes
(comme c’est notre cas), s0 est en fait un ensemble d’états initiaux :
S0 = {X, T, B, S, H, L}.
•
δ est la fonction décrivant la transition d’états :
δ : E x Σ -> E.
•
F est l’ensemble des états finaux, un sous-ensemble (non vide) de Σ :
F = {T, B, H, S, L}.
Notre automate forme ainsi un graphe orienté dont les états (i.e. les sommets)
correspondent aux lettres formelles issues de l’alphabet phonologique adopté et les
transitions (i.e. les arêtes) correspondent, effectivement, aux règles de bonne écriture
formelle, qui sont traduites par la fonction δ mentionnée, comme illustré ci-dessous.
Le schéma garde les caractéristiques typographiques typiques d’un automate à
états finis quelconque : les sommets en gras (T, B, H, S, L, U) sont les états finaux
(ensemble F) et ils se comptent ici également parmi les états intermédiaires ; ceux dits
« normaux » (U, D) sont des états intermédiaires, tandis que le sommet doublement
entouré (X) est l’état initial1. Les transitions transcrivant la fonction δ illustrent trois
sommets se « bouclant » sur eux-mêmes : S, U et D. Ceux derniers correspondent aux
seuls états intermédiaires qui sont auto-itératifs.
1
Précisons que selon l’affectation de ces mOts, tout état « normal » ou marqué en gras peut être un état initial.
290
T
*
B
**
H
*
S
X
**
L
U
D
Figure A7.1 : Représentation des transitions formelles pour les mOts
La fonction principale de cet automate consiste à vérifier la consistance formelle
des mOts_lit. Un mOt_lit se définit ainsi comme un chemin (« path ») formel π de
longueur n, dont nous représentons ici un segment :
δi
p[π ]
δ i +1
q[π ]
s[π ]
Figure A7.2 : Transitions d’états au sein d’un mOt_lit
L’état présent est noté par q, et les états p et s correspondent respectivement, à son
prédécesseur et successeur. Le passage de l’état p à l’état q se fait par la transition δi
et le passage de l’état q à l’état s, par la transition δi+1, pour tout indice i < n-1.
Les transitions marquées par (*) et (**) sont des transitions conditionnées. Une
transition (*) est possible ssi la condition C1 « le prédécesseur ne correspond pas à un
état T » est remplie. Pareillement, une transition (**) est possible ssi la condition C2
« le prédécesseur ne correspond pas à un état B » est remplie :
C1 :
C2 :
(δi+1*) ssi ((δi) & (p[π] != « T »))
(δi+1**) ssi ((δi) & (p[π] != « B »))
Si C est l’ensemble des contraintes nécessaires pour la transition des états δ (ici, C
= {C1, C2}), notre automate se redéfinit par le sextuple : <Σ, E, s0, δ, C, F>.
Nous pouvons illustrer quelques configurations de mOt_lit. Les expressions : (X T),
(X S), (X H B), (X L T), (X D B) sont des mOts_lit bien formées, tandis que l’expression
(X T H L B S) n’en est pas un, car elle présente deux points de conflit formel liés à la
fonction δ : la transition de T vers H et la transition de L vers B.
291
Puis, un mot formel (mOt) est défini sous la forme d’un couple respectif (mOt_lit,
mOt_num), où mOt_lit est la partie littérale mentionnée plus haut décrivant les
mouvements linéaires de variation des paramètres auxquels il est affecté, et
mOt_num est la liste ordonnée d’amplitudes de ces mouvements. Pour exemplifier,
soit (X T L) le mOt_lit décrivant l’allure d’un mouvement mélodique d’une syllabe et
(2 9 5), le mOt_num associé aux variations normalisées des amplitudes de ces
mouvements. Ainsi, le couple formel ((X, 2), (L, 5), (T, 9)) forme le mOt qui décrit le
mouvement mélodique (en direction en en amplitude) d’une syllabe.
292
ANNEXE A8
TAXINOMIE ELEMENTAIRE DE REPRESENTATIONS PHONOLOGIQUES
Nous proposons dans cette annexe une ébauche de classification pour la diversité
des représentations phonologiques des mOts_lit, telles qu’esquissées plus haut. En
considérant strictement leur « allure » (i.e. description de leur mouvement), nous
nous pouvons établir des regroupements élémentaires des mOts tels les suivants :
i)
classe alpha : regroupe les mouvements élémentaires d’une seule pente :
a. type 1 – XH, soit un mouvement uniquement ascendant
b. type 2 – XL, un mouvement uniquement descendant
c. type 3 – XS, un « mouvement » stationnaire (constant)
type 1
type 2
type 3
Figure A8.1 : Mouvements formels de classe alpha
ii)
classe béta : regroupe des mouvements plus élaborés, ayant deux pentes :
a. type 1 – XHS, soit un mouvement ascendant suivi d’un constant
b. type 2 – XSL, un mouvement constant suivi d’un descendant
c. type 3 – XSH, un mouvement constant suivi d’un ascendant
d. type 4 – XLS, un mouvement descendant suivi d’un constant
e. type 5 – XHL, un mouvement ascendant suivi d’un descendant (A)
f. type 6 – XLH, un mouvement descendant suivi d’un ascendant (V)
Figure A8.2 : Mouvements formels de classe béta
iii)
classe gamma : des mouvements élaborés, caractérisés par trois pentes :
a. type 1 – XHSL, soit une allure ascendante, constante, descendante
b. type 2 – XLSH, une allure descendante, constante, ascendante
c. type 3 – XHSH, une allure descendante, constante, descendante
d. type 4 – XLSL, une allure ascendante, constante, ascendante
e. etc.
293
Figure A8.3 : Mouvements formels de classe gamma
iv)
classes delta : à leur tour, ces classes regroupent des mouvements formels
encore plus élaborés, caractérisés par quatre pentes ou plus.
Soulignons que souvent, une même allure générale se rencontre dans la littérature
de spécialité sous des terminologies très différentes, selon les approches adoptées.
C’est précisément le cas des mouvements de classe béta de type 5 et type 6, renommés
par [CAM’01] mouvements de type Λ et respectivement V. Ils semblent interpeler
depuis longtemps les chercheurs en quête de représentation phonologique. De sorte
qu’ils se retrouvent dans les patrons composés proposés par [DEL’66], [VAI’75], [PIE’80],
ou [POS’00] (pour citer quelques uns) pour décrire les mouvements intonatifs d’une
phrase lue. [PIE’80] propose pour ces mouvements une symbolique différente, mais
équivalente (cf. formalisme de représentation phonologique ToBI). Elle emploie une
composition H*+L pour retracer une forme de type Λ, ainsi qu’une composition L*+H
pour une de type V. Pour illustrer, ces deux mouvements sont souvent rencontrés
lors de l’étude des traits prosodiques, tel l’accent syllabique [HIR’00], [DEL’84].
Remarquons que cette taxinomie formelle nous est utile dans le chapitre 8 pour
l’analyse des traits prosodiques récurrents et discernables des formes expressives
issues de notre corpus. Nous y reviendrons donc au moment nécessaire. Notons
toutefois ici, avec [PIE’80], que « la similarité du contenu n’est en général pas un bon
argument pour la similarité en forme ». Autrement dit, il n’est pas possible d’associer
de façon biunivoque un contour à un procédé locutoire sensé (telle la force illocutoire
évoquée en [CRU’86]). Cette proposition de taxinomie élémentaire nous sert donc pour
discerner uniquement les formes prosodiques, et non pas les sens du contenu verbal
sur lesquelles elles s’appliquent.
294
ANNEXE A9
SIGNATURES EXPRESSIVES EXTRINSEQUES. RESULTATS COMPARATIFS.
Nous esquissons dans cette annexe les résultats des quelques comparaisons formelles
effectuées entre les signatures expressives génériques, situationnelles ou idiolectales.
L’objectif final est de tracer quelques uns de leurs traits discernables, exprimés en
termes des différences entre les contraintes expressives agissant sur les variables
prosodiques (cf. chapitre 5, section 5.2). Il s’agit donc de la recherche de discernabilité
expressive sur les multiples portées prosodiques (cf. section 5.4).
Nous commençons par l’analyse comparative de quelques signatures expressives
situationnelles des fde, étiquetées au préalable (cf. annexe A3). Nous avons ainsi,
plusieurs scénarios de comparaison des signatures des formes issues d’une lecture
« typique » avec celles des formes issues des lectures simulées en mode « rapide »,
« lent », « interrogatif », etc. Ces comparaisons sont réalisées par les opérateurs de la
famille R, tels que mentionnés dans la section 5.4 et illustrés précédemment en 8.2 :
STRUCTURE
STRUCTURE
S
S
PERIODICITE
P
PERIODICITE
M
P
MOUVEMENT
M
MOUVEMENT
Figure A9.1 : Comparaison des signatures expressives ds (« interrogative » vs. « typique »)
Comme pour la comparaison des signatures expressives génériques des formes
expressivement hétérogènes, exposée dans la section 8.2, nous pouvons résumer ici le
résultat des comparaisons des signatures expressives situationnelles (« interrogatif »
vs. « typique ») sous la forme d’un tableau de contraintes prosodiques relatives :
295
Dimension prosodique
Niveau
d’analyse
syl
mélodique (F)
temporelle (T)
C1 : V1 très souvent en classe bêta-type 5 ou alpha-type2
(d’amplitude marquée, entre 3 et 15 εmel, mais irrégulière) pour
les syl terminales des syn ; dans le reste des cas, très
irrégulières et sans lien direct avec le contenu linguistique ;
C9 : V9 (/n° de phonèmes) couramment plus grandes pour
les syl terminales des syn, mais aussi pour celles de début ;
en général, en alternance irrégulière entre les très courtes
(40-50ms/phn) et les très longues (200 ms/phn) ; syl finale
de syn soit trop étirée, soit trop comprimée
C2 : V2 en classe delta très complexes, avec des mouvements H
L répétés et d’amplitude locale très variable (de 2 à 16 εmel)
C10 : V10 très variées, entre 4 et 8 syl/sec, peu dépendantes
de la position du syn dans le discours (cependant, souvent le
dernier syn est soit beaucoup plus rapide, soit beaucoup plus
lent, en fonction du mode d’interrogation choisi)
C3 : V3 usuellement montants (pente de +4, +8, voire +16 εmel)
pour la plupart des syn terminaux ; les règles IPM et AVM ne
s’appliquent plus, car la structure syntaxique et les contraintes
de ponctuation ont été volontairement violés (cf. section 5.3)
C11 : V11 très pertinentes ici, la lecture interrogative jouant
(comme celle indécise) sur la rupture des syntagmes
« typiques », de durée variable, entre 20-30 ms et 200-400
ms
C4 : V4 en classe delta très complexes (cf. V2) avec de
nombreux mouvements H L H répétés et d’amplitudes locales
considérables, mais très irrégulières
C12 : V12 prononcées, comportant des mouvements parfois
légèrement, parfois fortement montants, avec une
accélération régulière sur le dernier syn (niveau T à 8 u.t.),
globalement comparables avec celles « typiques »
syn
gph
C5 : V5 non pertinentes (*) ici
C6 : V6 localement plus flexibles, un peu plus étirées (avec les
niveaux T en montée plus forte que les B) et légèrement
déplacées vers le bas (-3 εmel) qu’en lecture « typique »
C13 : V13 très irrégulières, souvent inattendues quant à leur
emplacement et leur durée, qui varie entre 100 et 2000 ms ;
respectent quelques règles de concordance avec la structure
hiérarchique du discours et/ou avec la morpho-syntaxe
C7 : V7 irrégulières, très complexes, comme c’était le cas pour
la lecture « typique »
C14 : V14 non pertinentes (*) ici
C8 : V8 d’amplitude totale comparable avec celles en lecture
« typique » (soit de 28 vs. 26 εmel) qui traduit une excursion
mélodique globale située entre les niveaux absolus B de 7 et T
de 35 εmel)
C15 : V15 de tessiture plus grande qu’en lecture « typique »
(soit de 4 vs. 3 syl/sec) qui traduit une excursion de tempo
située entre les niveaux absolus minimum B de 4 et
maximum T de 8 syl/sec)
txt
C16 : V16 considérables (1500-2000 ms), grandes (900-1200
ms), moyennes (600-700), courtes (300-500) et très courtes
(environ 100 ms) dispersées sans contraintes de syntaxe ou
de hiérarchie discursive
C17 : V17 beaucoup plus grande pour la lecture
« interrogative » vs. « typique »(soit environ +80%)
Tableau A9.1 : Contraintes expressives partielles pour la signature ds « interrogative » (vs. « typique »)
296
D’une manière similaire, nous pouvons comparer dans la suite les signatures
expressives situationnelles des certaines formes expressivement hétérogènes (issues
d’horoscopes en lecture simulée en mode « rapide » vs. « typique », cf. section 4.1.2.2),
pour le même ou pour l’autre locuteur. Nous schématisons ici le premier scénario :
STRUCTURE
STRUCTURE
S
S
PERIODICITE
P
PERIODICITE
M
P
MOUVEMENT
M
MOUVEMENT
Figure A9.2 : Comparaison des signatures expressives ds (« rapide » vs. « typique »)
Nous résumons le résultat de ces analyses prosodiques comparatives en termes de
contraintes partielles sur les variables prosodiques, sous la forme d’un tableau de
contraintes relatives (cf. tableau A9.2). Nous pouvons distinguer ici un ensemble de
traits prosodiques des signatures expressives des deux formes comparées :
Dimension prosodique
Niveau
d’analyse
mélodique (F)
temporelle (T)
syl
C1 : V1 en classe alpha-type1 ou bêta- type 5 d’amplitude
entre 3 et 12 εmel pour les syl accentuées des mots en emphase
(signes, titres sections, verbes injonctifs, etc.)
C9 : V9 (/n° de phonèmes) presque doublées les syl
terminales des syn non-terminaux par rapport à celles nonterminales (soit 80-100 ms vs. 35-40 ms), légèrement plus
grandes pour les titres-signes et les corps-section (soit 100120 ms vs. 50-60 ms), donc globalement des syllabes plus
courtes qu’en lecture « typique »
syn
C2 : V2 en classe bêta-type, amplitude 9-12 εmel pour les
syntagmes indépendants courts (de type signe titre), en classe
delta avec des variations d’amplitude d’environ 2-3 εmel plus
complexes
C10 : V10 dépendantes des regroupements syntagmiques,
non-significatives pour les titres signes (car gphs uni-syn,
bi- ou tri-syl), en moyenne de 7-8 ou de 9-10 syl/sec pour les
syn des autres gph (titres- et corps-section), donc plus rapide
297
gph
C3 : V3 en pente négative moyenne (6-9 εmel) pour tous les syn
terminaux et globalement en alternance +/- de 5-6 εmel pour les
syn consécutifs (moins nombreux) de la même phrase
C11 : V11 inexistantes(ou « short-pause ») pour cette lecture
C4 : V4 identiques à V2 pour les titres-signe et les titressection, et en classe delta très complexes, avec de nombreux
mouvements H L répétés, d’amplitude locale de 3-4 εmel pour
les corps de section
C12 : V12 assez prononcés (environ 3 syl/sec) pour la lecture
en mode « rapide », avec un tempo générale de 7-10 syl/sec.
C5 : V5 non pertinentes (*) ici
C6 : V6 considérables (9-12 εmel) pour les titres-signes et les
titres-section, et encore plus importantes (jusqu’à14 εmel) pour
les gph de type corps de section, mais globalement moins
marquantes (- 4-5 εmel) qu’en lecture « typique »
C13 : V13 inexistantes ou extrêmement courtes (de 40 ms)
si après ou entre les syn moyens (composés de 12-14 syl) ;
V13 moyennes (de 60 à 100 ms) si placées à la frontière des
deux syn longs et/ou marquées par une ponctuation forte ;
C7 : V7 non pertinentes (*), comme pour la lecture « typique »
C14 : V14 non pertinentes (*) pour cette recherche
C8 : V8 d’amplitude moyenne de 12 εmel (soit une excursion
mélodique située entre le niveau B absolu moyen de 13 εmel et le
niveau T absolu moyen de 25 εmel), donc une tessiture plus
compactée (-6 εmel) et déplacée vers le haut avec + 5 εmel
C15 : V15 d’amplitude moyenne de 3 syl/sec (soit une
excursion temporelle située entre le niveau B absolu de 7
syl/sec et le niveau T absolu de 10 syl/sec), donc une
tessiture temporelle plus grande et déplacée vers le haut
txt
C16 : V16 courtes (100-120 ms) entre les signes et les titressection, ainsi qu’entre les titres-section et les corps-section ;
V16 fortes (700-1000 ms) entre les corps-section et le titre de
la section suivante, remplies tout le temps avec des
respirations complètes
C17 : V17 d’environ 33 sec pour la lecture rapide, vs. 45 sec
pour celle « typique »
Tableau A9.2 : Contraintes expressives partielles pour la signature ds « rapide » (vs. « typique »)
Nous pouvons observer dans le tableau A9.1 que la signature situationnelle en
mode « interrogatif » n’introduit pas uniquement des variations importantes sur les
portées mélodiques, mais également sur les portées temporelles et de pause (dont ces
dernières, essentielles). Elle repose sur diverses ruptures des syntagmes syntaxiques
et/ou « typiquement » rythmiques, tout comme la lecture « sportive » (qui, elle, était
encore moins prévisible que pour celle « interrogative »), l’a fait, mais différemment.
L’élocution interrogative introduit également de la variation dans les tempos locaux,
ainsi qu’un léger élargissement des tessitures globales mélodiques et temporelles.
Cf. A9.2, l’accroissement du tempo général de lecture (vs. mode « typique ») remet
en question les groupements syntagmiques habituels, et réduit énormément la durée
des pauses, qui deviennent remplies de respirations. L’élargissement de la tessiture
temporelle s’accompagne souvent d’une diminution de celle mélodique.
298
Nous pouvons procéder pareillement pour l’analyse des discernables prosodiques
des signatures expressives idiolectales rp des certaines fde. Nous avons ici également
plusieurs scénarios de comparaison possibles. Un peut concerner les formes issues
des lectures « typiques » d’un même texte, réalisées par deux locuteurs différents :
STRUCTURE
STRUCTURE
S
S
PERIODICITE
P
PERIODICITE
M
P
MOUVEMENT
M
MOUVEMENT
Figure A9.3 : Comparaison des signatures expressives rp « typique » (Alain vs. Geneviève)
Si nous résumons le résultat de ces comparaisons prosodiques sous la forme des
jeux de contraintes prosodiques partielles sur les multiples variables prosodiques,
nous pouvons en extraire des traits expressifs de discernabilité prosodique entre les
signatures idiolectales des formes expressives comparées. Ils révèlent souvent une
variabilité dans les tessitures globales (txt), mais aussi dans les portées locales (syl).
Précisons que les signatures expressives des formes issues des lectures « rapide »,
« interrogative », et « typiques », mettant en jeu une variabilité prosodique selon la
dimension ds et respectivement rp, peuvent être facilement exprimées en termes de
notre approche par contraintes prosodiques. Cependant, nous avons remarqué que
les lectures simulées en élocution « fillette », « vieux », « bégayée », etc. ou avec
divers accents étrangers, qui mettent en jeu une variabilité expressive notamment sur
la dimension rp, révèlent, certes, plusieurs traits prosodiquement discernables, mais
également d’un ensemble de traits expressivement signifiants qui ne peuvent pas être
traduits en termes des contraintes sur les variables prosodiques, telles que définies
dans notre travail. Très souvent, ces traits portent des informations pertinentes pour
la discernabilité expressive qui se trouvent au niveau segmental [YE’04], qui n’est pas
représenté dans notre cadre présent de modélisation. C’est le cas, par exemple, des
phonèmes doublés récurrents dans la lecture en mode « bégayée », ou des phonèmes
modifiés par diverses techniques opérant sur l’appareil phonatoire, pour les lectures
simulées comme « vieux », « aristocrate », en mode « enrhumé », etc.
299
ANNEXE A10
CORPUS POUR L’ETUDE DES SIMILARITES PROSODIQUES TRANS-GENERIQUES
Résumé
Nous proposons ici un ensemble varié de textes courts, hétéroclites relativement à leur
appartenance générique, qui forment le corpus dédié à l’étude comparative des formes
expressives discursives au sujet des similarités prosodiques intrinsèques par rapport au
corpus initial d’horoscopes (cf. annexe A1). Cette annexe comporte, dans l’ordre : i) un
ensemble de conseils à thème varié (diverses astuces pour les bricoleurs, pour
l’entretien de la maison, pour le jardinage ou la cuisine, ainsi que quelques conseils de
santé, de beauté, ou sportifs) ; ii) une variété de textes publicitaires courts ; iii) un
ensemble de citations et de proverbes, particulièrement typés ; iv) un ensemble réduit
de brèves recettes de cuisine ; v) un ensemble composé d’extraits de genres textuels
variés et d’un ensemble des textes spécialement inventés pour cette étude.
Sommaire :
A10.1
A10.2
A10.3
A10.4
A10.5
Corpus des conseils divers (maison, jardinage, cuisine, santé, beauté) ……………………… 286
Corpus de textes publicitaires en ligne courts …..…….……………………..………………….. 288
Corpus de citations et proverbes …………………………………………………………………. 289
Corpus de recettes de cuisine ….………………………………………………………………….. 291
Corpus des textes divers ……………….………………………………………………………….. 292
300
A10.1 Corpus de conseils variés (maison, jardinage, cuisine, santé, beauté)
Ce premier corpus dédié à l’étude comparative de similarités prosodiques transgénériques est constitué d’un ensemble de conseils à thème varié. Il rassemble des
astuces destinées à un public diversifié, qui visent des pratiques qui tournent autour
des activités à la maison (i.e. bricolage, jardinage, cuisine, etc.), aussi bien que des
pratiques de nature plus « esthétique » (comme les conseils de santé et de beauté).
La principale source pour la collecte de ce corpus est : http://www.astucesmaison.com.
i) conseils pour les pratiques de la maison :
« Pinceaux durcis :
Pour ramollir vos poils de pinceaux qui ont durci, laissez tremper dans un bain de vinaigre bouillant
et rincez à l'eau froide. »
« Pour donner de la clarté à une pièce, placez un miroir en face d'une fenêtre afin que la lumière de la
fenêtre reflète dedans. Vous aurez l'impression d'avoir une fenêtre supplémentaire. »
« Tableau photo pas cher :
Prenez un grand calendrier et recouvrez-le avec une chute de papier peint. Vous pouvez coller ensuite
des photos ou des découpages dans des catalogues de voyage de magnifique paysages. »
« Cuisine ratée :
Pour nettoyer une casserole qui a brulé, il suffit de remplir le fond de votre casserole avec de l'eau et
un peu de javel. »
« Pépins de tomate :
Récupérez vos pépins de tomate et étalez-les sur un mouchoir en ouate, ou en coton. Humidifiez.
Quand ça commence à germer, mettez la feuille directement en terre, c'est biodégradable ! »
ii) conseils pour les pratiques esthétiques et de santé :
« Couper ses cheveux :
Avant de vous faire faire une coupe chez votre coiffeur, regardez les lunes sur votre calendrier. Les
cheveux poussent moins vite, lune descendante. »
« Bronzage rapide et uniforme :
Étalez de l’huile d’olive sur votre peau avant d’aller au soleil. Vous aller voir la différence. »
« Hoquet :
Placez un morceau de sucre dans une cuillère à soupe et l'imbiber de vinaigre de vin. Croquez-le et
vous allez voir, le hoquet est terminé !
« Levez, baissez, levez, baissez ! Allez, maintenant on fait l'autre doigt ! Et si l'on faisait du sport pour
être moins stressé… ! »
301
A10.2 Corpus de textes publicitaires en ligne courts
Ce deuxième corpus dédié à l’étude comparative de similarités prosodiques transgénériques est constitué d’un ensemble de textes publicitaires courts, à visée sérieuse
ou hilaire. Il rassemble des textes destinés au grand public, qui incitent à tester ou à
acheter des produits ou des services, aussi bien qu’à participer à des divers jeux à
gain en produits ou services. La façon dont cette incitation se fait diffère selon le cas,
et peut traduire soit un style d’adresse distant et sobre, soit, au contraire, un style
d’adresse direct, parfois volontairement impertinent. Les sources pour la collecte des
textes composant ce corpus sont publiées sur internet (cf. références individuelles) :
« Venez tester vos connaissances et repartez avec un des nombreux billets d’avion mis en jeu. Jouez ! »
(www.sncf.com)
« Libérez-vous de vos crédits ! Regroupez-les en un prêt unique et réduisez considérablement vos
mensualités ! Offre spéciale ! » (www.bcfinance.com)
« Envolez-vous à petits prix ! Avec nous, voyager c’est facile ! Séjours au soleil ou croisières, à vous de
choisir ! » (www.easyvoyages.com)
« Gagnez un an de salaire ! Un cadeau offert à l’inscription ! Cliquez-ici ! » (www.kingoloto.com)
« Grâce à la carte Cdiscount, vous bénéficiez d’une offre de bienvenue pour votre première commande
réglée avec votre carte Cdiscount. » (www.cdiscount.com)
« Municipales 2008 : Présentez-vous ou votez pour le meilleur candidat ! Notez les meilleures idées
pour votre ville ! Votez ! » (www.maville.com)
« Ne ratez pas la huitième journée de sommeil ! » (www.matelsom.com)
« Vous allez craquer pour les chaussures Bluedy, la nouvelle marque qui monte… Commandez avant
14h, votre commande sera expédiée le jour même ! » (Bluedy, chez www.sarenza.com)
« Construisez la maison de vos rêves et visitez-la virtuellement ! Dessinez vos plans au millimètre près.
Aménagez et meublez votre intérieur ! Agencez votre jardin! » (www.microapp.com)
« A force de cuisiner vos petits plats en amoureux, vous vous êtes enveloppés de bonheur… mais
aussi de kilos ! En appliquant nos astuces diététiques et mesures réalistes, vous verrez qu'à deux, on
maigrit beaucoup mieux ! » (http://www.doctissimo.fr)
« La colle STOP PV, spéciale conçue pour vous ! Facile à utiliser :
1. Appliquer quelques goûtes le long de l’essuie-glace
2. Pressez-le fermement sur le pare-brise
3. En une minute, votre voiture sera inverbalisable.
Garantie 5 ans indécollable. Trop facile, résiste aussi aux tracts publicitaires.
Stop PV, vu sur internet ! » (www.pasdepv.com)
302
A10.3 Corpus de proverbes et citations typés
Ce troisième corpus dédié à l’étude des similarités prosodiques trans-génériques est
constitué d’un ensemble de proverbes et des citations, qui, similairement aux textes
publicitaires de l’annexe A10.2, peuvent avoir soit une visée sérieuse, soit une visée
volontairement orientée vers le hilaire. Présumés soit à relever d’une doxa générale
et donc à exposer des vérités supposées communément valables, soit à exprimer des
idées ou des croyances personnelles, ces textes se caractérisent par un style d’adresse
très direct et directif, presqu’autoritaire. Ils ont été recueillis sur [EVE’08] :
« Si tu veux que quelqu'un n'existe plus, cesse de le regarder. » [Proverbe arabe]
« De votre ami, dites du bien, de votre ennemi, ne dites rien. » [Proverbe anglais]
« N'offre pas une cravate à qui a besoin d'une chemise. » [Proverbe anglais]
« Si vous ne voulez pas qu'on le sache, mieux vaut encore ne pas le faire. » [Proverbe chinois]
« Ne vous mettez pas en avant, mais ne restez pas en arrière. » [Proverbe chinois]
« Honorez le médecin avant que vous n'ayez besoin de lui. » [Proverbe hébreu]
« Ne courez jamais après un autobus, ni après une fille ; il en viendra d'autres. » [Proverbe italien]
« La mauvaise plaie se guérit, la mauvaise réputation tue. » [Proverbe espagnol]
« Mesdames, un conseil. Si vous cherchez un homme beau, riche et intelligent... prenez-en trois ! »
[Coluche]
« Si vous avez besoin de quelque chose, appelez-moi. Je vous dirai comment vous en passer. »
[Coluche]
« Si vous ne savez pas où vous allez, vous finirez probablement quelque part ailleurs. » [Laurece Peter]
« S'il est incertain que la vérité que vous allez dire soit comprise, taisez-la. » [Maurice Maeterlinck]
« N'allez jamais chez un docteur dont les plantes de la salle d'attente sont mortes. » [Erma Bombeck]
« Prenez le temps de réfléchir, mais quand vient le moment de passer à l'action, cessez de penser et
allez-y ! » [Andrew Jackson]
« Les voitures de F1, si vous les trouvez faciles à conduire, c'est que vous n'allez pas assez vite. »
[Mika Hakkinen]
« Allez comprendre : le travail anoblit l'homme, mais le rend esclave ! » [Pierre Doris]
« Le meilleur moment pour tenir votre langue, c'est quand vous sentez que si vous ne dites rien, vous
allez exploser. » [Josh Billings]
303
A10.4 Corpus de recettes de cuisine
Ce quatrième corpus pour l’étude des similarités prosodiques trans-génériques est
composé d’un ensemble de recettes de cuisine simplifiées ou traditionnelles. Si les
premières traduisent un style d’adresse direct et familier, les secondes relèvent d’un
style volontairement plus distant. Les sources sont [LIN’08] et respectivement [JOB’05] :
« Plus simple, c’est impossible ! Pour réaliser cette entrée pleine de couleurs, vous n'aurez qu'à enfiler
des cubes de gruyère, des tomates cerise, des petites boules de mozzarella et quelques tranches de
chiffonnade de jambon. Bon appétit !»
« Pour réaliser cette délicieuse salade, il suffit de râper du chou blanc, des carottes et éventuellement
des pommes. On ajoute des raisins secs, et une sauce à base de mayonnaise et le tour est joué. »
« Enfantins à préparer, ces petits flans délicatement sucrés nous rappellent les desserts de nos grandsmères. Déclinez-les au chocolat, au caramel etc. et découvrez un plaisir nouveau chaque fois. »
« Le mixer fait tout. Laissez-le réduire votre belle mangue mûre en coulis avec une touche de sucre
puis versez cette pulpe en alternance avec du fromage blanc. Ultra simple mais efficace ! »
Mûres à la crème de marron
Ingrédients pour 4 personnes :
- 400 g de mûres
- 15 g de beurre
- 2 sachets de sucre vanillé ou 2 cuillères à soupe de sucre en poudre
- 125 g de crème de marron à la vanille ou nature.
- 20 cl de crème liquide très froide.
- 4 petits sablés pur-beurre.
Mettez un saladier à glacer 5 minutes dans le congélateur.
Faites chauffer le beurre sur feu dans une poêle. Ajoutez les mûres et le sucre. Laissez chauffer en
remuant pendant 2 minutes.
Répartissez la crème de marron, puis les mûres et le jus de cuisson dans 4 verres.
Montez la crème liquide ne crème fouettée ferme dans le saladier glacé. Répartissez- la sur les murés,
piquez un petit sablé dans chaque verre et servez aussitôt.
Le gâteau au yaourt
Ingrédients :
- 1/2 pot d'huile
- 1 pot de yaourt nature sucré ou non
- 2 pots de sucre
- 3 pots de farine
- 2 œufs
- 1 sachet de levure
Mélangez tous les ingrédients. Versez dans un moule beurré et faites cuire une petite demi-heure au
four, jusqu'à ce qu'une pointe de couteau enfoncé dedans, ressorte tout propre.
Avec des fruits coupés en dés (pommes ou poires), le gâteau est encore plus fondant et moelleux. On
peut le recouvrir de chocolat fondu. Ça sera plus riche, mais très bon également.
304
A10.5 Corpus de textes divers
Ce cinquième corpus dédié à l’étude des similarités prosodiques trans-génériques est
composé d’un assortiment1 des textes de genres très différents, laissés à découvrir :
« L’homme n’a rien de mieux à faire qu’à essayer d’être en parfait accord avec lui-même, disait Freud.
Essayez ! »
« Balancez-vous. Dans un fauteuil à bascule, dans un hamac, où vous voulez. Mais balancez-vous. »
« Plantez un arbre à chaque événement important : fruitier pour un anniversaire, chêne pour une
naissance. »
« Vous avez réussi à utiliser cette compétence. Ce déplacement vous a coûté 3 PA et il nous en reste 3.
Un événement aléatoire s’est produit durant votre action : vue encombrée (rareté 3). La zone où vous
vous trouvez est pleine d’éblouis et vous n’y voyez goutte. Votre vue est diminuée de 3 cases. »
« Ma Bimbo est le premier jeu virtuel de mode !
Tu fais évoluer une Bimbo moderne à travers le temps, dans un jeu de simulation qui caricature le
monde réel. Il te faudra la nourrir, l'habiller, la coiffer, lui trouver un petit ami, ou un logement etc.
Remplis tes objectifs pour devenir la Bimbo la plus populaire ! »
« La signalisation m’indique un double sens de circulation :
a. Oui
b. Non
Je peux m’engager :
a. Oui
b. Non
(Réponse a. La signalisation indique une circulation alternée en cas de croisement.) »
« Lors d’une soirée romantique, votre fiancé vous demande en mariage. Vous vous engagez :
a. Oui
b. Non
(Réponse : a. ou b, selon vos envies.) » (*)
« Pour faire des économies, faites confiance aux talents de votre mari pour votre coiffure et votre
maquillage. Cela ne vous coûte rien à essayer au moins une fois ! » (*)
« N'hésitez pas à dépenser pour acheter une voiture de luxe. Cela rendra votre voisin jaloux. » (*)
« Pour faire fuir vos amis qui sont envahissants, ne lavez pas votre chien et laissez le se salir dans les
fumiers des cochons. Laissez-le sauter sur vos amis. Effet garantit ! » (*)
« Une maison à vendre, au bord de la falaise. Elle abrite de nombreuses petites bêtes aux yeux rouges
et héberge de temps en temps les fantômes. À réserver pour les plus courageux clients ! »
« Si vous avez envie de ne pas payer les impôts, contactez-nous au numéro suivant 02 52 36 05 20 20 ».
1
L’auteur tient à remercier Katell A. pour son aide à la constitution des textes « décalés », marqués ici par (*).
305

Documents pareils