Les reconnaissances de la parole

Transcription

Les reconnaissances de la parole
Marie-José Caraty* — C. Montacié **
* Université Paris Descartes - LIPADE
45, rue des Saints Pères - 75006 Paris
[email protected]
** STIH, Université Paris-Sorbonne, France
Studia Informatica Universalis.
108
1. La parole dans tous ses états
La reconnaissance de la parole est l’une des tâches pionnières de l’Intelligence Artificielle (IA) consistant à reproduire la capacité d’un être
humain à extraire des informations de la parole produite par un autre
être humain. Cette tâche, trop complexe pour être reproduite par un système informatique unique, a été subdivisée en plusieurs sous-problèmes
en fonction du type d’informations à extraire et à reconnaître. Les problématiques les plus étudiées sont la reconnaissance du locuteur, de
son état émotionnel, de la langue employee et du langage parlé. Les
recherches sur la résolution des ces tâches ont donné lieu, depuis une
vingtaine d’années, à des dizaines de milliers de publications, des centaines de bases de données de parole, des dizaines de campagnes internationales d’évaluation. Les progrès ont été importants et ont permis le
développement d’applications importantes en communication hommemachine comme la dictée vocale ou les systèmes de dialogues finalisés des serveurs vocaux interactifs (SVI). Cependant de nombreuses
recherches restent indispensables en raison de l’ampleur du problème
et de sa variabilité : 7 milliards de locuteurs, plus de 500 noms d’émotions, près de 7000 langues et quelques centaines de milliers de mots par
langue. D’autres types d’information restent pour l’instant pratiquement
inexploités comme l’accent, l’état physiologique, le niveau de stress ou
de fatigue.
La modélisation markovienne de la parole est un sujet de recherche
partagé entre toutes ces problématiques. Ce modèle et ses dérivés
comme les réseaux bayésiens ou les combinaisons de gaussiennes
(GMM) permettent l’intégration des informations acoustiques de la parole continue avec des informations symboliques représentant les informations transmises et à reconnaître. Des méthodes efficaces permettent
d’inférer ces modèles à partir de la parole, d’estimer leurs paramètres
et de proposer des méthodes de reconnaissance de complexité polynomiale.
Combinatorial Optimization in Practice
109
1.1. Les caractéristiques individuelles et la reconnaissance du
locuteur
Les caractéristiques individuelles d’un locuteur permettent à ses interlocuteurs de le reconnaître par sa voix [1]. Ces caractéristiques sont
soit des traits acoustiques [2] reliés à la physiologie de l’appareil phonatoire (géométrie et qualité des organes de phonation), soit des traits
linguistiques reliés à l’apprentissage du langage parlé comme les accents régionaux [3] ou sociaux [4]. Le premier système automatique de
reconnaissance du locuteur date de 1963, mais ce n’est que depuis une
vingtaine d’années que ce domaine a éveillé l’intérêt d’un nombre croissant de chercheurs, d’industriels, de policiers et de juges [5]. L’utilisation de mots-clés était indispensable dans les premières méthodes développées [6], mais la plupart des systèmes actuels sont indépendants du
texte prononcé. Les techniques développées utilisent trois types d’approches : statique, dynamique et linguistique. Les systèmes de reconnaissance du locuteur peuvent naturellement combiner plusieurs de ces
approches. Les deux premières approches s’appuient sur des informations purement acoustiques [7]. Elles se différencient par l’utilisation ou
non de paramètres représentant l’évolution temporelle du signal vocal
[8]. L’approche linguistique est fondée sur l’analyse du lexique employé
et des variantes dialectales utilisées [9]. Les deux principales applications de la reconnaissance du locuteur sont : –la vérification de l’identité
pour protéger l’accès physique à des locaux sensibles ou l’accès distant
à des informations confidentielles et –la vraisemblance de preuves en
justice dans le cadre de la comparaison de voix de justiciables.
1.2. La langue et sa détection
Près de 7000 langues sont référencées dans le monde [10] dont plus
de 300 sont parlées par plus d’un million de personnes. Chacune de ces
langues a des caractéristiques phonologiques (ensemble des sons) [11],
morphologiques (ensemble des mots), et prosodiques (position des accents et intonations dans les mots, valeur sémantique des accents) différentes. Elles appartiennent à plus de 100 familles de langues (sinothibétaine, indo-européenne, dravidien, . . .) [12] construites à partir
de caractéristiques linguistiques communes. Les premières recherches
110
datent des années 1970, avec à un taux d’identification de 62% pour des
segments de parole de 90 secondes en sept langues [13]. La principale
problématique a été de diminuer la durée des segments tout en augmentant le nombre de langues. Les recherches ont pu être grandement facilitées par la disponibilité de la base de l’Oregon Graduate Institute (OGI)
dédiée à l’identification des langues et comportant des enregistrements
de communications téléphoniques (voix spontanées) en 22 langues [14].
Deux approches sont étudiées pour cette problématique, l’une est purement acoustique, l’autre plus difficile à mettre en IJuvre est linguistique.
L’approche acoustique consiste à représenter une langue par les réalisations acoustiques de ses phones [15] et des règles phonotactiques. Cette
approche donne de bons résultats si les langues ont un domaine acoustique nettement différencié, mais trouve rapidement ses limites quand
le nombre de langues augmente. L’approche linguistique est basée sur
la reconnaissance de mots [16] ou de syllabes spécifiques [17] d’une
langue, l’importance des ressources linguistiques à mettre en IJuvre
(dictionnaire et modèle de langage pour chaque langue à reconnaître)
rend cette approche plus difficile mais plus prometteuse que la précédente. L’application principale de la détection automatique de la langue
ou de la famille de langues est le routage automatique d’appels téléphoniques vers la personne ou le système de reconnaissance de la parole
susceptible de traiter la langue. D’autres applications existent dans le
domaine de la sécurité.
1.3. Le langage et la reconnaissance du langage parlé
Depuis plus de 100 000 ans et le passage de la langue des gestes
au langage parlé [18], la parole est le moyen principal de communication entre les humains. Depuis près de 60 ans, la recherche en reconnaissance automatique du langage parlé est l’un des enjeux majeurs
de l’intelligence artificielle. Sa problématique principale est l’association d’un signal biologique, bruité et d’une grande variabilité spatiale
et temporelle [19], aux structures symboliques du langage (phonétique,
phonologique, lexical, morphologique, syntaxique, sémantique, pragmatique et rhétorique). Les recherches en reconnaissance du langage
parlé consistent d’une part à modéliser cette variabilité par des méthodes statistiques (e.g., modèles markoviens) et de recherche opéra-
111
tionnelle (e.g., programmation dynamique) et d’autre part de définir des
processus de transduction entre les modèles du signal de parole et certaines structures de la langue. Les principales tâches associées à la reconnaissance du langage parlé sont le décodage acoustico-phonétique,
la détection de mots-clés et la reconnaissance des mots de la parole
continue. Le décodage acoustico-phonétique (DAP) consiste à extraire
d’une analyse du signal vocal, une hypothèse de treillis des phonèmes.
Les meilleures performances obtenues sont de l’ordre de 75% pour de
la parole lue [20] et de 60% pour de la parole conversationnelle téléphonique [21]. La détection de mots-clés [22, 23], cherche à reconnaître et
à localiser toutes les occurrences des mots d’une liste de mots-clés dans
un continuum de parole donné. Le taux de détection est donné en fonction du nombre de fausses alarmes par millier de mots-clés détectés et
par heure de parole (fa/kw/h). Il est de 15% à 25% pour 5 fa/kw/h pour
de la parole conversationnelle téléphonique [24]. La troisième tâche, la
reconnaissance des mots en parole continue, consiste à reconnaître tous
les mots d’une élocution prononcée de manière continue, c’est-à-dire
sans pause artificielle entre les mots. Les premiers systèmes datent du
début des années 90 [25]. L’apprentissage statistique à grande échelle
sur des milliers d’heures de parole [26] et des centaines de millions de
mots provenant de textes écrits et de transcriptions du langage parlé
a permis d’obtenir des lexiques de prononciation des mots ainsi que
des modélisations stochastiques de la parole et du langage parlé. Ces
ressources, utilisées pour diminuer l’espace de recherche des suites de
mots possibles, permettent d’obtenir des algorithmes de décodage de
complexité polynomiale. Les performances de reconnaissance sont de
l’ordre de 90% dans les meilleures conditions (voix lue avec une vitesse d’élocution contrôlée, sans émotion et sans bruit). Les taux de
reconnaissance chutent fortement quand ces conditions changent [19].
Dans tous les cas, les performances des systèmes de reconnaissance du
langage parlé restent très éloignées des performances humaines [27].
1.4. La parole émotionnelle et la reconnaissance de l’émotion
La réaction par le système limbique à un stimuli extérieur (e.g., situation de danger) provoque une réponse émotionnelle innée de l’être
humain par l’envoi de signaux vers les systèmes moteurs et le système
112
nerveux central [28]. Ces signaux perturbent les commandes de l’appareil phonatoire [29] et les processus cognitifs de production du langage
parlé [30]. La parole émotionnelle est alors la vocalisation de la réponse
émotionnelle. La parole émotionnelle peut également être apprise et
produite volontairement par le locuteur sans stimuli extérieur [31]. Dans
les deux cas, cette parole est porteuse d’informations sur les émotions
transmises par le locuteur, qu’elles soient ressenties ou simulées. Ces
informations perceptibles par un autre être humain constituent le message émotionnel [32]. Deux types de problématiques sont associés à la
reconnaissance de ce message dans la parole : la représentation d’une
émotion et la détection des corrélats acoustiques et linguistiques associés à cette représentation. Selon les différentes théories émotionnelles,
une émotion peut être représentée par une classe d’émotions [33, 34] ou
par un point dans un espace de dimension réduite [35]. Dans le cadre
de la reconnaissance de l’émotion, les deux types de représentation sont
utilisés : émotions positives et négatives, agréables ou désagréables ou
choix parmi une liste comme par exemple {colère, peur, tristesse, joie,
dégoût et surprise}. Les premiers travaux de reconnaissance automatique de l’émotion datent des années 80 [36]. Plus d’une vingtaine de
bases de données de parole émotionnelle, validées à l’aide d’un corpus d’auditeurs, sont maintenant référencées [37]. Dans la littérature,
les taux de reconnaissance varient de 50 à 75% pour une discrimination
entre 4 à 6 émotions. De nombreux paramètres acoustiques et linguistiques sont étudiés comme la qualité de la parole, le timbre, la prosodie,
l’accentuation et l’intonation des mots [38]. Les principales applications
sont –l’amélioration des interfaces homme-machine par l’ajout d’une
composante émotionnelle, –la détection automatique de situations de
catastrophes ou de comportements anormaux.
2. Modélisation markovienne
Plusieurs facteurs expliquent le succès et l’utilisation généralisée du
cadre markovien [39] pour modéliser la parole : les propriétés mathématiques de convergence, le développement et la mise à disposition de grandes bases de données nécessaires à l’estimation statistique,
une architecture adéquate à l’intégration de connaissances symboliques
(linguistique, psychologique, physiologique, . . .) avec les descriptions
113
numériques du continuum de parole (observations). Les premières recherches ont eu lieu au début des années 70 par J. K. Baker [40] et F.
Jelinek [41] et cette modélisation est aujourd’hui encore à la base des
systèmes de l’état de l’art en reconnaissance de la parole.
Dans le cadre markovien, le processus de décodage de la parole en
une suite de symboles (identité du locuteur, langue parlée, phonèmes,
mots, état émotionnel) utilise la règle de décision du maximum a posteriori [42] :
w0 = arg maxw P (w/x)
(w)
= arg maxw P (x/w)P (w)
= arg maxw P (x/w)P
P (x)
(1)
où :
– x est la séquence d’observations représentant le continuum de parole,
– w0 est la suite de symboles décodés,
– P (x/w), la probabilité d’observer la séquence d’observations x
pour un continuum de parole étiqueté avec la suite de symboles w,et
– P (w), la probabilité d’un continuum de parole étiqueté avec la
suite de symboles w
Le modèle markovien présente l’intérêt d’un traitement global des
niveaux acoustiques et symboliques pour le décodage et d’un apprentissage indépendant de la modélisation du canal acoustique et de la modélisation du langage de symboles. Cependant la reconnaissance markovienne est coûteuse en temps de calcul et en mémoire dans le cas
d’un décodage optimal. Des méthodes d’élagage permettent d’établir
un compromis entre les solutions algorithmiques (recherche et optimisation) et les contraintes matérielles (rapidité et mémoire).
2.1. Modélisation du canal acoustique
Un modèle de Markov caché permet de modéliser la séquence d’observations associée à un symbole. Il est constitué de l’association d’une
chaîne de Markov homogène et des fonctions de densité de probabilité des observations [43]. Une chaîne de Markov homogène est représentée par un automate d’états finis probabiliste constitué d’états et de
114
transitions entre états. A chacune des transitions est associée une fonction de densité de probabilité. Elles permettent de mesurer la probabilité conjointe d’une séquence d’observations associée à une séquence
de transitions de l’automate. La somme des probabilités conjointes sur
l’ensemble des séquences de transitions est la probabilité que ce modèle de Markov émette la séquence d’observations. Il constitue le terme
P (x/w) de l’équation (1). La topologie du modèle de Markov (nombre
des états de l’automate et transitions autorisées entre ces états) est choisie a priori. Une des topologies usuelles, le modèle de Bakis [44], est
un bon compromis entre le nombre de transitions et celui des états. Il
comprend trois types de transitions : boucle sur le même état, transition
vers l’état suivant, saut d’un état. Le nombre d’états dépend de la taille
moyenne des segments acoustiques associés au symbole. Il est en général de 3 dans le cas de segments phonétiques. Différents algorithmes
[45, 46] optimaux et sous-optimaux permettent d’estimer les paramètres
d’un modèle de Markov en fonction de données d’apprentissage. Le
processus de décodage d’une séquence d’observations consiste à choisir comme symbole celui correspondant à la machine de Markov de plus
grande probabilité d’émission.
2.2. Modélisation du langage de symboles
Les modèles du langage de symboles permettent de calculer le terme
P (w) de l’équation (1) et contraint la suite des symboles décodés. Ces
modèles de langage sont basés le plus souvent sur des n-grammes (i.e.,
probabilité d’une suite de n symboles). Ils sont utilisés principalement
dans la reconnaissance du langage parlé.
Dans ce cadre, ils permettent de prendre en compte, le type d’élocutions à reconnaître (lettres commerciales, diagnostics médicaux, textes
journalistiques, conversations, . . .) et d’éviter des suites de mots improbables. Ces modèles de langage sont estimés, à partir de corpus
de textes écrits de très grande taille, par le compte des occurrences ngrammes dans les corpus et sont ainsi spécialisés dans le domaine des
textes appris. Si l’on prend l’exemple du modèle de langage calculés
par la société google [47] sur un ensemble de 95 millions de phrases
en anglais extraites du Web. Avec un lexique de 13 millions de mots,
115
il n’y a que 314 millions de bigrammes (sur les 169x1012 possibles)
et 977 millions de trigrammes (sur les 4046x1018 possibles). Même si
ces nombres sont élevés, ils ne représentent qu’une infime partie des
n-grammes possibles. De manière à ne pas écarter une solution comprenant un n-gramme non-observé (probabilité d’apparition nulle) dans
les corpus d’apprentissage de modèles de langage, on estime un compte
non nul pour les n-grammes non-observés. Deux méthodes sont classiquement utilisées pour le calcul des n-grammes non-observés : la méthode par interpolation [48] ou la méthode du “back off " [49, 50].
2.3. Les ressources
Les ressources présentées ici sont indispensables à la reconnaissance
du langage parlé ; pour les autres reconnaissances, elles peuvent suivant
la stratégie adoptée être nécessaires en tout ou partie. Pour la reconnaissance du langage parlé, le vocabulaire de reconnaissance est l’ensemble
des mots pouvant apparaître dans l’hypothèse de décodage du système.
Ce vocabulaire doit permettre de construire le réseau de décodage des
mots qui est utilisé par le moteur de reconnaissance. Rappelons que dans
le cas de la reconnaissance à grand vocabulaire, les unités de reconnaissance sont usuellement les phonèmes, et les modèles acoustiques sont
les modèles de Markov cachés de ces unités. Le réseau de décodage est
la description de l’ensemble des mots possibles (vocabulaire) de l’hypothèse du système ; chaque mot y est représenté comme la concaténation des modèles acoustiques des unités phonétiques le constituant.
La connaissance du vocabulaire de reconnaissance est par conséquent
indispensable dans sa version phonétisée pour construire ce réseau.
La nature de l’annotation des bases de données acoustiques utilisées pour l’apprentissage des modèles acoustiques conduit à distinguer
un autre lexique : le lexique d’apprentissage qui doit couvrir le corpus d’apprentissage ou plus exactement les textes lui correspondant. La
meilleure adéquation des bases acoustiques au problème de cet apprentissage est leur étiquetage fin en phonèmes. S’il existe des solutions pour
parvenir à un apprentissage sans cet étiquetage, c’est par une procédure itérative d’obtention de l’étiquetage fin mais avec peu d’assurance
sur sa qualité. Dans ce cas, les procédures font appel à la connaissance
116
même imparfaite des modèles acoustiques et pour chaque phrase d’apprentissage elles permettent d’aligner sa transcription phonétique sur le
signal vocal correspondant ; les modèles acoustiques peuvent alors être
réestimés. Ainsi, un lexique phonétisé (de qualité) couvrant les corpus
d’apprentissage est indispensable.
Le vocabulaire de reconnaissance n’est a priori pas le même que le
lexique d’apprentissage. Sans modèle prédictif de ce qui peut être dit,
on choisit usuellement un vocabulaire de reconnaissance de taille fixe,
composé des mots les plus fréquents observés pour le domaine.
Lexique phonétisé
Pour couvrir toute l’étendue de la communication parlée, il serait évidemment souhaitable que le vocabulaire de reconnaissance couvre toute
l’expression de la langue. Les dictionnaires de la langue et les dictionnaires spécialisés forment la base d’une telle ressource. Quelques ordres
de grandeur : Larousse répertorie –76 000 entrées dans son Lexis, –
30 600 entrées dans son dictionnaire des noms de famille et prénoms de
France ; Le Robert répertorie –80 000 entrées lexicales, –42 000 entrées
dans son dictionnaire des noms propres en histoire, géographie, arts, littérature, et sciences. On peut remarquer que seuls les dictionnaires de
la langue incluent systématiquement, dans la structure des articles, la
phonétique normative (décrite à partir de l’Alphabet Phonétique International - API) et la caractérisation grammaticale du mot. Pour la suite,
SAMPA (Speech Assessment Methods Phonetic Alphabet) est le code
phonétique utilisé.
Dans les dictionnaires, la phonétisation de référence privilégie les
scwhas (" e " muet). ; par exemple, le mot "appeler" est phonétisé /a p l
e/. Néanmoins, une variante de prononciation telle /a p @ l e/ peut être
observée avec le phonème /@/ bien présent dans le signal. Les phonétisations utilisées doivent prendre en compte la réalisation optionnelle
du phonème. Le lexique doit également être étendu par l’adjonction
des flexions qui ne sont pas décrites in extenso dans le dictionnaire.
Parmi ces flexions, –les flexions en genre et en nombre, –les flexions
verbales en temps et en conjugaison, soit plus de 500 000 formes lexicalement différentes. Les variantes phonétiques engendrées par les liaisons doivent été traitées, en moyenne 2,15 variantes phonétiques par
117
mot du dictionnaire. Le lexique phonétisé est ainsi étendu à plus d’un
million de formes phonétiquement différentes.
Les entités nommées (e.g., prénoms, noms, pays, villes, lieux
"connus", . . .) sont à phonétiser. Plusieurs catégories dont les noms de
famille, par leur nombre et leur caractère international, montrent l’étendue du travail d’acquisition et le problème de leur phonétisation [51].
En effet, il existe souvent au moins deux phonétisations issues de la
prononciation, l’une francisée et l’autre résultant de la prononciation
par un non-natif dans la langue d’origine : par exemple, trois variantes
phonétiques pour Maastricht [m a s t R i k], [m a s t R i t* ch] (où *
symbolise la prononciation optionnelle) peuvent être retenues. La phonétisation des mots étrangers entrant dans la langue française présente
le même ordre de difficulté.
Corpus textuels pour l’apprentissage des modèles linguistiques
De larges corpus de texte sont nécessaires à l’apprentissage des modèles statistiques de langage. La collecte de ces données vise à mieux
modéliser le domaine de la reconnaissance. Des méthodes de collecte
automatique à large échelle de pages Web [52] peuvent être utilisées
pour maintenir un modèle de langage ; la collecte de données pour un
nouveau domaine se résume alors à fournir les mots-clés adéquats au
moteur de recherche. Les applications visées avec la parole lue ou préparée contrastent avec les applications du conversationnel où les thèmes
changent constamment et où le style varie. Les modèles de langage
doivent alors être adaptés aux thèmes (sources de données thématiques
variées) et au style (prise en compte de l’oral spontané et de sa transcription) [53].
Avant de calculer les modèles de langage, les textes doivent être normalisés. Un travail préliminaire est le nettoyage des textes en s’affranchissant des balises de structuration (HTML, XML, . . .), en éliminant
les caractères et signes invalides, en corrigeant dans la mesure du possible les erreurs (coquilles, accents, ...) [52]. Il s’agit également de normaliser les mots non-standards [54] qui n’appartiennent pas au dictionnaire de la langue :
i) les nombres (57, XIV, 2M, . . .), les dates, les devises (=
C, £, . . .) que
l’on transcrit à l’écrit sous leur forme parlée,
118
ii) les abréviations pour lesquelles on définit des règles de réécriture
(Mr en Monsieur, Mme en Madame, Me en Maître, . . .) et
iii) les sigles que l’on normalise suivant leur variante de prononciation
en cas d’acronyme (ONU ou O.N.U. réécrit -O N U et prononcés
/o ai n y/, -ONU et prononcé /o n y/).
En cas de prise en compte de l’emphase d’entités nommées à l’évaluation, son traitement présente des difficultés de désambiguisation
(mot ou entité nommée) lors de la décapitalisation des mots de débuts
de phrase. Une autre difficulté concerne le signe point qui a un sens différent s’il se trouve en fin de phrase, dans une abréviation ou dans un
nombre.
L’utilisation des modèles de langage n-classes nécessite le taggage
des corpus textuels, c’est-à-dire l’étiquetage des mots en classes. Ainsi,
le vocabulaire de reconnaissance et le lexique de couverture des textes
d’apprentissage des modèles de langage doivent évidemment être taggés. Les classes considérées pour les modèles n-classes peuvent être de
natures diverses : les classes peuvent être construites a priori comme
par exemple les classes grammaticales ou automatiquement en regroupant les mots ayant le même comportement, c’est-à-dire les mots qui se
retrouvent toujours dans le même contexte . Pour un modèle n-classes
grammatical, des corpus grammaticaux peuvent être taggés jusqu’à 400
classes [55].
2.4. Moteur de reconnaissance et graphe de symboles
Le moteur de reconnaissance permet la recherche d’une solution optimale ou sous-optimale de l’équation (1). Plusieurs algorithmes de
complexité polynomiale [56, 57] permettent d’obtenir cette solution
en une ou plusieurs passes synchrones et asynchrones. Cependant, la
suite de symboles correspondant à la solution contient en général trop
d’erreurs pour être directement utilisable dans des traitements ultérieurs (e.g., correction grammaticale, traduction, résumé, veille). Pour
résoudre ce problème, le moteur propose alors un ensemble de solutions représentées sous forme d’un graphe de symboles [58].
119
Dans le cas de l’algorithme du One Pass [59] et d’un graphe de symboles synchrones [60], le processus de décodage comprend plusieurs
passes synchrones. La complexité de la première passe est en O(V n )
avec V la taille du vocabulaire et n l’ordre choisi des n-grammes du
modèle de langage utilisé. Cette première passe de décodage génère un
graphe de symboles d’une profondeur choisi V1 (V1 ≤ V ). Les autres
passes servent à réorganiser ce graphe en utilisant des modèles de langage plus complexes. La ième passe de décodage génère un graphe de
symboles d’une profondeur Vi choisi (Vi ≤ Vi−1 ≤ V ). Sa complexité
ni
est en en O(Vi−1
) avec ni l’ordre choisi des n-grammes du modèle de
langage utilisé. L’ensemble des passes de décodage a pour but de faire
remonter peu à peu la bonne solution dans le graphe de symboles tout
en contrôlant la complexité.
3. Evaluation et paradigme d’évaluation
L’évaluation est au cœur des progrès dans tous les domaines de l’ingénierie. Bien que les méthodologies d’évaluation soient en constante
évolution, leur succès est déjà tel que l’évaluation pourrait être un
domaine de " recherche propre ". Les compétitions se généralisent,
elles sont déjà ouvertes à de nombreux domaines technologiques. Par
exemple et en collaboration avec NIST (National Institute of Standards
and Technology) [61], l’ATP (Advanced Technology Program) [62] et
récemment le TIP (Technology Innovation Plan) [63] financent et organisent des plans d’évaluation dans l’objectif d’accélérer le développement de la recherche et de la technologie. Les domaines concernés
sont aussi divers que l’agriculture, la biotechnologie, la micro/nanoélectronique, les machines-outils, l’automobile, les matériaux avancés,
l’information, la communication, la chimie, l’énergie, l’environnement,
... Toutes ces plans ne peuvent être menés qu’avec des méthodologies
d’évaluation adéquates.
3.1. Modes d’évaluation
Depuis la conception d’un système et jusqu’à son transfert technologique, l’évaluation est présente. Si la méthodologie d’évaluation va-
120
rie, elle est un moteur indéniable dans les phases –de conception, –de
développement, –de maintenance et –d’utilisation finale. L’évaluation
est " plurielle " ; en effet, différents modes d’évaluation sont identifiés
relativement à leurs buts. Il s’agit principalement de l’adéquation, du
diagnostic, du quantitatif et du qualitatif.
Evaluation d’adéquation
L’adéquation dont il s’agit est celle du système à la tâche assignée,
avec la prise en compte de la qualité et du coût. Ce type d’évaluation,
couplé avec l’identification des besoins potentiels des utilisateurs, est
particulièrement intéressant dans l’information aux " consommateurs ".
Le but n’est pas tant d’identifier le " meilleur système ", que de donner une information comparative qui permette à l’utilisateur de faire un
choix éclairé du produit relativement à ses besoins et à ses contraintes.
Evaluation de diagnostic
C’est ici un maillage de l’espace des entrées possibles, qui permet de
dresser un profil du comportement attendu du système. L’une des difficultés est bien évidemment de construire une suite de tests représentative. Typiquement, les tests de programme par jeux d’essai relèvent
de l’évaluation de diagnostic. Tout programmeur connaît bien les limites d’une telle approche : les jeux d’essai ne peuvent servir de preuve
de programme, mais seulement de contre-exemples. Un autre exemple
de ce mode d’évaluation est le développement des compilateurs. C’est
à la suite d’une évaluation de diagnostic intensive que la norme peut
être créée et que les compilateurs peuvent être agréés en fonction de la
qualité de leurs réponses aux tests de normalisation (benchmarks). Les
tests de diagnostic permettent la maintenance d’un système évolutif par
des tests de régression sur les versions consécutives du système. Un
dernier exemple concerne les systèmes d’interaction Homme-Machine
pour lesquels l’information de diagnostic est utile : ce que " réussit "
un système et ce qui lui reste " à acquérir " sont autant d’informations
importantes pour la conception et le développement de ces systèmes.
Evaluation de performance quantitative
Le triptique critère/mesure/méthode permet l’évaluation de performance quantitative. Dans l’exemple de la reconnaissance du langage
121
parlé, où la problématique est de passer de la parole au texte, –le critère
est la " bonne " reconnaissance, –la mesure usuelle est le taux d’erreur
en mots, et –la méthode consiste à comparer l’hypothèse de reconnaissance du système et la transcription de référence du signal-test acoustique (dans le " meilleur des cas ", faite par un expert humain). Ce mode
d’évaluation, adapté à la comparaison d’implémentations, est utile pour
le développement et l’amélioration des systèmes. Pour une même tâche
de reconnaissance, les tests contrastifs permettent d’évaluer la contribution d’un composant sur les performances globales du système.
Evaluation de performance qualitative
Cette évaluation vise une meilleure connaissance de ce qui est prédominant dans l’évaluation quantitative du système. Comment et pourquoi
le système fonctionne-t-il ? L’un des intérêts de cette évaluation est que
pour un système très sophistiqué, cette connaissance est indispensable
afin de simplifier ou d’améliorer le système. On peut citer en exemple
le projet d’évaluation MultiKron de NIST pour les applications parallèles et distribuées. La principale préoccupation est alors d’améliorer
les applications ; l’observation du système, des goulots d’étranglement
est une information qui peut conduire à ces améliorations. L’instrumentation nécessaire à la capture de cette information ne doit cependant pas
trop perturber le système sous peine de devenir non significative. La
solution de NIST au problème a été la conception et le développement
d’une puce " espionne ". Cette puce permet de mesurer les performances
des processeurs parallèles et des stations de travail sur des réseaux à haut
débit, en enregistrant des événements comme par exemple les écrituresmémoire et les interruptions. Les mesures d’évaluation ainsi obtenues
ont permis aux chercheurs de mieux comprendre la source des goulots
d’étranglement et ainsi d’améliorer les applications.
A travers ces différents modes, on comprend tout l’intérêt de l’évaluation pour le cycle vie des systèmes, pour les intégrateurs et enfin pour
les consommateurs. Si l’évaluation n’est pas une politique scientifique,
elle est au moins un guide précieux pour la recherche.
122
3.2. Paradigme d’évaluation en reconnaissance vocale
Le paradigme d’évaluation a pour but d’accélérer le développement
de la recherche et de la technologie par des plans d’évaluation, selon un
principe qui peut être résumé par " tâche commune, données communes,
évaluation commune ". Bien que l’on retrouve ce paradigme dans bien
des domaines, entre autres, celui de l’ingénierie de la langue, c’est dans
sa mise en œuvre en reconnaissance vocale que nous présentons le principe du paradigme défini par NIST et utilisé dans les plans d’évaluation
internationaux. :
1) Diffusion d’un challenge sur une tâche spécifiée.
2) Distribution aux participants des bases de données nécessaires au
développement des modèles et des systèmes.
3) Test des systèmes participants sur des données communes en un
temps limité.
4) Appel à une infrastructure pour la mesure et la comparaison des
performances des systèmes.
Les principes du paradigme d’évaluation vont faire l’objet d’un développement pour en apprécier tout l’intérêt.
Tâche commune : Spécification de la tâche de reconnaissance
Spécifier une tâche de reconnaissance, c’est également fixer la complexité de la reconnaissance. De nombreux paramètres sont liés à la
tâche de reconnaissance, leur spécification induit des facteurs de complexité qui ont une influence sur les performances " attendues " du système et sur les techniques à employer.
Spécification de la dépendance du système aux locuteurs
Pour une reconnaissance mono-locuteur (resp. multi-locuteurs), le(s)
locuteur(s) de test est (resp. sont) le(s) même(s) que le(s) locuteur(s)
d’apprentissage. Pour une reconnaissance indépendante du locuteur, les
locuteurs de test sont distincts des locuteurs d’apprentissage. La complexité est ici croissante ; elle s’explique par la grande variabilité du signal vocal dont on sait toute l’importance pour un locuteur donné et qui
s’accroît bien évidemment pour une population de locuteurs. Les modèles acoustiques, appris sur une population, nécessitent des techniques
123
d’adaptation des modèles acoustiques (appris pour être indépendants du
locuteur) au locuteur de test et ce quelque soit la reconnaissance de la
parole considérée.
Spécification de la nature du document audio traité
Indépendamment de l’environnement lors de l’enregistrement audio,
il existe une grande variété de documents audio. Ainsi, une grande différence existe entre la parole lue, préparée, actée, spontanée et conversationnelle. Les phénomènes de production sont très différents et ont
une influence directe sur l’acoustique et sur les performances de reconnaissance traitant l’information linguistique ou para-linguistique.
Relativement à la parole lue/préparée, la parole spontanée relève du
langage naturel pour lequel le vocabulaire, la variété des expressions et
des thèmes abordés sont bien plus importants, les modèles linguistiques
sont alors plus difficiles à apprendre. Cette complexité est à considérer dans tous les cas où la reconnaissances utilise les modèles linguistiques. La parole spontanée est, de plus, sujette à des respirations, des
hésitations, des erreurs de prononciation, des reprises, des inattendus
structurels ; autant de spécificités difficiles à modéliser. Pour la parole
conversationnelle, deux paramètres de complexité s’ajoutent encore : le
choix de l’échelle d’articulation allant de l’hypo-articulation à l’hyperarticulation et les recouvrements possibles des signaux de parole des
protagonistes qui affectera toutes les reconnaissances.
Spécification des conditions d’enregistrement
Lors de l’enregistrement des données audio, l’environnement peutêtre non bruité ou bruité. Les bruits peuvent être additifs ou convolutifs.
Le microphone peut être connu ou inconnu. Cette complexité est croissante dans le sens où les techniques mises en œuvre doivent être robustes au bruit. Là encore, des techniques d’adaptation au bruit peuvent
s’avérer nécessaires, ainsi que des primitives de pré-traitement du signal. Le canal de transmission typique pour la parole est le téléphone.
Il est caractérisé par sa bande passante [300-3400 Hz] qui n’est pas
sans conséquence sur le signal vocal reçu ; le type de micro téléphonique ainsi que la qualité de la transmission (courte ou longue distance)
sont deux autres facteurs de variabilité qui peuvent être responsables de
distorsions et d’altérations du signal. Si la parole téléphonique est tout
124
particulièrement la cible des plans d’évaluation internationaux de la reconnaissance du locuteur, les conditions d’enregistrements influent sur
toutes les reconnaissances.
Compte tenu du degré de liberté de la spécification de la tâche et
de la complexité engendrée à la reconnaissance, toute comparaison de
systèmes ne peut a priori être établie que sur une " tâche commune " de
reconnaissance.
Données communes : Corpus de développement et corpus de test
Pour les besoins stricts de la méthodologie d’évaluation, les " données communes " se résument à la distribution aux participants des corpus acoustiques de développement et de test. Les données de développement ont pour but de permettre l’adaptation des systèmes à la tâche
spécifiée pour le test. Le corpus de développement doit être représentatif du corpus de test. Par conséquent, les données doivent être homogènes aussi bien par leur nature (e.g., texte dont le test est issu) que par
leur condition d’enregistrement (e.g., matériel d’enregistrement identique). Dans le cas d’une reconnaissance indépendamment du locuteur,
les locuteurs de développement et de test sont différents. Les données
de développement sont antérieures aux données de test par leur date
d’enregistrement et, par exemple, par les textes dont elles proviennent.
La contrainte pour le test est que les données n’aient servi à aucun apprentissage et à aucun développement, les locuteurs étant évidemment
différents. De plus, les données de développement et de test doivent être
annotées afin de permettre l’évaluation de performance des systèmes
suivant la méthodologie retenue.
L’annotation des données de développement et de test est suivant la
reconnaissance considérée i) le texte des corpus oraux (langage parlé),
ii) l’identité du locuteur par segment acoustique (locuteur), iii) la langue
parlée par segment acoustique (langue), iv) la classe émotionnelle du
segment acoustique (émotion). Dans les challenges internationaux, les
données de test représentent quelques heures de parole.
Evaluation commune : Evaluation de performance des systèmes
Par " évaluation commune ", on entend outils d’évaluation communs
mis en œuvre, validés et utilisés par une infrastructure organisatrice des
125
tests. Ce principe évite la duplication des efforts de mise en œuvre d’une
évaluation de performance. L’évaluation de performance usuelle est de
type " boîte noire " ; elle consiste à comparer l’hypothèse de reconnaissance/classification du système et la transcription de référence, en
termes d’annotation, du signal-test acoustique.
En reconnaissance du locuteur et en détection de la langue, les hypothèses de détection sont à valeurs booléennes. Dans ce cas, la mesure de performance est une variante de la courbe ROC (Relative Operating Characteristic) [64], la courbe DET (Detection Error Tradeoff)
[65] avec en abscisse, le taux de fausse alarme et en ordonnée celui de
mauvaise détection. La performance peut également être mesurée par le
taux d’égale erreur (EER, Equal Error Rate), point caractéristique de la
courbe DET où le taux de fausse alarme et celui de mauvaise détection
sont égaux.
En reconnaissance du langage parlé, la mesure de performance
usuelle est le taux d’erreur en mots (WER, Word Error Rate) [66] défini
par 100 fois le rapport du nombre de mots erronés de l’hypothèse du
système au nombre de mots de la référence (0% est le meilleur score
de reconnaissance, le taux d’erreur peut être supérieure à 100%). Les
erreurs sont la substitution, l’insertion et l’omission de mot. L’identification de ces erreurs résulte de l’alignement des mots de l’hypothèse
et des mots de la référence par une variante de l’algorithme de Wagner
et Fischer habituellement utilisé pour la comparaison de chaînes de caractères. Une substitution a lieu lorsque les mots alignés diffèrent ; une
insertion (resp. omission) a une occurrence lorsqu’un mot de l’hypothèse (resp. référence) n’a pas de correspondant dans la référence (resp.
hypothèse). Pour des langues, comme par exemple le Mandarin, la mesure de performance est le taux d’erreur en caractères dont le principe
est similaire à la mesure précédemment donnée, mais transposée au niveau du caractère.
En reconnaissance de l’émotion, le premier plan se limite à une évaluation des systèmes suivant leur performance de classification de segments acoustiques. Les systèmes y sont évalués par les mesures de rappel et de précision [67] usuelles en recherche d’information. Pour une
classe donnée, ayant N occurrences de segments-test et P le nombre de
segments-test attribués à la classe lors du test,
126
i) le rappel est le rapport du nombre de segments de cette classe classés
correctement et de N, ,
ii) la précision est le rapport du nombre de segments de cette classe
classés correctement et de P.
L’autre mesure unificatrice utilisée est la F-mesure, moyenne harmonique du rappel et de la précision.
4. Performance des reconnaissances
Pour conclure cette revue des reconnaissances de la parole, nous donnerons les performances des systèmes obtenues lors des plans d’évaluation les plus récents. Ces plans suivent tous le paradigme d’évaluation
décrit au chapitre 3, la spécification de la tâche nous permettra de préciser la complexité de la reconnaissance et les résultats d’évaluation
nous permettront de situer les performances atteintes par les systèmes
de l’état de l’art.
4.1. La reconnaissance du locuteur NIST 2008 Speaker Recognition
Evaluation Plan (SRE08)
- Les évaluations NIST sur la reconnaissance du locuteur ont commencé en 1997 et se déroulent maintenant tous les 2 ans. Depuis 1997,
le paradigme d’évaluation consiste en une série de tests de détection de
locuteur sur une base de données commune divisée en données d’apprentissage et en données de test. Un test de détection de locuteur
consiste à tester l’hypothèse “Le segment-test x est-il prononcé par le
locuteur y ?” en comparant le segment x aux données d’apprentissage
du locuteur y. Les résultats d’un test doivent être –une valeur de vraisemblance de cette hypothèse (comprise en 0 et 1) –ainsi qu’une valeur
booléenne sur l’acceptabilité de l’hypothèse. Chaque décision doit être
fondée uniquement sur les segments d’apprentissage et de test prévus
dans le plan d’évaluation. Les mesures de performance associées à un
ensemble de tests de détection sont la courbe DET (Detection Error Tradeoff) et le taux d’égale erreur (EER - Equal Error Rate).
Le plan d’évaluation 2008 comporte plusieurs types de données de
parole enregistrées en qualité téléphonique sur un à plusieurs canaux :
127
parole conversationnelle et interviews (mélange de parole lue et de voix
spontanée). 13 séries de test (1 obligatoire et 12 facultatives) sont définies dans le plan avec diverses combinaisons de sous-ensembles d’apprentissage et de test. La série obligatoire de tests de détection du locuteur comprend 1 336 locuteurs avec une durée moyenne d’apprentissage de 3 minutes par locuteur et 6 557 segments de test d’une durée
moyenne de 5 minutes. 46 sites ont participé à l’évaluation SRE 2008.
Les organisateurs ont analysé les résultats de cette série de tests de détection de locuteurs suivant 8 conditions [68] dépendant des caractéristiques des segments de test et d’apprentissage. Le taux d’égale erreur
varie de 0.8%, dans le cas d’interviews avec la même chaîne d’acquisition à l’apprentissage et au test, à 5%, dans le cas de voix spontanées
téléphoniques et des chaînes d’acquisition pouvant être différentes.
4.2. La détection de la langue NIST 2009 Language Recognition
Evaluation Plan (LRE09)
Les évaluations NIST sur la reconnaissance de la langue ont commencé en 2003, avec une phase exploratoire en 1996, et se déroulent
tous les 2 ans en alternance avec les campagnes sur la reconnaissance
du locuteur. Le paradigme d’évaluation reprend celui utilisé en reconnaissance du locuteur. Il consiste en une série de tests de détection de la
langue sur une base de données commune divisée en données d’apprentissage et données de test. Un test de détection de la langue consiste
à tester l’hypothèse “Le segment-test x appartient-il à la langue y ?”
en comparant le segment x aux données d’apprentissage de la langue
y. Les résultats d’un test doivent être –une valeur de vraisemblance de
cette hypothèse (comprise en 0 et 1) –ainsi qu’une valeur booléenne sur
l’acceptabilité de l’hypothèse. Chaque décision doit être fondée uniquement sur les segments d’apprentissage et de test prévus dans le plan
d’évaluation. Les mesures de performance associées à un ensemble de
tests de détection sont la courbe DET (Detection Error Tradeoff) et le
taux d’égale erreur (EER - Equal Error Rate).
Le plan d’évaluation 2009 comporte 39 langues dont 23 utilisées à
l’apprentissage avec une durée moyenne d’apprentissage d’une heure et
demi. Les données de parole proviennent de conversions téléphoniques
128
ou de la radio Voice of America. Le plan d’évaluation définit plusieurs
séries de test [69] : –le test fermé (langues des segments-test appartenant aux 23 langues d’apprentissage), –le test ouvert (langues des
segments-test appartenant aux 39 langues), –huit paires de langues (cantonais/mandarin, portugais/espagnol, hindi/urdu, russe/ukrainien, . . .).
Trois durées sont choisies pour les segments de tests : 3 secondes, 10
secondes et 30 secondes. 18 sites ont participé à l’évaluation LRE 2009.
Les taux d’égale erreur pour le test ouvert varient de 2,7% pour 30 secondes de test à 12% pour 3 secondes de test. Les taux d’égale erreur
pour le test fermé varient de 1,5% pour 30 secondes de test à 9% pour
3 secondes de test. Pour 30 secondes de test, les résultats pour les tests
de paires de langues varient de 0.20% pour la paire espagnol/portugais
à 26% pour la paire hindi/urdu.
4.3. La reconnaissance du langage parlé NIST 2009 Rich
Transcription Evaluation Plan (RT09)
Les évaluations ARPA/DARPA/NIST sur la reconnaissance du langage parlé ont commencé en 1988. Les plans d’évaluation peuvent inclure plusieurs tâches, leur historique montrent l’évolution des tâches
évaluées : 1988-1996, reconnaissance de la parole lue (lecture d’articles de Wall Street Journal) 1995-2004, reconnaissance de la parole radio/télé-diffusée (journaux radio/télévisés) 1993-2004, reconnaissance de la parole conversationnelle téléphonique (thème donné)
depuis 2002, reconnaissance de la parole conversationnelle en groupe
(compte-rendu de réunion).Les données de parole sont en langue anglaise, mises à part les extensions, faites en 2003 et 2004, en mandarin
et en arabe pour la parole télédiffusée et la parole conversationnelle téléphonique.
Les plans d’évaluation RT (Rich Transcription Meeting Recognition)
évaluent actuellement trois tâches : la transcription de la parole en texte
(STT - Speech-To-Text), la localisation des temps de parole des locuteurs (SPKR – Speaker) et une troisième tâche composite, l’attribution
du locuteur à la transcription de la parole au texte (SASTT – Speaker Attributed to Speech-To-Text). Nous donnerons les performances
pour STT. Les données collectées correspondent à l’enregistrement de
129
10 réunions réunissant jusqu’à 7 participants. Toutes les réunions ont
lieu en langue anglaise, pour deux d’entre elles, tous les participants
sont non-natifs. Les salles de réunion ont un environnement de bruit
ambiant et de réverbération. Les conditions d’enregistrements sont multiples (multiples microphones distants - MDM, micro-casque - IHM).
Les enregistrements sont segmentés en unité de temps. Chaque segment
a un facteur de superposition (Fs) fonction du nombre de locuteurs intervenant dans le segment. Un facteur n indique que n locuteurs ont pris
la parole durant le segment considéré, mais ne signifie pas obligatoirement que les n locuteurs parlent en même temps. Le calcul du WER est
adapté au cas des superpositions de parole. La sortie du système comprend le flot de mots de la transcription avec leur localisation en temps,
leur score de vraisemblance et leur information de type (e.g., lexical non-lexical : respiration, rire, claquement de porte, . . .). Seules les entités lexicales sont considérées à l’évaluation de performance. Les tests
consistent en 3 heures d’enregistrements extraits des données collectées avec les conditions d’enregistrement IHM et MDM. L’évaluation
RT-SST 2009 réunit 3 participants (2 consortiums et 1 site). Le taux
d’erreur en mots [70] le plus bas i) est de 25% pour la condition IHM,
ii) de 32% pour le test MDM avec Fs=1 ; iii) de 43% pour le test MDM
avec Fs=4. Ces taux d’erreur sont à comparer au taux d’erreur humain
d’une transcription qui est de 2 à 4%.
4.4. La reconnaissance de l’émotionInterspeech 2009 Challenge
Emotion
L’objectif du premier plan d’évaluation, Interspeech 2009 Emotion
Challenge [71], est clairement la stricte comparabilité des systèmes
en utilisant une base de données d’émotion spontanée. Dans le bilan
dressé par les organisateurs de la dernière décade de recherche, on
peut noter la forte attente des chercheurs de bases d’émotions spontanées (vs simulées), la complexité des tâches incomparable (reconnaissance/classification, choix des classes émotionnelles, indépendance au
locuteur) et souvent la non productibilité des résultats publiés.
Les organisateurs font également part de leur intention de mettre en
libre accès la base utilisée pour ce premier challenge.
130
La base retenue pour l’évaluation est FAU Aibo Emotion corpus [71,
72]. Le corpus correspond à l’enregistrement d’enfants âgés entre 10
et 13 ans en interaction avec Aibo, le chien robot de Sony. Un magicien d’Oz contrôle le robot Aibo qui peut se montrer obéissant ou
désobéissant aux commandes de l’enfant provoquant alors chez lui une
émotion spontanée. Les corpus ont été enregistrés pour une cinquantaine d’enfants. Tous les corpus ont été étiquetés en classe d’émotion
au niveau du mot (18 216 segments porteurs d’émotion). Dans le test
Open Performance Sub-Challenge, le problème posé, sous-problème de
la reconnaissance, est la classification des segments de test en n-classes,
i) un premier test considère 5-classes graduant l’émotion du calme à la
colère, ii) un deuxième test considère 2-classes, -l’une relative au mécontentement de l’enfant vis-à-vis du robot, -l’autre représentant tous
les autres états. 9 sites ont participé à l’évaluation du Challenge Emotion 2009 Les meilleures performances estimées en termes de rappel
des segments de test-reconnus sont de l’ordre de 38% pour les 5-classes
[73] et de 68% pour les 2-classes [74].
5. Perspectives
La reconnaissance de la parole est un domaine de recherche mature
maîtrisant ses problématiques et ses paradigmes d’évaluation. Les performances des systèmes de reconnaissances de la parole s’améliorent
comme le montrent les différentes évaluations. Cependant ces performances restent très éloignées de celles d’un être humain ou plus modestement de celles acceptables dans un système généraliste de communication vocale homme-machine. Ce constat est la raison de la difficulté de progression des industries du vocal. Toutefois, une distinction
est à faire entre les différentes reconnaissances de la parole en fonction du type de connaissances (linguistiques, paralinguistiques, ou extralinguistiques) [75] à modéliser. Les reconnaissances basées sur les
connaissances linguistiques (langage parlé, langue) et paralinguistiques
(niveau émotionnel) sont celles qui comportent la plus grande marge
de progression. Celle-ci dépendra des progrès à moyen et à long terme
dans la formalisation de ces connaissances et de l’optimisation des architectures logicielles [76] les utilisant. Les reconnaissances de la parole utilisant principalement des connaissances extralinguistiques (in-
131
nées) comme la reconnaissance du locuteur sont déjà à un niveau de
performances supérieur à celui d’un être humain. Des perspectives à
court et à moyen terme sont la détection d’autres types d’informations
extralinguistiques dans la parole comme l’état physiologique, le niveau
de stress ou de fatigue.
La reconnaissance de la parole fatiguée
La parole fatiguée est la variabilité observable dans la parole due à
une combinaison de réponses inconscientes aux facteurs de fatigue et /
ou à un contrôle conscient en liaison avec la perception de la fatigue. Les
effets de la fatigue (manque de sommeil, surcharge de travail, . . .) sur la
voix [77, 78] sont à la fois de type physiologiques et neurologiques. Ils
affectent les muscles articulateurs de la voix (poumons, glotte, conduit
vocal et nasal) ainsi que les capacités cognitives dans la production de
la parole (génération de la prosodie, programmation lexicale, . . .). Ces
différents effets ont été analysés par les phoniatres pour des dysfonctionnements de la voix (dysarthrie, dysphonie, dysprosodie) dus à des
atteintes neurologiques (maladie de Parkinson, . . .) [79] ou anatomiques
(laryngectomie, ..) et par les neurolinguistes pour l’influence d’un stress
sur la production du langage parlé [80]. Les travaux les plus récents
étudient l’influence du manque de sommeil (de 6 heures à 60 heures)
sur différents paramètres de la voix comme le temps d’établissement
du voisement des phonèmes /p/ et /t/ [81, 82], les paramètres spectraux
d’une phrase type [83], le temps de réponse à une question [84]. Sur ces
données, les performances d’un classificateur sommeil/non sommeil varient de 70 à 80%. Ces résultats obtenus dans des conditions de laboratoire (tenue prolongée de voyelle isolée [85], production en temps limité
d’une liste de mots, production d’une phrase type) ne peuvent s’appliquer directement à la détection temps-réel du niveau de fatigue dans les
conditions réelles de dialogue. Aucun détecteur de parole fatiguée n’a
pour l’instant été évalué.
Références
[1] Bull, R. and Clifford, B. R, “Earwitness voice recognition accuracy”, in G. L. Wells & E. F. Loftus (Eds.), Eyewitness testimony :
Psychological perspectives, Cambridge University Press, pp. 92–
132
123, 1984.
[2] Kitamura, K. and Akagi, M., “Speaker Individualities in Speech
Spectral Envelopes and Fundamental Frequency Contours”, in
Proceedings of Speaker Classification (2) ’2007, pp.157-176,
2007.
[3] Thibault, A., “Lexicographie et variation diatopique : le cas du
français”, in Lexicographie et lexicologie historiques du français,
Bilan et perspectives, Monza, Polimetrica International Scientific
Publisher, pp. 69-91, 2008.
[4] Howard, M., “Sociolinguistic variation in media language : the
case of liaison in French”, in M Abecassis & E Vialleton (eds), La
langue française au XXIème siècle : normes et variations Paris :
L’Harmattan, 2007.
[5] Morrison, G.S., “Forensic voice comparison and the paradigm
shift”, in Science and Justice 49, pp. 298–308, 2009.
[6] Hébert, M., “Text-dependent speaker recognition”, in : Benesty,
J., Sondhi, M., Huang, Y. (Eds.), Springer Handbook of Speech
Processing. Springer-Verlag, Heidelberg, pp. 743–762, 2008.
[7] Kinnunen, T. and Li, M., “An Overview of Text-Independent Speaker Recognition : from Features to Supervectors”, Speech Communication 52 (1), pp.12–40, 2010.
[8] Lefloch, J.-L., Montacié, C. and Caraty, M.-J., “GMM and ARVM
Cooperation and Competition for Text-Independent Speaker Recognition on Phone Speech”, Actes IEEE-International Conference on Spoken Language Processing, pp. 2411-2414, Philadelphie, Etats-Unis, 1996.
[9] Doddington, G.R., “Speaker recognition based on idiolectal differences between speakers”, in Proc. Eurospeech, pp. 2521–2524 ,
2001.
[10] Gordon, R. G., Jr. (ed.), Ethnologue : Languages of the
World, (15th edn.) Dallas, SIL International. Web edition at :
http ://www.ethnologue.com, 2005.
[11] Ladefoged, P. and Maddieson, I., The Sounds of the World’s Languages, Oxford Blackwell Publishers, 1996.
133
[12] Comrie, B. (ed.), The World’s Major languages, New
York/Oxford, 1990.
[13] Y. K. Muthusamy, E. Barnard, R.A. Cole, “Reviewing automatic
language identification”, IEEE Signal Processing Mug., vol. 11,
no. 4, pp. 33-41, 1994.
[14] Muthusamy, Y. K., Barnard, E. and Cole, R.A., “The OGI multilanguage telephone speech corpus”, in Proc. of International
Conference on Speech and Language Processing, 2, pp. 895-898,
Banff, octobre 1992.
[15] Campbell, W. M., Singer, E., Torres-Carrasquillo, P. A. and Reynolds, D. A., “Language recognition with support vector machines”, Odyssey, Toledo, Spain, 2004.
[16] Jayaram, A.K.V.S., Ramasubramanian, V. and Sreenivas, T.V.,
“Language identification using parallel sub-word recognition”, in :
Proceedings of IEEE Internat. Conference on Acoustics Speech
and Signal Processing, vol. I, pp. 32–35, 2003.
[17] Nagarajan, T. and Murthy, H.A., “Language identification using
acoustic log-likelihoods of syllable-like units”, Speech Communication, vol. 48, no. 8, pp. 913-926, 2006.
[18] Gentilucci, M. and Corballis, M. C., “From manual gesture to
speech : A gradual transition.” Neuroscience and Biobehavioral
Reviews, 30, pp. 949–960, 2006.
[19] Benzeghiba, M., De Mori, R., Deroo, O., Dupont, S., Erbes T.,
Jouvet, D., Fissore, L., Laface, P., Mertins, A., Ris, A., Rose, R.,
Tyagi, V. and Wellekens, C., “Automatic speech recognition and
speech variability : A review”, Volume 49, Issues 10-11, pp. 763786, 2007.
[20] Ming, J. and Smith, F. J., “Improved phone recognition using
Bayesian triphone models”, ICASSP, pp. 409-412, 1998.
[21] Greenberg, S. and Chang, S., “Linguistic dissection of switchboard corpus automatic speech recognition systems”, in Proceedings of ISCA Workshop on Automatic Speech Recognition :
Challenges for the New Millenium, Paris, France, pp. 195-202,
2000.
134
[22] Christiansen, R. and Rushforth, C. K., “Word Spotting in Continuous Speech using Linear Predictive Coding”, in Proc. IEEE Int.
Conf. on Acoustics, pp. 557-6 00, 1976
[23] Keshet, J., David Grangier, D. and Bengio, S., “Discriminative
keyword spotting, Speech Communication”, Volume 51, Issue 4,
pp. 317-329, 2009.
[24] Rose., R.C, “Keyword detection in conversational speech utterances using hidden Markov model based continuous speech recognition”, Computer Speech and Language, 9, pp. 309-333,
1995.
[25] Lee, C.H., Rabiner, L.R., Pieraccini, R., and Wilpon, J.G., “Acoustic modeling for large vocabulary speech recognition”, Computer
Speech & Language, 4, pp.1237-1265, 1990.
[26] Lamel, L. and Gauvain, J.-L., “Alternate phone models for conversational speech”, in Proceedings of ICASSP, Philadelphia, Pennsylvania, pp. 1005-1008, 2005.
[27] Lippmann, R.P., “Speech recognition by machines and humans”,
Speech Communication, 22 (1), pp. 1–15, 1997.
[28] LeDoux, J. E., “A neurobiological view of the psychology of
emotion”, in J. LeDoux & W. Hirst (Eds.), Mind and brain :
Dialogues between cognitive psychology and neuroscience, New
York : Cambridge University Press, pp. 355–358, 1986.
[29] Davis P. J., Winkworth, A., Zhang, S. P. and Bandler R., “The neural control of vocalization : Respiratory and emotional influences”,
J Voice 10, pp. 23-38, 1995.
[30] Hinojosa, J. A. , Méndez-Bértolo, C., Carretié, L. and Pozo, M.
A., “Emotion modulates language production during covert picture naming”, Neuropsychologia, 2010.
[31] Buck, R., “The biological affects : A typology”, Psychological Review, 106, pp. 301–336, 1999.
[32] Menahem R., “La voix et la communication des affects”, in L’année psychologique, vol. 83, n◦ 2, pp. 537-560, 1983.
[33] Averill, J. R., “A semantic atlas of emotional concepts”, JSAS Catalog of Selected Documents in Psychology, 5, p. 330, 1975.
135
[34] Cowie R. and Cornelius R., “Describing the emotional states that
are expressed in speech. Speech Communication”, 40, pp. 5-32,
2003.
[35] Osgood, C., May, W. H. and Miron, M. S., “Cross-cultural Universals of Affective Meaning”, University of Illinois Press, Urbana,
1975.
[36] Van Bezooijen, R., “The Characteristics and Recognizability of
Vocal Expression of Emotions”. Foris, Drodrecht, The Netherlands, 1984.
[37] Ververidis, D. and Kotropoulos, C., “Emotional Speech Recognition : Resources, features and methods”, Speech communication,
48 (9), pp. 1162-1181, 2006.
[38] Alter, K., Rank, E., Kotz, S.A., Toepel, U., Besson, M., Schirmer,
A. and Friederici, A.D., “Affective encoding in the speech signal
and in event-related brain potentials”, Speech and Communication, 40, pp. 61-70, 2003.
[39] Markov, A. A., “An example of statistical investigation”, in the text
of "Eugene onyegin" illustrating coupling of "tests" in chains, in
Proceedings of Academic Scienctific St. Petersburg, VI, pp. 153162, 1913.
[40] Baker, J. K., “Stochastic Modeling for Automatic Speech Understanding”, in D. R. Reddy editor, Speech Recognition, pp. 521-542,
Academic Press, New York, 1975.
[41] Jelinek, F., “Continuous Speech Recognition by Statistical Methods”, IEEE Transaction on Acoustic, Speech, Signal Processing,
vol. 64, n◦ 4, pp. 532-556, 1976.
[42] Duda, R. O. and Hart, P. E., Pattern Classification and Scene Analysis, Wiley-Interscience Publication, New York, 1973.
[43] Markov, A. A., “An example of statistical investigation”, in the text
of "Eugene onyegin" illustrating coupling of "tests" in chains, in
Proceedings of Academic Scienctific St. Petersburg, VI, pp. 153162, 1913.
[44] Baker, J. K., “Stochastic Modeling for Automatic Speech Understanding”, in D. R. Reddy editor, Speech Recognition, pp. 521-542,
Academic Press, New York, 1975.
136
[45] Jelinek, F., “Continuous Speech Recognition by Statistical Methods”, IEEE Transaction on Acoustic, Speech, Signal Processing,
vol. 64, n◦ 4, pp. 532-556, 1976.
[46] Duda, R. O. and Hart, P. E., Pattern Classification and Scene Analysis, Wiley-Interscience Publication, New York, 1973.
[47] Brants, T. and Franz, A., “Web 1T 5-gram version 1. Linguistic
Data Consortium”, Philadelphia. LDC2006T13, 2006.
[48] Jelinek, F., “Self-Organized Language Modeling for Speech Recognition , Readings in Speech Recognition”, Morgan Kaufman,
1989.
[49] Katz, S. M., “Estimation of Probabilities for the Language Model Component of a Speech Recognizer”, IEEE Transactions on
Acoustic, Speech and Signal Processing, vol. 3, pp. 400-403,
1987.
[50] Kneser, R., and Ney, H., “Improved Clustering Techniques for
Class-based Statistical Language Modelling”, European Conference of Speech Communication and Technology, Berlin, Allemagne, pp. 973-976, 1993.
[51] S. Goronzy, S. Rapp, R. Kompe, “Generating non-native pronunciation variants for lexicon adaptation”, Speech Communication,
no 42, pp. 109-123, 2004.
[52] R. Nisimura, K. Komatsu, Y. Kuroda, K. Nagatomo, A. Lee, H. Saruwatari, K. Shikano, “Automatic N-gram Language Model Creation from Web Resources”, Eurospeech, Aalborg„ Denmark, pp.
2127-2130, 2001.
[53] Schwarm, S. and Ostendorf, M., “Text Normalization with varied
data sources for Conversational Speech Language Modelling”,
ICASSP, vol. I, pp. 789-792, 2002.
[54] Sproat, R., Black, A. W., Chen, S., Kumar, S., Ostendorf, M. and
Richards, C., “Normalization of non-standard words”, Computer
Speech and Language, vol 15, pp. 287-333, 2001.
[55] Grevisse, M. , Le bon usage - Grammaire française , 8ème édition,
Duculot-Gembloux-Hatier Paris, 1964.
[56] Murveit, H., Butzberger, J., Digalakis, V. and Weintraub, M.,
“Large-Vocabulary Dictation Using SRI’s Decipher Speech
137
Recognition System : Progressive Search Techniques”, Proc.
ICASSP’93, Vol II, Minneapolis, pp.319-322, 1993.
[57] Paul, D. and Necioglu, B., “The Lincoln Large-Vocabulary StackDecoder HMM CSR”, Proc. ICASSP’93, Vol II, Minneapolis,
pp.660-663, 1993.
[58] Fetter, P., Dandurand, F. and Regel-Brietzmann, P., “Word Graph
Rescoring Using Confidence Measures”, ICSLP, 1996.
[59] Odell, J. J., Valtchev, V., Woodland, P. C. and Young, S. J., “One
Pass Decoder Design For Large Vocabulary Recognition”, ARPA
HLT workshop, 1994.
[60] Caraty, M.-J., Barras, C., Lefèvre, F., and Montacié, C., “DDAL : un système de dictée vocale développé sous l’environnement HTK”, 21èmes JEP, Journées d’Etude sur la Parole, pp. 289292, Avignon„ 1996.
[61] National
Institute
http ://www.nist.gov/
of
Standards
and
Technology,
[62] Advanced Technology Program, http ://www.atp.nist.gov/
[63] Technology Innovation Plan, http ://www.nist.gov/tip/
[64] Egan, James P., .Signal Detection Theory and ROC .Analysis.,
Academic Press, 1975
[65] Martin, A. F. et al., “The DET Curve in Assessment of Detection
Task Performance”, Proc. Eurospeech ’97, Rhodes, Greece, September 1997, Vol. 4, pp. 1899-1903.
[66] Hunt, M. J., “Figures of Merit for Assessing Connected-Word Recognisers”, in Speech Communication, 9, pp. 239-336, 1990.
[67] Cleverdon, C. W., Mills J. and Keen, E. M., “Factors determining
the performance of indexing systems”, Vol. 1-2, Cranfield, U.K,
College of Aeronautics, 1966.
[68] www.itl.nist.gov/iad/mig//tests/sre/2008/official_results/index.html
[69] www.itl.nist.gov/iad/mig//tests/lre/2009/lre09_eval_results/index.html
[70] www.itl.nist.gov/iad/mig/tests/rt/2009/workshop/RT09Overview-v2.pdf
138
[71] Schuller, B., Steidl, S. and Batliner., A. “The Interspeech 2009
Emotion Challenge”, Interspeech 2009, ISCA, Brighton, UK, pp.
312-315, 2009.
[72] Batliner, A. , Steidl, S., Schuller, B., Seppi, D., Laskowski, K.,
Vogt, T., Devillers, L., Vidrascu, L., Amir, N., Kessous, L. and
Aharonson, V., “Combining Efforts for Improving Automatic
Classification of Emotional User States”, in Proc. IS-LTC, Ljubliana, pp. 240–245, 2006
[73] Kockmann, M., Burget, L. and Cernocky, J., “Brno University of
Technology System for Interspeech 2009 Emotion Challenge”, Interspeech, ISCA, Brighton, UK, pp. 348-351, 2009.
[74] Dumouchel, P., Dehak, N., Attabi, Y., Dehak, R. and Boufaden,
N., “Cepstral and Long-Term Features for Emotion Recognition”,
Interspeech, ISCA, Brighton, UK, 2009.
[75] Laver, John. “The phonetic description of voice quality”, Cambridge University Press, pp. 21-23, 1980.
[76] Roucairol, C., “Parallel processing for difficult combinatorial optimization problems”, European, Journal of Operations Research,
92, pp. 573-590, 1996.
[77] Bard, E. G., Sotillo, C., Anderson, A. H., Thompson, H. S. and
Taylor, M. M., “The DCIEM Map Task Corpus : Spontaneous dialogue under sleep deprivation and drug treatment”, Speech Communication, Vol. 20, pp. 71–84, 1996.
[78] Harrison, Y. and Horne, J. A., “Sleep deprivation affects speech.
Sleep”, 20, pp. 871–77, 1997.
[79] Teston, B. and Viallet, F., “La dysprosodie parkinsonienne”, HAL
– CCSD, 2008.
[78] Pilcher, J.-J., McClelland, L.-E., Moore, D. D., Haarmann, H., Baron, J., Wallsten, T.-S. and McCubbin, J.-A., “Language Performance Under Sustained Work and Sleep Deprivation Conditions”,
Aviation, Space, and Environmental Medicine, Volume 78, Supplement 1, pp.25-38, 2007.
[81] Greeley, H.-P., Friets, E., Wilson, J., Raghavan, S., Picone, J. and
Berg, J., “Detecting Fatigue From Voice Using Speech Recogni-
139
tion”, Signal Processing and Information Technology, pp. 567–
571, 2006.
[82] Greeley, H.-P., Berg, J., Friets, E., Wilson, J., Greenough, G., Picone, J., Whitmore, J. and Nesthus, T., “Fatigue estimation using
voice analysis”, Behavior Research Methods, 39 (3), pp. 610-619,
2007.
[83] Jarek Krajewski, J. and Kröger, B., “Using Prosodic and Spectral
Characteristics for Sleepiness Detection”. Interspeech, pp 18411844, 2007.
[84] Tin, L. N., Haizhou, L. and Minghui, D., “Analysis and Detection
of Speech under Sleep Deprivation”, Interspeech, pp. 17-21, 2006.
[85] Krajewski, J., Wieland, R. and Batliner, A., “An Acoustic Framework for Detecting Fatigue in Speech Based Human-ComputerInteraction”, Lecture Notes in Computer Science, pp. 54-61, 2008.
140

Les reconnaissances de la parole

Transcription

Documents pareils

Voici un petit tutorial pour ceux qui souhaite ajouter des voix

Jeremy Stubbs - la voie des Hommes

Sommaire

UNIVERSITE LYON 2 (LUMIERE) Référence GALAXIE

Les différentes formes de discours

Programme FEDE EDM 2015 - l`Ameublement français

Services vocaux Répondeurs vocaux interactifs

Sujet de stage - 2015 Structuration de séries TV par les sous

Jeuxlinux - Le site des jeux pour linux

Synthèse vocale et reconnaissance de la parole