Les reconnaissances de la parole
Transcription
Les reconnaissances de la parole
Les reconnaissances de la parole Marie-José Caraty* — C. Montacié ** * Université Paris Descartes - LIPADE 45, rue des Saints Pères - 75006 Paris [email protected] ** STIH, Université Paris-Sorbonne, France Studia Informatica Universalis. 108 Studia Informatica Universalis. 1. La parole dans tous ses états La reconnaissance de la parole est l’une des tâches pionnières de l’Intelligence Artificielle (IA) consistant à reproduire la capacité d’un être humain à extraire des informations de la parole produite par un autre être humain. Cette tâche, trop complexe pour être reproduite par un système informatique unique, a été subdivisée en plusieurs sous-problèmes en fonction du type d’informations à extraire et à reconnaître. Les problématiques les plus étudiées sont la reconnaissance du locuteur, de son état émotionnel, de la langue employee et du langage parlé. Les recherches sur la résolution des ces tâches ont donné lieu, depuis une vingtaine d’années, à des dizaines de milliers de publications, des centaines de bases de données de parole, des dizaines de campagnes internationales d’évaluation. Les progrès ont été importants et ont permis le développement d’applications importantes en communication hommemachine comme la dictée vocale ou les systèmes de dialogues finalisés des serveurs vocaux interactifs (SVI). Cependant de nombreuses recherches restent indispensables en raison de l’ampleur du problème et de sa variabilité : 7 milliards de locuteurs, plus de 500 noms d’émotions, près de 7000 langues et quelques centaines de milliers de mots par langue. D’autres types d’information restent pour l’instant pratiquement inexploités comme l’accent, l’état physiologique, le niveau de stress ou de fatigue. La modélisation markovienne de la parole est un sujet de recherche partagé entre toutes ces problématiques. Ce modèle et ses dérivés comme les réseaux bayésiens ou les combinaisons de gaussiennes (GMM) permettent l’intégration des informations acoustiques de la parole continue avec des informations symboliques représentant les informations transmises et à reconnaître. Des méthodes efficaces permettent d’inférer ces modèles à partir de la parole, d’estimer leurs paramètres et de proposer des méthodes de reconnaissance de complexité polynomiale. Combinatorial Optimization in Practice 109 1.1. Les caractéristiques individuelles et la reconnaissance du locuteur Les caractéristiques individuelles d’un locuteur permettent à ses interlocuteurs de le reconnaître par sa voix [1]. Ces caractéristiques sont soit des traits acoustiques [2] reliés à la physiologie de l’appareil phonatoire (géométrie et qualité des organes de phonation), soit des traits linguistiques reliés à l’apprentissage du langage parlé comme les accents régionaux [3] ou sociaux [4]. Le premier système automatique de reconnaissance du locuteur date de 1963, mais ce n’est que depuis une vingtaine d’années que ce domaine a éveillé l’intérêt d’un nombre croissant de chercheurs, d’industriels, de policiers et de juges [5]. L’utilisation de mots-clés était indispensable dans les premières méthodes développées [6], mais la plupart des systèmes actuels sont indépendants du texte prononcé. Les techniques développées utilisent trois types d’approches : statique, dynamique et linguistique. Les systèmes de reconnaissance du locuteur peuvent naturellement combiner plusieurs de ces approches. Les deux premières approches s’appuient sur des informations purement acoustiques [7]. Elles se différencient par l’utilisation ou non de paramètres représentant l’évolution temporelle du signal vocal [8]. L’approche linguistique est fondée sur l’analyse du lexique employé et des variantes dialectales utilisées [9]. Les deux principales applications de la reconnaissance du locuteur sont : –la vérification de l’identité pour protéger l’accès physique à des locaux sensibles ou l’accès distant à des informations confidentielles et –la vraisemblance de preuves en justice dans le cadre de la comparaison de voix de justiciables. 1.2. La langue et sa détection Près de 7000 langues sont référencées dans le monde [10] dont plus de 300 sont parlées par plus d’un million de personnes. Chacune de ces langues a des caractéristiques phonologiques (ensemble des sons) [11], morphologiques (ensemble des mots), et prosodiques (position des accents et intonations dans les mots, valeur sémantique des accents) différentes. Elles appartiennent à plus de 100 familles de langues (sinothibétaine, indo-européenne, dravidien, . . .) [12] construites à partir de caractéristiques linguistiques communes. Les premières recherches 110 Studia Informatica Universalis. datent des années 1970, avec à un taux d’identification de 62% pour des segments de parole de 90 secondes en sept langues [13]. La principale problématique a été de diminuer la durée des segments tout en augmentant le nombre de langues. Les recherches ont pu être grandement facilitées par la disponibilité de la base de l’Oregon Graduate Institute (OGI) dédiée à l’identification des langues et comportant des enregistrements de communications téléphoniques (voix spontanées) en 22 langues [14]. Deux approches sont étudiées pour cette problématique, l’une est purement acoustique, l’autre plus difficile à mettre en IJuvre est linguistique. L’approche acoustique consiste à représenter une langue par les réalisations acoustiques de ses phones [15] et des règles phonotactiques. Cette approche donne de bons résultats si les langues ont un domaine acoustique nettement différencié, mais trouve rapidement ses limites quand le nombre de langues augmente. L’approche linguistique est basée sur la reconnaissance de mots [16] ou de syllabes spécifiques [17] d’une langue, l’importance des ressources linguistiques à mettre en IJuvre (dictionnaire et modèle de langage pour chaque langue à reconnaître) rend cette approche plus difficile mais plus prometteuse que la précédente. L’application principale de la détection automatique de la langue ou de la famille de langues est le routage automatique d’appels téléphoniques vers la personne ou le système de reconnaissance de la parole susceptible de traiter la langue. D’autres applications existent dans le domaine de la sécurité. 1.3. Le langage et la reconnaissance du langage parlé Depuis plus de 100 000 ans et le passage de la langue des gestes au langage parlé [18], la parole est le moyen principal de communication entre les humains. Depuis près de 60 ans, la recherche en reconnaissance automatique du langage parlé est l’un des enjeux majeurs de l’intelligence artificielle. Sa problématique principale est l’association d’un signal biologique, bruité et d’une grande variabilité spatiale et temporelle [19], aux structures symboliques du langage (phonétique, phonologique, lexical, morphologique, syntaxique, sémantique, pragmatique et rhétorique). Les recherches en reconnaissance du langage parlé consistent d’une part à modéliser cette variabilité par des méthodes statistiques (e.g., modèles markoviens) et de recherche opéra- Combinatorial Optimization in Practice 111 tionnelle (e.g., programmation dynamique) et d’autre part de définir des processus de transduction entre les modèles du signal de parole et certaines structures de la langue. Les principales tâches associées à la reconnaissance du langage parlé sont le décodage acoustico-phonétique, la détection de mots-clés et la reconnaissance des mots de la parole continue. Le décodage acoustico-phonétique (DAP) consiste à extraire d’une analyse du signal vocal, une hypothèse de treillis des phonèmes. Les meilleures performances obtenues sont de l’ordre de 75% pour de la parole lue [20] et de 60% pour de la parole conversationnelle téléphonique [21]. La détection de mots-clés [22, 23], cherche à reconnaître et à localiser toutes les occurrences des mots d’une liste de mots-clés dans un continuum de parole donné. Le taux de détection est donné en fonction du nombre de fausses alarmes par millier de mots-clés détectés et par heure de parole (fa/kw/h). Il est de 15% à 25% pour 5 fa/kw/h pour de la parole conversationnelle téléphonique [24]. La troisième tâche, la reconnaissance des mots en parole continue, consiste à reconnaître tous les mots d’une élocution prononcée de manière continue, c’est-à-dire sans pause artificielle entre les mots. Les premiers systèmes datent du début des années 90 [25]. L’apprentissage statistique à grande échelle sur des milliers d’heures de parole [26] et des centaines de millions de mots provenant de textes écrits et de transcriptions du langage parlé a permis d’obtenir des lexiques de prononciation des mots ainsi que des modélisations stochastiques de la parole et du langage parlé. Ces ressources, utilisées pour diminuer l’espace de recherche des suites de mots possibles, permettent d’obtenir des algorithmes de décodage de complexité polynomiale. Les performances de reconnaissance sont de l’ordre de 90% dans les meilleures conditions (voix lue avec une vitesse d’élocution contrôlée, sans émotion et sans bruit). Les taux de reconnaissance chutent fortement quand ces conditions changent [19]. Dans tous les cas, les performances des systèmes de reconnaissance du langage parlé restent très éloignées des performances humaines [27]. 1.4. La parole émotionnelle et la reconnaissance de l’émotion La réaction par le système limbique à un stimuli extérieur (e.g., situation de danger) provoque une réponse émotionnelle innée de l’être humain par l’envoi de signaux vers les systèmes moteurs et le système 112 Studia Informatica Universalis. nerveux central [28]. Ces signaux perturbent les commandes de l’appareil phonatoire [29] et les processus cognitifs de production du langage parlé [30]. La parole émotionnelle est alors la vocalisation de la réponse émotionnelle. La parole émotionnelle peut également être apprise et produite volontairement par le locuteur sans stimuli extérieur [31]. Dans les deux cas, cette parole est porteuse d’informations sur les émotions transmises par le locuteur, qu’elles soient ressenties ou simulées. Ces informations perceptibles par un autre être humain constituent le message émotionnel [32]. Deux types de problématiques sont associés à la reconnaissance de ce message dans la parole : la représentation d’une émotion et la détection des corrélats acoustiques et linguistiques associés à cette représentation. Selon les différentes théories émotionnelles, une émotion peut être représentée par une classe d’émotions [33, 34] ou par un point dans un espace de dimension réduite [35]. Dans le cadre de la reconnaissance de l’émotion, les deux types de représentation sont utilisés : émotions positives et négatives, agréables ou désagréables ou choix parmi une liste comme par exemple {colère, peur, tristesse, joie, dégoût et surprise}. Les premiers travaux de reconnaissance automatique de l’émotion datent des années 80 [36]. Plus d’une vingtaine de bases de données de parole émotionnelle, validées à l’aide d’un corpus d’auditeurs, sont maintenant référencées [37]. Dans la littérature, les taux de reconnaissance varient de 50 à 75% pour une discrimination entre 4 à 6 émotions. De nombreux paramètres acoustiques et linguistiques sont étudiés comme la qualité de la parole, le timbre, la prosodie, l’accentuation et l’intonation des mots [38]. Les principales applications sont –l’amélioration des interfaces homme-machine par l’ajout d’une composante émotionnelle, –la détection automatique de situations de catastrophes ou de comportements anormaux. 2. Modélisation markovienne Plusieurs facteurs expliquent le succès et l’utilisation généralisée du cadre markovien [39] pour modéliser la parole : les propriétés mathématiques de convergence, le développement et la mise à disposition de grandes bases de données nécessaires à l’estimation statistique, une architecture adéquate à l’intégration de connaissances symboliques (linguistique, psychologique, physiologique, . . .) avec les descriptions Combinatorial Optimization in Practice 113 numériques du continuum de parole (observations). Les premières recherches ont eu lieu au début des années 70 par J. K. Baker [40] et F. Jelinek [41] et cette modélisation est aujourd’hui encore à la base des systèmes de l’état de l’art en reconnaissance de la parole. Dans le cadre markovien, le processus de décodage de la parole en une suite de symboles (identité du locuteur, langue parlée, phonèmes, mots, état émotionnel) utilise la règle de décision du maximum a posteriori [42] : w0 = arg maxw P (w/x) (w) = arg maxw P (x/w)P (w) = arg maxw P (x/w)P P (x) (1) où : – x est la séquence d’observations représentant le continuum de parole, – w0 est la suite de symboles décodés, – P (x/w), la probabilité d’observer la séquence d’observations x pour un continuum de parole étiqueté avec la suite de symboles w,et – P (w), la probabilité d’un continuum de parole étiqueté avec la suite de symboles w Le modèle markovien présente l’intérêt d’un traitement global des niveaux acoustiques et symboliques pour le décodage et d’un apprentissage indépendant de la modélisation du canal acoustique et de la modélisation du langage de symboles. Cependant la reconnaissance markovienne est coûteuse en temps de calcul et en mémoire dans le cas d’un décodage optimal. Des méthodes d’élagage permettent d’établir un compromis entre les solutions algorithmiques (recherche et optimisation) et les contraintes matérielles (rapidité et mémoire). 2.1. Modélisation du canal acoustique Un modèle de Markov caché permet de modéliser la séquence d’observations associée à un symbole. Il est constitué de l’association d’une chaîne de Markov homogène et des fonctions de densité de probabilité des observations [43]. Une chaîne de Markov homogène est représentée par un automate d’états finis probabiliste constitué d’états et de 114 Studia Informatica Universalis. transitions entre états. A chacune des transitions est associée une fonction de densité de probabilité. Elles permettent de mesurer la probabilité conjointe d’une séquence d’observations associée à une séquence de transitions de l’automate. La somme des probabilités conjointes sur l’ensemble des séquences de transitions est la probabilité que ce modèle de Markov émette la séquence d’observations. Il constitue le terme P (x/w) de l’équation (1). La topologie du modèle de Markov (nombre des états de l’automate et transitions autorisées entre ces états) est choisie a priori. Une des topologies usuelles, le modèle de Bakis [44], est un bon compromis entre le nombre de transitions et celui des états. Il comprend trois types de transitions : boucle sur le même état, transition vers l’état suivant, saut d’un état. Le nombre d’états dépend de la taille moyenne des segments acoustiques associés au symbole. Il est en général de 3 dans le cas de segments phonétiques. Différents algorithmes [45, 46] optimaux et sous-optimaux permettent d’estimer les paramètres d’un modèle de Markov en fonction de données d’apprentissage. Le processus de décodage d’une séquence d’observations consiste à choisir comme symbole celui correspondant à la machine de Markov de plus grande probabilité d’émission. 2.2. Modélisation du langage de symboles Les modèles du langage de symboles permettent de calculer le terme P (w) de l’équation (1) et contraint la suite des symboles décodés. Ces modèles de langage sont basés le plus souvent sur des n-grammes (i.e., probabilité d’une suite de n symboles). Ils sont utilisés principalement dans la reconnaissance du langage parlé. Dans ce cadre, ils permettent de prendre en compte, le type d’élocutions à reconnaître (lettres commerciales, diagnostics médicaux, textes journalistiques, conversations, . . .) et d’éviter des suites de mots improbables. Ces modèles de langage sont estimés, à partir de corpus de textes écrits de très grande taille, par le compte des occurrences ngrammes dans les corpus et sont ainsi spécialisés dans le domaine des textes appris. Si l’on prend l’exemple du modèle de langage calculés par la société google [47] sur un ensemble de 95 millions de phrases en anglais extraites du Web. Avec un lexique de 13 millions de mots, Combinatorial Optimization in Practice 115 il n’y a que 314 millions de bigrammes (sur les 169x1012 possibles) et 977 millions de trigrammes (sur les 4046x1018 possibles). Même si ces nombres sont élevés, ils ne représentent qu’une infime partie des n-grammes possibles. De manière à ne pas écarter une solution comprenant un n-gramme non-observé (probabilité d’apparition nulle) dans les corpus d’apprentissage de modèles de langage, on estime un compte non nul pour les n-grammes non-observés. Deux méthodes sont classiquement utilisées pour le calcul des n-grammes non-observés : la méthode par interpolation [48] ou la méthode du “back off " [49, 50]. 2.3. Les ressources Les ressources présentées ici sont indispensables à la reconnaissance du langage parlé ; pour les autres reconnaissances, elles peuvent suivant la stratégie adoptée être nécessaires en tout ou partie. Pour la reconnaissance du langage parlé, le vocabulaire de reconnaissance est l’ensemble des mots pouvant apparaître dans l’hypothèse de décodage du système. Ce vocabulaire doit permettre de construire le réseau de décodage des mots qui est utilisé par le moteur de reconnaissance. Rappelons que dans le cas de la reconnaissance à grand vocabulaire, les unités de reconnaissance sont usuellement les phonèmes, et les modèles acoustiques sont les modèles de Markov cachés de ces unités. Le réseau de décodage est la description de l’ensemble des mots possibles (vocabulaire) de l’hypothèse du système ; chaque mot y est représenté comme la concaténation des modèles acoustiques des unités phonétiques le constituant. La connaissance du vocabulaire de reconnaissance est par conséquent indispensable dans sa version phonétisée pour construire ce réseau. La nature de l’annotation des bases de données acoustiques utilisées pour l’apprentissage des modèles acoustiques conduit à distinguer un autre lexique : le lexique d’apprentissage qui doit couvrir le corpus d’apprentissage ou plus exactement les textes lui correspondant. La meilleure adéquation des bases acoustiques au problème de cet apprentissage est leur étiquetage fin en phonèmes. S’il existe des solutions pour parvenir à un apprentissage sans cet étiquetage, c’est par une procédure itérative d’obtention de l’étiquetage fin mais avec peu d’assurance sur sa qualité. Dans ce cas, les procédures font appel à la connaissance 116 Studia Informatica Universalis. même imparfaite des modèles acoustiques et pour chaque phrase d’apprentissage elles permettent d’aligner sa transcription phonétique sur le signal vocal correspondant ; les modèles acoustiques peuvent alors être réestimés. Ainsi, un lexique phonétisé (de qualité) couvrant les corpus d’apprentissage est indispensable. Le vocabulaire de reconnaissance n’est a priori pas le même que le lexique d’apprentissage. Sans modèle prédictif de ce qui peut être dit, on choisit usuellement un vocabulaire de reconnaissance de taille fixe, composé des mots les plus fréquents observés pour le domaine. Lexique phonétisé Pour couvrir toute l’étendue de la communication parlée, il serait évidemment souhaitable que le vocabulaire de reconnaissance couvre toute l’expression de la langue. Les dictionnaires de la langue et les dictionnaires spécialisés forment la base d’une telle ressource. Quelques ordres de grandeur : Larousse répertorie –76 000 entrées dans son Lexis, – 30 600 entrées dans son dictionnaire des noms de famille et prénoms de France ; Le Robert répertorie –80 000 entrées lexicales, –42 000 entrées dans son dictionnaire des noms propres en histoire, géographie, arts, littérature, et sciences. On peut remarquer que seuls les dictionnaires de la langue incluent systématiquement, dans la structure des articles, la phonétique normative (décrite à partir de l’Alphabet Phonétique International - API) et la caractérisation grammaticale du mot. Pour la suite, SAMPA (Speech Assessment Methods Phonetic Alphabet) est le code phonétique utilisé. Dans les dictionnaires, la phonétisation de référence privilégie les scwhas (" e " muet). ; par exemple, le mot "appeler" est phonétisé /a p l e/. Néanmoins, une variante de prononciation telle /a p @ l e/ peut être observée avec le phonème /@/ bien présent dans le signal. Les phonétisations utilisées doivent prendre en compte la réalisation optionnelle du phonème. Le lexique doit également être étendu par l’adjonction des flexions qui ne sont pas décrites in extenso dans le dictionnaire. Parmi ces flexions, –les flexions en genre et en nombre, –les flexions verbales en temps et en conjugaison, soit plus de 500 000 formes lexicalement différentes. Les variantes phonétiques engendrées par les liaisons doivent été traitées, en moyenne 2,15 variantes phonétiques par Combinatorial Optimization in Practice 117 mot du dictionnaire. Le lexique phonétisé est ainsi étendu à plus d’un million de formes phonétiquement différentes. Les entités nommées (e.g., prénoms, noms, pays, villes, lieux "connus", . . .) sont à phonétiser. Plusieurs catégories dont les noms de famille, par leur nombre et leur caractère international, montrent l’étendue du travail d’acquisition et le problème de leur phonétisation [51]. En effet, il existe souvent au moins deux phonétisations issues de la prononciation, l’une francisée et l’autre résultant de la prononciation par un non-natif dans la langue d’origine : par exemple, trois variantes phonétiques pour Maastricht [m a s t R i k], [m a s t R i t* ch] (où * symbolise la prononciation optionnelle) peuvent être retenues. La phonétisation des mots étrangers entrant dans la langue française présente le même ordre de difficulté. Corpus textuels pour l’apprentissage des modèles linguistiques De larges corpus de texte sont nécessaires à l’apprentissage des modèles statistiques de langage. La collecte de ces données vise à mieux modéliser le domaine de la reconnaissance. Des méthodes de collecte automatique à large échelle de pages Web [52] peuvent être utilisées pour maintenir un modèle de langage ; la collecte de données pour un nouveau domaine se résume alors à fournir les mots-clés adéquats au moteur de recherche. Les applications visées avec la parole lue ou préparée contrastent avec les applications du conversationnel où les thèmes changent constamment et où le style varie. Les modèles de langage doivent alors être adaptés aux thèmes (sources de données thématiques variées) et au style (prise en compte de l’oral spontané et de sa transcription) [53]. Avant de calculer les modèles de langage, les textes doivent être normalisés. Un travail préliminaire est le nettoyage des textes en s’affranchissant des balises de structuration (HTML, XML, . . .), en éliminant les caractères et signes invalides, en corrigeant dans la mesure du possible les erreurs (coquilles, accents, ...) [52]. Il s’agit également de normaliser les mots non-standards [54] qui n’appartiennent pas au dictionnaire de la langue : i) les nombres (57, XIV, 2M, . . .), les dates, les devises (= C, £, . . .) que l’on transcrit à l’écrit sous leur forme parlée, 118 Studia Informatica Universalis. ii) les abréviations pour lesquelles on définit des règles de réécriture (Mr en Monsieur, Mme en Madame, Me en Maître, . . .) et iii) les sigles que l’on normalise suivant leur variante de prononciation en cas d’acronyme (ONU ou O.N.U. réécrit -O N U et prononcés /o ai n y/, -ONU et prononcé /o n y/). En cas de prise en compte de l’emphase d’entités nommées à l’évaluation, son traitement présente des difficultés de désambiguisation (mot ou entité nommée) lors de la décapitalisation des mots de débuts de phrase. Une autre difficulté concerne le signe point qui a un sens différent s’il se trouve en fin de phrase, dans une abréviation ou dans un nombre. L’utilisation des modèles de langage n-classes nécessite le taggage des corpus textuels, c’est-à-dire l’étiquetage des mots en classes. Ainsi, le vocabulaire de reconnaissance et le lexique de couverture des textes d’apprentissage des modèles de langage doivent évidemment être taggés. Les classes considérées pour les modèles n-classes peuvent être de natures diverses : les classes peuvent être construites a priori comme par exemple les classes grammaticales ou automatiquement en regroupant les mots ayant le même comportement, c’est-à-dire les mots qui se retrouvent toujours dans le même contexte . Pour un modèle n-classes grammatical, des corpus grammaticaux peuvent être taggés jusqu’à 400 classes [55]. 2.4. Moteur de reconnaissance et graphe de symboles Le moteur de reconnaissance permet la recherche d’une solution optimale ou sous-optimale de l’équation (1). Plusieurs algorithmes de complexité polynomiale [56, 57] permettent d’obtenir cette solution en une ou plusieurs passes synchrones et asynchrones. Cependant, la suite de symboles correspondant à la solution contient en général trop d’erreurs pour être directement utilisable dans des traitements ultérieurs (e.g., correction grammaticale, traduction, résumé, veille). Pour résoudre ce problème, le moteur propose alors un ensemble de solutions représentées sous forme d’un graphe de symboles [58]. Combinatorial Optimization in Practice 119 Dans le cas de l’algorithme du One Pass [59] et d’un graphe de symboles synchrones [60], le processus de décodage comprend plusieurs passes synchrones. La complexité de la première passe est en O(V n ) avec V la taille du vocabulaire et n l’ordre choisi des n-grammes du modèle de langage utilisé. Cette première passe de décodage génère un graphe de symboles d’une profondeur choisi V1 (V1 ≤ V ). Les autres passes servent à réorganiser ce graphe en utilisant des modèles de langage plus complexes. La ième passe de décodage génère un graphe de symboles d’une profondeur Vi choisi (Vi ≤ Vi−1 ≤ V ). Sa complexité ni est en en O(Vi−1 ) avec ni l’ordre choisi des n-grammes du modèle de langage utilisé. L’ensemble des passes de décodage a pour but de faire remonter peu à peu la bonne solution dans le graphe de symboles tout en contrôlant la complexité. 3. Evaluation et paradigme d’évaluation L’évaluation est au cœur des progrès dans tous les domaines de l’ingénierie. Bien que les méthodologies d’évaluation soient en constante évolution, leur succès est déjà tel que l’évaluation pourrait être un domaine de " recherche propre ". Les compétitions se généralisent, elles sont déjà ouvertes à de nombreux domaines technologiques. Par exemple et en collaboration avec NIST (National Institute of Standards and Technology) [61], l’ATP (Advanced Technology Program) [62] et récemment le TIP (Technology Innovation Plan) [63] financent et organisent des plans d’évaluation dans l’objectif d’accélérer le développement de la recherche et de la technologie. Les domaines concernés sont aussi divers que l’agriculture, la biotechnologie, la micro/nanoélectronique, les machines-outils, l’automobile, les matériaux avancés, l’information, la communication, la chimie, l’énergie, l’environnement, ... Toutes ces plans ne peuvent être menés qu’avec des méthodologies d’évaluation adéquates. 3.1. Modes d’évaluation Depuis la conception d’un système et jusqu’à son transfert technologique, l’évaluation est présente. Si la méthodologie d’évaluation va- 120 Studia Informatica Universalis. rie, elle est un moteur indéniable dans les phases –de conception, –de développement, –de maintenance et –d’utilisation finale. L’évaluation est " plurielle " ; en effet, différents modes d’évaluation sont identifiés relativement à leurs buts. Il s’agit principalement de l’adéquation, du diagnostic, du quantitatif et du qualitatif. Evaluation d’adéquation L’adéquation dont il s’agit est celle du système à la tâche assignée, avec la prise en compte de la qualité et du coût. Ce type d’évaluation, couplé avec l’identification des besoins potentiels des utilisateurs, est particulièrement intéressant dans l’information aux " consommateurs ". Le but n’est pas tant d’identifier le " meilleur système ", que de donner une information comparative qui permette à l’utilisateur de faire un choix éclairé du produit relativement à ses besoins et à ses contraintes. Evaluation de diagnostic C’est ici un maillage de l’espace des entrées possibles, qui permet de dresser un profil du comportement attendu du système. L’une des difficultés est bien évidemment de construire une suite de tests représentative. Typiquement, les tests de programme par jeux d’essai relèvent de l’évaluation de diagnostic. Tout programmeur connaît bien les limites d’une telle approche : les jeux d’essai ne peuvent servir de preuve de programme, mais seulement de contre-exemples. Un autre exemple de ce mode d’évaluation est le développement des compilateurs. C’est à la suite d’une évaluation de diagnostic intensive que la norme peut être créée et que les compilateurs peuvent être agréés en fonction de la qualité de leurs réponses aux tests de normalisation (benchmarks). Les tests de diagnostic permettent la maintenance d’un système évolutif par des tests de régression sur les versions consécutives du système. Un dernier exemple concerne les systèmes d’interaction Homme-Machine pour lesquels l’information de diagnostic est utile : ce que " réussit " un système et ce qui lui reste " à acquérir " sont autant d’informations importantes pour la conception et le développement de ces systèmes. Evaluation de performance quantitative Le triptique critère/mesure/méthode permet l’évaluation de performance quantitative. Dans l’exemple de la reconnaissance du langage Combinatorial Optimization in Practice 121 parlé, où la problématique est de passer de la parole au texte, –le critère est la " bonne " reconnaissance, –la mesure usuelle est le taux d’erreur en mots, et –la méthode consiste à comparer l’hypothèse de reconnaissance du système et la transcription de référence du signal-test acoustique (dans le " meilleur des cas ", faite par un expert humain). Ce mode d’évaluation, adapté à la comparaison d’implémentations, est utile pour le développement et l’amélioration des systèmes. Pour une même tâche de reconnaissance, les tests contrastifs permettent d’évaluer la contribution d’un composant sur les performances globales du système. Evaluation de performance qualitative Cette évaluation vise une meilleure connaissance de ce qui est prédominant dans l’évaluation quantitative du système. Comment et pourquoi le système fonctionne-t-il ? L’un des intérêts de cette évaluation est que pour un système très sophistiqué, cette connaissance est indispensable afin de simplifier ou d’améliorer le système. On peut citer en exemple le projet d’évaluation MultiKron de NIST pour les applications parallèles et distribuées. La principale préoccupation est alors d’améliorer les applications ; l’observation du système, des goulots d’étranglement est une information qui peut conduire à ces améliorations. L’instrumentation nécessaire à la capture de cette information ne doit cependant pas trop perturber le système sous peine de devenir non significative. La solution de NIST au problème a été la conception et le développement d’une puce " espionne ". Cette puce permet de mesurer les performances des processeurs parallèles et des stations de travail sur des réseaux à haut débit, en enregistrant des événements comme par exemple les écrituresmémoire et les interruptions. Les mesures d’évaluation ainsi obtenues ont permis aux chercheurs de mieux comprendre la source des goulots d’étranglement et ainsi d’améliorer les applications. A travers ces différents modes, on comprend tout l’intérêt de l’évaluation pour le cycle vie des systèmes, pour les intégrateurs et enfin pour les consommateurs. Si l’évaluation n’est pas une politique scientifique, elle est au moins un guide précieux pour la recherche. 122 Studia Informatica Universalis. 3.2. Paradigme d’évaluation en reconnaissance vocale Le paradigme d’évaluation a pour but d’accélérer le développement de la recherche et de la technologie par des plans d’évaluation, selon un principe qui peut être résumé par " tâche commune, données communes, évaluation commune ". Bien que l’on retrouve ce paradigme dans bien des domaines, entre autres, celui de l’ingénierie de la langue, c’est dans sa mise en œuvre en reconnaissance vocale que nous présentons le principe du paradigme défini par NIST et utilisé dans les plans d’évaluation internationaux. : 1) Diffusion d’un challenge sur une tâche spécifiée. 2) Distribution aux participants des bases de données nécessaires au développement des modèles et des systèmes. 3) Test des systèmes participants sur des données communes en un temps limité. 4) Appel à une infrastructure pour la mesure et la comparaison des performances des systèmes. Les principes du paradigme d’évaluation vont faire l’objet d’un développement pour en apprécier tout l’intérêt. Tâche commune : Spécification de la tâche de reconnaissance Spécifier une tâche de reconnaissance, c’est également fixer la complexité de la reconnaissance. De nombreux paramètres sont liés à la tâche de reconnaissance, leur spécification induit des facteurs de complexité qui ont une influence sur les performances " attendues " du système et sur les techniques à employer. Spécification de la dépendance du système aux locuteurs Pour une reconnaissance mono-locuteur (resp. multi-locuteurs), le(s) locuteur(s) de test est (resp. sont) le(s) même(s) que le(s) locuteur(s) d’apprentissage. Pour une reconnaissance indépendante du locuteur, les locuteurs de test sont distincts des locuteurs d’apprentissage. La complexité est ici croissante ; elle s’explique par la grande variabilité du signal vocal dont on sait toute l’importance pour un locuteur donné et qui s’accroît bien évidemment pour une population de locuteurs. Les modèles acoustiques, appris sur une population, nécessitent des techniques Combinatorial Optimization in Practice 123 d’adaptation des modèles acoustiques (appris pour être indépendants du locuteur) au locuteur de test et ce quelque soit la reconnaissance de la parole considérée. Spécification de la nature du document audio traité Indépendamment de l’environnement lors de l’enregistrement audio, il existe une grande variété de documents audio. Ainsi, une grande différence existe entre la parole lue, préparée, actée, spontanée et conversationnelle. Les phénomènes de production sont très différents et ont une influence directe sur l’acoustique et sur les performances de reconnaissance traitant l’information linguistique ou para-linguistique. Relativement à la parole lue/préparée, la parole spontanée relève du langage naturel pour lequel le vocabulaire, la variété des expressions et des thèmes abordés sont bien plus importants, les modèles linguistiques sont alors plus difficiles à apprendre. Cette complexité est à considérer dans tous les cas où la reconnaissances utilise les modèles linguistiques. La parole spontanée est, de plus, sujette à des respirations, des hésitations, des erreurs de prononciation, des reprises, des inattendus structurels ; autant de spécificités difficiles à modéliser. Pour la parole conversationnelle, deux paramètres de complexité s’ajoutent encore : le choix de l’échelle d’articulation allant de l’hypo-articulation à l’hyperarticulation et les recouvrements possibles des signaux de parole des protagonistes qui affectera toutes les reconnaissances. Spécification des conditions d’enregistrement Lors de l’enregistrement des données audio, l’environnement peutêtre non bruité ou bruité. Les bruits peuvent être additifs ou convolutifs. Le microphone peut être connu ou inconnu. Cette complexité est croissante dans le sens où les techniques mises en œuvre doivent être robustes au bruit. Là encore, des techniques d’adaptation au bruit peuvent s’avérer nécessaires, ainsi que des primitives de pré-traitement du signal. Le canal de transmission typique pour la parole est le téléphone. Il est caractérisé par sa bande passante [300-3400 Hz] qui n’est pas sans conséquence sur le signal vocal reçu ; le type de micro téléphonique ainsi que la qualité de la transmission (courte ou longue distance) sont deux autres facteurs de variabilité qui peuvent être responsables de distorsions et d’altérations du signal. Si la parole téléphonique est tout 124 Studia Informatica Universalis. particulièrement la cible des plans d’évaluation internationaux de la reconnaissance du locuteur, les conditions d’enregistrements influent sur toutes les reconnaissances. Compte tenu du degré de liberté de la spécification de la tâche et de la complexité engendrée à la reconnaissance, toute comparaison de systèmes ne peut a priori être établie que sur une " tâche commune " de reconnaissance. Données communes : Corpus de développement et corpus de test Pour les besoins stricts de la méthodologie d’évaluation, les " données communes " se résument à la distribution aux participants des corpus acoustiques de développement et de test. Les données de développement ont pour but de permettre l’adaptation des systèmes à la tâche spécifiée pour le test. Le corpus de développement doit être représentatif du corpus de test. Par conséquent, les données doivent être homogènes aussi bien par leur nature (e.g., texte dont le test est issu) que par leur condition d’enregistrement (e.g., matériel d’enregistrement identique). Dans le cas d’une reconnaissance indépendamment du locuteur, les locuteurs de développement et de test sont différents. Les données de développement sont antérieures aux données de test par leur date d’enregistrement et, par exemple, par les textes dont elles proviennent. La contrainte pour le test est que les données n’aient servi à aucun apprentissage et à aucun développement, les locuteurs étant évidemment différents. De plus, les données de développement et de test doivent être annotées afin de permettre l’évaluation de performance des systèmes suivant la méthodologie retenue. L’annotation des données de développement et de test est suivant la reconnaissance considérée i) le texte des corpus oraux (langage parlé), ii) l’identité du locuteur par segment acoustique (locuteur), iii) la langue parlée par segment acoustique (langue), iv) la classe émotionnelle du segment acoustique (émotion). Dans les challenges internationaux, les données de test représentent quelques heures de parole. Evaluation commune : Evaluation de performance des systèmes Par " évaluation commune ", on entend outils d’évaluation communs mis en œuvre, validés et utilisés par une infrastructure organisatrice des Combinatorial Optimization in Practice 125 tests. Ce principe évite la duplication des efforts de mise en œuvre d’une évaluation de performance. L’évaluation de performance usuelle est de type " boîte noire " ; elle consiste à comparer l’hypothèse de reconnaissance/classification du système et la transcription de référence, en termes d’annotation, du signal-test acoustique. En reconnaissance du locuteur et en détection de la langue, les hypothèses de détection sont à valeurs booléennes. Dans ce cas, la mesure de performance est une variante de la courbe ROC (Relative Operating Characteristic) [64], la courbe DET (Detection Error Tradeoff) [65] avec en abscisse, le taux de fausse alarme et en ordonnée celui de mauvaise détection. La performance peut également être mesurée par le taux d’égale erreur (EER, Equal Error Rate), point caractéristique de la courbe DET où le taux de fausse alarme et celui de mauvaise détection sont égaux. En reconnaissance du langage parlé, la mesure de performance usuelle est le taux d’erreur en mots (WER, Word Error Rate) [66] défini par 100 fois le rapport du nombre de mots erronés de l’hypothèse du système au nombre de mots de la référence (0% est le meilleur score de reconnaissance, le taux d’erreur peut être supérieure à 100%). Les erreurs sont la substitution, l’insertion et l’omission de mot. L’identification de ces erreurs résulte de l’alignement des mots de l’hypothèse et des mots de la référence par une variante de l’algorithme de Wagner et Fischer habituellement utilisé pour la comparaison de chaînes de caractères. Une substitution a lieu lorsque les mots alignés diffèrent ; une insertion (resp. omission) a une occurrence lorsqu’un mot de l’hypothèse (resp. référence) n’a pas de correspondant dans la référence (resp. hypothèse). Pour des langues, comme par exemple le Mandarin, la mesure de performance est le taux d’erreur en caractères dont le principe est similaire à la mesure précédemment donnée, mais transposée au niveau du caractère. En reconnaissance de l’émotion, le premier plan se limite à une évaluation des systèmes suivant leur performance de classification de segments acoustiques. Les systèmes y sont évalués par les mesures de rappel et de précision [67] usuelles en recherche d’information. Pour une classe donnée, ayant N occurrences de segments-test et P le nombre de segments-test attribués à la classe lors du test, 126 Studia Informatica Universalis. i) le rappel est le rapport du nombre de segments de cette classe classés correctement et de N, , ii) la précision est le rapport du nombre de segments de cette classe classés correctement et de P. L’autre mesure unificatrice utilisée est la F-mesure, moyenne harmonique du rappel et de la précision. 4. Performance des reconnaissances Pour conclure cette revue des reconnaissances de la parole, nous donnerons les performances des systèmes obtenues lors des plans d’évaluation les plus récents. Ces plans suivent tous le paradigme d’évaluation décrit au chapitre 3, la spécification de la tâche nous permettra de préciser la complexité de la reconnaissance et les résultats d’évaluation nous permettront de situer les performances atteintes par les systèmes de l’état de l’art. 4.1. La reconnaissance du locuteur NIST 2008 Speaker Recognition Evaluation Plan (SRE08) - Les évaluations NIST sur la reconnaissance du locuteur ont commencé en 1997 et se déroulent maintenant tous les 2 ans. Depuis 1997, le paradigme d’évaluation consiste en une série de tests de détection de locuteur sur une base de données commune divisée en données d’apprentissage et en données de test. Un test de détection de locuteur consiste à tester l’hypothèse “Le segment-test x est-il prononcé par le locuteur y ?” en comparant le segment x aux données d’apprentissage du locuteur y. Les résultats d’un test doivent être –une valeur de vraisemblance de cette hypothèse (comprise en 0 et 1) –ainsi qu’une valeur booléenne sur l’acceptabilité de l’hypothèse. Chaque décision doit être fondée uniquement sur les segments d’apprentissage et de test prévus dans le plan d’évaluation. Les mesures de performance associées à un ensemble de tests de détection sont la courbe DET (Detection Error Tradeoff) et le taux d’égale erreur (EER - Equal Error Rate). Le plan d’évaluation 2008 comporte plusieurs types de données de parole enregistrées en qualité téléphonique sur un à plusieurs canaux : Combinatorial Optimization in Practice 127 parole conversationnelle et interviews (mélange de parole lue et de voix spontanée). 13 séries de test (1 obligatoire et 12 facultatives) sont définies dans le plan avec diverses combinaisons de sous-ensembles d’apprentissage et de test. La série obligatoire de tests de détection du locuteur comprend 1 336 locuteurs avec une durée moyenne d’apprentissage de 3 minutes par locuteur et 6 557 segments de test d’une durée moyenne de 5 minutes. 46 sites ont participé à l’évaluation SRE 2008. Les organisateurs ont analysé les résultats de cette série de tests de détection de locuteurs suivant 8 conditions [68] dépendant des caractéristiques des segments de test et d’apprentissage. Le taux d’égale erreur varie de 0.8%, dans le cas d’interviews avec la même chaîne d’acquisition à l’apprentissage et au test, à 5%, dans le cas de voix spontanées téléphoniques et des chaînes d’acquisition pouvant être différentes. 4.2. La détection de la langue NIST 2009 Language Recognition Evaluation Plan (LRE09) Les évaluations NIST sur la reconnaissance de la langue ont commencé en 2003, avec une phase exploratoire en 1996, et se déroulent tous les 2 ans en alternance avec les campagnes sur la reconnaissance du locuteur. Le paradigme d’évaluation reprend celui utilisé en reconnaissance du locuteur. Il consiste en une série de tests de détection de la langue sur une base de données commune divisée en données d’apprentissage et données de test. Un test de détection de la langue consiste à tester l’hypothèse “Le segment-test x appartient-il à la langue y ?” en comparant le segment x aux données d’apprentissage de la langue y. Les résultats d’un test doivent être –une valeur de vraisemblance de cette hypothèse (comprise en 0 et 1) –ainsi qu’une valeur booléenne sur l’acceptabilité de l’hypothèse. Chaque décision doit être fondée uniquement sur les segments d’apprentissage et de test prévus dans le plan d’évaluation. Les mesures de performance associées à un ensemble de tests de détection sont la courbe DET (Detection Error Tradeoff) et le taux d’égale erreur (EER - Equal Error Rate). Le plan d’évaluation 2009 comporte 39 langues dont 23 utilisées à l’apprentissage avec une durée moyenne d’apprentissage d’une heure et demi. Les données de parole proviennent de conversions téléphoniques 128 Studia Informatica Universalis. ou de la radio Voice of America. Le plan d’évaluation définit plusieurs séries de test [69] : –le test fermé (langues des segments-test appartenant aux 23 langues d’apprentissage), –le test ouvert (langues des segments-test appartenant aux 39 langues), –huit paires de langues (cantonais/mandarin, portugais/espagnol, hindi/urdu, russe/ukrainien, . . .). Trois durées sont choisies pour les segments de tests : 3 secondes, 10 secondes et 30 secondes. 18 sites ont participé à l’évaluation LRE 2009. Les taux d’égale erreur pour le test ouvert varient de 2,7% pour 30 secondes de test à 12% pour 3 secondes de test. Les taux d’égale erreur pour le test fermé varient de 1,5% pour 30 secondes de test à 9% pour 3 secondes de test. Pour 30 secondes de test, les résultats pour les tests de paires de langues varient de 0.20% pour la paire espagnol/portugais à 26% pour la paire hindi/urdu. 4.3. La reconnaissance du langage parlé NIST 2009 Rich Transcription Evaluation Plan (RT09) Les évaluations ARPA/DARPA/NIST sur la reconnaissance du langage parlé ont commencé en 1988. Les plans d’évaluation peuvent inclure plusieurs tâches, leur historique montrent l’évolution des tâches évaluées : 1988-1996, reconnaissance de la parole lue (lecture d’articles de Wall Street Journal) 1995-2004, reconnaissance de la parole radio/télé-diffusée (journaux radio/télévisés) 1993-2004, reconnaissance de la parole conversationnelle téléphonique (thème donné) depuis 2002, reconnaissance de la parole conversationnelle en groupe (compte-rendu de réunion).Les données de parole sont en langue anglaise, mises à part les extensions, faites en 2003 et 2004, en mandarin et en arabe pour la parole télédiffusée et la parole conversationnelle téléphonique. Les plans d’évaluation RT (Rich Transcription Meeting Recognition) évaluent actuellement trois tâches : la transcription de la parole en texte (STT - Speech-To-Text), la localisation des temps de parole des locuteurs (SPKR – Speaker) et une troisième tâche composite, l’attribution du locuteur à la transcription de la parole au texte (SASTT – Speaker Attributed to Speech-To-Text). Nous donnerons les performances pour STT. Les données collectées correspondent à l’enregistrement de Combinatorial Optimization in Practice 129 10 réunions réunissant jusqu’à 7 participants. Toutes les réunions ont lieu en langue anglaise, pour deux d’entre elles, tous les participants sont non-natifs. Les salles de réunion ont un environnement de bruit ambiant et de réverbération. Les conditions d’enregistrements sont multiples (multiples microphones distants - MDM, micro-casque - IHM). Les enregistrements sont segmentés en unité de temps. Chaque segment a un facteur de superposition (Fs) fonction du nombre de locuteurs intervenant dans le segment. Un facteur n indique que n locuteurs ont pris la parole durant le segment considéré, mais ne signifie pas obligatoirement que les n locuteurs parlent en même temps. Le calcul du WER est adapté au cas des superpositions de parole. La sortie du système comprend le flot de mots de la transcription avec leur localisation en temps, leur score de vraisemblance et leur information de type (e.g., lexical non-lexical : respiration, rire, claquement de porte, . . .). Seules les entités lexicales sont considérées à l’évaluation de performance. Les tests consistent en 3 heures d’enregistrements extraits des données collectées avec les conditions d’enregistrement IHM et MDM. L’évaluation RT-SST 2009 réunit 3 participants (2 consortiums et 1 site). Le taux d’erreur en mots [70] le plus bas i) est de 25% pour la condition IHM, ii) de 32% pour le test MDM avec Fs=1 ; iii) de 43% pour le test MDM avec Fs=4. Ces taux d’erreur sont à comparer au taux d’erreur humain d’une transcription qui est de 2 à 4%. 4.4. La reconnaissance de l’émotionInterspeech 2009 Challenge Emotion L’objectif du premier plan d’évaluation, Interspeech 2009 Emotion Challenge [71], est clairement la stricte comparabilité des systèmes en utilisant une base de données d’émotion spontanée. Dans le bilan dressé par les organisateurs de la dernière décade de recherche, on peut noter la forte attente des chercheurs de bases d’émotions spontanées (vs simulées), la complexité des tâches incomparable (reconnaissance/classification, choix des classes émotionnelles, indépendance au locuteur) et souvent la non productibilité des résultats publiés. Les organisateurs font également part de leur intention de mettre en libre accès la base utilisée pour ce premier challenge. 130 Studia Informatica Universalis. La base retenue pour l’évaluation est FAU Aibo Emotion corpus [71, 72]. Le corpus correspond à l’enregistrement d’enfants âgés entre 10 et 13 ans en interaction avec Aibo, le chien robot de Sony. Un magicien d’Oz contrôle le robot Aibo qui peut se montrer obéissant ou désobéissant aux commandes de l’enfant provoquant alors chez lui une émotion spontanée. Les corpus ont été enregistrés pour une cinquantaine d’enfants. Tous les corpus ont été étiquetés en classe d’émotion au niveau du mot (18 216 segments porteurs d’émotion). Dans le test Open Performance Sub-Challenge, le problème posé, sous-problème de la reconnaissance, est la classification des segments de test en n-classes, i) un premier test considère 5-classes graduant l’émotion du calme à la colère, ii) un deuxième test considère 2-classes, -l’une relative au mécontentement de l’enfant vis-à-vis du robot, -l’autre représentant tous les autres états. 9 sites ont participé à l’évaluation du Challenge Emotion 2009 Les meilleures performances estimées en termes de rappel des segments de test-reconnus sont de l’ordre de 38% pour les 5-classes [73] et de 68% pour les 2-classes [74]. 5. Perspectives La reconnaissance de la parole est un domaine de recherche mature maîtrisant ses problématiques et ses paradigmes d’évaluation. Les performances des systèmes de reconnaissances de la parole s’améliorent comme le montrent les différentes évaluations. Cependant ces performances restent très éloignées de celles d’un être humain ou plus modestement de celles acceptables dans un système généraliste de communication vocale homme-machine. Ce constat est la raison de la difficulté de progression des industries du vocal. Toutefois, une distinction est à faire entre les différentes reconnaissances de la parole en fonction du type de connaissances (linguistiques, paralinguistiques, ou extralinguistiques) [75] à modéliser. Les reconnaissances basées sur les connaissances linguistiques (langage parlé, langue) et paralinguistiques (niveau émotionnel) sont celles qui comportent la plus grande marge de progression. Celle-ci dépendra des progrès à moyen et à long terme dans la formalisation de ces connaissances et de l’optimisation des architectures logicielles [76] les utilisant. Les reconnaissances de la parole utilisant principalement des connaissances extralinguistiques (in- Combinatorial Optimization in Practice 131 nées) comme la reconnaissance du locuteur sont déjà à un niveau de performances supérieur à celui d’un être humain. Des perspectives à court et à moyen terme sont la détection d’autres types d’informations extralinguistiques dans la parole comme l’état physiologique, le niveau de stress ou de fatigue. La reconnaissance de la parole fatiguée La parole fatiguée est la variabilité observable dans la parole due à une combinaison de réponses inconscientes aux facteurs de fatigue et / ou à un contrôle conscient en liaison avec la perception de la fatigue. Les effets de la fatigue (manque de sommeil, surcharge de travail, . . .) sur la voix [77, 78] sont à la fois de type physiologiques et neurologiques. Ils affectent les muscles articulateurs de la voix (poumons, glotte, conduit vocal et nasal) ainsi que les capacités cognitives dans la production de la parole (génération de la prosodie, programmation lexicale, . . .). Ces différents effets ont été analysés par les phoniatres pour des dysfonctionnements de la voix (dysarthrie, dysphonie, dysprosodie) dus à des atteintes neurologiques (maladie de Parkinson, . . .) [79] ou anatomiques (laryngectomie, ..) et par les neurolinguistes pour l’influence d’un stress sur la production du langage parlé [80]. Les travaux les plus récents étudient l’influence du manque de sommeil (de 6 heures à 60 heures) sur différents paramètres de la voix comme le temps d’établissement du voisement des phonèmes /p/ et /t/ [81, 82], les paramètres spectraux d’une phrase type [83], le temps de réponse à une question [84]. Sur ces données, les performances d’un classificateur sommeil/non sommeil varient de 70 à 80%. Ces résultats obtenus dans des conditions de laboratoire (tenue prolongée de voyelle isolée [85], production en temps limité d’une liste de mots, production d’une phrase type) ne peuvent s’appliquer directement à la détection temps-réel du niveau de fatigue dans les conditions réelles de dialogue. Aucun détecteur de parole fatiguée n’a pour l’instant été évalué. Références [1] Bull, R. and Clifford, B. R, “Earwitness voice recognition accuracy”, in G. L. Wells & E. F. Loftus (Eds.), Eyewitness testimony : Psychological perspectives, Cambridge University Press, pp. 92– 132 Studia Informatica Universalis. 123, 1984. [2] Kitamura, K. and Akagi, M., “Speaker Individualities in Speech Spectral Envelopes and Fundamental Frequency Contours”, in Proceedings of Speaker Classification (2) ’2007, pp.157-176, 2007. [3] Thibault, A., “Lexicographie et variation diatopique : le cas du français”, in Lexicographie et lexicologie historiques du français, Bilan et perspectives, Monza, Polimetrica International Scientific Publisher, pp. 69-91, 2008. [4] Howard, M., “Sociolinguistic variation in media language : the case of liaison in French”, in M Abecassis & E Vialleton (eds), La langue française au XXIème siècle : normes et variations Paris : L’Harmattan, 2007. [5] Morrison, G.S., “Forensic voice comparison and the paradigm shift”, in Science and Justice 49, pp. 298–308, 2009. [6] Hébert, M., “Text-dependent speaker recognition”, in : Benesty, J., Sondhi, M., Huang, Y. (Eds.), Springer Handbook of Speech Processing. Springer-Verlag, Heidelberg, pp. 743–762, 2008. [7] Kinnunen, T. and Li, M., “An Overview of Text-Independent Speaker Recognition : from Features to Supervectors”, Speech Communication 52 (1), pp.12–40, 2010. [8] Lefloch, J.-L., Montacié, C. and Caraty, M.-J., “GMM and ARVM Cooperation and Competition for Text-Independent Speaker Recognition on Phone Speech”, Actes IEEE-International Conference on Spoken Language Processing, pp. 2411-2414, Philadelphie, Etats-Unis, 1996. [9] Doddington, G.R., “Speaker recognition based on idiolectal differences between speakers”, in Proc. Eurospeech, pp. 2521–2524 , 2001. [10] Gordon, R. G., Jr. (ed.), Ethnologue : Languages of the World, (15th edn.) Dallas, SIL International. Web edition at : http ://www.ethnologue.com, 2005. [11] Ladefoged, P. and Maddieson, I., The Sounds of the World’s Languages, Oxford Blackwell Publishers, 1996. Combinatorial Optimization in Practice 133 [12] Comrie, B. (ed.), The World’s Major languages, New York/Oxford, 1990. [13] Y. K. Muthusamy, E. Barnard, R.A. Cole, “Reviewing automatic language identification”, IEEE Signal Processing Mug., vol. 11, no. 4, pp. 33-41, 1994. [14] Muthusamy, Y. K., Barnard, E. and Cole, R.A., “The OGI multilanguage telephone speech corpus”, in Proc. of International Conference on Speech and Language Processing, 2, pp. 895-898, Banff, octobre 1992. [15] Campbell, W. M., Singer, E., Torres-Carrasquillo, P. A. and Reynolds, D. A., “Language recognition with support vector machines”, Odyssey, Toledo, Spain, 2004. [16] Jayaram, A.K.V.S., Ramasubramanian, V. and Sreenivas, T.V., “Language identification using parallel sub-word recognition”, in : Proceedings of IEEE Internat. Conference on Acoustics Speech and Signal Processing, vol. I, pp. 32–35, 2003. [17] Nagarajan, T. and Murthy, H.A., “Language identification using acoustic log-likelihoods of syllable-like units”, Speech Communication, vol. 48, no. 8, pp. 913-926, 2006. [18] Gentilucci, M. and Corballis, M. C., “From manual gesture to speech : A gradual transition.” Neuroscience and Biobehavioral Reviews, 30, pp. 949–960, 2006. [19] Benzeghiba, M., De Mori, R., Deroo, O., Dupont, S., Erbes T., Jouvet, D., Fissore, L., Laface, P., Mertins, A., Ris, A., Rose, R., Tyagi, V. and Wellekens, C., “Automatic speech recognition and speech variability : A review”, Volume 49, Issues 10-11, pp. 763786, 2007. [20] Ming, J. and Smith, F. J., “Improved phone recognition using Bayesian triphone models”, ICASSP, pp. 409-412, 1998. [21] Greenberg, S. and Chang, S., “Linguistic dissection of switchboard corpus automatic speech recognition systems”, in Proceedings of ISCA Workshop on Automatic Speech Recognition : Challenges for the New Millenium, Paris, France, pp. 195-202, 2000. 134 Studia Informatica Universalis. [22] Christiansen, R. and Rushforth, C. K., “Word Spotting in Continuous Speech using Linear Predictive Coding”, in Proc. IEEE Int. Conf. on Acoustics, pp. 557-6 00, 1976 [23] Keshet, J., David Grangier, D. and Bengio, S., “Discriminative keyword spotting, Speech Communication”, Volume 51, Issue 4, pp. 317-329, 2009. [24] Rose., R.C, “Keyword detection in conversational speech utterances using hidden Markov model based continuous speech recognition”, Computer Speech and Language, 9, pp. 309-333, 1995. [25] Lee, C.H., Rabiner, L.R., Pieraccini, R., and Wilpon, J.G., “Acoustic modeling for large vocabulary speech recognition”, Computer Speech & Language, 4, pp.1237-1265, 1990. [26] Lamel, L. and Gauvain, J.-L., “Alternate phone models for conversational speech”, in Proceedings of ICASSP, Philadelphia, Pennsylvania, pp. 1005-1008, 2005. [27] Lippmann, R.P., “Speech recognition by machines and humans”, Speech Communication, 22 (1), pp. 1–15, 1997. [28] LeDoux, J. E., “A neurobiological view of the psychology of emotion”, in J. LeDoux & W. Hirst (Eds.), Mind and brain : Dialogues between cognitive psychology and neuroscience, New York : Cambridge University Press, pp. 355–358, 1986. [29] Davis P. J., Winkworth, A., Zhang, S. P. and Bandler R., “The neural control of vocalization : Respiratory and emotional influences”, J Voice 10, pp. 23-38, 1995. [30] Hinojosa, J. A. , Méndez-Bértolo, C., Carretié, L. and Pozo, M. A., “Emotion modulates language production during covert picture naming”, Neuropsychologia, 2010. [31] Buck, R., “The biological affects : A typology”, Psychological Review, 106, pp. 301–336, 1999. [32] Menahem R., “La voix et la communication des affects”, in L’année psychologique, vol. 83, n◦ 2, pp. 537-560, 1983. [33] Averill, J. R., “A semantic atlas of emotional concepts”, JSAS Catalog of Selected Documents in Psychology, 5, p. 330, 1975. Combinatorial Optimization in Practice 135 [34] Cowie R. and Cornelius R., “Describing the emotional states that are expressed in speech. Speech Communication”, 40, pp. 5-32, 2003. [35] Osgood, C., May, W. H. and Miron, M. S., “Cross-cultural Universals of Affective Meaning”, University of Illinois Press, Urbana, 1975. [36] Van Bezooijen, R., “The Characteristics and Recognizability of Vocal Expression of Emotions”. Foris, Drodrecht, The Netherlands, 1984. [37] Ververidis, D. and Kotropoulos, C., “Emotional Speech Recognition : Resources, features and methods”, Speech communication, 48 (9), pp. 1162-1181, 2006. [38] Alter, K., Rank, E., Kotz, S.A., Toepel, U., Besson, M., Schirmer, A. and Friederici, A.D., “Affective encoding in the speech signal and in event-related brain potentials”, Speech and Communication, 40, pp. 61-70, 2003. [39] Markov, A. A., “An example of statistical investigation”, in the text of "Eugene onyegin" illustrating coupling of "tests" in chains, in Proceedings of Academic Scienctific St. Petersburg, VI, pp. 153162, 1913. [40] Baker, J. K., “Stochastic Modeling for Automatic Speech Understanding”, in D. R. Reddy editor, Speech Recognition, pp. 521-542, Academic Press, New York, 1975. [41] Jelinek, F., “Continuous Speech Recognition by Statistical Methods”, IEEE Transaction on Acoustic, Speech, Signal Processing, vol. 64, n◦ 4, pp. 532-556, 1976. [42] Duda, R. O. and Hart, P. E., Pattern Classification and Scene Analysis, Wiley-Interscience Publication, New York, 1973. [43] Markov, A. A., “An example of statistical investigation”, in the text of "Eugene onyegin" illustrating coupling of "tests" in chains, in Proceedings of Academic Scienctific St. Petersburg, VI, pp. 153162, 1913. [44] Baker, J. K., “Stochastic Modeling for Automatic Speech Understanding”, in D. R. Reddy editor, Speech Recognition, pp. 521-542, Academic Press, New York, 1975. 136 Studia Informatica Universalis. [45] Jelinek, F., “Continuous Speech Recognition by Statistical Methods”, IEEE Transaction on Acoustic, Speech, Signal Processing, vol. 64, n◦ 4, pp. 532-556, 1976. [46] Duda, R. O. and Hart, P. E., Pattern Classification and Scene Analysis, Wiley-Interscience Publication, New York, 1973. [47] Brants, T. and Franz, A., “Web 1T 5-gram version 1. Linguistic Data Consortium”, Philadelphia. LDC2006T13, 2006. [48] Jelinek, F., “Self-Organized Language Modeling for Speech Recognition , Readings in Speech Recognition”, Morgan Kaufman, 1989. [49] Katz, S. M., “Estimation of Probabilities for the Language Model Component of a Speech Recognizer”, IEEE Transactions on Acoustic, Speech and Signal Processing, vol. 3, pp. 400-403, 1987. [50] Kneser, R., and Ney, H., “Improved Clustering Techniques for Class-based Statistical Language Modelling”, European Conference of Speech Communication and Technology, Berlin, Allemagne, pp. 973-976, 1993. [51] S. Goronzy, S. Rapp, R. Kompe, “Generating non-native pronunciation variants for lexicon adaptation”, Speech Communication, no 42, pp. 109-123, 2004. [52] R. Nisimura, K. Komatsu, Y. Kuroda, K. Nagatomo, A. Lee, H. Saruwatari, K. Shikano, “Automatic N-gram Language Model Creation from Web Resources”, Eurospeech, Aalborg„ Denmark, pp. 2127-2130, 2001. [53] Schwarm, S. and Ostendorf, M., “Text Normalization with varied data sources for Conversational Speech Language Modelling”, ICASSP, vol. I, pp. 789-792, 2002. [54] Sproat, R., Black, A. W., Chen, S., Kumar, S., Ostendorf, M. and Richards, C., “Normalization of non-standard words”, Computer Speech and Language, vol 15, pp. 287-333, 2001. [55] Grevisse, M. , Le bon usage - Grammaire française , 8ème édition, Duculot-Gembloux-Hatier Paris, 1964. [56] Murveit, H., Butzberger, J., Digalakis, V. and Weintraub, M., “Large-Vocabulary Dictation Using SRI’s Decipher Speech Combinatorial Optimization in Practice 137 Recognition System : Progressive Search Techniques”, Proc. ICASSP’93, Vol II, Minneapolis, pp.319-322, 1993. [57] Paul, D. and Necioglu, B., “The Lincoln Large-Vocabulary StackDecoder HMM CSR”, Proc. ICASSP’93, Vol II, Minneapolis, pp.660-663, 1993. [58] Fetter, P., Dandurand, F. and Regel-Brietzmann, P., “Word Graph Rescoring Using Confidence Measures”, ICSLP, 1996. [59] Odell, J. J., Valtchev, V., Woodland, P. C. and Young, S. J., “One Pass Decoder Design For Large Vocabulary Recognition”, ARPA HLT workshop, 1994. [60] Caraty, M.-J., Barras, C., Lefèvre, F., and Montacié, C., “DDAL : un système de dictée vocale développé sous l’environnement HTK”, 21èmes JEP, Journées d’Etude sur la Parole, pp. 289292, Avignon„ 1996. [61] National Institute http ://www.nist.gov/ of Standards and Technology, [62] Advanced Technology Program, http ://www.atp.nist.gov/ [63] Technology Innovation Plan, http ://www.nist.gov/tip/ [64] Egan, James P., .Signal Detection Theory and ROC .Analysis., Academic Press, 1975 [65] Martin, A. F. et al., “The DET Curve in Assessment of Detection Task Performance”, Proc. Eurospeech ’97, Rhodes, Greece, September 1997, Vol. 4, pp. 1899-1903. [66] Hunt, M. J., “Figures of Merit for Assessing Connected-Word Recognisers”, in Speech Communication, 9, pp. 239-336, 1990. [67] Cleverdon, C. W., Mills J. and Keen, E. M., “Factors determining the performance of indexing systems”, Vol. 1-2, Cranfield, U.K, College of Aeronautics, 1966. [68] www.itl.nist.gov/iad/mig//tests/sre/2008/official_results/index.html [69] www.itl.nist.gov/iad/mig//tests/lre/2009/lre09_eval_results/index.html [70] www.itl.nist.gov/iad/mig/tests/rt/2009/workshop/RT09Overview-v2.pdf 138 Studia Informatica Universalis. [71] Schuller, B., Steidl, S. and Batliner., A. “The Interspeech 2009 Emotion Challenge”, Interspeech 2009, ISCA, Brighton, UK, pp. 312-315, 2009. [72] Batliner, A. , Steidl, S., Schuller, B., Seppi, D., Laskowski, K., Vogt, T., Devillers, L., Vidrascu, L., Amir, N., Kessous, L. and Aharonson, V., “Combining Efforts for Improving Automatic Classification of Emotional User States”, in Proc. IS-LTC, Ljubliana, pp. 240–245, 2006 [73] Kockmann, M., Burget, L. and Cernocky, J., “Brno University of Technology System for Interspeech 2009 Emotion Challenge”, Interspeech, ISCA, Brighton, UK, pp. 348-351, 2009. [74] Dumouchel, P., Dehak, N., Attabi, Y., Dehak, R. and Boufaden, N., “Cepstral and Long-Term Features for Emotion Recognition”, Interspeech, ISCA, Brighton, UK, 2009. [75] Laver, John. “The phonetic description of voice quality”, Cambridge University Press, pp. 21-23, 1980. [76] Roucairol, C., “Parallel processing for difficult combinatorial optimization problems”, European, Journal of Operations Research, 92, pp. 573-590, 1996. [77] Bard, E. G., Sotillo, C., Anderson, A. H., Thompson, H. S. and Taylor, M. M., “The DCIEM Map Task Corpus : Spontaneous dialogue under sleep deprivation and drug treatment”, Speech Communication, Vol. 20, pp. 71–84, 1996. [78] Harrison, Y. and Horne, J. A., “Sleep deprivation affects speech. Sleep”, 20, pp. 871–77, 1997. [79] Teston, B. and Viallet, F., “La dysprosodie parkinsonienne”, HAL – CCSD, 2008. [78] Pilcher, J.-J., McClelland, L.-E., Moore, D. D., Haarmann, H., Baron, J., Wallsten, T.-S. and McCubbin, J.-A., “Language Performance Under Sustained Work and Sleep Deprivation Conditions”, Aviation, Space, and Environmental Medicine, Volume 78, Supplement 1, pp.25-38, 2007. [81] Greeley, H.-P., Friets, E., Wilson, J., Raghavan, S., Picone, J. and Berg, J., “Detecting Fatigue From Voice Using Speech Recogni- Combinatorial Optimization in Practice 139 tion”, Signal Processing and Information Technology, pp. 567– 571, 2006. [82] Greeley, H.-P., Berg, J., Friets, E., Wilson, J., Greenough, G., Picone, J., Whitmore, J. and Nesthus, T., “Fatigue estimation using voice analysis”, Behavior Research Methods, 39 (3), pp. 610-619, 2007. [83] Jarek Krajewski, J. and Kröger, B., “Using Prosodic and Spectral Characteristics for Sleepiness Detection”. Interspeech, pp 18411844, 2007. [84] Tin, L. N., Haizhou, L. and Minghui, D., “Analysis and Detection of Speech under Sleep Deprivation”, Interspeech, pp. 17-21, 2006. [85] Krajewski, J., Wieland, R. and Batliner, A., “An Acoustic Framework for Detecting Fatigue in Speech Based Human-ComputerInteraction”, Lecture Notes in Computer Science, pp. 54-61, 2008. 140 Studia Informatica Universalis.