La reconnaissance vocale - Page Frontière du Site d`Arnaud Valeix

Transcription

La reconnaissance vocale - Page Frontière du Site d`Arnaud Valeix
Présentation personnelle
La reconnaissance vocale
Réalisé par Cyril Friche - TR6
4 juillet 2002
Made with LATEX
EIVD / Institut TCOM
Cyril Friche – 2
Auteur Cyril Friche
E-mail [email protected]
Classe ETR6 - Télécommunications, Réseaux et Services, EIVD - Yverdon, Suisse
Résumé Dans le cadre d’une présentation personnelle théorique, l’auteur doit analyser et
étudier le principe de la reconnaissance vocale. Un aperçu du principe de fonctionnnement ainsi qu’un état des lieux est impératif. L’accent sera principalement mis sur
les perspectives d’avenir de cette technologie ainsi que sur les solutions actuelles et
leurs domaines d’utilisations. Ce document ne sera en aucun cas utilisé comme référence dans les systèmes à reconnaissances vocales du fait de son caractère succint,
mais au contraire son but est d’aiguiller le lecteur vers les domaines d’utilisations de
ces systèmes.
Mots clefs Reconnaissance, voix, vocal, ASR, parole, TTS.
Présentation personnelle – La reconnaissance vocale
EIVD / Institut TCOM
Cyril Friche – 3
Table des matières
1 Introduction
1.1 Quelques chiffres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Reconnaissance et synthèse vocale . . . . . . . . . . . . . . . . . . . . . . .
4
4
5
2 Principes de fonctionnement
2.1 Comment ça marche ? . . .
2.2 Modèle linguistique . . . . .
2.3 Modèles acoustiques . . . .
2.4 Décodage . . . . . . . . . .
.
.
.
.
5
5
6
6
7
3 Problèmes rencontrés dans les systèmes ASR
3.1 Sensibilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Evaluation de la reconnaissance . . . . . . . . . . . . . . . . . . . . . . . .
7
7
8
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4 Applications
4.1 Typologie des systèmes commercialisés . . . . . . .
4.2 Applications destinées au grand public . . . . . . .
4.2.1 Services vocaux . . . . . . . . . . . . . . . .
4.2.2 Domotique . . . . . . . . . . . . . . . . . . .
4.2.3 Navigation vocale sur le web . . . . . . . . .
4.3 Applications en milieu professionnel . . . . . . . . .
4.3.1 Contrôle de qualité, saisie des données . . .
4.3.2 Avionique . . . . . . . . . . . . . . . . . . .
4.3.3 Identification et vérification du locuteur . .
4.3.4 Aide à la navigation à bord de voiture . . .
4.4 Formation . . . . . . . . . . . . . . . . . . . . . . .
4.5 Aide au handicap . . . . . . . . . . . . . . . . . . .
4.6 Systèmes de dictée automatique ou d’entrée vocale
4.6.1 Présentation . . . . . . . . . . . . . . . . . .
4.6.2 Logiciels disponibles . . . . . . . . . . . . .
4.6.3 D’un mot, la mise ne forme . . . . . . . . .
4.6.4 Evolutions futures . . . . . . . . . . . . . .
4.7 Traduction automatique . . . . . . . . . . . . . . .
4.7.1 Systèmes mono-utilisateur . . . . . . . . . .
4.7.2 Systèmes multi-utilisateurs . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
8
8
10
10
11
11
12
12
13
14
14
15
16
17
17
17
18
18
19
19
19
5 Conclusion
20
6 Quelques définitions et acronymes
21
Présentation personnelle – La reconnaissance vocale
EIVD / Institut TCOM
1
Cyril Friche – 4
Introduction
”La maı̂trise des interfaces vocales représente aujourd’hui un enjeu majeur dans
l’univers des télécommunications. Intuitives, conviviales et ne nécessitant aucun
apprentissage, ces interfaces constituent en effet un mode d’accès particulièrement apprécié des utilisateurs. Simples à mettre en oeuvre et peu coûteuses,
elles séduisent aussi de plus en plus d’entreprises, auxquelles elles permettent
de créer des services innovants”.
Cette phrase, citée dans [2] par Francis Charpentier, résume bien la situation et toutes les
perspectives d’avenir des systèmes à reconnaissance vocale.
Qui d’entre vous n’a jamais rêvé de piloter son installation domestique à la voix ? L’homme
étant par nature assez paresseux, toutes les inventions lui faisant éviter des efforts physiques
lui paraı̂tront intéressantes. Agir sur l’éclairage, enclencher son matériel audio-vidéo, activer
son système d’alarme, commander son ordinateur pourraient alors être pilotés sans aucun
interrupteur, ni clavier, ni clé. Outre le rêve et l’aspect ”magique” fort légitimes inspirés
par les meilleurs films de sciences-fictions, c’est bien évidemment un confort d’utilisation
inégalable auquel on pense en premier lieu quand on envisage ces possibilités.
Evitons de rêver et gardons les pieds sur terre. Avant de parler des bienfaits que pourraient
nous apporter les systèmes à reconnaissance vocale, l’auteur estime qu’une vue d’ensemble
du principe de fonctionnement est nécessaire. La reconnaissance vocale (ASR, Automatic
Speech Recognition) repose sur des techniques mathématiques très poussées et de ce fait
fort compliquées. C’est pour cette raison que le chapitre 2 n’est qu’une introduction au
fonctionnement d’un système ASR.
1.1
Quelques chiffres
Le secteur de la reconnaissance vocale est actuellement en pleine croissance. Selon une
estimation produite sur la base de données recueillies par la société Dataquest [1], il paraı̂t
ainsi possible d’établir que les ventes mondiales d’applications en reconnaissance de la voix
bondiront, d’ici cinq ans, de 247 millions de dollards US à 4,5 milliards de dollards US.
Les avantages économiques retirés de l’emploi des technologies vocales sont de plus en plus
importants, à mesure que la robustesse de ces dernières - la qualité de leur fonctionnement
- augmente. Une étude a, par exemple, permis d’établir qu’il est beaucoup moins coûteux,
pour une entreprise, de confier à des systèmes de reconnaissance de la voix plutôt qu’à
des agents faits de chair et d’os la tâche de réaliser certaines transactions comme la prise
d’ordres boursiers, la fourniture d’information aérienne, etc . . .
Pourtant, pour se faire, la technologie de la reconnaissance vocale doit encore progresser.
A titre d’exemple, avec un ”kit mains libres” aujourd’hui, le taux de reconnaissance d’un
nom est de 90 à 95%, autrement dit, un nom sur 10 n’est pas reconnu, alors que les
études montrent qu’un taux d’erreur de un sur 50 (98% de reconnaissance) est le minimum
acceptable pour les utilisateurs.
Présentation personnelle – La reconnaissance vocale
EIVD / Institut TCOM
1.2
Cyril Friche – 5
Reconnaissance et synthèse vocale
Lorsqu’on étudie un temps soit peu les systèmes vocaux, on s’aperçoit très rapidement
que deux acteurs y jouent le premier rôle :
– La reconnaissance vocale (ASR)
– La synthèse vocale (TTS, Text To Speech)
Le premier nommé permet à la machine de comprendre et de traiter des informations fournies oralement par un utilisateur humain. Le second permet de reproduire d’une manière
sonore un texte qui lui est soumis, comme un humain le ferait. L’auteur en reste là concernant le TTS, le sujet de ce document n’est pas celui-là. Pour obtenir des informations sur
TTS, se référer à [3].
Il faut bien distinguer les deux mondes : un système TTS peut très bien fonctionner sans
qu’un module ASR n’y soit rattaché. Evidemment le contraire est également tout à fait
possible. Par contre, dans certains domaines bien précis l’un ne va pas sans l’autre. En
réalité tout dépend généralement de l’utilité du système et bien évidemment du confort
que l’on veut proposer aux utilisateurs.
2
Principes de fonctionnement
2.1
Comment ça marche ?
Un système complet de reconnaissance vocal (voir la figure 1), appelé aussi système de
transcription, repose sur des théories bien formalisées :
– Analyse spectrale
– Théorie de l’information
– Programmation dynamique
– Modèles de Markov
La première partie du système de transcription, qui calcule les paramètres acoustiques,
se fonde sur la production de la parole. Schématiquement, la parole est un souffle d’air,
modulé au niveau des cordes vocales pour certains sons, qui traversent le conduit vocal.
La forme du conduit vocal (position de la langue, de la mâchoire ou des lèvres) détermine
des résonances acoustiques, caractéristiques du timbre de chaque phonèmes 1 . On cherche,
au moyen d’une analyse spectrale par fenêtre glissante, à conserver le timbre sonore en le
séparant de la modulation des cordes vocales ; de plus, l’analyse est réalisée sur une échelle
de fréquences proche de la manière dont les fréquences sont traitées par le système auditif.
La deuxième partie du système de transcription, le moteur de reconnaissance, reçoit les
paramètres acoustiques et produit en sortie une suite de mots. Il utilise plusieurs sources
de connaissances, à savoir :
– Des modèles acoustiques : une représentation du timbre des phonèmes
– Une modélisation linguistique : quelles sont les phrases qui peuvent être prononcées
dans la langue ?
1
Les phonèmes sont les sons élémentaires : ”a”, ”é”, ”ss”, etc . . .
Présentation personnelle – La reconnaissance vocale
EIVD / Institut TCOM
Cyril Friche – 6
– Un dictionnaire des mots de la langue avec leur prononciation phonétique
On recherche ensuite la suite de mots la plus probable correspondant aux paramètres
acoustiques observés : cela s’appelle le décodage 2 . Une réécriture probabiliste permet de
décomposer le problème et de l’exprimer comme la recherche de la suite de mots maximisant conjointement la probabilité de cette phrase dans la langue (estimée par le modèle
linguistique) et la probabilité que les paramètres acoustiques correspondent à la phrase
(estimée par la modélisation acoustique).
Fig. 1 – Architecture d’un système de transcription automatique
2.2
Modèle linguistique
La modélisation linguistique donne la probabilité d’une phrase dans la langue. Ceci
est fait en général de manière très simplifiée, dans le cadre d’une hypothèse markovienne
d’ordre n : la probabilité de la phrase est le produit des probabilités de chacun des mots de
la phrase sachant les mots précédents, en se restreignant à un passé de quelques mots. Ces
probabilités sont estimées par comptage sur de grandes quantités de textes de référence
(par exemple plusieurs années d’archives de journaux contenant des centaines de millions
de mots . . .), en se limitant à un passé de 2 ou 3 mois. On ne prend donc pas en compte
les dépendances grammaticales à long terme.
2.3
Modèles acoustiques
La modélisation acoustique représente les phonèmes de la langue au moyen de modèles
de Markov cachés. Il s’agit de petits automates probabilistes dont les états modélisent des
configurations de l’appareil phonatoire. Les caractéristiques de ces modèles sont estimés
sur des corpus de plusieurs centaines d’heures de parole transcrites manuellement.
2
Par exemple, on aura plus de chance de retrouver ”Cher Monsieur” que ”Chair Monsieur”
Présentation personnelle – La reconnaissance vocale
EIVD / Institut TCOM
2.4
Cyril Friche – 7
Décodage
Ce processus consiste à rechercher le chemin optimal dans le graphe de toutes les phrases
possibles. La phrase est construite comme un enchaı̂nement de mots, eux-mêmes constitués
de phonèmes chacun modélisés par un petit automate d’états acoustiques. La complexité
du décodage est réduite grâce à la programmation dynamique, qui permet de réaliser le
décodage dans un temps proportionnel à la durée de la phrase enregistrée, et en utilisant
de nombreuses heuristiques pour réduire la taille du graphe.
3
3.1
Problèmes rencontrés dans les systèmes ASR
Sensibilité
La reconnaissance de la parole étant basée sur une modélisation statistique, il est important de comprendre, pour la mettre en œuvre efficacement, qu’elle ne peut pas, par
nature, atteindre une fiabilité de 100%. Une performance à laquelle aucun système créé par
l’homme ne peut d’ailleurs prétendre . . .
Technologie humaine par excellence, la reconnaissance de la parole est sensible à un ensemble de facteurs. Certains techniques, mathématiques ou linguistiques. D’autres tout
simplement humains. Par exemple :
– Plus le vocabulaire est petit, meilleur est le taux de reconnaissance
– Plus les mots à reconnaı̂tre sont courts et semblables, plus le travail de reconnaissance
est délicat
– Le bruit environnant : les applications sur réseau mobile, souvent destinées à être
utilisées en environnement souvent bruyant, demandent des techniques de filtrage
particulières
– Le degré de familiarité de l’utilisateur avec le service influe sur les résultats qu’il
obtient
– Plus le dialogue est guidé, fermé, plus le locuteur utilise des mots reconnus par le
système et meilleur est le taux de reconnaissance
– Plus la quantité d’enregistrements vocaux utilisés pour modéliser le système est
grande, plus le taux d’erreurs est faible
– Le réglage des performances sur le terrain : le taux d’erreur peut être considérablement réduit en optimisant encore les modèles du vocabulaire
Bien évidemment, tout dépend également du locuteur lui-même. Soit au niveau de son sexe,
de son origine dialectale ou de son état physique. On peut imaginer que la motivation, le
débit de la parole, l’état physique (fatigue, état émotif, stress) peuvent fortement influencer
la qualité de la reconnaissance.
Toutes les langues ne sont pas égales devant la reconnaissance de la parole. Un logiciel
avec des performances x dans une langue n’aura pas des performances identiques dans une
autre, à moins d’une adaptation. La prosodie de l’anglais se traduit par une accentuation
du début des mots, alors qu’en français, c’est l’inverse. En anglais, la liaison entre les mots
est quasi-inexistante, mais omniprésente en français.
Présentation personnelle – La reconnaissance vocale
EIVD / Institut TCOM
3.2
Cyril Friche – 8
Evaluation de la reconnaissance
Afin de citer des méthodes d’évaluation, il faut au préalable évaluer dans quels cas les
systèmes ASR peuvent être défaillant. Les erreurs d’un système de reconnaissance peuvent
être classés en 3 types de base :
– substitution : un mot est confondu avec un autre mot du vocabulaire
– élision : un mot prononcé n’a pas été reconnu
– insertion : un mot non prononcé a été reconnu
Les types d’erreur n’ont pas toutes le même poids : une erreur de substitution de mot est
en général plus grave que le rejet intempestif d’un mot correctement prononcé (élision).
Une telle catégorisation ne permet pas toujours facilement d’évaluer un système de reconnaissance de mots connectés ou de parole continue, dans la mesure où l’étiquette de
l’erreur ne peut être déterminée de façon univoque et rigoureuse : une substitution peut en
effet être interprétée comme une élision suivie d’une insertion. En pratique, on utilise un
système d’alignement automatique permettant de retenir le meilleur diagnostic.
Pour les systèmes de reconnaissance de grands vocabulaire, on substitue au nombre de
mots bien reconnus la notion de précision (accuracy) qui est le pourcentage de mots bien
reconnus par rapport au nombre de mots attendus.
A ces critères de base peut s’ajouter la notion de taux de rejet qui se décompose en deux
cas : un mot valide a été rejeté alors qu’il aurait dû être accepté (faux rejet qui peut être
assimilé à une élision), un mot non autorisé ou bruit a été reconnu comme appartenant au
vocabulaire (fausse acceptation qui peut être assimilé à une insertion).
4
4.1
Applications
Typologie des systèmes commercialisés
Plusieurs critères permettent de caractériser les systèmes de reconnaissance. Ces critères
correspondent aux éléments qui interviennent dans le processus de parole :
– Mode d’élocution : selon que l’utilisateur prononce les mots en parole continue, ou
en mode isolé en marquant une pause entre les mots.
– Dépendance au locuteur / apprentissage : les systèmes sont soit indépendants du locuteur (multilocuteurs) soit dépendants du locuteur (monolocuteurs). Dans ce dernier
cas, ils sont capables de ne reconnaı̂tre que la voix des personnes qui ont fait un
apprentissage préalable.
– adaptation : les systèmes les plus récents sont fondés sur la reconnaissance d’unités
plus petites que le mot, correspondant le plus souvent à ce qu’on appelle un triphone
qui représente la forme acoustique d’un phonème dans le contexte de ses phonèmes
voisins immédiats. Il est alors demandé à tout nouvel utilisateur de prononcer un
ensemble de phrases comportant l’ensemble des phonèmes d’une langue, afin d’adapter les références à sa voix. La durée d’une telle adaptation est souvent de l’ordre
d’une petite demi-heure. La plupart du temps, les systèmes de dictée automatique
sont adaptifs en ligne, c’est-à-dire que les modèles (acoustiques et linguistiques) sont,
Présentation personnelle – La reconnaissance vocale
EIVD / Institut TCOM
Cyril Friche – 9
de façon implicite, automatiquement modifiés pendant l’utilisation réelle.
– Taille du vocabulaire : il peut être petit (quelques dizaines de mots), moyen (quelques
centaines) ou grand (plusieurs milliers ou dizaines de milliers). Quand l’application
est bien définie, on constate souvent que quelques centaines de mots peuvent suffire.
Lorsqu’on aborde la dictée automatique, la taille dépasse vite les dizaines de milliers
de mots.
– Prise de son : le microphone peut être soit directif et de proximité (ce qui nécessite
alors le port d’un casque), soit posé sur le bureau, soit intégré dans le combiné
téléphonique. Dans certains environnements bruités (voiture, borne de hall de gare,
etc. . .), une antenne ou barrette de plusieurs microphones permet de mieux localiser
le locuteur et d’extraire le signal de parole du bruit ambiant.
– Temps de réponse : il doit être inférieur à la seconde
– Performances : le taux de reconnaissance doit être supérieur à 95% au niveau du mot.
Ce critère dépend bien évidemment de l’objectif poursuivi dans l’application.
Les produits actuellement disponibles dérivent d’un compromis entre les différents critères
décrits ci-dessus, ce qui permet généralement de déterminer trois catégories d’applications :
1. Système indépendant du locuteur, fonctionnant à travers le téléphone ou avec un
simple microphone, mais ne pouvant reconnaı̂tre qu’un vocabulaire limité de quelques
dizaines à quelques centaines de mots, reconnus en mode isolé ou détectés dans le
flot de parole continue.
2. Système de reconnaissance de parole continue d’un vocabulaire de taille moyenne
(quelques centaines de mots), monolocuteur (nécessitant une courte phase d’apprentissage) éventuellement adapté à un environnement difficile (robuste au bruit, par
exemple).
3. Système monolocuteur adaptatif permettant la reconnaissance dans un environnement calme d’un vocabulaire de plusieurs dizaines de milliers de mots (ou de vocabulaire illimité), mais imposant le plus souvent à l’utilisateur de marquer une courte
pause entre les mots et de se plier à une phase d’adaptation souvent fastidieuse de
plusieurs dizaines de minutes.
Les contraintes qu’imposent les technologies vocales déterminent les utilisateurs potentiels
auxquels ces produits sont destinés, les professionnels et le grand public n’ayant pas des
exigences de même nature. L’utilisateur professionnel peut accepter certaines contraintes :
il peut se plier à une session d’apprentissage du vocabulaire ou accepter une reconnaissance de qualité médiocre, mais il aura le plus souvent besoin d’un vocabulaire étendu.
Au contraire, le grand public souhaitera disposer d’une reconnaissance de haute qualité
et refusera tout apprentissage préalable, mais ne sera pas gêné par une diction par mots
isolés, pour peu qu’il soit guidé par le dialogue : dans ce cas, quelques dizaines de mots de
vocabulaire peuvent sembler suffisant.
Présentation personnelle – La reconnaissance vocale
EIVD / Institut TCOM
4.2
4.2.1
Cyril Friche – 10
Applications destinées au grand public
Services vocaux
Les serveurs passifs existent depuis de nombreuses années tels que l’horloge parlante,
la météo, les résultats des courses, du loto, etc. Mais lorsque la quantité d’information
est importante, il devient nécessaire pour l’utilisateur de pouvoir sélectionner ce qu’il veut
entendre. Dans des cas simples la sélection de touches ”multifréquences” (DTMF)3 peut suffire. Mais des applications plus complexes (accès à des bases de données, cours de la bourse,
télé-achat, état des routes, enneigement des stations de sport d’hiver, résultat sportif, etc
. . .) requièrent une interaction vocale. L’utilisateur peut ainsi naviguer dans une arborescence en prononçant les mots de contrôle de l’application, comme indiqué dans la figure 2.
Ces services ne peuvent que s’étendre à tout un ensemble de domaines : la réservation de
Fig. 2 – Interaction vocale avec un téléphone
places d’avion, de train, de théâtre, de chambres d’hôtel, les déclarations de sinistre à l’assureur, les consultations et transactions bancaires, les opérations boursières, la facturation
automatique des appels à distance, etc . . .
La vérification de l’identité de l’appelant est nécessaire pour certaines des transactions qui
3
”Dual Tonne Multi Frequency”. Une paire de fréquence propre à chacune des 16 tonalités définies
permet la transmition de leurs valeurs respectives.
Présentation personnelle – La reconnaissance vocale
EIVD / Institut TCOM
Cyril Friche – 11
sont confidentielles (banques, assurances, consultation de messagerie personnelle). L’opérateur américains SPRINT est le premier à offrir un service de ”carte téléphonique” qui
contrôle l’identité de l’utilisateur par l’analyse de sa voix (les autres opérateurs utilisent uniquement un code confidentiel entré à partir des touches du téléphone). Ce service permet de
transférer le paiement d’un appel effectué à partir de n’importe quel poste téléphonique (y
compris les cabines publiques) sur le compte de l’abonné. L’introduction de la vérification
du locuteur semble avoir éliminé l’utilisation frauduleuse du code d’une autre personne.
4.2.2
Domotique
Les systèmes de commandes vocales de tous types d’appareils électroniques se trouvant dans la maison commencent à émerger petit à petit. Evidemment, il y a déjà des
applications semblables permettant aux handicapés de vivre indépendamment (voir le chapitre 4.5), mais à notre connaissance ces solutions ne sont que très peu répendues pour les
personnes non handicapés. Néanmoins, il existe quelques précurseurs. Panasonic a lancé
début 2002 au Japon le premier poste télé qui se pilote à la voix. Ce téléviseur numérique donne accès à l’ensemble des chaı̂nes télévisées, à la radio mais aussi à des services
interactifs. L’outil télévisuel par excellence - la télécommande - a été conservé : équipée
d’un microphone, c’est par son biais qu’on change de chaı̂ne, règle le son, programme un
enregistrement. Le téléviseur est commercialisé au prix de 8000 euros ( !).
Dans le même domaine, la jeune société NeuVoice [4], issue de l’Université de Plymouth, a
lancé un nouveau système de contrôle vocal. Il a été modélisé à partir du fonctionnement
de l’appareil auditif humain et par conséquent se révèle très efficace en environnement
bruyant : il repose sur un système informatique capable de modéliser la façon dont le cerveau sépare les sons que nous voulons entendre de ce que nous rejetons comme fond sonore.
Selon NeuVoice, ce nouveau dispositif pourrait être intégré non seulement aux téléphones
portables et aux assistants électroniques personnels (PDA), mais aussi à toute une série
d’appareils ménagers. Si, à la différence des produits développés par IBM [12] ou Dragon
[13], il dispose d’un vocabulaire limité, il a en revanche l’avantage de sa petite taille et
de sa faible consommation d’énergie. La machine à café commandée vocalement n’est plus
très loin . . .
4.2.3
Navigation vocale sur le web
La société Interactive Speech [11] a mis au point une technologie de Voice Navigation,
gratuite pour les internautes et simple à intégrer pour les sites Web. Un exemple est présenté
directement sur la page d’accueil de la société à l’adresse http://www.interactivespeech.
com/fr/. Lors du chargement de la page, une fenêtre d’aide à la navigation (plugin) apparaı̂t (voir la figure 3).
Il suffit d’avoir un microphone et une carte son pour que la navigation soit possible.
Tous les liens disponibles vocalement sont inscrits dans la fenêtre d’aide à la navigation.
Evidemment, le contenu de cette fenêtre varie dynamiquement en fonction de la page
activée. L’auteur conseil vivement le lecteur à essayer ce type de navigation, le résultat est
Présentation personnelle – La reconnaissance vocale
EIVD / Institut TCOM
Cyril Friche – 12
tout simplement parfait. Par contre, il est préférable de travailler seul dans son bureau car
vos commandes vocales ne seront que très peu appréciées par vos voisins . . .
4.3
4.3.1
Applications en milieu professionnel
Contrôle de qualité, saisie des données
L’interface vocal libère la vue et les mouvements : l’utilisateur peut se déplacer librement pour manipuler des objets ou entrer des données. Pendant qu’il observe un processus
complexe, il peut décrire des informations visuelles. Il a aussi la possibilité de commander
à distance un automate évoluant en milieu hostile (apesenteur, sous-marin, industrie pétrolière).
Un système portable Talkman de Vocollect [15] a été évalué et mis en service à la SNCF
pour des opérateurs itinérants. Manipulant des outils et divers instruments de mesures
lors de ses relevés, ses opérateurs effectuent des relevés d’informations sur des organes de
wagons SNCF pour déclencher le passage en révision. Ils interviennent dans des conditions
dangereuses. La fonctionnalité main libre et vue libre que procure une interface vocale est
là essentielle.
Sur le même principe, la société Conversay (voir [5]) commercialise une application nommée
Voice Surfer. Avec ce programme, un employé peut par exemple entrer tout l’inventaire de
son stock en utilisant uniquement la voix. Le gain de temps est directe car avec ce prinFig. 3 – Fenêtre d’aide à la navigation vocale
Présentation personnelle – La reconnaissance vocale
EIVD / Institut TCOM
Cyril Friche – 13
cipe les donnnées fournies sont automatiquement sauvegardées sur un ordinateur distant,
comme le montre la figure 4.
Fig. 4 – Saisie d’un inventaire avec un simple casque-micro
4.3.2
Avionique
A bord d’avions les tâches étant de plus en plus complexes et le tableau de bord de plus
en plus réduit, la parole permet au pilote d’avoir à sa disposition un moyen supplémentaire
d’interaction avec la machine, sans cependant gêner l’accomplissement des tâches courantes
qui requièrent de sa part toute son attention visuelle.
Les autorités canadiennes ont été les précurseurs des techniques vocales dans l’avionique.
Ainsi, L’Institut de recherche aérospatiale (IRA) a effectué des travaux de recherche sur
la technologie vocale depuis la fin des années 70. Dans les années 80, la recherche sur la
reconnaissance de la parole était axée sur la mise au point de techniques qui fonctionnent
dans les postes de pilotage des aéronefs, où le niveau de bruit ambiant est très élevé. BAE
Systems Canada a mis au point un système prototype de reconnaissance de la parole qui a
été installé dans l’hélicoptère Bell 205 à stabilité variable de l’IRA. Ce système a démontré
un très haut taux de reconnaissance de la parole à partir de données recueillies dans le
poste de pilotage de l’hélicoptère, où il y a beaucoup de bruit.
Actuellement, un système de reconnaissance de la parole est prévue à bord du tout nouvel
avion de l’armée française, le Rafale.
Présentation personnelle – La reconnaissance vocale
EIVD / Institut TCOM
4.3.3
Cyril Friche – 14
Identification et vérification du locuteur
L’importance d’un tel sujet d’étude a déjà été soulignée dans le cas des serveurs vocaux.
Des études approfondies ont été également entreprises pour assurer une meilleure sécurité
pour l’accès, en direct (et non plus par téléphone), à des bases de données confidentielles
ou à des enceintes protégées.
La société suisse Invoxis [6], fondée par deux anciens employés de Swisscom, est spécialiste
dans les technologies d’identification du locuteur. L’entreprise s’appuie sur les techniques
développées par deux sociétés américaines, Nuance et Speechworks ainsi que par celles de
Lernout & Hauspie. Dans le cadre de l’opérateur national, le groupe parole de Swisscom
d’où est issue Invoxis a été amené à créer un système de mots de passe qui permet aux
17 000 employés qui ont oublié le leur d’en obtenir un nouveau après un simple appel au
système qui reconnaı̂t leurs voix. «L’objectif de telles applications est de court-circuiter
l’arborescence d’un système par touche afin de faciliter la vie aux usagers», explique JeanLuc Cochard, co-fondateur. Invoxis, qui a déposé une marque sur cette application, baptisée
PassVox, a décidé d’en faire son fer de lance commercial.
La société américaine Aeritas Inc. [14] vient de développer un système utilisant les empreintes vocales pour sécuriser l’embarquement des passagers dans les avions. Ce système,
baptisé FreedomPass, offre aux passagers d’enregistrer leur empreinte vocale depuis leur
téléphone mobile ou leur PDA quand ils commandent leurs billets et de définir leur profils.
Le jour de son voyage, le passager reçoit un message sur son téléphone lui demandant de
confirmer oralement être bien le titulaire de son billet d’avion. Une carte d’embarquement
virtuelle est alors délivrée sur l’écran du téléphone, lui permettant d’embarquer sans passer
au comptoir de sa compagnie aérienne.
4.3.4
Aide à la navigation à bord de voiture
Aujourd’hui, les systèmes existent et fonctionnent mais pour la plupart, ils ne sont
pas encore commercialisés. Seul l’Auto-PC de Clarion est distribué, via la Citroën Xsara
Windows CE (série limitée). Première voiture communicante, elle offre les fonctionnalités
suivantes : radio, lecteur CD et CD-rom, carnet d’adresses, téléphone main libre, navigation, envoi et réception de message (SMS, e-mails), transfert de données de et vers un autre
périphérique portable et appel automatique vers un centre d’assistance Citroën. Tous les
systèmes devraient, lorsqu’ils seront totalement opérationnels, allier quasiment les mêmes
performances : la navigation (guidage), l’utilisation des commandes par reconnaissance vocale, le courrier électronique, l’accès à l’Internet, les loisirs (lecteur DVD, consoles de jeux
vidéo. . .), le chargement et l’échange de MP3, jeux vidéo, Palm. . ., la gestion d’agenda et
carnet d’adresses et l’analyse de l’état du véhicule. Les écrans s’installeront quant à eux
sur le tableau de bord, à la place de l’autoradio et sur les appuis-tête.
Le groupe PSA (Peugeot Citroën) allie ses compétences à celles de Vivendi pour créer
le premier portail multi-accès conçu pour l’automobiliste européen. Le projet se nomme
Wappi et permettra à l’automobiliste d’obtenir des informations personnalisées et actualisées, dans toute l’Europe et dans sa langue, il sera accessible partout à tout moment, dans
Présentation personnelle – La reconnaissance vocale
EIVD / Institut TCOM
Cyril Friche – 15
la voiture ou sur d’autres écrans (ordinateur, téléphone portable. . .). PSA prévoit 1 million
de véhicules Peugeot et Citroën équipés en 2002.
SmartRadio de Motorola se place comme un concept innovant d’accès à des services d’information et de loisir dans l’automobile grâce à l’Internet sans fil. Il prend la requête de
l’utilisateur, l’envoi à un serveur qui renvoie les données. Les services sont multiples et
peuvent être développés sans remettre en cause le matériel (lui-même moins onéreux qu’un
ordinateur embarqué puisqu’il a besoin de moins de mémoire). SmartRadio est un système
évolutif qui détecte les besoins de l’utilisateur et lui propose des services adaptés. Il devrait
être mis en place en 2002. Avec l’Internet embarqué, la voiture devient l’annexe du bureau.
ScanSoft [7], grâce à l’acquisition de Lernout & Hauspie, offre la suite de technologies et de
services intégrés la plus complète et met à la disposition de l’industrie automobile les fonctionnalités de synthèse et de reconnaissance vocales les plus puissantes du marché. Prise en
charge multilingue, reconnaissance vocale, gestion du bruit environnant et synthèse vocale
sont les atouts majeurs de la technologie ScanSoft au service de l’industrie automobile.
Scansoft s’est associé il y a quelques temps avec Microsoft afin d’intégrer ses techniques
vocales sur la plate-forme logicielle télématique de Microsoft, Windows CE for Automotive
3.5. Avec cette alliance, nulle doute que ces deux sociétés deviendront dans un futur proche
les principaux acteurs dans ce crénaux qui possède à coups sûr un bon avenir.
4.4
Formation
Les enfants, mais aussi les adultes, sont attirés par des jeux doués de parole (poupée
qui parlent, jeux de société, jeux vidéos, jeux éducatifs). L’enseignement assisité par ordinateur et notamment les laboratoires de langue devraient intégrer de plus nombreuses
possibilités audiophonique, et rapidement évoluer vers une interactivité plus grande : les
systèmes d’aide à l’apprentissage des langues étrangères, permettent d’acquérir une prononciation correcte, une maı̂trise du vocabulaire et de la syntaxe, ne peuvent que bénéficier
des technologies vocales qui leur confère en outre un aspect ludique.
Du côté des applications proprement dites, une société se démarque des autres et peut
être considéré comme la référence : Auralog [8]. Cette société édite des lociciels à buts très
différents :
– TeLL me More Pro : la solution multimédia pour l’apprentissage et l’enseignement
des langues étrangères
– TeLL me More e-system : une plate-forme puissante pour l’apprentissage des langues,
fonctionnant en réseau et accessible à distance
– TeLL me More e-learning : un service unique de formation à distance qui associe
l’efficacité des cours particuliers via Internet à la richesse du support CD-Rom
– Atout Clic Anglais : la première méthode de langues basée sur la reconnaissance
vocale et conçue pour les enfants de 5 à 11 ans
Auralog met à la portée du plus grand nombre d’apprenants de nouveaux outils (voir la
figure 5) qui font progresser encore l’apprentissage des langues étrangères. Ainsi, grâce à la
technologie avancée de la reconnaissance vocale, l’utilisateur engage un véritable dialogue
avec son PC. Suivant son niveau, l’apprenant paramètre la reconnaissance vocale pour la
Présentation personnelle – La reconnaissance vocale
EIVD / Institut TCOM
Cyril Friche – 16
rendre plus tolérante ou plus exigeante quant à la qualité de sa prononciation. L’utilisateur
s’entraı̂ne à prononcer une phrase ou un mot et obtient un score lui permettant d’évaluer
la qualité de son accent, de sa prononciation et de son intonation.
Fig. 5 – Outil développé par Auralog permettant d’évaluer sa prononciation
4.5
Aide au handicap
Différents programmes européens ont permis de mieux cerner les différents types de
handicap dont souffre la population, ainsi que le nombre de personnes concernées. On dénombre actuellement en Europe 12 millions de mal-voyants dont 1 million de non-voyants,
81 millions de mal-entendants, dont 1 million de non-entendants, environ 30 millions de
personnes ayant un handicap moteur des membres supérieurs et 50 millions ayant un handicap des membres inférieurs. Ces nombres ne peuvent malheureusment que croı̂tre avec le
vieillissement de la population. L’intérêt des technologies vocales apparaı̂t évident dans la
mesure où celles-ci permettent aux personnes handicapées de retrouver une certaine autonomie et de bénéficier d’une meilleure insertion dans leur environnement tant professionnel
que familial, la parole se substituant au sens défaillant.
La société Kempf conçoit et fabrique un système de commandes vocales appelé le Katalavox [9] 4 pour les applications suivantes :
– Le contrôle de fauteuils roulants pour tétraplégiques
– Le contrôle de fonctions secondaires dans l’automobile pour conducteurs handicapés
physiques
4
”Katala” = comprendre (Grec moderne) et ”vox” = la voix (Latin)
Présentation personnelle – La reconnaissance vocale
EIVD / Institut TCOM
Cyril Friche – 17
Le Katalavox est utilisé par des personnes tétraplégiques, pour contrôler à la voix le fauteuil
roulant électrique. Dans certains cas un autre type de microphone peut également être
utilisé. Le système de reconnaissance vocale s’adapte à n’importe quelle langue. Même si
quelqu’un a des difficultés de prononciation, le système est capable de reconnaı̂tre des sons
distincts. Il suffit de cinq sons pour contrôler un fauteuil. Les mots de commande sont
combinés pour permettre d’émuler les mouvements d’un joystick.
Kempf commercialise également un système de contrôle d’environnement. Il permet à
des personnes tétraplégiques d’allumer et éteindre des lampes et autres appareils dans
leur maison, de contrôler la télévision et des appareils à télécommande infra-rouge, et de
répondre au téléphone et composer des numéros de téléphone.
Dans les voitures, le katalavox permet de contrôler à la voix les fonctions secondaires, telles
que les clignotants, l’essuie-glace, le lave-glace, l’avertisseur, l’éclairage, . . .
Sur le même principe, la société Protéor a conçu Tetravox, un outil permettant le contrôle
d’environnment à commandes vocales. Cette aide technique est utilisable en poste fixe
ou sur fauteuil roulant. Elle peut remplacer n’importe quelle commande infra-rouge ; elle
peut donc permettre à une personne handicapée d’actionner à distance tous les appareils
récepteurs de son choix.
4.6
4.6.1
Systèmes de dictée automatique ou d’entrée vocale
Présentation
Les dernières applications ne requièrent qu’un temps d’apprentissage raccourci pour ne
rarement dépasser la vingtaine de minutes, et surtout un meilleur taux de reconnaissance.
Pour y parvenir, les éditeurs ont profité de l’augmentation de la puissance des machines
pour accroı̂tre la profondeur des calculs nécessaires et augmenter la taille du vocabulaire
directement accessible en cours de dictée (vocabulaire évolutif). Le nombre de mots se
compte aujourd’hui en centaines de milliers contre quelques dizaines de milliers pour les
versions précédentes. Résultat, un processeur à 300 MHz et 64 Mo de mémoire vive sont
un minimum pour obtenir une vitesse de reconnaissance suffisante et, surtout, profiter de
l’ensemble des fonctions, comme la dictée dans son logiciel de courrier électronique ou la
navigation à la voix sur Internet.
4.6.2
Logiciels disponibles
Actuellement, quatre programmes (voir [10]) se taillent la part du lion dans le domaine
des dictées vocales, ils sont cités ci-dessous selon leur ordre de qualité (du meilleur au moins
bon) :
– Dragon Naturally Speaking 4.0 : Il nous est d’emblée apparu comme le meilleur.
En activant l’option ”Best Match 3”, à réserver aux machines les plus puissantes, les
performances de reconnaissance sont excellentes dès la première utilisation. Naturally
Speaking devance vraiment ses concurrents d’une tête. Un retournement de situation
puisque, il y a quelques temps, c’est Via Voice d’IBM qui menait la danse.
Présentation personnelle – La reconnaissance vocale
EIVD / Institut TCOM
Cyril Friche – 18
– IBM Via Voice Millenium : De gros efforts d’intégration pour cette version. On peut
dicter dans n’importe quelle application Windows et surtout piloter à la voix avec
des commandes aussi complexes que ”Vérifier mes mails” ou ”Composer message à
Christian et Michel et cc Serge”. La qualité de la reconnaissance se règle en fonction
de la puissance disponible de la machine. Bon point aussi pour la technologie d’Agents
Microsoft, qui anime un personnage toujours prêt à aider !
– Lernout & Hauspie Voice Xpress 5 : Malgré un temps de mise au point plus long que
ses concurrents, Voice Xpress n’atteint pas les sommets prévus. Dommage, car son
système de commande à la voix, notamment pour la mise en forme de textes sous
Word, est l’un des plus souples et efficaces. Les possesseurs de machines de moyenne
puissance bénéficieront toutefois de sa vélocité avec un taux de reconnaissance acceptable.
– Philips Freespeech 2000 : Taux de reconnaissance trop faible, commande de correction
à la voix peu efficace, absence de version d’entrée de gamme, Freespeech n’a rien
d’affriolant. Sauf peut-être la possibilité de dicter, en plus du français, en anglais,
espagnol, italien, allemand. . . A noter la seule alternative actuelle au casque-micro :
le Speech Mike, un micro qui se tient à la main et qui, muni d’un mini trackball, fait
office de souris.
4.6.3
D’un mot, la mise ne forme
De la simple mise en gras d’un mot au formatage complet d’un tableau, tout est possible,
avec plus ou moins de bonheur selon le logiciel. Le plus fort, c’est qu’il n’est plus nécessaire
de préciser le passage du mode dictée au mode commande autrement qu’en marquant
une petite pause avant de dicter une commande. On peut donc dicter naturellement ”la
visite de la tour Eiffel <pause> <Mettre les deux derniers mots en italique> s’est bien
déroulée”. On peut aussi effectuer des changements après la dictée en sélectionnant une
partie de texte et en la copiant/collant, toujours à la voix. Pour créer un joli tableau, il
suffit en général de dire ”insérer un tableau de 7 lignes et 3 colonnes” suivi de ”appliquer
le Format automatique de tableau Liste 8” pour obtenir le résultat de la figure 6. Reste
alors à remplir chaque cellule du tableau, soit en dictant à l’intérieur, soit, pourquoi pas,
en copiant le contenu d’un tableau réalisé sous Excel. Rien n’empêche d’ailleurs de dicter
aussi dans Excel puisque la plupart des versions l’autorisent.
4.6.4
Evolutions futures
A terme, on peut imaginer que les enregistrements de (télé)conférences et de débats
pourront ainsi être automatiquement retranscrits (même avec des erreurs qui seront rapidement corrigées avec un logiciel intégré). Cela suppose cependant qu’au cours d’un débat,
le système soit capable de détecter un changement de locuteur et reconnaı̂tre le nouvel
interlocuteur. On peut également envisager la possibilité d’indexer automatiquement de
tels documents sonores pour faciliter leut consultation.
5
Les actifs Speech and Language de Lernout & Hauspie ont été rachetés en 2002 par la société ScanSoft
Présentation personnelle – La reconnaissance vocale
EIVD / Institut TCOM
4.7
Traduction automatique
4.7.1
Systèmes mono-utilisateur
Cyril Friche – 19
Dans cette section on ne va que traiter les solutions simples qui permettent la traduction directe d’une langue à une autre. En fait se ne sont que des logiciels semblables aux
dictées vocales avec bien entendu ceetaines modifications. Le principe est simple. Les mots
à traduire sont dictés par le locuteur, le logiciel effectue une reconnaissance et affiche en
sortie la traduction dans la langue souhaitée.
L’Universal Translator UT-103 [Traducteur universel UT-103] de la société Ectaco [16] est
un traducteur vocal équipé d’un système unique de reconnaissance de la voix, permettant
de traduire des phrases d’anglais en français, en allemand ou en espagnol. L’UT-103 comporte 14 thèmes différents de conversation, incluant environ 3000 phrases et expressions,
facilitant ainsi la communication dans les hôtels, les bureaux de poste, les banques, les magasins, les restaurants, les hôpitaux, les salons de beauté et de nombreux autres endroits.
4.7.2
Systèmes multi-utilisateurs
Des projets à plus long terme sont liés au domaine de la traduction automatique : l’objectif étant de réaliser un système de dialogue interprétatif, permettant à une personne de
converser de façon spontanée par téléphone avec un interlocuteur ne parlant pas la même
langue. Le message de cette personne serait automatiquement traduit dans la langue de son
interlocuteur avec une voix conservant toutes les caractéristiques du timbre de la voix qui
a émis le message. Le projet C-STAR [17] permet la traduction multilingue de dialogues
parlés. Prenons comme exemple un client Suisse voulant réserver son voyage au Etats-Unis.
Fig. 6 – Création d’un tableau dans Word avec la reconnaissance vocale
Présentation personnelle – La reconnaissance vocale
EIVD / Institut TCOM
Cyril Friche – 20
Le dialogue ressemblerait à ceci :
Agent : World Wide Travel here, Hello.
Traduction : Bonjour, ici Worle Wide Travel
Client : Bonjour je suis monsieur Blanchon et je voudrais organiser un voyage à Pittsburgh
en partant de Lausanne.
Traduction : Hello, I am mister Blanchon. I would like organize a trip to Pittsburgh from
Lausanne.
Agent : Yes. When ?
Traduction : oui, quand ?
Client : Disons fin juin j’aimerais arriver le vingt et repartir le vingt-huit
...
5
Conclusion
Aujourd’hui, la reconnaissance de la parole fonctionne bien. Très bien même, avec des
taux de reconnaissance qui approchent dans certains cas parfois les 99%. Cette technologie a à coup sûr de beaux jours devant elle. Les applications citées dans ce document ne
sont pas toutes au même stade de développement. Ainsi, les systèmes à dictée vocale sont
bien implantées dans le marché, mais ne réunissent par contre qu’un nombre d’utilisateurs
assez moindre. Au contraire, l’industrie automobile n’est qu’à un stade de lancement mais
pourrait dans un avenir proche envahir tout le marché. Ce domaine réunissant un grand
nombre d’utilisateurs potentiels, les entreprises spécialisées vont au devant de débouchés
économiques forts attrayants.
Actuellement, plus de la moitié de la population d’Europe de l’ouest possède une téléphone
cellulaire de type GSM ou GPRS. Ainsi, un grand nombre de services vocaux téléphoniques
dans tous les domaines possibles et imaginables émergent chaque années. Par exemple, le
groupe Crédit Lyonnais permet, via une reconnaissance, de réaliser des achats et ventes
d’actions, de consulter son portefeuille ou encore de consulter des indices boursiers. La
confidentialité et la sécurité des données n’étant plus à prouver, un système de reconnaissance du locuteur permet d’effectuer plus ou moins n’importe quoi avec son téléphone.
On aurait parfois tendance à oublier que la reconnaissance vocale est présente également
dans des domaines qui ne parlent ni d’argent, ni de paresse humaine. Plusieurs millions
d’handicapés utilisent tous les jours la reconnaissance vocale pour bouger, s’alimenter, se
déplacer, pour tout simplement vivre. Malheureusement, sur dix articles parlant de reconnaissance, peut-être seul deux seront consacrés aux handicapés. Pire encore, sur 1000 francs
consacrés à la reconnaissance, peut-être seul 10 francs iront à la recherche pour améliorer
la vie des handicapés.
Présentation personnelle – La reconnaissance vocale
EIVD / Institut TCOM
6
Cyril Friche – 21
Quelques définitions et acronymes
ASR Automatic Speech Recognition
TTS Text To Speech
Chaı̂ne de Markov Du nom du mathématicien russe. L’introduction de cette théorie
probabiliste dans le champ de la reconnaissance vocale a permis de représenter des
sons élémentaires sous forme statistique.
Phonème Unité qui permet de caractériser tous les sons d’une langue. La plupart des
langues comportent moins d’une centaine de phonèmes. Par exemple ”a”, ”é”, ”ss”,. . ..
Prosodie L’étude des phénomènes de l’accentuation et de l’intonation (variation de hauteur, de durée et d’intensité) permettant de véhiculer de l’information liée au sens
telle que la mise en relief, mais aussi l’assertion, l’interrogation, l’injonction, l’exclamation, . . .
Yverdon - 4 juillet 2002
Cyril Friche
Présentation personnelle – La reconnaissance vocale
EIVD / Institut TCOM
Cyril Friche – 22
Références
[1] Dataquest, socitété de consulting,
http://www.dataquest.com
[2] Telisma - Paroles d’expert,
http://www.telisma.com
[3] Calia Alessandro,
Etudiant EIVD - TR6,
Présentation personnelle - La synthèse vocale
[4] Neuvoice, jeune société britannique spécialisée dans la reconnaissance embarquée,
http://www.neuvoice.com
[5] Conversay, société axée sur les systèmes vocaux embarqués,
http://www.conversay.com
[6] Invoxis, société suisse axée sur les systèmes d’identification du locuteur,
http://www.invoxis.com
[7] Scansoft, spécialisé dans la navigation à bord de voitures,
http://www.scansoft.com
[8] Auralog, logiciels d’apprentissage des langues étrangères,
http://www.auralog.com
[9] Katalavox, conçu par Kempf, aide aux personnes handicapés,
http://www.katalavox.com
[10] SVM, évaluation des logiciels de dictée vocale,
http://www.vnunet.fr/svm/doss/svm/recovoc8.htm
[11] Interactive Speech ,société spécialisé dans la navigation vocale de site web,
http://www.interactivespeech.com
[12] IBM, mondialement connu avec son logiciel ViaVoice,
http://www-3.ibm.com/software/speech/
[13] Dragon, société partenaire de ScanSoft,
http://www.dragonsys.com
[14] Aeritas Inc, société américaine spécialisée dans le commerce mobile,
http://www.dragonsys.com
[15] Vocollect, société commercialisant un système portable appelé Talkman,
http://www.vocollect.com/sitehtml/products/talkman01.php
[16] Ectaco, société commercialisant des traducteurs mobiles à reconnaissance vocale mobile,
http://www.ectaco.com
[17] C-STAR, projet permettant la traduction multilingue de dialogues parlés ,
http://www-clips.imag.fr/projets/cstar/clips/IntroClips.html
Présentation personnelle – La reconnaissance vocale

Documents pareils