Introduction aux techniques et méthodes du traitement automatique

Transcription

Introduction aux techniques et méthodes du traitement automatique
Introduction aux
techniques et méthodes
du traitement automatique
de la parole
Organisation du cours
• 15 h de cours.
• Mardi : 13h00 – 16h00.
• Un projet (Contrôle).
Réda DEHAK
[email protected]
Pré-requis
Bibliographie
• René
René Boite, Hervé
Hervé Bourlard, Thierry Dutoit, joë
joël Hancq et henri leich,
« Traitement de la parole » 1999
• traitement du signal
• Xuedong Huang, Alex Acero et HsiaoHsiao-Wuen HON, « Spoken language
processing : A guide to theory, Algorithm and System Development » 2001
– Analyse de Fourrier
• Ouvrage collectif publié
publié sous la direction de Josef Mariani, « Traitement
automatique du langage parlé
parlé, volume 1 : Analyse, synthè
synthèse et codage de
la parole » 2002
– Filtrage
• Analyse des donné
données
• Ouvrage collectif publié
publié sous la direction de Josef Mariani, « Traitement
automatique du langage parlé
parlé, volume 2 : Traitement automatique du
langage parlé
parlé » 2002
• Ouvrage collectif publié
publié sous la direction de Josef Mariani,
« Reconnaissance de la parole » 2002
• Shigeru Katagiri, « Handbook of neural networks for speech processing »
2000
Parole
Contenu
1 0 0 0 0
8 0 0 0
6 0 0 0
4 0 0 0
2 0 0 0
0
-2 0 0 0
-4 0 0 0
-6 0 0 0
-8 0 0 0
5 0 0
1 0 0 0
1 5 0 0
2 0 0 0
2 5 0 0
3 0 0 0
3 5 0 0
4 0 0 0
4 5 0 0
1 0 0 0 0
8 0 0 0
6 0 0 0
4 0 0 0
2 0 0 0
0
-2 0 0 0
-4 0 0 0
5 0 0 0
• Introduction et Perception de la parole.
• Modé
Modélisation et analyse de la parole.
• Codage de la parole.
• Reconnaissance de la parole.
• Identification du locuteur.
• Synthè
Synthèse de la parole.
-6 0 0 0
5 0 0
1 0 0 0
1 5 0 0
2 0 0 0
2 5 0 0
3 0 0 0
3 5 0 0
4 0 0 0
4 5 0 0
5 0 0 0
1
Les origines
Domaines d’applications
• Vocodeur (1939)
• Service d’
d’information
Homer.W. Dudley.
– Info gé
générales ou spé
spécialisé
cialisées : sport, bourse, mé
météo,
page jaune …
– Horaire et ré
réservation, navigation, …
• Service de messagerie
– Répondeurs
– Centre d’
d’appel
– Service de messagerie unifié
unifiée
• Divers
– Banque, commerce par GSM, …
Un domaine multidisciplinaires
Électronique
Traitement
du signal
Acoustique
Traitement de la parole
• Codage de la parole :
– Compresser le signal de parole.
• Synthè
Synthèse de la parole :
Physique
Traitement de
la parole
– Produire un signal de parole à partir d’
d’un texte.
Linguistique
• Reconnaissance de la parole :
– Transcrire en texte un message vocal.
– Dialogue naturel, Traduction du langage.
– Identification/Vé
Identification/Vérification du locuteur.
Anatomie
Informatique
Perception
Codage de la parole
Exemples en bande té
téléphonique
• Départ : signal échantillonné
chantillonné à 8khz en utilisant 16bits de
• Réduction des coû
coût de transmission ou de
stockage des signaux numé
numérique :
– Caracté
Caractéristiques statistiques des signaux.
– Proprié
Propriété du systè
système auditif humain.
– Modè
Modèle de production (codage de la parole).
quantification 128kbits/s.
• Téléphone fixe
–
–
–
–
–
G711
G721
G728
G729
G723
1972
1984
1992
1995
1996
64 kbits/s
32 kbits/s
16 kbits/s
8 kbits/s
6.3/5.3 kbits/s
– 06.10(full rate)
– 06.20(HR)
– 06.60(EFR)
1984
1995
1996
13 kbits/s
5.6 kbits/s
13 kbits/s
– MpegMpeg-4
1999
2-8 kbits/s
• GSM
• MPEG
2
Synthèse de la parole
Exemples de synthèse
• Messages textes :
• Vocodeur de Dudley.
• Frank Cooper’
Cooper’s Pattern Playback.
– Emails, pages web, …
• Base de donné
données :
– N° téléphone, adresse, pages jaunes
• Systè
Systèmes de té
téléinformatique :
– Ciné
Cinémas, navigation routiè
routière, banques
• Modè
Modèle électrique :
– Gunnar Fant, Royal Institute of Technolgy in Stockholm.
– Parametric Artificial Taker of Walter Lawrence (1953).
• Synthè
Synthèse par ordinateur.
Frank Cooper’s Pattern Playback
Gunnar Fant, Royal Institute of
Technolgy Stockholm
Synthèse par ordinateur
Synthèse audio-visuelle
• Animer des visages parlants :
http://www.icp.inpg.fr/ICP/_page.fr.php?page=avtts/clone.fr.html
ICP – Grenoble.
CNET – LANNION
KTH – STOKHOLM
LAIP - LAUSANNE
3
Reconnaissance de la parole et
identification du locuteur
Ex : Commande té
téléphone portable
• Dépendant du locuteur, petits vocabulaires :
• Vous voulez composer le numé
numéro d’
d’un ami.
– Applications de contrôle/commande (té
(téléphone portable)
• Indé
Indépendant du locuteur, petits vocabulaires :
– Applications de contrôle/commande (té
(téléphone portable)
– Application de té
téléservices simples.
• Indé
Indépendant du locuteurs, grands vocabulaires, Langage
naturel :
– Dicté
Dictée vocale.
– Téléservices plus complexes (cotes de bourse, mé
météo,
réservation de billets, etc.)
– Indexation audio
– Tri d’
d’appels
Standard automatique
– Mode d’é
locution : isolé
d’élocution
isolé / continu
– Monolocuteur ou multilocuteur : mono / multilocuteur
– Taille du vocabulaire : ~N
– Structure du langage : grammaire
– Canal : microphone
– Bruits : rue, voiture, train, …
– Implé
Implémentation : fortes contraintes mé
mémoire
– Multilingue : oui/non
Standard automatique
– Mode d’é
locution : continu
d’élocution
• Vous voulez joindre l’l’employé
employé d’une
socié
société via son standard automatique :
– Monolocuteur ou multilocuteur : multilocuteur
– Taille du vocabulaire : ~1000
– Structure du langage : grammaire, langage libre
– Canal : té
téléphonie (fixe ou mobile)
– « Bonjour, pourrais je parler avec Monsieur
Dupond, s’
s’il vous plaî
plaît »
– Bruits : possible
– Implé
Implémentation : rapide
– Multilingue : oui
Dictée personnelle
– Mode d’é
locution : continu
d’élocution
– Monolocuteur ou multilocuteur : multilocuteur
Performances des systè
systèmes actuels
• Performances des systè
systèmes actuels :
(Cox et al. 2000)
– Taille du vocabulaire : ~250k
– Structure du langage : langages écrit (modè
(modèle de langage)
– Canal : microphone casque
– Bruits : né
négligeable
– Implé
Implémentation : puissance PC personnel
– Multilingue : non
4
Performances des systè
systèmes actuels
Identification/Vé
Identification/Vérification du
locuteur
• Identification :
Identifier une personne dans un ensemble de
candidats possibles.
• Vérification :
Vérifier qu’
qu’une personne est bien celle qu’
qu’elle
pré
prétend être.
Diffé
Différences
Identification/Vé
Identification/Vérification
Diffé
Différences
Identification/Vé
Identification/Vérification
• Identification
• Vérification
Base
Base
Tous les
modèles
Imposteur
Locuteur Test
Une identité parmi
les N personnes de
la base ou bien
l’imposteur
Modules
d’identification
Description de la parole
Modèles correspondant à
l’identité revendiquée
Nom
Locuteur test
Signal de
parole
Modules de
Vérification
Accès accordé ou
refusé
1. Niveau acoustique
• 7 niveaux de descriptions :
1. Niveau acoustique.
2. Niveau phoné
phonétique.
Indépendant du langage
3. Niveau phonologique.
4. Niveau morphologique.
5. Niveau syntaxique.
Dépend du langage
6. Niveau sé
sémantique.
7. Niveau pragmatique ou niveau du discours.
• Indices acoustiques :
– Fré
Fréquence du fondamentale.
– Spectre (timbre).
5
Onde acoustique
Spectrogramme & pitch & formants
Démo matlab
• Homme : 70 – 250 Hz
• Femme : 150 – 400 Hz
• Enfant : 200 – 600 Hz
2. Niveau phonétique
L’appareil respiratoire
• La parole : Résultat acoustique d’
d’une sé
série
de mouvements des appareils respiratoires
et articulatoires.
• Processus de production :
– La soufflerie.
– La (ou les) source(s) vocale(s).
– Les cavité
cavités supraglottiques
Les sources vocales
Le larynx
• 2 sortes de sources :
• Situé
Situé dans le cou
• 3 principales fonctions :
– Le larynx : contient les cordes vocales.
– Les sources de bruit :
• Au niveau d’
d’une constriction dans le conduit vocal.
• Lors d’
d’un relâchement brusque d’
d’une occlusion
dans le conduit vocal.
– Le contrôle du flux d’
d’air lors de la respiration.
– La protection des voies respiratoires.
– La production d’
d’une source sonore pour la
parole.
6
Le Larynx
La glotte
La glotte en action
Sources de bruit
• Apparaissent :
– Dans le larynx.
– Dans le conduit vocal.
• 2 modes de phonation :
– Les cordes vocales sont écarté
cartées et ne vibrent pas
Le bruit sera gé
généré dans le conduit vocal
– Les cordes vocales sont rapproché
rapprochées : la voix
chuchoté
chuchotée
Le bruit sera gé
généré au niveau des cordes vocales
Les sources de bruit
Les sources de bruit
• Les cordes vocales sont écartées et ne vibrent pas
• La voix chuchotée
– Les bruits fricatifs
• Obstruction partielle du conduit vocal
• Génération d.un bruit turbulent au niveau (ou près) de la
constriction
– La source de bruit est au niveau de la glotte
– Les bruits d’explosion
– Cordes vocales rapprochées mais pas fermées
– 2 composantes:
– Les bruits par occlusion glottale
• Suite à l’ouverture brutale d.une obstruction totale du conduit vocal
• Un bruit impulsif (causé par le relâchement soudain de la pression
•
d’air)
Un bruit d’aspiration (similaire au bruit fricatif mais plus court)
– Les bruits de bouches
• Claquements de langue, bruits de lèvres, etc..
7
Les cavités supraglottiques
Les articulateurs
Deux cavités :
• Le conduit vocal
• La langue
– De la glotte aux lèvres
– ~=17 cm chez l.adulte
– Contient plusieurs
articulateurs
• Le conduit nasal
– Du velum aux fosses
nasales
– ~=12 cm chez l.adulte
– ~= 60 cm3
– Très mobile et déformable (peut se contracter ou s’étendre)
– Essentielle pour la phonation
• La mâchoire
– Peu de degrés de liberté et corps rigide
– Importance moindre pour la phonation
• Les lèvres
–
–
–
–
–
–
Très mobiles et déformables
Mouvements importants pour la phonation:
L’occlusion
La protrusion
L’élévation et l’abaissement de la lèvre supérieure
L’étirement, l’abaissement ou l.élévation des commissures
Les cavité
cavités supraglottiques en
action
Modè
Modèle de production de la parole
Les sons vus sous une approche
production
• Classification des sons suivant leur mode de
production
– La parole (pour toute langue) est constituée d’un
nombre finis d’éléments sonores distinctifs
– Ces éléments forment les unités linguistiques
élémentaires qui ont la propriété de changer le sens
d’un mot
– Ces unités élémentaires sont appelés phonèmes
poumons
¾Définition du phonème:
Cordes vocales
Les phonèmes sont les éléments sonores les plus
brefs qui permettent de distinguer différents mots
8
Notions de phonétique
Les voyelles
• La phoné
phonétique s’
s’inté
intéresse à regrouper les éléments en
• Les voyelles correspondent à une vibration pé
périodique
•
classe.
Chaque classe possè
possèdera des éléments partageant des
caracté
caractéristiques communes (ou traits distinctifs)
• Les traits distinctifs expriment une similarité
similarité au niveau
articulatoire, acoustique ou perceptif des sons
concerné
concernés.
– Les voyelles.
– Les consonnes.
Les voyelles
•
des cordes vocales et à une configuration stable du
conduit vocal.
Voyelles nasales : abaissement du voile du palais.
– εP
te
ont, Pain, Brun
Brun,, pen
pente
~ont,
• Voyelles orales : non nasales
– Pâte, pa
r, le
patte, po
pot, po
pomme, né
né, mai
mai,, peu
peu,, peu
peur,
le, pi
pis, nu
nu, pou
pou
• SemiSemi-voyelles : l’l’excitation glottique pé
périodique est
accompagné
accompagnée d’
d’une évolution rapide du conduit vocal,
entre deux positions vocaliques
– Pied,
ied, loi
loi,, lui
lui
Les consonnes
Les consonnes correspondent à des
mouvements rapides de constriction des
organes articulateurs, donc souvent à des
sons peu instables qui évoluent dans le
temps.
Les consonnes
Les fricatives
• Le voisement : une consonne voisé
voisée(resp. nonnon-voisé
voisée)
• Une constriction forte du conduit vocal provoque
avec (resp. sans) vibration des cordes vocales.
• Le mode d’articulation
–
–
–
–
Le
Le
Le
Le
mode occlusif
mode fricatif
mode nasal
mode glissant (ou liquide)
• Le lieu d’articulation: position de la principale
constriction du conduit vocal
un bruit de friction.
• Les cordes vocales peuvent entrer en vibration
•
en même temps que le bruit de friction (fricative
voisé
voisée)
Si les cordes vocales ne vibrent pas : fricative
sourde
– Fricative sourde : faon, sang, chant
chant
– Fricative voisé
voisées : vous, jeux, zéros
9
Les plosives ou occlusives
Les liquides
• Les plosives sont des occlusions complè
complètes du
• Résultent d’
d’une excitation voisé
voisée et de
•
conduit vocale, suivies d’
d’un relâchement.
Vibration des cordes vocales :
– Plosive voisé
voisée : bout, doux, goût
– Plosive sourde : poux, toux, cou
rapide mouvements articulatoires,
principalement de la langue.
– rang, lent
• Si la dé
dérivation nasale est ouverte pendant la
fermeture de la bouche un nasale est produite:
– Occlusives nasales: agn
eau, mot, noix, campin
g
agneau,
camping
Classification des phonè
phonèmes du
franç
français
Alphabet phoné
phonétique internationale
Démo voyelles, consonnes
10

Documents pareils