Traitement du signal de parole Part 1

Transcription

Traitement du signal de parole Part 1
Traitement du signal de parole
Part 1
Mardi 16h-18h ODG Salle 311
Philippe Martin
[email protected]
[email protected]
Le programme…
Rappel de phonétique articulatoire
Phonétique acoustique
(sons purs, fréquence, intensité, durée, harmoniques, formants, spectrogrammes)
Numérisation. Fréquence de Nyquist.
Transformée de Fourier – FFT - Fenêtrage
Analyse par ondelettes
Estimation de F0 – Problèmes – La voix creaky
Le programme…
Modélisation LPC
Modèles du conduit vocal
Morphing prosodique : Psola, Vocodeur de phase
Synthèse de la parole
(par formants, par diphones, par concaténation)
Reconnaissance de la parole
Segmentation et alignement automatique
Une référence…
Un outil… WinPitch
Un autre outil… Praat
Modes de phonation
• Voisement : vibration des plis vocaux
• Friction : turbulence du flux d’air
• Occlusion : explosion d’air comprimé
• Click : implosion d’air déprimé
Toujours durant la phase d’expiration du cycle respiratoire
Cycle respiratoire : Inspiration - Expiration
Silence
Temps
Inspiration
Phonation
Expiration
Inspiration
Phonation
Expiration
Phonation
Temps
Inspiration
Expiration
Inspiration
Expiration
La phonation consomme de l’air (pression sous glottique)
Phonation
Temps
Inspiration
Expiration
Inspiration
Expiration
Phonation
Temps
Inspiration
Expiration
Production des sons de la parole
Fréquence laryngée
Nécessaire à la génération d’harmoniques
• Tension des cordes vocales
• Flux expiratoire
• Voix creaky
• Falsetto
• Voix chuchotée -> pas d’harmoniques
Traitement du signal de parole
Étude des caractéristiques de la parole à partir du signal
acoustique :
1. Transformé en signal électrique
2. Numérisé : transformé en liste de nombres par
conversion analogique / digitale
La numérisation du signal
A/D
Microphone
Convertisseur
Signal échantillonné
La numérisation du signal
Du micro à la liste de nombres
PB
Microphone
Filtre
A/D
Convertisseur
De la liste de nombres au haut-parleur
D/A
Convertisseur
Haut parleur
La numérisation du signal
Fréquence d’échantillonnage trop basse -> Aliasing
La numérisation du signal
• Fréquences d’échantillonnage standard :
•
•
•
•
•
•
•
•
96.000 Hz
48.000 Hz
44.100 Hz
22.050 Hz
11.025 Hz
32.000 Hz
16.000 Hz
8.000 Hz
= nombre de mesures du signal par seconde
Quelle fréquence choisir ?
1. La plus haute possible ? Coûteux en mémoire
2. La plus basse possible ? Représentation erronée du signal
3. Théorème de Nyquist : 2 * fréquence supérieure du signal
4. Pour la parole : 2 * 8.000 Hz (pour [s]) = 16.000 Hz
Chiffres binaires
Chiffres binaires
Dynamique du signal et nombre de chiffres binaires
Nombre de chiffres binaires (bits, binary digits):
•
•
•
•
8 bits -> 255 niveaux / 2
12 bits -> 4095 niveaux / 2
16 bits -> 65.535 niveaux / 2
24 bits -> 16.777.215 niveaux / 2
->
->
->
->
42 dB
66 dB
90 dB
138 dB
• Dynamique = 20 * Log (Nombre de niveaux / 2)
• Pour la parole, 16 bits suffisent
• 8 bits = 1 octet
La numérisation du signal
Le prix à payer (en taille mémoire)
• Durée d’enregistrement =
(Nombre de bits / 8) * Fréquence échantillonnage * Nombre de canaux
• Ex. (16 bits/8) * 16.000 Hz * 2 (stéréo) = 64.000 Octets / seconde
• RAM de 1 Mb = 1.048.576 / 64.000 = 16,384 sec
• RAM de 1 Gb = 1.073.741.824 / 64.000 = 16.777 sec = 279 min = 4h39
Codages plus économiques : mp3, wma, ogg, etc. à éviter car distorsion
Le son pur : le son de base (diapason)
• Son pur – Son complexe
• Amplitude - Intensité
• Hauteur - Fréquence
Son pur
Représentation de la
vibration en fonction
du temps
Fonction
sinusoïdale
Amplitude
Variation d’amplitude
Fréquence= inverse de la période
Fréquence = 1 / Période
Variation de période
Fréquence= inverse de la période
Fréquence = 1 / Période
Si période = 1 seconde, fréquence = 1 / 1 sec = 1 cycle / seconde = 1 Hz
Si période = 0,001 sec = 1 ms, fréquence = 1 / 0,001 sec = 1000 Hz
Si période = 0,01 sec = 10 ms, fréquence = 1 / 0,01 sec = 100 Hz
Phase
Variation de phase
Quelques références
• J-S. Liénard (1977) Les processus de la communication parlée,
Masson, Paris.
• Calliope (1989) La parole et son traitement automatique, Masson,
Paris, 718 p.
• Ph. Martin (2008) Phonétique acoustique, Armand Colin, Paris,
160 p.
Analyse spectrale : analyse de Fourier
Jean-Baptiste Fourier (21 mars 1768 [Auxerre] - 16 mai 1830 [Paris])
Décomposer une fonction périodique en une somme de sons
purs dont les fréquences (les harmoniques) sont des multiples
ENTIERS d’une fréquence de base (la fréquence fondamentale)
Son complexe
= Somme de sons purs
Ex. : Son complexe composé de 2 sons purs
Fondamental - Harmonique
Son pur à 200 Hz
+
Son pur à 400 Hz
+
Son pur à 600 Hz
=
Son complexe
Fondamental - Harmoniques
Harmoniques
Représentation
temporelle
Représentation
spectrale
Fréquence fondamentale
Période
Fréquence = 1 / période
Spectre
Harmoniques
200
400
600
Fréquence en Hz
Spectre du son complexe
Analyse spectrale
+
+
Au bon vieux temps…
Le kymographe est un appareil cylindrique, inventé en 1847 par l'Allemand
Carl Ludwig, qui enregistre les mouvements musculaires, les changements
dans la pression artérielle et d'autres phénomènes physiologiques. Cet
appareil est utilisé en phonétique expérimentale pour enregistrer les
changements de pression de l'air dans les cavités nasale, buccale et labiale.
Le tracé que produit le kymographe reproduit les vibrations de la pression
enregistrée.
Kymogramme : comptage des périodes
Au bon vieux temps…
Au bon vieux temps…
Premier enregistrement, Scott de Martinville…… 1860
Au bon vieux temps…
Au bon vieux temps…
Le kymographe de Rousselot
Au bon vieux temps…
Spectrogramme
Représentation des spectres successifs calculés dans le temps
Spectrogramme
Représentation des spectres successifs calculés dans le temps
aɲ o u vo
f o klɘ b o r Ɔ t i swa ʃ
Agneau ou veau il faut que le beau rôti soit chaud
o
Fenêtres temporelles
Définitions
Spectres résultants
Timbre - Formants
Formant
Formants
Formants = zones d’harmoniques renforcé(e)s
Heureusement le spectrographe vint …
Le spectrographe de Kay Elemetrics (sixties)
Le spectrographe de Kay Elemetrics (sixties)
Le spectrographe de Voice Identification (sixties)
Fenêtrage
Fourier = analyse de sons complexes périodiques
• Prélever un morceau de signal = fenêtre temporelle
• -> signal “périodique” de – infini à + infini
• Différentes fenêtres :
•
•
•
•
•
•
•
•
Rectangulaire
Hamming
Hann(ing)
Triangle
Blackman
Harris
Gauss
Korn

Rectangulaire

Blackman

Hamming

Harris

Hann(ing)

Gauss

Triangle

Korn
Effet de la longueur de la fenêtre temporelle
•
Fenêtre courte
•
•
•
•
Bonne résolution temporelle
Mauvaise résolution fréquentielle
Bande « large »
Fenêtre longue
•
•
•
Mauvaise résolution temporelle
Bonne résolution fréquentielle
Bande «étroite »
Effet de la durée de la fenêtre d’analyse Fourier
2 ms
10 ms
46 ms
Effet de la durée de la fenêtre d’analyse Fourier
46 ms
93 ms
185 ms
Harmoniques et formants
Formant
Bande étroite
Harmoniques
Ah mais Natacha ne gagna pas le lama
Harmoniques et formants
Formant
Bande large
Ah mais Natacha ne gagna pas le lama
Transformée de Fourier rapide
Transformée de Fourier :
Transformée de Fourier « rapide » :
•
•
•
•
opérations
n = nombres d’échantillons du signal
n = puissance de 2 (FFT)
n quelconque par « zero padding »
Découverte en…1805 (Gauss), puis par des moines, puis en 1965
(Cooley-Tuckey) !
Perception des sons de la parole
•
Perception de l’intensité
•
•
Logarithmique (dB)
Perception de la durée
•
•
Durée minimale
Perception de la hauteur mélodique
•
•
Harmoniques, logarithmique
Perception du timbre (vocalique)
•
Courbe de réponse de l’oreille
Intensité
Bel et déciBel
Int [dB] = 10 log (Int/Intref)
Int [dB] = 20 log (Amp/Ampref)
Int = Amp * Amp
Intensité perçue
Courbes d’équiperception