Traitement du signal de parole Part 1
Transcription
Traitement du signal de parole Part 1
Traitement du signal de parole Part 1 Mardi 16h-18h ODG Salle 311 Philippe Martin [email protected] [email protected] Le programme… Rappel de phonétique articulatoire Phonétique acoustique (sons purs, fréquence, intensité, durée, harmoniques, formants, spectrogrammes) Numérisation. Fréquence de Nyquist. Transformée de Fourier – FFT - Fenêtrage Analyse par ondelettes Estimation de F0 – Problèmes – La voix creaky Le programme… Modélisation LPC Modèles du conduit vocal Morphing prosodique : Psola, Vocodeur de phase Synthèse de la parole (par formants, par diphones, par concaténation) Reconnaissance de la parole Segmentation et alignement automatique Une référence… Un outil… WinPitch Un autre outil… Praat Modes de phonation • Voisement : vibration des plis vocaux • Friction : turbulence du flux d’air • Occlusion : explosion d’air comprimé • Click : implosion d’air déprimé Toujours durant la phase d’expiration du cycle respiratoire Cycle respiratoire : Inspiration - Expiration Silence Temps Inspiration Phonation Expiration Inspiration Phonation Expiration Phonation Temps Inspiration Expiration Inspiration Expiration La phonation consomme de l’air (pression sous glottique) Phonation Temps Inspiration Expiration Inspiration Expiration Phonation Temps Inspiration Expiration Production des sons de la parole Fréquence laryngée Nécessaire à la génération d’harmoniques • Tension des cordes vocales • Flux expiratoire • Voix creaky • Falsetto • Voix chuchotée -> pas d’harmoniques Traitement du signal de parole Étude des caractéristiques de la parole à partir du signal acoustique : 1. Transformé en signal électrique 2. Numérisé : transformé en liste de nombres par conversion analogique / digitale La numérisation du signal A/D Microphone Convertisseur Signal échantillonné La numérisation du signal Du micro à la liste de nombres PB Microphone Filtre A/D Convertisseur De la liste de nombres au haut-parleur D/A Convertisseur Haut parleur La numérisation du signal Fréquence d’échantillonnage trop basse -> Aliasing La numérisation du signal • Fréquences d’échantillonnage standard : • • • • • • • • 96.000 Hz 48.000 Hz 44.100 Hz 22.050 Hz 11.025 Hz 32.000 Hz 16.000 Hz 8.000 Hz = nombre de mesures du signal par seconde Quelle fréquence choisir ? 1. La plus haute possible ? Coûteux en mémoire 2. La plus basse possible ? Représentation erronée du signal 3. Théorème de Nyquist : 2 * fréquence supérieure du signal 4. Pour la parole : 2 * 8.000 Hz (pour [s]) = 16.000 Hz Chiffres binaires Chiffres binaires Dynamique du signal et nombre de chiffres binaires Nombre de chiffres binaires (bits, binary digits): • • • • 8 bits -> 255 niveaux / 2 12 bits -> 4095 niveaux / 2 16 bits -> 65.535 niveaux / 2 24 bits -> 16.777.215 niveaux / 2 -> -> -> -> 42 dB 66 dB 90 dB 138 dB • Dynamique = 20 * Log (Nombre de niveaux / 2) • Pour la parole, 16 bits suffisent • 8 bits = 1 octet La numérisation du signal Le prix à payer (en taille mémoire) • Durée d’enregistrement = (Nombre de bits / 8) * Fréquence échantillonnage * Nombre de canaux • Ex. (16 bits/8) * 16.000 Hz * 2 (stéréo) = 64.000 Octets / seconde • RAM de 1 Mb = 1.048.576 / 64.000 = 16,384 sec • RAM de 1 Gb = 1.073.741.824 / 64.000 = 16.777 sec = 279 min = 4h39 Codages plus économiques : mp3, wma, ogg, etc. à éviter car distorsion Le son pur : le son de base (diapason) • Son pur – Son complexe • Amplitude - Intensité • Hauteur - Fréquence Son pur Représentation de la vibration en fonction du temps Fonction sinusoïdale Amplitude Variation d’amplitude Fréquence= inverse de la période Fréquence = 1 / Période Variation de période Fréquence= inverse de la période Fréquence = 1 / Période Si période = 1 seconde, fréquence = 1 / 1 sec = 1 cycle / seconde = 1 Hz Si période = 0,001 sec = 1 ms, fréquence = 1 / 0,001 sec = 1000 Hz Si période = 0,01 sec = 10 ms, fréquence = 1 / 0,01 sec = 100 Hz Phase Variation de phase Quelques références • J-S. Liénard (1977) Les processus de la communication parlée, Masson, Paris. • Calliope (1989) La parole et son traitement automatique, Masson, Paris, 718 p. • Ph. Martin (2008) Phonétique acoustique, Armand Colin, Paris, 160 p. Analyse spectrale : analyse de Fourier Jean-Baptiste Fourier (21 mars 1768 [Auxerre] - 16 mai 1830 [Paris]) Décomposer une fonction périodique en une somme de sons purs dont les fréquences (les harmoniques) sont des multiples ENTIERS d’une fréquence de base (la fréquence fondamentale) Son complexe = Somme de sons purs Ex. : Son complexe composé de 2 sons purs Fondamental - Harmonique Son pur à 200 Hz + Son pur à 400 Hz + Son pur à 600 Hz = Son complexe Fondamental - Harmoniques Harmoniques Représentation temporelle Représentation spectrale Fréquence fondamentale Période Fréquence = 1 / période Spectre Harmoniques 200 400 600 Fréquence en Hz Spectre du son complexe Analyse spectrale + + Au bon vieux temps… Le kymographe est un appareil cylindrique, inventé en 1847 par l'Allemand Carl Ludwig, qui enregistre les mouvements musculaires, les changements dans la pression artérielle et d'autres phénomènes physiologiques. Cet appareil est utilisé en phonétique expérimentale pour enregistrer les changements de pression de l'air dans les cavités nasale, buccale et labiale. Le tracé que produit le kymographe reproduit les vibrations de la pression enregistrée. Kymogramme : comptage des périodes Au bon vieux temps… Au bon vieux temps… Premier enregistrement, Scott de Martinville…… 1860 Au bon vieux temps… Au bon vieux temps… Le kymographe de Rousselot Au bon vieux temps… Spectrogramme Représentation des spectres successifs calculés dans le temps Spectrogramme Représentation des spectres successifs calculés dans le temps aɲ o u vo f o klɘ b o r Ɔ t i swa ʃ Agneau ou veau il faut que le beau rôti soit chaud o Fenêtres temporelles Définitions Spectres résultants Timbre - Formants Formant Formants Formants = zones d’harmoniques renforcé(e)s Heureusement le spectrographe vint … Le spectrographe de Kay Elemetrics (sixties) Le spectrographe de Kay Elemetrics (sixties) Le spectrographe de Voice Identification (sixties) Fenêtrage Fourier = analyse de sons complexes périodiques • Prélever un morceau de signal = fenêtre temporelle • -> signal “périodique” de – infini à + infini • Différentes fenêtres : • • • • • • • • Rectangulaire Hamming Hann(ing) Triangle Blackman Harris Gauss Korn Rectangulaire Blackman Hamming Harris Hann(ing) Gauss Triangle Korn Effet de la longueur de la fenêtre temporelle • Fenêtre courte • • • • Bonne résolution temporelle Mauvaise résolution fréquentielle Bande « large » Fenêtre longue • • • Mauvaise résolution temporelle Bonne résolution fréquentielle Bande «étroite » Effet de la durée de la fenêtre d’analyse Fourier 2 ms 10 ms 46 ms Effet de la durée de la fenêtre d’analyse Fourier 46 ms 93 ms 185 ms Harmoniques et formants Formant Bande étroite Harmoniques Ah mais Natacha ne gagna pas le lama Harmoniques et formants Formant Bande large Ah mais Natacha ne gagna pas le lama Transformée de Fourier rapide Transformée de Fourier : Transformée de Fourier « rapide » : • • • • opérations n = nombres d’échantillons du signal n = puissance de 2 (FFT) n quelconque par « zero padding » Découverte en…1805 (Gauss), puis par des moines, puis en 1965 (Cooley-Tuckey) ! Perception des sons de la parole • Perception de l’intensité • • Logarithmique (dB) Perception de la durée • • Durée minimale Perception de la hauteur mélodique • • Harmoniques, logarithmique Perception du timbre (vocalique) • Courbe de réponse de l’oreille Intensité Bel et déciBel Int [dB] = 10 log (Int/Intref) Int [dB] = 20 log (Amp/Ampref) Int = Amp * Amp Intensité perçue Courbes d’équiperception