Introduction aux techniques et méthodes du traitement automatique
Transcription
Introduction aux techniques et méthodes du traitement automatique
Introduction aux techniques et méthodes du traitement automatique de la parole Organisation du cours • 15 h de cours. • Mardi : 13h00 – 16h00. • Un projet (Contrôle). Réda DEHAK [email protected] Pré-requis Bibliographie • René René Boite, Hervé Hervé Bourlard, Thierry Dutoit, joë joël Hancq et henri leich, « Traitement de la parole » 1999 • traitement du signal • Xuedong Huang, Alex Acero et HsiaoHsiao-Wuen HON, « Spoken language processing : A guide to theory, Algorithm and System Development » 2001 – Analyse de Fourrier • Ouvrage collectif publié publié sous la direction de Josef Mariani, « Traitement automatique du langage parlé parlé, volume 1 : Analyse, synthè synthèse et codage de la parole » 2002 – Filtrage • Analyse des donné données • Ouvrage collectif publié publié sous la direction de Josef Mariani, « Traitement automatique du langage parlé parlé, volume 2 : Traitement automatique du langage parlé parlé » 2002 • Ouvrage collectif publié publié sous la direction de Josef Mariani, « Reconnaissance de la parole » 2002 • Shigeru Katagiri, « Handbook of neural networks for speech processing » 2000 Parole Contenu 1 0 0 0 0 8 0 0 0 6 0 0 0 4 0 0 0 2 0 0 0 0 -2 0 0 0 -4 0 0 0 -6 0 0 0 -8 0 0 0 5 0 0 1 0 0 0 1 5 0 0 2 0 0 0 2 5 0 0 3 0 0 0 3 5 0 0 4 0 0 0 4 5 0 0 1 0 0 0 0 8 0 0 0 6 0 0 0 4 0 0 0 2 0 0 0 0 -2 0 0 0 -4 0 0 0 5 0 0 0 • Introduction et Perception de la parole. • Modé Modélisation et analyse de la parole. • Codage de la parole. • Reconnaissance de la parole. • Identification du locuteur. • Synthè Synthèse de la parole. -6 0 0 0 5 0 0 1 0 0 0 1 5 0 0 2 0 0 0 2 5 0 0 3 0 0 0 3 5 0 0 4 0 0 0 4 5 0 0 5 0 0 0 1 Les origines Domaines d’applications • Vocodeur (1939) • Service d’ d’information Homer.W. Dudley. – Info gé générales ou spé spécialisé cialisées : sport, bourse, mé météo, page jaune … – Horaire et ré réservation, navigation, … • Service de messagerie – Répondeurs – Centre d’ d’appel – Service de messagerie unifié unifiée • Divers – Banque, commerce par GSM, … Un domaine multidisciplinaires Électronique Traitement du signal Acoustique Traitement de la parole • Codage de la parole : – Compresser le signal de parole. • Synthè Synthèse de la parole : Physique Traitement de la parole – Produire un signal de parole à partir d’ d’un texte. Linguistique • Reconnaissance de la parole : – Transcrire en texte un message vocal. – Dialogue naturel, Traduction du langage. – Identification/Vé Identification/Vérification du locuteur. Anatomie Informatique Perception Codage de la parole Exemples en bande té téléphonique • Départ : signal échantillonné chantillonné à 8khz en utilisant 16bits de • Réduction des coû coût de transmission ou de stockage des signaux numé numérique : – Caracté Caractéristiques statistiques des signaux. – Proprié Propriété du systè système auditif humain. – Modè Modèle de production (codage de la parole). quantification 128kbits/s. • Téléphone fixe – – – – – G711 G721 G728 G729 G723 1972 1984 1992 1995 1996 64 kbits/s 32 kbits/s 16 kbits/s 8 kbits/s 6.3/5.3 kbits/s – 06.10(full rate) – 06.20(HR) – 06.60(EFR) 1984 1995 1996 13 kbits/s 5.6 kbits/s 13 kbits/s – MpegMpeg-4 1999 2-8 kbits/s • GSM • MPEG 2 Synthèse de la parole Exemples de synthèse • Messages textes : • Vocodeur de Dudley. • Frank Cooper’ Cooper’s Pattern Playback. – Emails, pages web, … • Base de donné données : – N° téléphone, adresse, pages jaunes • Systè Systèmes de té téléinformatique : – Ciné Cinémas, navigation routiè routière, banques • Modè Modèle électrique : – Gunnar Fant, Royal Institute of Technolgy in Stockholm. – Parametric Artificial Taker of Walter Lawrence (1953). • Synthè Synthèse par ordinateur. Frank Cooper’s Pattern Playback Gunnar Fant, Royal Institute of Technolgy Stockholm Synthèse par ordinateur Synthèse audio-visuelle • Animer des visages parlants : http://www.icp.inpg.fr/ICP/_page.fr.php?page=avtts/clone.fr.html ICP – Grenoble. CNET – LANNION KTH – STOKHOLM LAIP - LAUSANNE 3 Reconnaissance de la parole et identification du locuteur Ex : Commande té téléphone portable • Dépendant du locuteur, petits vocabulaires : • Vous voulez composer le numé numéro d’ d’un ami. – Applications de contrôle/commande (té (téléphone portable) • Indé Indépendant du locuteur, petits vocabulaires : – Applications de contrôle/commande (té (téléphone portable) – Application de té téléservices simples. • Indé Indépendant du locuteurs, grands vocabulaires, Langage naturel : – Dicté Dictée vocale. – Téléservices plus complexes (cotes de bourse, mé météo, réservation de billets, etc.) – Indexation audio – Tri d’ d’appels Standard automatique – Mode d’é locution : isolé d’élocution isolé / continu – Monolocuteur ou multilocuteur : mono / multilocuteur – Taille du vocabulaire : ~N – Structure du langage : grammaire – Canal : microphone – Bruits : rue, voiture, train, … – Implé Implémentation : fortes contraintes mé mémoire – Multilingue : oui/non Standard automatique – Mode d’é locution : continu d’élocution • Vous voulez joindre l’l’employé employé d’une socié société via son standard automatique : – Monolocuteur ou multilocuteur : multilocuteur – Taille du vocabulaire : ~1000 – Structure du langage : grammaire, langage libre – Canal : té téléphonie (fixe ou mobile) – « Bonjour, pourrais je parler avec Monsieur Dupond, s’ s’il vous plaî plaît » – Bruits : possible – Implé Implémentation : rapide – Multilingue : oui Dictée personnelle – Mode d’é locution : continu d’élocution – Monolocuteur ou multilocuteur : multilocuteur Performances des systè systèmes actuels • Performances des systè systèmes actuels : (Cox et al. 2000) – Taille du vocabulaire : ~250k – Structure du langage : langages écrit (modè (modèle de langage) – Canal : microphone casque – Bruits : né négligeable – Implé Implémentation : puissance PC personnel – Multilingue : non 4 Performances des systè systèmes actuels Identification/Vé Identification/Vérification du locuteur • Identification : Identifier une personne dans un ensemble de candidats possibles. • Vérification : Vérifier qu’ qu’une personne est bien celle qu’ qu’elle pré prétend être. Diffé Différences Identification/Vé Identification/Vérification Diffé Différences Identification/Vé Identification/Vérification • Identification • Vérification Base Base Tous les modèles Imposteur Locuteur Test Une identité parmi les N personnes de la base ou bien l’imposteur Modules d’identification Description de la parole Modèles correspondant à l’identité revendiquée Nom Locuteur test Signal de parole Modules de Vérification Accès accordé ou refusé 1. Niveau acoustique • 7 niveaux de descriptions : 1. Niveau acoustique. 2. Niveau phoné phonétique. Indépendant du langage 3. Niveau phonologique. 4. Niveau morphologique. 5. Niveau syntaxique. Dépend du langage 6. Niveau sé sémantique. 7. Niveau pragmatique ou niveau du discours. • Indices acoustiques : – Fré Fréquence du fondamentale. – Spectre (timbre). 5 Onde acoustique Spectrogramme & pitch & formants Démo matlab • Homme : 70 – 250 Hz • Femme : 150 – 400 Hz • Enfant : 200 – 600 Hz 2. Niveau phonétique L’appareil respiratoire • La parole : Résultat acoustique d’ d’une sé série de mouvements des appareils respiratoires et articulatoires. • Processus de production : – La soufflerie. – La (ou les) source(s) vocale(s). – Les cavité cavités supraglottiques Les sources vocales Le larynx • 2 sortes de sources : • Situé Situé dans le cou • 3 principales fonctions : – Le larynx : contient les cordes vocales. – Les sources de bruit : • Au niveau d’ d’une constriction dans le conduit vocal. • Lors d’ d’un relâchement brusque d’ d’une occlusion dans le conduit vocal. – Le contrôle du flux d’ d’air lors de la respiration. – La protection des voies respiratoires. – La production d’ d’une source sonore pour la parole. 6 Le Larynx La glotte La glotte en action Sources de bruit • Apparaissent : – Dans le larynx. – Dans le conduit vocal. • 2 modes de phonation : – Les cordes vocales sont écarté cartées et ne vibrent pas Le bruit sera gé généré dans le conduit vocal – Les cordes vocales sont rapproché rapprochées : la voix chuchoté chuchotée Le bruit sera gé généré au niveau des cordes vocales Les sources de bruit Les sources de bruit • Les cordes vocales sont écartées et ne vibrent pas • La voix chuchotée – Les bruits fricatifs • Obstruction partielle du conduit vocal • Génération d.un bruit turbulent au niveau (ou près) de la constriction – La source de bruit est au niveau de la glotte – Les bruits d’explosion – Cordes vocales rapprochées mais pas fermées – 2 composantes: – Les bruits par occlusion glottale • Suite à l’ouverture brutale d.une obstruction totale du conduit vocal • Un bruit impulsif (causé par le relâchement soudain de la pression • d’air) Un bruit d’aspiration (similaire au bruit fricatif mais plus court) – Les bruits de bouches • Claquements de langue, bruits de lèvres, etc.. 7 Les cavités supraglottiques Les articulateurs Deux cavités : • Le conduit vocal • La langue – De la glotte aux lèvres – ~=17 cm chez l.adulte – Contient plusieurs articulateurs • Le conduit nasal – Du velum aux fosses nasales – ~=12 cm chez l.adulte – ~= 60 cm3 – Très mobile et déformable (peut se contracter ou s’étendre) – Essentielle pour la phonation • La mâchoire – Peu de degrés de liberté et corps rigide – Importance moindre pour la phonation • Les lèvres – – – – – – Très mobiles et déformables Mouvements importants pour la phonation: L’occlusion La protrusion L’élévation et l’abaissement de la lèvre supérieure L’étirement, l’abaissement ou l.élévation des commissures Les cavité cavités supraglottiques en action Modè Modèle de production de la parole Les sons vus sous une approche production • Classification des sons suivant leur mode de production – La parole (pour toute langue) est constituée d’un nombre finis d’éléments sonores distinctifs – Ces éléments forment les unités linguistiques élémentaires qui ont la propriété de changer le sens d’un mot – Ces unités élémentaires sont appelés phonèmes poumons ¾Définition du phonème: Cordes vocales Les phonèmes sont les éléments sonores les plus brefs qui permettent de distinguer différents mots 8 Notions de phonétique Les voyelles • La phoné phonétique s’ s’inté intéresse à regrouper les éléments en • Les voyelles correspondent à une vibration pé périodique • classe. Chaque classe possè possèdera des éléments partageant des caracté caractéristiques communes (ou traits distinctifs) • Les traits distinctifs expriment une similarité similarité au niveau articulatoire, acoustique ou perceptif des sons concerné concernés. – Les voyelles. – Les consonnes. Les voyelles • des cordes vocales et à une configuration stable du conduit vocal. Voyelles nasales : abaissement du voile du palais. – εP te ont, Pain, Brun Brun,, pen pente ~ont, • Voyelles orales : non nasales – Pâte, pa r, le patte, po pot, po pomme, né né, mai mai,, peu peu,, peu peur, le, pi pis, nu nu, pou pou • SemiSemi-voyelles : l’l’excitation glottique pé périodique est accompagné accompagnée d’ d’une évolution rapide du conduit vocal, entre deux positions vocaliques – Pied, ied, loi loi,, lui lui Les consonnes Les consonnes correspondent à des mouvements rapides de constriction des organes articulateurs, donc souvent à des sons peu instables qui évoluent dans le temps. Les consonnes Les fricatives • Le voisement : une consonne voisé voisée(resp. nonnon-voisé voisée) • Une constriction forte du conduit vocal provoque avec (resp. sans) vibration des cordes vocales. • Le mode d’articulation – – – – Le Le Le Le mode occlusif mode fricatif mode nasal mode glissant (ou liquide) • Le lieu d’articulation: position de la principale constriction du conduit vocal un bruit de friction. • Les cordes vocales peuvent entrer en vibration • en même temps que le bruit de friction (fricative voisé voisée) Si les cordes vocales ne vibrent pas : fricative sourde – Fricative sourde : faon, sang, chant chant – Fricative voisé voisées : vous, jeux, zéros 9 Les plosives ou occlusives Les liquides • Les plosives sont des occlusions complè complètes du • Résultent d’ d’une excitation voisé voisée et de • conduit vocale, suivies d’ d’un relâchement. Vibration des cordes vocales : – Plosive voisé voisée : bout, doux, goût – Plosive sourde : poux, toux, cou rapide mouvements articulatoires, principalement de la langue. – rang, lent • Si la dé dérivation nasale est ouverte pendant la fermeture de la bouche un nasale est produite: – Occlusives nasales: agn eau, mot, noix, campin g agneau, camping Classification des phonè phonèmes du franç français Alphabet phoné phonétique internationale Démo voyelles, consonnes 10