Introduction
Transcription
Introduction
N° d‟ordre : N° de série : République Algérienne Démocratique et Populaire Ministère de l’Enseignement Supérieur et de la Recherche Scientifique UNIVERSITÉ HAMA LAKHDAR D’EL-OUED FACULTÉ DES SCIENCES ET DE TECHNOLOGIE Mémoire de fin d’étude Présenté pour l’obtention du diplôme de MASTER ACADEMIQUE Domaine : Mathématique et Informatique Filière : Informatique Spécialité : Systèmes Distribués et Intelligence Artificielle Présenté par: Melle Maamra OumElhana Melle Settou Trablesse Thème Proposition d’un modèle de descripteur structurel pour la voix arabe, Application saisie des notes Soutenu le 04 juin 2015 Devant le jury composé de : Mr. Othmani Samir MA (B) Univ. elle M .Bellila Khaoula Mr. ZAIZ Faouzi MC (B) Univ. El Oued MA (B) Univ. ElOued MA (B) Univ. ElOued Année universitaire 2014 – 2015 Président Examinateur Rapporteur Remerciements Nous remercions Allah le tout puissant, qui nous a donné la force et la patience pour l’accomplissement de ce travail. Nos remerciements, les plus vifs, notre profonde gratitude et nos respects s'adressent à notre Encadreur M. ZAIZ Faouzi Pour avoir accepté de nous encadrer, pour les conseils et orientations tant précieux qu’il nous avons prodigués durant ce Mémoire. Sans son aide, notre travail n'aurait pas vu la lumière. Nous remercions vivement les membres du jury qui nous ont fait l’honneur D’accepter de juger notre travail. Notre reconnaissance va aussi à tous ceux qui ont collaboré à notre Formation en particulier les enseignants du département D’Informatique, de l’université Hama Lakhdar d’El-Oued. Aussi à nos familles Settou et Maamra Nous remercions également tous ceux qui ont participé de près Ou de loin à élaborer ce travail. Résumé La reconnaissance du son et la reconnaissance de la voie arabe en particulier présente un défi très grand et joue un rôle très important dans le monde actuel pour rendre les machines capable de connaitre comme un homme et capable de résoudre des problèmes complexes. Malgré les tentatives de rendre la machine apprendre comme les humains, Mais jusqu‟aujourd‟hui, aucune machine capable de comprendre100%un message vocal provenant d'un locuteur quelconque, dans des environnements souvent perturbés, quel que soit son mode d'élocution, la syntaxe et le vocabulaire utilisés tel que l‟homme. Dans ce travail on s‟intéresse d‟une part à faire une étude concernant le domaine de la reconnaissance du son. Ensuite, nous allons affinée par un intérêt particulier à une phase considérée comme cruciale dans le procédé de reconnaissance: la phase de segmentation. Enfin, nous allons proposer un modèle de descripteur vocale pour la langue arabe vue la robustesse et la qualité de définition offerte par ce technique. Mots clés: reconnaissance du son, voie arabe, classificateur FLC. ملخــص إن التعرف على الصوت و خاصة الكالم العربً أصبح ٌلعب دورا هاما فً العالم و ذلك بجعل اآللة ذكٌة قادرة على حل المشاكل المعقدة ,فبالرغم من المحاوالت الكثٌرة لتحقٌق هذا ال توجد لحد اآلن آلة تستطٌع التعرف 100%على رسالة صوتٌة من أي متكلم و فً أي وسط (وجود أو عدم وجود فوضى). فً هذا العمل كانت دراستنا فً مجال الصوت ,حٌث ركزنا على وجه الخصوص بمرحلة تعتبر حاسمة فً التعرف على الصوت :التقسٌم ,فاقترحنا نموذج وصفً للصوت العربً موضحٌن استقرارٌة و جودة النتائج المقدمة. الكلمات المفتاحية :التعرف على الصوت ,الكالم العربً ,المُص ِّنف .FLC Abstract The knowledge of voices and particularly those of Arabic language represents a great defy and play an important role in our world to enable the machine of knowing and distinguishing as human being. It resolves many complicated problems making the human life more easier. In spite of repetitive essays to replace the human by the machine but until now there is no machine that could understand the vocal message and distinguish it from different speakers in different environment with divergent words, syntax and used expressions. After that, we will stress the importance on a phase which is called: segmentation phase. Finally, we will suggest a mode for describing voices in Arabic language because of its harness, quality of definition that has been presented by its technics. Keywords: voice knowledge, Arabic voice, Classifier FLC. Liste des figures I. Reconnaissance Automatique de Parole Figure I. 1:Schéma synoptique de l‟acquisition d‟un signal de parole. .................................... 6 Figure I. 2: Schéma de synthèse de la parole. ........................................................................... 7 Figure I. 3:Schéma de Reconnaissance de parole. .................................................................... 8 Figure I. 4: Schéma générale d„un SRAP. .............................................................................. 11 II. Segmentation et Extraction des caractéristiques de SP Figure II. 1: Forme d'onde et spectrogramme d'un énoncé du mot ""رقم. ............................... 17 Figure II. 2: Exemples de fenêtres de pondération. ................................................................ 20 Figure II. 3: Schéma présentant les différentes méthodes d'extraction de caractéristique. .... 20 Figure II. 4: Représentation temporelle(Audiogramme) de signaux de parole. ..................... 21 Figure II. 5: L‟extraction des paramètres vocaux par LPC. ................................................... 22 Figure II. 6: Analyse cepstrale sur une fenêtre temporelle. .................................................... 24 Figure II. 7: Calcul des coefficients cepstraux MFCC. .......................................................... 25 Figure II. 8: Calcul des coefficients cepstraux LPCC. .......................................................... 25 III. Classification de signal de parole Figure III. 1: Schéma de structure de classificateur FLC. ...................................................... 33 Figure III. 2: Classificateur FLC. ........................................................................................... 35 IV. Conception & Mise en œuvre Figure IV. 1: Illustration des modules du système. .............................................................................. 39 Figure IV. 2: Exemple de segmentation niveau 1. ............................................................................... 41 Figure IV. 3: Exemple de segmentation niveau 2. ............................................................................... 44 Figure IV. 4: Exemple de normalisation de mot « »رقـــم. .................................................................... 46 Figure IV. 5: Exemple d‟extraction des caractéristiques pour le mot « »رقـــم. .................................... 47 Figure IV. 6: La phase de classification. .............................................................................................. 48 Figure IV. 7: Exemple de classification exacte. ................................................................................... 49 Figure IV. 8: a) Résultat par classification approchée, b) Résultat par classification approchée. ....... 50 Figure IV. 9: L'interface de démarrage de notre système. ................................................................... 52 Figure IV. 10: Fenêtre principale de l‟application. .............................................................................. 52 Figure IV. 11: Illustration de l‟utilisation de l‟application. ................................................................. 53 Figure IV. 12: Illustration de segmentation de signal de son. .............................................................. 54 Figure IV. 13: Illustration d‟apprentissage de nouveaux exemples. .................................................... 54 Figure IV. 14: Illustration de test d‟un exemple donné. ...................................................................... 55 Figure IV. 15: Illustration de Taux de reconnaissance de MS et LPC. ................................................ 56 Figure IV. 16: Illustration de temps d'exécution de MS et LPC. ......................................................... 56 I Liste des tableaux IV. Conception & Mise en œuvre Table IV. 1: Exemple des chaines de définition des segmente de parole............................................. 51 Table IV. 2 : Illustration des résultats obtenus avec une comparaison de la méthode LPC. ................ 56 II Sommaire Liste des figures ......................................................................................................................... I Liste des tableaux .................................................................................................................... II Sommaire ................................................................................................................................ III Liste d'abréviation…………………...…………………...…………………..……………..IV Introduction générale ............................................................................................................. 1 Chapitre I: Reconnaissance Automatique de Parole Introduction ................................................................................................................................ 3 1. Quelque concept de base ..................................................................................................... 3 1.1 Définition de son .............................................................................................................. 3 1.2 Les types de son ................................................................................................................ 3 1.3 Présentation de langue arabe ............................................................................................ 4 2. Traitement de signal de parole ............................................................................................ 4 2.1 Définition de signale de parole ......................................................................................... 5 2.2 Caractéristiques de signal de parole ................................................................................. 5 2.3 Le capteur (microphone) .................................................................................................. 6 2.4 Carte d‟interface (carte son) ............................................................................................ 7 2.5 Type de traitement de signal de parole ........................................................................... 7 2.5.1 La synthèse de la parole ............................................................................................. 7 2.5.2 La Reconnaissance de la Parole ................................................................................. 7 3. Système de Reconnaissance Automatique de la Parole «SRAP» ....................................... 8 3.1 Problèmes liés aux Systèmes de Reconnaissance de parole ............................................. 8 3.2 Approches de reconnaissance de parole .......................................................................... 9 3.3 Modules de base de la reconnaissance de parole ............................................................ 10 3.3.1 Un module d‟acquisition et de modélisation du signal ............................................ 10 3.3.2 Un module acoustique.............................................................................................. 10 3.3.3 Un module lexical .................................................................................................... 10 3.3.4Un module syntaxique .............................................................................................. 10 3.4 Phases de system de reconnaissance de parole ............................................................... 11 3.4.1 Acquisition du signal ............................................................................................... 11 3.4.2 Prétraitement ............................................................................................................ 12 3.4.3 La segmentation ....................................................................................................... 12 III 3.4.4 Extraction de caractéristique .................................................................................... 12 3.4.5 Classification........................................................................................................... 13 3.4.6 Post traitement ......................................................................................................... 14 4. Conclusion ........................................................................................................................ 14 Chapitre II: Segmentation et Extraction des caractéristiques de SP Introduction .............................................................................................................................. 16 1. Segmentation..................................................................................................................... 16 1.1 Méthodes de segmentation ............................................................................................ 16 1.1.2 Segmentation en voisées/ non voisées .................................................................... 16 1.1.2 Segmentation en phonème ....................................................................................... 16 1.1.3 Segmentation en syllabe ......................................................................................... 17 1.1.4 Segmentation en mots .............................................................................................. 18 1.1.5 Segmentation en locuteurs et tour de parole ............................................................ 18 2. Extraction des caractéristiques .......................................................................................... 19 2.1 Fenêtrage ........................................................................................................................ 19 2.2 Approches et techniques d'extraction de caractéristique ............................................... 20 2.2.1 Approche temporelle ................................................................................................ 20 2.2.2 Approche fréquentielles ou spectrales ..................................................................... 22 2.2.3 Approche cepstrales ................................................................................................. 24 3. Conclusion ........................................................................................................................ 26 Chapitre III: Classification de signal de parole Introduction .............................................................................................................................. 28 1. Distances dans l'espaceacoustique .................................................................................... 28 1.1 Mesure de distorsion ...................................................................................................... 28 1.2 Distance Euclidienne ..................................................................................................... 28 1.3 Distance d'ltakura ........................................................................................................... 29 1.4 Distance cepstrale ........................................................................................................... 29 1.5 Distance de Mahalanobis ................................................................................................ 30 2. Catégories de classification de signal de parole ............................................................... 30 2.1 Classification statistique .............................................................................................. 30 2.1.1 Décision Bayésienne ................................................................................................ 30 2.1.2 Méthode des k-plus proches voisins (k-ppv) ........................................................... 31 2.1.3 Machines à Vecteurs de Support (SVM) ................................................................. 31 2.2 Classification stochastique .......................................................................................... 31 IV 2.3 3. Classification neuronale .............................................................................................. 32 Méthode de classification FLC ......................................................................................... 32 3.1 Points forts de FLC ......................................................................................................... 32 3.2 Structure de classificateur FLC ...................................................................................... 33 3.2.1 Couche instructeur ................................................................................................... 33 3.2.2 Couche raisonnement ............................................................................................... 33 3.2.3 Couche apprentissage ............................................................................................... 34 3.2.4 Couche Classification .............................................................................................. 34 A.Gestionnaire de classification ....................................................................................... 34 B. Vote. ............................................................................................................................. 36 C. Calcule ....................................................................................................................... 36 4. Conclusion ........................................................................................................................ 36 Chapitre IV: Conception & Mise en oeuvre Introduction .............................................................................................................................. 38 1. Mise en œuvre du système ................................................................................................ 38 1.1 Acquisition..................................................................................................................... 39 1.2 Segmentation ................................................................................................................. 39 1.2.1Segmentation niveau 1 .............................................................................................. 40 1.2.2 Segmentation niveau 2 ............................................................................................. 41 1.3 Extraction des caractéristiques ..................................................................................... 44 1.3.1 Normalisation de signal vocal .................................................................................. 44 1.3.2 Méthode proposée .................................................................................................... 46 1.4 Classification .................................................................................................................. 47 1.5 Post-traitement ................................................................................................................ 48 2. Résultats et bilan ............................................................................................................... 51 2.1 Choix du langage de programmation.............................................................................. 51 2.2 Interfaces du système...................................................................................................... 51 2.2.1 Utilisation de l‟application ....................................................................................... 52 2.2.2Analyse du son (Sound Analyser)............................................................................. 53 3. Comparaison des résultats (LPC/MS) ............................................................................... 55 4. Conclusion ........................................................................................................................ 57 Conclusion générale & perspectives…….………………………………………….………59 Bibliographie........................................................................................................................... 60 IV Liste d’abréviations CAN : Convertisseur Analogique Numérique FLC :La méthode FastLogicClassifier FFT:FastFourrier Transform HMM:Modèle de Markov Caché IFFT:Inverse FastFourrier Transform LPCC:LinearPredictionCepstralCoefficients LPC: LinearPredictifCoding MFCC : Coefficients Cepstraux PPZ: Le Ttaux de Passage par Zéro PLP:PerceptualLinearPrediction k-ppv : k-Plus Proches Voisins RAP:Reconnaissance Automatique de la Parole SRAP : Système de Reconnaissance Automatique de la Parole SP : Signal de Parole SVM : Support VectorMachines. TDF:Transformé Discrète de Fourier TFR:Transformée de Fourrier Rapide IV Introduction générale Introduction générale La reconnaissance automatique de la parole (RAP) par les machines est depuis longtemps un thème de recherche qui fascine le public, mais qui demeure un défi pour les spécialistes. À ses balbutiements, les projections sur ses applications étaient très optimistes: quoi de plus naturel que de parler à une machine, sans avoir à s‟encombrer d‟un clavier ? Malheureusement, malgré l‟incroyableévolution des ordinateurs et des connaissances, la reconnaissance automatique de la parole n‟en demeure pas moins un sujet de recherche toujours actif...et les résultats obtenus sont encore loin de l‟idéal qu‟on aurait pu en attendre, il y a vingt ans.Il n‟existe encore aucun système capable de traiter de façon fiable la reconnaissance. La reconnaissance de la parole continue pour un vocabulaire moyen (quelques milliers de mots) est actuellement possible dans un logiciel de reconnaissance de la parole. La reconnaissance de la parole humaine se situe à l'intersection de nombreux domaines tels que l'acoustique, l'électronique, la phonétique...Pour atteindre un haut niveau, un système de reconnaissance de la parole doit s'inspirer des travaux d'une vaste gamme de disciplines scientifiques : Mathématique, informatique, technologie,.... Notre étude s'intègre dans le cadre du développement d'un système de dictée vocale indépendant du locuteur (logiciel de saisie des notes des étudiants par dicter). Qui apprend d‟un ensemble d‟enregistrement du son des différents mots arabe et par la suite elle permet de reconnaître de nouveaux exemples (nouvelles enregistrements des mots) des mots et les classifier. La modélisation acoustique par les méthodes les plus performantes de l'état de l'art reste insuffisante; cette faiblesse est un facteur limitant des systèmes de RAP. Nous cherchons à améliorer la qualité de la modélisation acoustique, en proposant un modèle de descripteur vocale dans phase considérée comme cruciale dans le procédé de reconnaissance « la phase de segmentation » pour la langue arabe vue la robustesse et la qualité de définition offerte par ces techniques. Ce mémoire s‟articule autour de quatre chapitres : Le premier chapitre présente une vue générale des systèmes de reconnaissance de la parole, dont on s„intéresse à introduire et présenter un état de l„art du domaine de la reconnaissance de parole ; Le second chapitre illustre et exposer les différentes approches, méthodes et technique réalisées depuis plusieurs années pour les deux phases « segmentation et extraction de caractéristique » ; Le troisième chapitre présent les différentes approche existent de classification et exposer plus détaille le classificateur choisie FLC (FastLogic Classifier); Le dernier chapitre présente laconception et l‟implémentation de système réalisé. 1 Chapitre I: Reconnaissance Automatique de parole Chapitre I Reconnaissance Automatique de parole Introduction La parole est un moyen de communication très efficace et naturel utilisé par l'humain. Depuis longtemps, il rêve de pouvoir s'adresser par ce même moyen à des machines ce qui les rendre plus intelligentes. La reconnaissance automatique de la parole est un domaine multidisciplinaires d'étude actif depuis le début des années 50, il est utilisé dans des domaines comme « Perception, Acoustique, Linguistique, Électronique, Physique, Informatique et Traitement du signal» Il est clair qu'un outil de reconnaissance de la parole efficace facilitera l'interaction entre les hommes et les machines. Les applications possibles associées à un tel outil sont nombreuses et sont amenées à connaître un grand essor. La plupart des applications en reconnaissance de la parole peuvent être regroupées en quatre catégories : commande et contrôle, accès à des bases de données ou recherche d'informations, dictée vocale et transcription automatique de la parole. Dans ce chapitre, on s„intéresse d„une part à introduire et présenter un état de l„art du domaine de la reconnaissance des parole, et d„autre part à exposer les différentes approches, méthodes et technique réalisées depuis plusieurs années. 1. Quelque concept de base 1.1 Définition de son Le son est une vibration de l'air. A l'origine de tout son, il y a mouvement. Il s'agit de phénomènes physiques créés par une source sonore qui met en mouvement les molécules de l'air. Avant d'arriver jusqu'à notre oreille, ce mouvement se propage à une certaine vitesse dans un milieu élastique (en général l‟air).[21] 1.2 Les types de son Il faut d'abords différencier les deux types de sons: le son analogique et le son numérique. Le son analogique Le son analogique est un signal électrique continu pour lequel il existe une valeur de tension en concordance avec la variation de la pression de l‟air.En d'autres termes, on dit qu'un signal électrique généré par un micro est transporté, à travers un câble puis une console et enfin à travers un ampli et son haut-parleur, d'une façon analogique lorsque les vibrations électriques qui parcourent ces éléments sont identiques, c'est à dire analogues, en fréquence et en amplitude aux variations de pression, donc aux vibrations de l'air. Le son analogique n'est pas manipulable tel quel par un ordinateur, qui ne connaît que les 0 et les 1.[21] 3 Chapitre I Reconnaissance Automatique de parole Le son numérique Il est représenté par une suite binaire de 0 et de 1. L'exemple le plus évident de son numérique est le CD audio. Le processus de passage du son analogique en son numérique est appelé "échantillonnage". [21] Le convertisseur analogique numérique "CAN" Un convertisseur analogique / numérique (CAN) est un dispositif électronique permettant la conversion d‟un signal analogique en un signal numérique. Lorsque les valeurs numériques peuvent être stockées sous forme binaire (donc par un ordinateur), on parle de données multimédia. 1.3 Présentation de langue arabe L‟Arabe est la sixième langue actuellement parlée dans le monde. On estime le nombre d‟Arabophone à 250 millions. C‟est la langue officielle de 22 pays. Mais comme c‟est aussi la langue qui porte les instructions religieuses de l‟Islam dans le livre sacrée, on peut imaginer que le nombre de personnes qui parlent l‟Arabe est nettement plus élevé.[7] Elle possède un alphabet de vingt-huit lettres, parmi lesquelles, vingt-cinq représentent des consonnes. Les trois lettres restantes représentent les voyelles longues (/ ا/, و//, /ي/). Chaque lettre apparaît souvent en quatre formes selon qu‟elle soit en début, en milieu ou en fin de mot, ou isolée. Les lettres sont le plus souvent connectées entre elles sans majuscules.Dans la phonologie les alphabets arabe sont classés à des consonnes et des voyelles.[7] Les consonnes Une consonne est un phonème dont la prononciation se caractérise par une obstruction totale ou partielle en un ou plusieurs points du conduit vocal. Elle estgénéralementprécédéeousuivied‟unevoyelle.[7] Les voyelles Lors de la prononciation des voyelles, l‟air émis par les vibrations des cordes vocales passe librement à travers le conduit. On distingue trois types de voyelles : les voyelles courtes « ‘’ ۥ, ‘-’ et ‘’’ », longues «/و/, / ا/ et /ي/ » et les semi-voyelles « sekune et tanwin ». [7] 2. Traitement de signal de parole Aujourd‟hui, les sciences de l‟ingénieur s‟intéresse beaucoup du traitement de la parole c‟est pour ça le traitement automatique de la parole est un champ de recherche riche mais difficile. 4 Chapitre I Reconnaissance Automatique de parole De façon générale, le traitement de signal est un ensemble des techniques et des méthodes appliqué sur un signal électrique pour extraire l‟information désirée se signale doit traduire le plus fidèlement possible le phénomène physique à étudier. [12] 2.1 Définition de signale de parole Le signal de la parole est un phénomène de nature acoustique porteur d‟un message. L‟information d‟un message parlé réside dans les fluctuations de l‟air, engendrées, puis émises par l‟appareil phonatoire. Ces fluctuations constituent le signal vocal. Elles sont détectées par l‟oreille qui procède à une certaine analyse. Les résultats sont transmis au cerveau qui les interprète. [16] D‟autre part, le signal vocal représente la combinaison d‟éléments simples et brefs du signal sonore appelés phonèmes, qui permettent de distinguer les différents mots. La parole est un signal réel, continu, d‟énergie finie et non stationnaire. Sa structure est complexe et variable avec le temps.[12] 2.2 Caractéristiques de signal de parole Le signale de parole est un vecteur acoustique porteur d'informations d'une grande complexité, variabilité et redondance, dont les signaux de parole sont différencier par un ensemble des caractéristiques. Les caractéristiques de ce signal sont appelées traits acoustiques.Parmi ces caractéristiques sont : La fréquencefondamentale Le spectre de fréquence Le timbre Le pitch Intensité La fréquencefondamentale C'est le premier trait acoustique, c'est la fréquence de vibration des cordes vocales. Pour les sons voisés.[12]Correspond à la période de l'onde .c'est la fréquence de cette onde qui nous permet d'évaluer, de façon globale, la hauteur du son. Les ondes qui accompagnent le fondamental sont appelées les harmoniques.[1] Le spectre de fréquence C'est le deuxième trait acoustique dont dépend principalement le timbre de la voix. Il résulte de filtrage dynamique de signale en provenance du larynx ou signale glottique par le conduit vocale.[12] Le timbre Le timbre est l‟ensemble des caractéristiques qui permettent de différencier une voix.Il provient en particulier de la résonance dans la poitrine, la gorge la cavité buccale et le nez sont les amplitudes relatives des harmoniques du fondamental qui déterminent le timbre du son.[12] 5 Chapitre I Reconnaissance Automatique de parole Les éléments physiques du timbre comprennent : o Les relations entre les parties du spectre, harmoniques ou non ; o Les bruits existant dans le son (qui n‟ont pas de fréquence particulière, mais dont l‟énergie est limitée à une ou plusieurs bandes de fréquence) ; o L‟évolution dynamique globale du son ; o L‟évolution dynamique de chacun des éléments les uns par rapport aux autres. Le pitch La variation de la fréquence fondamentale définit le pitch qui constitue la perception de la hauteur (ou les sons s'ordonnent de grave à aigu). Seuls les sons quasi-périodiques (voisés) engendrent une sensation des hauteurs tonales. [12] Intensité L'intensité s‟appelle aussi volume permet de distinguer un son fort d‟un faible. L‟intensité est liée à la pression de l‟air en amont du larynx, qui fait varier l‟amplitude des vibrations sonores. [12] 2.3 Le capteur (microphone) Le capteur représente le premier élément de l‟acquisition. Il est considéré comme un transducteur, dispositif transformant une grandeur physique en une autre grandeur dépendante de la première. Bien qu‟un microphone soit un obstacle à la propagation des ondes sonores, pour l‟acquisition du signal de parole, ce microphone est un capteur comportant un organe sensible aux variations de pression dues à l‟onde sonore. [21] Ces variations de pression sont utilisées pour exercer une force sur un système ne pouvant pratiquement pas se déplacer sans cette condition (existence de la force).Il existe plusieurs types de microphone (Microphone : à charbon, à condensateur, à magnétostriction, électrodynamique, électronique, thermique, ionique).On prend le microphone à condensateur comme exemple. Ce dernier se trouve dans un circuit comprenant une résistance et un générateur. L‟intensité du courant dans le circuit dépend de ces variations .Ce genre de microphone est le plus performant parmi les microphones disponibles, en plus son avantage majeur est sa petite taille ainsi que sa simple construction. [21] PC Microphone Pressionacoustique Carte d’interface MIC LINE OUT Figure I. 1:Schéma synoptique de l‟acquisition d‟un signal de parole. 6 Chapitre I Reconnaissance Automatique de parole 2.4 Carte d’interface (carte son) Une fois le signal analogique, issu du microphone arrive à l‟entrée MIC de la carte son, il doit passer par un circuit de conditionnement, qui permet l‟amplification et le filtrage de ce signal, après quoi la conversion Analogique-Numérique est effectuée, dans le but de rendre l‟information récupérée, traitable par le système numérique (microordinateur).Cette conversion comprend l‟échantillonnage, la quantification et le codage. Après la conversion Analogique-Numérique, la carte son passe à la mémorisation des données numérisées dans un espace mémoire ou tampon (buffer) sous forme de valeurs numérique. Ces données seront présentés par des vecteurs comportant une série de chiffre .On utilise ce genre de mémorisation plusieurs fois pour un même mot prononcé selon le choix de la taille du dictionnaire voulu, attribuée à l‟apprentissage des données. [21] 2.5 Type de traitement de signal de parole Le signal de parole est complexe et démontre une très grande variabilité car sa structure résulte de l'interaction entre la production des sons et leur perception par l'oreille et son traitement peut diviser à deux grands domaines principaux : La synthèse de la parole ; La Reconnaissance de la Parole. 2.5.1La synthèse de la parole La synthèse vocale est une technique informatique de synthèse sonore qui permet à une machine de créer de la parole artificielle à partir de n'importe quel texte. Aucune restriction n‟est faite sur la nature des mots à synthétiser (signale, abréviation, chiffre, date, etc.), ni sur la taille du vocabulaire à traiter. Parmi les applications, on peut citer la vocalisation d'écrans informatiques pour les personnes aveugles ou fortement malvoyantes(lecteur d'écran), ainsi que de nombreuses applications de serveurs vocaux téléphoniques, comme les annuaires vocaux de grande taille. [27] Système de synthèse de la parole Figure I. 2: Schéma de synthèse de la parole. 2.5.2 La Reconnaissance de la Parole La reconnaissance de la parole ou reconnaissance vocale est une technologie informatique qui permet d'analyser la voix humaine captée au moyen d'un microphone pour la transcrire sous la forme d'un texte exploitable par une machine. Cette technologie utilise des méthodes informatiques des domaines du traitement du signal et de l‟intelligence artificielle. [25] 7 Chapitre I Reconnaissance Automatique de parole Système de Reconnaissance de la parole Figure I. 3:Schéma de Reconnaissance de parole. 3. Système de Reconnaissance Automatique de la Parole «SRAP» Il existe plusieurs applications des systèmes de reconnaissance automatique de la parole, nous allons citer quelque système : Une dictée vocale peut être associée à un traitement de texte : Un locuteur parle et le texte s‟affiche ; ainsi, il n‟a plus besoin de taper son texte au clavier. Les serveursd‟informations par téléphone La messagerie Elle permet l‟autonomie : par exemple en médecine, lorsqu‟un chirurgien a les deux mains occupées, il peut parler pour demander une information technique au lieu de taper sur un clavier (autonomie qui est aussi valable en industrie). La sécurité possible grâce à la signature vocale La possibilité de commande et de contrôle d‟appareils à distance. 3.1 Problèmes liés auxSystèmes de Reconnaissance de parole La mesure du signal de parole est liée par des problèmes car elle est fortement influencée par la fonction de transfert du système de reconnaissance (les appareils d'acquisition et de transmission), ainsi que par l‟environnement ambiant. Parmiceproblème on trouve: Continuité Lorsqu'on écoute une personne parler, on perçoit une suite de mots alors que l'analyse du signal vocal ne permet de déceler aucun séparateur. Évidement il est plus simple de reconnaître des mots isolés bien séparés par des périodes de silence que de reconnaître la séquence de mots constituant une phrase. Une grande Variabilité Le signal vocal est très variable soit pour un même locuteur (variabilité intra locuteur) ou pour des locuteurs différents (variabilité interlocuteur).[22] a- Variabilité intra-locuteur Une même personne ne prononce jamais un mot deux fois de façon identique par exemple dans le cas voix chantée, criée, enrouée, sous stress,.... La vitesse d'élocution en 8 Chapitre I Reconnaissance Automatique de parole détermine la durée. Toute affection de l'appareil phonatoire peut altérer la qualité de la production. [13] b- Variabilitéinterlocuteur Les différences physiologiques entre locuteurs, qu'il s'agisse de la longueur du conduit vocal ou du volume des cavités résonnantes, modifient la production acoustique. En plus, il y a la hauteur de la voix, l'intonation et l'accent différent selon le sexe « homme, femme, enfant», l'origine sociale, régionale ou nationale. Reconnaissance des informations en fonction de la tâche à accomplir La reconnaissance vocale peut s'effectuer sur les sons eux-mêmes, sur la structure syntaxique d'une phrase (dictée), sur la signification d'une phrase (robots) ou sur l'identité du locuteur et son état émotionnel (joyeux, en colère,...).[22] Le niveau de bruit ambiant Notre environnement est souvent bruité, les applications audio se trouvent ainsi confrontées au bruit ambiant. Le bruit tout signal nuisible qui se superpose au signal utile en un point quelconque d‟une chaine de mesure ou d‟un système de transmission. Il constitue donc une gêne dans la compréhension de la parole. [21] 3.2 Approches de reconnaissance de parole Les approches de reconnaissance vocale se distinguent essentiellement par la nature et par la taille des unités abstraites qu'elles s'efforcent de mettre en correspondance avec le signal de parole. Il existe deux approches permettant d'aborder la reconnaissance de la parole : Approcheglobale Approcheanalytique Approche globale L'approche globale s‟applique aux systèmes pour lesquels l'unité de décision est l'entité lexicale "le mot", qui non décomposée. [16]L'idée de cette méthode est de donner au système une image acoustique de chacun des mots qu'il devra identifier par la suite. Cette opération est faite lors de la phase d'apprentissage, où chacun des mots est prononcé une ou plusieurs fois. Cette méthode a pour avantage d'éviter les effets de coarticulation, c'est à dire l'influence réciproque des sons à l'intérieur des mots. Elle est cependant limitée aux petits vocabulaires prononcés par un nombre restreint de locuteurs (les mots peuvent être prononcés de manière différente suivant le locuteur). [22] Approche analytique L'approche analytique cherche à résoudre le problème de la parole en isolant des unités acoustiques courtes en procédant à une segmentation en entités élémentaires de base étiquetées ou identifiées, comme les phonèmes, les syllabes…etc.[16] Celles-ci sont les unités de base à reconnaître.Cette approche a un caractère plus général que la précédente : pour 9 Chapitre I Reconnaissance Automatique de parole reconnaître de grands vocabulaires, il suffit d'enregistrer dans la mémoire de la machine les principales caractéristiques des unités de base. [22] Pour la reconnaissance de mots isolés à grand vocabulaire, la méthode globale ne convient plus car la machine nécessiterait une mémoire et une puissance considérable pour respectivement stocker les images acoustiques de tous les mots du vocabulaire et comparer un mot inconnu à l'ensemble des mots du dictionnaire. C'est donc la méthode analytique qui est utilisée : les mots ne sont pas mémorisés dans leur intégralité, mais traités en tant que suite de phonèmes. Mais la méthode analytique a un grand inconvénient : l'extrême variabilité du phonème en fonction du contexte (effets de la coarticulation).[22] 3.3 Modules de base de la reconnaissance de parole La reconnaissance de la parole est décomposée en 4 modules, un module d‟acquisition et de modélisation du signal, un module acoustique, module lexical et module syntaxique. 3.3.1 Un module d’acquisition et de modélisation du signal Qui transforme le signal de parole en une séquence de vecteurs acoustiques. Pour être utilisable par un ordinateur, un signal doit tout d'abord être numérisé. Cette opération tend à transformer un phénomène temporel analogique, le signal sonore dans notre cas, en une suite d'éléments discrets, les échantillons. Ceux-ci sont obtenus avec une carte spécialisée « carte de son »courante de nos jours dans les ordinateurs depuis l'avènement du multimédia. [10] 3.3.2 Un module acoustique Qui peut produire une ou plusieurs hypothèses phonétiques pour chaque segment de parole (par exemple de 10 ms, pour chaque vecteur acoustique), associées en général à une probabilité. Ce générateur d'hypothèses locales est généralement basé sur des modèles statistiques de phonèmes, qui sont entraînés sur une grande quantité de données de parole (par exemple, enregistrement de nombreuses phrases) contenant plusieurs fois les différentes unités de parole dans plusieurs contextes différents.[10] 3.3.3 Un module lexical Dans le cadre de la reconnaissance de la parole continue, même si le système acoustique est basé sur des phonèmes, il faut obtenir, pour chaque entrée du dictionnaire phonétique, un modèle qui lui est propre. Un tel module lexical embarque en général des modèles des mots de la langue (les modèles de base étant de simples dictionnaires phonétiques ; les plus complexes sont de véritables automates probabilistes, capables d‟associer une probabilité à chaque prononciation possible d‟un mot). A l‟issue de ce module, il peut donc y avoir plusieurs hypothèses de mots qui ne pourront être départagées que par les contraintes syntaxiques. [10] 3.3.4 Un module syntaxique Qui interagit avec un système d'alignement temporel pour forcer la reconnaissance à intégrer des contraintes syntaxiques, voire sémantiques. Les connaissances syntaxiques sont 10 Chapitre I Reconnaissance Automatique de parole généralement formalisées dans un modèle de la langue, qui associe une probabilité à toute suite de mots présents dans le lexique. Ainsi le système est capable de choisir entre plusieurs mots selon le contexte de la phrase ou du texte en cours et de son modèle lexical. [10] 3.4Phases de system de reconnaissance de parole Le schéma général d„un système de reconnaissance de parole est présenté dans la figure I.4. Acquisition Prétraitement Segmentation Extraction de caractéristique Classification Post-traitement Figure I. 4: Schéma générale d„un SRAP. 3.4.1 Acquisition du signal L'acquisition du signal de parole constitue la première étape à franchir. Il s'agit de numériser un signal analogique (la parole) pour qu'il soit prêt à des traitements numériques ultérieurs. Cette étape est généralement réalisée à l'aide d'une carte d'acquisition spécialisée. Une fois capté par un microphone, le signal est tout d'abord filtré, ensuite échantillonné et enfin quantifié. Ces opérations successives permettent de transformer un signal continue x(t) (où t désigne le temps) en un signal numérique x(n) où n correspond à des instants discrets.[5] 11 Chapitre I Reconnaissance Automatique de parole L’échantillonnage L‟échantillonnage procède à un découpage dans le temps du signal continu s(t). Il consiste à sélectionner au moyen de circuit de commutation, les valeurs prises par le signal en une suite d‟instants t1, t2, …,tn régulièrement espacés. Le théorème de Shannon nous indique que la fréquence maximale fmax présente dans un signal échantillonné à une fréquence fe est égale à la moitié de fe.[7] La quantification La quantification définit le nombre de bits sur lesquels on veut réaliser la numérisation. Elle permet de mesurer l‟amplitude de l‟onde sonore à chaque pas de l‟échantillonnage. C‟est alors pour associer à chaque échantillon une valeur.[12] Le codage Pour associer un code binaire à chaque valeur quantifiée qui permet le traitement du signal sur machine. 3.4.2 Prétraitement La phase de prétraitement ou de filtrage pouvant corriger le signal après l‟acquisition afin de retirer les distorsions ou les bruits provenant du matériel ou de l‟environnement du locuteur. Ce module est aussi appelé «traitement du canal de transmission». Du fait de sa complexité et du peu d‟amélioration qu‟il apporte, ce phase n‟est pas toujours intégré aux systèmes. Cependant la recherche de meilleurs traitements du canal de transmission sera sûrement nécessaire à l‟amélioration des systèmes de reconnaissance vocale.[10] 3.4.3 La segmentation C'est le processus de division d'une entité, généralement continue, en petites entités appelées segments ou trames. Chaque segment possède des propriétés propres qui permettent de le différencier des autres. La segmentation de la parole fait référence à des unités variées selon la nature du segment considéré. On peut définir plusieurs types de segmentation (organisés du segment le plus court au segment le plus long) [6] : en voisé/non-voisé ; en phonèmes ; en syllabes ; en mots ; en groupes inter-pausaux (segments délimités par deux pauses silencieuses) ; en locuteurs et tours de parole. 3.4.4 Extraction de caractéristique Cette phase permet d‟extraire des paramètres qui caractérisent l‟information caché derrière ce signal qui est appelé aussi un vecteur de caractéristique ou descripteur qui pourront être utilisées pour le traitement de signal vocale pour la reconnaissance. Pour cette phase il y a 12 Chapitre I Reconnaissance Automatique de parole des approches et pour chaque approche existe plusieurs techniques (qui vont être décrit dans le prochaine chapitre). 3.4.5 Classification La classification ou la reconnaissance dans un Système RAP regroupe les deux tâches d‟apprentissage et de décision. Elles tentent toutes les deux, à partir de la description en paramètres extraits dans l‟étape précédente, d‟attribuer une forme acoustique à un modèle (ou à une classe) de référence. On exige donc de la classification de vérifier les deux propriétés suivantes: compacité Les points représentant une classe donnée sont plus proches entre eux que les points de toutes les autres classes. Séparabilité Les classes sont bornées et il n y'a pas de recouvrement entre elles. En pratique, ces propriétés sont rarement respectées à cause du bruit et de distorsion des signaux. La décision d'attribuer un vecteur de mesures candidat à une classe est fondée sur la notion de proximité. Il en est de même pour la constitution de classes lors de l'apprentissage. Parmi les méthodes de classification automatique, on distingue la programmation dynamique. [16] A. Apprentissage L'étape d'apprentissage est l'une des étapes les plus importantes dans le processus de reconnaissance est l'étape de la construction du dictionnaire de référence (représenté par les groupes de mots ou modèles de référence formant des classes). En effet cette étape est d'une telle importance pour un système de reconnaissance, que même l'utilisation des plus puissants algorithmes lors de l'étape de décision ne peut compenser sa faiblesse éventuelle. La performance de tout le système dépend du soin. Cela exige de l'apprentissage de bien définir les classes des formes acoustiques et leurs modèles de manière à bien distinguer les familles homogènes des formes et donc à identifier les nouvelles par rapport à elles, par exemple, en fournissant un bon choix de formes de références ou en donnant au système les bons critères de modélisation .[16] En outre, l'apprentissage est dit supervisé, si la tâche d'apprentissage est guidée par un superviseur (concepteur) qui indique à la nouvelle forme, la classe qui la contienne, ou apprentissage non supervisé, si les classes sont créés automatiquement, sans l'intervention d'un opérateur, à partir d‟échantillons de référence et de règles de regroupement. [13] B. Décision La décision est l'ultime étape de la reconnaissance. A partir de la description en paramètres, elle recherche, parmi les modèles d'apprentissage en présence, ceux qui sont les plus "proches", et cela en un temps aussi court que possible. La décision peut conduire à un succès si la réponse est unique (un seul modèle répond à la description de l'image acoustique). Elle peut conduire à une confusion (substitution) si la réponse est multiple (plusieurs modèles 13 Chapitre I Reconnaissance Automatique de parole correspondent à la description). Enfin, la décision peut conduire à un rejet de la forme si aucun des modèles ne correspond à sa description. Dans les deux premiers cas, la décision peut être accompagnée d'une mesure de vraisemblance appelée aussi score ou taux de reconnaissance.[16] 3.4.6 Post traitement Cette phase consiste à faire une sélection de la solution en utilisant des niveaux d„information plus élevés (syntaxique, lexicale, sémantiques…). Le post-traitement se charge également de vérifier si la réponse est correcte (même si elle est unique) en se basant sur d„autres informations non disponibles au classificateur. [10] 4. Conclusion Dans ce chapitre nous avons vu un état de l‟art de domaine de la reconnaissance de la parole en générale, ou nous avons présenté les éléments de base nécessaire à un tel système. 14 Chapitre II: Segmentation et Extraction des caractéristiques de SP Chapitre II Segmentation et Extraction de caractéristique de SP Introduction Dans le chapitre précédent nous avons présenté tous les phases de système de reconnaissance de parole, parmi ces phases la segmentation et l'extraction de caractéristique de signal de parole. Dans ce chapitre nous allons détaille les approches et les méthodes de ces phases. 1. Segmentation La phase de segmentation est une phase très importante dans le processus de reconnaissance de la voix, tel qu‟aucun système n‟utilise cette phase, car elle prépare le signal de parole pour les traitements ultérieur. Cette phase possédé une grande influence sur la qualité des caractéristique à obtenir et par conséquent, le taux de classification à obtenir. Le but de cette phase est l‟extraction des segments de base à traiter selon l‟unité de base de traitement, à savoir : mot, syllabe ou phonème … etc. ce processus est très influencé par le bruit intégré dans le signal enregistré. 1.1 Méthodes de segmentation Dans ces parties nous allons détail les méthodes de segmentation qui nous avons cité précédemment. 1.1.2 Segmentation en voisées/ non voisées Les sons voisés sont produits par la vibration des cordes vocale. Les voyelles sont intrinsèquement voisées, tandis que les consonnes peuvent l'être ou non. On peut donc considérer qu'un mot est constitué d'une suite de segments voisés, de segments non voisés et de silences brefs. Cependant toute suite de ces trois segments de base ne correspond pas à un mot, du bruit peut être constitué par des sons voisés. Un des paramètres de voisement est le pitch. [3] 1.1.2 Segmentation en phonème La segmentation d'un signal de parole en phones consiste à délimiter sur le continuum acoustique de ce signal une séquence de segments caractérisés par des étiquettes appartenant à un ensemble discret et fini d'éléments, qui est l'alphabet phonétique de la langue. La segmentation phonétique de la parole est une tâche difficile car le signal de parole n'est pas clairement composé de segments discrets bien délimités. [24] D'un côté, nous constatons que l'élocution d'un énoncé se caractérise par un mouvement continu des organes de la parole et par l'absence d'un quelconque positionnement statique de ces organes. Le passage d'une cible articulatoire d'un phone, à une autre cible articulatoire d'un autre phone, se fait de manière continue, avec un chevauchement entre les deux configurations articulatoires, ce qui donne naissance au phénomène de coarticulation. 16 Chapitre II Segmentation et Extraction de caractéristique de SP D'un autre côté, sur la base de notre perception de la parole, nous pouvons affirmer que ce signal se compose d'une série d'éléments sonores distincts. En effet, l'examen du spectrogramme d'un signal de parole permet de distinguer des zones spectralement homogènes (figure. II.1). Ce fait révèle, à un certain degré, la nature segmentale de la parole. Le paradoxe entre la perception des segments de parole et la variabilité acoustique de cette dernière démontre que la segmentation est un problème fondamentalement complexe. Même si les frontières entre certains phones semblent relativement claires, il n'y a pas de transitions franches entre beaucoup de phones. [24] Figure II. 1: Forme d'onde et spectrogramme d'un énoncé du mot ""رقم. 1.1.3 Segmentation en syllabe La syllabe est considérée comme unité structurante de la langue. Généralement, la structure d‟une syllabe se décompose souvent en 3 parties : l‟attaque (une ou plusieurs consonnes -facultatif), le noyau (une voyelle ou une diphtongue - obligatoire) et la coda (une ou plusieurs consonnes - facultatif). A cause de la caractéristique facultative des consonnes sur l‟attaque et sur la coda, il y a parfois des ambiguïtés de segmentation d‟une phrase en syllabes. [15] V. Berment, dans le cadre de sa thèse [Berment 2004], a construit un outil nommé « Sylla » permettant de mettre au point rapidement des « modèles syllabiques » pour une langue peu dotée. Il a appliqué cet outil pour construire des modèles grammaticaux des syllabes des langues d‟Asie du Sud-est : laotien, birman, thaï et khmer. L‟outil et la méthode de construction d‟un modèle syllabique permet de créer rapidement un « reconnaisseursyllabique 17 Chapitre II Segmentation et Extraction de caractéristique de SP » : pour une chaîne de caractères en entrée, le reconnaisseur teste si la chaîne peut constituer une syllabe dans la langue considérée. [15] Pour la segmentation en syllabes, un segmenteur syllabique sera construit en employant un algorithme de programmation dynamique, à l‟aide d‟un modèle syllabique, qui segmente une phrase de texte en optimisant le critère de « plus longue chaîne d‟abord » (LongestMatching), ou le critère de « plus petit nombre de syllabes » (Maximal Matching). [15] 1.1.4 Segmentation en mots La segmentation d'un message parlé en ses constituants élémentaires est un sujet difficile. Pour l'éviter, de nombreux projets de la RAP se sont intéressés à la reconnaissance de mots prononcés isolement. La reconnaissance des mots isolés ou tous les mots prononcés sont supposés être séparés par des silences de durée supérieure à quelques dixièmes de secondes, se fait essentiellement par l'approche globale. [22] 1.1.5 Segmentation en locuteurs et tour de parole La segmentation selon le locuteur est née relativement récemment pour répondre au besoin créé par le nombre toujours croissant de documents multimédia devant être archivés et accédés. Les tours de parole et l‟identité des locuteurs constituent une intéressante clé d‟accès à ces documents. Le but de la segmentation selon le locuteur est donc de segmenter en tours de parole (un tour de parole est un segment contenant une intervention d‟un locuteur) un document audio contenant N locuteurs et d‟associer chaque tour de parole au locuteur l‟ayant prononcé. En général, aucune information apriori n‟est disponible, sur le nombre de locuteurs ou leurs identités.[4] La segmentation en macro classes acoustiques est nécessaire pour supprimer les parties du document ne contenant pas de parole (comme la musique, les silences…) ou pour réaliser des traitements spécifiques à des conditions acoustiques données (genre des locuteurs, parole téléphonique, parole au-dessus de la musique…). Le processus de segmentation acoustique proposé en trois niveaux:parole/non parole, parole propre/parole avec musique/parole téléphonique et homme/femme. La classification est réalisée suivant un procédé hiérarchique en trois étapes [4]: Le premier niveau de segmentation correspond à une séparation “parole/non parole”. Le procédé est basé sur une modélisation statistique des deux classes. Il consiste en une discrimination trame à trame suivie d‟un ensemble de règles morphologiques. Ces dernières permettent de définir des contraintes sur les segments, comme leur durée minimale; La deuxième étape de segmentation consiste à répartir les zones étiquetées “parole” en trois classes : “parole propre”, “parole et musique” et “parole téléphonique”. Cette étape repose sur un décodage de type Viterbi associé à un HMM ergodique; La dernière étape est dédiée à la séparation “homme/femme”. Un procédé de même type que pour l‟étape précédente est employée, avec des états dépendant de la classe acoustique et du genre (une classe “parole dégradée” est ajoutée, pour augmenter la robustesse du procédé). 18 Chapitre II 2. Segmentation et Extraction de caractéristique de SP Extraction descaractéristiques Cette phase est consisté à extraire le vecteur de caractéristique de chaque segment obtenu par la phase précèdent « Segmentation » à partir des méthodes d‟analyse pour utiliser dans la phase suivante « Classification ». 2.1 Fenêtrage Le découpage du signal en trames résultant de l'étape précédente produit des discontinuités aux frontières des trames. Pour réduire ces problèmes, des fenêtres de pondération sont appliquées. Ce sont des fonctions que l'on applique à l'ensemble des échantillons prélevés dans la fenêtre du signal original de façon à diminuer les effets de bord. Parmi les fenêtres les plus utilisées on trouve.[5] Rectangulaire: ( ) { (II.1) Bartlett: ( ) { (II.2) Hanning: ( ) { Hamming: ( ) { Blackman: ( ) { ( ) ( ( ) (II.3) ) (II.4) ( ) (II.5) Où N représente la longueur de la fenêtre, et n un échantillon du signal. 19 Chapitre II Segmentation et Extraction de caractéristique de SP Figure II. 2: Exemples de fenêtres de pondération.[13] 2.2 Approches et techniques d'extraction de caractéristique Dans ces parties nous allons détail les approches d'extraction de caractéristique et pour chaque approche il existe plusieurs techniques. Extraction de caractéristique Approchetemporelle PPZ LPC Approchespectrale TDF/FFT TBF Approchecepstrales MFCC LPCC PLP Figure II. 3: Schéma présentant les différentes méthodes d'extraction de caractéristique. 2.2.1 Approche temporelle Cette approche étudier le signale de parole de manier à observer la forme temporelle du signale. On peut déduire un certain nombre de caractéristiques à partir de cette forme temporelle qui pourront être utilisées pour le traitement de la parole. Il est, par exemple, assez claire de distinguer les partie voisées, dans lesquelles on peut observer une forme d‟onde quasi-périodique, des parties non voisées dans lesquelles un signal aléatoire de faible amplitude est observé. [12] Le signal de parole est un signal quasi-stationnaire. Cependant, sur un horizon de temps supérieur, il est clair que les caractéristiques du signal évoluent significativement en fonction des sons prononcés comme illustré sur la figure ci-dessous. [12] 20 Chapitre II Segmentation et Extraction de caractéristique de SP Figure II. 4: Représentation temporelle(Audiogramme) de signaux de parole. Les méthodes de type temporel sont basées sur l‟analyse des caractéristiques temporelles du signal vocal telles que : l‟énergie, le taux de passage par zéro, le calcul de la fréquence fondamental etc. Différentes techniques permettent l‟analyse de l‟aspect temporel du signal vocal afin de permettre de déduire ses paramètres, parmi ces méthodes nous trouvons [7] : Le taux de passage par zéro (PPZ), L‟analyse par prédiction linéaire (LPC). A. Le taux de passage par zéro Cette méthode permet en comptant les passages par zéro du signal, de construire des histogrammes d'intervalles de fréquence. On ne s‟intéresse pas dans cette méthode à l‟amplitude du signal mais à son signe. Les résultats sont assez grossiers car la variance des passages par zéro est forte surtout dans les transitoires. Pour un signal échantillonné, il y a passage par zéro lorsque deux échantillons successifs sont de signes opposés «c pas obligatoire». Le calcul du taux de passage par zéro du signal de la parole permet de faire la distinction d‟une part entre le signal de la parole (information utile) et le bruit, et d‟autre part entre les sons voisés et les sons non voisé. Grâce au taux de ppz d‟un signal, on peut faire ressortir trois plages de valeurs qui permettent de distinguer la nature des sons soit [12]: Plage de silence: taux de ppz très faible (entre 0 et 3), Plage de voisement: taux de ppz moyen (entre 4 et 27), Plage de dévoisement : taux de ppz élevé (> 27). Une caractéristique pour le taux de passage par zéro, est qu'il est élevé pour le son non voisé et faible pour le son voisé. Le taux de passage par zéro constitue un outil important pour la classification voisé/non voisé, et pour la détection du début et la fin de la parole dans un signal vocal. [13] 21 Chapitre II Segmentation et Extraction de caractéristique de SP B. L’analyse par prédiction linéaire (LPC) Cette méthode a pour objectif une représentation directe du signal vocal sous la forme d'un nombre limité de paramètres. Sa puissance provient du fait qu'elle est fondée sur un modèle simple de production de la parole qui s'approche du système phonatoire.[13] Le principe de cette méthode est fondé sur l'hypothèse selon laquelle un échantillon du signal de parole x(nTs), où Tsest la période d'échantillonnage, peut être prédit approximativement par une somme pondérée linéairement de péchantillons le précédant immédiatement, p est appelé 1' ordre de prédiction.[13] Les expériences ont montré que les performances des systèmes de reconnaissance basées sur la méthode LPC sont meilleures à celle des systèmes basés sur le banc de filtres. Ces phases ont pour rôle de convertir le signal vocal en coefficients. Il existe 5 phases d‟extraction de caractéristiques du signal vocal par la méthode LPC : « Le filtrage, l‟échantillonnage, le fenêtrage, l‟auto corrélation, et le calcul des coefficients » schématiser dans la FigureII.5. Parole brute LeFiltrage α Parole Filtrée Echantillonnage L N Frame Le Fenêtrage Frame Fenêtrée Auto corrélation P Le paramètre R LPC M Figure II. 5: L‟extraction des paramètres vocaux par LPC. 2.2.2 Approche fréquentielles ou spectrales La deuxième approche pour caractériser et représenter le signal de parole est d‟utiliser une représentation spectrale. [12] 22 Chapitre II Segmentation et Extraction de caractéristique de SP Ces méthodes sont fondées sur une décomposition fréquentielle du signal sans connaissance a priori de sa structure fine. Il s‟agit donc de transformer le signal original de la représentation temporelle à une représentation fréquentielle par la transformé deFourierreprésente sous la formule (II.1). [7] ( ) ∫ ( ) (II.6) Ou j2 = -1 et f(t) est la fonction temporelle. A. La Transformé Discrète de Fourier TDF La Transformé Discrète de Fourier TDF est une méthode d‟analyse qui n‟opère que sur un nombre d‟échantillons qui dépasse une centaine de points d‟échantillonnage. Elle utilise le fenêtrage temporel avec recouvrement donc le temps de calcul reste considérable. Principe : Cette méthode est fondée sur le théorème de Fourier qui stipule que tout signal périodique peut être décomposé en une somme de sinusoïdes harmoniques. La transformée de Fourier conduit donc à transformer un signal complexe en une combinaison de fonctions élémentaires de formes simples et bien connues. [7] B. Transformée de Fourrier Rapide TFR La Transformée de Fourier Rapide (notée par la suite FFT) est simplement une TFD calculée selon un algorithme permettant de réduire le nombre d‟opérations et, en particulier, le nombre de multiplications à effectuer. Il faut noter cependant, que la réduction du nombre d‟opérations arithmétiques à effectuer, n‟est pas synonyme de réduction du temps d‟exécution. Tout dépend de l‟architecture du processeur qui exécute le traitement.[16] C. Traitement par bancs de filtres Cette technique d‟analyse spectrale est basée sur la représentation du signal par sa transformée de Fourier pendant un intervalle de temps suffisamment court. Le signal subit ainsi une décomposition fréquentielle permettant d‟isoler les informations utiles. Le principe de cette technique est d‟injecter le signal s(t) dans un banc de filtres passe bande couvrant une étendue spectrale intéressante de la voix (de 200 à 600 Hz en général). Les N filtres réalisant cette analyse doivent tous avoir un même gain unité et de fréquences centrales différentes. Les bancs de filtres se différencient entre eux par le nombre de filtres N qui varie en pratique entre 12 et 32 filtres, la distribution de la fréquence centrale et la caractéristique du filtre basse-bas à la sortie du redresseur. L‟analyse par bancs de filtres présente l‟avantage d‟une grande performance avec un prix de revient assez faible, son inconvénient étant un manque de souplesse car la modification des caractéristiques d‟un filtre nécessite le changement de la configuration matérielle de ce filtre. [7] 23 Chapitre II Segmentation et Extraction de caractéristique de SP 2.2.3 Approche cepstrales Contrairement au spectrogramme qui ne fait appel à aucune connaissance a priori sur le signal acoustique, l‟analyse cepstrale résulte de travaux sur le modèle de production de la parole : son but est d'effectuer la déconvolution « source / conduit » par une transformation homomorphique. Les coefficients cepstraux sont obtenus en appliquant une transformée de Fourier numérique inverse au logarithme du spectre d'amplitude. Le signal ainsi obtenu est représenté dans un domaine appelé cepstral ou quéfrentiel ; les échantillons se situant en basses quéfrences correspondent à la contribution du conduit vocal et donnent les paramètres utilisés en RAP, tandis que la contribution de la source n'apparaît qu'en hautes quéfrences.[7] Fenêtre de Hamming FFT Figure II. 6: Analyse cepstrale sur une fenêtre temporelle. Une première transformée de Fourier (FFT) est alors calculée pour obtenir un spectre du signal. Ces coefficients sont ensuite transformés par logarithme module (Log(| |). La convolution étant un opérateur multiplicatif, ce passage par les logarithmes permet de passer les coefficients dans un espace additif. Une transformée de Fourier inverse (IFFT) permet alors d‟obtenir un cepstre dont un coefficient représente le fondamental, les autres coefficients permettant d‟obtenir le spectre de la convolution effectuée sur le fondamental. Cette méthode de calcul des cepstres est élémentaire, il existe également des méthodes itératives effectuant un lissage, ce qui permet d‟obtenir des cepstres de meilleure qualité. Une extension possible des cepstres est leur passage dans un espace fréquentiel non linéaire proche de l‟audition humaine. Il est ainsi possible de modifier la procédure de calcul précédente pour que les coefficients obtenus soient répartis selon une échelle Mel. [16] Échelles des hauteurs L'échelle des Mels Après 500Hz, l'oreille perçoit moins d'une octave pour un doublement de la fréquence. Des expériences psycho acoustiques ont alors permis d'établir la loi qui relie la fréquence et la hauteur perçue : l'échelle des Mels où le « Mel » est une unité représentative de la hauteur perçue d'un son [21] La relation entre la fréquence en échelle Hertz et sa correspondance en mels est la suivante :[5] ( 24 ) (II.7) Chapitre II Segmentation et Extraction de caractéristique de SP Où fHz est la fréquence, x = 2595 et y = 700. L'intérêt de l'échelle Mel est qu'elle est assez proche d'échelles issues d'études sur la perception sonore et sur les bandes passantes critiques de l'oreille, comme l'échelle Bark. [5] L'échelle de Bark Le système auditif se comporte comme un banc de filtres dont les bandes, appelées “bandes critiques”, se chevauchent et dont les fréquences centrales s'échelonnent continûment. Cette bande critique correspond à l'écartement en fréquence nécessaire pour que deux harmoniques soient discriminées dans un son complexe périodique.[21] A. Coefficients cepstraux (MFCC) Les coefficients cepstraux (MFCC) ont été très utilisés en RAP du fait des bons résultats qu‟ils ont permis d‟obtenir.Lorsque le spectre d'amplitude résulte d'une FFT sur le signal de parole pré-traité, lissé par une suite de filtres triangulaires répartis selon l'échelle Mel, les coefficients sont appelés Mel FrequencyCepstral Coefficients (MFCC). L‟échelle non linéaire de Mel est donnée par la formule suivante [16]: ( ) ( )(II.8) Afin de réduire l'information, une suite de filtres (triangulaires, rectangulaires...) est appliquée dans le domaine spectral selon l'échelle précédemment décrite. Les coefficients obtenus sont alors synonymes d'énergie dans des bandes de fréquence. La figure II.9 donne un exemple de répartition d'une suite de filtres selon l'échelle Mel, couramment utilisée. [7] Signal Fenetre de Hamming Préaccentuation Filtres Mel FFT MFCC Figure II. 7: Calcul des coefficients cepstraux MFCC. B. LinearPredictionCepstral Coefficients (LPCC) Lorsque le spectre correspond à une analyse LPC, les coefficients se déduisent des coefficients LPC par développement de Taylor, d'où leur nom de LinearPredictionCepstral Coefficients (LPCC). [7] Signal Préaccentuation Matriced‟autocorr élation Calcul LPC Développement de Taylor Figure II. 8: Calcul des coefficients cepstraux LPCC. 25 LPCC Chapitre II Segmentation et Extraction de caractéristique de SP C. Coefficients PLP La méthode PLPPerceptualLinearPrediction (ou PerceptuallybasedLinearPrediction), est une méthode inspirée du principe de prédiction linéaire. Elle combine ce principe à une représentation du signal qui suit l‟échelle humaine de l‟audition. Elle est à l‟origine de toute une famille de techniques de traitement du signal de parole. [16] Les PLP sont basés sur le spectre à court terme du signal de parole, comme les coefficients LPC. Cela signifie que le signale est analysé sur une fenétre glissante de courte durée, En générale, on utilise une fenétre de longueur10 à 30 ms.que l‟on décale de 10 ms pour chaque trame.[16] 3. Conclusion Dans ce chapitre nous avons cité les méthodes de segmentation et les technique d'extraction de caractéristique de signal de parole tel que le résultat de ces techniques utilise par les méthodes de la phase suivante. Pour cela nous allons expliquer les méthodes de classification et détailler le classificateur qui nous allons choisir dans le chapitre suivant. 26 Chapitre III: Classification de signal de parole Chapitre III Classification de signal de parole Introduction La phase de classification de signal de parole permet de faire les deux tâches principales (apprentissage et décision) dans les systèmes de reconnaissance automatique par le résultat de la phase de segmentation et extraction de caractéristique. Dans ce chapitre on présente les catégories de classification de signal de parole et les méthodes de chaque catégorie on forme générale. En plus, la description de la méthode de classification qui utilisé dans notre système. 1. Distances dans l'espaceacoustique La reconnaissance de la parole est effectuée normalement au niveau acoustique. Lespectre du mot à reconnaître est comparé à ceux d'un ensemble de mots appelés mots deréférence. Il est pertinent de se demander comment mesurer le degré de similarité entreune occurrence et une autre lors d'un processus de décision. En d'autres termes il fautétablir une distance ou une mesure de dissemblance entre ces deux occurrences.Cependant il faut s'assurer de réduire au minimum la sensibilité de cette distance auxfluctuations des débits d'élocution.[13] 1.1 Mesure de distorsion Considérons un ensemble quelconque E de points. Nous dirons que E est un espacemétrique réel s'il existe une fonction appelée distance, notée : D: E * E R Vérifiant les quatre propriétés suivantes : ) séparabilité: ( ( ) , ( ) réflexivité: , ) ( ) ( ) symétrie: ( ) ( ) ( ) ( ) inégalité triangulaire: ( En parole ces conditions ne sont pas toutes satisfaites (c'est le cas par exemple de la symétrie), on parle plutôt de la mesure de dissemblance ou de mesure de distorsion. Les distances utilisées pour comparer deux occurrences sont étroitement liées aux types de paramètres utilisés. Une définition particulière de la distance entre deux spectres doit être [13]: significative sur le plan acoustique. formalisable d'une façon efficiente sur le plan mathématique. définie dans un espace de paramètres judicieusement choisi. 1.2 Distance Euclidienne Pour l'analyse spectrale ou cepstrale, le choix se porte généralement sur les distances associées à la norme dite de Holder, pour des vecteurs à Kcomposantes, cette norme est: 28 Chapitre III Classification de signal de parole ( ) ∑ (III.1) Où a est un vecteur de paramètres du mot de référence, et b un vecteur de paramètres du mot à reconnaître. Pour p=2, cette distance est connue sous le nom de la distance euclidienne, qu'on peut utiliser dans le domaine spectral ou cepstral. 1.3 Distance d'ltakura La distance d'Itakura est utilisée pour comparer deux vecteurs a et b de (p+ 1)coefficients de prédiction linéaire chacun, pétant l'ordre de la prédiction. Cette distanceest définie par [13]: (III.2) [ ] Où aest le vecteur de référence et R est la matrice (p + 1) x (p + 1) des coefficients d'autocorrélation évalués sur le segment de signal correspondant à b, et aTest le vecteur colonne transposé de a. Pour le numérateur il s'agit de l'énergie résiduelle on peut 1' évaluer par [13]: ( ) ( ) ∑ ( ) ( ) (III.3) Où les r(k) sont les coefficients d'autocorrélation sur le segment du signal correspondant à b, et ra (k) sont les coefficients d'autocorrélation correspondant au vecteur a. Une autre variante de la distance d'Itakura est la distance appelée rapport de vraisemblance (Likelihood Ratio) dont la forme est : (III.4) 1.4 Distance cepstrale Soit deux vecteurs C1 et Crqui contiennent respectivement les coefficients cepstrauxd'un segment du mot de référence et d'un segment du mot à reconnaître. La distancecepstrale, d CEPest la distance euclidienne entre ces deux vecteurs, elle est définie par : ( ) ∑ ( ) ( ) ( ) (III.5) En pratique, on ne prend pas en considération le premier terme de la distance. La distance cepstrale est généralement tronquée, elle est évaluée le long d'un nombre fini de coefficients typiquement 10 à 30. Cependant ce nombre ne doit pas être inférieur à l'ordre de prédiction p si les spectres sont issus d'un modèle tout pôle d'ordre p.[13] La distance cepstrale sera : ∑ ( ) ( ) (III.6) Avec L est le nombre de coefficients le long desquelles la distance est calculée. 29 Chapitre III Classification de signal de parole 1.5 Distance de Mahalanobis La distance de Mahalanobis est l‟une des mesures capables de discriminer ou de séparer entre les classes [Mcl92]. C‟est une méthode globale linéaire pondérée par le volume de la classe en prenant en compte l‟ensemble des échantillons d‟une classe. Soit l‟ensemble des échantillons de l‟ensemble d‟apprentissage X n appartenant à la classe i. ∑ Soient ( ) l‟espérance et la matrice de variance-covariance del‟ensemble des échantillons de cette classe.La distance de MahalanobisDi utilisée dans notre cas est la distance entre l‟ensembled‟apprentissage pour la classe i et un élément x dont on désire déterminer la classe.[17] ( ) ∑ ( )(III.7) D est appelée distance de Mahalanobis de x à La classe d‟affectation de x sera celle qui produira la distance minimale : ̂ 2. ( )(III.8) Catégories de classification de signal de parole Les méthodes de classification qui ont contribué à la création des SRAP regroupées parmi les catégories suivantes [16]: classification statistique ; classification stochastique ; classificationneuronale. 2.1 Classification statistique Les méthodes de classification statistiques consistent à faire correspondre des vecteurs de caractéristiques de longueur fixe à un espace partitionné. Dans ces méthodes, la classification peut être aussi simple qu‟un classifieur à distance qui compare les caractéristiques de la forme à reconnaître avec la valeur moyenne des caractéristiques de chaque classe, puis, attribut la forme à la classe ayant les valeurs de caractéristiques les plus proches. Parmi les nombreuses théories et méthodes, on peut citer à titre d‟exemples [16]: décisionBayésienne ; la méthode des k-plus proches voisins (k-ppv). Machines à Vecteurs de Support (SVM) 2.1.1 Décision Bayésienne Soit un problème caractérisé par un ensemble de N observations, x = {x1, x2, …,xN} réparties en M classes (C1, C2, …,CM) avec leur probabilité a priori P(Ci), probabilité d‟avoir la classe Ci, calculée à partir des fréquences d‟occurrence des exemples de cette classe. Le rôle de la théorieBayésienne est de fournir une fonction de décision qui minimise le coût moyen d‟erreur par décision prise. Pour une probabilité d‟erreur minimum, il suffit de construire un système qui à chaque x associe la classe dont la densité en x est la plus forte ; 30 Chapitre III Classification de signal de parole elle nécessite donc la connaissance de la probabilité conditionnelle d‟appartenance à une classe Ci donnée, soit P(x/Ci). [19] 2.1.2Méthode des k-plus proches voisins (k-ppv) Cette méthode de décision est liée à la notion de "proximité" (ou ressemblance). L'idée de cette technique est simple. La forme acoustique à classer est comparée à d'autres déjà classées, et on lui affecte la classe la plus représentée parmi les k plus proches. Dans le cas particulier k=1, c'est la classe de la forme acoustique la plus proche de celle à classer qui lui est affectée. Cette notion de voisinage est quantifiée par une mesure de similarité. La mesure de similarité la plus utilisée est la distance euclidienne [19]. 2.1.3Machines à Vecteurs de Support (SVM) L'algorithme des machines à vecteurs de support a été développé dans les années 90 par Vapnik. Initialement il est développé comme un algorithme de classification binaire supervisée. Il s'avère particulièrement efficace de par le fait qu'il peut traiter des problèmes mettant en jeu de grands nombres de descripteurs, qu'il assure une solution unique (pas de problèmes de minimum local comme pour les réseaux de neurones) et il a fourni de bons résultats sur des problèmes réels. [2] 2.2 Classification stochastique L'approche stochastique utilise un modèle pour la comparaison, prenant en compte une plus grande variabilité de la forme. Cette dernière est considérée comme un signal continu observable dans le temps à différents endroits constituant des "état d'observations". Le modèle stochastique décrit ces états à l'aide de probabilités de transitions d'état à état et de probabilités d'observation par état. La comparaison consiste à chercher dans ce graphe le chemin le plus probable correspondant à une suite d'éléments observés dans la chaîne d'entrée. Ces méthodes sont robustes et fiables du fait de l'existence de bon algorithme d'apprentissage. La reconnaissance est très rapide car les modèles comprennent généralement peu d'états et le calcul est relativement faible. Parmi les nombreuses théories et méthodes, on peut citer à titre d‟exemples [16]: Model de Markov cachés Un modèle de Markov caché (HMM) est un modèle statistique contenant des variables cachées. Il s‟agit d‟un automate à états finis qui permet de modéliser les aspects stochastiques du signal de parole. Ce modèle est constitué d‟un ensemble d‟états liés entre eux par un certain nombre de transitions permises. Dans ce cas, chaque fois qu‟une observation est émise, le système procède au passage d‟un état à l‟autre ou au bouclage dans le même état selon les transitions permises. De manière générale, les HMM utilisés en RAP sont d‟ordre 1 compte-tenu de l‟aspect séquentiel du signal de parole. Cet ordre 1 signifie que la possibilité de se trouver dans un état donné d‟un HMM à un instant (t+1) ne dépend que de l‟état dans 31 Chapitre III Classification de signal de parole lequel le système se trouvait à l‟instant t. D‟autres possibilités de modélisation, comme les HMMs d‟ordre 2, existent mais rendent les systèmes de RAP plus complexes. Pour chaque HMM, un état de début et un état de fin sont ajoutés à ces états d‟observation pour assurer la transition lors de l‟enchaînement des HMMs les uns à la suite des autres durant le processus de reconnaissance. De surcroît, un HMM contient pour chacun de ses états une probabilité d‟émission. Cette probabilité est souventreprésentée par une distribution statistique qui retourne un taux de vraisemblance pour chaque vecteur observe. [18] 2.3 Classification neuronale Les réseaux de neurones possèdent des propriétés propres à leur style de raisonnement ce qui les rendent très attrayant dans plusieurs domaines. Un des domaines d‟application les plus répandus des réseaux de neurones est la reconnaissance des formes. Les méthodes neuronales présentent les avantages suivants [16]: Puissance d‟approximation ; Robustesse pour des tâches difficiles ; Parallélisme dans le traitement des données. Cependant, les réseaux de neurones ont des problèmes et des limites propres à eux. En plus de temps d‟apprentissage qui est lent, l‟inconvénient majeur des méthodes neuronales réside dans la détermination de la topologie du réseau de neurones à utiliser. En effet, la structuration du réseau (nombre de couches cachées, nombre de neurones dans chaque couche cachée, la stratégie de connectivité : locale ou globale, …etc) se fait avant le processus d‟apprentissage, d‟une manière aléatoire ou en utilisant des heuristiques. [16] 3. Méthode de classification FLC La méthode FastLogic Classifier (FLC) permet de simuler au maximum les décisions prise par l‟être humain : décision certaine (je suis sur de ma décision ou l‟objet en question est A) et décision incertaine (je pense que c‟est A). [9] 3.1Points forts de FLC Le classificateur FLC est riche par des traits qui facilitent la classification de vecteurs de signaux, en plus aide à donner des résultats acceptable. Parmices traits est [9]: Le classificateur utilise seulement les connecteurs (opérateurs) logique ET/OU. Le classificateur doit contenir un mécanisme de décision pour basculer entre les deux phases : Apprentissage et Test. Le classificateur doit être capable d‟utiliser un Vecteur de Description d‟Objets (OVD : Object VectorDescriptor) qui peut : être de la même taille du vecteur du modèle (OVD=MVD : Model VectorDescriptor). être de taille supérieur du vecteur du modèle (OVD>MVD : Model VectorDescriptor). Il faut étendre la base des modèles (MDB : Models Data Base). être de taille inférieur du vecteur du modèle (OVD<MVD : Model VectorDescriptor). Il faut demander une description plus détaillée si nécessaire. 32 Chapitre III Classification de signal de parole être construit des éléments en deux parties : Indexe de la caractéristique (CI : Characteristic Index), et valeur de la caractéristique (CV : Characteristic Value). être avec des valeurs de caractéristiques définit par énumération ou par intervalle. Le classificateur doit contenir une couche d‟accélération (Compression, hiérarchie). Le classificateur doit être capable de faire des décisions certaines (exactes) et des décisions incertaines (approchés). 3.2Structure de classificateur FLC Principalement, le classificateur contient sept couches, qui présentent dans la figure suivant : Instructeur Personne Unité IA interne Unité IA externe Raisonnement X Y X Y Gestionnaire de Classification Gestionnaired’Appre ntissage Vote Accélération Apprentissage Base des Modèles Classification Figure III. 1: Schéma de structure de classificateur FLC. 3.2.1 Couche instructeur Est une couche supplémentaire mais très importante qui se compose de trois candidats possible [9] : Personne : présente le cas où l‟instructeur est un être humain. Unité IA Interne : présente le cas où l‟instructeur est un programme (agent) interne par rapport à la machine contenant le classificateur. Unité IA Externe : présente le cas où l‟instructeur est un programme (agent) externe par rapport à la machine contenant le classificateur. 3.2.2 Couche raisonnement Elle contient l‟ensemble des règles de gestion de classification. 33 Chapitre III Classification de signal de parole 3.2.3 Couche apprentissage Elle consiste de faire la gestion de la phase d‟apprentissage, c‟est la phase dans laquelle le système initialise et fait la mise à jour de la base des modèles. [9] A. Création de la base des modèles Pour l‟initialisation de la base des modèles le système prend en entrée les vecteurs de description et les étiquettes des classes à apprendre, et les sauvegarde dans la base des modèles. [9] Durant ça, l‟instructeur peut donner des vecteurs de description d‟une classe séparés. Le système convertit à l‟aide de la couche accélération ces vecteurs en mode de représentation par énumération ou en mode de représentation par intervalle pour compresser la définition de la classe. En plus, parfois l‟instructeur peut donner deux ou plusieurs vecteurs de la même valeur. Dans ce cas, le système sauvegarde une seul copie. [9] B. Mise à jour de la base des modèles La mise à jour de la base des modèles est nécessaire pour des nouveaux exemples. Par exemple, dans le cas où le système fait une décision incertaine ou approchée, ou dans le cas où le système demande d‟apprendre de nouvelles caractéristiques. [9] 3.2.4Couche Classification Elle permet de faire la gestion de phase de test, qui est composée les trois couches suivantes : Gestionnaire de Classification; Vote; Calcule. A. Gestionnaire de classification Cette couche permet de faire la gestion de la classification et la communication avec l‟instructeur par la couche de raisonnement pour réapprendre ou confirmer une décision et la figure suivante présente les détails de ces gestions 34 Chapitre III Classification de signal de parole Instructeur Personne Unité IA interne Unité IA externe Raisonnement X Y Y' Classification Gestionnaire de Classification MVS Base des Modèles 1 Oui 7 4 2 Oui Oui XS=NE Confirmation positive Oui 3 i Non 5 Oui 6 i No n Existe un instructeur ? Non XS>MVS Non XS<MVS 1 Apprendre des nouvelles indexes et valeurs des caractéristiques. M-à-j de la base. 2 Demande d’enrichissement de la description du vecteur descripteur (plus de caractéristiques). Non i 3 Demande de confirmation de classification. 4 Confirmation de classification. 5 Confirmation positive de classification. Mise à jour de la base des modèles. 6 Confirmation négative de classification. Mise à jour de la base des modèles. 7 Correction du résultat de classification. Mise à jour de la base des modèles. Décisionincerta ine = CE Décisioncertain e = CE Vote CE= trouver la classe élue Préparer la matrice de vote XS: Taille du Vecteur donnée X. MVS: Taille du vecteur modèle. NE= trouver le nombre d’élection CE : Classe élue. NE: nombre d'élection. Calcule Calcule des votes Calcule de la distance entre X et MV Figure III. 2: Classificateur FLC. 35 MV: vecteurmodèle. Chapitre III Classification de signal de parole B. Vote Cette couche consiste à préparer la matrice de vote en calculant la distance entre les deux vecteurs X et MV. En plus, elle permet de trouver la classes élue et le nombre d‟élections pour chacune des classes par l‟intermédiaire de la couche de calcule des votes. [9] C. Calcule Cette couche consiste à faire les calculs nécessaires pour les couches supérieurs : calcule de la distance entre les vecteurs et calcule des votes. [9] 4. Conclusion Dans le but de faciliter la compréhension et la classification dans l'implémentation de notre system nous avons présenté les méthodes de classification de signal de parole qui utilisé dans les systèmes de reconnaissance automatique de parole, ainsi la description du classificateur logique (FLC) qui utilise dans notre système, dont le chapitre suivant contient le résultat d'exécution de cette méthode. 36 Chapitre IV: Conception & Mise en œuvre Conception & Mise en œuvre Chapitre IV Introduction Dans les chapitres précédent nous avons présentés les déférentes étapes de système pour traitement, reconnaissance et compréhension du son, et ensuit une explication détaillée de certaines des techniques utilisées dans les étapes les plus importantes de la reconnaissance de la voie (segmentation, extraction de caractéristique et classification). Dans ce chapitre nous allons proposer une conception par affinement successif du système en donnant son architecture générale, puis nous détaillons en étudiant séparément chacun de ses composants, surtout la phase d‟extraction des caractéristiques ou nous allons présenter l‟architecture du descripteur structurel vocal proposé. Ensuite, nous présentons les résultatsobtenus. 1. Mise en œuvre du système Ce travail vise à développer une application de saisie des notes d‟étudiants qui apprend d‟un ensemble d‟enregistrement du son des différents caractères arabe et par la suite elle permet de reconnaître de nouveaux exemples (nouvelles enregistrements des mots) des mots et les classifier. Pour ce faire, on utilise un ensemble de commandes vocales où chaque commande passe par une succession d‟opérations : acquisition, segmentation et extraction des vecteurs acoustiques, apprentissage et classification, et finalement modifier le fichier excel contenant la liste des étudiants. « Figure IV.1 » 38 Conception & Mise en œuvre Chapitre IV Acquisition Segmentation Extraction des caractéristiques Classification Post-traitement Figure IV. 1: Illustration des modules du système. 1.1 Acquisition L‟acquisition est la première étape du processus de reconnaissance vocale. Ce module consiste tout simplement à acquérir le signal de parole (information) à un micro-ordinateur afin d‟exécuter une tâche précise. Dans notre système nous allons utiliser le microphone comme outil d‟acquisition à l‟extérieur du PC ainsi que la carte son comme périphérique interne. Le signal acquit est échantillonné, quantifié et codé à l‟aide de la carte son de l‟ordinateur. 1.2 Segmentation Cette phase est considérée comme cruciale dans le procédé de reconnaissance tel que une bonne segmentation du signale de parole donne une bonne description et classification et par conséquent un bon taux de reconnaissance. Parmi les méthodes de segmentation existant nous avons choisi la méthode de segmentation en mots isolés. Pour pouvoir faire cette tâche on passe par 02 étapes: Segmentation niveau 1 ; Segmentation niveau 2 ; 39 Conception & Mise en œuvre Chapitre IV 1.2.1 Segmentation niveau 1 Dans ce composant, nous allons faire une analyse temporelle du signal. Une inspection minutieuse de la structure temporelle (forme d'onde), en utilisant un seuil S pour diviser ou segmenter le signal en 02 classes: silence / parole. Le résultat de cette étape est une liste des segments des paroles et silences. La procédure suivante permet de réaliser ce niveau de segmentation. La figure IV.2 représente un exemple. public voidSegmenterParole(short[] audioBuffer) { booleanpS=true,pP=true; for(int i = 0 ; i<audioBuffer.length ; i++) { if(Math.abs(audioBuffer[i]) <= maxB) { if((t != 0)&&(pP)) { fp = i-1; fw.writeBytes(" dp= "+dp+" fp= "+fp+" t= Segmentparolepos= "+(i*hs)+"\n"); SegmentXYseg = new SegmentXY(dp,fp,SegmentXY.SPEECH); listeSegment.add(seg); t = 0;pP=false;pS=true; } if(s == 0)ds = i;s++; } else //audioBuffer[i] >maxB { if((s != 0)&&(pS)) { fs = i-1; fw.writeBytes(" ds= "+ds+" fs= "+fs+" t= SegmentSilencepos= "+(i*hs)+"\n"); SegmentXYseg = new SegmentXY(ds,fs,SegmentXY.SILENCE); listeSegment.add(seg); s = 0;pP=true; pS=false; }; if(t == 0)dp = i;t++ ; } } } 40 Conception & Mise en œuvre Chapitre IV _FileWriter () : est une classe qui permet de crée dans les fichiers texte. writeBytes(s : chaine de caractère) : fonction dans la classe _FileWriter () qui permet d‟écrire uneligne dans le fichier texte. Segmentation Niveau 1 S P S P S P S …. P S Figure IV. 2: Exemple de segmentation niveau 1. 1.2.2 Segmentation niveau 2 Dans cette étape, le système analyse la liste produite par l‟étape précédente en utilisant 02 critères: longueur minimal de parole et longueur minimal du silence. En fin du traitement on obtient une liste qui contient seulement le début et la fin de chaque segment de parole. Ces segments vont être utilisé par la suite pour le module d‟extraction des caractéristiques afin des connaitre la nature des segments et reconstruire les différents mots d‟une phase.La figure IV.3 illustre un exemple de segmentation niveau 2, elle est réalisée par le code suivant: public voidgetSpeechSegments() { int i=1; do { SegmentXY seg1 =(SegmentXY)listeSegment.get(i-1); SegmentXY seg2 =(SegmentXY)listeSegment.get(i); SegmentXY seg3 =(SegmentXY)listeSegment.get(i+1); if((seg1.type==SegmentXY.SPEECH)&&(seg2.type==SegmentXY.SILENC E)&&(seg3.type==SegmentXY.SPEECH)&&((seg2.y-seg2.x)<minS)) { 41 Conception & Mise en œuvre Chapitre IV seg1.y=seg3.y; listeSegment.remove(i); listeSegment.remove(i); } else i++; }while(i<(listeSegment.size()-1)); i=0; do { SegmentXYseg =(SegmentXY)listeSegment.get(i); if((seg.type==SegmentXY.SPEECH)&&((seg.y-seg.x)<minP)) { if(i==0) { SegmentXY seg2 =(SegmentXY)listeSegment.get(i+1); if(seg2.type==SegmentXY.SILENCE); { seg2.x=seg.x; listeSegment.remove(i) } } if((i>0)&&(i<listeSegment.size()-1)) { SegmentXY seg1 =(SegmentXY)listeSegment.get(i-1); SegmentXY seg2 =(SegmentXY)listeSegment.get(i+1); if((seg1.type==SegmentXY.SILENCE)&&(seg2.type== SegmentXY.SILENCE)) { seg1.y=seg2.y; listeSegment.remove(i); listeSegment.remove(i); 42 Conception & Mise en œuvre Chapitre IV } } if(i==(listeSegment.size()-1)) { SegmentXY seg2 =(SegmentXY)listeSegment.get(i-1); if(seg2.type==SegmentXY.SILENCE) { seg2.y=seg.y; listeSegment.remove(i); } } } else i++; }while(i<(listeSegment.size())); i=0; intpassageZero =0; PassageParZero(listeSegment); do { SegmentXYseg=(SegmentXY)listeSegment.get(i); passageZero =PassageParZero(seg); if(seg.type==SegmentXY.SILENCE) {listeSegment.remove(i); } else if(passageZero<200) {listeSegment.remove(i);} else if((mean(seg)<100)||(mean(seg)>5000)) listeSegment.remove(i); else i++; 43 Conception & Mise en œuvre Chapitre IV }while(i<(listeSegment.size())); PrintSegParole(listeSegment); } PassageZero( liste ) : fonction qui donne le nombre de passage par zéro de chaque segment dans la liste. mean (Segment) : fonction qui donne le moyen des amplitudes d‟un segment de la liste. S P S P S P S …. Segmentation Niveau 2 Bruit P S Segment de parole Figure IV. 3: Exemple de segmentation niveau 2. 1.3 Extraction des caractéristiques L„extraction des caractéristiques consiste à utiliser une techniques d‟analyse (statistiques, hybride, structurelle,…etc.) pour obtenir les caractéristiques qui donnent une bonne description des segments de parole. Pour ce faire, Il existe une diversité de méthodes mais dans notre système nous avons proposé un nouvelle modèle de descripteur pour extraire les caractéristiques structurel d‟un signal vocal. 1.3.1 Normalisation de signal vocal Les segments obtenus dans la phase précédente « segmentation » sont caractérisé par la variabilité dans la longueur et l‟amplitude. Pour cela nous avons proposé la méthode de normalisation qui minimise cette variabilité. Cette méthode utilise une taille fixe (H=3000, L=30000). La figure IV.4 montre un exemple de normalisation, elle est réalisée par le code suivant: 44 Conception & Mise en œuvre Chapitre IV publicshort[] normalize(SegmentXYs,intnv,intnh) { int start = (int)(s.x); int end = (int)(s.y); int size=end-start; short[] nb=new short[nh]; intmax_val=getMax(audioBuffer,start,end); doublehs=((nh+0.0)/size); int x=0; double pos=0.0; int v1,v2,cc=0; v1=(int)Math.floor((audioBuffer[start]*nv)/max_val); nb[x]=(short)v1; intmax_Value=v1; for(int i=start+1;i<end;i++) { v2=(int)Math.floor((audioBuffer[i]*nv)/max_val); if(Math.abs(v2)>max_Value)max_Value=Math.abs(v2); nb[x]=(short)v2; pos=pos+hs; x=((int)Math.floor(pos)); } audioBuffer=nb; sampleViewersv= new sampleViewer(sW,sH,BufferedImage.TYPE_INT_RGB); sv.createWaveForm(); sampleViewer.paint(sampleViewer.getGraphics()); scrollPane.repaint(); returnnb; } Où: getMax(audioBuffer: tableaux, startentire , end entier): fonction permettant d'obtenir la valeur max dans la table audioBuffer de l‟intervalle [Start , end]. 45 Conception & Mise en œuvre Chapitre IV رقـــــــــــــــم Normalisation Figure IV. 4: Exemple de normalisation de mot « »رقـــم. 1.3.2 Méthode proposée Notre proposition consiste à utiliser une méthode structurelle pour extraire les vecteurs caractéristiques des segments normalisés obtenus par l‟étape précédente « normalisation ».Cette étape génère des vecteurs caractéristiques de taille fixe égale à L/k. Pour obtenir une description structurelle le système divisela longueur du segment considéré surk(dans notre cas k=150), ce qui génère des parties égales, puis calcule le moyen de chaque partie. Finalement, nous allons obtenir un vecteur caractéristique de taille L/k=200. 46 Conception & Mise en œuvre Chapitre IV C1=Moy1 Méthodestructurelle Ck=Moyk C0=Moy0 Vecteur « » رقم C1 C2 C3 C4 … CK Figure IV. 5: Exemple d’extraction des caractéristiques pour le mot « »رقـــم. 1.4 Classification Cette phase consiste à utiliser une méthode de classification (dans notre cas FLC). Elle se divise en deux sous phases: Apprentissage et Test ou Décision. La première consiste à initialiser la base des modèles, autant que la deuxième consiste à assigner une classe pour chaque nouveau exemple donnée (vecteur caractéristique). 47 Conception & Mise en œuvre Chapitre IV Chained’initialisation C1 C2 C3 ... “Num” Cn VecteurCaractéristiques VC Classification (FLC) Apprentissage Prédiction VC≈VM ? Initialisation de la base des données Non Oui Comparaison avec les modèles existant VM BD des modèles Chaine de definition VMs “Num” Figure IV. 6: La phase de classification. 1.4. 1 Apprentissage Cette phase consiste à initialiser ou créer la base des modèles en sauvegardant les caractéristiques des différents caractères. 1.4.2 Décision / Classification Elle consiste à utiliser les caractéristiques extraites dans la phase précédente pour attribuer une classe en se basant sur les données de la base des modèles. Dans la réalité, cette phase se divise en deux parties : 48 Conception & Mise en œuvre Chapitre IV 1. Classification exacte ; et 2. Classification approchée. A. Classification exacte Dans ces cas, le système compare le vecteur donnée X avec un vecteur modèle MV et trouve que tous les caractéristiques de X coïncide avec les caractéristiques de MV. Selon ces informations le système considère que sa décision est certaine (exacte). Parce que, la taille de X est égale à la taille de MV (XS=MVS). Comme exemple, considérons les données suivantes des caractères ( نقطت،)رقم sauvegardées dans la base des modèles : Num C1 2 1 0.49813986 C2 2 1 -0.35544977 C3 2 1 -0.32273778 C4 2 1 -0.38370106 ... Num C1 2 1 0.33787295 C2 2 1 -0.15571517 C3 2 1 -0.46929294 C4 2 1 -0.33220175… NumC1 2 1 0.4486087 C2 2 1 -0.32384408 C3 2 1 -0.3370984 C4 2 1 -0.35393882… Note C1 2 1 0.52724016 C2 2 1 -0.11134369 C3 2 1 -0.22136661 C4 2 1 -0.28330418... Note C1 2 1 0.5521551 C2 2 1 0.14634295 C3 2 1 -0.18275556 C4 2 1 -0.22439806… Note C1 2 1 0.5521551 C2 2 1 0.14634295 C3 2 1 -0.18275556 C4 2 1 -0.22439806… Ensuite, le vecteur caractéristique X suivant : Num C1 2 1 0.49813986 C2 2 1 -0.35544977 C3 2 1 -0.32273778 C4 2 1 -0.38370106 Nous pouvons remarquer par une simple comparaison des données des vecteurs que les caractéristiques du vecteur X coïncident exactement avec les caractéristiques du troisième modèle du caractère Num. d(x,y)=|xi-yj| 2 1 0.49813986 Liste des candidats 2 1 -0.35544977 Num Num 2 1 -0.32273778 2 1 -0.38370106 Num Vecteur X Num Note Figure IV. 7: Exemple de classification exacte. B. Classification approchée Malheureusement, parfois à cause des états variés des locuteurs« le tempérament du locuteur, état émotif, état de fatigue… » oul‟outil capteur utilisé n‟est pas vraiment fiable, nous pouvons tomber dans le cas où les caractéristiques sont proches mais se diffèrent en valeur de celle de la base des modèles. 49 Conception & Mise en œuvre Chapitre IV Par exemple, prenons le vecteur X suivant : Note C1 2 1 0.5521551 C2 2 1 0.14634295 C3 2 1 -0.18275556 C4 2 1 -0.22439806 Pour ce vecteur, il n‟est pas possible de faire une classification exacte parce que les valeurs sont proches mais se diffèrent de celles des modèles du caractère Note. Pour cela, on essaye de réaliser un calcule distance à l‟aide d‟une fonction noyau. Dans notre travail, nous avons utilisé une distance de Manhattan : qui calcule la somme des valeurs absolues des différences entre les valeurs de deux caractéristiques: d(x,y)=|xi-yj|. 2 1 0.5521551 a)Liste des candidats 2 1 -0.18275556 2 1 -0.22439806 Vecteur X 2 1 0.14634295 2 1 -0.18275556 2 1 -0.22439806 Vecteur X Note 2 1 0.5521551 b)Liste des candidats 2 1 0.14634295 Note Note Note Note Figure IV. 8:a) Résultat par classification exacte, b) Résultat par classification approchée. Premièrement, le système utilise verticalement une fonction min pour choisir le candidat le plus proche à chacune des caractéristiques. Ensuite, il utilise horizontalement une fonction max pour choisir la classe élue 1.5 Post-traitement La chaine des étiquètes « ex : Num Cinq Note Un » obtenu par la phase II.4 est l‟entrée de la phase de post-traitement. Le résultat obtenu par cette phase représente une commande qui va engendrer une modification dans le fichier Excel cible. La table ci-dessous présente quelques exemples des chaines de définition des segments de parole: 50 Conception & Mise en œuvre Chapitre IV Table IV. 1: Exemple des chaines de définition des segmente de parole. Mots prononcer رقــــــــــــــــــم نقــــــــــــــطت واحــــــــــــــــــد اثنـــــــــــــــــــان ثالثــــــــــــــــــــت أربــــــــــــــــــعت خمســـــــــــــــــت ستـــــــــــــــــــــت سبعــــــــــــــــــــت ثمانيــــــــــــــــــــت تسعـــــــــــــــــــــت عـــــشــــــرة 2. Etiquette « chaines de définition » « Num » « Note » « Un » « Deux » « Trois » « Quatre » « Cinq» « Six » « Sept » « Huit » « Neuf » « Dix» Résultats et bilan Cette section présente le choix du langage de programmation, les différentes interfaces et fenêtres principales du système, les tests et résultats obtenus. 2.1 Choix du langage de programmation Dans ce travail, nous avons choisi comme environnement de programmation le langage JAVA qui possède une richesse et offre une grande simplicité de manipulation de son et d'images, soit en acquisition ou en génération des fichiers images. Ce langage possède des avantages très intéressants tel que : La portabilité des logiciels; La réutilisation de certaines classes déjà développées; La possibilité d„ajouter à l„environnement de base des composants fournis par l„environnement lui-même; La quasi-totalité de contrôle de Windows (boutons, boites de saisies, listes déroulantes, menus …etc.) qui sont représentés par classes. 2.2 Interfacesdu système Notre système est démarré par l‟interface suivante qui schématisé dans la figure ci-dessous. 51 Conception & Mise en œuvre Chapitre IV Figure IV. 9: L'interface de démarrage de notre système. La figure suivante présente l'interface principale de notre système qui comporte les boutons principaux de l'application. Figure IV. 10: Fenêtre principale de l‟application. 2.2.1 Utilisation de l’application Notre application permet de saisir les notes des étudiants vocalement pour faire cela: 52 Conception & Mise en œuvre Chapitre IV A. Premièrement, l‟utilisateur choisit un fichier excel cible dont lequel nous allons enregistrer les notes des étudiants, en cliquant sur le bouton ‘Choisir fichier’. B. Ensuite, il clique sur le bouton ‘Start’, dicte une commande de la forme décrit dans la section II.5, puis clique sur le bouton ‘Stop’ pour arrêter l‟enregistrement et ajouter la note dans le fichier; C. En plus, Il est possible d‟avoir des détails sur le signal de son donné en cliquant sur le bouton ‘Sound Analyser’. (Voir la figure IV.11) 3. le choit de fichier 1. Commencer l’enregistrement de son 1. Arrêter l’enregistrement de son 5.Analyer le signal de son Figure IV. 11: Illustration de l‟utilisation de l‟application. 2.2.2 Analyse du son (Sound Analyser) Cette interface peut être utilisée suivant deux modes: Apprentissage: comme phase initiale pour aider le système à apprendre les différentes classes ; Test: pour tester et calculer le taux de reconnaissance. A. Mode apprentissage Ce mode peut être vu comme phase initiale ou d'initialisation de la base de connaissancedu système, pour le faire on procède comme suit: 1.On enregistre le signal de son par les boutons ‘Start’ et ‘Stop’. 2.Le signal de son est segmenté en un ensemble de segments par le bouton ‘Segmenter’dont chaque segment est entre deux lignesbleues (figure IV.12). 53 Conception & Mise en œuvre Chapitre IV Segmenter le signal en mot Figure IV. 12: Illustration de segmentation de signal de son. 3. Saisir la chaine des étiquètes puis cliquer le bouton ‘learn’ pour extraire les caractéristiques de nouveaux exemples et sauvegarderle vecteur résultant dans la base de connaissances du système.(Figure IV.13) Bouton Apprentissage Le chaine d’étiquètes Figure IV. 13: Illustration d‟apprentissage de nouveaux exemples. 54 Conception & Mise en œuvre Chapitre IV B. Mode de test Ce mode permet de faire la reconnaissance de signal après la comparaison entre les vecteurs modèles de la base des modèles obtenus par la phase d‟apprentissage et le vecteur de signal donné, cette action est faite par le bouton ‘Test’. (Voir figure IV.14) رقــــــــــــــــم واحــــــــــــــــــــــــــد ستـــــــــــــــة نقطـــــــــــــــــــــة Bouton de reconnaissance Num 1 Note 6 Figure IV. 14: Illustration de test d‟un exemple donné. 3. Comparaison des résultats (LPC/MS) Pour évaluer la performance de notre méthode nous avons divisé les échantillons en des exemples d‟apprentissage et d‟autres pour le test « voir tableau IV.2 ». Les résultats sont calculés pour la méthode structurelle proposée ainsi que la méthode statistique LPC. Dans cette évaluation nous avons pris les critères de comparaisons suivantes : Taux de reconnaissance ; Temps d‟exécution ; Robustesse de la méthode. La table suivant représente les résultats obtenus dans cette comparaison et les exemples utilisés sont : « سبعت عشر, ستت, خمست, ثالثت, اثنان, واحد, نقطت,» رقم Ou : NEA : Nombre d‟Exemple utilise pour l‟Apprentissage ; 55 Conception & Mise en œuvre Chapitre IV NET : Nombre d‟Exemple utilise pour le Test ; TR : Taux de Reconnaissance, et TE : Temps d‟Exécution. Table IV. 2 : Illustration des résultats obtenus avec une comparaison de la méthode LPC. Nombre de Classe NEA NET 8 80 160 240 320 400 560 31 63 95 127 159 191 MS TR 93% 88% 95% 92% 93% 92% LPC TE 2 min 17s 7 min 6s 13 min 49s 22 min 39s 36 min 36s 54 min 1s TR 19,35 % 19,04% 17,89% 18,89% 23,89% 21,98% TE 4 min 28s 15 min 32s 34 min 7s 59 min 9s 1 h 32 min 4s 2h 36 min 48s 100 90 80 70 60 TR 50 MS 40 LPC 30 20 10 0 0 50 100 150 200 250 NET Figure IV. 15: Illustration de Taux de reconnaissance de MS et LPC. 180 160 140 120 TE 100 80 MS 60 LPC 40 20 0 0 50 100 150 200 250 NET Figure IV. 16: Illustration de temps d'exécution de MS et LPC. 56 Conception & Mise en œuvre Chapitre IV D‟après les résultats de la table IV.2 et les courbes des figures IV.15, IV.16 nous avons observé que la méthode structurel est mieux que LPC dans le taux de reconnaissance et le temps d‟exécution. 4. Conclusion Nous avons présenté dans ce chapitrel‟architecture globale du système, ainsi que les différents modulesen détails. En plus, nous avons décrit la méthode structurelle d‟extraction des caractéristiques. En fin, les résultats de classification sont calculés pour notre méthode et la méthode LPC afin de faire une comparaison entre les 02 méthodes. 57 Conclusion générale &perspectives Jusqu‟aujourd‟hui, La reconnaissance du son et la reconnaissance de la voie en particulier présente un défi très grand, malgré les efforts et les travaux intensifs réalisés dans ce domaine, aucun système RAP n„est jugé fiable à 100%, Mais ou fur et à mesure les autre essayent d„améliorer les scores pour de meilleurs résultats. Et elle joue un rôle très important dans le monde actuel. Elle est capable de résoudre des problèmes complexes et rendre les activités de l'homme plus simple. Dans ce travail ont été intéresser à présenter un modèle de descripteur structurel de la voie Arabe, En noyant d‟améliorer le taux de reconnaissance en empreint un chemin différent (méthode structurelle) que ceempreinte par les méthodes souvent utilisées comme LPC, MFCC,..etc (méthodes statistiques ou stochastiques). Comme application nous avons choisi une application de dicté pour saisir les notes des étudiants. De plus, une technique de segmentation à deux niveaux est utilisée pour segmenter le signale de parole en mots pour pouvoir avoir la possibilité d„extraire des caractéristiques structurelles de ces segmentes. Par la suit, le système utilise un modèle de descripteur vocale structurel à deux étages : le premier, consiste à normaliser la structure du signal (mot) selon 02 facteurs (amplitude et longueurs), le second, divise le segment normalisé en des parties égales et calcule le moyen de chaque partie afin de donner un vecteur caractéristique. Ensuite un classificateur FLC est utilisé pour classer les différentes signale de parole. Finalement, les résultats de classification avec la méthode proposée ont été comparé avec ceux de LPC selon 03 critères : taux de reconnaissance, temps d‟exécution et robustesse on stabilité de la méthode dans des différents environnements. Les résultats obtenus ont été acceptables, mais un taux de reconnaissance bien définit pour de tels systèmes des tests réels sont exigés. Plusieurs ambiguïtés ont été rencontrées durant notre étude, parmi lesquelles nous citons : De tels systèmes sont normalement destiné à être utiliser avec des machines qui possède un environnement d„acquisition conditionné. Les conditions d‟enregistrement ne répondent pas aux contraintes d‟application « bruit, position et sensibilité du microphone… » ; Les états variés des locuteurs « le tempérament du locuteur, état émotif, état de fatigue… ». Ces conditions onune influence sur les résultatsobtenus. L‟outil capteur utilisé n‟est pas vraiment fiable ; La diversité des notions liées au concept de la parole « la reconnaissance de mots prononcés, La dictée vocale, La différentiation entre locuteur masculin, féminin et enfant, la dépendance ou non dépendance du texte…. etc.. » ; 58 Comme perspective, il est nécessaire d‟améliorer de plus la méthode pour la rendre stable dans des environnements bruités. En plus, ses résultats doivent être comparés avec d‟autres méthodes comme PLP, MFCC…etc. 59 Bibliographie [1] BadraKhellat.K : «La Reconnaissance Automatique de la Maladie de Parkinson », Mémoire pour l‟obtention de diplôme Magister en Informatique, Université Des Sciences Et De La Technologie D'Oran, Année 2012. [2] Bahlmann.C, Haasdonk.B, Burkhardt.H: « On-line Handwriting Recognition with Support Vector Machines - A Kernel Approach », Publ. in Proc. of the 8th Int. Workshop on Frontiers in Handwriting Recognition (IWFHR), pp. 49–54, Germany, 2002. [3] Calliope : « La parole et son traitement automatique », Masson, 1989. [4] Daniel.M, Sylvain.M, Corinne.F, Laurent.B, Jean-François.B : « Segmentation selon le locuteur : les activités du Consortium ELISA dans le cadre de Nist RT03», Avignon Cedex 9-France, Année 2004. [5] Fawzi.B : « Commande vocale d‟un robot manipulateur », Mémoire pour l‟Obtention du Diplôme de Magister En Electronique, Université De Batnam, Année 2014. [6] François.L : « Segmentation non supervisée d‟un flux de parole en syllabes », Rapport de stage de master II recherche, 31 Juillet 2012. [7] Halima.A :« Un système neuro-expert pour la reconnaissance de la parole -Neural Expert System for Speech Recognition- », Mémoire pour l'obtention d‟un Doctorat d‟Etat en Informatique, 2005. [8] Ibrahim.M, Walid.I, Osama.M, Al-Zahraa.M: « Recognition of phonetic Arabic figures via wavelet based Mel Frequency Cepstrum using HMMs », HBRC Journal (2014) 10, 49–54. [9] Imane Ben.G :« Proposition d‟un modèle de classification de clssificateur logique ; application dans la reconnaissance du texte arabe imprimé », Mémoire pour l'obtention du Master II En Informatique,Juin 2014. [10] Julien.A :« Approche De La Reconnaissance Automatique De La Parole », Examen Probatoire en Informatique, Année 2003. [11] JulineLe.G : « Amélioration des Systèmes de reconnaissance de la parole des personnes âgées », Mémoire pour l'obtention du Master II Recherche, Laboratoire LIG, Équipe : GETALP BP 53, Année 2011/2012. 60 [12] Kamal.B : « Modèle de Markov Cachés : Application à la Reconnaissance Automatique de la Parole », Mémoire pour l‟obtention de diplôme Magister en électronique, Année 2014. [13] Khaled.Z :« Implémentation D'une Méthode De Reconnaissance De La Parole Sur Le Processeur De Traitement Numérique Du Signal Tms320c6711 », Mémoire Présenté À L'école De Technologie Supérieure Comme Exigence Partielle À L'obtention De La Maitrise En Génie Électrique, 10 Juin 2004. [14] Kunal.Sh, Nishant.S, Pradip K. Das, Shivashankar B. Nair: « A Speech Recognition Client-Server Model for Control of Multiple Robots », Année 2013. [15] LÊ Viet.B: « Reconnaissance automatique de la parole pour des langues peu dotes », thèse Docteur de L‟université Joseph Fourier - Grenoble 1 en Informatique, juin 2006. [16] Lotfi.A:« Un Systeme Hybride Ag/Pmc Pour La Reconnaissance De La Parole Arabe », Mémoire pour L‟obtention Du Diplôme De Magister en Informatique, Université Badji Mokhtar Annaba, Année 2005. [17] Marwa.C: «Détection et classification des signaux non stationnaires par utilisation des ondelettes. Application aux signaux électromyographies utérins», Thèse Docteur De L‟université De Technologie De Troyes, Année 2010. [18] Matthieu.C: «Identification audio pour la reconnaissance de la parole », Thèse Docteur de l„Université du Paris Descartes, Année 2011. [19] Menasri.F: « Segmentation d„image Application aux documents anciens », Thèse Docteur de l„Université Paris Descartes en Informatique, France, Juin 2008. [20] Muhammad.T, Tarek.H andReda.AAlez : « Multi-Agent based Arabic Speech Recognition» , International Conferences on Web Intelligence and Intelligent Agent Technology -Workshops, 2007 IEEE/WIC/ACM. [21] Nacer-eddine.M : « Conception et Réalisation d‟un système de pilotage d‟un véhicule par commande vocale », Mémoire pour l'obtention du Master II En Informatique,Juin 2011. [22] Oualid.D : « Reconnaissance Automatique De La Parole Arabe Par Cmu Sphinx 4 », Mémoire pour L‟obtention Du Diplôme De Magister en électronique, Université Ferhat Abbas -Sétif 1-, Année 2013. 61 [23] René.B, Murat.K « Traitement de la parole.Presses polytechniques romandes », Lausanne, Année 1987. [24] Samir.N : « Segmentation automatique de parole en phones. Correction d'étiquetage par l'introduction de mesures de confiance », thèse Docteur de l'Université de Rennes 1en Informatique, Année 2004. [25] Somaia.T, WafaaEl.K, Hesham.T, Eman.M : « The effect of using integrated signal processing hearing aids on the speech recognition abilities of hearing impaired Arabic-speaking children », Egyptian Journal of Ear, Nose, Throat and Allied Sciences (2014) 15, 215–224. [26] Satori.H, Harti.M, Chenfour.N: « Système de Reconnaissance Automatique de l‟arabe basé sur CMUSphinx», Département de Mathématiques et Informatique, Faculté des Sciences, B.P. 1796, DharMehraz Fès, Morocco. [27] Sofiane.B: «Développement d‟un système automatique de synthèse de la parole à partir du texte arabe standard voyelle », », Thèse Docteur de l„Université du Maine France, Année 2003. 62