Introduction

Transcription

Introduction
N° d‟ordre :
N° de série :
République Algérienne Démocratique et Populaire
Ministère de l’Enseignement Supérieur et de la Recherche
Scientifique
UNIVERSITÉ HAMA LAKHDAR D’EL-OUED
FACULTÉ DES SCIENCES ET DE TECHNOLOGIE
Mémoire de fin d’étude
Présenté pour l’obtention du diplôme de
MASTER ACADEMIQUE
Domaine : Mathématique et Informatique
Filière : Informatique
Spécialité : Systèmes Distribués et Intelligence Artificielle
Présenté par: Melle Maamra OumElhana
Melle Settou Trablesse
Thème
Proposition d’un modèle de descripteur structurel
pour la voix arabe, Application saisie des notes
Soutenu le 04 juin 2015
Devant le jury composé de :
Mr.
Othmani
Samir
MA
(B) Univ.
elle
M .Bellila Khaoula
Mr. ZAIZ Faouzi
MC (B) Univ. El Oued
MA (B) Univ. ElOued
MA (B) Univ. ElOued
Année universitaire 2014 – 2015
Président
Examinateur
Rapporteur
Remerciements
Nous remercions Allah le tout puissant, qui nous a donné la force et la
patience pour l’accomplissement de ce travail.
Nos remerciements, les plus vifs, notre profonde gratitude et nos
respects s'adressent à notre Encadreur
M. ZAIZ Faouzi
Pour avoir accepté de nous encadrer, pour les conseils et orientations
tant précieux qu’il nous avons prodigués durant ce Mémoire.
Sans son aide, notre travail n'aurait pas vu la lumière.
Nous remercions vivement les membres du jury qui nous ont fait
l’honneur
D’accepter de juger notre travail.
Notre reconnaissance va aussi à tous ceux qui ont collaboré à notre
Formation en particulier les enseignants du département
D’Informatique, de l’université Hama Lakhdar d’El-Oued.
Aussi à nos familles Settou et Maamra
Nous remercions également tous ceux qui ont participé de près
Ou de loin à élaborer ce travail.
Résumé
La reconnaissance du son et la reconnaissance de la voie arabe en particulier présente
un défi très grand et joue un rôle très important dans le monde actuel pour rendre les
machines capable de connaitre comme un homme et capable de résoudre des problèmes
complexes. Malgré les tentatives de rendre la machine apprendre comme les humains, Mais
jusqu‟aujourd‟hui, aucune machine capable de comprendre100%un message vocal provenant
d'un locuteur quelconque, dans des environnements souvent perturbés, quel que soit son mode
d'élocution, la syntaxe et le vocabulaire utilisés tel que l‟homme.
Dans ce travail on s‟intéresse d‟une part à faire une étude concernant le domaine de la
reconnaissance du son. Ensuite, nous allons affinée par un intérêt particulier à une phase
considérée comme cruciale dans le procédé de reconnaissance: la phase de segmentation.
Enfin, nous allons proposer un modèle de descripteur vocale pour la langue arabe vue
la robustesse et la qualité de définition offerte par ce technique.
Mots clés: reconnaissance du son, voie arabe, classificateur FLC.
‫ملخــص‬
‫إن التعرف على الصوت و خاصة الكالم العربً أصبح ٌلعب دورا هاما فً العالم و ذلك بجعل اآللة ذكٌة قادرة‬
‫على حل المشاكل المعقدة‪ ,‬فبالرغم من المحاوالت الكثٌرة لتحقٌق هذا ال توجد لحد اآلن آلة تستطٌع التعرف ‪ 100%‬على‬
‫رسالة صوتٌة من أي متكلم و فً أي وسط (وجود أو عدم وجود فوضى)‪.‬‬
‫فً هذا العمل كانت دراستنا فً مجال الصوت‪ ,‬حٌث ركزنا على وجه الخصوص بمرحلة تعتبر حاسمة فً‬
‫التعرف على الصوت ‪ :‬التقسٌم‪ ,‬فاقترحنا نموذج وصفً للصوت العربً موضحٌن استقرارٌة و جودة النتائج المقدمة‪.‬‬
‫الكلمات المفتاحية ‪ :‬التعرف على الصوت‪ ,‬الكالم العربً‪ ,‬المُص ِّنف ‪.FLC‬‬
Abstract
The knowledge of voices and particularly those of Arabic language represents a great
defy and play an important role in our world to enable the machine of knowing and
distinguishing as human being. It resolves many complicated problems making the human life
more easier.
In spite of repetitive essays to replace the human by the machine but until now there is
no machine that could understand the vocal message and distinguish it from different speakers
in different environment with divergent words, syntax and used expressions. After that, we
will stress the importance on a phase which is called: segmentation phase.
Finally, we will suggest a mode for describing voices in Arabic language because of
its harness, quality of definition that has been presented by its technics.
Keywords: voice knowledge, Arabic voice, Classifier FLC.
Liste des figures
I. Reconnaissance Automatique de Parole
Figure I. 1:Schéma synoptique de l‟acquisition d‟un signal de parole. .................................... 6
Figure I. 2: Schéma de synthèse de la parole. ........................................................................... 7
Figure I. 3:Schéma de Reconnaissance de parole. .................................................................... 8
Figure I. 4: Schéma générale d„un SRAP. .............................................................................. 11
II. Segmentation et Extraction des caractéristiques de SP
Figure II. 1: Forme d'onde et spectrogramme d'un énoncé du mot "‫"رقم‬. ............................... 17
Figure II. 2: Exemples de fenêtres de pondération. ................................................................ 20
Figure II. 3: Schéma présentant les différentes méthodes d'extraction de caractéristique. .... 20
Figure II. 4: Représentation temporelle(Audiogramme) de signaux de parole. ..................... 21
Figure II. 5: L‟extraction des paramètres vocaux par LPC. ................................................... 22
Figure II. 6: Analyse cepstrale sur une fenêtre temporelle. .................................................... 24
Figure II. 7: Calcul des coefficients cepstraux MFCC. .......................................................... 25
Figure II. 8: Calcul des coefficients cepstraux LPCC. .......................................................... 25
III. Classification de signal de parole
Figure III. 1: Schéma de structure de classificateur FLC. ...................................................... 33
Figure III. 2: Classificateur FLC. ........................................................................................... 35
IV. Conception & Mise en œuvre
Figure IV. 1: Illustration des modules du système. .............................................................................. 39
Figure IV. 2: Exemple de segmentation niveau 1. ............................................................................... 41
Figure IV. 3: Exemple de segmentation niveau 2. ............................................................................... 44
Figure IV. 4: Exemple de normalisation de mot « ‫»رقـــم‬. .................................................................... 46
Figure IV. 5: Exemple d‟extraction des caractéristiques pour le mot « ‫»رقـــم‬. .................................... 47
Figure IV. 6: La phase de classification. .............................................................................................. 48
Figure IV. 7: Exemple de classification exacte. ................................................................................... 49
Figure IV. 8: a) Résultat par classification approchée, b) Résultat par classification approchée. ....... 50
Figure IV. 9: L'interface de démarrage de notre système. ................................................................... 52
Figure IV. 10: Fenêtre principale de l‟application. .............................................................................. 52
Figure IV. 11: Illustration de l‟utilisation de l‟application. ................................................................. 53
Figure IV. 12: Illustration de segmentation de signal de son. .............................................................. 54
Figure IV. 13: Illustration d‟apprentissage de nouveaux exemples. .................................................... 54
Figure IV. 14: Illustration de test d‟un exemple donné. ...................................................................... 55
Figure IV. 15: Illustration de Taux de reconnaissance de MS et LPC. ................................................ 56
Figure IV. 16: Illustration de temps d'exécution de MS et LPC. ......................................................... 56
I
Liste des tableaux
IV. Conception & Mise en œuvre
Table IV. 1: Exemple des chaines de définition des segmente de parole............................................. 51
Table IV. 2 : Illustration des résultats obtenus avec une comparaison de la méthode LPC. ................ 56
II
Sommaire
Liste des figures ......................................................................................................................... I
Liste des tableaux .................................................................................................................... II
Sommaire ................................................................................................................................ III
Liste d'abréviation…………………...…………………...…………………..……………..IV
Introduction générale ............................................................................................................. 1
Chapitre I: Reconnaissance Automatique de Parole
Introduction ................................................................................................................................ 3
1.
Quelque concept de base ..................................................................................................... 3
1.1 Définition de son .............................................................................................................. 3
1.2 Les types de son ................................................................................................................ 3
1.3 Présentation de langue arabe ............................................................................................ 4
2.
Traitement de signal de parole ............................................................................................ 4
2.1 Définition de signale de parole ......................................................................................... 5
2.2 Caractéristiques de signal de parole ................................................................................. 5
2.3 Le capteur (microphone) .................................................................................................. 6
2.4 Carte d‟interface (carte son) ............................................................................................ 7
2.5 Type de traitement de signal de parole ........................................................................... 7
2.5.1 La synthèse de la parole ............................................................................................. 7
2.5.2 La Reconnaissance de la Parole ................................................................................. 7
3.
Système de Reconnaissance Automatique de la Parole «SRAP» ....................................... 8
3.1 Problèmes liés aux Systèmes de Reconnaissance de parole ............................................. 8
3.2 Approches de reconnaissance de parole .......................................................................... 9
3.3 Modules de base de la reconnaissance de parole ............................................................ 10
3.3.1 Un module d‟acquisition et de modélisation du signal ............................................ 10
3.3.2 Un module acoustique.............................................................................................. 10
3.3.3 Un module lexical .................................................................................................... 10
3.3.4Un module syntaxique .............................................................................................. 10
3.4 Phases de system de reconnaissance de parole ............................................................... 11
3.4.1 Acquisition du signal ............................................................................................... 11
3.4.2 Prétraitement ............................................................................................................ 12
3.4.3 La segmentation ....................................................................................................... 12
III
3.4.4 Extraction de caractéristique .................................................................................... 12
3.4.5 Classification........................................................................................................... 13
3.4.6 Post traitement ......................................................................................................... 14
4.
Conclusion ........................................................................................................................ 14
Chapitre II: Segmentation et Extraction des caractéristiques de SP
Introduction .............................................................................................................................. 16
1.
Segmentation..................................................................................................................... 16
1.1 Méthodes de segmentation ............................................................................................ 16
1.1.2 Segmentation en voisées/ non voisées .................................................................... 16
1.1.2 Segmentation en phonème ....................................................................................... 16
1.1.3 Segmentation en syllabe ......................................................................................... 17
1.1.4 Segmentation en mots .............................................................................................. 18
1.1.5 Segmentation en locuteurs et tour de parole ............................................................ 18
2.
Extraction des caractéristiques .......................................................................................... 19
2.1 Fenêtrage ........................................................................................................................ 19
2.2 Approches et techniques d'extraction de caractéristique ............................................... 20
2.2.1 Approche temporelle ................................................................................................ 20
2.2.2 Approche fréquentielles ou spectrales ..................................................................... 22
2.2.3 Approche cepstrales ................................................................................................. 24
3.
Conclusion ........................................................................................................................ 26
Chapitre III: Classification de signal de parole
Introduction .............................................................................................................................. 28
1.
Distances dans l'espaceacoustique .................................................................................... 28
1.1 Mesure de distorsion ...................................................................................................... 28
1.2 Distance Euclidienne ..................................................................................................... 28
1.3 Distance d'ltakura ........................................................................................................... 29
1.4 Distance cepstrale ........................................................................................................... 29
1.5 Distance de Mahalanobis ................................................................................................ 30
2.
Catégories de classification de signal de parole ............................................................... 30
2.1
Classification statistique .............................................................................................. 30
2.1.1 Décision Bayésienne ................................................................................................ 30
2.1.2 Méthode des k-plus proches voisins (k-ppv) ........................................................... 31
2.1.3 Machines à Vecteurs de Support (SVM) ................................................................. 31
2.2
Classification stochastique .......................................................................................... 31
IV
2.3
3.
Classification neuronale .............................................................................................. 32
Méthode de classification FLC ......................................................................................... 32
3.1 Points forts de FLC ......................................................................................................... 32
3.2 Structure de classificateur FLC ...................................................................................... 33
3.2.1 Couche instructeur ................................................................................................... 33
3.2.2 Couche raisonnement ............................................................................................... 33
3.2.3 Couche apprentissage ............................................................................................... 34
3.2.4 Couche Classification .............................................................................................. 34
A.Gestionnaire de classification ....................................................................................... 34
B. Vote. ............................................................................................................................. 36
C. Calcule ....................................................................................................................... 36
4.
Conclusion ........................................................................................................................ 36
Chapitre IV: Conception & Mise en oeuvre
Introduction .............................................................................................................................. 38
1.
Mise en œuvre du système ................................................................................................ 38
1.1 Acquisition..................................................................................................................... 39
1.2 Segmentation ................................................................................................................. 39
1.2.1Segmentation niveau 1 .............................................................................................. 40
1.2.2 Segmentation niveau 2 ............................................................................................. 41
1.3 Extraction des caractéristiques ..................................................................................... 44
1.3.1 Normalisation de signal vocal .................................................................................. 44
1.3.2 Méthode proposée .................................................................................................... 46
1.4 Classification .................................................................................................................. 47
1.5 Post-traitement ................................................................................................................ 48
2.
Résultats et bilan ............................................................................................................... 51
2.1 Choix du langage de programmation.............................................................................. 51
2.2 Interfaces du système...................................................................................................... 51
2.2.1 Utilisation de l‟application ....................................................................................... 52
2.2.2Analyse du son (Sound Analyser)............................................................................. 53
3.
Comparaison des résultats (LPC/MS) ............................................................................... 55
4.
Conclusion ........................................................................................................................ 57
Conclusion générale & perspectives…….………………………………………….………59
Bibliographie........................................................................................................................... 60
IV
Liste d’abréviations
CAN : Convertisseur Analogique Numérique
FLC :La méthode FastLogicClassifier
FFT:FastFourrier Transform
HMM:Modèle de Markov Caché
IFFT:Inverse FastFourrier Transform
LPCC:LinearPredictionCepstralCoefficients
LPC: LinearPredictifCoding
MFCC : Coefficients Cepstraux
PPZ: Le Ttaux de Passage par Zéro
PLP:PerceptualLinearPrediction
k-ppv : k-Plus Proches Voisins
RAP:Reconnaissance Automatique de la Parole
SRAP : Système de Reconnaissance Automatique de la Parole
SP : Signal de Parole
SVM : Support VectorMachines.
TDF:Transformé Discrète de Fourier
TFR:Transformée de Fourrier Rapide
IV
Introduction générale
Introduction générale
La reconnaissance automatique de la parole (RAP) par les machines est depuis
longtemps un thème de recherche qui fascine le public, mais qui demeure un défi pour les
spécialistes. À ses balbutiements, les projections sur ses applications étaient très optimistes:
quoi de plus naturel que de parler à une machine, sans avoir à s‟encombrer d‟un clavier ?
Malheureusement, malgré l‟incroyableévolution des ordinateurs et des connaissances, la
reconnaissance automatique de la parole n‟en demeure pas moins un sujet de recherche
toujours actif...et les résultats obtenus sont encore loin de l‟idéal qu‟on aurait pu en attendre,
il y a vingt ans.Il n‟existe encore aucun système capable de traiter de façon fiable la
reconnaissance.
La reconnaissance de la parole continue pour un vocabulaire moyen (quelques milliers
de mots) est actuellement possible dans un logiciel de reconnaissance de la parole. La
reconnaissance de la parole humaine se situe à l'intersection de nombreux domaines tels que
l'acoustique, l'électronique, la phonétique...Pour atteindre un haut niveau, un système de
reconnaissance de la parole doit s'inspirer des travaux d'une vaste gamme de disciplines
scientifiques : Mathématique, informatique, technologie,....
Notre étude s'intègre dans le cadre du développement d'un système de dictée vocale
indépendant du locuteur (logiciel de saisie des notes des étudiants par dicter). Qui apprend
d‟un ensemble d‟enregistrement du son des différents mots arabe et par la suite elle permet de
reconnaître de nouveaux exemples (nouvelles enregistrements des mots) des mots et les
classifier. La modélisation acoustique par les méthodes les plus performantes de l'état de l'art
reste insuffisante; cette faiblesse est un facteur limitant des systèmes de RAP. Nous cherchons
à améliorer la qualité de la modélisation acoustique, en proposant un modèle de descripteur
vocale dans phase considérée comme cruciale dans le procédé de reconnaissance « la phase de
segmentation » pour la langue arabe vue la robustesse et la qualité de définition offerte par ces
techniques.
Ce mémoire s‟articule autour de quatre chapitres :




Le premier chapitre présente une vue générale des systèmes de reconnaissance de la
parole, dont on s„intéresse à introduire et présenter un état de l„art du domaine de la
reconnaissance de parole ;
Le second chapitre illustre et exposer les différentes approches, méthodes et technique
réalisées depuis plusieurs années pour les deux phases « segmentation et extraction de
caractéristique » ;
Le troisième chapitre présent les différentes approche existent de classification et exposer
plus détaille le classificateur choisie FLC (FastLogic Classifier);
Le dernier chapitre présente laconception et l‟implémentation de système réalisé.
1
Chapitre I:
Reconnaissance Automatique de parole
Chapitre I
Reconnaissance Automatique de parole
Introduction
La parole est un moyen de communication très efficace et naturel utilisé par l'humain.
Depuis longtemps, il rêve de pouvoir s'adresser par ce même moyen à des machines ce qui les
rendre plus intelligentes.
La reconnaissance automatique de la parole est un domaine multidisciplinaires d'étude
actif depuis le début des années 50, il est utilisé dans des domaines comme « Perception,
Acoustique, Linguistique, Électronique, Physique, Informatique et Traitement du signal» Il
est clair qu'un outil de reconnaissance de la parole efficace facilitera l'interaction entre les
hommes et les machines. Les applications possibles associées à un tel outil sont nombreuses
et sont amenées à connaître un grand essor. La plupart des applications en reconnaissance de
la parole peuvent être regroupées en quatre catégories : commande et contrôle, accès à des
bases de données ou recherche d'informations, dictée vocale et transcription automatique de la
parole.
Dans ce chapitre, on s„intéresse d„une part à introduire et présenter un état de l„art du
domaine de la reconnaissance des parole, et d„autre part à exposer les différentes approches,
méthodes et technique réalisées depuis plusieurs années.
1.
Quelque concept de base
1.1 Définition de son
Le son est une vibration de l'air. A l'origine de tout son, il y a mouvement. Il s'agit de
phénomènes physiques créés par une source sonore qui met en mouvement les molécules de
l'air. Avant d'arriver jusqu'à notre oreille, ce mouvement se propage à une certaine vitesse
dans un milieu élastique (en général l‟air).[21]
1.2 Les types de son
Il faut d'abords différencier les deux types de sons: le son analogique et le son
numérique.

Le son analogique
Le son analogique est un signal électrique continu pour lequel il existe une valeur de
tension en concordance avec la variation de la pression de l‟air.En d'autres termes, on dit
qu'un signal électrique généré par un micro est transporté, à travers un câble puis une console
et enfin à travers un ampli et son haut-parleur, d'une façon analogique lorsque les vibrations
électriques qui parcourent ces éléments sont identiques, c'est à dire analogues, en fréquence et
en amplitude aux variations de pression, donc aux vibrations de l'air. Le son analogique n'est
pas manipulable tel quel par un ordinateur, qui ne connaît que les 0 et les 1.[21]
3
Chapitre I

Reconnaissance Automatique de parole
Le son numérique
Il est représenté par une suite binaire de 0 et de 1. L'exemple le plus évident de son
numérique est le CD audio. Le processus de passage du son analogique en son numérique est
appelé "échantillonnage". [21]

Le convertisseur analogique numérique "CAN"
Un convertisseur analogique / numérique (CAN) est un dispositif électronique
permettant la conversion d‟un signal analogique en un signal numérique. Lorsque les valeurs
numériques peuvent être stockées sous forme binaire (donc par un ordinateur), on parle de
données multimédia.
1.3 Présentation de langue arabe
L‟Arabe est la sixième langue actuellement parlée dans le monde. On estime le
nombre d‟Arabophone à 250 millions. C‟est la langue officielle de 22 pays. Mais comme c‟est
aussi la langue qui porte les instructions religieuses de l‟Islam dans le livre sacrée, on peut
imaginer que le nombre de personnes qui parlent l‟Arabe est nettement plus élevé.[7]
Elle possède un alphabet de vingt-huit lettres, parmi lesquelles, vingt-cinq représentent
des consonnes. Les trois lettres restantes représentent les voyelles longues (/ ‫ ا‬/, ‫و‬//, /‫ي‬/).
Chaque lettre apparaît souvent en quatre formes selon qu‟elle soit en début, en milieu ou en
fin de mot, ou isolée. Les lettres sont le plus souvent connectées entre elles sans
majuscules.Dans la phonologie les alphabets arabe sont classés à des consonnes et des
voyelles.[7]
 Les consonnes
Une consonne est un phonème dont la prononciation se caractérise par une obstruction
totale ou partielle en un ou plusieurs points du conduit vocal. Elle
estgénéralementprécédéeousuivied‟unevoyelle.[7]

Les voyelles
Lors de la prononciation des voyelles, l‟air émis par les vibrations des cordes vocales
passe librement à travers le conduit. On distingue trois types de voyelles : les voyelles courtes
« ‘‫’ ۥ‬, ‘-’ et ‘’’ », longues «/‫و‬/, /‫ ا‬/ et /‫ي‬/ » et les semi-voyelles « sekune et tanwin ». [7]
2.
Traitement de signal de parole
Aujourd‟hui, les sciences de l‟ingénieur s‟intéresse beaucoup du traitement de la
parole c‟est pour ça le traitement automatique de la parole est un champ de recherche riche
mais difficile.
4
Chapitre I
Reconnaissance Automatique de parole
De façon générale, le traitement de signal est un ensemble des techniques et des
méthodes appliqué sur un signal électrique pour extraire l‟information désirée se signale doit
traduire le plus fidèlement possible le phénomène physique à étudier. [12]
2.1 Définition de signale de parole
Le signal de la parole est un phénomène de nature acoustique porteur d‟un message.
L‟information d‟un message parlé réside dans les fluctuations de l‟air, engendrées, puis
émises par l‟appareil phonatoire. Ces fluctuations constituent le signal vocal. Elles sont
détectées par l‟oreille qui procède à une certaine analyse. Les résultats sont transmis au
cerveau qui les interprète. [16]
D‟autre part, le signal vocal représente la combinaison d‟éléments simples et brefs du
signal sonore appelés phonèmes, qui permettent de distinguer les différents mots. La parole
est un signal réel, continu, d‟énergie finie et non stationnaire. Sa structure est complexe et
variable avec le temps.[12]
2.2 Caractéristiques de signal de parole
Le signale de parole est un vecteur acoustique porteur d'informations d'une grande
complexité, variabilité et redondance, dont les signaux de parole sont différencier par un
ensemble des caractéristiques. Les caractéristiques de ce signal sont appelées traits
acoustiques.Parmi ces caractéristiques sont :






La fréquencefondamentale
Le spectre de fréquence
Le timbre
Le pitch
Intensité
La fréquencefondamentale
C'est le premier trait acoustique, c'est la fréquence de vibration des cordes vocales. Pour
les sons voisés.[12]Correspond à la période de l'onde .c'est la fréquence de cette onde qui
nous permet d'évaluer, de façon globale, la hauteur du son. Les ondes qui accompagnent le
fondamental sont appelées les harmoniques.[1]

Le spectre de fréquence
C'est le deuxième trait acoustique dont dépend principalement le timbre de la voix. Il
résulte de filtrage dynamique de signale en provenance du larynx ou signale glottique par le
conduit vocale.[12]

Le timbre
Le timbre est l‟ensemble des caractéristiques qui permettent de différencier une voix.Il
provient en particulier de la résonance dans la poitrine, la gorge la cavité buccale et le nez
sont les amplitudes relatives des harmoniques du fondamental qui déterminent le timbre du
son.[12]
5
Chapitre I
Reconnaissance Automatique de parole
Les éléments physiques du timbre comprennent :
o Les relations entre les parties du spectre, harmoniques ou non ;
o Les bruits existant dans le son (qui n‟ont pas de fréquence particulière, mais
dont l‟énergie est limitée à une ou plusieurs bandes de fréquence) ;
o L‟évolution dynamique globale du son ;
o L‟évolution dynamique de chacun des éléments les uns par rapport aux autres.

Le pitch
La variation de la fréquence fondamentale définit le pitch qui constitue la perception
de la hauteur (ou les sons s'ordonnent de grave à aigu). Seuls les sons quasi-périodiques
(voisés) engendrent une sensation des hauteurs tonales. [12]

Intensité
L'intensité s‟appelle aussi volume permet de distinguer un son fort d‟un faible.
L‟intensité est liée à la pression de l‟air en amont du larynx, qui fait varier l‟amplitude des
vibrations sonores. [12]
2.3 Le capteur (microphone)
Le capteur représente le premier élément de l‟acquisition. Il est considéré comme un
transducteur, dispositif transformant une grandeur physique en une autre grandeur dépendante
de la première. Bien qu‟un microphone soit un obstacle à la propagation des ondes sonores,
pour l‟acquisition du signal de parole, ce microphone est un capteur comportant un organe
sensible aux variations de pression dues à l‟onde sonore. [21]
Ces variations de pression sont utilisées pour exercer une force sur un système ne
pouvant pratiquement pas se déplacer sans cette condition (existence de la force).Il existe
plusieurs types de microphone (Microphone : à charbon, à condensateur, à magnétostriction,
électrodynamique, électronique, thermique, ionique).On prend le microphone à condensateur
comme exemple. Ce dernier se trouve dans un circuit comprenant une résistance et un
générateur. L‟intensité du courant dans le circuit dépend de ces variations .Ce genre de
microphone est le plus performant parmi les microphones disponibles, en plus son avantage
majeur est sa petite taille ainsi que sa simple construction. [21]
PC
Microphone
Pressionacoustique
Carte d’interface
MIC
LINE

OUT


Figure I. 1:Schéma synoptique de l‟acquisition d‟un signal de parole.
6
Chapitre I
Reconnaissance Automatique de parole
2.4 Carte d’interface (carte son)
Une fois le signal analogique, issu du microphone arrive à l‟entrée MIC de la carte
son, il doit passer par un circuit de conditionnement, qui permet l‟amplification et le
filtrage de ce signal, après quoi la conversion Analogique-Numérique est effectuée, dans le
but de rendre l‟information récupérée, traitable par le système numérique (microordinateur).Cette conversion comprend l‟échantillonnage, la quantification et le codage.
Après la conversion Analogique-Numérique, la carte son passe à la mémorisation des
données numérisées dans un espace mémoire ou tampon (buffer) sous forme de valeurs
numérique. Ces données seront présentés par des vecteurs comportant une série de chiffre .On
utilise ce genre de mémorisation plusieurs fois pour un même mot prononcé selon le choix de
la taille du dictionnaire voulu, attribuée à l‟apprentissage des données. [21]
2.5 Type de traitement de signal de parole
Le signal de parole est complexe et démontre une très grande variabilité car sa
structure résulte de l'interaction entre la production des sons et leur perception par l'oreille et
son traitement peut diviser à deux grands domaines principaux :

La synthèse de la parole ;
 La Reconnaissance de la Parole.
2.5.1La synthèse de la parole
La synthèse vocale est une technique informatique de synthèse sonore qui permet à une
machine de créer de la parole artificielle à partir de n'importe quel texte. Aucune restriction
n‟est faite sur la nature des mots à synthétiser (signale, abréviation, chiffre, date, etc.), ni sur
la taille du vocabulaire à traiter. Parmi les applications, on peut citer la vocalisation d'écrans
informatiques pour les personnes aveugles ou fortement malvoyantes(lecteur d'écran), ainsi que
de nombreuses applications de serveurs vocaux téléphoniques, comme les annuaires vocaux
de grande taille. [27]
Système de synthèse
de la parole
Figure I. 2: Schéma de synthèse de la parole.
2.5.2 La Reconnaissance de la Parole
La reconnaissance de la parole ou reconnaissance vocale est une technologie
informatique qui permet d'analyser la voix humaine captée au moyen d'un microphone pour la
transcrire sous la forme d'un texte exploitable par une machine. Cette technologie utilise des
méthodes informatiques des domaines du traitement du signal et de l‟intelligence artificielle.
[25]
7
Chapitre I
Reconnaissance Automatique de parole
Système de Reconnaissance
de la parole
Figure I. 3:Schéma de Reconnaissance de parole.
3.
Système de Reconnaissance Automatique de la Parole «SRAP»
Il existe plusieurs applications des systèmes de reconnaissance automatique de la parole, nous
allons citer quelque système :






Une dictée vocale peut être associée à un traitement de texte : Un locuteur parle et le
texte s‟affiche ; ainsi, il n‟a plus besoin de taper son texte au clavier.
Les serveursd‟informations par téléphone
La messagerie
Elle permet l‟autonomie : par exemple en médecine, lorsqu‟un chirurgien a les deux
mains occupées, il peut parler pour demander une information technique au lieu de
taper sur un clavier (autonomie qui est aussi valable en industrie).
La sécurité possible grâce à la signature vocale
La possibilité de commande et de contrôle d‟appareils à distance.
3.1 Problèmes liés auxSystèmes de Reconnaissance de parole
La mesure du signal de parole est liée par des problèmes car elle est fortement
influencée par la fonction de transfert du système de reconnaissance (les appareils
d'acquisition et de transmission), ainsi que par l‟environnement ambiant. Parmiceproblème
on trouve:

Continuité
Lorsqu'on écoute une personne parler, on perçoit une suite de mots alors que l'analyse
du signal vocal ne permet de déceler aucun séparateur. Évidement il est plus simple de
reconnaître des mots isolés bien séparés par des périodes de silence que de reconnaître la
séquence de mots constituant une phrase.

Une grande Variabilité
Le signal vocal est très variable soit pour un même locuteur (variabilité intra locuteur)
ou pour des locuteurs différents (variabilité interlocuteur).[22]
a- Variabilité intra-locuteur
Une même personne ne prononce jamais un mot deux fois de façon identique par
exemple dans le cas voix chantée, criée, enrouée, sous stress,.... La vitesse d'élocution en
8
Chapitre I
Reconnaissance Automatique de parole
détermine la durée. Toute affection de l'appareil phonatoire peut altérer la qualité de la
production. [13]
b- Variabilitéinterlocuteur
Les différences physiologiques entre locuteurs, qu'il s'agisse de la longueur du conduit
vocal ou du volume des cavités résonnantes, modifient la production acoustique. En plus, il y
a la hauteur de la voix, l'intonation et l'accent différent selon le sexe « homme, femme,
enfant», l'origine sociale, régionale ou nationale.

Reconnaissance des informations en fonction de la tâche à accomplir
La reconnaissance vocale peut s'effectuer sur les sons eux-mêmes, sur la structure
syntaxique d'une phrase (dictée), sur la signification d'une phrase (robots) ou sur l'identité du
locuteur et son état émotionnel (joyeux, en colère,...).[22]

Le niveau de bruit ambiant
Notre environnement est souvent bruité, les applications audio se trouvent ainsi
confrontées au bruit ambiant. Le bruit tout signal nuisible qui se superpose au signal utile en
un point quelconque d‟une chaine de mesure ou d‟un système de transmission. Il constitue
donc une gêne dans la compréhension de la parole. [21]
3.2 Approches de reconnaissance de parole
Les approches de reconnaissance vocale se distinguent essentiellement par la nature et
par la taille des unités abstraites qu'elles s'efforcent de mettre en correspondance avec le
signal de parole. Il existe deux approches permettant d'aborder la reconnaissance de la parole :



Approcheglobale
Approcheanalytique
Approche globale
L'approche globale s‟applique aux systèmes pour lesquels l'unité de décision est
l'entité lexicale "le mot", qui non décomposée. [16]L'idée de cette méthode est de donner au
système une image acoustique de chacun des mots qu'il devra identifier par la suite. Cette
opération est faite lors de la phase d'apprentissage, où chacun des mots est prononcé une ou
plusieurs fois. Cette méthode a pour avantage d'éviter les effets de coarticulation, c'est à dire
l'influence réciproque des sons à l'intérieur des mots. Elle est cependant limitée aux petits
vocabulaires prononcés par un nombre restreint de locuteurs (les mots peuvent être prononcés
de manière différente suivant le locuteur). [22]

Approche analytique
L'approche analytique cherche à résoudre le problème de la parole en isolant des
unités acoustiques courtes en procédant à une segmentation en entités élémentaires de base
étiquetées ou identifiées, comme les phonèmes, les syllabes…etc.[16] Celles-ci sont les unités
de base à reconnaître.Cette approche a un caractère plus général que la précédente : pour
9
Chapitre I
Reconnaissance Automatique de parole
reconnaître de grands vocabulaires, il suffit d'enregistrer dans la mémoire de la machine les
principales caractéristiques des unités de base. [22]
Pour la reconnaissance de mots isolés à grand vocabulaire, la méthode globale ne
convient plus car la machine nécessiterait une mémoire et une puissance considérable pour
respectivement stocker les images acoustiques de tous les mots du vocabulaire et comparer un
mot inconnu à l'ensemble des mots du dictionnaire. C'est donc la méthode analytique qui est
utilisée : les mots ne sont pas mémorisés dans leur intégralité, mais traités en tant que suite de
phonèmes. Mais la méthode analytique a un grand inconvénient : l'extrême variabilité du
phonème en fonction du contexte (effets de la coarticulation).[22]
3.3 Modules de base de la reconnaissance de parole
La reconnaissance de la parole est décomposée en 4 modules, un module
d‟acquisition et de modélisation du signal, un module acoustique, module lexical et module
syntaxique.
3.3.1 Un module d’acquisition et de modélisation du signal
Qui transforme le signal de parole en une séquence de vecteurs acoustiques. Pour être
utilisable par un ordinateur, un signal doit tout d'abord être numérisé. Cette opération tend à
transformer un phénomène temporel analogique, le signal sonore dans notre cas, en une suite
d'éléments discrets, les échantillons. Ceux-ci sont obtenus avec une carte spécialisée « carte
de son »courante de nos jours dans les ordinateurs depuis l'avènement du multimédia. [10]
3.3.2 Un module acoustique
Qui peut produire une ou plusieurs hypothèses phonétiques pour chaque segment de
parole (par exemple de 10 ms, pour chaque vecteur acoustique), associées en général à une
probabilité. Ce générateur d'hypothèses locales est généralement basé sur des modèles
statistiques de phonèmes, qui sont entraînés sur une grande quantité de données de parole (par
exemple, enregistrement de nombreuses phrases) contenant plusieurs fois les différentes
unités de parole dans plusieurs contextes différents.[10]
3.3.3 Un module lexical
Dans le cadre de la reconnaissance de la parole continue, même si le système
acoustique est basé sur des phonèmes, il faut obtenir, pour chaque entrée du dictionnaire
phonétique, un modèle qui lui est propre. Un tel module lexical embarque en général des
modèles des mots de la langue (les modèles de base étant de simples dictionnaires
phonétiques ; les plus complexes sont de véritables automates probabilistes, capables
d‟associer une probabilité à chaque prononciation possible d‟un mot). A l‟issue de ce module,
il peut donc y avoir plusieurs hypothèses de mots qui ne pourront être départagées que par les
contraintes syntaxiques. [10]
3.3.4 Un module syntaxique
Qui interagit avec un système d'alignement temporel pour forcer la reconnaissance à
intégrer des contraintes syntaxiques, voire sémantiques. Les connaissances syntaxiques sont
10
Chapitre I
Reconnaissance Automatique de parole
généralement formalisées dans un modèle de la langue, qui associe une probabilité à toute
suite de mots présents dans le lexique. Ainsi le système est capable de choisir entre plusieurs
mots selon le contexte de la phrase ou du texte en cours et de son modèle lexical. [10]
3.4Phases de system de reconnaissance de parole
Le schéma général d„un système de reconnaissance de parole est présenté dans la
figure I.4.
Acquisition
Prétraitement
Segmentation
Extraction de caractéristique
Classification
Post-traitement
Figure I. 4: Schéma générale d„un SRAP.
3.4.1 Acquisition du signal
L'acquisition du signal de parole constitue la première étape à franchir. Il s'agit de
numériser un signal analogique (la parole) pour qu'il soit prêt à des traitements numériques
ultérieurs. Cette étape est généralement réalisée à l'aide d'une carte d'acquisition spécialisée.
Une fois capté par un microphone, le signal est tout d'abord filtré, ensuite échantillonné et
enfin quantifié. Ces opérations successives permettent de transformer un signal continue x(t)
(où t désigne le temps) en un signal numérique x(n) où n correspond à des instants discrets.[5]
11
Chapitre I

Reconnaissance Automatique de parole
L’échantillonnage
L‟échantillonnage procède à un découpage dans le temps du signal continu s(t). Il
consiste à sélectionner au moyen de circuit de commutation, les valeurs prises par le signal en
une suite d‟instants t1, t2, …,tn régulièrement espacés. Le théorème de Shannon nous indique
que la fréquence maximale fmax présente dans un signal échantillonné à une fréquence fe est
égale à la moitié de fe.[7]

La quantification
La quantification définit le nombre de bits sur lesquels on veut réaliser la
numérisation. Elle permet de mesurer l‟amplitude de l‟onde sonore à chaque pas de
l‟échantillonnage. C‟est alors pour associer à chaque échantillon une valeur.[12]

Le codage
Pour associer un code binaire à chaque valeur quantifiée qui permet le traitement du
signal sur machine.
3.4.2 Prétraitement
La phase de prétraitement ou de filtrage pouvant corriger le signal après l‟acquisition
afin de retirer les distorsions ou les bruits provenant du matériel ou de l‟environnement du
locuteur. Ce module est aussi appelé «traitement du canal de transmission». Du fait de sa
complexité et du peu d‟amélioration qu‟il apporte, ce phase n‟est pas toujours intégré aux
systèmes. Cependant la recherche de meilleurs traitements du canal de transmission sera
sûrement nécessaire à l‟amélioration des systèmes de reconnaissance vocale.[10]
3.4.3 La segmentation
C'est le processus de division d'une entité, généralement continue, en petites entités
appelées segments ou trames. Chaque segment possède des propriétés propres qui permettent
de le différencier des autres. La segmentation de la parole fait référence à des unités variées
selon la nature du segment considéré. On peut définir plusieurs types de segmentation
(organisés du segment le plus court au segment le plus long) [6] :
 en voisé/non-voisé ;
 en phonèmes ;
 en syllabes ;
 en mots ;
 en groupes inter-pausaux (segments délimités par deux pauses silencieuses) ;
 en locuteurs et tours de parole.
3.4.4 Extraction de caractéristique
Cette phase permet d‟extraire des paramètres qui caractérisent l‟information caché
derrière ce signal qui est appelé aussi un vecteur de caractéristique ou descripteur qui pourront
être utilisées pour le traitement de signal vocale pour la reconnaissance. Pour cette phase il y a
12
Chapitre I
Reconnaissance Automatique de parole
des approches et pour chaque approche existe plusieurs techniques (qui vont être décrit dans
le prochaine chapitre).
3.4.5 Classification
La classification ou la reconnaissance dans un Système RAP regroupe les deux tâches
d‟apprentissage et de décision. Elles tentent toutes les deux, à partir de la description en
paramètres extraits dans l‟étape précédente, d‟attribuer une forme acoustique à un modèle (ou
à une classe) de référence. On exige donc de la classification de vérifier les deux propriétés
suivantes:
 compacité
Les points représentant une classe donnée sont plus proches entre eux que les points de
toutes les autres classes.

Séparabilité
Les classes sont bornées et il n y'a pas de recouvrement entre elles. En pratique, ces
propriétés sont rarement respectées à cause du bruit et de distorsion des signaux. La décision
d'attribuer un vecteur de mesures candidat à une classe est fondée sur la notion de proximité.
Il en est de même pour la constitution de classes lors de l'apprentissage. Parmi les méthodes
de classification automatique, on distingue la programmation dynamique. [16]
A. Apprentissage
L'étape d'apprentissage est l'une des étapes les plus importantes dans le processus de
reconnaissance est l'étape de la construction du dictionnaire de référence (représenté par les
groupes de mots ou modèles de référence formant des classes). En effet cette étape est d'une
telle importance pour un système de reconnaissance, que même l'utilisation des plus puissants
algorithmes lors de l'étape de décision ne peut compenser sa faiblesse éventuelle. La
performance de tout le système dépend du soin. Cela exige de l'apprentissage de bien définir
les classes des formes acoustiques et leurs modèles de manière à bien distinguer les familles
homogènes des formes et donc à identifier les nouvelles par rapport à elles, par exemple, en
fournissant un bon choix de formes de références ou en donnant au système les bons critères
de modélisation .[16]
En outre, l'apprentissage est dit supervisé, si la tâche d'apprentissage est guidée par un
superviseur (concepteur) qui indique à la nouvelle forme, la classe qui la contienne, ou
apprentissage non supervisé, si les classes sont créés automatiquement, sans l'intervention
d'un opérateur, à partir d‟échantillons de référence et de règles de regroupement. [13]
B. Décision
La décision est l'ultime étape de la reconnaissance. A partir de la description en
paramètres, elle recherche, parmi les modèles d'apprentissage en présence, ceux qui sont les
plus "proches", et cela en un temps aussi court que possible. La décision peut conduire à un
succès si la réponse est unique (un seul modèle répond à la description de l'image acoustique).
Elle peut conduire à une confusion (substitution) si la réponse est multiple (plusieurs modèles
13
Chapitre I
Reconnaissance Automatique de parole
correspondent à la description). Enfin, la décision peut conduire à un rejet de la forme si
aucun des modèles ne correspond à sa description. Dans les deux premiers cas, la décision
peut être accompagnée d'une mesure de vraisemblance appelée aussi score ou taux de
reconnaissance.[16]
3.4.6 Post traitement
Cette phase consiste à faire une sélection de la solution en utilisant des niveaux
d„information plus élevés (syntaxique, lexicale, sémantiques…). Le post-traitement se charge
également de vérifier si la réponse est correcte (même si elle est unique) en se basant sur
d„autres informations non disponibles au classificateur. [10]
4.
Conclusion
Dans ce chapitre nous avons vu un état de l‟art de domaine de la reconnaissance de la
parole en générale, ou nous avons présenté les éléments de base nécessaire à un tel système.
14
Chapitre II:
Segmentation et Extraction des
caractéristiques de SP
Chapitre II
Segmentation et Extraction de caractéristique de SP
Introduction
Dans le chapitre précédent nous avons présenté tous les phases de système de
reconnaissance de parole, parmi ces phases la segmentation et l'extraction de caractéristique
de signal de parole. Dans ce chapitre nous allons détaille les approches et les méthodes de ces
phases.
1.
Segmentation
La phase de segmentation est une phase très importante dans le processus de
reconnaissance de la voix, tel qu‟aucun système n‟utilise cette phase, car elle prépare le signal
de parole pour les traitements ultérieur. Cette phase possédé une grande influence sur la
qualité des caractéristique à obtenir et par conséquent, le taux de classification à obtenir.
Le but de cette phase est l‟extraction des segments de base à traiter selon l‟unité de
base de traitement, à savoir : mot, syllabe ou phonème … etc. ce processus est très influencé
par le bruit intégré dans le signal enregistré.
1.1 Méthodes de segmentation
Dans ces parties nous allons détail les méthodes de segmentation qui nous avons cité
précédemment.
1.1.2 Segmentation en voisées/ non voisées
Les sons voisés sont produits par la vibration des cordes vocale. Les voyelles sont
intrinsèquement voisées, tandis que les consonnes peuvent l'être ou non. On peut donc
considérer qu'un mot est constitué d'une suite de segments voisés, de segments non voisés et
de silences brefs.
Cependant toute suite de ces trois segments de base ne correspond pas à un mot, du bruit
peut être constitué par des sons voisés. Un des paramètres de voisement est le pitch. [3]
1.1.2 Segmentation en phonème
La segmentation d'un signal de parole en phones consiste à délimiter sur le continuum
acoustique de ce signal une séquence de segments caractérisés par des étiquettes appartenant à
un ensemble discret et fini d'éléments, qui est l'alphabet phonétique de la langue.
La segmentation phonétique de la parole est une tâche difficile car le signal de parole
n'est pas clairement composé de segments discrets bien délimités. [24]
D'un côté, nous constatons que l'élocution d'un énoncé se caractérise par un
mouvement continu des organes de la parole et par l'absence d'un quelconque positionnement
statique de ces organes. Le passage d'une cible articulatoire d'un phone, à une autre cible
articulatoire d'un autre phone, se fait de manière continue, avec un chevauchement entre les
deux configurations articulatoires, ce qui donne naissance au phénomène de coarticulation.
16
Chapitre II
Segmentation et Extraction de caractéristique de SP
D'un autre côté, sur la base de notre perception de la parole, nous pouvons affirmer
que ce signal se compose d'une série d'éléments sonores distincts. En effet, l'examen du
spectrogramme d'un signal de parole permet de distinguer des zones spectralement
homogènes (figure. II.1). Ce fait révèle, à un certain degré, la nature segmentale de la parole.
Le paradoxe entre la perception des segments de parole et la variabilité acoustique de cette
dernière démontre que la segmentation est un problème fondamentalement complexe. Même
si les frontières entre certains phones semblent relativement claires, il n'y a pas de transitions
franches entre beaucoup de phones. [24]
Figure II. 1: Forme d'onde et spectrogramme d'un énoncé du mot "‫"رقم‬.
1.1.3 Segmentation en syllabe
La syllabe est considérée comme unité structurante de la langue. Généralement, la
structure d‟une syllabe se décompose souvent en 3 parties : l‟attaque (une ou plusieurs
consonnes -facultatif), le noyau (une voyelle ou une diphtongue - obligatoire) et la coda (une
ou plusieurs consonnes - facultatif). A cause de la caractéristique facultative des consonnes
sur l‟attaque et sur la coda, il y a parfois des ambiguïtés de segmentation d‟une phrase en
syllabes. [15]
V. Berment, dans le cadre de sa thèse [Berment 2004], a construit un outil nommé «
Sylla » permettant de mettre au point rapidement des « modèles syllabiques » pour une langue
peu dotée. Il a appliqué cet outil pour construire des modèles grammaticaux des syllabes des
langues d‟Asie du Sud-est : laotien, birman, thaï et khmer. L‟outil et la méthode de
construction d‟un modèle syllabique permet de créer rapidement un « reconnaisseursyllabique
17
Chapitre II
Segmentation et Extraction de caractéristique de SP
» : pour une chaîne de caractères en entrée, le reconnaisseur teste si la chaîne peut constituer
une syllabe dans la langue considérée. [15]
Pour la segmentation en syllabes, un segmenteur syllabique sera construit en
employant un algorithme de programmation dynamique, à l‟aide d‟un modèle syllabique, qui
segmente une phrase de texte en optimisant le critère de « plus longue chaîne d‟abord »
(LongestMatching), ou le critère de « plus petit nombre de syllabes » (Maximal Matching).
[15]
1.1.4 Segmentation en mots
La segmentation d'un message parlé en ses constituants élémentaires est un sujet
difficile. Pour l'éviter, de nombreux projets de la RAP se sont intéressés à la reconnaissance
de mots prononcés isolement. La reconnaissance des mots isolés ou tous les mots prononcés
sont supposés être séparés par des silences de durée supérieure à quelques dixièmes de
secondes, se fait essentiellement par l'approche globale. [22]
1.1.5 Segmentation en locuteurs et tour de parole
La segmentation selon le locuteur est née relativement récemment pour répondre au
besoin créé par le nombre toujours croissant de documents multimédia devant être archivés et
accédés. Les tours de parole et l‟identité des locuteurs constituent une intéressante clé d‟accès
à ces documents. Le but de la segmentation selon le locuteur est donc de segmenter en tours
de parole (un tour de parole est un segment contenant une intervention d‟un locuteur) un
document audio contenant N locuteurs et d‟associer chaque tour de parole au locuteur l‟ayant
prononcé. En général, aucune information apriori n‟est disponible, sur le nombre de locuteurs
ou leurs identités.[4]
La segmentation en macro classes acoustiques est nécessaire pour supprimer les
parties du document ne contenant pas de parole (comme la musique, les silences…) ou pour
réaliser des traitements spécifiques à des conditions acoustiques données (genre des locuteurs,
parole téléphonique, parole au-dessus de la musique…). Le processus de segmentation
acoustique
proposé en trois niveaux:parole/non parole, parole propre/parole avec
musique/parole téléphonique et homme/femme. La classification est réalisée suivant un
procédé hiérarchique en trois étapes [4]:
 Le premier niveau de segmentation correspond à une séparation “parole/non parole”.
Le procédé est basé sur une modélisation statistique des deux classes. Il consiste en
une discrimination trame à trame suivie d‟un ensemble de règles morphologiques.
Ces dernières permettent de définir des contraintes sur les segments, comme leur
durée minimale;
 La deuxième étape de segmentation consiste à répartir les zones étiquetées “parole”
en trois classes : “parole propre”, “parole et musique” et “parole téléphonique”. Cette
étape repose sur un décodage de type Viterbi associé à un HMM ergodique;
 La dernière étape est dédiée à la séparation “homme/femme”. Un procédé de même
type que pour l‟étape précédente est employée, avec des états dépendant de la classe
acoustique et du genre (une classe “parole dégradée” est ajoutée, pour augmenter la
robustesse du procédé).
18
Chapitre II
2.
Segmentation et Extraction de caractéristique de SP
Extraction descaractéristiques
Cette phase est consisté à extraire le vecteur de caractéristique de chaque segment
obtenu par la phase précèdent « Segmentation » à partir des méthodes d‟analyse pour utiliser
dans la phase suivante « Classification ».
2.1 Fenêtrage
Le découpage du signal en trames résultant de l'étape précédente produit des
discontinuités aux frontières des trames. Pour réduire ces problèmes, des fenêtres de
pondération sont appliquées. Ce sont des fonctions que l'on applique à l'ensemble des
échantillons prélevés dans la fenêtre du signal original de façon à diminuer les effets de bord.
Parmi les fenêtres les plus utilisées on trouve.[5]

Rectangulaire:
( )
{
(II.1)

Bartlett:
( )
{
(II.2)

Hanning:
( )
{

Hamming:
( )
{

Blackman:
( )
{
(
)
(
(
)
(II.3)
)
(II.4)
(
)
(II.5)
Où N représente la longueur de la fenêtre, et n un échantillon du signal.
19
Chapitre II
Segmentation et Extraction de caractéristique de SP
Figure II. 2: Exemples de fenêtres de pondération.[13]
2.2 Approches et techniques d'extraction de caractéristique
Dans ces parties nous allons détail les approches d'extraction de caractéristique et pour
chaque approche il existe plusieurs techniques.
Extraction de caractéristique
Approchetemporelle
PPZ
LPC
Approchespectrale
TDF/FFT
TBF
Approchecepstrales
MFCC
LPCC
PLP
Figure II. 3: Schéma présentant les différentes méthodes d'extraction de caractéristique.
2.2.1 Approche temporelle
Cette approche étudier le signale de parole de manier à observer la forme temporelle
du signale. On peut déduire un certain nombre de caractéristiques à partir de cette forme
temporelle qui pourront être utilisées pour le traitement de la parole. Il est, par exemple, assez
claire de distinguer les partie voisées, dans lesquelles on peut observer une forme d‟onde
quasi-périodique, des parties non voisées dans lesquelles un signal aléatoire de faible
amplitude est observé. [12]
Le signal de parole est un signal quasi-stationnaire. Cependant, sur un horizon de
temps supérieur, il est clair que les caractéristiques du signal évoluent significativement en
fonction des sons prononcés comme illustré sur la figure ci-dessous. [12]
20
Chapitre II
Segmentation et Extraction de caractéristique de SP
Figure II. 4: Représentation temporelle(Audiogramme) de signaux de parole.
Les méthodes de type temporel sont basées sur l‟analyse des caractéristiques
temporelles du signal vocal telles que : l‟énergie, le taux de passage par zéro, le calcul de la
fréquence fondamental etc. Différentes techniques permettent l‟analyse de l‟aspect temporel
du signal vocal afin de permettre de déduire ses paramètres, parmi ces méthodes nous
trouvons [7] :


Le taux de passage par zéro (PPZ),
L‟analyse par prédiction linéaire (LPC).
A. Le taux de passage par zéro
Cette méthode permet en comptant les passages par zéro du signal, de construire des
histogrammes d'intervalles de fréquence. On ne s‟intéresse pas dans cette méthode à
l‟amplitude du signal mais à son signe. Les résultats sont assez grossiers car la variance des
passages par zéro est forte surtout dans les transitoires.
Pour un signal échantillonné, il y a passage par zéro lorsque deux échantillons
successifs sont de signes opposés «c pas obligatoire». Le calcul du taux de passage par zéro
du signal de la parole permet de faire la distinction d‟une part entre le signal de la parole
(information utile) et le bruit, et d‟autre part entre les sons voisés et les sons non voisé. Grâce
au taux de ppz d‟un signal, on peut faire ressortir trois plages de valeurs qui permettent de
distinguer la nature des sons soit [12]:



Plage de silence: taux de ppz très faible (entre 0 et 3),
Plage de voisement: taux de ppz moyen (entre 4 et 27),
Plage de dévoisement : taux de ppz élevé (> 27).
Une caractéristique pour le taux de passage par zéro, est qu'il est élevé pour le son non
voisé et faible pour le son voisé. Le taux de passage par zéro constitue un outil important pour la
classification voisé/non voisé, et pour la détection du début et la fin de la parole dans un signal
vocal. [13]
21
Chapitre II
Segmentation et Extraction de caractéristique de SP
B. L’analyse par prédiction linéaire (LPC)
Cette méthode a pour objectif une représentation directe du signal vocal sous la forme
d'un nombre limité de paramètres. Sa puissance provient du fait qu'elle est fondée sur un
modèle simple de production de la parole qui s'approche du système phonatoire.[13]
Le principe de cette méthode est fondé sur l'hypothèse selon laquelle un échantillon du
signal de parole x(nTs), où Tsest la période d'échantillonnage, peut être prédit
approximativement par une somme pondérée linéairement de péchantillons le précédant
immédiatement, p est appelé 1' ordre de prédiction.[13]
Les expériences ont montré que les performances des systèmes de reconnaissance
basées sur la méthode LPC sont meilleures à celle des systèmes basés sur le banc de filtres.
Ces phases ont pour rôle de convertir le signal vocal en coefficients. Il existe 5 phases
d‟extraction de caractéristiques du signal vocal par la méthode LPC : « Le filtrage,
l‟échantillonnage, le fenêtrage, l‟auto corrélation, et le calcul des coefficients » schématiser
dans la FigureII.5.
Parole brute
LeFiltrage
α
Parole Filtrée
Echantillonnage
L
N
Frame
Le Fenêtrage
Frame Fenêtrée
Auto corrélation
P
Le paramètre R
LPC
M
Figure II. 5: L‟extraction des paramètres vocaux par LPC.
2.2.2 Approche fréquentielles ou spectrales
La deuxième approche pour caractériser et représenter le signal de parole est d‟utiliser
une représentation spectrale. [12]
22
Chapitre II
Segmentation et Extraction de caractéristique de SP
Ces méthodes sont fondées sur une décomposition fréquentielle du signal sans
connaissance a priori de sa structure fine. Il s‟agit donc de transformer le signal original de la
représentation temporelle à une représentation fréquentielle par la transformé
deFourierreprésente sous la formule (II.1). [7]
( )
∫
( )
(II.6)
Ou j2 = -1 et f(t) est la fonction temporelle.
A. La Transformé Discrète de Fourier TDF
La Transformé Discrète de Fourier TDF est une méthode d‟analyse qui n‟opère que
sur un nombre d‟échantillons qui dépasse une centaine de points d‟échantillonnage. Elle
utilise le fenêtrage temporel avec recouvrement donc le temps de calcul reste considérable.
Principe : Cette méthode est fondée sur le théorème de Fourier qui stipule que tout signal
périodique peut être décomposé en une somme de sinusoïdes harmoniques. La transformée de
Fourier conduit donc à transformer un signal complexe en une combinaison de fonctions
élémentaires de formes simples et bien connues. [7]
B. Transformée de Fourrier Rapide TFR
La Transformée de Fourier Rapide (notée par la suite FFT) est simplement une TFD calculée
selon un algorithme permettant de réduire le nombre d‟opérations et, en particulier, le nombre de
multiplications à effectuer. Il faut noter cependant, que la réduction du nombre d‟opérations
arithmétiques à effectuer, n‟est pas synonyme de réduction du temps d‟exécution. Tout dépend de
l‟architecture du processeur qui exécute le traitement.[16]
C. Traitement par bancs de filtres
Cette technique d‟analyse spectrale est basée sur la représentation du signal par sa
transformée de Fourier pendant un intervalle de temps suffisamment court. Le signal subit
ainsi une décomposition fréquentielle permettant d‟isoler les informations utiles.
Le principe de cette technique est d‟injecter le signal s(t) dans un banc de filtres passe
bande couvrant une étendue spectrale intéressante de la voix (de 200 à 600 Hz en général).
Les N filtres réalisant cette analyse doivent tous avoir un même gain unité et de fréquences
centrales différentes. Les bancs de filtres se différencient entre eux par le nombre de filtres N
qui varie en pratique entre 12 et 32 filtres, la distribution de la fréquence centrale et la
caractéristique du filtre basse-bas à la sortie du redresseur.
L‟analyse par bancs de filtres présente l‟avantage d‟une grande performance avec un
prix de revient assez faible, son inconvénient étant un manque de souplesse car la
modification des caractéristiques d‟un filtre nécessite le changement de la configuration
matérielle de ce filtre. [7]
23
Chapitre II
Segmentation et Extraction de caractéristique de SP
2.2.3 Approche cepstrales
Contrairement au spectrogramme qui ne fait appel à aucune connaissance a priori sur
le signal acoustique, l‟analyse cepstrale résulte de travaux sur le modèle de production de la
parole : son but est d'effectuer la déconvolution « source / conduit » par une transformation
homomorphique.
Les coefficients cepstraux sont obtenus en appliquant une transformée de Fourier
numérique inverse au logarithme du spectre d'amplitude. Le signal ainsi obtenu est représenté
dans un domaine appelé cepstral ou quéfrentiel ; les échantillons se situant en basses
quéfrences correspondent à la contribution du conduit vocal et donnent les paramètres utilisés
en RAP, tandis que la contribution de la source n'apparaît qu'en hautes quéfrences.[7]
Fenêtre de
Hamming
FFT
Figure II. 6: Analyse cepstrale sur une fenêtre temporelle.
Une première transformée de Fourier (FFT) est alors calculée pour obtenir un spectre
du signal. Ces coefficients sont ensuite transformés par logarithme module (Log(| |). La
convolution étant un opérateur multiplicatif, ce passage par les logarithmes permet de passer
les coefficients dans un espace additif. Une transformée de Fourier inverse (IFFT) permet
alors d‟obtenir un cepstre dont un coefficient représente le fondamental, les autres coefficients
permettant d‟obtenir le spectre de la convolution effectuée sur le fondamental. Cette méthode
de calcul des cepstres est élémentaire, il existe également des méthodes itératives effectuant
un lissage, ce qui permet d‟obtenir des cepstres de meilleure qualité.
Une extension possible des cepstres est leur passage dans un espace fréquentiel non
linéaire proche de l‟audition humaine. Il est ainsi possible de modifier la procédure de calcul
précédente pour que les coefficients obtenus soient répartis selon une échelle Mel. [16]

Échelles des hauteurs
 L'échelle des Mels
Après 500Hz, l'oreille perçoit moins d'une octave pour un doublement de la fréquence.
Des expériences psycho acoustiques ont alors permis d'établir la loi qui relie la fréquence et la
hauteur perçue : l'échelle des Mels où le « Mel » est une unité représentative de la hauteur
perçue d'un son
[21]
La relation entre la fréquence en échelle Hertz et sa correspondance en mels est la
suivante :[5]
(
24
)
(II.7)
Chapitre II
Segmentation et Extraction de caractéristique de SP
Où fHz est la fréquence, x = 2595 et y = 700. L'intérêt de l'échelle Mel est qu'elle est
assez proche d'échelles issues d'études sur la perception sonore et sur les bandes passantes
critiques de l'oreille, comme l'échelle Bark. [5]
 L'échelle de Bark
Le système auditif se comporte comme un banc de filtres dont les bandes, appelées
“bandes critiques”, se chevauchent et dont les fréquences centrales s'échelonnent
continûment. Cette bande critique correspond à l'écartement en fréquence nécessaire pour que
deux harmoniques soient discriminées dans un son complexe périodique.[21]
A. Coefficients cepstraux (MFCC)
Les coefficients cepstraux (MFCC) ont été très utilisés en RAP du fait des bons
résultats qu‟ils ont permis d‟obtenir.Lorsque le spectre d'amplitude résulte d'une FFT sur le
signal de parole pré-traité, lissé par une suite de filtres triangulaires répartis selon l'échelle
Mel, les coefficients sont appelés Mel FrequencyCepstral Coefficients (MFCC). L‟échelle
non linéaire de Mel est donnée par la formule suivante [16]:
(
)
(
)(II.8)
Afin de réduire l'information, une suite de filtres (triangulaires, rectangulaires...) est
appliquée dans le domaine spectral selon l'échelle précédemment décrite. Les coefficients
obtenus sont alors synonymes d'énergie dans des bandes de fréquence. La figure II.9 donne un
exemple de répartition d'une suite de filtres selon l'échelle Mel, couramment utilisée. [7]
Signal
Fenetre de
Hamming
Préaccentuation
Filtres
Mel
FFT
MFCC
Figure II. 7: Calcul des coefficients cepstraux MFCC.
B. LinearPredictionCepstral Coefficients (LPCC)
Lorsque le spectre correspond à une analyse LPC, les coefficients se déduisent des
coefficients LPC par développement de Taylor, d'où leur nom de LinearPredictionCepstral
Coefficients (LPCC). [7]
Signal
Préaccentuation
Matriced‟autocorr
élation
Calcul
LPC
Développement
de Taylor
Figure II. 8: Calcul des coefficients cepstraux LPCC.
25
LPCC
Chapitre II
Segmentation et Extraction de caractéristique de SP
C. Coefficients PLP
La méthode PLPPerceptualLinearPrediction (ou PerceptuallybasedLinearPrediction),
est une méthode inspirée du principe de prédiction linéaire. Elle combine ce principe à une
représentation du signal qui suit l‟échelle humaine de l‟audition. Elle est à l‟origine de toute
une famille de techniques de traitement du signal de parole. [16]
Les PLP sont basés sur le spectre à court terme du signal de parole, comme les
coefficients LPC. Cela signifie que le signale est analysé sur une fenétre glissante de courte
durée, En générale, on utilise une fenétre de longueur10 à 30 ms.que l‟on décale de 10 ms
pour chaque trame.[16]
3.
Conclusion
Dans ce chapitre nous avons cité les méthodes de segmentation et les technique
d'extraction de caractéristique de signal de parole tel que le résultat de ces techniques utilise
par les méthodes de la phase suivante. Pour cela nous allons expliquer les méthodes de
classification et détailler le classificateur qui nous allons choisir dans le chapitre suivant.
26
Chapitre III:
Classification de signal de parole
Chapitre III
Classification de signal de parole
Introduction
La phase de classification de signal de parole permet de faire les deux tâches
principales (apprentissage et décision) dans les systèmes de reconnaissance automatique par
le résultat de la phase de segmentation et extraction de caractéristique.
Dans ce chapitre on présente les catégories de classification de signal de parole et les
méthodes de chaque catégorie on forme générale. En plus, la description de la méthode de
classification qui utilisé dans notre système.
1.
Distances dans l'espaceacoustique
La reconnaissance de la parole est effectuée normalement au niveau acoustique.
Lespectre du mot à reconnaître est comparé à ceux d'un ensemble de mots appelés mots
deréférence. Il est pertinent de se demander comment mesurer le degré de similarité entreune
occurrence et une autre lors d'un processus de décision. En d'autres termes il fautétablir une
distance ou une mesure de dissemblance entre ces deux occurrences.Cependant il faut
s'assurer de réduire au minimum la sensibilité de cette distance auxfluctuations des débits
d'élocution.[13]
1.1 Mesure de distorsion
Considérons un ensemble quelconque E de points. Nous dirons que E est un
espacemétrique réel s'il existe une fonction appelée distance, notée :
D: E * E
R
Vérifiant les quatre propriétés suivantes :
)
 séparabilité: (
(
)
,
(
)
 réflexivité:
,
)
(
)
(
)
 symétrie: (
)
(
)
( )
( )
 inégalité triangulaire: (
En parole ces conditions ne sont pas toutes satisfaites (c'est le cas par exemple de la
symétrie), on parle plutôt de la mesure de dissemblance ou de mesure de distorsion.
Les distances utilisées pour comparer deux occurrences sont étroitement liées aux
types de paramètres utilisés. Une définition particulière de la distance entre deux spectres doit
être [13]:
 significative sur le plan acoustique.
 formalisable d'une façon efficiente sur le plan mathématique.
 définie dans un espace de paramètres judicieusement choisi.
1.2 Distance Euclidienne
Pour l'analyse spectrale ou cepstrale, le choix se porte généralement sur les distances
associées à la norme dite de Holder, pour des vecteurs à Kcomposantes, cette norme est:
28
Chapitre III
Classification de signal de parole
(
)
∑
(III.1)
Où a est un vecteur de paramètres du mot de référence, et b un vecteur de paramètres
du mot à reconnaître.
Pour p=2, cette distance est connue sous le nom de la distance euclidienne, qu'on peut
utiliser dans le domaine spectral ou cepstral.
1.3 Distance d'ltakura
La distance d'Itakura est utilisée pour comparer deux vecteurs a et b de (p+
1)coefficients de prédiction linéaire chacun, pétant l'ordre de la prédiction. Cette distanceest
définie par [13]:
(III.2)
[
]
Où aest le vecteur de référence et R est la matrice (p + 1) x (p + 1) des coefficients
d'autocorrélation évalués sur le segment de signal correspondant à b, et aTest le vecteur
colonne transposé de a. Pour le numérateur il s'agit de l'énergie résiduelle on peut 1' évaluer
par [13]:
( ) ( )
∑
( ) ( )
(III.3)
Où les r(k) sont les coefficients d'autocorrélation sur le segment du signal
correspondant à b, et ra (k) sont les coefficients d'autocorrélation correspondant au vecteur a.
Une autre variante de la distance d'Itakura est la distance appelée rapport de
vraisemblance (Likelihood Ratio) dont la forme est :
(III.4)
1.4 Distance cepstrale
Soit deux vecteurs C1 et Crqui contiennent respectivement les coefficients cepstrauxd'un
segment du mot de référence et d'un segment du mot à reconnaître. La distancecepstrale, d CEPest
la distance euclidienne entre ces deux vecteurs, elle est définie par :
( )
∑
( )
( )
( )
(III.5)
En pratique, on ne prend pas en considération le premier terme de la distance. La distance
cepstrale est généralement tronquée, elle est évaluée le long d'un nombre fini de coefficients
typiquement 10 à 30. Cependant ce nombre ne doit pas être inférieur à l'ordre de prédiction p si
les spectres sont issus d'un modèle tout pôle d'ordre p.[13]
La distance cepstrale sera :
∑
( )
( )
(III.6)
Avec L est le nombre de coefficients le long desquelles la distance est calculée.
29
Chapitre III
Classification de signal de parole
1.5 Distance de Mahalanobis
La distance de Mahalanobis est l‟une des mesures capables de discriminer ou de
séparer entre les classes [Mcl92]. C‟est une méthode globale linéaire pondérée par le volume
de la classe en prenant en compte l‟ensemble des échantillons d‟une classe. Soit l‟ensemble
des échantillons de l‟ensemble d‟apprentissage X n appartenant à la classe i.
∑
Soient
( )
l‟espérance et la matrice de variance-covariance
del‟ensemble des échantillons de cette classe.La distance de MahalanobisDi utilisée dans
notre cas est la distance entre l‟ensembled‟apprentissage pour la classe i et un élément x dont
on désire déterminer la classe.[17]
(
) ∑ (
)(III.7)
D est appelée distance de Mahalanobis de x à
La classe d‟affectation de x sera celle qui produira la distance minimale :
̂
2.
(
)(III.8)
Catégories de classification de signal de parole
Les méthodes de classification qui ont contribué à la création des SRAP regroupées
parmi les catégories suivantes [16]:
 classification statistique ;
 classification stochastique ;
 classificationneuronale.
2.1 Classification statistique
Les méthodes de classification statistiques consistent à faire correspondre des vecteurs
de caractéristiques de longueur fixe à un espace partitionné. Dans ces méthodes, la
classification peut être aussi simple qu‟un classifieur à distance qui compare les
caractéristiques de la forme à reconnaître avec la valeur moyenne des caractéristiques de
chaque classe, puis, attribut la forme à la classe ayant les valeurs de caractéristiques les plus
proches. Parmi les nombreuses théories et méthodes, on peut citer à titre d‟exemples [16]:



décisionBayésienne ;
la méthode des k-plus proches voisins (k-ppv).
Machines à Vecteurs de Support (SVM)
2.1.1 Décision Bayésienne
Soit un problème caractérisé par un ensemble de N observations, x = {x1, x2, …,xN}
réparties en M classes (C1, C2, …,CM) avec leur probabilité a priori P(Ci), probabilité
d‟avoir la classe Ci, calculée à partir des fréquences d‟occurrence des exemples de cette
classe. Le rôle de la théorieBayésienne est de fournir une fonction de décision qui minimise le
coût moyen d‟erreur par décision prise. Pour une probabilité d‟erreur minimum, il suffit de
construire un système qui à chaque x associe la classe dont la densité en x est la plus forte ;
30
Chapitre III
Classification de signal de parole
elle nécessite donc la connaissance de la probabilité conditionnelle d‟appartenance à une
classe Ci donnée, soit P(x/Ci). [19]
2.1.2Méthode des k-plus proches voisins (k-ppv)
Cette méthode de décision est liée à la notion de "proximité" (ou ressemblance). L'idée
de cette technique est simple. La forme acoustique à classer est comparée à d'autres déjà
classées, et on lui affecte la classe la plus représentée parmi les k plus proches.
Dans le cas particulier k=1, c'est la classe de la forme acoustique la plus proche de
celle à classer qui lui est affectée. Cette notion de voisinage est quantifiée par une mesure de
similarité. La mesure de similarité la plus utilisée est la distance euclidienne [19].
2.1.3Machines à Vecteurs de Support (SVM)
L'algorithme des machines à vecteurs de support a été développé dans les années 90 par
Vapnik. Initialement il est développé comme un algorithme de classification binaire supervisée. Il
s'avère particulièrement efficace de par le fait qu'il peut traiter des problèmes mettant en jeu de
grands nombres de descripteurs, qu'il assure une solution unique (pas de problèmes de minimum
local comme pour les réseaux de neurones) et il a fourni de bons résultats sur des problèmes réels.
[2]
2.2 Classification stochastique
L'approche stochastique utilise un modèle pour la comparaison, prenant en compte une
plus grande variabilité de la forme. Cette dernière est considérée comme un signal continu
observable dans le temps à différents endroits constituant des "état d'observations".
Le modèle stochastique décrit ces états à l'aide de probabilités de transitions d'état à
état et de probabilités d'observation par état. La comparaison consiste à chercher dans ce
graphe le chemin le plus probable correspondant à une suite d'éléments observés dans la
chaîne d'entrée.
Ces méthodes sont robustes et fiables du fait de l'existence de bon algorithme
d'apprentissage.
La reconnaissance est très rapide car les modèles comprennent généralement peu d'états et le
calcul est relativement faible. Parmi les nombreuses théories et méthodes, on peut citer à titre
d‟exemples [16]:

Model de Markov cachés
Un modèle de Markov caché (HMM) est un modèle statistique contenant des variables
cachées. Il s‟agit d‟un automate à états finis qui permet de modéliser les aspects stochastiques
du signal de parole. Ce modèle est constitué d‟un ensemble d‟états liés entre eux par un
certain nombre de transitions permises. Dans ce cas, chaque fois qu‟une observation est
émise, le système procède au passage d‟un état à l‟autre ou au bouclage dans le même état
selon les transitions permises. De manière générale, les HMM utilisés en RAP sont d‟ordre 1
compte-tenu de l‟aspect séquentiel du signal de parole. Cet ordre 1 signifie que la possibilité
de se trouver dans un état donné d‟un HMM à un instant (t+1) ne dépend que de l‟état dans
31
Chapitre III
Classification de signal de parole
lequel le système se trouvait à l‟instant t. D‟autres possibilités de modélisation, comme les
HMMs d‟ordre 2, existent mais rendent les systèmes de RAP plus complexes. Pour chaque
HMM, un état de début et un état de fin sont ajoutés à ces états d‟observation pour assurer la
transition lors de l‟enchaînement des HMMs les uns à la suite des autres durant le processus
de reconnaissance. De surcroît, un HMM contient pour chacun de ses états une probabilité
d‟émission. Cette probabilité est souventreprésentée par une distribution statistique qui
retourne un taux de vraisemblance pour chaque vecteur observe. [18]
2.3 Classification neuronale
Les réseaux de neurones possèdent des propriétés propres à leur style de raisonnement
ce qui les rendent très attrayant dans plusieurs domaines. Un des domaines d‟application les
plus répandus des réseaux de neurones est la reconnaissance des formes.
Les méthodes neuronales présentent les avantages suivants [16]:
 Puissance d‟approximation ;
 Robustesse pour des tâches difficiles ;
 Parallélisme dans le traitement des données.
Cependant, les réseaux de neurones ont des problèmes et des limites propres à eux. En
plus de temps d‟apprentissage qui est lent, l‟inconvénient majeur des méthodes neuronales
réside dans la détermination de la topologie du réseau de neurones à utiliser. En effet, la
structuration du réseau (nombre de couches cachées, nombre de neurones dans chaque couche
cachée, la stratégie de connectivité : locale ou globale, …etc) se fait avant le processus
d‟apprentissage, d‟une manière aléatoire ou en utilisant des heuristiques. [16]
3.
Méthode de classification FLC
La méthode FastLogic Classifier (FLC) permet de simuler au maximum les décisions
prise par l‟être humain : décision certaine (je suis sur de ma décision ou l‟objet en question est A) et
décision incertaine (je pense que c‟est A). [9]
3.1Points forts de FLC
Le classificateur FLC est riche par des traits qui facilitent la classification de vecteurs
de signaux, en plus aide à donner des résultats acceptable. Parmices traits est [9]:



Le classificateur utilise seulement les connecteurs (opérateurs) logique ET/OU.
Le classificateur doit contenir un mécanisme de décision pour basculer entre les deux
phases : Apprentissage et Test.
Le classificateur doit être capable d‟utiliser un Vecteur de Description
d‟Objets (OVD : Object VectorDescriptor) qui peut :
 être de la même taille du vecteur du modèle (OVD=MVD : Model VectorDescriptor).
 être de taille supérieur du vecteur du modèle (OVD>MVD : Model VectorDescriptor). Il

faut étendre la base des modèles (MDB : Models Data Base).
être de taille inférieur du vecteur du modèle (OVD<MVD : Model VectorDescriptor). Il
faut demander une description plus détaillée si nécessaire.
32
Chapitre III

Classification de signal de parole
être construit des éléments en deux parties : Indexe de la caractéristique (CI :
Characteristic Index), et valeur de la caractéristique (CV : Characteristic Value).
être avec des valeurs de caractéristiques définit par énumération ou par intervalle.

Le classificateur doit contenir une couche d‟accélération (Compression, hiérarchie).
Le classificateur doit être capable de faire des décisions certaines (exactes) et des
décisions incertaines (approchés).


3.2Structure de classificateur FLC
Principalement, le classificateur contient sept couches, qui présentent dans la figure suivant :
Instructeur
Personne
Unité IA interne
Unité IA externe
Raisonnement
X
Y
X
Y
Gestionnaire de
Classification
Gestionnaired’Appre
ntissage
Vote
Accélération
Apprentissage
Base des
Modèles
Classification
Figure III. 1: Schéma de structure de classificateur FLC.
3.2.1 Couche instructeur
Est une couche supplémentaire mais très importante qui se compose de trois candidats
possible [9] :
Personne : présente le cas où l‟instructeur est un être humain.
Unité IA Interne : présente le cas où l‟instructeur est un programme (agent) interne par
rapport à la machine contenant le classificateur.
 Unité IA Externe : présente le cas où l‟instructeur est un programme (agent) externe par
rapport à la machine contenant le classificateur.


3.2.2 Couche raisonnement
Elle contient l‟ensemble des règles de gestion de classification.
33
Chapitre III
Classification de signal de parole
3.2.3 Couche apprentissage
Elle consiste de faire la gestion de la phase d‟apprentissage, c‟est la phase dans laquelle le
système initialise et fait la mise à jour de la base des modèles. [9]
A. Création de la base des modèles
Pour l‟initialisation de la base des modèles le système prend en entrée les vecteurs de
description et les étiquettes des classes à apprendre, et les sauvegarde dans la base des
modèles. [9]
Durant ça, l‟instructeur peut donner des vecteurs de description d‟une classe séparés.
Le système convertit à l‟aide de la couche accélération ces vecteurs en mode de représentation
par énumération ou en mode de représentation par intervalle pour compresser la définition de
la classe. En plus, parfois l‟instructeur peut donner deux ou plusieurs vecteurs de la même
valeur. Dans ce cas, le système sauvegarde une seul copie. [9]
B. Mise à jour de la base des modèles
La mise à jour de la base des modèles est nécessaire pour des nouveaux exemples. Par
exemple, dans le cas où le système fait une décision incertaine ou approchée, ou dans le cas
où le système demande d‟apprendre de nouvelles caractéristiques. [9]
3.2.4Couche Classification
Elle permet de faire la gestion de phase de test, qui est composée les trois couches
suivantes :



Gestionnaire de Classification;
Vote;
Calcule.
A. Gestionnaire de classification
Cette couche permet de faire la gestion de la classification et la communication avec
l‟instructeur par la couche de raisonnement pour réapprendre ou confirmer une décision et la
figure suivante présente les détails de ces gestions
34
Chapitre III
Classification de signal de parole
Instructeur
Personne
Unité IA interne
Unité IA externe
Raisonnement
X
Y
Y'
Classification
Gestionnaire de Classification
MVS
Base des
Modèles
1
Oui
7
4
2
Oui
Oui
XS=NE
Confirmation
positive
Oui
3
i
Non
5
Oui
6
i
No
n
Existe un
instructeur
?
Non
XS>MVS
Non
XS<MVS
1
Apprendre des nouvelles indexes et
valeurs des caractéristiques. M-à-j
de la base.
2
Demande d’enrichissement de la
description du vecteur descripteur
(plus de caractéristiques).
Non
i
3
Demande de confirmation de
classification.
4
Confirmation de classification.
5
Confirmation positive de classification.
Mise à jour de la base des modèles.
6
Confirmation négative de classification.
Mise à jour de la base des modèles.
7
Correction du résultat de classification.
Mise à jour de la base des modèles.
Décisionincerta
ine = CE
Décisioncertain
e = CE
Vote
CE= trouver la classe élue
Préparer la matrice de vote
XS: Taille du Vecteur donnée X.
MVS: Taille du vecteur modèle.
NE= trouver le nombre d’élection
CE : Classe élue.
NE: nombre d'élection.
Calcule
Calcule des votes
Calcule de la
distance entre X et
MV
Figure III. 2: Classificateur FLC.
35
MV: vecteurmodèle.
Chapitre III
Classification de signal de parole
B. Vote
Cette couche consiste à préparer la matrice de vote en calculant la distance entre les
deux vecteurs X et MV. En plus, elle permet de trouver la classes élue et le nombre
d‟élections pour chacune des classes par l‟intermédiaire de la couche de calcule des votes. [9]
C. Calcule
Cette couche consiste à faire les calculs nécessaires pour les couches supérieurs :
calcule de la distance entre les vecteurs et calcule des votes. [9]
4.
Conclusion
Dans le but de faciliter la compréhension et la classification dans l'implémentation de
notre system nous avons présenté les méthodes de classification de signal de parole qui utilisé
dans les systèmes de reconnaissance automatique de parole, ainsi la description du
classificateur logique (FLC) qui utilise dans notre système, dont le chapitre suivant contient le
résultat d'exécution de cette méthode.
36
Chapitre IV:
Conception & Mise en œuvre
Conception & Mise en œuvre
Chapitre IV
Introduction
Dans les chapitres précédent nous avons présentés les déférentes étapes de système
pour traitement, reconnaissance et compréhension du son, et ensuit une explication détaillée
de certaines des techniques utilisées dans les étapes les plus importantes de la reconnaissance
de la voie (segmentation, extraction de caractéristique et classification).
Dans ce chapitre nous allons proposer une conception par affinement successif du
système en donnant son architecture générale, puis nous détaillons en étudiant séparément
chacun de ses composants, surtout la phase d‟extraction des caractéristiques ou nous allons
présenter l‟architecture du descripteur structurel vocal proposé. Ensuite, nous présentons les
résultatsobtenus.
1.
Mise en œuvre du système
Ce travail vise à développer une application de saisie des notes d‟étudiants qui
apprend d‟un ensemble d‟enregistrement du son des différents caractères arabe et par la suite
elle permet de reconnaître de nouveaux exemples (nouvelles enregistrements des mots) des
mots et les classifier. Pour ce faire, on utilise un ensemble de commandes vocales où chaque
commande passe par une succession d‟opérations : acquisition, segmentation et extraction des
vecteurs acoustiques, apprentissage et classification, et finalement modifier le fichier excel
contenant la liste des étudiants. « Figure IV.1 »
38
Conception & Mise en œuvre
Chapitre IV
Acquisition
Segmentation
Extraction des caractéristiques
Classification
Post-traitement
Figure IV. 1: Illustration des modules du système.
1.1 Acquisition
L‟acquisition est la première étape du processus de reconnaissance vocale. Ce module
consiste tout simplement à acquérir le signal de parole (information) à un micro-ordinateur
afin d‟exécuter une tâche précise. Dans notre système nous allons utiliser le microphone
comme outil d‟acquisition à l‟extérieur du PC ainsi que la carte son comme périphérique
interne. Le signal acquit est échantillonné, quantifié et codé à l‟aide de la carte son de
l‟ordinateur.
1.2 Segmentation
Cette phase est considérée comme cruciale dans le procédé de reconnaissance tel que
une bonne segmentation du signale de parole donne une bonne description et classification et
par conséquent un bon taux de reconnaissance. Parmi les méthodes de segmentation existant
nous avons choisi la méthode de segmentation en mots isolés. Pour pouvoir faire cette tâche
on passe par 02 étapes:


Segmentation niveau 1 ;
Segmentation niveau 2 ;
39
Conception & Mise en œuvre
Chapitre IV
1.2.1 Segmentation niveau 1
Dans ce composant, nous allons faire une analyse temporelle du signal. Une
inspection minutieuse de la structure temporelle (forme d'onde), en utilisant un seuil S pour
diviser ou segmenter le signal en 02 classes: silence / parole. Le résultat de cette étape est une
liste des segments des paroles et silences. La procédure suivante permet de réaliser ce niveau
de segmentation. La figure IV.2 représente un exemple.
public voidSegmenterParole(short[] audioBuffer)
{
booleanpS=true,pP=true;
for(int i = 0 ; i<audioBuffer.length ; i++)
{
if(Math.abs(audioBuffer[i]) <= maxB)
{
if((t != 0)&&(pP))
{
fp = i-1;
fw.writeBytes(" dp= "+dp+" fp= "+fp+" t=
Segmentparolepos= "+(i*hs)+"\n");
SegmentXYseg = new
SegmentXY(dp,fp,SegmentXY.SPEECH);
listeSegment.add(seg);
t = 0;pP=false;pS=true;
}
if(s == 0)ds = i;s++;
}
else //audioBuffer[i] >maxB
{
if((s != 0)&&(pS))
{
fs = i-1;
fw.writeBytes(" ds= "+ds+" fs= "+fs+" t= SegmentSilencepos=
"+(i*hs)+"\n");
SegmentXYseg = new
SegmentXY(ds,fs,SegmentXY.SILENCE);
listeSegment.add(seg);
s = 0;pP=true;
pS=false;
};
if(t == 0)dp = i;t++ ;
}
}
}
40
Conception & Mise en œuvre
Chapitre IV
_FileWriter () : est une classe qui permet de crée dans les fichiers texte.
writeBytes(s : chaine de caractère) : fonction dans la classe _FileWriter () qui permet
d‟écrire uneligne dans le fichier texte.
Segmentation Niveau 1
S
P
S
P
S
P
S
….
P
S
Figure IV. 2: Exemple de segmentation niveau 1.
1.2.2 Segmentation niveau 2
Dans cette étape, le système analyse la liste produite par l‟étape précédente en utilisant
02 critères: longueur minimal de parole et longueur minimal du silence. En fin du traitement
on obtient une liste qui contient seulement le début et la fin de chaque segment de parole. Ces
segments vont être utilisé par la suite pour le module d‟extraction des caractéristiques afin des
connaitre la nature des segments et reconstruire les différents mots d‟une phase.La figure IV.3
illustre un exemple de segmentation niveau 2, elle est réalisée par le code suivant:
public voidgetSpeechSegments()
{
int i=1;
do
{
SegmentXY seg1 =(SegmentXY)listeSegment.get(i-1);
SegmentXY seg2 =(SegmentXY)listeSegment.get(i);
SegmentXY seg3 =(SegmentXY)listeSegment.get(i+1);
if((seg1.type==SegmentXY.SPEECH)&&(seg2.type==SegmentXY.SILENC
E)&&(seg3.type==SegmentXY.SPEECH)&&((seg2.y-seg2.x)<minS))
{
41
Conception & Mise en œuvre
Chapitre IV
seg1.y=seg3.y;
listeSegment.remove(i);
listeSegment.remove(i);
}
else i++;
}while(i<(listeSegment.size()-1));
i=0;
do
{
SegmentXYseg =(SegmentXY)listeSegment.get(i);
if((seg.type==SegmentXY.SPEECH)&&((seg.y-seg.x)<minP))
{
if(i==0)
{
SegmentXY seg2 =(SegmentXY)listeSegment.get(i+1);
if(seg2.type==SegmentXY.SILENCE);
{
seg2.x=seg.x;
listeSegment.remove(i)
}
}
if((i>0)&&(i<listeSegment.size()-1))
{
SegmentXY seg1 =(SegmentXY)listeSegment.get(i-1);
SegmentXY seg2 =(SegmentXY)listeSegment.get(i+1);
if((seg1.type==SegmentXY.SILENCE)&&(seg2.type==
SegmentXY.SILENCE))
{
seg1.y=seg2.y;
listeSegment.remove(i);
listeSegment.remove(i);
42
Conception & Mise en œuvre
Chapitre IV
}
}
if(i==(listeSegment.size()-1))
{
SegmentXY seg2 =(SegmentXY)listeSegment.get(i-1);
if(seg2.type==SegmentXY.SILENCE)
{
seg2.y=seg.y;
listeSegment.remove(i);
}
}
}
else i++;
}while(i<(listeSegment.size()));
i=0;
intpassageZero =0;
PassageParZero(listeSegment);
do
{
SegmentXYseg=(SegmentXY)listeSegment.get(i);
passageZero =PassageParZero(seg);
if(seg.type==SegmentXY.SILENCE)
{listeSegment.remove(i); }
else
if(passageZero<200)
{listeSegment.remove(i);}
else
if((mean(seg)<100)||(mean(seg)>5000))
listeSegment.remove(i);
else i++;
43
Conception & Mise en œuvre
Chapitre IV
}while(i<(listeSegment.size()));
PrintSegParole(listeSegment);
}
PassageZero( liste ) : fonction qui donne le nombre de passage par zéro de chaque segment
dans la liste.
mean (Segment) : fonction qui donne le moyen des amplitudes d‟un segment de la liste.
S
P
S
P
S
P
S
….
Segmentation Niveau 2
Bruit
P
S
Segment de
parole
Figure IV. 3: Exemple de segmentation niveau 2.
1.3 Extraction des caractéristiques
L„extraction des caractéristiques consiste à utiliser une techniques d‟analyse
(statistiques, hybride, structurelle,…etc.) pour obtenir les caractéristiques qui donnent une
bonne description des segments de parole. Pour ce faire, Il existe une diversité de méthodes
mais dans notre système nous avons proposé un nouvelle modèle de descripteur pour extraire
les caractéristiques structurel d‟un signal vocal.
1.3.1 Normalisation de signal vocal
Les segments obtenus dans la phase précédente « segmentation » sont caractérisé par
la variabilité dans la longueur et l‟amplitude. Pour cela nous avons proposé la méthode de
normalisation qui minimise cette variabilité. Cette méthode utilise une taille fixe (H=3000,
L=30000). La figure IV.4 montre un exemple de normalisation, elle est réalisée par le code
suivant:
44
Conception & Mise en œuvre
Chapitre IV
publicshort[] normalize(SegmentXYs,intnv,intnh)
{
int start = (int)(s.x);
int end = (int)(s.y);
int size=end-start;
short[] nb=new short[nh];
intmax_val=getMax(audioBuffer,start,end);
doublehs=((nh+0.0)/size);
int x=0;
double pos=0.0;
int v1,v2,cc=0;
v1=(int)Math.floor((audioBuffer[start]*nv)/max_val);
nb[x]=(short)v1;
intmax_Value=v1;
for(int i=start+1;i<end;i++)
{
v2=(int)Math.floor((audioBuffer[i]*nv)/max_val);
if(Math.abs(v2)>max_Value)max_Value=Math.abs(v2);
nb[x]=(short)v2;
pos=pos+hs;
x=((int)Math.floor(pos));
}
audioBuffer=nb;
sampleViewersv= new sampleViewer(sW,sH,BufferedImage.TYPE_INT_RGB);
sv.createWaveForm();
sampleViewer.paint(sampleViewer.getGraphics());
scrollPane.repaint();
returnnb;
}
Où:
getMax(audioBuffer: tableaux, startentire , end entier): fonction permettant d'obtenir la
valeur max dans la table audioBuffer de l‟intervalle [Start , end].
45
Conception & Mise en œuvre
Chapitre IV
‫رقـــــــــــــــم‬
Normalisation
Figure IV. 4: Exemple de normalisation de mot « ‫»رقـــم‬.
1.3.2 Méthode proposée
Notre proposition consiste à utiliser une méthode structurelle pour extraire les vecteurs
caractéristiques
des
segments
normalisés
obtenus
par
l‟étape
précédente
« normalisation ».Cette étape génère des vecteurs caractéristiques de taille fixe égale à L/k.
Pour obtenir une description structurelle le système divisela longueur du segment considéré
surk(dans notre cas k=150), ce qui génère des parties égales, puis calcule le moyen de chaque
partie. Finalement, nous allons obtenir un vecteur caractéristique de taille L/k=200.
46
Conception & Mise en œuvre
Chapitre IV
C1=Moy1
Méthodestructurelle
Ck=Moyk
C0=Moy0
Vecteur « ‫» رقم‬
C1 C2 C3 C4
…
CK
Figure IV. 5: Exemple d’extraction des caractéristiques pour le mot « ‫»رقـــم‬.
1.4 Classification
Cette phase consiste à utiliser une méthode de classification (dans notre cas FLC). Elle
se divise en deux sous phases: Apprentissage et Test ou Décision. La première consiste à
initialiser la base des modèles, autant que la deuxième consiste à assigner une classe pour
chaque nouveau exemple donnée (vecteur caractéristique).
47
Conception & Mise en œuvre
Chapitre IV
Chained’initialisation
C1 C2 C3 ...
“Num”
Cn VecteurCaractéristiques VC
Classification (FLC)
Apprentissage
Prédiction
VC≈VM ?
Initialisation de
la base des
données
Non
Oui
Comparaison avec les
modèles existant VM
BD des
modèles
Chaine de definition
VMs
“Num”
Figure IV. 6: La phase de classification.
1.4. 1 Apprentissage
Cette phase consiste à initialiser ou créer la base des modèles en sauvegardant les
caractéristiques des différents caractères.
1.4.2 Décision / Classification
Elle consiste à utiliser les caractéristiques extraites dans la phase précédente pour
attribuer une classe en se basant sur les données de la base des modèles. Dans la réalité, cette
phase se divise en deux parties :
48
Conception & Mise en œuvre
Chapitre IV
1. Classification exacte ; et
2. Classification approchée.
A. Classification exacte
Dans ces cas, le système compare le vecteur donnée X avec un vecteur modèle MV et
trouve que tous les caractéristiques de X coïncide avec les caractéristiques de MV. Selon ces
informations le système considère que sa décision est certaine (exacte). Parce que, la taille de
X est égale à la taille de MV (XS=MVS).
Comme exemple, considérons les données suivantes des caractères (‫ نقطت‬،‫)رقم‬
sauvegardées dans la base des modèles :
Num C1 2 1 0.49813986 C2 2 1 -0.35544977 C3 2 1 -0.32273778 C4 2 1 -0.38370106 ...
Num C1 2 1 0.33787295 C2 2 1 -0.15571517 C3 2 1 -0.46929294 C4 2 1 -0.33220175…
NumC1 2 1 0.4486087 C2 2 1 -0.32384408 C3 2 1 -0.3370984 C4 2 1 -0.35393882…
Note C1 2 1 0.52724016 C2 2 1 -0.11134369 C3 2 1 -0.22136661 C4 2 1 -0.28330418...
Note C1 2 1 0.5521551 C2 2 1 0.14634295 C3 2 1 -0.18275556 C4 2 1 -0.22439806…
Note C1 2 1 0.5521551
C2 2 1 0.14634295
C3 2 1 -0.18275556 C4 2 1 -0.22439806…
Ensuite, le vecteur caractéristique X suivant :
Num C1 2 1 0.49813986 C2 2 1 -0.35544977 C3 2 1 -0.32273778 C4 2 1 -0.38370106
Nous pouvons remarquer par une simple comparaison des données des vecteurs que
les caractéristiques du vecteur X coïncident exactement avec les caractéristiques du troisième
modèle du caractère Num.
d(x,y)=|xi-yj|
2 1 0.49813986
Liste des
candidats
2 1 -0.35544977
Num
Num
2 1 -0.32273778
2 1 -0.38370106
Num
Vecteur X
Num
Note
Figure IV. 7: Exemple de classification exacte.
B. Classification approchée
Malheureusement, parfois à cause des états variés des locuteurs« le tempérament du
locuteur, état émotif, état de fatigue… » oul‟outil capteur utilisé n‟est pas vraiment fiable,
nous pouvons tomber dans le cas où les caractéristiques sont proches mais se diffèrent en
valeur de celle de la base des modèles.
49
Conception & Mise en œuvre
Chapitre IV
Par exemple, prenons le vecteur X suivant :
Note C1 2 1 0.5521551
C2 2 1 0.14634295
C3 2 1 -0.18275556 C4 2 1 -0.22439806
Pour ce vecteur, il n‟est pas possible de faire une classification exacte parce que les
valeurs sont proches mais se diffèrent de celles des modèles du caractère Note. Pour cela, on
essaye de réaliser un calcule distance à l‟aide d‟une fonction noyau.
Dans notre travail, nous avons utilisé une distance de Manhattan : qui calcule la somme
des valeurs absolues des différences entre les valeurs de deux caractéristiques:
d(x,y)=|xi-yj|.
2 1 0.5521551
a)Liste des
candidats
2 1 -0.18275556
2 1 -0.22439806
Vecteur X
2 1 0.14634295
2 1 -0.18275556
2 1 -0.22439806
Vecteur X
Note
2 1 0.5521551
b)Liste des
candidats
2 1 0.14634295
Note
Note
Note
Note
Figure IV. 8:a) Résultat par classification exacte, b) Résultat par classification approchée.
Premièrement, le système utilise verticalement une fonction min pour choisir le
candidat le plus proche à chacune des caractéristiques. Ensuite, il utilise horizontalement une
fonction max pour choisir la classe élue
1.5 Post-traitement
La chaine des étiquètes « ex : Num Cinq Note Un » obtenu par la phase II.4 est
l‟entrée de la phase de post-traitement. Le résultat obtenu par cette phase représente une
commande qui va engendrer une modification dans le fichier Excel cible.
La table ci-dessous présente quelques exemples des chaines de définition des segments de
parole:
50
Conception & Mise en œuvre
Chapitre IV
Table IV. 1: Exemple des chaines de définition des segmente de parole.
Mots prononcer
‫رقــــــــــــــــــم‬
‫نقــــــــــــــطت‬
‫واحــــــــــــــــــد‬
‫اثنـــــــــــــــــــان‬
‫ثالثــــــــــــــــــــت‬
‫أربــــــــــــــــــعت‬
‫خمســـــــــــــــــت‬
‫ستـــــــــــــــــــــت‬
‫سبعــــــــــــــــــــت‬
‫ثمانيــــــــــــــــــــت‬
‫تسعـــــــــــــــــــــت‬
‫عـــــشــــــرة‬
2.
Etiquette « chaines de définition »
« Num »
« Note »
« Un »
« Deux »
« Trois »
« Quatre »
« Cinq»
« Six »
« Sept »
« Huit »
« Neuf »
« Dix»
Résultats et bilan
Cette section présente le choix du langage de programmation, les différentes interfaces
et fenêtres principales du système, les tests et résultats obtenus.
2.1 Choix du langage de programmation
Dans ce travail, nous avons choisi comme environnement de programmation le
langage JAVA qui possède une richesse et offre une grande simplicité de manipulation de son
et d'images, soit en acquisition ou en génération des fichiers images. Ce langage possède des
avantages très intéressants tel que :




La portabilité des logiciels;
La réutilisation de certaines classes déjà développées;
La possibilité d„ajouter à l„environnement de base des composants fournis par
l„environnement lui-même;
La quasi-totalité de contrôle de Windows (boutons, boites de saisies, listes
déroulantes, menus …etc.) qui sont représentés par classes.
2.2 Interfacesdu système
Notre système est démarré par l‟interface suivante qui schématisé dans la figure ci-dessous.
51
Conception & Mise en œuvre
Chapitre IV
Figure IV. 9: L'interface de démarrage de notre système.
La figure suivante présente l'interface principale de notre système qui comporte les
boutons principaux de l'application.
Figure IV. 10: Fenêtre principale de l‟application.
2.2.1 Utilisation de l’application
Notre application permet de saisir les notes des étudiants vocalement pour faire cela:
52
Conception & Mise en œuvre
Chapitre IV
A. Premièrement, l‟utilisateur choisit un fichier excel cible dont lequel nous allons
enregistrer les notes des étudiants, en cliquant sur le bouton ‘Choisir fichier’.
B. Ensuite, il clique sur le bouton ‘Start’, dicte une commande de la forme décrit dans la
section II.5, puis clique sur le bouton ‘Stop’ pour arrêter l‟enregistrement et ajouter la
note dans le fichier;
C. En plus, Il est possible d‟avoir des détails sur le signal de son donné en cliquant sur le
bouton ‘Sound Analyser’. (Voir la figure IV.11)
3. le choit de fichier
1. Commencer
l’enregistrement de son
1. Arrêter
l’enregistrement de
son
5.Analyer le signal
de son
Figure IV. 11: Illustration de l‟utilisation de l‟application.
2.2.2 Analyse du son (Sound Analyser)
Cette interface peut être utilisée suivant deux modes:
 Apprentissage: comme phase initiale pour aider le système à apprendre les différentes
classes ;
 Test: pour tester et calculer le taux de reconnaissance.
A. Mode apprentissage
Ce mode peut être vu comme phase initiale ou d'initialisation de la base de
connaissancedu système, pour le faire on procède comme suit:
1.On enregistre le signal de son par les boutons ‘Start’ et ‘Stop’.
2.Le signal de son est segmenté en un ensemble de segments par le bouton ‘Segmenter’dont
chaque segment est entre deux lignesbleues (figure IV.12).
53
Conception & Mise en œuvre
Chapitre IV
Segmenter le signal en
mot
Figure IV. 12: Illustration de segmentation de signal de son.
3. Saisir la chaine des étiquètes puis cliquer le bouton ‘learn’ pour extraire les caractéristiques
de nouveaux exemples et sauvegarderle vecteur résultant dans la base de connaissances du
système.(Figure IV.13)
Bouton
Apprentissage
Le chaine d’étiquètes
Figure IV. 13: Illustration d‟apprentissage de nouveaux exemples.
54
Conception & Mise en œuvre
Chapitre IV
B. Mode de test
Ce mode permet de faire la reconnaissance de signal après la comparaison entre les
vecteurs modèles de la base des modèles obtenus par la phase d‟apprentissage et le vecteur de
signal donné, cette action est faite par le bouton ‘Test’. (Voir figure IV.14)
‫رقــــــــــــــــم‬
‫واحــــــــــــــــــــــــــد‬
‫ستـــــــــــــــة‬
‫نقطـــــــــــــــــــــة‬
Bouton de
reconnaissance
Num 1 Note 6
Figure IV. 14: Illustration de test d‟un exemple donné.
3.
Comparaison des résultats (LPC/MS)
Pour évaluer la performance de notre méthode nous avons divisé les échantillons en
des exemples d‟apprentissage et d‟autres pour le test « voir tableau IV.2 ». Les résultats sont
calculés pour la méthode structurelle proposée ainsi que la méthode statistique LPC. Dans
cette évaluation nous avons pris les critères de comparaisons suivantes :
 Taux de reconnaissance ;
 Temps d‟exécution ;
 Robustesse de la méthode.
La table suivant représente les résultats obtenus dans cette comparaison et les exemples
utilisés sont : « ‫ سبعت عشر‬,‫ ستت‬,‫ خمست‬,‫ ثالثت‬,‫ اثنان‬,‫ واحد‬,‫ نقطت‬,‫» رقم‬
Ou :
NEA : Nombre d‟Exemple utilise pour l‟Apprentissage ;
55
Conception & Mise en œuvre
Chapitre IV
NET : Nombre d‟Exemple utilise pour le Test ;
TR : Taux de Reconnaissance, et TE : Temps d‟Exécution.
Table IV. 2 : Illustration des résultats obtenus avec une comparaison de la méthode LPC.
Nombre
de Classe
NEA
NET
8
80
160
240
320
400
560
31
63
95
127
159
191
MS
TR
93%
88%
95%
92%
93%
92%
LPC
TE
2 min 17s
7 min 6s
13 min 49s
22 min 39s
36 min 36s
54 min 1s
TR
19,35 %
19,04%
17,89%
18,89%
23,89%
21,98%
TE
4 min 28s
15 min 32s
34 min 7s
59 min 9s
1 h 32 min 4s
2h 36 min 48s
100
90
80
70
60
TR 50
MS
40
LPC
30
20
10
0
0
50
100
150
200
250
NET
Figure IV. 15: Illustration de Taux de reconnaissance de MS et LPC.
180
160
140
120
TE
100
80
MS
60
LPC
40
20
0
0
50
100
150
200
250
NET
Figure IV. 16: Illustration de temps d'exécution de MS et LPC.
56
Conception & Mise en œuvre
Chapitre IV
D‟après les résultats de la table IV.2 et les courbes des figures IV.15, IV.16 nous
avons observé que la méthode structurel est mieux que LPC dans le taux de reconnaissance et
le temps d‟exécution.
4.
Conclusion
Nous avons présenté dans ce chapitrel‟architecture globale du système, ainsi que les
différents modulesen détails. En plus, nous avons décrit la méthode structurelle d‟extraction
des caractéristiques. En fin, les résultats de classification sont calculés pour notre méthode et
la méthode LPC afin de faire une comparaison entre les 02 méthodes.
57
Conclusion générale &perspectives
Jusqu‟aujourd‟hui, La reconnaissance du son et la reconnaissance de la voie en
particulier présente un défi très grand, malgré les efforts et les travaux intensifs réalisés dans
ce domaine, aucun système RAP n„est jugé fiable à 100%, Mais ou fur et à mesure les autre
essayent d„améliorer les scores pour de meilleurs résultats. Et elle joue un rôle très important
dans le monde actuel. Elle est capable de résoudre des problèmes complexes et rendre les
activités de l'homme plus simple.
Dans ce travail ont été intéresser à présenter un modèle de descripteur structurel de la
voie Arabe, En noyant d‟améliorer le taux de reconnaissance en empreint un chemin différent
(méthode structurelle) que ceempreinte par les méthodes souvent utilisées comme LPC,
MFCC,..etc (méthodes statistiques ou stochastiques). Comme application nous avons choisi
une application de dicté pour saisir les notes des étudiants.
De plus, une technique de segmentation à deux niveaux est utilisée pour segmenter le
signale de parole en mots pour pouvoir avoir la possibilité d„extraire des caractéristiques
structurelles de ces segmentes.
Par la suit, le système utilise un modèle de descripteur vocale structurel à deux étages :
le premier, consiste à normaliser la structure du signal (mot) selon 02 facteurs (amplitude et
longueurs), le second, divise le segment normalisé en des parties égales et calcule le moyen
de chaque partie afin de donner un vecteur caractéristique.
Ensuite un classificateur FLC est utilisé pour classer les différentes signale de parole.
Finalement, les résultats de classification avec la méthode proposée ont été comparé avec
ceux de LPC selon 03 critères : taux de reconnaissance, temps d‟exécution et robustesse on
stabilité de la méthode dans des différents environnements.
Les résultats obtenus ont été acceptables, mais un taux de reconnaissance bien définit
pour de tels systèmes des tests réels sont exigés. Plusieurs ambiguïtés ont été rencontrées
durant notre étude, parmi lesquelles nous citons :

De tels systèmes sont normalement destiné à être utiliser avec des machines qui
possède un environnement d„acquisition conditionné.

Les conditions d‟enregistrement ne répondent pas aux contraintes d‟application
« bruit, position et sensibilité du microphone… » ;
Les états variés des locuteurs « le tempérament du locuteur, état émotif, état de
fatigue… ». Ces conditions onune influence sur les résultatsobtenus.
L‟outil capteur utilisé n‟est pas vraiment fiable ;
La diversité des notions liées au concept de la parole « la reconnaissance de mots
prononcés, La dictée vocale, La différentiation entre locuteur masculin, féminin et
enfant, la dépendance ou non dépendance du texte…. etc.. » ;



58
Comme perspective, il est nécessaire d‟améliorer de plus la méthode pour la rendre
stable dans des environnements bruités. En plus, ses résultats doivent être comparés avec
d‟autres méthodes comme PLP, MFCC…etc.
59
Bibliographie
[1]
BadraKhellat.K : «La Reconnaissance Automatique de la Maladie de Parkinson »,
Mémoire pour l‟obtention de diplôme Magister en Informatique, Université Des
Sciences Et De La Technologie D'Oran, Année 2012.
[2]
Bahlmann.C, Haasdonk.B, Burkhardt.H: « On-line Handwriting Recognition with
Support Vector Machines - A Kernel Approach », Publ. in Proc. of the 8th Int.
Workshop on Frontiers in Handwriting Recognition (IWFHR), pp. 49–54,
Germany, 2002.
[3]
Calliope : « La parole et son traitement automatique », Masson, 1989.
[4]
Daniel.M, Sylvain.M, Corinne.F, Laurent.B, Jean-François.B : « Segmentation
selon le locuteur : les activités du Consortium ELISA dans le cadre de Nist RT03»,
Avignon Cedex 9-France, Année 2004.
[5]
Fawzi.B : « Commande vocale d‟un robot manipulateur », Mémoire pour
l‟Obtention du Diplôme de Magister En Electronique, Université De Batnam,
Année 2014.
[6]
François.L : « Segmentation non supervisée d‟un flux de parole en syllabes »,
Rapport de stage de master II recherche, 31 Juillet 2012.
[7]
Halima.A :« Un système neuro-expert pour la reconnaissance de la parole -Neural
Expert System for Speech Recognition- », Mémoire pour l'obtention d‟un Doctorat
d‟Etat en Informatique, 2005.
[8]
Ibrahim.M, Walid.I, Osama.M, Al-Zahraa.M: « Recognition of phonetic Arabic
figures via wavelet based Mel Frequency Cepstrum using HMMs », HBRC Journal
(2014) 10, 49–54.
[9]
Imane Ben.G :« Proposition d‟un modèle de classification de clssificateur logique ;
application dans la reconnaissance du texte arabe imprimé », Mémoire pour
l'obtention du Master II En Informatique,Juin 2014.
[10]
Julien.A :« Approche De La Reconnaissance Automatique De La Parole », Examen
Probatoire en Informatique, Année 2003.
[11]
JulineLe.G : « Amélioration des Systèmes de reconnaissance de la parole des
personnes âgées », Mémoire pour l'obtention du Master II Recherche, Laboratoire
LIG, Équipe : GETALP BP 53, Année 2011/2012.
60
[12]
Kamal.B : « Modèle de Markov Cachés : Application à la Reconnaissance
Automatique de la Parole », Mémoire pour l‟obtention de diplôme Magister en
électronique, Année 2014.
[13]
Khaled.Z :« Implémentation D'une Méthode De Reconnaissance De La Parole Sur
Le Processeur De Traitement Numérique Du Signal Tms320c6711 », Mémoire
Présenté À L'école De Technologie Supérieure Comme Exigence Partielle À
L'obtention De La Maitrise En Génie Électrique, 10 Juin 2004.
[14]
Kunal.Sh, Nishant.S, Pradip K. Das, Shivashankar B. Nair: « A Speech Recognition
Client-Server Model for Control of Multiple Robots », Année 2013.
[15]
LÊ Viet.B: « Reconnaissance automatique de la parole pour des langues peu dotes
», thèse Docteur de L‟université Joseph Fourier - Grenoble 1 en Informatique, juin
2006.
[16]
Lotfi.A:« Un Systeme Hybride Ag/Pmc Pour La Reconnaissance De La Parole
Arabe », Mémoire pour L‟obtention Du Diplôme De Magister en Informatique,
Université Badji Mokhtar Annaba, Année 2005.
[17]
Marwa.C: «Détection et classification des signaux non stationnaires par utilisation
des ondelettes. Application aux signaux électromyographies utérins», Thèse
Docteur De L‟université De Technologie De Troyes, Année 2010.
[18]
Matthieu.C: «Identification audio pour la reconnaissance de la parole », Thèse
Docteur de l„Université du Paris Descartes, Année 2011.
[19]
Menasri.F: « Segmentation d„image Application aux documents anciens », Thèse
Docteur de l„Université Paris Descartes en Informatique, France, Juin 2008.
[20]
Muhammad.T, Tarek.H andReda.AAlez : « Multi-Agent based Arabic Speech
Recognition» , International Conferences on Web Intelligence and Intelligent Agent
Technology -Workshops, 2007 IEEE/WIC/ACM.
[21]
Nacer-eddine.M : « Conception et Réalisation d‟un système de pilotage d‟un
véhicule par commande vocale », Mémoire pour l'obtention du Master II En
Informatique,Juin 2011.
[22]
Oualid.D : « Reconnaissance Automatique De La Parole Arabe Par Cmu Sphinx 4
», Mémoire pour L‟obtention Du Diplôme De Magister en électronique, Université
Ferhat Abbas -Sétif 1-, Année 2013.
61
[23]
René.B, Murat.K « Traitement de la parole.Presses polytechniques romandes »,
Lausanne, Année 1987.
[24]
Samir.N : « Segmentation automatique de parole en phones. Correction d'étiquetage
par l'introduction de mesures de confiance », thèse Docteur de l'Université de
Rennes 1en Informatique, Année 2004.
[25]
Somaia.T, WafaaEl.K, Hesham.T, Eman.M : « The effect of using integrated signal
processing hearing aids on the speech recognition abilities of hearing impaired
Arabic-speaking children », Egyptian Journal of Ear, Nose, Throat and Allied
Sciences (2014) 15, 215–224.
[26]
Satori.H, Harti.M, Chenfour.N: « Système de Reconnaissance Automatique de
l‟arabe basé sur CMUSphinx», Département de Mathématiques et Informatique,
Faculté des Sciences, B.P. 1796, DharMehraz Fès, Morocco.
[27]
Sofiane.B: «Développement d‟un système automatique de synthèse de la parole à
partir du texte arabe standard voyelle », », Thèse Docteur de l„Université du Maine
France, Année 2003.
62

Documents pareils