Thèse de Doctorat Laboratoire Images, Signaux et Systèmes

Transcription

Université PARIS XII – Val de Marne
Thèse de Doctorat
Laboratoire Images, Signaux et Systèmes Intelligents
EA 3956
Par
Nadia KANAOUI
Sujet: CONTRIBUTION A L’ETUDE ET A LA MISE EN
ŒUVRE D’APPROCHES HYBRIDES D’AIDE AU
DIAGNOSTIC: APPLICATION AUX DOMAINES
BIOMEDICAL ET INDUSTRIEL
M. Ezeddine BEN-BRAIEK
(MCF)
Rapporteur
M. Amine CHOHRA
(MCF)
Examinateur
M. Claude LISHOU
(Professeur)
Examinateur
M. Hichem MAAREF
(Professeur)
Rapporteur
M. Kurosh MADANI
(Professeur)
Directeur de thèse
M. Gilles ZWINGELSTEIN
(Professeur)
Examinateur
i
Dédicaces
Cette thèse n’aurait pas vu le jour sans l’aide et le soutien de ma famille et je la
dédie à
Mon Papa et ma Maman,
A mes frères et mes sœurs.
i
ii
TABLE DES MATIERES
TABLE DES MATIERES.....................................................................................................iii
LISTE DES ABREVIATIONS ............................................................................................... vii
LISTE DES FIGURES ............................................................................................................ ix
LISTE DES TABLEAUX.......................................................................................................xiii
INTRODUCTION GENERALE ........................................................................................... 1
Chapitre I. SYSTEMES D’AIDE AU DIAGNOSTIC (SAD) .................................... 9
I. 1. INTRODUCTION ................................................................................................................... 11
I. 2. SYSTEMES D’AIDE AU DIAGNOSTIC (SAD) ................................................................. 12
I. 2. 1. Défaillances..................................................................................................................................... 12
I. 2. 2. Détection de Défaillances............................................................................................................... 13
I. 2. 3. Indice de Confiance d’un Diagnostic............................................................................................ 13
I. 2. 4. Représentation de la Connaissance .............................................................................................. 13
I. 2. 5. Classification .................................................................................................................................. 14
I. 2. 6. Prise de Décisions ........................................................................................................................... 15
I. 2. 7. Architecture Globale d’un Système d’Aide au Diagnostic (SAD).............................................. 16
I. 3. ETAT DE L’ART SUR LES APPROCHES POUR LES SYSTEMES D’AIDE AU
DIAGNOSTIC (SAD) ..................................................................................................................... 17
I. 3. 1. Modèles Quantitatifs...................................................................................................................... 17
I. 3. 2. Modèles Qualitatifs ou Semi-Qualitatifs ...................................................................................... 18
I. 3. 3. Analyse des Modes de Défaillances et de leurs Effets ................................................................. 19
I. 3. 4. Arbres de Défaillances ................................................................................................................... 20
I. 3. 5. Analyse en Composantes Principales ........................................................................................... 21
I. 3. 6. Systèmes Experts............................................................................................................................ 22
I. 3. 7. Systèmes Flous (SF) ....................................................................................................................... 23
I. 3. 8. Réseaux de Neurones (RN)............................................................................................................ 26
I. 3. 9. Synthèse .......................................................................................................................................... 27
I. 4. PROBLEMATIQUE ET SOLUTIONS PROPOSEES........................................................ 28
iii
I. 5. CONCLUSION ........................................................................................................................ 30
Chapitre II. ETUDE, CONCEPTION, ET DEVELOPPEMENT D’UN SYSTEME
HYBRIDE MODULAIRE (SHM) POUR L’AIDE AU DIAGNOSTIC ...................... 31
II. 1. INTRODUCTION ................................................................................................................. 33
II. 2. ARCHITECTURE DE L’APPROCHE HYBRIDE MODULAIRE PROPOSEE........... 33
II. 3. ETUDE ET CONCEPTION ................................................................................................. 35
II. 3. 1. Représentation de la Connaissance............................................................................................. 35
II. 3. 1. 1. Représentation ‘‘Signal’’ de la Connaissance ................................................................... 35
II. 3. 1. 2. Avantages d’une Représentation Image de la Connaissance ........................................... 36
II. 3. 1. 3. Conversion Signal - Image de la Connaissance ................................................................. 37
II. 3. 1. 3. 1. Méthode de Conversion Signal - Image..................................................................... 38
II. 3. 1. 3. 2. Critères de Choix d’un Seuil de Coupe ..................................................................... 39
II. 3. 1. 4. Représentation Image Globale de la Connaissance .......................................................... 46
II. 3. 1. 5. Représentation Image Subdivisée de la Connaissance ..................................................... 46
II. 3. 2. Classification................................................................................................................................. 47
II. 3. 2. 1. Méthodes de Groupement (‘‘Clustering’’) ........................................................................ 47
II. 3. 2. 2. Méthodes Statistiques .......................................................................................................... 48
II. 3. 2. 3. Arbres de Décisions et Inductions ...................................................................................... 49
II. 3. 2. 4. Réseaux de Neurones (RN).................................................................................................. 50
II. 3. 2. 5. Choix d’une Méthode de Classification ............................................................................. 50
II. 3. 3. Prise de Décisions ......................................................................................................................... 52
II. 3. 3. 1. Analogie ................................................................................................................................ 53
II. 3. 3. 2. Méthode de Vote .................................................................................................................. 53
II. 3. 3. 3. Logique Floue (LF) .............................................................................................................. 55
II. 3. 3. 4. Choix d’une Méthode de Prise de Décisions ...................................................................... 55
II. 4. PRINCIPALES VARIANTES DE L’APPROCHE PROPOSEE...................................... 66
II. 5. CONCLUSION ...................................................................................................................... 67
Chapitre III. MISE EN ŒUVRE ET COMPARAISON DES SHM ..................... 71
III. 1. INTRODUCTION ................................................................................................................ 73
III. 2. APPLICATION BIOMEDICALE: Etude de Cas............................................................. 73
III. 2. 1. Présentation de l’Application..................................................................................................... 73
III. 2. 1. 1. Description .......................................................................................................................... 74
III. 2. 1. 2. Contexte Clinique............................................................................................................... 76
III. 2. 2. Elaboration des Bases de Connaissances .................................................................................. 78
III. 2. 3. Systèmes Hybrides Modulaires (SHM) ..................................................................................... 83
iv
III. 2. 3. 1. Mise en Œuvre.................................................................................................................... 83
III. 2. 3. 1. 1. Classification .............................................................................................................. 84
III. 2. 3. 1. 2. Prise de Décisions ...................................................................................................... 88
III. 2. 3. 2. Résultats Obtenus............................................................................................................... 90
III. 2. 3. 2. 1. SHM-1_Signal-RBF_ImageGlobale-MLP............................................................... 91
III. 2. 3. 2. 2. SHM-2_ImageGlobale-MLP_ImageGlobale-RBF.................................................. 94
III. 2. 3. 2. 3. SHM-3_ImageSubdivisée-MLP_ImageSubdivisée-RBF........................................ 98
III. 2. 3. 2. 4. SHM-4_ImageSubdivisée-RBF_ImageGlobale-MLP........................................... 102
III. 2. 3. 2. 5. SHM-5_ImageSubdivisée-MLP_ImageGlobale-RBF........................................... 103
III. 2. 3. 2. 6. SHM-6_ImageSubdivisée-MLP_ImageGlobale-MLP.......................................... 104
III. 2. 3. 2. 7. SHM-7_ImageSubdivisée-RBF_ImageGlobale-RBF............................................ 105
III. 2. 3. 3. Synthèse............................................................................................................................. 106
III. 3. APPLICATION INDUSTRIELLE: Etude de Cas .......................................................... 107
III. 3. 1. Présentation de l’Application................................................................................................... 108
III. 3. 1. 1. Description ........................................................................................................................ 108
III. 3. 1. 2. Mise en Œuvre.................................................................................................................. 109
III. 3. 2. Elaboration de la Base de Connaissances ............................................................................... 110
III. 3. 3. Etape de Classification: Mise en Œuvre et Résultats Obtenus ............................................. 116
III. 3. 4. Synthèse ..................................................................................................................................... 118
III. 4. CONCLUSION................................................................................................................... 119
CONCLUSION GENERALE ............................................................................................. 121
REFERENCES BIBLIOGRAPHIQUES .......................................................................... 129
ANNEXES ............................................................................................................................ 137
ANNEXE A: RESEAUX DE NEURONES (RN) ....................................................................... 139
ANNEXE B: LOGIQUE FLOUE (LF) ....................................................................................... 151
ANNEXE C: APPLICATION BIOMEDICALE ....................................................................... 157
ANNEXE D: TRANSFORMEE EN ONDELETTES................................................................ 163
ANNEXE E: BASES DE REGLES FLOUES ............................................................................ 169
v
vi
LISTE DES ABREVIATIONS
- C1 (Classe 1).
- C2 (Classe 2).
- C3 (Classe 3).
- CEFON (Centre d’Explorations Fonctionnelles Oto-Neurologiques), Paris, France.
- DF (Diagnostic Final).
- DP (Diagnostic Primaire).
- DTC (Dynamique Temporelle du tronc Cérébral).
- EC (Endo-Cochléaire).
- ELAUDY (Extraction et Lecture AUtomatique de la DYnamique temporelle du tronc
cérébral).
- IA (Intelligence Artificielle).
- IC (Indice de Confiance).
- ICg (Indice de Confiance de généralisation).
- IG (Image Globale).
- IS (Image Subdivisée).
- LF (Logique Floue).
- MLP (‘‘MultiLayer feedforward Perceptron networks’’).
- N (Normale).
- PC (Paramètre de Confiance).
- PEA (Potentiels Evoqués Auditifs).
- PEM (Potentiel Evoqué Moyenné).
- RBF (‘‘Radial Basis Function networks’’).
- RC (Rétro-Cochléaire).
- RN (Réseaux de Neurones)
- SA (Seuil Auditif).
- SAD (Systèmes d’Aide au Diagnostic).
- SHM (Systèmes Hybrides Modulaire).
vii
viii
LISTE DES FIGURES
Figure I. 1. Association d’une nouvelle observation Xi à une des classes……………..
15
Figure I. 2. Synoptique global d’un Système d’Aide au Diagnostic (SAD)…...............
16
Figure I. 3. Principe de génération de résidus………………………………………….
17
Figure I. 4. Architecture d’un système expert………………………………………….
23
Figure I. 5. Les trois étapes d’un traitement flou………………………………………. 25
Figure I. 6. Exemple d’architecture d’un réseau de neurones MLP……………………
26
Figure I. 7. Méthodologie globale d’aide au diagnostic………………………………..
29
Figure II. 1. Architecture de l’approche hybride modulaire proposée pour l’aide au
diagnostic……………………………………………………………….
34
Figure II. 2. Représentation signal moyenné de la connaissance……………………… 36
Figure II. 3. Représentation signal de la connaissance: (a) Signal vibratoire d’une
machine tournante, (b). Signal moyenné des Potentiels Evoqués
Auditifs.
(c).
Signaux
composant
la
surface
DTC………………………………………………..……………………
37
Figure II. 4. (a). Etapes de la méthode de conversion signal à image. (b). Exemple
d’image obtenue dans le cas d’une représentation multi-signaux. (c).
Exemple
d’image
obtenue
dans
le
cas
d’un
seul
signal………………………………………………………………..…... 38
Figure II. 5. (a). Représentation signal de S(t). (b). Représentation signal de d(t). (c).
Représentation signal de Sd(t). (d). Représentation image de Sd(t)-1er
critère-…………………………………………………………………... 40
Figure II. 6. Approximation d’une région par un triangle……………………………... 41
Figure II. 7. Représentation image de Sd(t) -2ème critère-……………………………...
42
Figure II. 8. (a). Représentation signal de S(t). (b). Représentation signal de d(t) pour
x
=
0.4.
(c).
Représentation
signal
de
Sd(t)
pour
x
=
0.4……………………………………………………………………….
43
Figure II. 9. (a). Transformée en ondelettes du signal S(t). (b). Transformée en
ondelettes du signal avec défaut Sd(t) pour x = 0.4. (c). Différence
entre la transformée en ondelettes du Sd(t) et la transformée en
ondelettes du S(t) pour x = 0.4………………………………………….
43
Figure II. 10. La subdivision en plusieurs régions de la différence entre les deux
ix
transformées en ondelettes……………………………………………...
Figure
II.
11.
I1
en
fonction
du
rapport
44
des
amplitudes ΓP …………………………………………………………………………… 45
Figure II. 12. I1 en fonction du rapport des aires ΓE …………………………………...
45
Figure II. 13. Représentation image globale de la connaissance………………………. 46
Figure II. 14. Représentation image subdivisée de la connaissance…………………...
46
Figure II. 15. Classifieur à un seul réseau de neurones (MLP ou RBF)…………….
52
Figure II. 16. Classifieur à plusieurs réseaux de neurones (MLP ou RBF)…………
52
Figure II. 17. Principe du raisonnement par analogie………………………………….
53
Figure II. 18. Prise de décisions dans le cas de deux classifications neuronales………
57
Figure II. 19. Etape de prise de décisions……………………………………………… 58
Figure II. 20. Système flou de prise de décisions……………………………………… 58
Figure II. 21. Fonction d’appartenance des paramètres C1-1, C1-2, C1-3 (ou C2-1,
C2-2, C2-3) à partir d’une classification par MLP (ou RBF),ou du
traitement statistique des classifications par MLP (ou RBF)…………...
59
Figure II. 22. Fonction d’appartenance du Paramètre de Confiance (PC): Exemple du
Seuil Auditif (SA) dans une application biomédicale…………………..
63
Figure II. 23. Fonction d’appartenance des paramètres DPC1, DPC2, et DPC3…………. 63
Figure III. 1. Principe de génération de Potentiels Evoqués Auditifs (PEA)………….. 74
Figure III. 2. Potentiel Evoqué Auditif (PEA) parfait…………………………………. 75
Figure III. 3. Extraction et acquisition des Potentiels Evoqués Auditifs (PEA)……….
77
Figure III. 4. Elaboration de la surface de la Dynamique Temporelle du tronc
Cérébral (DTC) à partir de 800 acquisitions……………………………
77
Figure III. 5. Surfaces de la Dynamique Temporelle du tronc Cérébral (DTC): (a).
Patient normo-entendant. (b). Patient souffrant d’un trouble auditif…...
78
Figure III. 6. (a). Représentation Signal moyenné (PEM). (b). un signal moyenné est
représenté par un vecteur de 70 composants……………………………
79
Figure III. 7. Représentation image: (a). Exemple de résultat de conversion signal à
image en appliquant le 2ème protocole. (b). Image sans valeurs nulles ni
valeurs trop élevées……………………………………………………..
79
Figure III. 8. Représentation image globale de la connaissance……………………….
80
Figure III. 9. Représentation image subdivisée de la connaissance…………………… 80
Figure III. 10. Exemple de résultat de conversion signal à image en appliquant le 3ème
x
protocole………………………………………………………………...
81
Figure III. 11. Exemples de la représentation signal moyenné: (a). Cas de deux
patients (classe Rétro-Cochléaire). (b). Cas de deux patients (classe
Endo-Cochléaire). (c). Cas de deux patients (classe Normale)…………
82
Figure III. 12. Exemples de résultats de la conversion signal à image appliquant le
2ème protocole: (a). Cas de deux patients (classe Rétro-Cochléaire). (b).
Cas de deux patients (classe Endo-Cochléaire). (c). Cas de deux
patients (classe Normale)……………………………………………….. 83
Figure III. 13. Choix de la valeur du Taux d’apprentissage (eta).
84
Figure III. 14. Choix du nombre de neurones de la couche cachée (NNC).
85
Figure III. 15. Taux d’apprentissage en fonction de la zone d’influence (Béta).
86
Figure III. 16. Taux de généralisation en fonction de la zone d’influence (Béta).
86
Figure III. 17. Fonction d’appartenance des paramètres C1-1, C1-2, C1-3 (ou C2-1,
C2-2, C2-3) à partir d’une classification par MLP (ou RBF), ou du
traitement statistique des classifications par MLP (ou RBF)…………...
89
Figure III. 18. Fonction d’appartenance du Paramètre de Confiance (PC): le Seuil
Auditif (SA)…………………………………………………………….. 90
Figure III. 19. Fonction d’appartenance des paramètres DPC1, DPC2, et DPC3………...
90
Figure III. 20. Résultats de la classification par MLP des 16 imagettes (image
subdivisée)………………………………………………………………
99
Figure III. 21 Résultats de la classification par RBF des 16 imagettes (image
subdivisée)………………………………………………………………
100
Figure III. 22. (a). Représentation du signal S(t). (b). Représentation d’un signal
d1(t). (c). Représentation du signal avec défaut Sd1(t)…………………
109
Figure III. 23. (a). Représentation du signal S(t). (b). Représentation d’un signal
d2(t). (c). Représentation du signal avec défaut Sd2(t)…………………
110
Figure III. 24. Représentation du signal avec défaut Sd1(t)…………………………...
111
Figure III. 25. Choix d’une ondelette basée sur le critère Min(Max)………………….
112
Figure III. 26. Exemple de résultat de la conversion d’un signal à image. (a). Signal
original. (b). La transformée en ondelettes du signal. (c). La
représentation image du signal………………………………………….
112
Figure III. 27. Représentation image globale de la connaissance……………………...
113
xi
Figure III. 28. Exemples des signaux des trois classes: (a). Deux signaux de la classe
Anormale-1. (b). Deux signaux de la classe Anormale-2. (c). Deux
signaux de la classe Normale…………………………………………… 114
Figure III. 29. Exemples des transformées en ondelettes des signaux des trois classes:
(a). Deux signaux de la classe Anormale-1. (b). Deux signaux de la
classe Anormale-2. (c). Deux signaux de la classe Normale…………… 115
Figure III. 30. Exemples des représentations images des signaux des trois classes: (a).
Deux signaux de la classe Anormale-1. (b). Deux signaux de la classe
Anormale-2. (c). Deux signaux de la classe normale…………………...
116
Figure A. 1. Exemple d’architecture d’un MLP.…………………………………….....
141
Figure A. 2. Sortie d’un neurone en fonction des entrées……………………………… 143
Figure A. 3. Descente du gradient……………………………………………………...
144
Figure A. 4. Neurone élémentaire à noyau……………………………………………..
146
Figure A. 5. Exemple d’architecture d’un RBF………………………………………... 148
Figure B. 1. Comparaison d’un ensemble classique et d’un ensemble flou……………
153
Figure B. 2. (a). Fonction caractéristique. (b). Fonction d’appartenance……………… 154
Figure B. 3. Fonctions d’appartenance (ensembles flous)……………………………... 154
Figure B. 4. Fonctions d’appartenance linéaires par morceaux………………………... 155
Figure C. 1: Anatomie simplifiée d’une oreille………………………………………... 157
Figure D. 1. Ondelette Daubechies d’ordre 5 (db5)……………………………………
163
Figure D. 2. Transformée de Fourier…………………………………………………...
164
Figure D. 3. Transformée en ondelettes continue……………………………………… 165
Figure D. 4. Correspondance échelle et fréquence……………………………………..
165
Figure D. 5. Etape 2…………………………………………………………………….
166
Figure D. 6. Etape 3…………………………………………………………………….
166
Figure D. 7. Etape 4…………………………………………………………………….
166
xii
LISTE DES TABLEAUX
Tableau II. 1. Systèmes Hybrides Modulaires (SHM) proposés à partir des différentes
variantes de l’approche hybride modulaire………………………..........
67
Tableau III. 1. Répartition des trois bases de connaissance…………………………… 81
Tableau III. 2. Bases d’apprentissage et de généralisation…………………………….
82
Tableau III. 3. Résultats de la classification neuronale (RBF) du signal (SHM-1)……
91
Tableau III. 4. Résultats de la classification neuronale (MLP) de l’image globale
(SHM-1)………………………………………………………………… 91
Tableau III. 5. Résultats du Système Flou Primaire (SFP) de Prise de Décisions
(SHM-1)………………………………………………………………… 92
Tableau III. 6. Résultats du Système Flou Final (SFF) de Prise de Décisions (SHM1)………………………………………………………………………... 92
Tableau III. 7. Résultats de la classification neuronale (RBF) du signal (SHM-1)……
93
(SHM-1)………………………………………………………………… 93
Tableau III. 9. Résultats du Système Flou Primaire (SFP) de Prise de Décisions
(SHM-1)………………………………………………………………… 93
Tableau III. 10. Résultats du Système Flou Final (SFF) de Prise de Décisions (SHM1)………………………………………………………………………... 94
(SHM-2)………………………………………………………………… 95
Tableau III. 12. Résultats de la classification neuronale (RBF) de l’image globale
(SHM-2)………………………………………………………………… 95
Tableau III. 13. Résultats du Système Flou Primaire (SFP) de prise de décisions
(SHM-2)………………………………………………………………… 96
Tableau III. 14. Résultats du Système Flou Final (SFF) de prise de décisions (SHM2)………………………………………………………………………... 96
(SHM-2)………………………………………………………………… 97
(SHM-2)………………………………………………………………… 97
xiii
(SHM-2)………………………………………………………………… 97
Tableau III. 19. Résultats de la classification neuronale (MLP) de l’image subdivisée
(SHM-3)………………………………………………………………… 100
Tableau III. 20. Résultats de la classification neuronale (RBF) de l’image subdivisée
(SHM-3)………………………………………………………………… 100
(SHM-3)………………………………………………………………… 101
(SHM-4)………………………………………………………………… 102
(SHM-5)………………………………………………………………… 103
(SHM-6)………………………………………………………………… 104
(SHM-7)………………………………………………………………… 105
Tableau III. 31. Moyennes des taux de classifications après l’hybridation pour les
trois classes RC, EC et N……………………………………………….. 107
Tableau III. 32. Répartition de la base de connaissances……………………………...
113
Tableau III. 33. Bases d’apprentissage et de généralisation (représentation image
globale)………………………………………………………………….
113
xiv
utilisant Bior3.3…………………………………………………………
117
utilisant Bior3.3…………………………………………………………
117
utilisant Bior3.9…………………………………………………………
118
utilisant Bior3.9…………………………………………………………
118
Tableau E. 1. Les quatre groupes de la base de règles du SFP………………………...
169
Tableau E. 2. Les valeurs possibles pour (C1-1, C2-1), (C1-2, C2-2) et (C1-3, C2-3)..
170
Tableau E. 3. Exemples de règles et les expertises associées du SFP…………………. 172
Tableau E. 4. Exemples de règles et les expertises associées du SFP…………………. 177
xv
xvi
Remerciements
Cette thèse a débuté au Laboratoire Intelligence dans les Instrumentations et les
Systèmes I²S, de l’Université Paris XII. C’est dans le cadre d’une fusion de ce laboratoire
avec deux autres laboratoires (LERISS, LIIA) de la dite Université, qu’elle se termine au
sein du Laboratoire Image, Signaux et Systèmes Intelligents LISSI de l’Université Paris
XII Val de Marne.
Je tiens tout d'abord à remercier le Professeur Hichem MAAREF et le Docteur
Ezeddine BEN-BRAIEK qui ont accepté la lourde tâche de rapporter mes travaux, ainsi
que le Professeur Claude LISHOU et le Professeur Gilles ZWINGELSTEIN pour l'intérêt
qu'ils portent à mon travail en acceptant de participer à mon jury.
Mes vifs remerciements s’adressent à mon directeur de thèse le Professeur Kurosh
MADANI qui m'a accueilli au sein de son laboratoire et dirigé de mains de maître cette
thèse.
Je tiens également à exprimer mes plus vifs remerciements au Docteur Amine
CHOHRA, qui a co-encadré cette thèse. Sa disponibilité et ses nombreux conseils
scientifiques ont permis de faire aboutir cette thèse.
Un grand merci à Mr. Abdennasser CHEBIRA, Mme.Véronique AMARGER, Mr.
Christophe SABORIN, Mr. Rachid MALTI, Mr. Vasse, Mr. Michel Barret et Mr.
ABASSI, pour leur soutien tout au long de cette thèse.
A mes collègues doctorants et docteurs que j’ai eu le plaisir de connaître pendant la
préparation de ma thèse: Lamine, Saliou, Sofiene, Moustapha, WeiWei, Ivan, Mathieu,
Arrash, Samira, Dalel, Sabri et Anne Sophie pour les échanges, leur sympathie et leur aide.
Je n’oublie pas non plus mon Papa et ma Maman, qui m’ont soutenu tant financièrement
que moralement, mes frères Simohammed, Abdelmajid, Youssef et Hicham et mes deux sœurs
Fatima et Fadwa, une petite pensée à ma grande mère qui nous a quitté il y a quelque temps,
merci à toute ma famille et mes amies en France et au Maroc.
Merci à Tous
xvii
INTRODUCTION GENERALE
1
2
Le monde dans lequel nous vivons voit l’émergence des systèmes dont la complexité
s'accroît constamment. Avec le développement des nouvelles technologies et de leur
utilisation dans ces systèmes, la part consacrée à la détection et au diagnostic des défauts de
ces derniers occupe une place de plus en plus importante. Les difficultés inhérentes à la
construction d’un diagnostic pertinent ne concernent pas le seul domaine médical mais aussi
d’autres domaines notamment le domaine industriel.
En effet, dans le domaine médical, un diagnostic repose sur la capacité de
raisonnement du médecin et de son aptitude à prendre des décisions, alors que les
informations utilisées sont potentiellement entachées d'incertitudes. Ces incertitudes sont
d'origines multiples: les informations utilisées peuvent être ambiguës car le malade peut
exprimer une complainte et le médecin en entendre une autre. Ces informations peuvent être
incomplètes car, en situation de prise de décisions, le médecin doit agir sans connaître
l'ensemble des données relatives à un patient et bien entendu toute la connaissance spécifique
de la situation. Elles peuvent être incertaines car les connaissances cliniques peuvent
concerner des maladies plus ou moins fréquentes, ayant des formes cliniques différentes et ne
s'exprimant pas toujours par la même symptomatologie, partageant certains signes avec
d'autres maladies ou présentant des réponses variables à un traitement donné. Ces différentes
raisons ont conduit à la conception et le développement des Systèmes d’Aide au Diagnostic
(SAD) ayant pour but d’assister les praticiens dans l’élaboration de leurs diagnostic.
Dans le domaine industriel, d’un côté les systèmes (véhicules, satellites, réseaux de
télécommunications, …) sont de plus en plus complexes, mêlant matériel et logiciels et d’un
autre côté il existe plusieurs contraintes à respecter: d’un point de vue économique, par
3
exemple, ces contraintes concernent l’obligation de rendement et la diminution des coûts en
raison du contexte de plus en plus concurrentiel. Malheureusement, les systèmes ne sont pas à
l'abri de défaillances avec des conséquences économiques, voire humaines. Ce qui explique la
pertinence des SAD dans la réalisation de la chaîne du diagnostic (détection, localisation,
identification de défaillances), et la part grandissante de ces derniers dans les installations
industrielles.
Un système global de diagnostic est composé des principales étapes à savoir: une
étape de représentation de la connaissance (à partir d’une ou plusieurs sources d’information
représentant les symptômes), une étape de classification, et une étape de prise de décisions.
Les sorties du système représentent le diagnostic (avec une explication possible ou une
justification) [BALA97]. Un Système d’Aide au Diagnostic (SAD) doit être capable
d’identifier la nature d’un problème en examinant les symptômes observés: par exemple, à
partir des symptômes observés, le SAD doit statuer en un fonctionnement ‘‘Normal’’ ou
‘‘Anormal’’ du système diagnostiqué.
Ainsi, les principaux problèmes à résoudre afin d’élaborer un SAD sont: la
représentation de la connaissance, la classification, la prise de décisions, ainsi que la
proposition d’un indice de confiance d’identification des causes possibles (ou bien la
suggestion de remèdes appropriés).
Plusieurs approches ont été proposées pour l’élaboration d’un SAD. Pour les
approches à base de modèles, il a été souvent supposé l’existence d’un modèle décrivant le
système à diagnostiquer. Mais il faut aussi souligner les limites actuelles de cette approche,
notamment du point de vue de son applicabilité à des problèmes réels. Selon [DAGU01]
l'emploi des méthodes relevant de cette approche est justifié s'il existe un modèle précis du
système, que ce soit sous forme mathématique ou sous forme de règles. Généralement, un
modèle est une représentation formelle (mathématique) du système. L’élaboration d’un
modèle précis implique donc une connaissance approfondie du système ce qui présente une
limite lors du diagnostic d’un système complexe réel.
Récemment, plusieurs approches basées sur les techniques issues de l’Intelligence
Artificielle ont été développées [TURB 01], [KARR 04]. Les travaux développés concernent
aussi bien des applications industrielles [BALA 97], [MENE 98], [PALM 05] que le domaine
biomédical [PIAT 95], [VUCK 02], [WOLF 03], [YAN 05]. Ces approches ont l’avantage de
ne pas nécessiter la connaissance d’un modèle mathématique exact, seule la disponibilité de
données est nécessaire.
Actuellement, l’une des approches les plus utilisées pour faire face aux problèmes
4
d’identification des caractéristiques, de classification et de prise de décisions inhérentes à la
détection de défaillances et au diagnostic, est l’approche hybride multi-modèles avec le ‘‘soft
computing’’ impliquant principalement les Réseaux de Neurones (RN) et la Logique Floue
(LF) [PIAT 95], [BALA 97], [MURR 97], [KITT 98], [MENE 98], [KARR 04], [PALM 05],
[YAN 05]. Inspiré à partir des systèmes nerveux biologiques et de la structure (architecture)
du cerveau, les RN peuvent être vus comme des systèmes de traitement de l’information (de
données) permettant l’élaboration de plusieurs techniques originales et couvrant un large
champ d’applications, basés sur leur propriétés attrayantes telles que les capacités
d’apprentissage et de généralisation [HAYK 99], [ZHAN 00], [EGMO 02]. Un grand nombre
de techniques basées sur les RN ont déjà été développées pour résoudre des problèmes relatifs
à l’optimisation, la modélisation, la prise de décisions, la classification, l’exploitation de
données et l’approximation de fonctions non-linéaires (comportements).
Un autre aspect tout aussi important et fortement lié au traitement des données
complexes est l’extraction de l’information (la connaissance) utile à partir de ces données.
Plusieurs approches ont été développé afin d’analyser et de classifier des signaux (issues des
capteurs, des chaînes d’acquisition, des systèmes de contrôle, des systèmes de surveillance,
…). Traditionnellement, de tels signaux sont traités en utilisant des approches de traitement
du signal principalement basées sur l’identification des pics (amplitudes maximales) et des
ondes à partir d’approches de reconnaissance de formes [PIAT 95], [DON 97], [VUCK 02],
[WOLF 03], [VANN 02], [BRAD 04]. Le signal comme type de représentation de la
connaissance est donc souvent utilisé dans le diagnostic de défaillances. Cependant, le temps
(ou la fréquence) n’est pas toujours la variable la plus appropriée pour caractériser les
phénomènes étudiés révélant ainsi l’intérêt et la nécessité d’exploitation de multiple
représentations de la connaissance (signal, image, …). A partir de là, une idée intéressante
dans le but d’élaborer des systèmes de diagnostic de défaillances peut consister à prendre
l’avantage de plusieurs représentations de la même connaissance.
Le travail de recherche développé dans cette thèse est en rapport avec les Systèmes
d’Aide au Diagnostic (SAD) pour la détection et l’identification de défaillances, la
reconnaissance (classification) de formes, et la prise de décisions basées sur l’Intelligence
Artificielle, impliquant notamment les Réseaux de Neurones (RN) et la Logique Floue (LF).
Le but de ce travail n’est absolument pas de remplacer le spécialiste humain (médecin, expert,
…) mais de proposer des systèmes d’aide à la décision pour le diagnostic de défaillances avec
un certain indice de confiance. Ainsi, l’objectif principal du travail développé dans cette
thèse, est le développement d’approches hybrides, basées sur une multiple représentation de la
5
connaissance et reposant sur un ensemble de classifieurs (redondance et/ou complémentarité),
permettant l’élaboration de Systèmes d’Aide au Diagnostic (SAD), destinés aux domaines
biomédical et industriel qui s’adapteraient facilement d’une application à une autre.
Nous nous sommes alors proposés une méthodologie globale d’aide au diagnostic
basée sur le concept ci-dessus. Les avantages potentiels de cette méthodologie sont: le
traitement indépendant de l’information afin d’avoir plusieurs avis différents, la multiple
représentation de la connaissance d’une même source ou de différentes sources d’information,
la multiple classification (redondance et/ou complémentarité), l’hybridation de techniques de
classification et de prise de décisions et l’exploitation d’un ‘‘Paramètre de Confiance’’ (PC)
dans la prise de décisions afin de proposer un résultat final de diagnostic avec Indice de
Confiance (IC). De plus, l’aspect modulaire dans cette méthodologie facilitera l’adaptation de
celle-ci à d’autres applications potentielles.
Afin de valider la méthodologie proposée, nous proposons l’architecture d’une
approche hybride modulaire qui se base essentiellement sur une double représentation de la
connaissance et une double classification. Ainsi, cette architecture sera composée: d’une seule
source d’information, de deux modules de représentation de la connaissance, de deux modules
de classification, et d’un module de prise de décisions. Notons d’une part que l’intérêt dans la
double représentation de la connaissance d’une même source d’information réside dans la
richesse de l’information que l’on peut extraire de différentes représentations de la
connaissance. D’autre part, notons que l’aspect redondant et/ou complémentaire, inhérent à
cette double classification, agit au bénéfice de la viabilité de tout le système d’aide au
diagnostic proposé.
Cette validation de l’architecture proposée se poursuit par l’étude et la conception des
différents modules de représentation de la connaissance, de classification, et de prise de
décisions. De cette étude et conception, différentes variantes de l’approche hybride modulaire
sont déduites selon différentes stratégies de représentation de la connaissance et de la
classification. Ensuite, pour chaque variante étudiée un (ou plusieurs) système(s) hybride(s)
est (sont) proposé(s), développé(s), et implémenté(s).
Trois Chapitres charpentent le présent rapport doctoral. Dans le Chapitre I, une étude
des notions de base en rapport direct avec les Systèmes d’Aide au Diagnostic (SAD) est
présentée. L’état de l’art sur les approches pour les SAD est présenté, par la suite, focalisant
sur les principales approches développées pour les SAD. A partir de là, nous avons recensé les
principaux problèmes à résoudre (représentation de la connaissance, classification, et prise de
décisions) dans l’élaboration d’un SAD.
6
Dans le Chapitre II, nous étudions une architecture de l’approche hybride modulaire
de SAD exploitant une seule source d’information, et composée de deux modules de
représentation de la connaissance, de deux modules de classification, et d’un module de prise
de décisions. Nous présentons l’étude, la conception et le développement des différents
modules de cette architecture de l’approche hybride modulaire. L’étude rapportée porte sur:
- différentes représentations de la connaissance issues d’une seule source
d’information, à savoir: la représentation signal, la représentation image
globale, la représentation image subdivisée et différentes combinaisons ou
stratégies exploitables dans une double représentation de la connaissance,
- différents classifieurs potentiellement intéressants à mettre en oeuvre
notamment un classifieur à un seul réseau de neurones ou un classifieur à
plusieurs réseaux de neurones, utilisant deux types de réseaux de neurones: le
réseau MLP (‘‘MultiLayer feedforward Perceptron networks’’) à cause du
caractère global de ce type de réseau et le réseau RBF (‘‘Radial Basis Function
networks’’)
vis-à-vis
de
sa
capacité
de
classification
et
en
tant
qu’approximateur neuronal local,
- la prise de décisions se base sur deux systèmes flous: un système flou
primaire pour décider, à partir de la double classification, d’un diagnostic
primaire, et un système flou final pour décider, à partir du diagnostic primaire
et d’un paramètre de confiance, d’un diagnostic final avec un indice de
confiance.
Concernant l’élaboration d’une représentation image, nous proposons une méthode de
conversion Signal à Image basée sur deux critères de seuillages: 1er critère de seuillage basé
sur les amplitudes et 2ème critère de seuillage basé sur les aires.
A l’issue des études menées, plusieurs variantes exploitant une double représentation
de l’information d’entrée et deux types de classifieurs ont été mises en œuvre.
Compte tenu des différentes combinaisons possibles, nous proposons et développons
plusieurs Systèmes Hybrides Modulaires (SHM) dont les performances seront comparées
dans le Chapitre III.
Dans le Chapitre III, nous présentons la mise en œuvre, les résultats expérimentaux, et
la synthèse des différents Systèmes Hybrides Modulaires (SHM) d’aide au diagnostic
proposés à travers une étude de cas relative au domaine biomédical.
Ensuite, nous présentons la mise en œuvre, les résultats expérimentaux, et la synthèse
relatifs à une étude de cas concernant une application industrielle.
7
Enfin, nous présentons les conclusions du travail de recherche effectué dans le cadre
de cette thèse ainsi que les principaux travaux en perspectives.
8
Chapitre I. SYSTEMES D’AIDE AU
DIAGNOSTIC (SAD)
9
10
I. 1. INTRODUCTION
Etymologiquement, diagnostic vient du grec ‘‘diagnosis’’: connaissance. A l’origine
utilisé dans le domaine médical, ce terme signifie: identification d’une maladie par ses
symptômes. Plus généralement, on peut le définir comme: un jugement porté sur une
situation, sur un état. Mais l’interprétation du mot diagnostic possède de nombreuses
significations suivant les interlocuteurs auxquels on s’adresse: le diagnostic financier d’une
société concerne la vérification de son état financier, le diagnostic médical s’intéresse à
déterminer une maladie pour identifier les causes, le diagnostic industriel, quand à lui, a pour
objet de trouver la cause d’une défaillance [ZWIN 95]. Les travaux de recherche sur le
diagnostic ont mobilisé durant ces dernières années une large communauté de chercheurs
[BALA 97], [MENE 98], [PALM 05], [VUCK 02], [WOLF 03]. Il a aujourd’hui conquis sa
place tel que la recherche dans ce domaine s'appuie sur la prise en compte de cas réels. Ce
constant aller-retour entre la réalité du terrain et l'avancée scientifique fait du diagnostic un
terrain de recherche très intéressant.
Le domaine médical a su très rapidement intégrer des outils d’aide au diagnostic
[PIAT 95], [VUCK 02], [WOLF 03], [YAN 05] et la santé a constitué un enjeu très motivant
pour les recherches dans ce domaine. Cette vision médicale a ensuite été reprise dans le
monde technique et industriel [BALA 97], [MENE 98], [PALM 05]. Cette fois, il ne s'agit
plus de rechercher les causes d'une maladie chez un patient mais les causes d'une défaillance
ou d'une panne d'un dispositif physique. Dans ce domaine, plusieurs travaux ont été
développés concernant plusieurs secteurs à haut niveau de risque comme l’aéronautique ou le
11
nucléaire [POTT 77], [DALY 79] ainsi que des secteurs de pointe tels que l’industrie de
l’armement ou l’aérospatial [DESA 76], [DECK 77]. D'un point de vue conceptuel, il n'y a
pas de différence fondamentale entre le diagnostic médical et le diagnostic technique (ou
industriel). Tous les deux consistent à rechercher les causes d'un dysfonctionnement d'un
système physique ou vivant en vue de le réparer ou de le soigner.
Dans la partie § I. 2, nous passons en revue les caractéristiques de base d’un système
d’aide au diagnostic, nous présentons, dans § I. 3, un état de l’art sur les approches permettant
l’élaboration d’un système d’aide au diagnostic. Nous posons, dans § I. 4, la problématique et
les solutions proposées, que nous nous sommes définis, pour l’élaboration d’un système
d’aide au diagnostic.
I. 2. SYSTEMES D’AIDE AU DIAGNOSTIC (SAD)
Un système de diagnostic est un système capable d’identifier la nature d’un problème
en examinant les symptômes observés, les sorties d’un tel système représentent le diagnostic.
Globalement, le but principal d’un système d’aide au diagnostic [PALM 05], [YAN
05] est de détecter une ou plusieurs défaillances le plutôt possible, de classer et d’identifier les
défauts et être capable de donner un Indice de Confiance (IC) associé au diagnostic effectué,
ou le cas échéant de donner des remèdes (solutions) appropriés aux défaillances (système
capable de conseiller).
I. 2. 1. Défaillances
Plusieurs définitions existent pour le terme défaillance qui est une notion
fondamentale en diagnostic réclamant une grande rigueur lors de sa définition:
- état d'incapacité à réaliser une fonction normale de façon adéquate,
- altération ou cessation de l'aptitude d'un ensemble à accomplir sa ou ses fonctions
requises avec les performances définies dans les spécifications techniques,
- cessation de la capacité d'un système physique ou d'un dispositif à accomplir ses
fonctions.
12
I. 2. 2. Détection de Défaillances
La détection d'une défaillance consiste à reconnaître une déviation par rapport au
fonctionnement attendu d’un système. De plus, un système d’aide au diagnostic doit être
capable de détecter une ou plusieurs défaillances le plutôt possible. En effet, une détection
précoce des défauts évite des conditions de fonctionnement dangereuses, augmente la
disponibilité et la productivité du système et garantit la qualité du produit ou du service. Une
autre propriété tout aussi importante d’un système d’aide au diagnostic est qu'il doit être
suffisamment sensible pour permettre une détection des défaillances, mais également
suffisamment robuste pour éviter les fausses alarmes en présence de perturbations.
I. 2. 3. Indice de Confiance d’un Diagnostic
Un Indice de Confiance (IC) associé à un diagnostic permet de déterminer la qualité
des résultats donnés par le SAD. En effet, plus le IC est élevé, plus le diagnostic du SAD est
pertinent.
I. 2. 4. Représentation de la Connaissance
Le signal unidimensionnel a souvent été utilisé comme support de la connaissance.
Cette représentation signal a donc longtemps été exploitée aussi bien dans le diagnostic
biomédical (sondes, signal d’électrocardiogrammes, électro-encéphalogramme, …) que dans
le diagnostic industriel (signaux issues de capteurs industriels).
Actuellement, avec le développement de la technologie des systèmes électroniques,
des chaînes d’acquisition de données, des capteurs, et de l’informatique en général, la
représentation image est de plus en plus disponible et de plus en plus exploitée (scanner,
imagerie par résonance magnétique, …).
Dans le domaine du diagnostic, ces deux types de représentations, signal et image,
présentent un intérêt particulier dans le fait que ce que l’on pourrait exploiter d’un signal est
différent de ce que l’on pourrait exploiter d’une image. Ce qui présente plutôt un avantage
dans le cas où l’on disposerait d’une représentation signal et d’une représentation image à la
fois.
13
Par conséquent, la qualité d’un SAD dépend fortement de ou des représentations de la
connaissance exploitées (puisque le diagnostic dépendra des informations traitées). La qualité
d’un SAD sera différente à partir:
- de l’exploitation d’un seul type de représentation de la connaissance (signal ou
image),
- de l’exploitation de deux types de représentations de la connaissance (signal et
image) issues de deux sources d’informations différentes,
- ou de l’exploitation de deux types de représentations de la connaissance (signal et
sa transformation ou conversion en image) issues d’une même source d’information.
I. 2. 5. Classification
Le diagnostic est basé sur des observations multiples, ces observations sont regroupées
pour former des classes qui définissent une situation ou un mode de fonctionnement du
processus, auxquelles une nouvelle observation sera comparée pour être identifiée. En d'autres
termes, le diagnostic a pour mission d'identifier le mode de fonctionnement d'un système à
partir d'observations sur celui-ci.
La classification peut être définie comme le regroupement des observations (ou objets
ou individus) qui ont des caractéristiques similaires. Chaque observation est définie par un
vecteur noté X i = [x1 , x 2 ,..., x D ] dans un espace à D dimensions, où D correspond au nombre
T
d'attributs ou caractéristiques. Cet espace est connu sous le nom d'espace de représentation ou
de description. Le regroupement des observations selon leurs caractéristiques permet la
définition des classes décrivant des régions particulières de l'espace de représentation.
L'ensemble des classes C = {C k , k = 1...K } définit l'espace de décisions. Le regroupement des
observations pour construire l'espace de décisions est fait à partir d'une phase d'apprentissage
en utilisant une mesure de similitude par le biais des méthodes de classification.
L'objectif du réseau de neurones est alors de savoir associer toute nouvelle observation
X i à une classe de l'espace de décisions comme illustré sur la Figure I. 1. L'affectation d'une
observation X i à l'une des K classes notées C 1 ,..., C K indique une opération de classement
ou de discrimination.
14
Figure I. 1. Association d’une nouvelle observation Xi à une des classes.
Si nous nous plaçons dans le contexte du diagnostic, les paramètres caractérisant le
vecteur d'observations, et par conséquent l'espace de représentation, seront les mesures
disponibles issues des capteurs et actionneurs du processus ou bien informations extraites de
ceux-ci. Les classes peuvent être assimilées aux différents modes de fonctionnement du
processus, définissant alors l'espace de décisions. Donc, l'objectif en termes de diagnostic est
de définir à quel mode de fonctionnement correspond une nouvelle observation.
La classification est l’une des étapes les plus décisives dans un système d’aide au
diagnostic. Classer des formes ou individus (par exemple des données, des images, des
phénomènes, des objets, …) décrits par un ensemble de grandeurs caractéristiques, c’est les
ranger en un certain nombre de catégories ou classes. Mais la grande difficulté d’un problème
de diagnostic est due, dans de nombreux cas, à la similitude des caractéristiques des
connaissances à partir desquelles est effectué un diagnostic, ce qui explique la difficulté de
cette étape de classification (où les données sont souvent difficilement séparables) dans un
système d’aide au diagnostic.
I. 2. 6. Prise de Décisions
La prise de décisions est une autre étape décisive dans un système d’aide au
diagnostic. La prise de décisions consiste à décider d’un diagnostic final à partir d’un
ensemble de données. Cette étape est loin d’être une tâche facile et particulièrement dans les
domaines auxquels nous nous sommes intéressés: biomédical et industriel. En effet, les
15
stratégies de la prise de décisions peuvent dépendre de la nature des données à partir de
laquelle les décisions sont élaborées. Mais il arrive souvent que les données disponibles soient
imprécises, ambiguës ou floues (due aux conditions d’acquisition, etc…) rendant la tâche de
la prise de décisions difficile à partir de ces données. Ainsi, la prise de décisions peut
dépendre de la pertinence de représentation de la connaissance ou de l’efficacité de la
classification. Elle peut aussi changer selon l’architecture du module de classification.
Ainsi la nature des données (imprécises, ambiguës, floues, … ) et le nombre de
classifieurs (un classifieur, plusieurs classifieurs) sont deux points importants dans l’étape de
la prise de décisions.
I. 2. 7. Architecture Globale d’un Système d’Aide au Diagnostic (SAD)
Un Système d’Aide au Diagnostic (SAD) est un système capable d’identifier la nature
d’un problème en examinant les symptômes observés [BALA 97]. Le synoptique global d’un
système d’aide au diagnostic est présenté sur la Figure I. 2. Il est composé de trois étapes de
traitement: une étape de représentation de la connaissance, une étape de classification (les
sorties de cette étape sont alors un ensemble de classes de diagnostic primaire) et une dernière
étape pour la prise de décisions (le rôle de cette étape est la détermination du diagnostic final).
Après avoir donné quelques définitions et notions essentielles, ainsi que l’architecture globale
d’un SAD, le paragraphe qui suit présente l’état de l’art des approches pour l’élaboration des
SAD.
Diagnostic
Sorties
Symptômes
Représentation
de la
Connaissance
Classification
Prise de
Décisions
Indice de Confiance/
Remèdes (Solutions)/
…
Figure I. 2. Synoptique global d’un Système d’Aide au Diagnostic (SAD).
16
I. 3. ETAT DE L’ART SUR LES APPROCHES POUR LES SYSTEMES
D’AIDE AU DIAGNOSTIC (SAD)
Dans ce paragraphe, nous présentons un ensemble d’approches destinées à
l’élaboration d’un Système d’Aide au Diagnostic (SAD). Ces approches couvrent deux
classes: les modèles quantitatifs, modèles qualitatifs ou semi qualitatifs qui relèvent des
méthodes basées sur des modèles et l’analyse des modes de défaillances et de leurs effets,
arbres de défaillances, analyse en composantes principales, systèmes experts, systèmes flous,
réseaux de neurones qui relèvent des méthodes basées sur la connaissance. Ensuite, nous
présentons une étude de synthèse dans le but de déterminer les principales caractéristiques
d’une approche permettant l’élaboration d’un SAD.
I. 3. 1. Modèles Quantitatifs
Les Modèles Quantitatifs sont construits à partir des lois fondamentales (physique,
chimie, ...) et décrits par des relations mathématiques sur les entrées-sorties du système.
Diverses approches pour la détection de défaillances à partir des modèles mathématiques ont
été développées depuis les années 70 [ISER 97]. Ces méthodes dites "méthodes des résidus"
comportent deux étapes : d'une part, la génération des résidus et, d'autre part, le choix d'une
règle de décisions pour le diagnostic. Les résidus représentent des changements ou
divergences entre le comportement réel du processus et celui prévu par le modèle. La Figure I.
3 illustre le principe général pour la génération des résidus.
E n trées
S o rties
S y stè m e
R ésid u s
M o d è le E tsim é
G é n é ra tio n d e
R é sid u s
Figure I. 3. Principe de génération de résidus.
L'objectif du résidu étant sa sensibilité aux défauts, en l'absence de défaillances, c'està-dire en fonctionnement normal, le résidu doit avoir une valeur nulle. Au contraire, en
présence d'un défaut, le résidu doit avoir une valeur non nulle.
17
Les techniques les plus utilisées pour la génération des résidus, à partir de modèles
analytiques, sont listées ci-dessous:
• équations de parité [GERT 98],
• estimation d'état à partir d'observateurs ou filtres de Kalman [FRAN 89],
• estimation paramétrique [ISER 93],
• analyse structurelle [CASS 97].
Une fois les résidus générés, ils doivent être évalués pour déterminer la présence ou
non d'une défaillance. Cette évaluation des résidus est établie principalement par l'utilisation
de seuils fixes ou adaptatifs pour éviter les fausses alarmes. Néanmoins, la plupart du temps,
les résidus sont corrélés entre eux. Pour gérer cette corrélation, le maximum de vraisemblance
généralisé peut être utilisé. Il s'agit d'une technique qui, sous l'hypothèse que les variables ont
une distribution connue, usuellement la distribution normale, permet d'estimer les paramètres
d'un modèle (d'une équation ou d'un système, linéaire ou non linéaire) avec des restrictions
sur les paramètres (coefficients, matrice de variances et covariances) ou non. Plus
spécifiquement, la technique consiste à construire une fonction appelée fonction de
vraisemblance (construite à partir de la fonction de densité) et à maximiser son logarithme par
rapport aux paramètres inconnus.
Pour isoler la faute, l'approche ‘‘Fault Detection and Isolation’’ [CORD 00] par
exemple, utilise une matrice de signatures de fautes (Σ ) qui est obtenue à partir de l'ensemble
des résidus. Cette matrice décrit les relations entre les résidus (lignes de Σ ) et les fautes
(colonnes de Σ ). Un élément de Σ ij aura une valeur de 1 si la faute de la colonne j a une
influence sur le résidu de la ligne i, dans le cas contraire, la valeur sera 0. La comparaison
d'une signature observée avec les différentes colonnes de la matrice permet alors de localiser
la faute.
I. 3. 2. Modèles Qualitatifs ou Semi-Qualitatifs
Dans certains cas, il devient très difficile de disposer des connaissances complètes
pour établir un modèle analytique du processus à cause de sa complexité structurelle ou de
son comportement. Une alternative pour traiter les connaissances incomplètes est de faire des
abstractions selon le principe du raisonnement qualitatif [TRAV 97]. Les modèles décrivent
alors la structure du processus à diagnostiquer. Généralement, il s'agit des connexions entre
18
les composants. L'approche DX, décrite dans [CORD 00] exprime explicitement le lien entre
un composant et les formules décrivant son comportement. Ces dernières années, l'utilisation
de modèles qualitatifs pour la surveillance et le diagnostic de défaillances a pris une grande
ampleur [TRAV97], [ESCO 01].
Parmi les méthodes qui utilisent les modèles physiques de type qualitatif pour la
détection et le diagnostic de fautes, se trouve la prédiction du comportement à partir des
équations différentielles qualitatives. Ces équations différentielles qualitatives sont des
abstractions des équations différentielles ordinaires qui utilisent des intervalles de variables et
des paramètres. L'algorithme Qualitative SIMulation (QSIM) [KUIP 86] représente un
système comme un ensemble d'équations différentielles qualitatives couplées. Le
comportement du système est alors représenté par une séquence d'états.
Selon l'approche DX, le diagnostic est basé sur la théorie du raisonnement logique
[DAGU 01]. Pour le diagnostic, les termes suspect et candidat sont utilisés. Le premier fait
référence à tout composant que le système de diagnostic a identifié comme responsable
possible de l'apparition d'une divergence. Tandis que le deuxième fait référence au
composant, ou ensemble de composants, dont le fonctionnement incorrect expliquerait toutes
les divergences observées. Une caractéristique de cette technique est que le diagnostic se fait
de façon itérative en trois phases :
•
la détection de conflits: recherche de l'ensemble de composants suspects
en fonction des divergences observées,
•
le diagnostic: recherche des candidats parmi les suspects,
•
la discrimination des hypothèses: raffinement de l'ensemble de
candidats dans le cas où il y en aurait plusieurs.
Le principal inconvénient des méthodes quantitatifs, qualitatifs ou semi-qualitatifs est la
nécessité d’avoir des modèles mathématiques suffisamment précis, ce qui n’est pas toujours
facile, voire impossible, pour des processus complexes. Ces modèles sont limités aux
représentations linéaires ou à des modèles non-linéaires très spécifiques.
I. 3. 3. Analyse des Modes de Défaillances et de leurs Effets
La méthode de l'Analyse des Modes de Défaillances et de leurs Effets fût employée
pour la première fois, à partir des années 1960, dans le domaine de l'aéronautique pour
l'analyse de la sécurité des avions [RECH 66]. Cette méthode permet une analyse
19
systématique et très complète, composant par composant, de tous les modes de défaillances
possibles, et précise leurs effets sur le système global [VILL 88].
La démarche consiste d'abord à définir le système, ses fonctions et ses composants.
Ensuite, l'ensemble des modes de défaillances des composants doit être établi. Pour chaque
mode de défaillances, les causes possibles de son apparition sont alors recherchées.
Finalement, une étude des effets sur le système et sur l'opérateur est faite pour chaque
combinaison (cause, mode de défaillances), donnant les résultats sous forme de tableau.
L'Analyse des Modes de Défaillances et de leurs Effets est parfois complétée par une
analyse de criticité, elle devient Analyse des Modes de Défaillances, de leurs Effets et de leur
Criticité. La criticité permet d'extraire les modes de défaillances les plus critiques. L'analyse
de criticité est évaluée à partir du couple probabilité-gravité.
L'analyse de fonctionnement ‘‘Hazard and Operability Study’’ [JOYC 94] est une
autre extension de l'Analyse des Modes de Défaillances et de leurs Effets. Cette méthode
explore systématiquement l'aspect fonctionnel d'un système en identifiant, à la fois, les
dangers et les dysfonctionnements d'une installation. Elle est mise en oeuvre à la fin de la
phase de conception puisqu’elle s’appuie sur les schémas détaillés du système.
L'utilisation des tableaux d’Analyse des Modes de Défaillances et de leurs Effets (et
de leur Criticité) à des fins de diagnostic industriel conduit à utiliser une procédure déductive,
c'est à dire à utiliser ces tableaux comme un outil d'identification des causes de défaillances à
partir des effets observés [ZWIN 95]. La modélisation des relations cause à effet réalisée par
l'Analyse des Modes de Défaillances, de leurs Effets et de leur Criticité rend cette démarche
très puissante pour la résolution des problèmes de diagnostic de défaillances des procédés
industriels.
L’inconvénient principal de cette méthode est l’identification à priori de défauts
pouvant apparaître dans le système à superviser. Ce recensement ne peut jamais être exhaustif
et requiert en général une longue expérience.
I. 3. 4. Arbres de Défaillances
L'Arbre de Défaillances (ou Arbre de Causes) est l'un des outils majeurs d'analyse du
risque technologique, développé au début des années 1960 aux Etats-Unis [VILL 88]. C'est la
méthode la plus couramment utilisée dans les analyses de fiabilité, de disponibilité ou de
sécurité des systèmes.
20
Il s'agit d'une méthode optimisée qui permet la détermination des chemins critiques
dans un système. Cette méthode a pour objet de déterminer les diverses combinaisons
possibles d'événements qui entraînent la réalisation d'un événement indésirable unique. Elle
permet donc d'identifier les points faibles de la conception.
C'est une méthode déductive dont la représentation graphique des combinaisons est
réalisée par une structure arborescente (arbre), permettant un traitement à la fois qualitatif et
quantitatif. Cet arbre est établi sous forme d'un diagramme logique et comporte au sommet
l'événement indésirable. Les causes immédiates qui produisent cet événement sont ensuite
hiérarchisées à l'aide de symboles logiques "ET" et "OU". De cette façon, l'arbre est créé pas à
pas pour atteindre, à la base, un ensemble d'événements considérés comme élémentaires.
Le principal inconvénient de cette méthode est que son développement est sensible
aux erreurs commises à différentes étapes de construction de l’arbre de défaillances.
I. 3. 5. Analyse en Composantes Principales
L’Analyse en Composantes Principales est une technique statistique multivariables.
Les techniques statistiques multivariables sont des outils puissants, capables de comprimer
des données et de réduire leur dimensionnalité de sorte que l'information essentielle soit
maintenue et plus facile à analyser que dans l'ensemble original de données. Ces techniques
peuvent également manipuler le bruit et la corrélation pour extraire l'information
efficacement. La fonction principale de ce type de techniques est, par le biais d'une procédure
mathématique, de transformer un certain nombre de variables corrélées en un ensemble plus
petit de variables non corrélées.
L'Analyse en Composantes Principales est essentiellement basée sur une
décomposition orthogonale de la matrice de covariance des variables du processus le long des
directions qui expliquent la variation maximale des données, c'est à dire que cette méthode
recherche une projection des observations sur des axes orthogonaux. De ce fait, le premier axe
contiendra la plus grande variation. Le deuxième axe contiendra la seconde plus grande
variation orthogonale au premier.
Le but principal de l'Analyse en Composantes Principales est donc de trouver un
ensemble de facteurs (composantes) qui ait une dimension inférieure à celle de l'ensemble
original de données et qui puisse décrire correctement les tendances principales. L'Analyse en
Composantes Principales est une procédure qui ne prend en compte que les variables du
21
processus. Parfois, un ensemble additionnel de données est disponible, c'est-à-dire variables
de qualité du produit. Il est souhaitable d'inclure toutes les données disponibles pour la
surveillance du procédé et d'utiliser de cette façon les variables du processus pour prédire et
détecter des changements dans les variables de qualité du produit. Pour cela, la méthode des
Moindres Carrés Partiels peut être utilisée [VENK 03]. Cette méthode modélise le rapport
entre deux blocs de données tout en les comprimant simultanément. Elle est employée pour
extraire les variables latentes qui expliquent la variation des données du processus.
Divers travaux menés par MacGregor et al. [NOMI 94], [MACG 95] ont montré
l'application des méthodes statistiques multivariables telles que l'Analyse en Composantes
Principales et Moindres Carrés Partiels, dans l'analyse et la commande de processus, la
détection et le diagnostic de défaillances, aussi bien dans le cas de procédés continus que dans
les cas de procédés ‘‘batch’’ (continus par lots).
La limitation importante de cette méthode est que la plupart des processus réels
évoluent au cours du temps tandis que la représentation obtenue par cette méthode est
invariante dans le temps, par conséquent, la représentation issue de l’Analyse en Composantes
Principales nécessite une mise à jour périodiquement.
I. 3. 6. Systèmes Experts
Pour les systèmes experts, ou systèmes à base de connaissances, le diagnostic et
particulièrement le diagnostic industriel est devenu un domaine d'application privilégié. Les
systèmes experts sont des outils de l'Intelligence Artificielle, utilisés lorsqu’aucune méthode
algorithmique exacte n'est disponible ou praticable. De façon générale, nous pouvons dire
qu'un système expert sert à codifier la connaissance humaine en termes d'expérience,
raisonnement approximatif, analogie, raisonnement par défaut, apprentissage, etc... De ce fait,
la propriété principale de ces systèmes est de pouvoir représenter et restituer les connaissances
acquises par les spécialistes d'un domaine technique précis. Les connaissances utilisées, dans
la plupart des cas, pour le développement d'un système expert d'aide au diagnostic, reposent
sur l'apprentissage des relations entre les causes et les effets observés pour chaque défaillance
[AGUI 99]. Néanmoins, il est possible aussi d'utiliser les modèles fonctionnels décrivant les
comportements des composantes de systèmes complexes [CHAT 93]. La définition que nous
retenons pour les systèmes experts est celle donnée par [ZWIN 95]:
22
«Un système expert est un système informatique destiné à résoudre un problème précis
à partir d’une analyse et d’une représentation des connaissances et du raisonnement d’un (ou
plusieurs) spécialiste(s) de ce problème».
Un système expert est composé de deux parties indépendantes, voir Figure I. 4:
•
une base de connaissances, elle même composée d'une base de règles
qui modélise la connaissance du domaine considéré et d'une base de
faits qui contient les informations concernant le cas traité,
•
un moteur d'inférences capable de produire un certain nombre de
mécanismes simples du raisonnement à partir des informations
contenues dans la base de connaissances, de faire des déductions, etc...
Au fur et à mesure que les règles sont appliquées, des nouveaux faits se
déduisent et se rajoutent à la base de faits.
Expert
Base de
Règles
Base de
Faits
M oteur
d’Inférences
Utilisateur
Figure I. 4. Architecture d’un système expert.
Les principaux avantages des systèmes experts, vis à vis du diagnostic, sont leur
capacité à ‘‘raisonner’’ sous incertitude, leur capacité à apporter des explications à des
solutions fournies et le jeu de règles efficaces résultat de l’expertise humaine. Parmi les
inconvénients de cette méthode, sa dépendance de la qualité de l’expertise faite sur le système
à diagnostiquer. De plus, les règles construites, étant fortement liées à un système, ne peuvent
être utilisées sur un autre.
I. 3. 7. Systèmes Flous (SF)
Une autre alternative pour la modélisation des systèmes complexes est l'utilisation des
concepts de la théorie des ensembles flous et de la Logique Floue (LF) [ZADE 65], [YAGE
23
94]. Un modèle flou est une représentation des caractéristiques d'un système à l'aide de règles
floues qui décrivent sont comportement. Ceci permet une généralisation de l'information qui
essaie d'imiter le raisonnement approximatif exécuté par l'homme en introduisant
l'imprécision [ZADE 73]. Les systèmes à base de règles floues sont des systèmes où les
relations entre variables sont représentées au moyen de règles floues [ZADE 92] de la forme:
SI prémisse ALORS conclusion.
Fondamentalement deux types de modèles sont distingués:
•
Modèles linguistiques flous [MAMD 77] qui décrivent le système à partir
des règles SI - ALORS où, les prémisses et les conclusions utilisent des
variables linguistiques qui ont des ensembles flous comme valeurs.
L'ensemble de règles prend la place de l'ensemble d'équations classique
utilisé pour caractériser un système. Ce type de modèles est
essentiellement une expression qualitative du comportement du système,
où les règles sont obtenues la plupart du temps à partir de la connaissance
des experts et des différents mécanismes de raisonnement. De façon
générale, une règle SI-ALORS linguistique s'écrit:
Ri : SI x est Ai ALORS y est Bi ,
i = 1, 2,..., K
où Ai et Bi sont des ensembles flous qui définissent le partitionnement
des espaces d’entrée et de sortie.
•
Modèles flous type Takagi-Sugeno-Kang [TAKA 85] pour lesquels les
prémisses des règles sont des variables linguistiques mais les conclusions
sont de type numérique, généralement sous forme de constantes, de
polynômes ou de fonctions (linéaires ou non linéaires) qui dépendent des
entrées:
Ri : SI x est Ai ALORS y i = f i ( x ),
i = 1, 2,..., K
En termes d’Intelligence Artificielle, ces règles résument l’expérience de l’expert et
elles ne sont, en général, pas définissables de façon unique puisque chaque individu crée ses
24
propres règles. Les bases de règles floues, tout comme les systèmes experts classiques,
fonctionnent en s’appuyant sur une base de connaissance issue de l’expertise humaine. Il y a
néanmoins de grandes différences dans les caractéristiques et le traitement de cette
connaissance.
Fonctions
d’Appartenances
Entrées
Fuzzification
Base de Règles
Floues
Défuzzification
Sorties
Inférence
Floue
Figure I. 5. Les trois étapes d’un traitement flou.
Les étapes d’un Traitement Flou: Un traitement flou comporte trois étapes
fonctionnelles à partir de l’établissement des fonctions d’appartenances des entrées et d’une
base de règles floues [LEE 90] (voir aussi Annexe B) résumées dans la Figure I. 5 suivante:
•
Fuzzification: cette opération calcule les degrés d’appartenance aux ensembles flous
de chaque fonction d’appartenance correspondant à chaque entrée.
•
Inférence Floue: l’inférence floue est le mécanisme permettant de passer de l’entrée
A à la conclusion B, en exploitant la base de règles floues et en utilisant un algorithme
de recherche et d’appariement, et les opérateurs MAX-MIN,
•
Défuzzification: à la fin de l’inférence, l’ensemble flou de sortie est déterminé mais il
n’est pas directement utilisable, il est nécessaire alors de procéder à l’opération inverse
de la fuzzification, c’est l’opération de défuzzification. Il existe plusieurs méthodes
pour réaliser cette opération dont les trois de méthodes suivantes:
- la technique du maximum,
- la technique de la moyenne pondérée,
- la technique du centre de gravité.
Un système basé sur la logique flou permet d’exploiter la caractéristique du
raisonnement de l’être humain qui n’est pas basée sur la logique binaire classique, impliquant
des vérités floues, des règles de déduction floue,…souvent nécessaires dans l’établissement
d’un diagnostic.
25
I. 3. 8. Réseaux de Neurones (RN)
Pour les Réseaux de Neurones (RN) [HAYK 99], le diagnostic de défaillances est
essentiellement vu comme un problème de reconnaissance et de classification. En effet, l’une
des tâches principales à effectuer en diagnostic est la reconnaissance et la classification des
données et les réseaux de neurones sont des outils bien adaptés pour cette tâche.
Un réseau de neurones artificiel est un ensemble d’unités de calcul appelées des
neurones, organisées sous forme de couches et connectées totalement où partiellement entre
elles. Pour chaque connexion entre deux neurones est associé un poids. La Figure I. 6 présente
un exemple d’un réseau de neurones MLP.
Dans cette exemple, le MLP est composé de trois couches tel que la couche d’entrée
est composée de M neurones, la couche cachée est composée de P neurones et la couche de
sortie est composée de N neurones de sorties. Le vecteur X(x1, x2, …, xM) présente le vecteur
d’entrée, le vecteur O(o1, o2, …, oN) présente le vecteur de sortie, et W 2 kj et W 1ik présentent
les poids de la couche cachée et de la couche de sortie respectivement.
Couche d’Entrée
X1
Xj
XM
1
j
Couche Cachée
Y
1
Couche de Sortie
1
W2
kj
1
Y
k
k
W1
ik
O
1
i
O
i
N
O
N
Y
P
M
P
Figure I. 6. Exemple d’architecture d’un réseau de neurones MLP.
Lorsqu’un réseau de neurones est utilisé pour le diagnostic, l’approche consiste à
apprendre au réseau un certain nombre de situations de fonctionnement normal et anormal du
système. Lors de l’apprentissage, les paramètres poids du réseau de neurones sont ajustés
suivant les exemples appris. Dans le cas du réseau de neurones MLP par exemple, on utilise
généralement l’algorithme de la rétropropagation pour l’apprentissage.
A l’issu de cet apprentissage, le réseau de neurones peut généraliser en donnant des
réponses (une classification correcte des données présentées) à des situations non apprises,
grâce à la capacité de généralisation des réseaux de neurones.
26
La capacité des êtres humains à se rappeler et à apprendre, plusieurs choses sans
nécessairement oublier celles apprises dans le passé, représente la principale fonction utilisée
dans les RN pour mimer le cerveau humain et ce qui présente l’avantage principal de cette
méthode. Essentiellement, les RN sont capables d’effectuer une tâche importante dans un
système d’aide au diagnostic à savoir la classification par apprentissage et généralisation.
I. 3. 9. Synthèse
Nous avons passé en revue un ensemble d’approches pour l’élaboration des systèmes
d’aide au diagnostic. Pour les deux premières approches, Modèles Quantitatifs et Modèles
Qualitatifs (ou Semi Qualitatifs), elles se basent sur l’élaboration d’un modèle mathématique
pour la détection et le diagnostic. Mais souvent la construction d’un tel modèle est très
difficile due à la nature non linéaire du système à diagnostiquer, à des paramètres (souvent
dynamiques), au grand nombre de paramètres mis en jeu, etc…, ce qui présente le principal
inconvénient de ces méthodes.
Pour ce qui concerne l’approche Analyse des Modes de Défaillances et de leurs Effets,
une méthode très répandue dans de nombreux domaines industriels (l’aéronautique en
particulier), elle reste lourde et insuffisante. En effet, il est nécessaire d’identifier à priori les
défauts et/ou les dysfonctionnements pouvant apparaître dans le système supervisé. Le
recensement préalable des défaillances et les relations éventuelles entre elles ne peut jamais
être exhaustif et requiert en général une longue expérience. En plus, toute modification ou
évolution du système nécessite une réécriture du tableau. Enfin, cette méthode ne peut traiter
les cas de défaillances multiples.
L’Arbre de Défaillances est une autre méthode que nous avons passée en revue. Elle
permet la détermination des chemins critiques dans un système, mais son principal
inconvénient est que sa mise en œuvre est sensible aux erreurs commises à différentes étapes.
En effet, pour exécuter un diagnostic correct à partir des Arbres de Défaillances, ceux-ci
doivent largement représenter toutes les relations causales du processus, c'est à dire qu’ils
doivent être capables d'expliquer tous les scénarios de défauts possibles. De plus, l'emploi de
cette méthode se révèle difficile pour les systèmes dynamiques. Enfin, il n'y a pas de méthode
formelle pour vérifier l'exactitude de l’Arbre de Défaillance développé.
L’Analyse en Composantes Principales est une technique statistique capable de
comprimer les données et réduire leurs dimensionnalités de sorte que l’information essentielle
27
soit maintenue et plus facile à analyser, mais cette méthode présente une limitation
importante. En effet, la représentation obtenue est invariante dans le temps, tandis que la
plupart des processus réels évoluent au cours du temps. Par conséquent, la représentation
issue de l'Analyse en Composantes Principales nécessite également d'être mise à jour
périodiquement.
Une autre méthode passée en revue est celle des Systèmes Experts permettant de
codifier la connaissance humaine. Ce qui fait la force des Systèmes Experts, c’est le jeu de
règles efficaces, résultat de l’expertise humaine. Mais cette méthode présente des
inconvénients à savoir: le Système Expert est dépendant de la qualité de l’expertise faite sur le
système à diagnostiquer. Les règles construites pour un système ne peuvent être utilisées sur
un autre système car elles sont trop souvent dépendantes de son architecture. Le système à
diagnostiquer évolue soit par remplacement de composants soit par des ajouts de composants
ce qui entraîne une remise en cause du système de règles. Souvent les règles ne sont pas
robustes face à des situations non rencontrées. En plus, ils ne sont pas efficaces pour l’analyse
d’un ensemble important de données non corrélées, ambiguës et incomplètes.
L’autre famille d’approches utilisées pour la détection et le diagnostic des défauts se
basent sur l’Intelligence Artificielle et sur le ‘‘Soft Computing’’ impliquant les Réseaux de
Neurones (RN) et la Logique Floue (LF) [PIAT 95], [BALA 97], [MENE 98], [KARR 04],
[PALM 05], [Zade 65], [LEE 90], [HAYK 99], [ZHAN 00], [AZOU 02], [EGMO 02].
Les capacités d’apprentissage, d’adaptation et de généralisation des RN ont motivé le
développement de plusieurs systèmes intelligents de diagnostic [TURB 01], [KARR 04]. Des
approches de diagnostic basées sur de tels systèmes se sont développées pour des applications
industrielles [BALA 97], [MENE 98], [PALM 05] et des applications biomédicales [PIAT
95], [VUCK 02], [WOLF 03], [YAN 05]. Ces approches ont l’avantage de ne pas nécessiter la
connaissance d’un modèle mathématique, seule la disponibilité de données est nécessaire.
I. 4. PROBLEMATIQUE ET SOLUTIONS PROPOSEES
Compte tenu du schéma général d’un système global de diagnostic (Figure I. 2), les
principaux problèmes à résoudre afin d’élaborer un SAD délivrant un indice de confiance
associé à sa réponse sont: celui lié à la représentation de la connaissance (à partir d’une ou
plusieurs sources d’information), celui lié à la classification, le problème de la prise de
décisions, celui lié à la détermination de l’indice de confiance du diagnostic et celui
28
concernant la facilité d’adaptation d’un SAD proposé au changement du domaine
d’application.
Concernant la représentation de la connaissance: le choix de type de représentation de
l’information (quantitatif ou qualitatif) et la méthode de traitement influencent la qualité du
diagnostic donné par le SAD. En fait, l’information est souvent exploitée sous forme d’un
signal. Une autre alternative est la représentation image de cette information offrant
l’avantage d’une représentation plus riche et permettant de prendre en compte des
caractéristiques plus complexes (formes, information particulière, …). Ainsi, l’information
peut être traitée sous différentes représentations de la connaissance (signal, image).
L’exploitation des plusieurs représentations de la connaissance permet entre autre de prendre
bénéfice de chacune des représentations.
Nous nous sommes alors proposés une méthodologie globale d’aide au diagnostic, voir
Figure I. 7, composée d’une multiple représentation de la connaissance et d’une multiple
classification. Les avantages potentiels de cette méthodologie sont: traitement indépendant de
l’information afin d’avoir plusieurs avis, différentes représentations de la connaissance issues
d’une même source (ou de différentes sources) d’information, plusieurs classifieurs
(redondance et complémentarité), hybridation et fusion afin d’exploiter le caractère
complémentaire générant une décision finale, exploitation d’un paramètre de confiance dans
la prise de décisions et proposition d’un résultat final de diagnostic avec un Indice de
Confiance (IC).
Notons par ailleurs l’aspect modulaire dans l’architecture de cette méthodologie (ce
qui facilitera l’adaptation à d’autres applications des systèmes d’aide au diagnostic issus
d’une telle méthodologie).
Prise de Décisions
P aramètre de Con fiance (PC )
Classification
D ia g nostic
Classes (1)
de Sorties
Classes
de Sorties
Classification 1
Sources
d’Information
Représentations
de la
Connaissance
Classes (2)
de Sorties
Classification 2
.
.
Prise de
de
Décisions
Classes (N)
de Sorties
Indice de
Confiance
(IC)
Classification N
Figure I. 7. Méthodologie globale d’aide au diagnostic.
29
I. 5. CONCLUSION
Nous considérons un SAD comme étant un système capable d’identifier la nature d’un
dysfonctionnement en examinant les symptômes observés. Le synoptique global d’un tel
système d’aide au diagnostic est composé de trois étapes, une étape de représentation de la
connaissance, une étape de classification et une étape de prise de décisions.
Ensuite, après une étude et une synthèse d’un ensemble d’approches destinées à
l’élaboration d’un système d’aide au diagnostic, nous a conduites au choix d’approches basées
sur l’Intelligence Artificielle utilisant les techniques hybrides impliquant les Réseaux de
Neurones (RN) et la Logique Floue (LF). Ces approches permettent de faire face aux
problèmes d’identification des caractéristiques, de classification, et de prise de décisions. Ces
approches ont l’avantage de ne pas nécessiter la connaissance d’un modèle mathématique,
seule la disponibilité de données est nécessaire.
Le choix d’exploiter plusieurs représentations de la connaissance permet entre autre de
prendre bénéfice de chacune des représentations, permettant ainsi d’exploiter la richesse de
l’information que l’ont peut extraire de différentes représentations de la connaissance.
D’autres parts, la multiple classification offre le potentiel d’un accroissement de la robustesse
de la classification de l’état de fonctionnement du système.
Une méthodologie globale d’aide au diagnostic incorporant les deux points précédents
a été proposée. Dans le Chapitre suivant nous allons présenter l’étude, conception et le
développement de l’approche hybride modulaire basée sur cette méthodologie.
30
Chapitre II.
ETUDE, CONCEPTION, ET
DEVELOPPEMENT D’UN SYSTEME HYBRIDE MODULAIRE (SHM)
POUR L’AIDE AU DIAGNOSTIC
31
32
II. 1. INTRODUCTION
Dans le Chapitre précédent, nous avons présenté une méthodologie globale d’aide au
diagnostic, (Figure I. 7, § I. 4), composée essentiellement d’une multiple représentation de la
connaissance et d’une multiple classification. Dans ce Chapitre, nous proposons l’architecture
d’une approche hybride modulaire pour la validation de cette méthodologie d’aide au
diagnostic. Cette architecture est basée essentiellement sur une double représentation de la
connaissance et une double classification (une seule source d’information, deux modules de
représentation de la connaissance, deux modules de classification, et un module de prise de
décisions). Ensuite, nous présentons une étude et conception des différents modules
composant l’architecture de l’approche hybride modulaire proposée (module de représentation
de la connaissance, de classification, et de prise de décisions) pour l’exploitation et le
développement de cette architecture de validation. A partir de cette étude et conception, nous
développons différentes variantes de l’approche hybride modulaire proposée qui sont déduites
selon différentes stratégies de représentation de la connaissance et de classification. Ensuite,
pour chaque variante de l’approche hybride modulaire, un (ou plusieurs) système hybride
modulaire est proposé et développé.
II. 2. ARCHITECTURE DE L’APPROCHE HYBRIDE MODULAIRE
PROPOSEE
L’architecture de l’approche hybride modulaire que nous proposons pour l’élaboration
des systèmes d’aide au diagnostic est présentée dans la Figure II. 1. Cette architecture est
33
composée de trois étages: le premier basé sur deux modules pour la représentation de la
connaissance, le deuxième composé de deux modules de classification et le troisième pour la
prise de décisions. Cette approche permet d’exploiter deux représentations de la connaissance
issues d’une même source d’information. Chaque représentation est traitée par un classifieur
indépendamment, en parallèle (redondance et complémentarité). Les sorties des deux
classifieurs sont exploitées, enrichies d’un paramètre de confiance par l’étape de prise de
décisions. Ainsi, la décision finale est obtenue à partir de l’exploitation des caractères
complémentaire et redondant des représentations mais aussi grâce à une fusion d’expertises.
Le résultat final de diagnostic est accompagné d’un indice de confiance qui permet de
déterminer la qualité des résultats donnés par le SAD.
Prise de Décisions
Paramètre de Confiance (PC)
Diagnostic
Classification
Classe 1
Représentation
de la
Connaissance 1
Classification 1
(Réseaux de
Neurones)
Classe 2
.
.
.
Classe 1
Classe 2
Classe M
Une Seule
Source
.
.
.
Prise de
Décisions
(Logique
Floue)
d’Information
Classe M
Classe 1
Représentation
de la
Connaissance 2
Classification 2
(Réseaux de
Neurones)
Classe 2
.
.
.
Indice de
Confiance
(IC)
Classe M
Figure II. 1. Architecture de l’approche hybride modulaire
proposée pour l’aide au diagnostic.
Dans cette architecture, la double représentation de la connaissance peut impliquer un
signal avec une image (représentation Signal - Image) ou deux images (représentation Image Image). La double classification est effectuée par deux réseaux de neurones (du type MLP ou
RBF). Quant à l’étage de la prise de décisions, il est basé sur la logique floue (LF).
34
II. 3. ETUDE ET CONCEPTION
Cette partie est dédiée à l’étude et à la conception des différents étages de
l’architecture de l’approche hybride modulaire présentée dans la Figure II. 1. Chaque module
composant cette architecture est développé: deux modules de représentation de la
connaissance, deux modules de classification, et un module de prise de décisions.
II. 3. 1. Représentation de la Connaissance
Dans notre travail, nous nous sommes intéressés au type de représentation de
l’information (connaissance), qui est d’une grande importance dans la qualité d’un diagnostic.
En effet, on peut traiter l’information sous différentes formes de représentation de la
connaissance dont deux particulièrement intéressantes à savoir: la représentation signal et la
représentation image.
II. 3. 1. 1. Représentation ‘‘Signal’’ de la Connaissance
Le signal a toujours présenté un moyen très populaire de support de l’information. Le
traitement du signal permet de traiter les informations brutes pour extraire les caractéristiques
pertinentes afin d’établir un diagnostic.
En effet, dans le domaine du diagnostic industriel, le traitement du signal permet
d’établir des signatures associées aux fonctionnements normaux et anormaux. Une signature
élaborée à partir des signaux ou des données recueillies doit contenir les informations jugées
pertinentes par les spécialistes pour la détection d'une défaillance. Pour le domaine du
diagnostic médical, les informations sont toutes d'abord des données factuelles. Le patient
décrit ses symptômes au médecin (intensité et localisation d'une douleur, apparition de
troubles, sensations, ...), ce dernier va ensuite, après auscultation, déterminer la cause des
symptômes décrits ou observés ou, si besoin, orienter le patient vers des examens
complémentaires. Suivant le trouble dont il s'agit de trouver la cause, les examens sont
différents. Il peut alors s'agir d'appareils d'imagerie (radio, scanner, imagerie par résonance
magnétique, ...), mais aussi d'électrodes pour le recueil de signaux tels que les
35
électrocardiogrammes, électro-encéphalogramme, ou potentiels évoqués (réponse électrique
provoquée par la stimulation brève d'un organe sensoriel.
Dans quelques applications, l’information est disponible sous forme d’un ensemble de
signaux, par exemple la surface DTC (Dynamique Temporelle du Tronc Cérébral): composée
des estimations des Potentiels Evoqués Auditifs [MOTS 87]. Une manière pour traiter cette
surface et l’élaboration d’un signal moyenné à partir de cette surface, voir Figure II. 2.
M1
.
.
.
Mp
Figure II. 2. Représentation signal moyenné de la connaissance.
Le signal peut être traité dans deux domaines: le domaine temporel et le domaine
fréquentiel. Certes que la représentation fréquentielle du signal fournit le contenu spectral du
signal mais ne donne aucune information quant aux instants auxquels ces composantes
spectrales apparaissent, surtout dans le cas des signaux non stationnaires. On peut déduire
que: les représentations temporelles n’apportent aucune caractéristique fréquentielle du signal
et réciproquement, les représentations fréquentielles n’apportent aucune indication de nature
temporelle sur le signal. Ainsi, l’exploitation du signal dans le domaine temporelle ne permet
pas de se faire une idée sur sa périodicité, et la représentation fréquentielle ne donne aucune
information quant aux instants auxquels les composantes spectrales apparaissent.
Contrairement à une représentation basée sur le temps ou la fréquence, l’image est une autre
alternative pour représenter la connaissance.
II. 3. 1. 2. Avantages d’une Représentation Image de la Connaissance
Une autre alternative pour traiter l’information, consiste à présenter l’information sous
forme d’image (signal bidimensionnel) en transformant le signal unidimensionnel.
Par exemple, dans le domaine du diagnostic médical, traditionnellement les signaux
sont traités en utilisant des approches de traitement du signal, principalement basées sur des
approches d'identification de pics et d’ondes et des approches de reconnaissance de formes
36
[PIAT 95], [VANN 2002], [WOLF 2003]. Cependant, un médecin analyse un résultat
d’examen médical par une approche visuelle: en effet, il (ou elle) regarde les résultats
(signaux) comme une image. C’est la raison principale de notre motivation pour considérer
cette autre alternative comme étant un support pertinent de la représentation de la
connaissance.
Compte tenu de la nature visuelle de l’analyse de l’expert humain, parmi les avantages
qu’offre la représentation image de la connaissance on peut citer:
- extraction de paramètres sur les formes et leur texture,
- détection de changements entre deux images, ça permet de détecter les changements
apparus entre deux images acquises du même système à deux instants différents, ceci
peut servir à établir un diagnostic plus précoce, mais aussi à évaluer l'efficacité de
l’intervention,
- comparaison des images de deux systèmes différents pour le diagnostic du même
défaut.
II. 3. 1. 3. Conversion Signal - Image de la Connaissance
La connaissance, acquise comme les données, les mesures, …, est souvent disponible
sous forme d’un signal ou plusieurs signaux: par exemple, dans le cas d’une analyse vibratoire
d’une machine tournante (domaine industriel) ou la moyenne des potentiels évoqué auditifs il
s’agit d’une représentation sous forme d’un signal, alors que la surface DTC (Dynamique
Temporelle du Tronc Cérébral) donne l’exemple d’un cas de figure correspondant à une
représentation multi-Signaux (Voir Figure II. 3).
(a)
(b)
(c)
Figure II. 3. Représentation signal de la connaissance: (a) Signal vibratoire d’une machine tournante,
(b). Signal moyenné des Potentiels Evoqués Auditifs. (c). Signaux composant la surface DTC.
37
II. 3. 1. 3. 1. Méthode de Conversion Signal - Image
A partir d’une représentation 3-D d’un signal, on procède à une conversion signal à
image comme suit:
- on élabore une représentation 3-D d’un signal, exemple la surface DTC
(représentation multi-signaux (temps-temps)) [MOTS 87] ou à partir de la transformée
en ondelettes d’un signal (conduit à une représentation 3-D (temps-fréquence)),
- on détermine la valeur minimale de la représentation 3-D du signal et on décale de
cette valeur la représentation vers le haut,
- on applique un seuillage afin de déterminer les niveaux de gris en appliquant une
coupe suivant un plan horizontal de la représentation selon un seuil. Deux critères sont
présentées (Voir § II. 3. 1. 3. 2) pour le seuillage: un premier critère de seuillage basée
sur les amplitudes et un deuxième critère de seuillage basée sur les aires.
(a)
Représentation 3-D du Signal
(représentation multi-signaux,
transformée en ondelettes d’un signal)
(b)
Décalage
vers le haut
Seuillage basé sur les
Amplitudes
Seuillage basé sur les
Aires
Représentation
Image
Représentation
Image
(c)
Figure II. 4. (a). Etapes de la méthode de conversion signal à image.
(b). Exemple d’image obtenue dans le cas d’une représentation multi-signaux.
(c). Exemple d’image obtenue dans le cas d’un seul signal.
Par conséquent on obtient une image représentée par une matrice de X lignes et Y
colonnes. La Figure II. 4. (a) récapitule l’ensemble des étapes de conversion signal à image, la
Figure II. 4. (b) présente un exemple d’une image obtenue à partir de la conversion signal à
image en appliquant la méthode présentée ci-dessus dans le cas d’une représentation multisignaux et utilisant le 1er critère de seuillage et la Figure II. 4. (c) présente un exemple d’une
38
image obtenue à partir de la conversion signal à image en appliquant la même méthode dans
le cas d’un seul signal et utilisant le 2ème critère de seuillage.
Notons que le choix du seuil de coupe doit permettre de préserver l’information
relative à un défaut même pour des valeurs faibles de celui-ci, par la suite on présente les
deux critères de choix d’un seuil de coupe.
II. 3. 1. 3. 2. Critères de Choix d’un Seuil de Coupe
Dans la conversion signal à image de la connaissance (cas de plusieurs signaux et cas
d’un seul signal), le principe de base est d’appliquer une coupe du volume obtenu à ‘‘ H’ ’’
représentant ‘‘un seuil de coupe’’, et convertir les amplitudes obtenues à des niveaux de gris
afin d’obtenir une image [GONZ 02]. Cependant, le point important est de trouver ce ‘‘seuil
de coupe’’ de telle manière à ne pas perdre les informations utiles.
Par la suite, on présente les deux critères de choix d’un ‘‘ seuil de coupe’’ H ' . Pour
les deux critères on considère:
- X ( X min , X max ) représentant les coordonnées sur l’axe (Ox),
- Y ( Ymin , Ymax ) représentant les coordonnées sur l’axe (Oy),
- Z ( Z min , Z max ) représentant les coordonnées sur l’axe (Oz).
1er Critère: Seuillage Basé sur les Amplitudes
- Etape 1: une subdivision par un nombre Nx suivant l’axe des abscisses (Ox) permet
d’avoir, pour chaque valeur de Y fixée, ( X max / N x ) régions (sur l’axe (Ox) et l’axe
(Oz)), alors M = ( X max / N x ). Ymax , où M représente le nombre global des régions
obtenues. La détermination du nombre Nx se fait expérimentalement selon la taille de
la représentation 3-D du signal sur un compromis entre le nombre de régions obtenues
et leur taille.
- Etape 2: on détermine l’amplitude, noté h, de chaque région,
- Etape 3: on calcule la valeur h’ tel que:
h' =
2
xh
2
- Etape 4: le ‘‘seuil de coupe’’ est obtenu alors comme suit:
39
H' = min(h'i )1≤i≤ M
L’exemple suivant présente une réalisation de la représentation image à partir d’une
représentation signal du Sd(t), en appliquant un seuillage basé sur le 1er critère tel que:
- le signal S(t) = cos(3*t) ∀ t ∈ ℜ , voir Figure II. 5. (a),
⎧0.4
⎪
- le défaut d(t) = ⎨
⎪0
⎩
∀ t ∈ [a − 1 , a + 1]
avec a = 10 * k ,
k ∈ Ν * , voir Figure
II. 5. (b),
- Sd(t) = S(t) + d(t), voir Figure II. 5. (c).
Dans cet exemple, la représentation image du signal Sd(t) (voir Figure II. 5. (d)) est
obtenue en appliquant une coupe suivant un plan horizontal à un seuil H’ = 2.4289.
Figure II. 5. (a). Représentation
Figure II. 5. (b). Représentation
Figure II. 5. (c). Représentation signal
signal de S(t).
signal de d(t).
de Sd(t).
Figure II. 5. (d). Représentation image de Sd(t)-1er critère-.
40
2ème Critère: Seuillage Basé sur les Aires
- Etape 1: on procède de la même manière que l’étape 1, du 1er critère de seuillage
(seuillage basé sur les amplitudes).
- Etape 2: pour chaque région, son maximum est alors noté par A,
- Etape 3: chaque région est approximée par un triangle comme montré sur la Figure
II. 6,
Figure II. 6. Approximation d’une région par un triangle.
- Etape 4: pour chaque triangle (chaque région), la hauteur h du triangle est
déterminée,
- Etape 5: la première équation, du système d’équations suivant, peut être déduite
géométriquement et la deuxième équation à partir de la supposition (approximation)
que la surface du trapèze DEBC est égale à
2
de la surface du triangle ABC:
2
⎧ (h − h' ) b
=
⎪
a
⎪⎪ h
⎨
⎪
⎪ h' (b + a) = 2 ⎛⎜ h × a ⎞⎟
⎪⎩
2
2 ⎝ 2 ⎠
- Etape 6: la résolution de ce système d’équation nous permet de déterminer h’ dans
chaque triangle (chaque région) comme suit:
h' = 0.4588 × h
- Etape 7: le ‘‘seuil de coupe’’ est obtenu alors comme suit:
H' = min(h'i )1≤i≤ M
41
La Figure II. 7 présente une réalisation de la représentation image du signal Sd(t) de
l’exemple précédent (Figure II. 5. (d)), mais en appliquant un seuillage basé sur le 2ème critère.
Dans cet exemple la représentation image est obtenue en appliquant une coupe suivant un
plan horizontal à un seuil H’ = 1.5760.
Figure II. 7. Représentation image de Sd(t) -2ème critère-
Afin de comparer les deux critères de choix de seuil de coupe pour la conversion
signal à image, on présente, pour la conversion signal à image dans le cas d’un seul signal, un
protocole expérimental simulant une signature (Signal) correspondant au cas du ‘‘bon
fonctionnement’’ (sans défaut) et une signature correspondant au cas d’un dysfonctionnement.
La première notée S(t) est une fonction périodique (S(t) = cos(t)). Quand à la seconde, notée
Sd(t), elle a été obtenue en ajoutant une perturbation d(t) à la première (Sd(t) = S(t) + d(t)):
- le signal S(t) = cos(t) ∀ t ∈ ℜ , voir Figure II. 8. (a),
⎧x
⎪
- le défaut d(t) = ⎨
⎪0
⎩
∀ t ∈ [a − 1 , a + 1]
avec a = 10 * k ,
k ∈ Ν * , voir Figure II.
8. (b),
Maintenant, le but est de générer, pour cette étude, un certain nombre de différents
signaux avec défauts. Pour cela, on se propose alors 40 différents signaux avec défaut en
faisant varier l’amplitude x du défaut de 0.01 à 0.4 par pas de 0.01. Ces amplitudes
représentent en fait des défauts allant de 1% à 40% de l’amplitude du signal S(t). La Figure II.
8. (c) présente un exemple de Sd(t) pour une amplitude x = 0.4.
42
Figure II. 8. (a). Représentation signal
Figure II. 8. (b). Représentation
Figure II. 8. (c). Représentation
de S(t).
signal de d(t) pour x = 0.4.
signal de Sd(t) pour x = 0.4.
Ensuite, on détermine la transformée en ondelettes:
- du signal S(t),
- des 40 différents signaux avec défaut Sd(t).
On calculera alors la différence dans chaque cas (40 cas) entre la transformée en
ondelettes du signal avec défaut Sd(t) et celle du signal S(t).
Un exemple est donné dans la Figure II. 9, présentant la transformée en ondelettes du
signal S(t) dans la Figure II. 9. (a), la transformée en ondelettes du signal avec défaut Sd(t)
dans la Figure II. 9. (b), et de la différence dans la Figure II. 9. (c).
Figure II. 9. (a). Transformée en
Figure II. 9. (b). Transformée en
Figure II. 9. (c). Différence entre
ondelettes du signal S(t).
ondelettes du signal avec défaut
la transformée en ondelettes du
Sd(t) pour x = 0.4.
Sd(t) et la transformée en
ondelettes du S(t) pour x = 0.4.
Pour chaque différence entre la transformée en ondelettes du signal avec défaut Sd(t)
et la transformée en ondelettes du signal S(t), on procède à une subdivision en plusieurs
régions. Ainsi, on subdivise par pas de 10 (de 1 à 70) sur l’axe du temps Ox et sachant que
nous avons utilisé, voir la Figure II. 10, 40 fenêtres dans la transformée en ondelettes sur l’axe
(Oy), nous obtenons alors:
M = 40 x 7
= 280 régions
43
Oz
Oy
40
3
2
1
0
10
70
20
Ox
Figure II. 10. La subdivision en plusieurs régions de la différence
entre les deux transformées en ondelettes.
Pour chaque région où on a l’apparition d’un défaut (Na est le nombre de régions où
on a l’apparition du défaut), on détermine la valeur I1, telle que I 1 = min(max1≤i ≤ N a ) .
Ensuite nous présentons la valeur de I1 en fonction de ΓP (le rapport des amplitudes)
et ΓE (le rapport des aires), voir Figure II. 11 et Figure II. 12, respectivement:
⎧ I 1 = f (Γ p )
⎨
⎩ I 1 = f ( ΓE )
avec:
x1
⎧
Γ
=
P
⎪
x2
⎪
⎨
⎪Γ = x'1
⎪⎩ E x' 2
x1 est l’amplitude maximale du défaut d(t),
et
x 2 est l’amplitude maximale du signal S(t),
'
x1 est l’aire du défaut d(t),
'
x 2 est l’aire du signal S(t).
En comparant les résultats trouvés pour I1 ( I 1 = min(max1≤i ≤ N a ) avec Na est le nombre
de régions où on a l’apparition du défaut en fonction de ΓP (le rapport des amplitudes) et
ΓE (le
rapport des aires), on remarque que l’indicateur ΓE est plus sensible à l’apparition du
défaut que l’indicateur ΓP (voir Figure II. 11 et Figure II. 12). Ainsi le critère de seuillage
basée sur les aires est plus pertinent que le critère de seuillage basée sur les amplitudes.
Afin d’exploiter cette nouvelle représentation de la connaissance sous forme d’image,
la représentation image peut être présenté en deux manières différentes: représentation image
globale et représentation image subdivisée. L’intérêt dans l’exploitation de l’image globale est
l’obtention d’un indicateur global de classification. Par contre, l’intérêt dans l’exploitation de
l’image subdivisée est l’obtention d’indicateurs locaux de classification.
44
I1 en fonction du rapport des amplitudes TauxP
1,40E+00
1,20E+00
1,00E+00
I1
8,00E-01
6,00E-01
4,00E-01
2,00E-01
0,00E+00
0,00E+00
5,00E-02
1,00E-01
1,50E-01
2,00E-01
2,50E-01
TauxP
Figure II. 11. I1 en fonction du rapport des amplitudes ΓP .
I1 en fonction du rapport des aires TauxE
1,40E+00
1,20E+00
1,00E+00
I1
8,00E-01
6,00E-01
4,00E-01
2,00E-01
0,00E+00
0,00E+ 1,00E- 2,00E- 3,00E- 4,00E- 5,00E- 6,00E- 7,00E- 8,00E- 9,00E00
02
02
02
02
02
02
02
02
02
TauxE
Figure II. 12. I1 en fonction du rapport des aires ΓE .
45
II. 3. 1. 4. Représentation Image Globale de la Connaissance
Une première approche pour présenter l’image consiste à traiter toute l’image dans sa
globalité. Pour cela, une des méthodes de traitement de l’image globale (vu le nombre élevé
de pixels) est la suivante: on subdivise l’image en plusieurs régions et pour chaque région on
calcule sa moyenne. En effet, on subdivise l’image en n régions de taille x × y et on calcule la
moyenne de niveaux de gris de chaque région dans le but de présenter chaque image par un
vecteur de n composants, voir Figure II. 13.
Ainsi, la présentation de ce vecteur à un classifieur, nous permettra d’obtenir un
indicateur global de classification.
1
2
…
…
i
…
M1
…
n
.
.
.
Mn
Figure II. 13. Représentation image globale de la connaissance.
II. 3. 1. 5. Représentation Image Subdivisée de la Connaissance
Une deuxième approche pour présenter l’image est basée essentiellement sur la
subdivision de l’image en z imagettes comme illustré sur la Figure II. 14.
Cette représentation de l’image sous forme des imagettes nous permet de traiter
chaque pixel dans chaque imagette [PIAT 99], l’idée principale est de traiter l’information
originale (pixel) sans aucune approximation. Ainsi, la présentation de chaque imagette à un
classifieur, nous permettra d’obtenir des indicateurs locaux de classification (un indicateur
local de classification par imagette).
Représentation
Image
Image Subdivisée
I-1
…
I-2
I-i
…
I-1
…
…
..
.
I-z
I-z
I-i: Imagette N° i
Figure II. 14. Représentation image subdivisée de la connaissance.
46
II. 3. 2. Classification
En général, les méthodes de classification sont basées sur l'optimisation d'une fonction
objective, laquelle dépend du type de similitude défini dans l'ensemble des données (ou
éléments) à classer. De ce fait, il existe des techniques qui minimisent les distances entre
objets du même groupe et d'autres qui maximisent l'appartenance des objets à une classe.
Nous donnons, maintenant, une brève présentation de quelques approches pour la
classification.
II. 3. 2. 1. Méthodes de Groupement (‘‘Clustering’’)
Les techniques de groupement (‘‘cIustering’’) essayent de trouver une partition de
l'espace en regroupant les éléments, de nature quantitative x ∈ ℜ D , d'un ensemble
X = {x1 ,..., x N } en un nombre K de groupes (ou classes), selon leurs ressemblances ou bien
leur proximité [KAUF 90], [JAIN 99].
Typiquement, le concept de similitude est défini à partir de la distance entre un vecteur
de données et le prototype (centre) du groupe (classe). Ces groupes doivent satisfaire deux
critères :
- Chaque groupe ou classe est homogène: les objets appartenant au même groupe ou
classe doivent être similaires entre eux (le plus proche possible),
- Chaque groupe ou classe doit être distinct des autres: les objets qui appartiennent au
même groupe doivent être différents des objets appartenant à d'autres groupes (le plus
éloigné possible des autres groupes).
Les caractéristiques des prototypes, qui ne sont pas habituellement connues à l'avance,
doivent être choisies a1éatoirement et sont mises à jour en même temps qu'est faite la
partition de l'espace.
Les méthodes de regroupement sont basées sur l'optimisation itérative d'une fonction
objectif (par exemple: la variabilité dans les classes), permettant d'obtenir des classes
homogènes et les plus distinctes possibles.
K-Moyennes: L'algorithme populaire et le plus connu des méthodes de regroupement
est celui des K-moyennes (K-means) [MACQ 67]. Cet algorithme réalise une partition stricte
47
(‘‘dure’’), c'est à dire que chaque objet n'est assigné qu'à une seule classe. Il s'agit d'une
procédure simple et itérative dont l'idée générale est de classer un ensemble X = {x1 ,..., x N }
d'éléments dans un nombre K de groupes (‘‘clusters’’) fixés à l'avance. Chaque élément est un
vecteur x ∈ ℜ D . La partition est faite de telle façon que les éléments à l'intérieur d'un groupe
sont les plus semblables possible, et les plus distincts des éléments appartenant à d'autres
groupes. Le regroupement est réalisé en deux étapes: d'abord, il faut définir les K centres ou
prototypes de chaque groupe, ensuite, chaque élément est associé au groupe dont il est le plus
proche du centre. Ainsi, chaque groupe est caractérisé par son centre Vk et par les éléments
qui lui ont été associés. Le centre du groupe est le point dans l'espace qui minimise la somme
de la distance de tous les éléments qui font partie du groupe.
C-Moyennes Floues: Une extension directe de l'algorithme K-moyennes est
l'algorithme des C-Moyennes Floues [BEZD 81], où la notion d'ensemble flou est introduite
dans la définition des classes. Chaque objet a un degré d'appartenance (ou de validité) associé
à chaque classe.
II. 3. 2. 2. Méthodes Statistiques
Selon Michie et al. [MICH 94] deux types différents de méthodes sont identifiés
comme des procédures statistiques pour la classification. Le premier type correspond aux
algorithmes dits "classiques" car ils sont dérivés des Discriminants Linéaires de Fisher [FISH
36]. Le deuxième type englobe des techniques de classification et fournit une estimation de la
distribution conjointe des caractéristiques dans chaque classe.
Pour l'approche des Discriminants Linéaires de Fisher, l'ensemble d'apprentissage
comprend N éléments représentant q classes prédéfinies (connues). L'espace de représentation
est défini par D attributs de type quantitatif et chaque objet de l'ensemble d'apprentissage est
x = ( x , x ,..., x ) . Cet espace de représentation est divisé par
décrit par un vecteur d'attributs ~
1
2
D
un ensemble d'hyperplans, chacun est défini par une combinaison linéaire des attributs.
L'hyperplan divisant deux classes est tracé de façon à bissecter la ligne joignant les centres de
ces classes. La direction de l'hyperplan est déterminée par la forme des groupes des éléments.
Cette approche ne requiert pas de suppositions probabilistes. Il y a deux façons de réaliser la
classification en utilisant les Discriminants Linéaires de Fisher:
48
- une façon est de maximiser 1a séparation entre les classes par le critère des moindres
carrés. Un hyperplan dans l'espace de représentation D-dimensionnel est choisi pour
séparer du mieux possible les classes prédéfinies. Les éléments sont classés selon le
coté de l'hyperplan où ils se situent.
- une autre possibilité est de faire la classification à l'aide de l'estimateur du maximum
de vraisemblance. Ici, on suppose que les attributs des éléments d'une classe sont
indépendants et suivent une certaine distribution de probabilité, avec une Fonction de
r
Probabilité f i [MICH 94]. Un nouvel objet, de vecteur d'attributs x est alors affecté à
r
la classe pour laquelle la Fonction de Probabilité f i ( x ) est maximale.
Ces techniques de classification font l'hypothèse que le vecteur des caractéristiques
des objets obéit à une loi de distribution connue. De ce fait, ces méthodes sont appelées aussi
paramétriques [MARI 03], [CASI 03]. Une supposition très fréquente est que les distributions
sont de type Gaussien (ou normal), avec des moyennes différentes mais avec la même matrice
de covariance.
Les techniques statistiques actuelles sont considérées comme des procédures de
classification non paramétriques qui peuvent être utilisées sans hypothèses sur l'existence
d'une loi de probabilité. La méthode des K plus proches voisins [DUDA 01] est une de ces
techniques. L'idée générale est: pour un nouvel objet x', il s'agit de déterminer la classe de
chacun des k plus proches individus de x' parmi tous les objets de l'ensemble d'apprentissage.
Nous pouvons alors classer le nouvel objet dans la classe la plus fréquente parmi celles de ses
voisins.
II. 3. 2. 3. Arbres de Décisions et Inductions
Les arbres de décisions sont des outils puissants et très répandus pour la classification
et la prédiction [MICH 94]. Ce qui les rend attractif est le fait qu'ils peuvent être représentés
comme des règles. Les règles peuvent, aisément, être exprimées de façon interprétable. Dans
des applications où l'explication des causes ou des raisons d'une décision est cruciale, les
experts ont besoin d'outils qui permettent de reconnaître et de valider les connaissances
découvertes issues des données, dans le contexte du diagnostic. Il existe une variété
d'algorithmes pour la construction des arbres de décisions qui offrent la qualité
d'interprétation souhaitée.
49
Les arbres de décisions ont une structure arborescente. Ils réalisent une recherche de
haut en bas (‘‘top-down’’). Chaque noeud représente une décision, ou un test, à effectuer sur
un attribut donné des individus. Le noeud initial s'appelle racine, deux (ou plus) branches
peuvent être issues d'un noeud selon si la décision à prendre est de type binaire ou non. Les
nœuds intermédiaires sont des noeuds de décisions. Les noeuds terminaux se nomment
feuilles, et c'est là que la décision est prise pour affecter un individu à une classe existante.
II. 3. 2. 4. Réseaux de Neurones (RN)
Les réseaux de neurones sont connus pour être appropriés pour la classification
[HAYK 99], [ZHAN 00], [EGMO 02], [AZOU 02]. Dans la littérature, de nombreux travaux
démontent leur utilité de par leurs caractéristiques d'apprentissage et leurs capacité de
généralisation.
Le réseau de neurones MLP est capable, grâce à un apprentissage (voir Annexe A), de
procéder à une classification non linéaire. Une des techniques de l’apprentissage est
l’apprentissage supervisé, tel que le MLP s’adapte par comparaison entre le résultat qu’il a
calculé, en fonction des entrées fournies, et la réponse attendue en sortie. L’algorithme de
rétropropagation est le plus populaire parmi les techniques d’apprentissage supervisé. Après
la phase d’apprentissage à partir d'un ensemble des données, le MLP est prêt et peut être
utilisé pour la classification de nouveaux exemples dans les classes existantes.
Comme le MLP, le réseau de neurones RBF est capable de procéder à une
classification non linéaire en représentant les données en termes de prototypes (centres) et leur
similarité à chaque prototype (voir Annexe A). Cette similarité est calculée avec une métrique
de distance. Un exemple fait partie d’une classe si la similarité est considérée suffisante.
II. 3. 2. 5. Choix d’une Méthode de Classification
Il n’existe pas une méthode universelle pour la classification, chaque méthode présente
ses avantages et ses inconvénients.
Pour la méthode de ‘‘clusterisation’’, un désavantage de ces algorithmes de
groupement (‘‘clustering’’) est qu'ils sont sensibles à la sélection de la partition initiale.
Souvent, l'initialisation se fait aléatoirement, plusieurs fois, dans l'espoir qu'une des partitions
50
mène à un groupement acceptable. Cette sensibilité à l'initialisation devient aiguë quand la
distribution des données montre une grande variance. Ces techniques de groupement sont
considérées parmi les méthodes de classification non supervisées, car elles n'utilisent aucune
connaissance a priori des classes qui doivent être créées. Néanmoins, un nombre spécifique de
classes doit être choisi à l'avance, peu importe si les classes créées sont significatives ou non,
ce qui donne, tout de même, à ces méthodes un caractère supervisé. Ceci peut être un
inconvénient car il n'est pas toujours possible de connaître le nombre de groupes (classes)
contenues dans l'ensemble de données.
Pour les méthodes statistiques, l’une des difficultés de ces méthodes est de trouver une
normalisation appropriée des observations. Pour des données multi-variables, dont les
variables sont mesurées selon différentes échelles, une norma1isation s'avère nécessaire afin
de comparer les individus. Pour des ensembles de données trop importants en nombre, cette
technique peut devenir coûteuse en temps puisque toutes les observations de l'ensemble des
données doivent être enregistrées et examinées à chaque nouvelle classification d'un objet.
Pour les arbres de décisions, Il n'y a aucune restriction pour la nature des données à
classifier: les arbres de décisions peuvent manipuler des variables continues (discrétisées) et
symboliques. Aussi ils ont la capacité à générer des règles compréhensibles, tout en réalisant
la classification sans exiger beaucoup de calcul. Ils fournissent une indication claire sur les
attributs les plus représentatifs pour la classification ou la prévision. Mais les arbres de
décisions et la plupart d'entre eux examinent seulement un champ (attribut) à la fois,
d’ailleurs, ils peuvent être informatiquement coûteux dans leur construction, de par leur
croissance combinatoire ce qui présente un des inconvénients majeurs de cette méthode.
Dans ce travail, pour l’étape de la classification, un intérêt particulier est porté aux
réseaux de neurones et plus particulièrement le MLP et le RBF. Partant du fait, qu’en plus des
capacités d’apprentissage et de généralisation des deux réseaux de neurones MLP et RBF, la
classification par le MLP permet d’exploiter ses capacités d’un approximateur global et la
classification par le RBF permet d’exploiter ses capacités d’un approximateur local. Ainsi, la
mise en concurrence et en collaboration du MLP et du RBF permet d’exploiter à la fois deux
RN l’un à caractère local (RBF) et l’autre à caractère global (MLP).
Ainsi l’étage de la classification se base sur deux types de classifieurs, un premier type
composé d’un seul réseau de neurones (MLP ou RBF), voir Figure II. 15, et un deuxième type
de classifieur composé de plusieurs réseaux de neurones (MLP ou RBF), dans ce cas et à
partir des résultats (présentant des indicateurs locaux) donnés par l’ensemble des classifieurs
{C-1, …C-z} on procède à un traitement statistique basé sur une méthode de vote afin de
51
déterminer l’émergence du comportement collectif, ainsi, on obtient un indicateur global, voir
Figure II. 16.
Classifieur
à un seul
Réseau de
Neurones
Représentation
de
la Connaissance
Indicateur
Global
Classe 1
Classe 2
Classe 3
Figure II. 15. Classifieur à un seul réseau de neurones (MLP ou RBF).
Représentation
De la
Connaissance
Indicateur
Local
I-1
..
.
I-z
Classe 3 1
Indicateurs Locaux
Indicateur
Local
C-z
Indicateur
Global
Classe 2 1
C-1
..
.
Classe 1 1
..
.
Traitement
Statistique
Classe 1
Classe 2
Classe 3
Classe 1 z
Classe 2 z
Classe 3 z
Image Subdivisée
(Sub-Image)
Classifieur à plusieurs réseaux de
neurones (MLP ou RBF)
I-i: Imagette i
C-i : Classificateur i
Figure II. 16. Classifieur à plusieurs réseaux de neurones (MLP ou RBF).
II. 3. 3. Prise de Décisions
Comme présenté précédemment, la prise de décisions permet au système d’aide au
diagnostic de choisir un diagnostic parmi un ensemble. Pour la prise de décisions, et comme
pour la classification, le choix d’une méthode reste une étape très importante compte tenu de
la complexité des problèmes généralement rencontrés dans le domaine de l’aide au diagnostic
et plus particulièrement dans les domaines auxquels nous nous sommes intéressés. Il existe
plusieurs méthodes qui permettent une prise de décisions, on commence par présenter la
première méthode: Analogie.
52
II. 3. 3. 1. Analogie
L’analogie est la démarche la plus naturelle et la plus proche du raisonnement humain.
Le principe de cette méthode c’est s’inspirer des décisions prises dans le passé, dans des
situations analogues, pour résoudre de nouveaux problèmes. La technique de cette méthode
est le raisonnement à partir de cas (exemples) ou ‘‘Case-Based Reasoning (CBR)’’. Cette
technique CBR se base sur l’hypothèse que la prise de décisions et la résolution d’un
problème consiste en l’accès à des informations mémorisées lors d’expériences précédentes
en vue d’une exploitation ultérieure [GENT 83] [SCHA 82] [AAMO 94], voir Figure II. 17.
Figure II. 17. Principe du raisonnement par analogie.
II. 3. 3. 2. Méthode de Vote
Les méthodes de vote consistent à interpréter chaque diagnostic comme un vote. On
peut classer cette méthode en trois catégories: vote avec seuil, majorité sans conflit et majorité
notoire.
Vote avec Seuil: les méthodes de vote peuvent pratiquement toutes être dérivées de la
règle avec seuil exprimée par :
⎧⎪C i si ∑ L ei , j = max tN=1 ∑ L et , j ≥ λ .L
j =1
j =1
E (x ) = ⎨
⎪⎩rejet sinon
λ correspond à la proportion de classifieur devant répondre la même classe pour que
cette classe soit retenue comme résultat de la combinaison. Ainsi, pour λ = 0, il s'agit du vote
53
à la pluralité où la classe qui reçoit le plus de votes est choisie comme classe finale. Connue
aussi sous le nom First past the post [CRAN 96]. Pour λ = 0,5, il s'agit du vote à la majorité.
La classe finale est décidée si plus de la moitié des classifieurs l'ont proposée, c'est-à-dire si
au moins k classifieurs sont d'accords. k pouvant être définie comme suit:
⎧L
⎪⎪ 2 si L est pair
k =⎨
⎪ L + 1 si L est impair
⎪⎩ 2
L'utilisation du vote à la majorité est justifiée surtout dans les problèmes où l’on
combine un très grand nombre de classifieurs [JI 97] et pour lesquels il est difficile
d'appliquer d'autres méthodes de combinaison plus complexes. On pourra citer les travaux de
Lam et al., [LAM 97] où sont étudiées les propriétés de la méthode de vote à la majorité et
surtout l'apport d'un classifieur supplémentaire dans une combinaison en fonction du nombre
de classifieurs présents auparavant (pair ou impair). Pour λ = 1, la classe finale est choisie si
tous les classifieurs proposent cette réponse sinon la réponse finale est le rejet.
Majorité Sans Conflit: Le principe est identique à celui de la majorité unanime, à
ceci près qu'on autorise les classifieurs à rejeter. Un classifieur proposant de rejeter l'élément
n'a donc aucun poids dans ce système: lorsque tous les classifieurs rejettent sauf un, alors c'est
la sortie de ce classifieur qui sera conservée comme résultat de la combinaison. Il n'y a rejet
que lorsque tous les classifieurs ont proposé de rejeter l'élément ou en cas de conflit.
Majorité Notoire: Dans ce cas, pour être désignée comme réponse finale, la classe
majoritaire doit de plus se distinguer de la deuxième classe d'une différence supérieure à un
certain seuil.
Les méthodes que nous venons de présenter se composent d'une seule étape. Il existe
d'autres méthodes de vote qui nécessitent plusieurs étapes. Elles utilisent des traitements
itératifs au cours des différentes étapes permettant de réduire l'ensemble des classes
participant au vote. On trouve la procédure run-off et la méthode de Condorcet [VANE 02].
La procédure run off se réalise en deux étapes. Dans la première étape, chaque classifieur peut
proposer son vote pour chacune des classes. Si une classe reçoit la majorité de votes (par vote
à la pluralité), elle est choisie. Sinon, une seconde élection par vote à la majorité entre les
54
deux premières classes (qui ont reçu le plus grand nombre de votes dans la première étape) est
réalisée pour trancher. Dans cette méthode, il n'y a pas de rejet. Dans la méthode de
Condorcet, les classes sont comparées deux à deux. La classe gagnante à chaque tour reçoit un
score d'un point. Si une classe bat toutes les autres classes alors elle est choisie. Si on obtient
plus d'une classe alors on utilise une méthode type ‘‘run-off’’ pour choisir une seule classe de
l'ensemble.
II. 3. 3. 3. Logique Floue (LF)
Les données sur lesquelles se base la prise de décisions peuvent être des données
ambiguës, incomplètes, incertaines, non binaires ce qui rend difficile le problème de la prise
de décisions à partir de ces données. La logique floue permet de traiter ce type de données
lors d’une prise de décisions. En effet, la logique floue se base essentiellement sur la manière
avec laquelle les être humains raisonnent et prennent leurs propres décisions d’où l’intérêt que
nous portons particulièrement à la logique floue pour des prise de décisions, traduite par
l’utilisation des règles floues données par un expert humain (superviseur), par la fuzzification
basée sur des fonctions d’appartenances (triangulaires, trapézoïdales, …), par l’inférence
utilisant les opérateurs MAX-MIN, et par la défuzzification [ZADE 65], [PEDR 88], [CILI
89], [KOSK 92], [ZADE 96], [CHOH 99].
Dans une prise de décisions, la logique floue exploite les caractéristiques telle que: la
représentation explicite de la connaissance, l’adaptation et la généralisation à partir de règles
floues, la capacité à saisir la nature approximative et imprécise de l’environnement.
Ainsi, la logique floue peut être vue comme une tentative d’évolution des concepts
mathématiques conventionnels précis vers ceux de prise de décisions de l’être humain.
II. 3. 3. 4. Choix d’une Méthode de Prise de Décisions
Comme pour ce qui concerne les techniques de la classification, il n’existe pas une
méthode universelle pour la prise de décisions, chaque méthode présente ses avantages et ses
inconvénients.
La première méthode présentée est la méthode de l’analogie tel qu’il est relativement
facile de construire des systèmes d’aide au diagnostic basés sur ce principe. Cependant, la
55
technique de cette méthode (Raisonnement à Base de Cas), tel qu’il a été défini dans la
littérature, utilise la logique classique (une proposition ne peut être que ‘‘vraie’’ ou
‘‘fausse’’). Par conséquent, il ne peut traiter les situations où les cas sont définis par des
caractéristiques floues et incertaines alors que dans la prise de décisions, on est souvent face à
des situations où les données sont floues et ambiguës.
La deuxième méthode présentée est la méthode de vote, cette méthode est simple,
facile à appliquer et utilisable surtout dans le cas des problèmes où on a un grand nombre de
classifieurs. Cependant cette méthode présente quelques inconvénients par exemple: les
risques de conflit sont particulièrement important dans le cas du vote à la pluralité, le vote à la
majorité unanime est un vote qui accepte le moins de risque possible mais il y a un grand
risque d’avoir comme réponse finale le rejet.
Dans ce travail, un intérêt particulier est porté à la logique floue. En effet, un point
important, dans le choix d’une méthode de prise de décisions et particulièrement dans le cas
de classifications neuronales, est la nature des résultats (sorties des neurones). En fait, ces
résultats sont en général des valeurs non binaires et ceci rend difficile le problème dans la
prise de décisions. Par exemple, le réseau de neurones MLP (ou RBF) utilisé pour la
classification avec des sorties sigmoïdes donnent des valeurs de classes de sorties entre [0, 1]
tel que l’analyse des sorties du MLP montre que plus la sortie est proche de 1 et plus cette
sortie va être proche de la classe identifiée. Contrairement, plus la sortie est proche de 0 et
plus cette sortie va être loin de la classe identifiée. A partir de cette analyse, une approche
possible de prise de décisions à partir de classifications neuronales est l’approche floue qui
permet de prendre le caractère non modélisable du raisonnement de l’être humain. De plus la
logique floue permet une interprétation sémantique du raisonnement de la fusion.
Ainsi l’étage de la prise de décisions, voir Figure II. 18, se base sur l’approche flou
pour l’élaboration du diagnostic à partir des résultats de la double classification neuronale
donnés par la classification 1 et la classification 2.
Maintenant, il s’agit du choix de la méthode floue de prise de décisions à suggérer
dans l’architecture de l’approche hybride modulaire proposée dans le § II. 2, Figure II. 1.
Partant d’une double classification à trois classes de sorties et un paramètre de
confiance, une méthode floue de prise de décisions intéressante consiste alors à traiter ce
problème de prise de décisions en deux étapes:
- étape 1: un système flou primaire pour décider, à partir de la double classification,
d’un diagnostic primaire,
56
- étape 2: un système flou final pour décider, à partir du diagnostic primaire et d’un
paramètre de confiance, d’un diagnostic final avec un indice de confiance.
PC
P r is e d e D é c is io n s
D ia g n o s tic
C la s s ific a tio n
C 1 -1
(R ésea u x d e
N eu ro n es)
1
C 1 -2
C la s s e 1
C 1 -3
C la s s e 2
P r is e d e
D é c is io n s
(L o g iq u e
F lo u e )
C la s s e 3
C 2 -1
(R ésea u x d e
N eu ro n es)
2
E ta p e d e la
C 2 -2
C 2 -3
IC
E ta p e d e P ris e d e
D é c is io n s
P C : P a ra m è tre d e C o n fia n c e
IC : In d ic e d e C o n fia n c e
Figure II. 18. Prise de décisions dans le cas de deux classifications neuronales.
L’intérêt dans cette méthode floue de prise de décisions étant dans le fait que la double
classification est exploitée dans un système flou primaire pour décider d’un diagnostic
primaire. Ensuite le système flou final permet de décider, à partir du diagnostic primaire et
d’un paramètre de confiance, d’un diagnostic final avec un indice de confiance.
Ainsi, pour chaque entrée {C1 − 1, C1 − 2, C1 − 3, C 2 − 1, C 2 − 2, C 2 − 3
} obtenue
à
partir des résultats de l’étape de la classification, SFP décide du diagnostic approprié parmi
les sorties du diagnostic primaire DPC1 , DPC 2 et DPC 3 .
Les sorties de SFP et le PC sont exploités dans le SFF afin de déterminer le diagnostic
final. Le vecteur d’entrée de SFF est { PC , DPC1 , DPC 2 , DPC 3 }, et pour chaque entrée, SFF doit
décider du diagnostic approprié parmi les sorties finales: DFC1 , DFC 2 et DFC 3 accompagné
d’un Indice de Confiance (IC) sur cette décision, voir Figure II. 19.
Les deux systèmes flous (SFP et SFF) se basent sur le système flou présenté dans la
Figure II. 20 basée sur l’inférence floue de Mamdani.
57
D ia g n o stic
F in a l
D ia g n o stic
P rim a ire
PC
C 1 -1
C 1 -2
C 1 -3
C 2 -1
S ystèm e
F lo u
P rim aire
(S F P )
D P C1
D F C1
S ystèm e
F lo u F in al D F C 2
(S F F )
D F C3
D P C2
IC
D P C3
C 2 -2
C 2 -3
C 1 -1 , C 1 -2 , C 1 -3 : les tro is classes
d e so rties d u classifieu r 1
C 2 -1 , C 2 -2 , C 2 -3 : les tro is classes
d e so rties d u classifieu r 2
IC : In d ice d e C o n fian ce,
P C : P aram ètre d e C o n fian ce,
D P : D iag n o stic P rim aire, D F : D iag n o stic F in al.
Figure II. 19. Etape de prise de décisions.
Système Flou Primaire (SFP)
Le système flou de prise de décisions, illustré dans la Figure II.20, qui se base sur
l’inférence floue de Mamdani est utilisé pour le Système Flou Primaire (SFP).
E n tré e s
C 1 -1 , C 1 -2 , C 1 -3
et
C 2 -1 , C 2 -2 , C 3 -3
F o n c tio n s
d ’A p p a rte n a n c e s
F u z z ific a tio n
B a s e d e R è g le s
F lo u e s
E n tré e s F lo u e s
In fé re n c e
F lo u e
~
IC1 _ 1 ,
~
IC1 _ 2 ,
~
IC1 _ 3 ,
~
IC 2 _ 1
~
IC 2 _ 2
~
IC 2 _ 3
S o rtie
C la s s e O i
D é fu z z ific a tio n
S o rtie F lo u e
~
O
Figure II. 20. Système flou de prise de décisions.
58
Les paramètres d’entrée sont C1-1, C1-2, C1-3 et C2-1, C2-2, C2-3 issues de la double
classification (classification 1 et classification 2).
Les fonctions d’appartenance de ces paramètres d’entrées ont été définies par les
variables floues Loin (L), Moyen (M), et Proche (P). Pour les classes C1-1, C1-2, C1-3 (ou
C2-1, C2-2, C2-3) à partir d’une classification par MLP (ou RBF), ou du traitement statistique
des classifications par MLP (ou RBF), la fonction d’appartenance est illustrée dans la Figure
II. 21.
µ(Classe)
1
Loin
Proche
Moyen
Classe
0
0.5
0
0.8
1
Figure II. 21. Fonction d’appartenance des paramètres C1-1, C1-2, C1-3 (ou C2-1, C2-2, C2-3)
à partir d’une classification par MLP (ou RBF) ou du traitement statistique des classifications par MLP
(ou RBF).
~
~
~
Les entrées floues des paramètres d’entrées sont alors notées: IC1 _ 1 , IC1 _ 2 , IC1 _ 3 ,
~
~
~
~
IC 2 _ 1 , IC 2 _ 2 , et IC 2 _ 3 . Le vecteur O représente le vecteur flou de la sortie Oi qui est une
composante du vecteur O = [DPC1, DPC2, DPC3] où DPC1, DPC2, DPC3 sont les sorties du
Diagnostic Primaire (DP). L’opération de fuzzification calcule les degrés d’appartenance de
chaque entrée en utilisant la fonction d’appartenance correspondante.
Par exemple pour l’entrée C1-1, cette opération calcule {µL(C1-1), µM(C1-1), µP(C11),} avec µL(C1-1), µM(C1-1) et µP(C1-1) sont les degrés d’appartenances aux ensembles
flous Loin (L), Moyen (M) et Proche (P), respectivement.
Dans ce système flou SFP, nous avons six (6) entrées dont chacune à trois (3)
variables floues, par conséquent la base de règles est constituée de 36 = 729 règles floues.
Ainsi, les règles floues établies sont de la forme:
SI (C1-1 est P et C1-2 est P et C1-3 est P et C2-1 est P et C2-2 est P et C2-3 est P)
~
ALORS O = [µ(DPC1), µ(DPC2), µ(DPC3)],
59
SI (C1-1 est P et C1-2 est P et C1-3 est P et C2-1 est P et C2-2 est P et C2-3 est M)
~
…
SI (C1-1 est L et C1-2 est L et C1-3 est L et C2-1 est L et C2-2 est L et C2-3 est M)
~
SI (C1-1 est L et C1-2 est L et C1-3 est L et C2-1 est L et C2-2 est L et C2-3 est L)
~
ALORS O = [µ(DPC1), µ(DPC2), µ(DPC3)].
On présente par la suite trois exemples de règles floues établies:
Exemple 1:
SI (C1-1 est L et C1-2 est L et C1-3 est P et C2-1 est L et C2-2 est L et C2-3 est P)
~
ALORS O = [0, 0, 1],
Pour cet exemple, la sortie donnée par le SFP est la 3ème classe si les sorties (C1-1 et
C1-2) du premier classifeur et (C2-1 et C2-2) du deuxième classifieur sont Loin (valeur
proche de 0) et si la sortie C1-3 du premier classifieur et C2-3 du deuxième classifieur sont
toutes les deux Proche (valeur proche de 1).
Exemple 2:
SI (C1-1 est L et C1-2 est L et C1-3 est L et C2-1 est M et C2-2 est M et C2-3 est P)
~
ALORS O = [0.15, 0.15, 0.4],
Pour le deuxième exemple, la sortie donnée par le SFP est la 3ème classe si les trois
sorties (C1-1, C1-2 et C1-3) du premier classifeur sont toutes Loin (valeur proche de 0), les
sorties (C2-1 et C2-2) du deuxième classifieur sont Moyen (valeur qui varie autour de 0.5) et
la sortie C2-3 est Proche (valeur proche de 1).
Exemple 3:
SI (C1-1 est M et C1-2 est L et C1-3 est M et C2-1 est P et C2-2 est L et C2-3 est M)
~
ALORS O = [0.7, 0.1, 0.4],
Pour le troisième exemple, la sortie donnée par le SFP est la 1ère classe si les sorties
(C1-2, C2-2) sont toutes Loin (valeur proche de 0), les sorties (C1-3, C2-3) sont toutes Moyen
(valeur qui varie autour de 0.5), la sortie C1-1 du premier classifieur est Moyen (valeur qui
varie autour de 0.5) et la sortie C2-1 du deuxième classifieur est Proche (valeur proche de 1).
Les deux premiers exemples montrent que les classes données dans les deux cas est la
ème
3
classe mais avec des valeurs différentes ceci dû aux valeurs des six sorties données par
60
les deux classifieurs. En effet, pour établir l’expertise, on analyse indépendamment les sorties
de chaque classifieur dans un premier temps ensuite on les analyse simultanément.
~
Dans cette base de règles floues, le vecteur de prise de décisions O est exprimé par:
~
O
= [ µ(C1-1m, C1-2m, C1-3m, C2-1m, C2-2m, C2-3m)(DPC1),
µ( C1-1m, C1-2m, C1-3m, C2-1m, C2-2m, C2-3m)(DPC2),
µ( C1-1m, C1-2m, C1-3m, C2-1m, C2-2m, C2-3m)(DPC3) ]
où µ(C1-1m, C1-2m, C1-3m, C2-1m, C2-2m, C2-3m)(Oi) représente le degré d’appartenance Oi avec m = 1
ou 2, voir la simplification donnée ci-dessous.
L’inférence floue est réalisée par les opérateurs de la logique floue MIN et MAX. Par
ailleurs, la particularité des paramètres d’entrée est que, pour chaque entrée donnée, au moins
un degré d’appartenance (parmi les trois degrés d’appartenance) est toujours égal à zéro.
Par conséquent, seulement deux (2) degrés d’appartenance doivent être considérés
[FARR 85]. A partir de cette simplification, pour chaque situation spécifique de prise de
décisions, deux valeurs d’entrée sont prises en compte pour former les ensembles flous:
~
IC1 _ 1 = {µ1(C1-1), µ2(C1-1)},
~
IC1 _ 2 = {µ1(C1-2), µ2(C1-2)},
~
IC1 _ 3 = {µ1(C1-3), µ2(C1-3)},
~
IC 2 _ 1 = {µ1(C2-1), µ2(C2-1)},
~
IC 2 _ 2 = {µ1(C2-2), µ2(C2-2)},
~
IC 2 _ 3 = {µ1(C2-3), µ2(C2-3)}.
où, par exemple, µm(C1-1), avec m = 1 ou 2, sont les degrés d’appartenance de l’entrée C1-1.
Ainsi, avec cette définition prenant en compte la simplification, nous avons six (6)
paramètres d’entrées dont chacune à deux (2) variables floues, par conséquent, à chaque
inférence, seulement 26 = 64 conditions possibles correspondant à soixante quatre (64) règles
floues seront mises en traitement.
Alors, le niveau de certitude de chaque condition µ1, µ2, …, µ64 est obtenu par
l’opérateur MIN:
61
µcond(C1-11, C1-21, C1-31, C2-11, C2-21, C2-31) =
MIN(µ1(C1-1), µ1(C1-2), µ1(C1-3), µ1(C2-1), µ1(C2-2), µ1(C2-3))= µ1,
µcond(C1-11, C1-21, C1-31, C2-11, C2-21, C2-32) =
…
µcond(C1-12, C1-22, C1-32, C2-12, C2-22, C2-32) =
où cond représente l’ensemble flou des conditions qui est écrit comme suit:
cond = { µ1, µ2, …, µ64 }.
A partir de là, chaque condition possible est ensuite associé à une situation de prise de
décisions Oi.. La certitude de chaque situation est obtenue par les opérateurs MAX et MIN
comme suit:
µDPC1 = MAX{ MIN(µ1, µ(C1-11, C1-21, C1-31, C2-11, C2-21, C2-31)(DPC1)),
MIN(µ2, µ( C1-11, C1-21, C1-31, C2-11, C2-21, C2-32)(DPC1)),
…
MIN(µ64, µ( C1-12, C1-22, C1-32, C2-12, C2-22, C2-32)(DPC1)) },
µDPC2 = MAX{ MIN(µ1, µ( C1-11, C1-21, C1-31, C2-11, C2-21, C2-31)(DPC2)),
MIN(µ2, µ( C1-11, C1-21, C1-31, C2-11, C2-21, C2-32)(DPC2)),
…
MIN(µ64, µ( C1-12, C1-22, C1-32, C2-12, C2-22, C2-32)(DPC2)) },
µDPC3 = MAX{ MIN(µ1, µ( C1-11, C1-21, C1-31, C2-11, C2-21, C2-31)(DPC3)),
MIN(µ2, µ( C1-11, C1-21, C1-31, C2-11, C2-21, C2-32)(DPC3)),
…
MIN(µ64, µ( C1-12, C1-22, C1-32, C2-12, C2-22, C2-32)(DPC3)) }.
La collection de ces situations forme ainsi le vecteur flou de prise de décisions:
62
~
O
= { µDPC1(DPC1), µDPC2(DPC2), µDPC3(DPC3) }.
Finalement, l’opérateur MAX est utilisé pour le processus de défuzzification afin de
donner la situation de prise de décisions du Diagnostic Primaire (DP):
Oi = MAX{ µDPC1, µDPC2, µDPC3 }.
Système Flou Final (SFF)
Le système flou final (SFF) permet de décider, à partir du diagnostic primaire et d’un
paramètre de confiance, d’un Diagnostic Final (DF) avec un indice de confiance, comme
montré dans la Figure II. 19 Notons que ce PC dépend entièrement de l’application, nous
donnons alors par exemple le Seuil Auditif (SA) comme PC dans le cas d’une application
biomédicale que nous traitons dans le § III. 2.
µ(SA)
1
Faible
Elevé
Moyen
0
0
0.09
0.25
0.45
SA
Figure II. 22. Fonction d’appartenance du Paramètre de Confiance (PC):
Exemple du Seuil Auditif (SA) dans une application biomédicale.
µ(DPClasse)
1
Petit
Moyen
Grand
0
0
0.3 0.4 0.5
DPClasse
1
Figure II. 23. Fonction d’appartenance des paramètres DPC1, DPC2, et DPC3.
63
Ce SFF est conçu et développé sur la même méthodologie décrite avant pour le SFP,
où les paramètres d’entrée sont SA, DPC1, DPC2, et DPC3. La fonction d’appartenance du
paramètre d’entrée SA a été définie par les variables floues Faible (F), Moyen (M), et Elevé
(E), illustrée dans la Figure II. 22. Alors que la fonction d’appartenance des paramètres
d’entrée DPC1, DPC2, et DPC3 a été définie par les variables floues Petit (P), Moyen (M), et
Grand (G), illustrée dans la Figure II. 23.
Dans ce système flou SFF, nous avons quatre (4) entrées dont chacune à trois (3)
variables floues, par conséquent la base de règles est constituée de 34 = 81 règles floues.
Ainsi, en prenant en compte la simplification, nous avons six (4) paramètres d’entrées
dont chacune à deux (2) variables floues, par conséquent, à chaque inférence, seulement 24 =
16 conditions possibles correspondant à seize (16) règles floues seront mises en traitement.
Ainsi, les règles floues établies sont de la forme:
SI (SA est F et DPC1 est P et DPC2 est P et DPC3 est P)
~
ALORS O = [µ(DFC1), µ(DFC2), µ(DFC3)],
SI (SA est F et DPC1 est P et DPC2 est P et DPC3 est M)
~
…
SI (SA est E et DPC1 est G et DPC2 est G et DPC3 est M)
~
SI (SA est E et DPC1 est G et DPC2 est G et DPC3 est G)
~
ALORS O = [µ(DFC1), µ(DFC2), µ(DFC3)].
On présente par la suite trois exemples de règles floues établies:
Exemple 1:
SI (SA est E et DPC1 est P et DPC2 est G et DPC3 est P)
~
ALORS O = [0.1, 0.8, 0.1], IC = 0.8
Pour cet exemple, la sortie donnée par le SFF est la 2ème classe si le seuil auditif est
Elevé (valeur proche de 0.45), les sorties (DPC1, DPC3) sont Petit (valeur proche de 0) et la
sortie DPC2 est Grand (valeur proche de 1).
Exemple 2:
64
SI (SA est M et DPC1 est M et DPC2 est P et DPC3 est P)
~
ALORS O = [0.5, 0.1, 0.1], IC = 0.5
Pour cet exemple, la sortie donnée par le SFF est la 1ère classe si le seuil auditif est
Moyen (valeur qui varie autour de 0.17), les sorties (DPC2, DPC3) sont Petit (valeur proche de
0) et la sortie DPC1 est Moyen (valeur qui varie autour de 0.5).
Exemple 3:
SI (SA est F et DPC1 est P et DPC2 est M et DPC3 est G)
~
ALORS O = [0.1, 0.2, 0.7], IC = 0.6
Pour cet exemple, la sortie donnée par le SFF est la 3ème classe si le seuil auditif est
Faible (valeur proche de 0), la sortie DPC1 est Petit (valeur proche de 0), la sortie DPC2 est
Moyen (valeur qui varie autour de 0.5) et la sortie DPC3 est Grand (valeur proche de 1).
En utilisant le même mécanisme d’inférence, le vecteur flou de prise de décisions est:
~
O
= { µDFC1(DFC1), µDFC2(DFC2), µDFC3(DFC3) }.
Et la situation de prise de décisions du Diagnostic Final (DF) est:
Oi = MAX{ µDFC1, µDFC2, µDFC3 }.
La particularité de ce SFF (par rapport au SFP) est que dans ce système, en plus du
diagnostic final nous avons un Indice de Confiance (IC), compris entre 0 et 1, à donner
comme résultat. Cet IC s’établit selon des règles en rapport direct avec le paramètre de
confiance, en l’occurrence avec le Seuil Auditif dans le cas de l’application biomédicale
traitée dans le § III. 2.
Le résultat du SFF est exprimé alors par:
Oi = MAX{ µDFC1, µDFC2, µDFC3 } et IC = { µIC }.
Après l’étude et la conception des différents modules de représentations de la
connaissance, de classification, et de prise de décisions, différentes variantes de l’approche
hybride modulaire proposée sont alors déduites dans le paragraphe suivant.
65
II. 4. PRINCIPALES VARIANTES DE L’APPROCHE PROPOSEE
De l’étude et conception des différentes étages composant l’architecture de l’approche
hybride modulaire proposée (voir Figure II. 1, § II. 2), différentes variantes de cette approche
hybride modulaire sont déduites. Ensuite, pour chaque variante, le développement d’un (ou
plusieurs) Système Hybride Modulaire (SHM) est proposé.
En effet, de l’étude et conception des trois étages (étage de représentation de la
connaissance, étage de classification et étage de prise de décisions) composant l’architecture
de l’approche hybride modulaire proposée, nous avons les possibilités suivantes:
- Etage de représentation de la connaissance: l’information peut être exploitée sous
trois formes différentes: le signal moyenné, l’image globale ou l’image subdivisée,
- Etage de classification: on peut utiliser deux types de classifieurs: classifieur à un
seul réseau de neurones ou classifieur à plusieurs réseaux de neurones et suivant la
nature des réseaux de neurones MLP ou RBF.
- Etage de prise de décisions est composée de deux systèmes flous: un système flou
primaire pour décider, à partir de la double classification, d’un diagnostic primaire, et
un système flou final pour décider, à partir du diagnostic primaire et d’un paramètre
de confiance, d’un diagnostic final avec un indice de confiance.
Ainsi, à partir de ces possibilités on peut avoir plusieurs variantes en fonction des
représentations de l’information (signal moyenné, image globale ou image subdivisée), le type
du classifieur (classifieur à un seul réseau de neurones ou classifieur à plusieurs réseaux de
neurones) et la nature des réseaux de neurones engagés (MLP ou RBF). Le Tableau II. 1
récapitule, pour chaque variante de l’approche hybride modulaire le (ou les) système(s)
hybride(s) modulaire(s) proposé(s).
66
Représentation de la
Approche Hybride
Modulaire
Connaissance
Prise de Décisions
Classification
Première
Deuxième
Première
Deuxième
Diagnostic
Diagnostic
Représentation
Représentation
Classification
Classification
Primaire
Final
RBF
MLP
MLP
RBF
Système
Système
Flou
Flou
Primaire
Final
(SFP)
(SFF)
Variante
Basée sur une
Représentation
Signal et une
SHM-1
Signal
Image
Globale
Représentation
Image Globale
Variante
Basée sur deux
Représentations
SHM-2
Image
Image
Globale
Globale
Image
Image
Subdivisée
Subdivisée
Image Globale
Variante
Basée sur deux
Représentations
SHM-3
Image
MLP
RBF
Subdivisée
SHM-4
Variante
Basée sur une
Représentation
SHM-5
Image
Subdivisée et
SHM-6
une
Représentation
Image Globale
SHM-7
Image
Image
Subdivisée
Globale
Image
Image
Subdivisée
Globale
Image
Image
Subdivisée
Globale
Image
Image
Subdivisée
Globale
RBF
MLP
MLP
RBF
MLP
MLP
RBF
RBF
Tableau II. 1. Systèmes Hybrides Modulaires (SHM) proposés
à partir des différentes variantes de l’approche hybride modulaire.
II. 5. CONCLUSION
Dans ce Chapitre une architecture de l’approche hybride modulaire composée d’une
seule source d’information, de deux modules de représentation de la connaissance, de deux
modules de classification, et d’un module de prise se décisions a été proposée.
67
A travers d’étude et de conception des différents étages de cette architecture nous avons
dégagé:
- différentes représentations de la connaissance qui sont intéressantes à mettre en
œuvre à partir d’une seule source d’information, à savoir la représentation signal, la
représentation image globale, et la représentation image subdivisée, ainsi que
différentes combinaisons ou stratégies intéressantes à exploiter dans une double
représentation de la connaissance,
- deux types de classifieurs: classifieur à un seul réseau de neurones et classifieur à
plusieurs réseaux de neurones et suivant la nature des réseaux de neurones MLP
(approximateur neuronal global) et RBF (approximateur neuronal local),
- la prise de décisions est composée de deux systèmes flous: un système flou primaire
pour décider, à partir de la double classification, d’un diagnostic primaire, et un
système flou final pour décider, à partir du diagnostic primaire et d’un paramètre de
confiance, d’un diagnostic final avec un indice de confiance.
A partir de là, et selon les différentes stratégies de représentation de la connaissance
(signal, image globale, image subdivisée), et les différents types de classifieurs (classifieur à
un seul réseau de neurones (MLP ou RBF), classifieur à plusieurs réseaux de neurones (MLP
ou RBF)), nous avons proposé une approche modulaire basée sur l’hybridation des deux
représentations (parmi les trois récitées) de l’information d’entrée utilisant une classification
concurrente de celles-ci.
A partir de cette approche un ensemble de systèmes hybrides modulaires ont été
déduits:
- SHM-1: représentations utilisées sont le signal et l’image globale, la classification du
signal est effectuée par un classifieur à un seul réseau (RBF) et celle d’image par un
classifieur à un seul réseau (MLP),
- SHM-2: les deux représentations utilisées sont de type image globale, l’une classifiée
par un classifieur à un seul réseau (MLP) et l’autre par un classifieur à un seul réseau
(RBF),
- SHM-3: les deux représentations utilisées sont de type image subdivisée, l’une
classifiée par un classifieur à plusieurs réseaux (MLP) et l’autre par un classifieur à
plusieurs réseaux (RBF),
- SHM-4: représentations utilisées sont l’image subdivisée et l’image globale, la
classification de l’image subdivisée est effectuée par un classifieur à plusieurs réseaux
(RBF) et celle d’image globale par un classifieur à un seul réseau (MLP),
68
(MLP) et celle d’image globale par un classifieur à un seul réseau (RBF),
(MLP) et celle d’image globale par un classifieur à un seul réseau (MLP),
(RBF) et celle d’image globale par un classifieur à un seul réseau (RBF),
La mise en œuvre de ces différents Systèmes Hybrides Modulaires (SHM) d’aide au
diagnostic est présentée dans le Chapitre suivant.
69
Chapitre III. MISE EN ŒUVRE ET
COMPARAISON DES SHM
71
72
III. 1. INTRODUCTION
Dans ce Chapitre, nous présentons la mise en œuvre et la comparaison des différents
SHM proposés à travers deux études de cas (applications): la première relevant du domaine
biomédical et la seconde simulant une application industrielle.
III. 2. APPLICATION BIOMEDICALE: Etude de Cas
Dans ce paragraphe, nous présentons la mise en œuvre, les résultats expérimentaux, et
la synthèse des différents SHM d’aide au diagnostic proposés à travers une étude de cas d’une
application biomédicale.
III. 2. 1. Présentation de l’Application
Le cadre est celui du développement d’un outil d’aide au diagnostic pour les médecins
ORL (Oto-Rhino-Laryngologiste). L’exploration fonctionnelle otoneurologique possède
aujourd’hui une technique permettant l’étude objective de la conduction nerveuse le long des
voies auditives: les Potentiels Evoqués Auditifs (PEA), qui sont des signaux électriques. La
difficulté principale dans ce diagnostic réside dans la ressemblance de signaux correspondant
à des pathologies différentes, mais aussi dans la disparité des signaux au sein d’une même
73
classe. Les résultats du test médical peuvent, par exemple, être différents pour deux mesures
différentes d’un même patient.
III. 2. 1. 1. Description
Les potentiels évoqués sont des réponses électriques provoquées par la stimulation
brève d’un système sensoriel. Ce stimulus provoque le départ d’une volée de potentiels
d’action qui peuvent être enregistrés sur le trajet des nerfs, ou plus à distance des structures
activées. Les électrodes exploratrices enregistrent la réponse évoquée sous l’aspect de
variations de potentiel successivement positives et négatives.
Figure III. 1. Principe de génération de Potentiels Evoqués Auditifs (PEA).
Le processus de génération d’un Potentiel Evoqué Auditif (PEA) consiste à stimuler
l’oreille avec un écouteur attaqué par un clic électrique. Sous l’effet de cette stimulation, les
fibres nerveuses sont excitées et génèrent un potentiel d’action. La somme des ces potentiels
d’action, synchrones de la stimulation, recueillie à distance constitue le PEA. La Figure III. 1
présente un schéma de principe qui résume la génération des PEA.
Les PEA sont des signaux d’amplitude très faible, quelques centaines de nanovolts,
noyés dans un bruit de fond d’amplitude très supérieure, de centaines de millivolts. Ce bruit
de fond est constitué de l’activité Electro-EncéphaloGraphique, à laquelle se rajoute l’activité
électro-myographique due au fait que l’on recueille ces potentiels à distance de leur lieu
d’émission, à travers les espaces méningés, la boîte crânienne, les muscles d’insertion
céphalique et cervicale et le cuir chevelu [BELL 03].
74
Ces potentiels reflètent l’activité de l’oreille interne, du nerf auditif et d’une partie du
tronc cérébrale. Ils sont composés essentiellement de cinq ondes, désignés de I à V. Le temps
d’apparition d’une onde par rapport à l’émission du clic est appelé latence de cette onde. La
Figure III. 2. présente un PEA parfait. L’origine de ces ondes a longtemps été sujette à
discussion. On s’accorde généralement pour admettre que les ondes I reflète l’activité du nerf
auditif, l’onde II celle des noyaux cochléaires, l’onde III de l’olive supérieure, l’onde IV du
lemnisque latéral et l’onde V celle du colliculus inférieur (Annexe C). C’est du moins le
schéma qui prévaut en clinique courante. Toutefois, il ne s’agit que d’une approximation
puisqu’il est probable qu’à une onde ne correspond pas un générateur unique mais un
ensemble de générateurs qui déchargent simultanément [BELL 03].
Figure III. 2. Potentiel Evoqué Auditif (PEA) parfait.
Les PEA nous renseignent donc sur l’activité des voies auditives, depuis l’oreille
interne jusqu’au tronc cérébral. De ce fait, ils ont deux domaines d’application: la
détermination objective du seuil auditif et le diagnostic des pathologies du nerf auditif ou des
voies centrales:
- Les PEA permettent de situer objectivement le seuil auditif sur la zone des aigus. De
2 000 à 4 000 Hz, par le repérage de l’onde V que l’on suit jusqu'à 10 à 20 dB du seuil
auditif. Ceci est utile chaque fois que l’audiométrie tonale n’est pas réalisable (très
jeunes enfants, personnes souffrant de retard mental ou simulant une surdité, …),
75
- Une altération du fonctionnement du nerf auditif ou du tronc cérébral va modifier les
PEA. C’est ainsi qu’ils aident au diagnostic des tumeurs du nerf auditif (neurinome),
des atteintes vasculaires ou tumorales du tronc cérébral ou encore dégénératives telle
que, par exemple, la sclérose en plaque.
L’examen des PEA a longtemps été celui qui permettait le diagnostic précoce du
neurinome de l’acoustique, tumeur bénigne développée à partir de la gaine de Schwann du
nerf cochléo-vestibulaire. Les PEA sont entrés dans la pratique clinique quotidienne du
diagnostic étiologique d’une surdité à partir des années 70. A cette époque, ils se montraient
même supérieurs au scanner. Avec le développement de l’Imagerie par Résonance
Magnétique, dont le pouvoir de résolution théorique est de 2 mm, ils ont perdu leur
suprématie dans ce domaine.
Toutefois, maintenant que l’on peut faire un diagnostic par imagerie d’un tout petit
neurinome, que l’on sait être une tumeur bénigne à évolution lente, savoir si elle entraîne ou
non un retentissement sur la fonction de l’oreille est un élément important à considérer dans la
prescription chirurgicale. Si la décision de ne pas opérer immédiatement est prise, les PEA
sont un élément important du suivi du patient.
III. 2. 1. 2. Contexte Clinique
La Figure III. 3. présente l’extraction et le recueil des signaux. On installe des
électrodes sur la tête du patient en des points précis qui dépendent des buts recherchés. Dans
notre cas, on utilise quatre électrodes (3 autocollantes et une aiguille) que l’on place de la
manière suivante:
- une électrode autocollante sur le front (masse),
- deux électrodes autocollantes derrière les oreilles, sur les mastoïdes,
- une électrode aiguille au sommet du crâne (vertex) pour le recueil de l’ElectroEncéphaloGraphique.
La stimulation du système auditif est réalisée à l’aide d’un son bref, proche d’un clic
acoustique, délivré par un casque que porte le patient.
76
Figure III. 3. Extraction et acquisition des Potentiels Evoqués Auditifs (PEA).
Une technique d’extraction, proposée par J. F. Motsch [MOTS 87] et M. Ohresser,
permet, suite à 800 acquisitions de signaux, la visualisation de l’estimation des PEAs sur des
moyennes de 16 acquisitions, voir Figure III. 4.
800 acquisitions
50 moyennages de
16 acquisitions
Estimation et affichage
de 50 mini-potentiels
Filtre
détection
Modèle
du PEM
>Seuil
oui
non
Rejet
Filtre
estimation
Estimation
du bruit
Pour chaque groupe de 16
Figure III. 4. Elaboration de la surface de la Dynamique Temporelle du tronc
Cérébral (DTC) à partir de 800 acquisitions.
Ainsi, une surface composée de 50 estimations de PEA, et appelée Dynamique
Temporelle du tronc Cérébral (DTC), peut-être visualisée, voir Figure III. 4. Le logiciel
développé pour l’acquisition et le traitement du signal PEA s’appelle ELAUDY (Extraction et
Lecture AUtomatique de la DYnamique temporelle du tronc cérébral). Celui-ci permet
l’obtention du signal moyenné, appelé Potentiel Evoqué Moyenné (PEM), qui correspond à la
moyenne des 800 acquisitions, et de la surface DTC. De plus, ce logiciel détermine
automatiquement, à partir du signal PEM, les cinq ondes significatives et donne les latences
77
de ces ondes. Il permet aussi l’enregistrement, pour chaque patient, d’un fichier contenant les
informations administratives (nom, âge, etc…), les résultats des tests auditifs et les
conclusions du médecin ORL (Oto-Rhino-Laryngologiste): pathologie, causes, paramètre de
confiance sur la pathologie diagnostiquée.
La Figure III. 5. montre l’exemple de deux surfaces typiques, l’une obtenue avec un
patient normo-entendant, voir Figure III. 5. (a), la deuxième surface avec un patient souffrant
d’un trouble auditif, voir Figure III. 5. (b).
(a)
(b)
Figure III. 5. Surfaces de la Dynamique Temporelle du tronc Cérébral (DTC):
(a). Patient normo-entendant. (b). Patient souffrant d’un trouble auditif.
En général, pour un patient ayant une audition normale, le résultat du test DTC est une
surface régulière. Cependant, en réalité il n’est pas facile de distinguer les différentes surfaces
présentant les différentes pathologies. Le résultat peut varier d’une session de test à une autre
pour le même patient due aux conditions d’acquisition (relaxation du patient, le rapport
signal-bruit, etc…).
III. 2. 2. Elaboration des Bases de Connaissances
Trois bases de connaissances ont été élaborées suivant les trois protocoles suivants: la
première base de connaissances est composée de signaux moyennés élaborés suivant le 1er
protocole, la deuxième base de connaissances est composée des images élaborées suivant le
2ème protocole et la troisième base de connaissances composée des images élaborées suivant le
3ème protocole.
1er Protocole
La représentation signal moyenné est obtenue en calculant la moyenne de la surface
DTC (composée de 50 estimations de PEA), ainsi on obtient un signal moyenné appelé
78
Potentiel Evoqué Moyenné (PEM) comme montré sur la Figure III. 6. (a) tel que le premier
signal de la surface représente le PEM obtenu en calculant la moyenne de la surface DTC.
Chaque signal moyenné obtenu est représenté par un vecteur de 70 composants, voir Figure
III. 6. (b).
(b)
(a)
M1
.
.
.
M70
Le signal moyenné
de la surface DTC
Figure III. 6. (a). Représentation Signal moyenné (PEM).
(b). un signal moyenné est représenté par un vecteur de 70 composants.
2ème Protocole
La représentation image est obtenue à partir de la surface DTC,en appliquant la
méthode de conversion signal à image, voir II. 3. 1. 3. 1, utilisant un seuillage basé sur le 1er
critère (seuillage basé sur les amplitudes). La figure III. 7. (a) présente un exemple d’une
représentation image obtenue en appliquant ce protocole.
(a)
(b)
Figure III. 7. Représentation image: (a). Exemple de résultat de conversion signal à image
en appliquant le 2ème protocole. (b). Image sans valeurs nulles ni valeurs trop élevées.
Chaque image obtenue est représentée par une matrice de 50 lignes et 86 colonnes.
Cependant l’observation des valeurs des ces images nous mène à considérer seulement une
matrice de 40 lignes et 70 colonnes. En effet, quelques dernières lignes et quelques premières
colonnes ne contenant que des valeurs nulles et/ou des valeurs trop élevées, sont à éliminer,
due aux conditions d’acquisition des signaux. La Figure III. 7. (b) présente alors l’image sans
les valeurs nulles et/ou les valeurs trop élevées. L’image obtenue peut alors être exploitée soit
pour obtenir une représentation ‘‘image globale’’ (voir § II. 3. 1. 4) soit une représentation
‘‘image subdivisée’’ (voir § II. 3. 1. 5).
79
- Représentation image globale: on subdivise l’image en seize régions (dont douze
régions sont de taille 10 x 20 et quatre régions sont de taille 10 x 10), et pour chaque
région on calcule la moyenne de ses niveaux de gris. Ainsi chaque image sera
présentée par un vecteur de seize composants, voir Figure III. 8.
1
…
2
…
i
…
M1
…
16
.
.
.
M16
Figure III. 8. Représentation image globale de la connaissance.
- Représentation image subdivisée: on subdivise l’image en seize régions, où chaque
région représente une imagette. Ainsi, chaque image est présentée par seize imagettes
(dont douze imagettes sont de taille 10 x 20 et quatre imagettes sont de taille 10 x 10),
voir Figure III. 9.
I-1
..
.
I-16
Figure III. 9. Représentation image subdivisée de la connaissance.
3ème Protocole
La représentation image est obtenue à partir de la transformée en ondelettes du signal
moyenné, en appliquant la méthode de conversion signal à image, voir II. 3. 1. 3. 1, utilisant
un seuillage basé sur le 2ème critère (seuillage basé sur les aires). La figure III. 10 présente un
exemple d’une représentation image obtenue en appliquant ce protocole.
L’image obtenue peut alors être exploitée soit pour obtenir une représentation ‘‘image
globale’’ (voir § II. 3. 1. 4) soit une représentation ‘‘image subdivisée’’ (voir § II. 3. 1. 5).
L’image globale et l’image subdivisée sont élaborées de la même manière que l’image globale
et l’image subdivisée du Protocole 2. Ainsi chaque image sera présentée par un vecteur de
seize composants dans le cas d’une représentation image globale et par seize imagettes (dont
80
douze imagettes sont de taille 10 x 20 et quatre imagettes sont de taille 10 x 10) dans le cas
d’une représentation image subdivisée.
Figure III. 10. Exemple de résultat de conversion signal à image
en appliquant le 3ème protocole.
Bases d’Apprentissage et de Généralisation
A partir des renseignements mentionnés par le médecin, une sélection des sujets a été
faite dans le cadre des travaux développés dans [BELL 03] utilisant le logiciel ELAUDY et
une base de données du CEFON (Centre d’Explorations Fonctionnelles Oto-Neurologiques).
Trois catégories de patients selon le type de leurs troubles sont formées. Ces catégories
sont:
- Rétro-Cochléaire(RC): ces patients sont atteints de troubles qui touchent la partie de
l’oreille située après la cochlée, (classe Rétro-Cochléaire),
- Endo-Cochléaire (EC): ces patients sont atteints de troubles qui touchent la partie de
l’oreille située au niveau de la cochlée, (classe Endo-Cochléaire),
- Normale (N): ces patients ont une audition normale (classe Normale).
Les trois bases de connaissances sont composées de 206 exemples. Le tableau suivant,
voir Tableau III. 1, présente la répartition de chacune de ces trois bases de connaissance en
fonction des trois pathologies: Retro-Cochléaire, Endo-Cochléaire et Normale.
Tableau III. 1. Répartition des trois bases de connaissance.
Classes
C1
C2
C3
Pathologie
Rétro-Cochléaire
Endo-Cochléaire
Normale
Nombre d’Exemples
38
77
91
81
La répartition de la base d’apprentissage et de la base de généralisation pour chaque
base de connaissance est présentée dans le Tableau III. 2, telle que 104 images (≈ 50% de la
base) sont utilisées dans la base d’apprentissage et 102 images (≈ 50%) sont utilisées dans la
base de généralisation.
Tableau III. 2. Bases d’apprentissage et de généralisation.
Base de Connaissances
Classe Rétro-
Classe Endo-
Classe
206 Exemples
Cochléaire
Cochléaire
Normale
Base d’Apprentissage (104)
19
39
46
Base de Généralisation (102)
19
38
45
La Figure III. 11 présente quelques exemples de la représentation signal moyenné de
six patients, obtenues en appliquant le 1er protocole. La Figure III. 11. (a) présente le cas de
deux patients appartenant à la classe Rétro-Cochléaire, la Figure III. 11. (b) présente le cas de
deux patients appartenant à la classe Endo-Cochléaire, et la Figure III. 11. (c) présente le cas
de deux patients appartenant à la classe Normale.
(a )
(b )
(c)
Figure III. 11. Exemples de la représentation signal moyenné: (a). Cas de deux patients (classe RétroCochléaire). (b). Cas de deux patients (classe Endo-Cochléaire). (c). Cas de deux patients (classe Normale).
La Figure III. 12 présente la représentation image pour les mêmes patients obtenue en
appliquant le 2ème protocole. La Figure III. 12. (a) présente le cas de deux patients appartenant
82
à la classe Rétro-Cochléaire, la Figure III. 12. (b) présente le cas de deux patients appartenant
à la classe Endo-Cochléaire, et la Figure III. 12. (c) présente le cas de deux patients
appartenant à la classe Normale.
a
b
c
Figure III. 12. Exemples de résultats de la conversion signal à image appliquant le 2ème protocole: (a).
Cas de deux patients (classe Rétro-Cochléaire). (b). Cas de deux patients (classe Endo-Cochléaire). (c). Cas de
deux patients (classe Normale).
Ces exemples montrent qu’on peut avoir deux exemples appartenant à deux classes
différentes et qui se ressemblent, comme on peut avoir deux exemples appartenant à la même
classe et qui sont différents, d’où la difficulté de la classification, et par conséquent la
difficulté d’établir un diagnostic dans le cas de cette application.
III. 2. 3. Systèmes Hybrides Modulaires (SHM)
III. 2. 3. 1. Mise en Œuvre
La mise en oeuvre des Systèmes Hybrides Modulaires (SHM) proposés, voir § II. 4,
Tableau II. 1, est présentée dans ce paragraphe. Pour l’ensemble de ces systèmes, le signal est
présenté par un vecteur de 70 composants, l’image globale est présentée par un vecteur de 16
composants et l’image subdivisée est présentée par 16 imagettes.
83
III. 2. 3. 1. 1. Classification
- Choix des paramètres des classifieurs
•
Pour MLP
Les paramètres, du réseau MLP, à ajuster sont:
-
taux d’apprentissage,
-
nombre de neurones de la couche cachée,
-
nombre de cycle (epochs).
Pour ajuster ces paramètres, nous avons donc mené une étude utilisant la représentation
image globale de la 2ème base de connaissance.
Taux d’apprentissage
Pour choisir le taux d’apprentissage (eta), nous avons fixé l’erreur admissible (ea) à
0.01, le nombre de neurones de la couche cachée (NNC) à 45 neurones et le nombre de cycles
à 2000 cycles. La Figure III. 13 présente les résultats obtenus pour différentes valeurs de eta.
De cette étude, la valeur choisie de eta est 0.1.
Nombre de neurones de la couche cachée
Le nombre de neurones de la couche d’entrée correspond au nombre de composantes de
vecteurs d’entrée. Le nombre de neurones de la couche de sortie correspond quant à lui au
nombre de classes que l’on souhaite obtenir, dans ce travail le nombre de neurones dans la
couche de sortie est de 3 neurones. Pour choisir le nombre de neurones de la couche cachée
(NNC), nous avons fixé l’erreur admissible (ea) à 0.01, le taux d’apprentissage à 0.1 et le
nombre de cycles à 2000 cycles. La Figure III. 14 présente les résultats obtenus pour
différentes valeurs de NNC. D’après cette étude, la valeur choisie de NNC est 85.
Choix de Eta
30
25
20
Rétro
Endo
15
Normal
10
5
0
0
0,05
0,1
0,15
0,2
0,25
valeurs de Et a
Figure III. 13. Choix de la valeur du Taux d’apprentissage (eta).
84
Choix de NNC
Taux de Généralisation
35
30
25
Rétro
20
Endo
15
Normal
10
5
0
0
20
40
60
80
100
120
Valeurs de NNC
Figure III. 14. Choix du nombre de neurones de la couche cachée (NNC).
Nombre de cycles (epochs)
Le nombre de cycles choisi est celui qui donne le taux d’apprentissage le plus élevé en
comparant entre les taux de généralisation obtenus pour différentes valeurs de cycles.
•
Pour RBF
Les paramètres ajustables dans le réseau RBF sont:
-
position et nombre des noyaux,
-
rayon de la zone d’influence,
-
adaptation des poids de la couche de sortie.
La procédure adoptée, pour l’apprentissage du RBF, est la procédure d’apprentissage
hybride basée sur:
- la détermination des paramètres de la première couche (position et nombre
des noyaux, Rayon de la zone d’influence).
- l’apprentissage des poids de la couche de sortie utilisant la rétropropagation
du gradient.
Position et nombre des noyaux
Les noyaux choisis correspondent aux exemples de la base d’apprentissage utilisée,
ainsi le nombre de noyaux dans la couche cachée du RBF est 104 noyaux (la base
d’apprentissage est composée de 104 exemples pour les trois bases de connaissances
utilisées).
Rayon de la zone d’influence (Beta)
Pour ajuster ce paramètre, nous avons donc mené une étude utilisant la représentation
signal de la 1ère base de connaissance. Pour choisir la taille de la zone d’influence des
neurones, nous avons fait varier sa valeur de 0.006 à 0.01 avec un pas de 0.001 et de 0.01 à
85
0.06 avec un pas de 0.01. La Figure III. 15 et la Figure III. 16 présentent les résultats obtenus
pour différentes valeurs de Beta pour les deux bases: apprentissage et généralisation.
Choix de Beta
Beta = 0.01
50
Taux d'apprentissage
45
40
35
30
Retro-Cochléaire
25
Endo-Cochléaire
20
Normal
15
10
5
0
0
0,02
0,04
0,06
0,08
valeurs de Beta
Figure III. 15. Taux d’apprentissage en fonction
de la zone d’influence (Béta).
choix de Beta
Beta = 0.01
50
Taux de généralisation
45
40
35
30
Retro-Cochléaire
25
Endo-Cochléaire
20
Normal
15
10
5
0
0
0,02
0,04
0,06
0,08
Valeurs de Beta
Figure III. 16. Taux de généralisation en fonction
de la zone d’influence (Béta).
Adaptation des poids de la couche de sortie
Les poids de la couche de sortie sont déterminés par un apprentissage utilisant la
rétropropagation du gradient avec un taux d’apprentissage de 0.1 et une erreur admissible de
0.01.
- Paramètres des classifieurs
Nous donnons, par la suite, les principaux paramètres des classifieurs utilisés.
•
Paramètres du Réseau RBF (Signal, 1er protocole)
- Nombre de neurones dans la couche d’entrée: 70,
86
- Nombre de neurones dans la couche cachée: 104,
- Initialisation aléatoire des poids entre [-1, +1],
- Rayon de la zone d’influence: 0.01,
- Algorithme d’entraînement: la rétropropagation du gradient,
- Taux d’apprentissage: 0.1,
- Erreur admissible: 0.01,
- Nombre de cycles (epochs) ≈ 2000.
•
Paramètres du Réseau MLP (Image Globale, 2ème et 3ème protocole)
- Algorithme d’entraînement: la rétropropagation du gradient (voir Annexe A. 3. 2),
- Nombre de couches du réseau de neurones: 3 couches,
•
Paramètres du Réseau RBF (Image Globale, 2ème et 3ème protocole)
- Algorithme d’entraînement: la rétropropagation du gradient,
•
Paramètres du MLP (Image Subdivisée, 2ème protocole)
- Algorithme d’entraînement : la rétropropagation du gradient,
- Nombre de couches du réseau de neurones: 3 couches,
- Nombre de neurones dans la couche d’entrée: 200 (imagette 10 x 20) et 100
(imagette 10 x10),
87
- Nombre de neurones dans la couche cachée: 211 (imagette 10 x 20) et 111 (imagette
10 x 10),
•
Paramètres du Réseau RBF (Image Subdivisée, 2ème protocole)
- Nombre de neurones dans la couche d’entrée: 200 (imagette 10 x 20) et 100
(imagette 10 x10),
- Algorithme d’entraînement : la rétropropagation du gradient,
III. 2. 3. 1. 2. Prise de Décisions
- Choix des paramètres des systèmes flous: SFP et SFF
Choix du modèle
Le modèle utilisé est le modèle de Mamdani qui décrit le système à partir des règles SI ALORS où, les prémisses et les conclusions utilisent des variables linguistiques qui ont des
ensembles flous comme valeurs. Ce type de modèles est essentiellement une expression
qualitative du comportement du système, où les règles sont obtenues la plupart du temps à
partir de la connaissance des experts et des différents mécanismes de raisonnement. Dans ce
travail, les conclusions sont de nature linguistiques ce qui a motivé notre choix du model de
Mamdani pour le SFP et le SFF grâce à ces règles SI-ALORS linguistique contrairement à
d’autres modèles comme le Takagi-Kang pour les quels les prémisses des règles sont des
variables linguistiques mais les conclusion sont de type numérique (constante, polynôme ou
fonction).
88
Fonctions d’appartenances
Les courbes d'appartenance prennent différentes formes en fonction de la nature des
données. Après une étude sur la nature des données en question, les fonctions d’appartenances
de type trapézoïdal sont les plus adaptées pour les deux systèmes flous SFP et SFF. Les
intervalles sont définis pour présenter les différentes catégories.
Nous donnons, dans ce paragraphe, les principales caractéristiques des systèmes flous
utilisés pour la prise de décisions.
- Les caractéristiques des deux systèmes: SFP et SFF
•
Les Principales Caractéristiques du Système Flou Primaire (SFP):
Le SFP, développé dans § II. 3. 3. 4, est chargé de la prise de décisions à partir de la
double classification (deux classifications neuronales).
Il est caractérisé par:
- Les fonctions d’appartenance des entrées (C1-1, C1-2, C1-3) et (C2-1, C2-2, C2-3),
illustrées dans la Figure III. 17, et que nous avons établi sur la base d’observations des
sorties d’un MLP ou RBF et des sorties d’un traitement statistique (des classifications
par RBF ou par MLP),
- L’expertise des 729 règles floues constituant la base de règles floues, que nous avons
établi et détaillé en Annexe E. 1,
- Le mécanisme d’inférence est présenté dans § II. 3. 3. 4.
µ(Classe)
1
Loin
Proche
Moyen
Classe
0
0
0.5
0.8
1
Figure III. 17. Fonction d’appartenance des paramètres C1-1, C1-2, C1-3 (ou C2-1, C2-2, C2-3)
à partir d’une classification par MLP (ou RBF), ou du traitement statistique des classifications par MLP
(ou RBF).
•
Les Principales Caractéristiques du Système Flou Final (SFF):
Le SFF, développé dans le § II. 3. 3. 4, est chargé de la prise de décisions à partir du
résultat du système flou primaire et d’un Paramètre de Confiance (PC). Il est caractérisé par:
89
- Les fonctions d’appartenance des entrées (PC, DPc1, DPc2, DPc3), illustrées dans la
Figure III. 18 et la Figure III. 19, et que nous avons établi sur la base d’observations
du PC, du Seuil Auditif (SA) dans ce cas, ainsi que des sorties du Diagnostic Primaire
(DP),
- L’expertise des 81 règles floues constituant la base de règles, que nous avons établi
et détaillé en Annexe E. 2,
- Le mécanisme d’inférence est présenté dans § II. 3. 3. 4.
µ(SA)
1
Faible
Elevé
Moyen
0
0
0.25
0.09
0.45
SA
Figure III. 18. Fonction d’appartenance du Paramètre de Confiance (PC): le Seuil Auditif (SA).
µ(DPClasse)
1
Petit
Moyen
Grand
0
0
DPClasse
1
0.3 0.4 0.5
Figure III. 19. Fonction d’appartenance des paramètres DPC1, DPC2, et DPC3.
Remarque:
Par la suite, dans les tableaux des SFP et SFF, nous présentons pour chaque classe:
- le taux d’apprentissage,
- le taux global de généralisation (le taux de la totalité des exemples classés
comprenant aussi les exemples classés simultanément dans deux classes),
- l’Indice de Confiance de généralisation ICg.
Notons que l’indice de confiance de généralisation qui sera présenté entre parenthèses
est défini tel que:
taux des exemples bien classés
Indice de Confiance de généralisation (ICg) =
taux global de généralisation
90
III. 2. 3. 2. Résultats Obtenus
III. 2. 3. 2. 1. SHM-1_Signal-RBF_ImageGlobale-MLP
•
Les représentations de la connaissance utilisées sont les suivantes:
- la 1ère représentation est le signal obtenu en appliquant le 1er protocole,
- la 2ème représentation est l’image globale obtenue en appliquant le 2ème
protocole.
- Etage de Classification:
Les résultats de la phase de la classification sont présentés dans le Tableau III. 3 pour
la classification du signal par le réseau de neurones RBF et dans le Tableau III. 4 pour la
classification de l’image globale par le réseau de neurones MLP.
Tableau III. 3. Résultats de la classification neuronale (RBF) du signal (SHM-1).
Résultats Signal
(RBF)
Rétro-Cochléaire (RC)
Endo-Cochléaire (EC)
Normale (N)
Taux d’Apprentissage
100 %
100 %
100 %
Taux de
Généralisation
52.63 %
36.84 %
62.22 %
Tableau III. 4. Résultats de la classification neuronale (MLP) de l’image globale (SHM-1).
Résultats Image Globale
(MLP)
Normale (N)
100 %
100 %
100 %
Taux de
Généralisation
36.84 %
42.10 %
66.66 %
La base d’apprentissage a été apprise avec un taux d’apprentissage de 100 % pour
l’ensemble des classes et pour les deux réseaux de neurones utilisés (RBF et MLP) pour la
classification du signal et de l’image globale, respectivement. Les taux de généralisation (en
moyenne) pour les deux classifieurs sont plutôt équivalents avec un avantage pour le signal,
(50.56 % pour le signal et 48.53 % pour l’image globale). La classification du signal donne un
taux de généralisation pour la classe RC(52.63%) supérieur à celui donné par la classification
de l’image globale (RC(36.84%)) par contre, pour les deux classes EC et N, les deux
classifieurs donnent des taux de généralisation équivalents.
91
- Etage de Prise de Décisions:
Les résultats de la phase de la prise de décisions sont présentés dans le Tableau III. 5
pour le SFP et dans le Tableau III. 6 pour le SFF.
Tableau III. 5. Résultats du Système Flou Primaire (SFP) de Prise de Décisions (SHM-1).
Résultats Système Flou
Primaire (SFP)
Taux
d’Apprentissage
Normale (N)
100 %
100 %
100 %
Taux Global de
Généralisation
(Indice de Confiance de
généralisation de SFP)
52.63 % (0.89)
42.10 % (0.62)
77.77 % (0.82)
Tableau III. 6. Résultats du Système Flou Final (SFF) de Prise de Décisions (SHM-1).
Final (SFF)
Taux
d’Apprentissage
Endo- Cochléaire (EC)
Normale (N)
100 %
97.43 %
100 %
Taux Global de Généralisation
généralisation de SFF)
57.89 % (0.81)
52.63 % (0.84)
73.33 % (0.93)
Les taux globaux de généralisation donnés par le SFF sont meilleurs que les taux
globaux de généralisation donnés par le SFP sauf pour la classe Normale et l’indice de
confiance de généralisation (en moyenne) de SFF (0.86) est supérieur à celui de SFP (0.77).
Comparons les résultats donnés par le SFP et le SFF aux résultats de l’étape de la
classification, on remarque que les taux globaux de généralisation donnés par le SFP et le SFF
sont meilleurs que les taux de généralisation donnés par la classification du signal par RBF et
la classification de l’image globale par MLP.
Le SFF donne de mauvais résultats pour les deux classes RC(57.89%) et EC(52.63%)
mais donne un bon résultat pour la classe N(73.33%).
•
- la 1ère représentation est le signal obtenu en appliquant le 1er protocole,
protocole.
92
la classification du signal par le réseau de neurones RBF et dans le Tableau III. 8 pour la
classification de l’image globale par le réseau de neurones MLP.
Tableau III. 7. Résultats de la classification neuronale (RBF) du signal (SHM-1).
Résultats Signal
(RBF)
Normale (N)
100 %
100 %
100 %
Taux de
Généralisation
52.63 %
36.84 %
62.22 %
Résultats Image
Globale (MLP)
Normale (N)
100 %
100 %
100 %
Taux de
Généralisation
31.57 %
42.10 %
64.44 %
La base d’apprentissage a été apprise avec un taux d’apprentissage de 100 % pour
l’ensemble des classes et pour les deux réseaux de neurones utilisés (RBF et MLP) pour la
classification du signal et de l’image globale, respectivement. Les taux de généralisation (en
moyenne) pour les deux classifieurs sont plutôt équivalents avec un avantage pour le signal
(50.56 % pour le signal et 46.03 % pour l’image globale). La classification du signal donne un
taux de généralisation pour la classe RC(52.63%) supérieur à celui donné par la classification
de l’image globale (RC(31.57%)). Pour les deux classes EC et N, les deux classifieurs
donnent des taux de généralisation comparables.
Tableau III. 9. Résultats du Système Flou Primaire (SFP) de Prise de Décisions (SHM-1).
Primaire (SFP)
Taux
d’Apprentissage
Normale (N)
100 %
97.43 %
100 %
Taux Global de
Généralisation
36.84 % (1)
36.84 % (0.85)
71.11 % (0.86)
93
Tableau III. 10. Résultats du Système Flou Final (SFF) de Prise de Décisions (SHM-1).
Final (SFF)
Taux
d’Apprentissage
Normale (N)
100 %
94.87 %
100 %
Taux Global de
Généralisation
52.63 % (1)
60.52 % (0.73)
82.22 % (0.91)
globaux de généralisation donnés par le SFP pour les trois classes et l’indice de confiance de
généralisation (en moyenne) de SFF (0.88) est comparable à celui de SFP (0.90).
classification, on remarque que:
- Les taux globaux de généralisation donnés par le SFP sont comparables aux taux de
généralisation donnés par le RBF et le MLP pour les classes RC et EC, avec un
avantage pour le taux de généralisation de la classe RC donné par le RBF. Pour la
classe N, le SFP donne un taux global de généralisation supérieur aux taux de
généralisation donnés par le RBF et le MLP,
- Les taux globaux de généralisation donnés par le SFF sont meilleurs que les taux de
généralisation donnés par le RBF et le MLP.
Le SFF donne un mauvais résultat pour la classe RC, un très bon résultat pour la classe
N et une nette amélioration pour la classe EC (de 36.84% à 60.52%).
La comparaison de l’ensemble des résultats de SHM-1 obtenus à partir du 2ème
protocole (1er cas) ou du 3ème protocole (2ème cas) montre que:
- pour le SFP, les taux globaux de généralisation dans le 1er cas sont supérieurs aux
taux globaux de généralisation dans le 2ème cas pour les trois classes,
- pour le SFF, les taux globaux de généralisation sont comparables dans le 1er et 2ème
cas pour la classe RC. Les taux globaux de généralisation sont supérieurs dans le 2ème
cas pour les classes EC et N.
III. 2. 3. 2. 2. SHM-2_ImageGlobale-MLP_ImageGlobale-RBF
•
94
- la 1ère représentation est l’image globale obtenue en appliquant le 2ème
protocole,
protocole.
la classification de l’image globale par le réseau de neurones MLP et dans le Tableau III. 12
pour la classification de l’image globale par le réseau de neurones RBF.
Résultats Image
Globale (MLP)
Normale (N)
100 %
100 %
100 %
Taux de
Généralisation
36.84 %
42.10 %
66.66 %
Tableau III. 12. Résultats de la classification neuronale (RBF) de l’image globale (SHM-2).
Résultats Image Globale
(RBF)
Normale (N)
100 %
94.87 %
100 %
Taux de
Généralisation
36.84 %
36.84 %
55.55 %
La base d’apprentissage a été apprise avec un taux d’apprentissage de 100% pour les
trois classes et par les deux classifieurs (MLP et RBF) sauf pour la classe EC (94.87%) par le
réseau RBF. Pour la classe RC, les deux classifieurs donnent le même taux de généralisation
(36.84%). Pour les deux classes EC et N, le MLP donne des meilleurs résultats (EC (42.10%),
N(66.66%)) par rapport à ceux donnés par le RBF, EC(36.84%) et N (55.55). Les taux de
généralisation (en moyenne) pour les deux classifieurs sont plutôt équivalents avec un
avantage pour la classification de l’image globale par le MLP (48.53 % pour l’image globale
par le MLP et 43.07 % pour l’image globale par le RBF). Ceci suggère que le MLP est mieux
adapté à la classification de l’Image Globale que le RBF.
95
Tableau III. 13. Résultats du Système Flou Primaire (SFP) de prise de décisions (SHM-2).
Primaire (SFP)
Taux
d’Apprentissage
Normale (N)
100 %
100 %
100 %
Taux Global de
Généralisation
(Indice de Confiance de la
36.84 % (1)
39.47 % (0.93)
66.66 % (0.86)
Tableau III. 14. Résultats du Système Flou Final (SFF) de prise de décisions (SHM-2).
Final (SFF)
Taux
d’Apprentissage
Normale (N)
100 %
89.74 %
100 %
Taux Global de
Généralisation
(Indice de Confiance de la
36.84 % (1)
42.10 % (0.93)
73.33 % (0.87)
Les taux globaux de généralisation donnés par le SFF sont légèrement supérieurs aux
taux globaux de généralisation donnés par le SFP et l’indice de confiance de généralisation
(en moyenne) est de 0.93 donné à la fois par SFP et SFF.
Comparons les résultats donnés par le SFP et SFF aux résultats de l’étape de la
- les taux globaux de généralisation donnés par le SFP sont comparables aux taux de
généralisation donnés par le MLP et le RBF,
- les taux globaux de généralisation du SFF sont globalement supérieurs à ceux
données par RBF et comparables à ceux donnés par MLP.
Le SFF ne permet pas une amélioration des résultats des deux classes RC et EC
puisqu’il conserve les mêmes taux de généralisation donnés par le MLP (RC(36.84%) et
EC(42.10%)) mais il donne un bon résultat pour la classe N.
•
- la 1ère représentation est l’image globale obtenue en appliquant le 3ème
protocole,
protocole.
96
la classification de l’image globale par le réseau de neurones MLP et dans le Tableau III. 16
pour la classification de l’image globale par le réseau de neurones RBF.
Résultats Image
Globale (MLP)
Normale (N)
100 %
100 %
100 %
Taux de
Généralisation
31.57 %
42.10 %
64.44 %
Tableau III. 16. Résultats de la classification neuronale (RBF) de l’image globale (SHM-2).
Résultats Image
Globale (RBF)
Normale (N)
100 %
100 %
100 %
Taux de
Généralisation
31.57 %
28.94 %
57.77 %
La base d’apprentissage a été apprise avec un taux d’apprentissage de 100% pour
l’ensemble des classes et pour les deux réseaux de neurones utilisés (MLP et RBF). Le taux
de généralisation (en moyenne) donné par le MLP (46.03%) est supérieur au taux de
généralisation (en moyenne) donné par le RBF (39.42%). Les taux de généralisation donnés
par le RBF et le MLP sont comparables pour les trois classes avec un avantage pour le taux de
généralisation de la classe EC donné par le MLP par rapport à celui donné par le RBF pour la
même classe.
Primaire (SFP)
Taux
d’Apprentissage
Normale (N)
100 %
97.43 %
100 %
Taux Global de
Généralisation
31.57 % (1)
39.47 % (0.66)
77.77 % (0.88)
97
Final (SFF)
Taux
d’Apprentissage
Normale (N)
100 %
87.17 %
100 %
Taux Global de
Généralisation
31.57 % (1)
44.73 % (0.58)
82.22 % (0.97)
Les taux globaux de généralisation donnés par le SFF et par le SFP sont comparables
avec un léger avantage pour les résultats donnés par le SFF et l’indice de confiance de
généralisation donnés par le MLP et le RBF pour les deux classes RC et EC. Pour la
classe N, le taux global de généralisation donné par le SFP est meilleur que ceux
donnés par le MLP et le RBF,
- les taux globaux de généralisation donnés par le SFF sont meilleurs que les taux de
généralisation donnés par le MLP et le RBF sauf pour la classe RC: le SFF conserve le
même taux de généralisation donné par le MLP et le RBF (RC(31.57%)).
Le SFF donne des mauvais résultats pour les deux classes RC et EC mais donne un
très bon résultat pour la classe N.
La comparaison de l’ensemble des résultats de SHM-2 obtenus à partir du 2ème
protocole (1er cas) ou du 3ème protocole (2ème cas), pour les deux systèmes flous SFP et SFF,
montre que:
- pour les classes RC et EC: les taux globaux de généralisation donnés par SHM-2 (1er
cas) et SHM-2 (2ème cas) sont comparables,
- pour la classe N: le taux global de généralisation donné par SHM-2 (2ème cas) est
supérieur au taux global de généralisation donné par SHM-2 (1er cas).
III. 2. 3. 2. 3. SHM-3_ImageSubdivisée-MLP_ImageSubdivisée-RBF
•
98
- la 1ère représentation est l’image subdivisée obtenue en appliquant le 2ème
protocole,
- la 2ème représentation est l’image subdivisée obtenue en appliquant le 2ème
protocole.
Les taux de classification (des 16 imagettes), donnés par les seize classifieurs MLP-1 à
MLP-16 sont présentés dans la Figure III. 20 et ceux donnés par les seize classifieurs RBF-1 à
RBF-16, sont présentés dans la Figure III. 21.
Patients Endo-Cochléaire (MLP)
Taux de Classification
Patients Rétro-Cochléaire (MLP)
120
100
80
60
40
20
0
1
2
3
4
5
6
7
8
9
120
100
80
60
40
20
0
10 11 12 13 14 15 16
1
2
3
4
5
6
I ma ge t t e s
7
8
9 10 11 12 13 14 15 16
Imagettes
Taux de
Classification
Patients Normal (MLP)
150
100
50
0
1
3
5
7
9
11
13
15
Imagettes
Figure III. 20. Résultats de la classification par MLP
des 16 imagettes (image subdivisée).
Le Tableau III. 19 présente les résultats obtenus après le traitement statistique (voir §
II. 3. 2. 5) déduisant un indicateur global dans le cas des classifieurs MLP et le Tableau III. 20
présente les résultats obtenus après le même traitement statistique déduisant un indicateur
global dans le cas des classifieurs RBF. Globalement, les deux classes RC et EC sont
difficilement séparables de la classe N et cela à la fois par le MLP et le RBF.
99
Patients Normal ( (RBF)
Patients Rétro-Cochléaire (RBF)
120
120
100
100
80
80
60
60
40
40
20
20
0
0
1 2
3
4
5
6
7
8
9 10 11 12 13 14 15 16
1 2
3
4
5
I ma ge t t e s
6
7
8
9 10 11 12 13 14 15 16
I ma ge t t e s
Patients Endo-Cochléaire(RBF)
120
100
80
60
40
20
0
1 2
3
4
5
6
7
8
9 10 11 12 13 14 15 16
I ma ge t t e s
Figure III. 21 Résultats de la classification par RBF
des 16 imagettes (image subdivisée).
Tableau III. 19. Résultats de la classification neuronale (MLP) de l’image subdivisée (SHM-3).
Résultats Image Subdivisée
(MLP)
Normale (N)
100 %
100 %
100 %
Taux de
Généralisation
10.52 %
31.57 %
66.66 %
Tableau III. 20. Résultats de la classification neuronale (RBF) de l’image subdivisée (SHM-3).
Résultats Image Subdivisée
(RBF)
Normale (N)
100 %
100 %
100 %
Taux de
Généralisation
21.05 %
13.15 %
88.88 %
La base d’apprentissage a été apprise avec un taux d’apprentissage de 100% pour
l’ensemble des trois classes par les deux classifieurs MLP et RBF. Pour la base de
généralisation, les taux obtenus par la classification de RC et EC sont assez faible pour les
deux réseaux de neurones. La classification de N permet d’obtenir des taux de généralisation
de 66.66% par MLP et de 88.88% par RBF. Le taux de généralisation (en moyenne) donné
par l’ImageSubdivisée-MLP (36.25%) est inférieur à celui donné par l’ImageSubdivisée-RBF
(41.02%). Ce qui suggère que le RBF est mieux adapté à la classification de l’Image
Subdivisée que le MLP.
100
Primaire (SFP)
Taux
d’Apprentissage
Normale (N)
100 %
100 %
100 %
Taux Global de
Généralisation
31.57 % (0.33)
34.21 % (0.46)
91.11 % (0.85)
Final (SFF)
Taux
d’Apprentissage
Normale (N)
100 %
94.87 %
100 %
Taux Global de
Généralisation
21.05 % (1)
65.78 % (0.88)
86.66 % (0.94)
Les taux globaux de généralisation donnés par le SFF sont légèrement inférieurs aux
taux globaux de généralisation donnés par le SFP pour les deux classes RC et N, et supérieur
pour la classe EC. Quant à l’indice de confiance de généralisation (en moyenne), celui donné
par SFF (0.94) est largement supérieur à celui donné par SFP (0.54).
classification, on remarque que les taux globaux de généralisation donnés par le SFP et le SFF
sont meilleurs que les taux de généralisation donnés par les deux classifieurs MLP et RBF
pour les trois classes.
Le SFF donne un mauvais résultat pour la classe RC, un très bon résultat pour la classe
N et une amélioration spectaculaire pour la classe EC (de 34.21% à 65.78%).
A partir de maintenant, c-à-d, pour les quatre systèmes SHM-4, SHM-5, SHM-6 et
SHM-7, nous nous intéressons qu’à l’étage de prise de décisions. En fait nous nous
intéressons à la prise de décisions des combinaisons des deux représentations
ImageSubdivisée et ImageGlobale obtenues en appliquant le 2ème protocole et classées par
MLP et RBF.
101
Les résultats des différentes classifications (ImageGlobale-MLP, ImageGlobale-RBF,
ImageSubdivisée-MLP, et ImageSubdivisée-RBF) étant déjà présentés et commentés, nous
présentons les résultats des systèmes flous SFP et SFF dans les quatre combinaisons
intéressantes afin d’analyser les résultats de la prise de décisions (l’exploitation de la
redondance, de la complémentarité des classifieurs, ainsi que celle du paramètre de confiance)
dans ces cas là.
III. 2. 3. 2. 4. SHM-4_ImageSubdivisée-RBF_ImageGlobale-MLP
Les résultats de la phase de la prise de décisions sont présentés dans le Tableau III. 23.
Primaire (SFP)
Taux
d’Apprentissage
Normale (N)
100 %
100 %
100 %
Taux Global de
Généralisation
36.84 % (0.85)
34.21 % (0.92)
77.77 % (0.97)
Final (SFF)
Taux
d’Apprentissage
Normale (N)
100 %
94.87 %
100 %
Taux Global de
Généralisation
31.57 % (1)
44.73 % (0.58)
86.66 % (0.92)
Les taux globaux de généralisation donnés par le SFF sont supérieurs aux taux
globaux de généralisation donnés par le SFP sauf pour la classe RC et l’indice de confiance de
généralisation (en moyenne) de SFF (0.83) est inférieur à celui de SFP (0.91).
Comparons les résultats donnés par le SFP et le SFF aux résultats donnés par la
102
généralisation donnés par le MLP et globalement supérieurs aux taux de généralisation
donnés par le RBF,
- Les taux globaux de généralisation donnés par SFF sont globalement supérieurs aux
taux de généralisation donnés par RBF. Ils sont comparables aux taux de
généralisation donnés par le MLP sauf pour la classe N: SFF permet une importante
amélioration (de 66.66% à 86.66%).
Le SFF donne de mauvais résultats pour les deux classes RC et EC mais donne un très
bon résultat pour la classe N(86.66%).
III. 2. 3. 2. 5. SHM-5_ImageSubdivisée-MLP_ImageGlobale-RBF
Primaire (SFP)
Taux
d’Apprentissage
Normale (N)
100 %
100 %
100 %
Taux Global de
Généralisation
31.57 % (0.83)
31.57 % (0.91)
68.88 % (0.90)
Final (SFF)
Taux
d’Apprentissage
Normale (N)
100 %
87.19 %
100 %
Taux Global de
Généralisation
26.31 % (1)
47.36 % (0.77)
77.77 % (0.91)
103
- les taux globaux de généralisation donnés par SFP sont globalement comparables au
taux de généralisation donnés par le MLP et RBF,
- Les taux globaux de généralisation donnés par SFF sont supérieurs aux taux de
généralisation donnés par le MLP et le RBF sauf pour la classe RC(26.31%) comparée
au taux de généralisation donné par le RBF (RC(36.84%)).
Le SFF donne de mauvais résultats pour les deux classes RC et EC mais donne un bon
résultat pour la classe N.
III. 2. 3. 2. 6. SHM-6_ImageSubdivisée-MLP_ImageGlobale-MLP
Primaire (SFP)
Taux
d’Apprentissage
Normale (N)
100 %
100 %
100 %
Taux Global de
Généralisation
36.84% (0.71)
36.84 % (0.92)
73.33 % (1)
Résultats Système
Flou Final (SFF)
Normale (N)
100 %
97.43 %
100 %
Taux Global de
Généralisation
21.05 % (1)
55.26 % (0.71)
80 % (0.94)
Les taux globaux de généralisation donnés par le SFF sont supérieurs aux taux
104
classification, on remarque que les taux globaux donnés par le SFP et le SFF sont meilleurs
que les taux de généralisation donnés par la classification de l’image subdivisée.
Les taux globaux de généralisation donnés par le SFP et par la classification de
l’image globale sont comparables. Les taux globaux de généralisation de SFF sont supérieurs
à ceux donnés par la classification de l’image globale sauf pour la classe RC.
Le SFF donne de mauvais résultats pour les deux classes RC et EC mais donne un bon
résultat pour la classe N.
III. 2. 3. 2. 7. SHM-7_ImageSubdivisée-RBF_ImageGlobale-RBF
Primaire (SFP)
Taux
d’Apprentissage
Normale (N)
100 %
100 %
100 %
Taux Global de
Généralisation
36.84 % (0.85)
34.21 % (0.76)
77.77 % (0.85)
Final (SFF)
Taux
d’Apprentissage
Normale (N)
100 %
82.05 %
100 %
Taux Global de
Généralisation
31.57 % (1)
36.84 % (0.78)
88.88 % (0.90)
Les taux globaux de généralisation donnés par le SFF sont comparables aux taux
globaux de généralisation donnés par le SFP sauf pour la classe N qui présente une
amélioration (de 77.77% à 88.88%). Quant à l’indice de confiance de généralisation (en
moyenne), celui donné par SFF (0.89) est supérieur à celui donné par SFP (0.82).
105
classification, on remarque que les taux globaux de généralisation de SFP et SFF sont
globalement supérieurs à ceux donnés par la classification de l’image subdivisée et
comparables au taux de généralisation donnés par la classification de l’image globale sauf
pour la classe N: le SFP et SFF permettent une importante amélioration de cette classe.
Le SFF donne de mauvais résultats pour les deux classes RC et EC mais donne un très
bon résultat pour la classe N.
III. 2. 3. 3. Synthèse
Concernant les résultats de la classification:
A part la classification satisfaisante (un taux de bonne classification d’environ de 90 %
en généralisation) des patients seins (correspondant à la classe N) par le classifieur à base du
modèle RBF opérant à partir de la représentation ‘‘Image Subdivisée’’, les autres résultats,
correspondant aux cas où la classification est effectuée par l’un ou l’autre des deux modèles
neuronaux (MLP ou RBF), sont médiocres (les taux de bonne classification plafonnent à une
cinquantaine de pourcents et cela quelque soit la représentation de la connaissance utilisée).
Cependant, si ces résultats (obtenus à partir de l’utilisation individuelle de chaque
modèle neuronal comme classifieur) ne correspondent pas aux taux de classification pouvant
être jugés comme acceptables (taux de bonne classification supérieure à 75%), ils permettent
néanmoins de dégager quelques tendances se résumant comme ceci:
- notre choix d’une architecture plus complexe fusionnant les réponses issues des
classifieurs individuels (plus simples) semble pertinente,
- le choix de deux classifieurs, l’un basé sur un apprentissage global (MLP) et l’autre
basé sur un apprentissage local (RBF) semble aussi trouver une certaine pertinence.
En effet, le modèle MLP semble plus adapté à la classification à partir d’une
représentation ‘‘Image Globale’’ alors que le modèle RBF correspondrait plutôt mieux
à la classification à partir de la représentation ‘‘Image Subdivisée’’.
Concernant la classification après l’hybridation, la comparaison (des résultats obtenus
dans le cas) des 7 variantes proposées (SHM-1 à SHM-7) peut être synthétisée comme suit:
- le système hybride SHM-1 obtient le meilleur succès en ce qui concerne la
classification des patients relevant de la classe Rétro-Cochléaire (RC), SHM-3 permet
une meilleure reconnaissance des patients appartenant à la classe Endo-Cochléaire
106
(EC), finalement les meilleurs résultats de la classification correcte des patients seins
(classe N) sont donnés par le système hybride SHM-7,
- l’étage de décision basé sur la logique floue (et de ce fait l’hybridation des réponses
des deux classifieurs) améliore sensiblement les résultats de classification issus de
chaque classifieur neuronal individuel (MLP ou RBF). En effet, on peut constater une
amélioration d’environ de 17% du taux de bonne classification des patients
appartenant à la classe EC ainsi qu’une amélioration d’environ de 13 % du taux de
bonne classification des patients seins (classe N) à la sortie de l’étage de décisions
(voir le tableau III. 31),
Tableau III. 31. Moyennes des taux de classifications après l’hybridation pour les trois classes RC, EC et N.
Moyenne
Classifieurs
après SFP
après SFF
Rétro-Cochléaire
31.57%
37.59%
32.32%
Endo-Cochléaire
32.1%
36.08%
49.24%
Normale
67.99%
76.18%
80.94%
- quant à la stagnation du taux de bonne classification des patients relevant de la classe
RC, elle devrait être considérée avec certaine prudence à cause du faible nombre
d’exemples de la base d’apprentissage (19 seulement) utilisée.
Finalement, les résultats obtenus dans les cas des systèmes SHM-1 et SHM-2 semble
confirmer la pertinence du seuillage utilisé dans le 3ème protocole1 (par rapport au seuillage
utilisé dans le 2ème protocole2): notamment en ce qui concerne la classe EC, la représentation
‘‘Image Globale’’ issue du 3ème protocole semble plus adéquate que les autres représentations
(conduisant à un taux de bonne classification d’environ 60%).
III. 3. APPLICATION INDUSTRIELLE: Etude de Cas
Dans ce paragraphe, nous présentons la mise en œuvre, les résultats expérimentaux, et
la synthèse d’une étape de classification proposée à travers une étude de cas en vue d’une
application industrielle.
1
2
Conversion signal à image à partir d’une transformée en ondelettes d’un signal (temps fréquence).
Conversion signal à image à partir d’une surface (temps-temps).
107
III. 3. 1. Présentation de l’Application
L’objet de cette étude concerne la mise en place d’un outil d’aide au diagnostic d’une
machine asynchrone qui représente plus de 90 % des machines tournantes. Dans un cadre
concurrentiel, la maintenance et le diagnostic de ces machines asynchrones deviennent donc
un enjeu économique. Il est important de détecter de manière précoce les défauts qui peuvent
apparaître dans ces machines et de développer des systèmes d’aide au diagnostic afin d’éviter
les éventuels dysfonctionnements. Parmi les techniques permettant de diagnostiquer une
machine asynchrone on trouve le diagnostic basé sur les signaux vibratoires.
III. 3. 1. 1. Description
Le contrôle des machines tournantes en utilisant des signaux vibratoires est
couramment utilisé notamment pour la surveillance des composants fragiles ou stratégiques
d’un système, par exemple les roulements à billes, les engrenages ou les rotors.
La procédure consiste à détecter l’apparition d’un défaut sans démontage de la
machine en prélevant le signal vibratoire. Les vibrations engendrées par une machine
tournante traduisent les efforts dynamiques engendrés par les pièces de la machine en
mouvement. L’exploitation des ces signatures vibratoires permet de dresser un diagnostic de
l'état de fonctionnement de la machine et de déceler des défauts à un stade précoce. Ainsi cela
permet de mieux gérer les défaillances en intervenant avant, lors d'arrêts programmés, en
réduisant le risque d'arrêts de production.
L’utilisation des signaux vibratoires permet de diagnostiquer:
- un désalignement ou un déséquilibre sur un arbre de transmission,
- un état des roulements et engrenages,
- des défauts de serrage,
- un descellement d'une patte de fixation,
- des défauts de courroie,
- des perturbations électromagnétiques sur un moteur,
- un état des pâles d'un ventilateur, des aubes d'une pompe.
Dans l’étude de cas présentée ici, nous nous plaçons dans le cadre décrit avec la
présence de deux défauts suivants: défaut de balourd et défaut de roulement.
108
III. 3. 1. 2. Mise en Œuvre
Afin d’étudier les signaux vibratoires en vue d’une application industrielle, nous avons
mis en place une étude de cas se basant sur des données synthétiques: un ensemble de signaux
élaboré à partir des modèles mathématiques suivant:
- S(t) = cos(w1*t)
⎧x
⎪
- d1(t) = ⎨
⎪0
⎩
∀ t ∈ℜ ,
voir Figure III. 22. (a),
∀ t ∈ [a − 1 , a + 1]
avec a = 10 * k ,
- d2(t) = sin(w2*t)
∀ t ∈ℜ ,
k ∈ Ν * , voir Figure III. 22. (b),
voir Figure III. 23. (b).
Figure III. 22. (a). Représentation du signal S(t).
Figure III. 22. (b). Représentation du signal d1(t).
Figure III. 22. (c). Représentation du signal avec défaut Sd1(t).
En fait, les signaux vibratoires d’une machine tournante peuvent être simulés par des
signaux périodiques. Les défauts quant à eux vont introduire par exemple:
- des chocs qui peuvent être simulés par des effets sur l’amplitude,
109
- une dissymétrie d’axe de rotation qui peut être simulée par un effet de modulation.
Ainsi on construit trois types de signaux S(t), Sd1(t) et Sd2(t) tels que:
•
S(t) est un signal sans défaut, voir Figure III. 22. (a),
•
Sd1(t) = S(t) + d1(t), où S(t) est un signal sans défaut présenté dans la Figure III. 22.
(a), d1(t) est un signal (premier type de défaut) présenté dans la Figure III. 22. (b), et
Sd1(t) est un signal avec un premier type de défaut présenté dans la Figure III. 22. (c),
•
Sd2(t) = S(t) x d2(t), où S(t) est un signal sans défaut présenté dans la Figure III. 23.
(a), d2(t) est un signal sinus présenté dans la Figure III. 23. (b), et Sd2(t) est un signal
avec un deuxième type de défaut présenté dans la Figure III. 23. (c).
Figure III. 23. (a). Représentation du signal S(t).
Figure III. 23. (b). Représentation du signal d2(t).
Figure III. 23. (c). Représentation du signal avec défaut Sd2(t).
III. 3. 2. Elaboration de la Base de Connaissances
La base de connaissances est composée des images. La représentation image est
obtenue à partir de la transformée en ondelettes du signal, en appliquant la méthode de
conversion signal à image, voir II. 3. 1. 3. 1, utilisant un seuillage basé sur le 2ème critère
(seuillage basé sur les aires).
110
•
Choix d’une Ondelette (Transformée en Ondelettes)
Le type de l’ondelette utilisé pour l’élaboration de la transformée en ondelettes a une
grande influence sur le résultat obtenu. Il est donc nécessaire de se donner un critère de
sélection d’ondelette, afin de trouver celle qui sera la mieux adaptée au défaut que l’on
souhaite détecter dans le signal.
Pour cela nous avons développé un signal vibratoire synthétique présenté dans la
Figure III. 24. et sur lequel nous avons testé les différentes fonctions d’ondelette suivantes:
-
Daubechies (ordre 1 à 10),
-
Symlets (ordre 2 à 8),
-
Coiflets (ordre 1 à 5),
-
BiorSplines (ordre: 1.1, 1.3, 1.5, 2.2, 2.4, 2.6, 2.8, 3.3, 3.5, 3.7, 3.9, 4.4, 5.5, 6.8),
-
ReverseBior (ordre: 1.1, 1.3, 1.5, 2.2, 2.4, 2.6, 2.8, 3.1, 3.3, 3.5, 3.7, 3.9, 4.4, 5.5, 6.8),
-
Meyer,
-
DMeyer,
-
Gaussian (ordre 1 à 8),
-
Mexican_hat,
-
Morlet.
Figure III. 24. Représentation du signal avec défaut Sd1(t).
Le critère utilisé pour le choix d’une ondelette est le minimum des amplitudes
maximales de la transformée en ondelettes du signal (Min(Max)). L’idée dans le choix de ce
critère est de déterminer laquelle des ondelettes fera apparaître le mieux un défaut (afin qu’il
puisse être facilement détecté).
111
La Figure III. 25. présente les valeurs obtenues de ce critère en fonction des 64
fonctions d’ondelettes testés. A partir de ces résultats, deux ondelettes ont été choisies,
l’ondelette bior3.3 et l’ondelette bior3.9.
Min(Max) des transformées en ondelettes
1,6
Bior3.3
1,4
Bior3.9
Min(Max)
1,2
db
sym
1
coif
0,8
bior
rbior
0,6
gaus
meyr, dmey, mexh, morl
0,4
0,2
0
0
5
10
15
20
ordre des ondelettes
Figure III. 25. Choix d’une ondelette basée sur le critère Min(Max).
•
Elaboration de la Représentation Image (Image Globale)
La représentation image est alors élaborée à partir de la transformée en ondelettes du
signal, en appliquant la méthode de conversion signal à image, voir II. 3. 1. 3. 1, utilisant un
seuillage basé sur le 2ème critère (seuillage basé sur les aires). La Figure III. 26, présente un
exemple de la représentation image obtenue en appliquant cette méthode de conversion.
(a)
(b)
(c)
Figure III. 26. Exemple de résultat de la conversion d’un signal à image. (a). Signal original. (b). La
transformée en ondelettes du signal. (c). La représentation image du signal.
112
Afin d’exploiter la représentation image obtenue, on utilise la représentation image
globale (voir § II. 3. 1. 4), tel que on subdivise l’image en seize régions (dont douze régions
sont de taille 10x20 et quatre régions sont de tailles 10x10) et pour chaque région on calcule
la moyenne de ses niveaux de gris. Ainsi, chaque image sera présentée par un vecteur de seize
composants, voir Figure III. 27.
1
…
2
…
i
M1
.
.
.
…
…
16
M 16
Figure III. 27. Représentation image globale
de la connaissance.
•
Bases d’Apprentissage et de Généralisation
La base de données est ainsi élaborée à partir des trois types de signaux présentés, S(t),
Sd1(t) et Sd2(t):
-
Classe 1: Classe Anormale-1, composée des signaux de type Sd1(t),
-
Classe 2: Classe Anormale-2, composée des signaux de type Sd2(t),
-
Classe 3: Classe Normale, composée des signaux de type S(t).
Le Tableau III. 32 présente la répartition de la base de données (Composée de 240
exemples) en fonction des trois classes: Anormale-1, Anormale-2 et Normale.
Tableau III. 32. Répartition de la base de connaissances.
Classe
Anormale-1
Anormale-2
Normale
Nombre d’Exemples
80
80
80
Tableau III. 33. Bases d’apprentissage et de généralisation (représentation image globale).
Base de Connaissances (50%)
Classe
Classe
240 Exemples
Anormale-1
Anormale-2
Normale
Base d’Apprentissage (120)
40
40
40
Base de Généralisation (120)
40
40
40
113
La répartition de la base d’apprentissage et de la base de généralisation est présentée
dans le Tableau III. 33, où 120 images (50% de la base) sont utilisées dans la base
d’apprentissage et 120 images (50% de la base) sont utilisées dans la base de généralisation.
Pour la base d’apprentissage, chaque classe est composée de 40 signaux:
- pour la classe Anormale-1, en faisant varier la valeur x du signal d1(t) entre 0.1 et
0.49 avec un pas T = 0.01,
- pour la classe Anormale-2, en faisant varier la valeur w2 du signal d2(t) entre 0.09 et
0.98 avec un pas T = 0.0225,
- pour la classe Normale, en faisant varier la valeur w1 du signal S(t) entre 0.1 et 0.99
avec un pas T = 0.0225.
Pour la base de généralisation, chaque classe est composée de 40 signaux:
- pour la classe Anormale-1, en faisant varier la valeur x du signal d1(t) entre 0.08 et
0.47 avec un pas T = 0.01,
- pour la classe Anormale-2, en faisant varier la valeur w2 du signal d2(t) entre 0.045
et 0.49 avec un pas T = 0.0112,
- pour la classe Normale, en faisant varier la valeur w1 du signal S(t) entre 0.055 et 0.5
avec un pas T = 0.0112.
(a) Classe Anormale-1: exemple 1 du signal
(b) Classe Anormale-2: exemple 1 du signal
(c) Classe Normale: exemple 1 du signal S(t)
Sd1(t) = S(t)+ d1(t) pour x = 0.23.
Sd2(t) = S(t) + d2(t) pour w2 = 0.49.
pour w1 = 0.5.
(a) Classe Anormale-1: exemple 2 du signal
(b) Classe Anormale-2: exemple 2 du signal
(c) Classe Normale: exemple 2 du signal S(t)
Sd1(t) = S(t)+ d1(t) pour x = 0.33.
Sd2(t) = S(t) + d2(t) pour w2 = 0.98.
pour w1 = 0.99.
Figure III. 28. Exemples des signaux des trois classes: (a). Deux signaux de la classe Anormale-1.
(b). Deux signaux de la classe Anormale-2. (c). Deux signaux de la classe Normale.
114
La Figure III. 28 présente six exemples tels que:
- deux exemples du signal Sd1(t) pour l’amplitude x = 0.23 et 0.33 ( voir Figure III.
28. (a)),
- deux exemples du signal Sd2(t) pour w2 = 0.49 et 0.98 ( voir Figure III. 28. (b)),
- deux exemples du signal S(t) pour w1 = 0.5 et 0.99 ( voir Figure III. 28. (c)).
La Figure III. 29 présente les transformées en ondelettes de ces six exemples: la Figure
III. 29. (a) présente les transformées en ondelettes des deux signaux de la classe Anormale-1,
la Figure III. 29. (b) présente les transformées en ondelettes des deux signaux de la classe
Anormale-2 et la Figure III. 29. (c) présente les transformées en ondelettes des deux signaux
de la classe Normale.
(a) Classe Anormale-1: tranformée en
(b) Classe Anormale-2: tranformée en
(c)
ondelettes de Sd1(t) pour x = 0.23.
ondelettes de Sd2(t) pour w2 = 0.49.
ondelettes de S(t) pour w1 = 0.5.
(a) Classe Anormale-1: tranformée en
(b) Classe Anormale-2: tranformée en
(c)
ondelettes de Sd1(t) pour x = 0.33.
ondelettes de Sd2(t) pour w2 = 0.98.
ondelettes de S(t) pour w1 = 0.99.
Classe
Classe
Normale:
Normale:
tranformée
tranformée
Figure III. 29. Exemples des transformées en ondelettes des signaux des trois classes:
(a). Deux signaux de la classe Anormale-1. (b). Deux signaux de la classe
Anormale-2. (c). Deux signaux de la classe Normale.
La Figure III. 30 présente les représentations images des mêmes signaux présentés cidessus: la Figure III. 30. (a) présente le cas de deux signaux de la classe Anormale-1, Figure
III. 30. (b) présente le cas de deux signaux de la classe Anormale-2 et Figure III. 30. (c)
présente le cas de deux signaux de la classe Normale.
115
en
en
(a) Classe Anormale-1: représentation
(b) Classe Anormale-2: représentation
(c) Classe Normale: représentation image
image de Sd1(t) pour x = 0.23.
image de Sd2(t) pour w2= 0.49.
de S(t) pour w1 = 0.5.
(a) Classe Anormale-1: représentation
(b) Classe Anormale-2: représentation
(c) Classe Normale: représentation image
image de Sd1(t) pour x = 0.33.
image de Sd2(t) pour w2 = 0.98.
de S(t) pour w1 = 0.99.
Figure III. 30. Exemples des représentations images des signaux des trois classes:
(a). Deux signaux de la classe Anormale-1. (b). Deux signaux de la classe
Anormale-2. (c). Deux signaux de la classe normale.
III. 3. 3. Etape de Classification: Mise en Œuvre et Résultats Obtenus
Mise en oeuvre:
Les deux classifieurs utilisés sont les réseaux de neurones MLP et RBF pour la
classification de l’image globale dans deux cas: en utilisant la transformée en ondelettes basée
sur Bior3.3 et la transformée en ondelettes basée sur Bior3.9 dans la conversion signal à
image. Les paramètres de chaque réseau de neurones dans les deux cas (Bior3.3 et Bior3.9)
sont comme suit:
- Paramètres du Réseau MLP:
-
Algorithme d’entraînement: la rétropropagation du gradient,
-
Nombre de couches du réseau de neurones: 3 couches,
-
Nombre de neurones dans la couche d’entrée: 16,
116
-
Nombre de neurones dans la couche cachée: 20,
-
Initialisation aléatoire des poids entre [-1, +1],
-
Taux d’apprentissage: 0.1,
-
Erreur admissible: 0.01,
-
Nombre de cycles (epochs) ≈ 10000.
Paramètres du Réseau RBF
-
Nombre de neurones dans la couche d’entrée: 16,
-
Nombre de neurones dans la couche cachée: 120,
-
Initialisation aléatoire des poids entre [-1, +1],
-
Rayon de la zone d’influence: 0.01,
-
Algorithme d’entraînement: la rétropropagation du gradient,
-
Taux d’apprentissage: 0.1,
-
Erreur admissible: 0.01,
-
Nombre de cycles (epochs) ≈ 7000.
Résultats obtenus:
- Premier cas: Bior3.3
Les résultats de la classification de l’image globale par MLP sont présentés dans le
Tableau III. 34 et les résultats de la classification de l’image globale par RBF sont présentés
dans le Tableau III. 35.
Tableau III. 34. Résultats de la classification neuronale (MLP) de l’image globale utilisant Bior3.3.
Résultats Image
Globale (MLP)
Anormale-1
Anormale-2
Normale
Taux
d’Apprentissage
100 %
100 %
100 %
Taux de
Généralisation
85 %
100 %
100 %
Tableau III. 35. Résultats de la classification neuronale (RBF) de l’image globale utilisant Bior3.3.
Résultats Image
Globale(RBF)
Anormale-1
Anormale-2
Normale
Taux
d’Apprentissage
100 %
100 %
100 %
Taux de
Généralisation
87.5 %
100 %
100 %
117
- Deuxième cas: Bior3.9
Les résultats de la classification de l’image globale par MLP sont présentés dans le
Tableau III. 36 et les résultats de la classification de l’image globale par RBF sont présentés
dans le Tableau III. 37.
Tableau III. 36. Résultats de la classification neuronale (MLP) de l’image globale utilisant Bior3.9.
Résultats Image
Globale (MLP)
Anormale-1
Anormale-2
Normale
Taux
d’Apprentissage
100 %
100 %
100 %
Taux de
Généralisation
87.5 %
100 %
100 %
Tableau III. 37. Résultats de la classification neuronale (RBF) de l’image globale utilisant Bior3.9.
Résultats Image
Globale(RBF)
Anormale-1
Anormale-2
Normale
Taux
d’Apprentissage
100 %
100 %
100 %
Taux de
Généralisation
87.5 %
100 %
100 %
III. 3. 4. Synthèse
Les résultats obtenus dans cette étude de cas se résument en deux points importants:
- les résultats obtenus de l’étape de classification de l’image globale tant en
apprentissage qu’en généralisation s’expriment avec des taux de
généralisation très élevés, avec un léger avantage d’utilisation de la
transformée en ondelettes Bior3.9 (par rapport à Bior 3.3),
- ces résultats sont encourageants en ce qui concerne la faisabilité de
l’application de la méthode proposée à la détection et la classification de
signaux réels. Cependant, la simplicité de cette étude (de cas) ne permet pas,
à ce stade, de statuer sur les performances de l’approche dans le cas d’une
application réelle de celle-ci. En effet, des expérimentations plus poussées
sont nécessaires.
118
III. 4. CONCLUSION
Dans ce Chapitre, nous avons présenté la mise en œuvre et la comparaison des
différents SHM proposés à travers deux études de cas (applications): la première relevant du
domaine biomédical et la seconde simulant une application industrielle.
Concernant l’application biomédicale, les résultats obtenus, dans cette étude, se
résument principalement de la façon suivante:
Concernant les résultats de la classification:
Les moyennes des taux de généralisation dans le cas de la classification du signal par
RBF (élaboré par le 1er protocole) de l’image globale (élaborée par le 2ème protocole et le 3ème
protocole) par MLP ou RBF et de l’image subdivisée (élaboré par le 2ème protocole) par MLP
ou RBF ne dépassent pas les 50% dans tous les cas, présentant ainsi des taux insuffisants.
Ainsi les structures neuronales simples ne permettent pas d'obtenir des performances
suffisantes. Afin d’améliorer ces taux, l’exploitation de l’aspect complémentaire des
classifieurs s’avère nécessaire.
Cependant, la meilleure moyenne des taux de généralisation est obtenue dans le cas de
la classification du signal moyenné (élaboré par le 1er protocole) par le réseau RBF et les
moyennes les plus basses sont obtenues dans le cas de la classification de l’image subdivisée
(élaborée par le 2ème protocole) dans les deux cas de classification MLP et RBF, nous pensons
que ceci est dû principalement à la subdivision proposée, en fait, une subdivision plus
adéquate devrait être mise en œuvre afin de remédier à ce problème.
Par ailleurs, la classification du signal moyenné par le réseau RBF permet une
meilleure reconnaissance de la classe Rétro-Cochléaire, la classification de l’image globale
par le réseau MLP permet une meilleure reconnaissance de la classe Endo-Cochléaire et la
classification de l’image subdivisée par le réseau RBF permet une meilleur reconnaissance de
la classe Normale. Ceci suggère qu’il faudrait probablement l’exploitation, dans le SHM, des
trois représentations au lieu de deux.
Cependant, si ces résultats (obtenus à partir de l’utilisation individuelle de chaque
modèle neuronal comme classifieur) ne correspondent pas aux taux de classification pouvant
être jugés comme acceptables (taux de bonne classification supérieure à 75%), ils permettent
néanmoins de dégager quelques tendances se résumant ainsi:
- notre choix d’une architecture plus complexe fusionnant les réponses issues des
classifieurs individuels (plus simples) semble pertinente,
119
- le choix de deux classifieurs, l’un basé sur un apprentissage global (MLP) et l’autre
basé sur un apprentissage local (RBF) semble aussi trouver une certaine pertinence.
En effet, le modèle MLP semble plus adapté à la classification à partir d’une
représentation ‘‘Image Globale’’ alors que le modèle RBF correspondrait plutôt mieux
à la classification à partir de la représentation ‘‘Image Subdivisée’’.
Les avantages de la méthode floue proposée pour la de prise de décisions, à travers le
Système Flou Primaire (SFP) et le Système Flou Final (SFF), sont:
- l’exploitation par le SFP des aspects redondant et complémentaire de la double
classification dans la délivrance d’un diagnostic primaire,
- l’exploitation par le SFF d’un Paramètre de Confiance (PC) et les résultats du
diagnostic primaire, délivrant un diagnostic final avec un Indice de Confiance de la
décision (IC) associé.
Les résultats obtenus dans le cas de l’application industrielle sont encourageants en ce
qui concerne la faisabilité de l’application de la méthode proposée à la détection et à la
classification de signaux réels. Cependant, la simplicité de cette étude (de cas) ne permet pas,
à ce stade, de statuer sur les performances de l’approche dans le cas d’une application réelle
de celle-ci. En effet, des expérimentations plus poussées sont nécessaires.
Enfin, un autre aspect intéressant et potentiellement prometteur de la méthodologie
proposée est lié à la nature à la fois modulaire et neuronale permettant une adaptation
relativement aisée de celle-ci aux différents domaines d’applications (biomédical, industriel,
etc …).
120
CONCLUSION GENERALE
121
122
Un Systèmes d’Aide au Diagnostic (SAD) peut être vu comme étant composé d’un
module d’extraction (de représentation) de la connaissance, d’un étage de classification, et
d’un étage de prise de décisions. Ainsi, à partir d’un ensemble de symptômes, un SAD doit
être capable de détecter et identifier une ou plusieurs défaillances en associant un Indice de
Confiance de la décision (IC) à la réponse délivrée.
Une étude d’un ensemble d’approches visant l’élaboration d’un tel SAD, basées sur
l’Intelligence Artificielle et sur une hybridation de techniques issues de ce domaine
(impliquant les Réseaux de Neurones et la Logique Floue) a été effectuée. Ces approches ont
l’avantage de ne pas nécessiter la connaissance d’un modèle exact: seule la disponibilité de
données est nécessaire (pour l’apprentissage).
Par ailleurs, l’utilisation de plusieurs représentations de la connaissance à la fois
(signal, image, …) permet d’exploiter la richesse (de l’information) et la complémentarité de
ces différentes représentations de la connaissance. Aussi, la multiple classification, exploitée
par l’architecture proposée, tient compte de l’aspect redondant (dans cette multiple
classification) et/ou complémentaire des symptômes et agit au bénéfice d’une augmentation
de l’indice de confiance associé au diagnostic délivré.
Nous nous sommes alors proposé la validation de cette méthodologie globale d’aide au
diagnostic à travers une architecture réduite basée sur une double représentation de la
connaissance, une double classification (une seule source d’information, deux modules de
représentation de la connaissance, deux modules de classification) et un module de prise de
décisions (basé sur la logique floue).
123
Cette architecture réduite a été ensuite développée (développement logiciel) et
implémentée sous forme de plusieurs variantes. Sept Systèmes Hybrides Modulaires ont été
comparés dans le cadre d’une étude de cas relevant du domaine biomédical.
Concernant cette étude, les résultats obtenus conduisent aux constats suivants:
Les moyennes des taux de généralisation dans le cas de la classification par les deux
structures neuronales simples (RBF et MLP) sont faibles et confirment la pertinence de
l’exploitation de l’aspect complémentaire des classifieurs utilisés.
La classification du signal moyenné par le réseau RBF permet une meilleure
reconnaissance de la classe Rétro-Cochléaire, celle de l’image globale par le réseau MLP
permet une meilleure reconnaissance de la classe Endo-Cochléaire et la classification de
l’image subdivisée par le réseau RBF permet une meilleur reconnaissance de la classe
Normale. Ceci conduit à la piste de l’exploitation, dans le SHM, des trois représentations au
lieu de deux.
Cependant, l’apport complémentaire des deux classifieurs utilisés a été confirmé par
les résultats obtenus, c-à-d, les exemples bien classés par l’un des classifieurs ne sont pas tous
nécessairement les mêmes que ceux bien classés par l’autre classifieur.
Les avantages de la méthode floue proposée pour la prise de décisions, à travers le
Système Flou Primaire (SFP) et le Système Flou Final (SFF) ont été observés:
-
l’exploitation par le SFP des aspects redondant et complémentaire de la double
classification dans la délivrance d’un diagnostic primaire,
-
l’exploitation par le SFF d’un Paramètre de Confiance (PC) et les résultats du
diagnostic primaire, délivrant un diagnostic final avec un Indice de Confiance de
la décision (IC) associé.
La comparaison, pour chaque classe, entre la moyenne des taux de généralisation
donnés par les différents classifieurs, la moyenne des taux de généralisation donnés par les
différents SFP et la moyenne des taux de généralisation donnés par les différents SFF montre
que:
-
dans le cas de la classe Rétro-Cochélaire, la moyenne des taux de généralisation des
classifieurs, des SFP et des SFF sont comparables,
-
dans le cas des deux classes Endo-Cochléaire et Normale, la moyenne des taux de
généralisation des SFP permet une amélioration par rapport à la moyenne des taux
de généralisation des classifieurs et la moyenne des taux de généralisation des SFF
permet une amélioration par rapport à la moyenne des taux de généralisation des
SFP. Ainsi, la mise en place du SHM permet d’améliorer en moyenne le taux de
124
généralisation particulièrement dans le cas de la classe Endo-Cochléaire (+ 17%) et
dans le cas de la classe Normale (+ 13%).
Finalement, les résultats obtenus dans les cas des systèmes SHM-1 et SHM-2 semble
confirmer la pertinence du seuillage utilisé dans le 3ème protocole3 (par rapport au seuillage
utilisé dans le 2ème protocole4): notamment en ce qui concerne la classe EC, la représentation
‘‘Image Globale’’ issue du 3ème protocole semble plus adéquate que les autres représentations
(conduisant à un taux de bonne classification d’environ 60%).
Les résultats obtenus dans le cas de l’application industrielle sont encourageants.
Cependant, avant de conclure en la pertinence de l’approche proposée pour la détection et la
classification des dysfonctionnements d’une machine tournante réelle, il est nécessaire de
mettre en œuvre des études plus poussées.
Enfin, il ne faut pas oublier un autre aspect intéressant de la méthodologie proposée lié
à la nature à la fois modulaire et neuronale permettant une adaptation relativement aisée de
l’architecture hybride modulaire proposée aux différentes applications relevant des domaines
variés (biomédical, industriel, etc …).
Avant de présenter les perspectives du travail de recherche présenté, il est intéressant
de situer celui-ci, et plus particulièrement le volet lié aux signaux PEA, par rapport aux autres
travaux du domaine.
En effet, en ce qui concerne les signaux PEA, plusieurs approches ont été développées.
La plupart des ces approches se concentrent sur le traitement de la représentation signal. Les
travaux élaborés dans [WOOD 83], [PETE 86], [OZDA 90], [SINI 93], [PIAT 95], [DON 97],
[VANN 02] se sont focalisés sur deux points importants pour l’analyse, l’évaluation, et
l’identification des PEA à savoir: sur le traitement des signaux PEA ou bien sur la
détermination des pics des PEA. Aussi un certain nombre de travaux ont concerné le
traitement des signaux PEA. Plusieurs travaux, se basant sur des approches statistiques ont été
publiés (par exemple, celles passées en revue et proposées dans [DOBI 93]). D’autres
approches, se basant sur des méthodes d’identification dans le domaine temporel, exploitant la
corrélation entre deux ‘‘traces’’ de PEA [PETE 86], [OZDA 90]. Une autre méthode
d’identification, développée dans [SINI 93], exploite le signal moyenné des PEA par
évaluation des coefficients d’auto-corrélation.
3
4
Conversion signal à image à partir d’une transformée en ondelettes d’un signal (temps fréquence).
Conversion signal à image à partir d’une surface (temps-temps).
125
Par ailleurs, partant du principe qu’un signal PEA comprend cinq ondes particulières
(I à V), une autre manière de traitement de l’information revient à traiter les pics qui
composent ce signal. Ainsi, plusieurs méthodes d’identification des pics ont été alors
proposées: se basant sur la reconnaissance des formes [MADH 86], [GRÖN 94], [VANN 02],
sur le filtrage passe bande [PRAT 89], [DELG 94], [GRÖN 94], sur les systèmes experts, sur
les réseaux de neurones [GILS 94], [TIAN 97], [POPE 99], sur la logique floue [PIAT 95], ou
sur la transformée en ondelettes [POPE 99], [BRAD 04].
Par rapport à ces travaux, dans notre travail nous avons plutôt opté pour un traitement
des signaux PEA en s’intéressant non seulement à leur représentation signal mais aussi à leur
représentation image. Aussi nous avons opté pour des méthodes de reconnaissance de formes
basées sur les réseaux de neurones pour l’identification des PEA.
Notre motivation pour la représentation image repose en fait sur deux points. D’une
part que le temps (ou la fréquence) n’est pas toujours la variable qui caractérise les
phénomènes étudiés conduisant à la nécessité d’exploitation d’autres types de représentations
de la connaissance (autre que la représentation signal) notamment celle de l’image où l’on
exploite la forme. D’autre part, le fait que les experts peuvent utiliser plusieurs informations
(connaissances), sous différentes formes, données qualitatives ou quantitatives, signal, image,
pour élaborer leurs diagnostics. Ce qui nous a conduit à l’exploitation simultanée d’une
représentation signal et sa représentation image dans notre méthodologie.
Concernant la classification, plusieurs travaux utilisant des structures neuronales,
comme dans notre travail, ont été développés [PRAD 96], [KALA 95], [WILS 00], [VUCK
02], [BELL 03]. Par rapport à ceux-ci dans notre travail nous proposons une double
classification conduisant à un problème de combinaison (prise de décisions à partir) de deux
classifieurs. Cette problématique a été traitée dans plusieurs travaux de recherches et
notamment dans [WANA 99], [KARR 04]. En effet, en optant pour une multiple
classification utilisant plusieurs modèles de classification, l’une des solutions usuelles
consiste à choisir le modèle de classification donnant le meilleur résultat. Dans notre travail,
nous avons utilisé à la fois la redondance et la complémentarité des modèles de classification
utilisés.
Finalement dans notre travail, nous avons proposé l’exploitation d’un Paramètre de
Confiance dans cette prise de décisions afin de donner non seulement la classe identifiée mais
aussi un Indice de Confiance (IC) sur cette identification.
Pour ce qui concerne les perspectives de ce travail, deux groupes de travaux sont
envisagés. Le premier est lié aux aspects ‘‘représentation de la connaissance’’ et
126
‘‘classification’’. Concernant la ‘‘représentation’’, une piste intéressante est l’exploitation (la
prise en compte d’autres attributs) d’image (contour, texture, etc …). Concernant la
‘‘classification’’, une piste issue de l’analyse des résultats présentés est le passage à un étage
de classification constitué de 3 classifieurs exploitant trois représentations différentes de
l’information d’entrée (au lieu de deux).
Finalement, une dernière piste est celle de reconsidérer la manière de la prise en
compte des imagettes résultantes d’une subdivision. Il serait intéressant de pondérer
l’influence des imagettes dans la construction du vecteur d’entrée des classifieurs: l’idée
émanant du fait que les défaillances se reflètent plutôt dans certaines parties de l’image
initiale et non pas nécessairement dans toute l’image.
En ce qui concerne le second groupe des travaux en perspective, il est lié à l’étape de
décision. Une première alternative concerne l’affinement des règles floues des deux systèmes
floues (SFP et SFF).
Une autre alternative intéressante pour des travaux futurs concernerait, l’investigation
dans les aspects relatifs aux différentes techniques de fusion des informations issues des
classifieurs neuronaux (réseaux de neurones flous, les réseaux de neurones basés sur la théorie
de la résonance adaptative, …) [KITT 98], [WANA 99], [AZOU 02], [LAI 04].
127
128
REFERENCES BIBLIOGRAPHIQUES
[AAMO 94]
Aamodt and E. Plaza. “Case-Based Reasoning: Foundational Issues, Methodological
Variations. and System Approaches”, AI Communications, IOS Press, vol. 7:1, pp.
39-59, 1994.
[AGUI 99]
Aguilar-Martin J., "Knowledge-based supervision and diagnosis of complex
process." IEEE International Symposium on Intelligent Control, Intelligent Systems
and Semiotics (151'99), Cambridge, USA, pp. 225-230, Septembre 1999.
[AZOU 02]
Azouaoui, O., Chohra, A.: Soft Computing Based Pattern Classifiers for the Obstacle
Avoidance Behavior of Intelligent Autonomous Vehicles (IAV). Int. J. of Applied
Intelligence, Kluwer Academic Publishers, 16, no. 3, 249-271, 2002.
[BALA 97]
Balakrishnan, K., Honavar, V.: Intelligent Diagnosis Systems. Technical Report,
Iowa State University, Ames, Iowa 50011-1040, U.S.A (1997).
[BARR 02]
M. Barret, J. Tomczak, and K. Madani, ‘‘A Wavelet Based Technique for
Mechanical Fault Detection and Diagnosis’’, Workshop on Advanced Control and
Diagnosis, 2002.
[BELL 03]
A.-S. Bellanger-Dujardin, ‘‘Contribution à l’étude de structures neuronales pour la
classification de signatures: application au diagnostic de pannes des systèmes
industriels et à l’aide au diagnostic médical’’, Thèse, Université Paris XII, 08
Décembre 2003.
[BEZD 81]
Bezdek J.C., "Pattern recognition with fuzzy objective algorithms." Plenum
Publishing Corporation, New York, 1981.
[BRAD 04]
Bradley, A.P., Wilson W.J.: On Wavelet Analysis of Auditory Evoked Potentials.
Clinical Neurophysiology, 115, (2004) 1114-1128.
[CASI 03]
Casimir R., Diagnostic des défauts des machines asynchrones par reconnaissance des
formes. Thèse de doctorat de l'École Central de Lyon, 2003.
[CASS 97]
Cassar J. P., Staroswiecki M., "A structural approach for the design of failure
detection and identification systems". Proceedings IFAC/IFIP/IMACS Conference
on Control of Industrial Processe, Belfort, France, pp. 329-334, 1997.
[CHAT 93]
Chatain J. N., Diagnostic par systèmes experts. Hermes, Paris, 1993.
[CHEN 89]
Chen S. Billings S. A. Luo W. Orthogonal least squares methods and their
application to non-linear system identification. Int J. Control vol 50 n°5 pp. 18731896. 1989.
[CHEN 91]
Chen S. Cowan S. F. N. Grant P. M. Orthogonal least squares learning algorithm for
radial basis function networks IEEE Trans. Neural Networks. Vol 2 n°2. pp. 302309. 1991.
129
[CHOH 99]
A. Chohra, ‘‘Planification et contrôle de la navigation des Véhicules Autonomes
Intelligents (VAI) en environnements dynamiques’’, Thèse, LTDS/ENP &
LRIA/CDTA, Ecole Nationale Polytechnique d’Alger, Algérie, 16 Mars 1999.
[CICH 93]
Cichocki A. Unbehauen R. Neural networks for optimisation and signal processing.
Ed. J. Willey & sons. 1993.
[CILI 89]
Ciliz, M. K. and C. Isik. "Fuzzy Rule-Based Motion Controller for an Autonomous
Mobile Robot."Robotica, Vol. 7, pp. 37-42,1989.
[CORD 00]
Cordier M.-O., Dague P., Dumas M., Lévy F., Montmain J., Staroswiecki M. et
Travé-Massuyès L., "AI and Automatic Control Theory approaches of modelbased
diagnosis: links and underlying hypotheses", Safeprocess'2000, Budapest, pp. 274-279, 2000.
[CRAN 96]
Cranor, L. (1996). Declared-strategy voting: an instrument for group decisionmaking. Phd thesis, Washington University.
[DAGU 01]
Dague P., "Théorie logique d.u diagnostic à base de modèles". Chapitre 1 dans
Diagnostic, intelligence artificielle et reconnaissance des formes. Hermes, Paris,
2001.
[DALY 79]
Daly, K C., Gai, E., Harrison, J V., Generalised likelihood test for FDI in redundant
sensor configuration. Journal of Guidance and Control, Vol. 2, N° 1, p 9-17, 1979.
[DECK 77]
Deckert, J C., Desai, M N., Deyst, J J., Willsky, A S., F-8 DFBW sensor failure
identification using analytic redundancy. IEEE Transactions on Automatic Control,
Vol. 22, No. 5, p 795-803, 1977.
[DELG 94]
Delgado RE, Ozdamar O. Automated auditory brainstem response interpretation.
IEEE-EMB Mag April/ May 1994:227–37.
[DESA 76]
Desai, M N., Deckert, J C., Deyst, J J., Willsky, A S., Chow, E Y., Dual-redundant
sensor FDI techniques applied to the NASA F8C-DFBW aircraft.AIAA Guidance
and Control Conference, San Diego (California, USA), Vol. 1, p 502- 513, 1976.
[DOBI 93]
Dobie RA. Objective response detection. Ear Hear 1993;14:31–5.
[DON 97]
Don, M., Masuda, A., Nelson, R., Brackmann, D.: Successful Detection of Small
Acoustic Tumors using the Stacked Derived-Band Auditory Brain Stem Response
Amplitude. The American Journal of Otology 18, 5, (1997) 608-621.
[DUDA 01]
Duda R., Hart P., Stork D., "Chapter 4: Nonparametric Techniques", dans Pattern
Classification, Second Edition, Wiley-Interscience, 2001.
[EGMO 02]
Egmont-Petersen, M., De Ridder, D., Handels, H.: Image Processing with Neural
Networks – A Review. Pattern Recognition, 35, 2279-2301, 2002.
130
[ESCO 01]
Escobet T., Travé-Massuyès L., Tornil S., Quevedo J., "Fault detection of a gas
turbine fuel actuator based on qualitative causal models." European ContraI
Conference (ECC'01), Porto, Portugal, pp. 2741-2746, Septembre 2001.
[FARR 85]
Farreny H., Prade H.: Tackling Uncertainty and Imprecision in Robotics. 3rd Int.
Symposium on Robotics Research, (1985) 85-91.
[FISH 36]
Fisher R. A., "The use of multiple measurements in taxonomie problems". Annals of
Eugenics, Vol. 7, pp 179 - 188, 1936.
[FRAN 89]
Frank P. M., Wünnenberg J., "Robust fault diagnosis using unknown input observer
schemes", en: Patton R. J., Frank P.M., Clark R.N. (Eds.). Fault diagnosis in dynamic
systems - theory and applications. Prentice Hall, London, 1989.
[FREE 92]
Freeman, J. A. and Skapura. D. M. Neural Networks: Algorithms, Applications, and
Programming Techniques. Addison-Wesley, New York, 1992.
[GENT 83]
D. Gentner, “Structure Mapping: A Theorotical Framework of Analogy”, Cognitive
Science, Vol. 7, 1983, pp. 155-170.
[GERT 98]
Gertler J., Fault Detection and Diagnosis in Engineering Systems. Marcel Dekker,
New York, 1998.
[GILS 94]
Gils van MJ, Cluitmans PJM. Automatic peak identification in auditory evoked
potentials with the use of artificial neural networks. In: Proceedings 16th Annual
International Conference, IEEE-EMBS 1994. IEEE Press, ISBN 0-7803-2050-6.
[GONZ 02]
Gonzalez, R.C., Woods, R.E.: Digital Image Processing. 2nd Edition Prentice-Hall
(2002).
[GRON 94]
Grönfors T. Computer analysis of auditory brainstem responses by using advanced
pattern recognition. J Med Syst 1994;18:191–9.
[HAYK 94]
[HAYK 99]
Haykin S. Neural Networks. A comprehensive foundation. IEEE Press. 1994.
Haykin, S.: Neural Networks: A Comprehensive Foundation, 2nd Ed. Prentice-Hall
(1999).
[HORN 89]
Hornik, k., Stinchcombe, M. White, H. ‘‘Multilayer Feedforward Networks are
Universal Approximators’’ Neural Networks, vol. 2, 1989, pp. 359-366.
[ISER 93]
Isermann R., "Fault diagnosis of machines via parameter estimation and knowledge
processing", Automatica, Vol. 29, N° 4, pp. 815-835, 1993.
[ISER 97]
Isermann R., "Supervision, Fault Detection and Fault Diagnosis Methods - An
introduction", Control Eng. Practice, Vol. 5, N° 5, pp. 639-652, 1997.
[JAIN 99]
Jain A.K., Murty M.N., Flynn P.J., "Data clustering: A review." ACM Computing
Surveys, Vol. 31, No. 3, September 1999.
131
[JI 97]
Ji, C. and Ma, S. (1997). Combinations of weak classiers. Special Issue of Neural
Networks and Pattern Recognition, IEEE Transactions on Neural Networks,
8(1):32{42.
[JOYC 94]
Joyce D., ‘‘Control critical controls critically’’. International Food Hygiene, 5(2), 2529, 1994.
[KALA 95]
Kalayci T, Ozdamar O. Wavelet preprocessing for automated neural network
detection of EEG spikes. IEEE Eng Med Biol Mag 1995;16:0–166.
[KARR 04]
Karray, F. O., De Silva, C.: Soft Computing and Intelligent Systems Design, Theory,
Tools and Applications. Addison Wesley, ISBN 0-321-11617-8, Pearson Ed. Limited
(2004).
[KAUF 90]
Kaufman L., Rousseeuw P.J., Finding Groups in Data: An Introduction to Cluster
Analysis, Wiley, New York, 1990.
[KITT 98]
Kittler, J., M. Hatef, R. P. W. Duin, and J. Matas, ‘‘On Combining Classifiers’’,
IEEE Trans. Pattern Analysis and Machine Int., Vol. 20, No. 3, pp. 226-239, 1998.
[KOSK 92]
Kosko, B. Neural Networks and Fuzzy Systems. University of Southem Califomia,
Prentice Hall, A Simon & Schuster Company, Englewood Cliffs, New Jersey 07632,
1992.
[KUIP 86]
Kuipers B., "Qualitative simulation", Artificial Intelligence, Vol. 29, N° 3, pp. 289338, 1986.
[LAI 04]
Lai, C., D. M. J. Tax, R. P. W. Duin, E. Pekalska, and P. Paclik, ‘‘A Study on
Combining Image Representations for Image Classification and Retrieval’’,
International Journal of Pattern Recognition and Artificial Intelligence, Vol. 18, No.
5, pp. 867-890, World Scientific Publishing Compagny, 2004.
[LAM 97]
Lam, L. and Suen, C. (1997). Application of majority voting to pattern rcognition: an
analysis of its behavior and performance. IEEE Transactions on System, Man, and
Cybernetics, Part A: Systems and Humans, 27(5):553-568.
[LEE 90]
Lee, C.C.: Fuzzy Logic in Control Systems: Fuzzy Logic Controller – Part I & Part
II. IEEE Trans. On Systems, Man, and Cybernetics, 20, no. 2, (1990) 404-435.
[MACG 95]
MacGregor J. F., Kourti T., "Statistical process control of multivariate processes."
ControlEngineeringPractice,Vol. 3, N° 3, pp. 403-414, 1995.
[MACQ 67]
MacQueen J., "Some methods for classification and analysis of multivariate
observations." Proceedings of the 5th Berkeley Symposium on Mathematical
Statistics and Probability, Vol. 1, University of California, Berkeley, USA, pp. 281297, 1967.
132
[MADH 86]
[MAMD 77]
Madhavan GP, de Bruin H, Upton ARM, Jernigan ME. Classification of brainstem
auditory evoked potentials by syntactic methods. Electroencephalogr Clin
Neurophysiol 1986;65:289–96.
Mamdani E., 3application of fuzzy logic to approximate reasoning using linguistic
systems." Fuzzy sets and systems, vol. 26, pp. 1182-1191, 1977.
[MARI 03]
Marie-Joseph L, Méthodologie de diagnostique appliquée à la maintenance
préventive d'unités de production d'électricité en sites isolés.Thèse de doctorat de
l'Université des Antilles et de la Guyane, 2003.
[MENE 98]
Meneganti, M., Saviello, F.S., Tagliaferri, R.: Fuzzy Neural Networks for
Classification and Detection of Anomalies. IEEE Transactions on Neural Networks,
9, No. 5, (1998) 848-861.
[MICH 94]
Michie D., Spiegelhalter D.J., Taylor c.c., Machine Learning, Neural and Statistical
Classification, Ellis Horwood series in Artificial Intelligence, February, 1994.
[MOOD 89]
Moody J. Darken C. J. Fast learning in networks of locally-tuned processing units.
Neural Computation. Vol 1. pp. 281-294. 1989.
[MOTS 87]
Motsh J. F., ‘La dynamique temporelle du tronc cérébral: receuil, extraction, et
analyse optimale des potentiels évoqués auditifs du tronc cérébral’, PhD Thesis,
Paris-XII University, 1987.
[MURR 97]
R. Murray-Smith and T. A. Johansen, ‘‘Multiple Model Approaches to Modelling
and Control’’, Taylor & Francis Publishers, 1997.
[MUSA 92]
Musavi M. T. Ahmed W. Chan K. H. Faris K. B. Hummels D. M. On the training of
radial basis function classifiers. Neural Networks Vol 5 pp. 595-603. 1993.
[NOMI 94]
Nomikos P., MacGrego.r Jo, "Monitoring batch processes using multiway principal
component analysis." American Institute of Chemical Engineers Journal, Vol. 40, N°
8, pp.1361-1375, 1994.
[OZDA 90]
Ozdamar O, Delgado RE, Eilers RE, Widen JE. Computer methods for on-line
hearing testing with auditory brainstem responses. Ear Hear 1990;11(6):417–29.
[PALM 05]
Palmero, G.I.S., Santamaria, J.J., de la Torre, E.J.M., Gonzalez, J.R.P.: Fault
Detection and Fuzzy Rule Extraction in AC Motors by a Neuro-Fuzzy ART-Based
System. Engineering Applications of Artificial Intelligence, 18, Elsevier, (2005) 867874.
[PEDR 88]
Pedrycz, W. Fuzzy Control and Fuzzy Systems. John Wiley & Sons Inc., 1988.
[PETE 86]
Peters JG. The ALGO-1: an automated infant hearing screener utilizing advanced
evoked response technology. Hear J 1986;39:25–30.
133
[PIAT 95]
Piater, J.H., Stuchlik, F., von Specht, H., Mühler, R.: Fuzzy Sets for Feature
Identification in Biomedical Signals with Self-Assessment of Reliability: An
Adaptable Algorithm Modeling Human Procedure in BAEP Analysis. Comput. and
Biomedical Resear., 28, (1995) 335-353.
[PIAT 99]
Justus H. Piater, Edward M. Riseman and Paul E. Utgoff (1999), ‘‘Interactively
Training Pixel Classifiers’’, International Journal of Pattern Recognition and
Artificial Intelligence 13 (2), pp. 171-194.
[POPE 99]
Popescu M, Papadimitriou S, Karamitsos D, Bezerianos A. Adaptive denoising and
multiscale detection of the V wave in brainstem auditory evoked potentials. Audiol
Neurootol 1999;4:38–50.
[POTT 77]
Potter, J E., Suman, M C., Thresholdless redundancy management with arrays of
skewed instruments . Agardograph 224, Integrity in Electronic flight control systems,
p 15.1-15.24, 1977.
[PRAD 96]
Pradhan N, Sadasivan PK, Arunodaya GR. Detection of seizure activity in EEG by
an artificial neural network: a preliminary study. Comput Biomed Res
1996;29(4):303–13.
[PRAT 89]
Pratt H, Urbach D, Bleich N. Auditory brainstem evoked potentials peak
identification by finite impulse response digital filters. Audiology 1989;28:272–83.
[RECH 66]
Recht J. L., Failure Mode and Effect. National Safety Council, 1966.
[SCHA 82]
R. Schank, “Dynamic Memory: A Theory of Reminding and Learning in Computer
and People”, Cambridge University Press, 1982.
[SINI 93]
Sininger, Y. S. Auditory brain stem response for objective measures of hearing. Ear
and Hearing 14 (1), pp. 23-30 (1993).
[TAKA 85]
Takagi T., Sugeno M., "Fuzzy identification of systems and its application to
modeling and control." IEEE Transactions on systems, man and cybernetics, Vol. 15,
N° 1, pp. 116-132, 1985.
[TIAN 97]
Tian J, Juhola M, Gro¨nfors T. Latency estimation of auditory brainstem response by
neural networks. Artif Intell Med 1997;10:115–28.
[TRAV 97]
Travé-Massuyès L., Dague P., Guerrin F. (dir.), Le raisonnement qualitatif pour les
sciences de l'ingenieur, Hermes, Paris, 1997.
[TURB 01]
Turban, E., Aronson, J.E.: Decision Support Systems and Intelligent Systems. Int.
Edition, Sixth Edition, Prentice-Hall (2001).
[VANE 02]
Van-Erp, M., Vuurpijl, L., and Schomaker, L. (2002). An overview and comparison
of voting methods for pattern recognition. In 8th International Workshop on
Frontiers in Handwriting Recognition, pages 195{200, Niagara-on-the-Lake,
Ontario.
134
[VANN 02]
Vannier, E., Adam, O., Motsch, J.F.: Objective Detection of Brainstem Auditory
Evoked Potentials with a Priori Information from Higher Presentation Levels.
Artificial Intelligence in Medicine, 25, (2002) 283-301.
[VENK 03]
Venkatasubramanian V., Rengaswamy R., Kavuri S., Yin K., "A review of process
fault detection and diagnosis. Part III: Process history based methods." Computers &
Chemical Engineering, Vol. 27, N° 3, pp. 327- 346, 2003.
[VILL 88]
Villemeur A., Sûreté de fonctionnement des systèmes industriels. Fiabilité Facteurs
humains Informatisation. Eyrolles, 1988.
[VUCK 02]
Vuckovic, A., Radivojevic, V., Chen, A.C.N., Popovic, D.: Automatic Recognition
of Alertness and Drowsiness from EEG by an Artificial Neural Network. Medical
Engineering & Physics, 24 (5), (June 2002) 349-360.
[WANA 99]
Wanas, N., Kamel, M. S., Auda, G., and Karray, F., ‘Feature-based decision
aggregation in modular neural network classifiers’, Pattern Recognition Letters 20,
Elsevier, pp. 1353-1359, 1999.
[WILS 00]
Wilson BJ, Bracewell TD. Alertness monitor using neural networks for EEG
analysis. Proc Neur Net Signal Process X (ISPS) 2000;2:814–20.
[WOLF 03]
Wolf, A., Barbosa, C.H., Monteiro, E.C., Vellasco, M.: Multiple MLP Neural
Networks Applied on the Determination of Segment Limits in ECG Signals. 7th
International Work-Conf. on Artificial and Natural NN, Proc. Part II, Mao, Menorca,
Spain, June 2003, LNCS 2687, Springer-Verlag Berlin Heidelberg, (2003) 607-614.
[WOOD 83]
Woodworth, W., Reisman, S., and Fontaine, A. B. The detection of auditory evoked
responses using a matched filter. IEEE transactions on biomedical Engineering 30
(7), pp. 369-376 (1983).
[YAGE 94]
Yager R. R., Fi/ev D. P., "Chapter 5: Fuzzy system models" dans Essentials of fuzzy
modeling and control. John Wiley &sons, Inc., 1994.
[YAN 05]
Yan, H., Jiang, Y., Zheng, J., Peng, C., Li, Q.: A Multilayer Perceptron-Based
Medical Support System for Heart Disease Diagnosis. Exp. Syst. with App., Elsevier,
(2005) in press.
[ZADE 65]
Zadeh, L. A. "Fuzzy Sets." Information & Control, Vol. 8, pp. 338 353,1965.
[ZADE 73]
Zadeh L., "Outline of a new approach to the analysis of complex ystems and decision
processes." IEEE Transactions on systems, man and cybernetics, MC3, pp. 24-44,
1973.
[ZADE 92]
Zadeh, L.A.: The Calculus of Fuzzy If / Then Rules. AI Expert, (1992) 23-27.
ZADE 96]
Zadeh, L. A. "Fuzzy Logic Computing with Words." IEEE Trans. on Fuzzy Systems,
Vol. 4, No. 2, pp. 103-111, May 1996.
135
[ZHAN 00]
Zhang, G.P.: Neural Networks for Classification: A Survey. IEEE Trans. on Systems,
Man, and Cybernetics – Part C: Applications and Reviews, vol. 30, no. 4, (2000)
451-462.
[ZWIN 95]
Zwingelstein G., Diagnostic des défaillances - Théorie et pratique pour les systèmes
industriels. Traité des Nouvelles Technologies, série Diagnostic et Maintenance.
Hermès, Paris, 1995.
136
ANNEXES
137
138
ANNEXE A: RESEAUX DE NEURONES (RN)
Durant ces dernières décennies, de nouvelles approches basées sur les Réseaux de
Neurones (RN) ont été développé dans le but de résoudre les problèmes des systèmes
complexes réels relatifs à l’optimisation, la modélisation, la prise de décisions, la
classification, l’exploitation de données, et l’approximation de fonctions non-linéaires
(comportements). Inspiré à partir des systèmes nerveux biologiques et de la structure
(architecture) du cerveau, les réseaux de neurones peuvent être vus comme des systèmes de
traitement de l’information (de données) permettant l’élaboration de plusieurs techniques
originales et couvrant un large champ d’applications, basés sur leur propriétés attrayantes
telles que les capacités d’apprentissage et de généralisation [HAYK 99], [ZHAN 00], [EGMO
02].
A. 1. Historique
Brièvement, les premières recherches remontent à la fin du 19ème et au début du 20ème
siècle. Ils consistent en des travaux multidisciplinaires en physique, en psychologie et en
neuro-physiologie par des scientifiques tels Hermann Von Helmholtz, Ernst Mach et Ivan
Pavlov. A cette époque, il s’agissait de théories plutôt générales sans modèle mathématique
précis d’un neurone. La naissance du domaine des réseaux de neurones artificiels remonte aux
années 1940 avec les travaux de Warren McCulloch et Walter Pitts qui ont montré qu’avec de
tels réseaux, on pouvait, en principe, calculer n’importe quelle fonction arithmétique ou
logique. Vers la fin des années 1940, Donald Hebb a ensuite proposé une théorie
fondamentale pour l’apprentissage. La première application concrète des réseaux de neurones
artificiels est survenue vers la fin des années 1950 avec l’invention du réseau dit «perceptron»
par Frank Rosenblatt. Rosenblatt et ses collègues ont construit un réseau et démontré ses
capacités à reconnaître des formes. Malheureusement, il a été démontré par la suite que ce
perceptron simple ne pouvait résoudre qu’une classe limitée de problème. Environ au même
139
moment, Bernard Widrow et Ted Hoff ont proposé un nouvel algorithme d’apprentissage pour
entraîner un réseau adaptatif de neurones linéaires, dont la structure et les capacités sont
similaires au perceptron. Vers la fin des années 1960, un livre publié par Marvin Minsky et
Seymour Papert est venu jeter beaucoup d’ombre sur le domaine des réseaux de neurones.
Entre autres, ces deux auteurs ont démontré les limitations des réseaux développés par
Rosenblatt et Widrow-Hoff. Beaucoup de gens ont été influencés par cette démonstration
qu’ils ont généralement mal interprétée. Ils ont conclu à tort que le domaine des réseaux de
neurones n’était pas intéressant et qu’il fallait cesser de s’y intéresser.
Une révolution survient alors dans le domaine des réseaux de neurones artificiels: une
nouvelle génération de réseaux de neurones, appelé Perceptron Multi-Couches, capables de
traiter avec succès des phénomènes non-linéaires. Le Perceptron Multi-Couches apparaît en
1986 introduit par Rumelhart, et, simultanément, sous une appellation voisine, par Yann Le
Cun. Ce système repose sur l’apprentissage par la rétropropagation du gradient de l’erreur, et
ne possède pas les défauts mis en évidence pas Minsky.
A. 2. Applications
Les réseaux de neurones servent aujourd’hui dans plusieurs applications dans divers
domaines. Par exemple, des auto-pilotes pour avion, ou encore un système de guidage pour
automobile, des systèmes de lecture automatique de chèques bancaires et d’adresses postales.
Des applications ont été élaborées pour le traitement du signal dans différents domaines, par
exemple, un système pour la synthèse de la parole. Des réseaux sont utilisés aussi pour
élaborer des systèmes de vision par ordinateur, pour faire des prévisions sur les marchés
monétaires, pour évaluer le risque financier ou en assurance, pour différents processus
manufacturiers, pour le diagnostic médical, pour l’exploration pétrolière ou gazière, en
robotique, en télécommunication, etc…
A. 3. ‘‘MultiLayer feedforward Perceptron networks’’ (MLP)
Un neurone élémentaire partage l’espace des observations avec un hyperplan séparateur.
Seuls les problèmes où les deux classes linéairement séparables peuvent donc être résolus.
Cette limitation théorique des capacités du perceptron a été un frein à l’avancée des
140
recherches sur les réseaux de neurones. Vers les années 1980 on redécouvre les propriétés
intéressantes des réseaux multicouches entraînés par l’algorithme de la rétropropagation du
gradient.
Un problème de classification à K classes peut être alors résolu avec un perceptron
multicouches. Plusieurs auteurs ont montré en effet qu’un pereceptron multicouches permet
d’approximer une fonction quelconque avec une grande précision à condition qu’il ait au
moins trois couches et suffisamment de neurones [HORN 89].
A. 3. 1. Architecture
Le perceptron multicouches est un réseau orienté de neurones artificiels, organisé en
couches et où l’information se transmet dans un seul sens, de la couche d’entrée vers la
couche de sortie. La Figure A. 1 donne l’exemple d’un réseau contenant une couche d’entrée,
deux couches cachées et une couche de sortie.
Couche d’Entrée
X1
Xj
XM
1
j
Couche Cachée
Y
1
Couche de Sortie
1
W2
kj
1
Y
k
k
W1
ik
O
1
i
O
i
N
O
N
Y
P
M
P
Figure A. 1. Exemple d’architecture d’un MLP.
Chaque neurone élémentaire est connecté à l’ensemble des neurones de la couche qui
suit celle à laquelle il appartient. Dans un problème de classification, le nombre de neurones
en sortie est fonction du codage adopté. Le plus souvent, chaque sortie est dédiée à une classe
donnée.
L’un des problèmes majeurs des réseaux de neurones c’est le choix du nombre de
couches cachées et du nombre de neurones par couche. Ceci se fait souvent de façon ad hoc
141
ou en utilisant quelques règles heuristiques simples. Souvent on procède en essayant diverses
architectures pour un problème donné et en calculant l’erreur de généralisation pour chacune
sur un ensemble de validation. Une solution à ce problème consiste à utiliser des algorithmes
constructifs qui commencent avec une architecture minimale en ajoutant des neurones et des
connexions au fur et à mesure de l’apprentissage. D’autres solutions utilisent plutôt une
technique inverse: à partir d’une architecture complète, ils éliminent certains neurones et/ou
connexions qui semblent non essentiels. D’autres méthodes d’optimisation pour chercher
l’architecture idéale proposent l’utilisation des algorithmes génétiques.
A. 3. 2. Apprentissage
La procédure d’apprentissage se base sur la rétropropagation qui repose sur l’idée de
propager vers les couches internes l’erreur commise en sortie pour modifier les poids. C’est
un apprentissage supervisé, pour cela, on dispose d’un ensemble d’exemples (base
d’apprentissage). Lors de l’apprentissage, on présente les exemples au réseau qui calcule les
sorties correspondante. Ces calculs s’effectuent de proche en proche depuis la couche d’entrée
vers la couche de sortie. L’erreur entre la sortie réelle et la sortie désirée est calculée (somme
quadratique des erreurs sur chaque neurone de sortie). Cette erreur est ensuite rétropropagée
(de la couche de sortie vers la couche cachée et ainsi de suite) à travers le réseau donnant lieu
à une modification des poids entre les couches. Ce processus est réitéré pour chaque exemple
de la base d’apprentissage. Si pour tous les exemples, l’erreur commise est inférieure à un
seuil choisi, on dit alors que le réseau a convergé. L’apprentissage consiste donc à minimiser
l’erreur quadratique commise sur l’ensemble des exemples, par ajustement des poids en
diminuant le gradient.
Pour formaliser, de façon générale, le principe de l’algorithme de rétropropagation (ou
backpropagation) abondamment décrit dans la littérature [CICH 93], prenons un réseau à p
neurones d’entrée et q neurones de sorties tel que le couple ( x(n ), d (n )) désignant la nème
donnée d’entraînement du réseau où: X (n ) = x1 (n )...x p (n )
et d (n ) = d1 (n )...d q (n )
correspondent respectivement aux p entrées et aux q sorties désirées du système.
142
L’algorithme de rétropropagation consiste alors à mesurer l’erreur entre les sorties
désirées d (n) et les sorties observées y (n ) : y (n ) = y1 (n )... y q (n) résultant de la propagation
vers l’avant des entrées X (n ) , et rétropropager cette erreur à travers les couches du réseau en
allant des sorties vers les entrées.
L’algorithme de rétropropagation procède à l’adaptation des poids, neurone par
neurone, en commençant par la couche de sortie. Soit l’erreur observée e j (n ) pour le neurone
de sortie j et la donnée d’entraînement n:
e j (n ) = d j (n ) − y j (n )
où
(A. 1)
d j (n ) correspond à la sortie désirée du neurone j et y j (n ) à sa sortie observée.
Figure A. 2. Sortie d’un neurone en fonction des entrées.
L’objectif de l’algorithme est d’adapter les poids des connexions du réseau de manière à
minimiser la somme des erreurs sur tous les neurones de sortie. Soit E (n ) la somme des
erreurs quadratiques observées sur l’ensemble C des neurones de sortie:
E (n ) =
1
e 2j (n )
∑
2 j∈C
(A. 2)
La sortie y j (n ) du neurone j est définie par:
[
]
⎤
⎡ r
y j (n ) = ϕ v j (n ) = ϕ ⎢∑ w ji (n ) y i (n )⎥
⎦
⎣ i =0
(A. 3)
143
. , voir Figure A. 2, est la fonction d’activation du neurone, v j (n ) est la somme
où ϕ []
pondérée des centres du neurone j, w ji est le poids de la connexion entre le neurone i de la
couche précédente et le neurone j de la couche courante, et y i (n ) est la sortie du neurone i.
On suppose ici que la couche précédente contient r neurones numérotés de 1 à r, que le poids
w j 0 (n ) correspond au biais du neurone j et que l’entrée y 0 (n ) = −1 . L’indice i représentera un
neurone sur la couche précédente par rapport au neurone j, on suppose par ailleurs que cette
couche contient r neurones.
Pour corriger l’erreur observée, il s’agit de modifier le poids w ji (n ) dans le sens opposé
au gradient d (E (n )) d (w ji (n )) de l’erreur, voir Figure A. 3.
Figure A. 3. Descente du gradient.
Et on exprime la variation de poids ∆w ji (n ) sous la forme suivante:
∆wji (n ) = −η
∂E (n )
∂w ji (n )
(A. 4)
avec 0 ≤ η ≤ 1 représentant un taux d’apprentissage ou gain de l’algorithme.
Evaluons maintenant chacun des termes du gradient.
-
Couche de Sortie
La règle dite du “delta” pour la couche de sortie s’exprime par :
∆w ji (n ) = −η
∂E (n )
= ηδ j (n ) y i (n )
∂w ji (n )
(A. 5)
144
avec
δ j (n ) = e j (n ) y j (n)[1 − y j (n )]
(A. 6)
qui correspond à ce qu’on appelle le “gradient local”.
-
Couche d’Entrée
∆w ji (n ) = −η
∂E (n )
= ηδ j (n ) y i (n )
∂w ji (n )
(A. 7)
avec
δ j (n ) = y j (n)[1 − y j (n )]∑ δ k (n )wkj (n )
(A. 8)
k∈C
Sommaire de l’Algorithme de Rétropropagation du Gradient
L’algorithme de rétropropagation standard se résume à la série d’étapes suivantes:
1. initialiser tous les poids à de petites valeurs aléatoires dans l’intervalle [− 1, + 1] ,
2. normaliser les données d’entraînement,
3. pour chaque donnée d’entraînement n:
a) calculer les sorties observées en propageant les entrées vers l’avant,
b) ajuster les poids en rétropropageant l’erreur observée:
w ji (n ) = w ji (n − 1) + ∆w ji (n ) = w ji (n − 1) + ηδ j (n ) y i (n )
[
(A. 9)
]∑δ (n)w (n) si j appartient à
où le “gradient local” est défini par: δ j (n ) = y j (n) 1 − y j (n)
k
kj
k
une couche cachée et δ j (n ) = e j (n ) y j (n)[1 − y j (n )] si j appartient à une couche de sortie, avec
0 ≤ η ≤ 1 représentant le taux d’apprentissage et y i (n ) représentant soit la sortie du neurone i
sur la couche précédente soit l’entrée i autrement.
145
4. Répéter les étapes 3 et 4 jusqu’à ce que la somme des erreurs quadratiques E(n)
soit très proche de l’erreur admissible, c-à-d, l’erreur pour tous les exemples d’entraînement
est réduite à une valeur acceptable [FREE 92].
A. 4. ‘‘Radial Basis Function networks’’ (RBF)
L’approximation de fonctions non linéaires peut également s’effectuer à l’aide d’une
somme de fonctions noyaux. Si ces noyaux sont fixés en largeur et position, la sortie dépend
linéairement des poids. Pour une fonction continue φ d’une variable vectorielle Y , son
estimation par une somme de Nc noyaux s’écrit:
Nc
ϕ (Y ) = w0 + ∑ wi Φ Y − ci
(A.10)
i =1
où φ désigne la fonction noyau, wi les coefficients de pondération et ci le ième noyau.
Cette formulation, très ancienne en reconnaissance des formes (méthode des fenêtres de
Parzen) pour l’estimation des densités de probabilité conditionnelle, est à la base des réseaux
de neurones à fonctions radiales de base ou RBF (Radial Basis Function).
En classification, le modèle de neurones à fonctions radiale de base a été introduit par
plusieurs auteurs comme Moody et Darken [MOOD 89], Musavi et al. [MUSA 1992].
Chaque neurone élémentaire, s’identifie à un noyau dans l’expression (A. 11) il calcule la
distance entre l’entrée et son centre qu’il fait passer ensuite dans une non linéarité Φ (voir
Figure A. 4).
Y1
Calcul de Distance
Y2
Fonction d’Activation
S
|| Y – c||
Y
Centre c
Φ
Yn
Figure A. 4. Neurone élémentaire à noyau.
146
La sortie S du neurone s’écrit finalement sous la forme:
S = Φ( Y − c
)
(A.11)
Dans cette expression, l’opérateur norme est considérée dans sa forme généralisée défini
par:
2
X
(
= XtA X
)
t
(A.12)
où A est une matrice de normalisation définie positive, Si A est la matrice identité, on
retrouve la norme euclidienne.
La sortie du neurone vaut donc:
(
)
1
− ⎞
⎛
t
⎜
S = Φ⎜ (Y − c ) A (Y − c ) 2 ⎟⎟
⎠
⎝
(A.13)
Les noyaux utilisés comme fonction d’activation sont des fonctions définies de ℜ
vers ℜ + , symétriques radialement par rapport à un point (d’où la dénomination de neurones à
fonctions radiales de base) parmi lesquelles on peut citer [CHEN 89]:
Noyau gaussien:
⎛ v2
Φ (v ) = exp⎜⎜ −
2
⎝ 2β
Noyau thin plate
Φ(v ) = v 2 log(v )
noyau multiquadratique
Φ (v ) =
(v
2
+β2
⎞
⎟⎟
⎠
(A. 14)
(A. 15)
)
(A. 16)
Le noyau gaussien est le plus largement répondu. La valeur que prend sa sortie est
d’autant plus importante que l’entrée est plus proche de son centre et elle tend vers zéro
lorsque la distance entrée - centre devient importante. Le paramètre β permet de contrôler la
vitesse de décroissante de la fonction Φ et il conviendra de le choisir de façon judicieuse.
⎛ Y −c
Φ (Y ) = exp⎜ −
⎜
2β 2
⎝
2
⎞
⎟ = exp⎛⎜ − 1 (Y − c )t A (Y − c )⎞⎟
⎟
⎜ 2β 2
⎟
⎠
⎝
⎠
(A.17)
147
A. 4. 1. Architecture
L’architecture d’un réseau RBF s’organise en deux couches seulement: une couche
cachée et une couche de sortie. La première couche, constituée de N c noyaux élémentaires,
effectue une transformation non linéaire de l’espace d’entrée. La couche de sortie, la plupart
du temps constituée d’une fonction d’activation linéaire, calcule une combinaison linéaire des
sorties des noyaux élémentaires, voir Figure A. 5.
c1
Φ
||.||
c2
Φ
||.||
Y
Vecteur
d’entrée
S1
1
w1
S2
.
.
.
.
.
.
S
Σ
F
w Nc
c Nc
||.||
w0
w2
Φ
S Nc
Couche cachée
N c noyaux
Couche
De sortie
Figure A. 5. Exemple d’architecture d’un RBF.
La sortie d’un tel réseau s’exprime sous la forme:
Nc
⎛
S = F ⎜⎜ w0 + ∑ wi Φ ( Y − ci
i =1
⎝
)⎞⎟⎟
⎠
(A.18)
Les utilisations habituelles des réseaux RBF [CHEN 91], [HAYK 94] conservent une
fonction d’activation linéaire en sortie mais l’utilisation d’une fonction non linéaire comme
une sigmoïde est aussi possible.
A. 4. 2. Apprentissage
Les paramètres ajustables dans un réseau RBF:
-
la position des centres ci 1 ≤ i ≤ N c ,
148
-
-l’optimisation du nombre N c de noyaux,
-
le choix des matrices de normalisation Ai (1 < i ≤ N c ) intervenant dans le
calcul de distance,
-
la valeur de l’écart-type β i associés à chaque noyau,
-
Les poids de la couche de sortie w ,
Le type de fonctions noyaux sera toujours fixé avant l’apprentissage et dans le cas de ce
travail, il s’agit de noyaux gaussiens. Différentes stratégies d’apprentissage sont alors
possibles:
Apprentissage Global: pour un nombre de noyaux fixé à priori et une matrice de
normalisation choisie (généralement la matrice identité), cette approche consiste à ajuster
simultanément à l’aide d’un apprentissage supervisé la position des noyaux, l’écart-type
relatif à chaque noyau et les poids en sortie. Ces paramètres (ci , β i , w) sont modifiés
itérativement à l’aide d’un algorithme de gradient pour minimiser une fonction coût de type
moindre carrés par exemple [HAYK 94]. L’initialisation de ces paramètres se fait
généralement de façon aléatoire. Plusieurs auteurs ont montré que ce type d’apprentissage
peut présenter des difficultés de convergence.
Apprentissage Hybride: ce dernier possède plusieurs variantes. Soit on commence par
le positionnement des noyaux et l’optimisation (ou le choix ) de leur nombre et on détermine
ensuite les poids et les matrices de normalisation (les noyaux étant immobiles) par
apprentissage à l’aide d’un algorithme de type gradient. Soit l’apprentissage des deux couches
s’effectue séparément et dans un premier temps, on choisit les paramètres des deux couches
(position des noyaux, nombre des noyaux, écart –type, et matrice de normalisation) puis on
procède au calcul des poids de la couche de sortie. Notons que l’apprentissage des poids peut
s’effectuer itérativement en utilisant la règle delta ou delta généralisée.
Dans le cadre de ce travail, nous adoptons la procédure d’apprentissage hybride basée
sur:
•
la détermination des paramètres de la première couche (position des noyaux, nombre
des noyaux, écart –type, et matrice de normalisation),
•
l’apprentissage des poids de la couche de sortie utilisant la rétropropagation.
149
150
ANNEXE B: LOGIQUE FLOUE (LF)
B. 1. Historique
Les prémisses de la Logique Floue (LF) sont apparues avant les années 1940, avec les
premières approches, par des chercheurs Américains, du concept d'incertitude. Il a fallu
attendre 1965, pour que le concept de sous ensembles flous soit proposé par L. A. Zadeh
[ZADE 65], automaticien de réputation internationale, professeur à l'université de Berkeley en
Californie, qui a contribué à la modélisation du phénomène sous forme floue, en vue de
pallier les limitations dues aux incertitudes des modèles classiques à équations différentielles.
En 1974, M. Mamdani expérimentait la théorie énoncée par Zadeh sur une chaudière à
vapeur, matériel dont on connaît la complexité, introduisant ainsi la commande floue dans la
régulation d'un processus industriel. Plusieurs applications ont vu alors le jour en Europe,
pour des systèmes parfois très complexes, tel que le système de régulation de fours de
cimenterie réalisé par la société F. L. Smidt-Fuller. Grâce au chercheur Japonais M. Sugeno,
la LF était introduite dès 1985 dans les sociétés Japonaises exploitant l'avantage à la fois
technique et commercial de la LF:
•
facilité d'implantation,
•
solution de problèmes multivariables complexes,
•
robustesse vis-à-vis des incertitudes,
•
possibilité d'intégration du savoir d’un expert.
B. 2. Applications
Si les premières applications de la commande floue ont été développées en Europe par
Mamdani, Van Lauta Lemke, Willayes, … dans les années 1975, ce type de commande a été
largement utilisé au Japon à la fin des années 80 et au début des années 90, par exemple sur le
151
métro Sendai (Juillet 1987), dans la conception du lave-linge Aïsaïgo Day Fuzzy de
Matsushita (Février 1990).
Tirant profit d'une évolution de la technologie, l'industrie Japonaise a développé des
produits au grand public à base de LF:
•
appareils électroménagers (lave-linge, aspirateurs, autocuiseurs, etc …),
•
systèmes audio-visuels (appareils de photos autofocus, caméscope à stabilisateur
d'images, photocopieurs, ...),
•
systèmes automobiles embarqués (BVA, ABS, suspension, climatisation, etc …),
•
systèmes autonomes mobiles,
•
systèmes de transport (train, métro, ascenseur, ...),
•
systèmes de conditionnement d'ambiance,
•
systèmes de décision, de diagnostic, et de reconnaissance,
•
systèmes de contrôle/commande dans la plupart des domaines industriels de
production, transformation, et traitement de produit et déchet.
Terminons cette liste par une application, à savoir la commande à distance d'un
hélicoptère sans pilote, pour des opérations de sauvetage ou inspection de sites dangereux,
travail développé par l'équipe du Professeur Sugeno. Ce système intrinsèquement non
linéaire, instable et présentant de fort couplage, est caractérisé par 15 variables d'état et 4
commandes (vitesse et inclinaison des rotors), reçoit des ordres globaux du style: atterrissage,
décollage, vol stabilisé, vol avant, vol arrière, virage à droite, virage à gauche, ....
Un système à base de LF, très structuré hiérarchiquement (2 niveaux de commande, une
douzaine de blocs d'une soixantaine de règles chacun), traite ces ordres pour arriver aux
actions sur les organes de commande de l'hélicoptère, qui vole déjà dans le ciel de Tokyo.
B. 3. Variable Floue
Contrairement aux variables binaires qui sont définies par les deux états « vrai » ou «
faux », les variables floues présentent toute une gradation entre la valeur « vrai » et la valeur «
faux ». Cette dernière idée est vraiment importante parce qu’on définit un intervalle classique
L de réels par ses deux extrémités, disons L = [a, b].
152
B. 4. Notion d’Appartenance Partielle
Dans la théorie des ensembles, un élément appartient ou n’appartient pas à un ensemble.
Cette notion essentielle ne permet cependant pas de rendre compte de situations pourtant
simples et rencontrées fréquemment. La théorie des ensembles flous repose sur la notion
d’appartenance partielle: chaque élément appartient partiellement ou graduellement aux
ensembles flous, voir Figure B. 1.
T
X n’appartient ni à A ni à B
Y appartient totalement à A
Z appartient totalement à B
T appartient partiellement à B
Figure B. 1. Comparaison d’un ensemble classique et d’un ensemble flou.
B. 5. Fonctions d’Appartenance
Un ensemble flou est défini par sa «fonction d’appartenance» qui correspond à la notion
de « fonction caractéristique » en logique classique.
Supposons que nous voulions définir l'ensemble des personnes de « taille moyenne ». En
logique classique, nous conviendrons par exemple que les personnes de taille moyenne sont
celles dont la taille est comprise entre 1,60 m et 1,80 m. La fonction caractéristique de
l'ensemble, (voir Figure B. 2. (a)), donne « 0 » pour les tailles hors de l'intervalle [1,60 m ,
1,80 m] et « 1 » dans cet intervalle. L’ensemble flou des personnes de « taille moyenne» sera
défini par une « fonction d'appartenance» qui diffère d'une fonction caractéristique par le fait
qu’elle peut prendre n'importe quelle valeur dans l'intervalle [0, 1]. A chaque taille possible
correspond un « degré d'appartenance», (voir Figure B. 2. (b)), compris entre 0 et 1.
Plusieurs ensembles flous peuvent être définis sur la même variable, par exemple les
ensembles « taille petite », « taille moyenne» et « taille grande », notions explicitées chacune
par une fonction d'appartenance, voir Figure B. 3.
153
Figure B. 2.(a). Fonction caractéristique.
Figure B. 2.(b). Fonction d’appartenance.
Figure B. 3. Fonctions d’appartenance (ensembles flous).
Cet exemple montre la gradualité qui permet d'introduire la logique floue. Une personne
de 1,80 m appartient à l'ensemble « taille grande» avec un degré 0,3 et à l'ensemble « taille
moyenne» avec un degré de 0,7. En logique classique, le passage de moyen à grand serait
brusque. Une personne de 1,80 m serait par exemple de taille moyenne alors qu’une personne
de 1,81 m serait grande, ce qui choque l'intuition. La variable (par exemple : taille) ainsi que
les termes (par exemple: moyenne, grande) définis par les fonctions d'appartenance portent
respectivement les noms de variable linguistique et de termes linguistiques. Les fonctions
d’appartenance peuvent théoriquement prendre n’importe quelle forme. Toutefois, elles sont
souvent définies par des segments de droites, et dites « linéaires par morceaux ou
trapézoïdales», voir Figure B. 4.
Les fonctions d’appartenance « linéaires par morceaux» sont très utilisées car:
•
elles sont simples,
•
elles comportent des points permettant de définir les zones où la notion est vraie, les
zones où elle est fausse, ce qui simplifie le recueil d'expertise.
154
Figure B. 4. Fonctions d’appartenance linéaires par morceaux.
B. 6. Opérateurs Logiques Flous
Ces opérateurs permettent d’écrire des combinaisons logiques entre notions floues, c'est
à dire de faire des calculs sur des degrés de vérité. Comme pour la logique classique, on peut
définir des opérateurs ET, OU, négation et autres. Il existe de nombreuses variantes dans ces
opérateurs. Cependant, les plus répandus sont ceux dits « de Zadeh » décrits ci-dessous. Dans
ce qui suit, le degré de vérité d’une proposition A sera noté µ ( A) .
B. 6. 1. Intersection
L’opérateur logique correspondant à l’intersection d’ensembles est le ET. Le degré de
vérité de la proposition « A ET B » est le minimum des degrés de vérité de A et de B:
µ ( A ET B ) = MIN (µ ( A), µ (B ))
(C. 1)
B. 6. 2. Union
L'opérateur logique correspondant à l'union d'ensembles est le OU. Le degré de vérité
de la proposition « A OU B » est le maximum des degrés de vérité de A et de B :
155
µ ( A OU B ) = MAX (µ ( A), µ (B ))
(C. 2)
B. 6. 3. Complément
L’opérateur logique correspondant au complément d’un ensemble est la négation.
µ ( NON A) = 1 − µ ( A)
(C. 3)
156
ANNEXE C: APPLICATION BIOMEDICALE
C. 1. Appareil Auditif Humain
C. 1. 1. Appareil Auditif
On peut décomposer l'appareil auditif en trois parties: l'oreille externe, l'oreille moyenne
et l'oreille interne. La Figure C. 1. est une vue d'ensemble du système auditif à laquelle on
pourra se reporter tout au long de cette partie.
Figure C. 1: Anatomie simplifiée d’une oreille.
C. 1. 2. Oreille Externe
On appelle oreille externe, l'ensemble constitué du pavillon et du conduit auditif
externe. Le conduit auditif externe est un conduit musculo-membraneux dans ses deux tiers
externe et osseux dans son tiers interne. Son rôle est de protéger le tympan des agressions
157
mécaniques et de modifier le champ sonore en augmentant la directivité des sons, en
association avec le rôle diffracteur de la tête. L'oreille externe est responsable d'un gain auditif
substantiel sur les hautes fréquences.
C. 1. 3. Oreille Moyenne
L'oreille moyenne comprend le tympan et la chaîne ossiculaire - ou osselets (marteau,
enclume, étrier) - logés dans un espace osseux du rocher appelé caisse du tympan. C'est un
espace rempli d'air qui communique avec le pharynx par l'intermédiaire de la trompe
d'Eustache, un conduit musculo-membraneux. Le rôle de ce conduit est de maintenir
l'équipression de part et d'autre du tympan grâce à son ouverture régulière au cours des
mouvements de bâillement ou de déglutition. Il permet ainsi la vibration optimale de la chaîne
tympano-ossiculaire.
La membrane tympanique est une structure élastique, fibrillaire dans laquelle est inclus
le marteau par sa longue apophyse, encore appelée manche du marteau. La tête du marteau est
articulée avec l'enclume. Il est suspendu dans l'oreille moyenne par un puissant ligament qui
s'insère sur sa courte apophyse, sa longue apophyse est en relation avec l'étrier. L'étrier, quant
à lui, est constitué de deux branches, et d'une partie plate - ou platine qui repose dans la
fenêtre ovale, par laquelle il est en contact avec l'oreille interne.
Le développement fonctionnel de l'oreille moyenne, qui a commencé chez les
amphibiens, a considérablement amélioré la transmission sonore en agissant comme un
adaptateur d'impédance. Cet effet est accompli principalement à travers la grande différence
de surface entre le tympan (65 mm²) et la platine de l'étrier (3,2 mm²) et, à moindre degré, à
travers l'action de levier de la chaîne ossiculaire.
Les osselets sont maintenus en place par un système complexe de ligaments et de
muscles. Parmi ces derniers, les plus importants sont le muscle du marteau et le muscle de
l'étrier - ou muscle stapédien - dont le rôle est de tendre la chaîne ossiculaire.
L'onde sonore atteint le conduit auditif externe et met le tympan en vibration. L'énergie
sonore est transférée à la chaîne ossiculaire dont les déplacements sont de l'ordre de quelques
angströms, puis au liquide de l'oreille interne par l'intermédiaire de la platine de l'étrier.
158
C. 1. 4. Oreille Interne
L'oreille interne est constituée d'une partie responsable de l'audition, la cochlée et d'une
partie responsable de l'équilibre, le vestibule. La cochlée, plus familièrement appelée limaçon
en raison de sa forme de tube enroulé sur deux trous de demi de spire, est entouré d'une
capsule osseuse et remplie de liquide. Ce tube est cloisonné par deux membranes constituant
trois rampes, qu'on distingue bien sur une coupe transversale: les rampes vestibulaire,
tympanique et surtout cochléaire qui nous intéresse particulièrement, car c'est là que se situe
l'organe sensoriel de l'audition: l'organe de Corti.
L'organe de Corti est constitué d'une architecture complexe de cellules sensorielles et de
cellules de soutien. On trouve deux types de cellules sensorielles: les cellules ciliées internes
(CCI), disposées sur une seule rangée, et les cellules ciliées externes (CCE), disposées, elles,
sur trois rangs.
Ces cellules ciliées ont la particularité de présenter à leur extrémité apicale des
expansions cytoplasmiques en doigts de gants appelées stéréocils. Il existe plusieurs rangées
de stéréocils par cellule, les plus courts étant disposés à l'intérieur de la cochlée, les plus
longs, à l'extérieur. Ces stéréocils sont rangés en ligne dans les CCI et le long d'un W dans les
CCE.
Les CCE ont la propriété de se contracter en réponse à une stimulation sonore. Elles ont
avant tout une activité musculaire, les CCI étant, quant à elles, les véritables cellules
sensorielles qui transmettent l'information sonore au nerf auditif. Lorsque l'onde sonore est
transmise à l'oreille interne, elle fait vibrer la membrane basilaire, sur laquelle repose l'organe
de Corti. En se contractant, les CCE permettent une amplification très localisée de la vibration
de la membrane basilaire, ce qui permet de ne stimuler qu'un nombre limité de CCI,
améliorant ainsi la sélection fréquentielle.
Quand il y a destruction de CCE, comme dans le cas d'un traumatisme sonore, il faut de
fortes intensités sonores pour stimuler directement les CCI. Alors, de nombreuses CCI sont
stimulées, entraînant une perte de sélectivité fréquentielle. Les CCI ont un rôle de
transduction en transformant la stimulation vibratoire en influx nerveux destiné aux dendrites
des axones du nerf auditif qui font synapses au niveau du pôle inférieur de la cellule. Il s'agit
d'une innervation afférente.
Il existe, au niveau de la cochlée, une répartition fréquentielle tonotopique, les aigus
étant codés à la base et les graves à l'apex, qui a fait comparer la cochlée à un clavier de piano
(clavier cochléaire).
159
C. 1. 5. Voies Auditives Centrales
L'ensemble de 30 000 axones innervant l'organe de Corti constitue le nerf auditif. Il
chemine dans le conduit auditif interne et rejoint le tronc cérébral.
Il existe, au niveau du nerf auditif, une organisation tonotopique, chaque fibre répondant
de manière préférentielle à une fréquence particulière, dite fréquence caractéristique. Au
niveau des fibres auditives, on observe une activité spontanée en dehors de toute stimulation
auditive. Pour une fibre donnée, le niveau d'activité est assez stable, en revanche, il varie
beaucoup d'une fibre à l'autre.
Les neurones auditifs primaires répondent tous de manière univoque à la stimulation
sonore, en augmentant leur activité. Il existe une brusque augmentation des décharges au
début du stimulus, suivie d'une diminution de l'activité qui se stabilise en plateau durant la
deuxième partie de la stimulation.
Le premier relais des neurones du nerf auditif se situe au niveau des noyaux cochléaires
du bulbe qui contiennent les neurones auditifs secondaires. Il existe une grande variété de
types cellulaires dans les noyaux cochléaires, corrélée avec une grande variété de types de
réponses qui contraste avec l'activité univoque des neurones primaires. Comme au niveau du
nerf auditif, on observe une organisation tonotopique au niveau des noyaux cochléaires.
Puis, les relais des voies auditives se trouvent au niveau de la protubérance. Il s'agit du
complexe olivaire supérieur. Au sein de ces noyaux, les différents neurones n'ont pas tous les
mêmes caractéristiques physiologiques. Il s'agit du niveau le plus bas du système auditif.
Le relais suivant est le colliculus inférieur. Quand le signal atteint ce relais, il a déjà subi
plusieurs modifications, non seulement dues aux transformations synaptiques survenues entre
la cochlée et le colliculus inférieur, mais aussi à la convergence des fibres provenant des deux
oreilles au niveau d'un même neurone à des niveaux inférieurs. La mise en jeu des excitations
et des inhibitions devient de plus en plus complexe.
Le corps grenouillé médian est le dernier relais sous cortical. Il est composé de deux
parties: une partie principale et un noyau ventral. Les fibres en provenance du colliculus
inférieur se terminent essentiellement dans la partie principale. Enfin, les ondes auditives se
projettent sur le cortex auditif.
160
C. 2. Traitement de l’Information Médicale
En médecine, peut-être plus que dans d'autres disciplines, les observations sur lesquelles
se basent les décisions médicales sont très imparfaites. Elles peuvent être ambiguës,
incomplètes, incertaines. Le processus décisionnel, qu'il soit diagnostique, thérapeutique ou
pronostique est donc un processus sous incertitude. Plusieurs éléments participent à cette
situation.
Les observations sont ambiguës, incomplètes, incertaines parce qu'il n'y a pas de
vocabulaire standardisé communément utilisé par la communauté médicale et répondant à des
définitions clairement exprimées. L'utilisation pour un même concept de termes proches mais
non rigoureusement synonymes, ou pour des concepts voisins du même terme est source
d'ambiguïté et d'imprécision sémantique. En effet, il est commun de retrouver dans les
observations consignées dans les dossiers médicaux des expressions comme douleur
abdominale aiguë, hépatomégalie ou malaises fréquents.
De telles observations sont ambiguës car le malade peut exprimer une complainte et le
médecin en entendre une autre. De plus, des observateurs différents ont des seuils de
perception différents dans l'appréciation de la présence ou l'absence d'un signe.
Les observations sont incomplètes car, en situation de décision, le médecin doit agir
sans connaître l'ensemble des données relatives à un patient et bien entendu toute la
connaissance spécifique de la situation. Ceci est particulièrement vrai dans des situations
d'urgences, où un patient peut se retrouver inconscient, lorsque les résultats de laboratoire ne
sont pas encore disponibles.
Elles sont incertaines car les connaissances cliniques sont l'expression d'observations
statistiques sur des échantillons de patients présentant des maladies plus ou moins fréquentes,
ayant des formes cliniques différentes et ne s'exprimant pas toujours par la même
symptomatologie, partageant certains signes avec d'autres maladies, etc …
Dans le cas de l’application biomédicale (§ III. 2. 1. 1) par exemple, les Potentiels
Evoqués Auditifs sont des signaux d’amplitude très faible, quelques centaines de nanovolts,
noyés dans un bruit de fond d’amplitude supérieure, de centaines de millivolts. Ce bruit de
fond est constitué de l’activité Electro-EncéphaloGraphique, à laquelle se rajoute l’activité
électro-myographique due au fait que l’on recueillie ces potentiels à distance de leur lieu
d’émission, à travers les espaces méningés, la boîte crânienne, les muscles d’insertion
céphalique et cervicale et le cuir chevelu. Ainsi ce bruit rend l’information bruitée. Un
161
deuxième facteur, rendant l’information bruité et ambiguë, est relatif aux conditions
d’acquisition des PEA telles que lors de l’acquisition, le patient doit être le plus calme
possible, pour que l’activité cérébrale ne perturbe pas l’acquisition du PEA.
162
ANNEXE D: TRANSFORMEE EN ONDELETTES
La transformée en ondelettes a été développée au départ pour situer de façon plus
précise la position des fréquences composant le spectre d’un signal. En effet la transformée de
Fourier permet de calculer le spectre d’un signal sans donner de précisions sur la position des
éléments spectraux dans le signal. La transformée de Fourier à fenêtre offre l’avantage de
faire correspondre un spectre à une ‘‘fenêtre’’ du signal. La transformée en ondelettes
présente, par rapport à la transformée de Fourier à fenêtre, l’intérêt d’un aspect multi-échelles
de la fenêtre d’analyse au lieu d’une fonction continue comme les bases en cosinus et en sinus
utilisées pour la décomposition de Fourier et sa version à fenêtre.
D’une façon similaire à la transformée de Fourier, il s’agit de quantifier la corrélation
qui existe entre signal temporel s (t ) et une fonction particulière Ψ (t ) . Dans le cas de la
transformée de Fourier, cette fonction Ψ est la fonction cosinus ou la fonction sinus. Dans le
cas de la transformée en ondelettes, cette fonction Ψ doit seulement respecter un minimum
de conditions. L’une de ces conditions impose que l’intégrale de Ψ soit égale à zéro (t variant
de − ∞ à + ∞ ) la Figure D. 1 montre la forme typique d’une ondelette.
Figure D. 1. Ondelette Daubechies d’ordre 5 (db5).
La grande originalité de l’ondelette réside dans le fait que l’on peut la comprimer ou la
dilater, ce qui permet de faire varier sa fréquence. D’autre part, en translatant cette ondelette
163
le long de l’axe des temps ‘‘t’’, on peut analyser le signal s(t) sur des plages de temps
différentes. On obtient donc une représentation temps-fréquence du signal [BARR 02].
D. 1. Transformée en Ondelettes Continue
Pour bien comprendre la transformation en ondelettes continue, on considère la
transformation de Fourier. Le processus d'analyse de Fourier est représenté par :
F (ω ) = ∫
+∞
−∞
f (t )e − jωt dt
(E. 1)
Les résultats de la transformation sont des coefficients F (ω ) . Quand on multiplie ces
coefficients par un sinusoïdale de fréquence ω on peut obtenir les composants de signal, voir
Figure D. 2.
Figure D. 2. Transformée de Fourier.
Pour la transformation en ondelettes continue, elle est définie comme la somme sur tout
le temps du signal multiplié par des échelles:
C (échelle, position ) = ∫
+∞
−∞
f (t ) Ψ (échelle, position, t ) dt
(E. 2)
Avec
Ψs ,τ ( x ) =
⎛ x −τ ⎞
Ψ⎜
⎟
s ⎝ s ⎠
1
(E. 3)
164
-
τ est un coefficient de translation de temps,
-
s est un coefficient d’échelle.
Figure D. 3. Transformée en ondelettes continue.
Les différentes échelles, Figure D. 3, correspondent à l’étirage ou la compression de
l’ondelette. Le décalage de temps signifie le déplacement d’ondelette. Les résultats de la
transformée en ondelettes continue sont des coefficients C.
D. 2. Relation entre Echelle et Fréquence
Il y a une correspondance entre les échelles d’ondelette et la fréquence, voir figure D. 4:
Figure D. 4. Correspondance échelle et fréquence.
-
basse échelle ⇒ ondelette compressée ⇒ changer le détail rapidement ⇒ haute
fréquence,
-
haute échelle ⇒ ondelette tirée ⇒ changer le détail lentement ⇒ haute
fréquence.
165
D. 3. Cinq Etapes pour la Transformée en Ondelettes Continue
Il y a cinq étapes pour effectuer la transformée en ondelettes continue:
1. Prendre une ondelette et la comparer à une section au début du signal original,
2. Calculer C (voir équation E. 2), qui représente le degré de similitude de cette petite
onde avec cette section du signal, voir Figure D.5. C peut être interprété comme
coefficient de corrélation tel que plus C est élevé, plus on a de similarité. Noter que les
résultats dépendent de la forme d’ondelette choisie,
Figure D. 5. Etape 2.
3. Déplacer l’ondelette à droite et répéter les étapes 1 et 2, voir Figure D.6,
166
4. Etirer l’ondelette et répéter l’étape 1 jusqu’à l’étape 3, voir Figure D.7,
5. Répéter les tapes 1 à 4 pour toutes les échelles,
Quand on a fini toutes les étapes ci-dessus, on multiplie les coefficients à différentes échelles
par les différentes sections du signal.
167
168
ANNEXE E: BASES DE REGLES FLOUES
E. 1. Etablissement des Règles du Système Flou Primaire (SFP)
Les règles permettent de relier les variables floues d’entrées aux variables floues de
sorties. Le système flou primaire est composé de 729 règles. Un premier travail effectué, pour
établir l’expertise de SFP, est le regroupement de ses règles (les règles du même groupe sont
traitées de la même façon). Rappelons que les fonctions d’appartenances des paramètres
d’entrées (C1-1, C1-2, C1-3, C2-1, C2-2, C2-3) de SFP (voir § II. 3. 3. 4) ont été définies par
les variables floues Loin (L), Moyen (M), et Proche (P) et le vecteur de sortie de SFP est (C1,
C2, C3). Dans le cas de SFP, nous avons établi quatre groupes, voir Tableau E. 1.
Groupe
états
groupe 1
abc abc
…
groupe 2
groupe 3
groupe 4
aaa aaa
aaa bbb
bbb aaa
…
xxx abc
abc xxx
…
abc aPP, aPP abc
abc PaP, PaP abc
abc PPa, PPa, abc
Nombre de Cas
496
8
Exemples
(LMP LPM, …)
(LLP LLP, …)
…
(LLL LLL, …)
(LLL MMM, …)
(PPP LLL, …)
…
144
(LLL LMP, …)
(LMP LLL, …)
81
(LML PMP,
LMM LPP
LMM MPP, …)
…
Tableau E. 1. Les quatre groupes de la base de règles du SFP.
- groupe 1: ce groupe est composé de 496 règles (la majorité de la base des règles).
Pour chaque entrée de ce groupe (C1-1, C1-2, C1-3, C2-1, C2-2, C2-3), on attribue
une valeur comprise entre 0 et 1 pour C1, C2, et C3. En fait, on procède à une analyse
indépendante des deux sorties des deux classifieurs 1 et 2, ensuite, on analyse les deux
sorties des deux classifieurs en même temps pour élaborer l’expertise. Par exemple,
pour attribuer une valeur à C1, on analyse indépendamment les sorties des deux
169
classifieurs, ensuite, on analyse les deux sorties en même temps: on regarde la valeur
de (C1-1, C2-1) et on prend en compte aussi les valeurs de (C1-2, C2-2) et (C1-3, C23). Le Tableau E. 2 récapitule l’ensemble des valeurs que peut prendre C1, C2, et C3
suivant les valeurs de (C1-1, C2-1), (C1-2, C2-2) et (C1-3, C2-3) respectivement.
C1-1
C2-1
C1-2
C2-2
C1-3
C2-3
L
L
0
L
L
0.05
L
L
0.1
L
P
0.15
P
L
0.15
L
M
0.2
M
L
0.2
M
L
0.3
L
M
0.3
M
M
0.4
M
P
0.5
P
M
0.5
P
L
0.55
L
P
0.55
P
M
0.6
M
P
0.6
P
L
0.65
L
P
0.65
P
M
0.7
M
P
0.7
P
P
0.8
P
P
0.85
P
P
1
Valeur
Tableau E. 2. Les valeurs possibles pour (C1-1, C2-1), (C1-2, C2-2) et (C1-3, C2-3).
- groupe 2: ce groupe, qu’on a appelé les cas intraitables, est composé des entrées
telles que les C1-1, C1-2, C1-3, C2-1, C2-2, et C2-3 sont tous Loin, tous Moyen, ou
170
tous Proche pour chaque entrée. Dans ce cas, on attribue la valeur 0.002 pour les trois
classes C1, C2 et C3,
- groupe 3: dans ce cas, on traite que la partie abc, tel que pour chaque entrée, on
attribut des valeurs comprises entre 0 et 1pour C1, C2 et C3,
- groupe 4: c’est l’ensemble des règles comportant deux P dans deux emplacements
différents, présentant un autre type de cas intraitables, pour ce groupe de règles, on
attribue la valeur 0.001 pour les trois classe C1, C2 et C3.
L’organigramme suivant résume les étapes d’établissement de l’expertise du Système
Flou Primaire (SFP),
729 Règles
Groupe 1
Groupe 3
Groupe 2
Type abc abc Ex:
LMP LPM, …LLP
LLP, …
Type: xxx abc, abc xxx
Ex: (LLL LMP, …
(LMP LLL, …)
Type : xxx xxx, xxx yyy, yyy
xxx
Ex: LLL LLL, LLL MMM…
L
L
|
0 0.05 0.1
L
P
L
M
|
M
L
|
M
M
|
M
P
|
P
L
|
0.15 0.2
0.3
0.4
0.5
0.55
|
Analyse indépendante
des deux sorties du
Classifieur 1 et du
Classifieur 2
Analyse des deux sorties
données par les deux
classifieurs en même temps
Expertise
Type abc aPP, aPP abc abc
PaP, PaP abc, abc PPa, PPa,
abc
0.001 0.001 0.001
On traite que abc
0.002 0.002 0.002
L L
L L
|
|
Groupe 4
P
M
|
P P
L M
|
|
0.6
0.65 0.7
Sorties du
Classifieur 1
C1-1
C1-1
C1-2
C1-2
P
P
P
P
|
0.8
P
P
|
|
0.85 1
Sorties du
Classifieur 2
C2-1
C1-3
C2-1
C1-3
OC1
OC2
C2-2
C2-2
C2-3
C2-3
OC3
171
Remarque: on peut attribuer à LL la valeur 0, la valeur 0.05 ou encore la valeur 0.2
suivant les valeurs des deux autres classes. Exemple, pour la règle LLL LLP, son expertise est
0 0 1 (C1 prend la valeur 0, C2 prend la valeur 0 et C3 prend la valeur 1) et pour la règle LLP
LMP, son expertise est 0.1 0.2 0.85 (C1 prend la valeur 0.1, C2 prend la valeur 0.2 et C3
prend la valeur 0.85).
Le tableau suivant présente quelques exemples des règles obtenus en appliquant la
méthode présentée ci-dessus:
Tableau E. 3. Exemples de règles et les expertises associées du SFP.
Règle
Expertise
groupe 1
groupe 2
groupe 3
groupe 4
LLM LLM
C1 C2 C3
0.05 0.05 0.4
LLL MMM
C1 C2 C3
0.002 0.002 0.002
LLL LLM
C1 C2 C3
0.1 0.1 0.2
LML PMP
C1 C2 C3
0.001 0.001 0.001
E. 2. Etablissement des Règles du Système Flou Final (SFF)
Le système flou final est composé de 81 règles, chaque entrée est composée des
sorties données par le SFP (C1, C2, C3) et d’un Paramètre de Confiance (PC) pour
élaborer le diagnostic final.
Dans le cas de l’application biomédicale, le PC est le Seuil Auditif (SA), en effet,
l’examen du seuil auditif est une étape nécessaire au médecin pour permettre de distinguer
les patients de la classe Normale, des patients souffrant d’une atteinte de type EndoCochléaire. Plus la valeur du SA d’un patient est proche de zéro, plus la perte auditive est
faible et plus la valeur de SA est grande, plus la perte auditive est élevée.
Deux règles sont alors prises en compte dans l’établissement de l’expertise à savoir:
-
si la classe est Endo-Cochléaire et le SA est faible alors le patient est de la classe
Normale,
-
si la classe est Normale et le SA est élevé alors le patient est de la classe EndoCochléaire.
Pour cette application, C1 présente la classe Rétro-Cochléaire, C2 présente la classe
Endo-Cochléaire et C3 présente la classe Normale.
Rappelons que les fonctions d’appartenances des paramètres d’entrées (C1, C2, C3, SA)
de SFF (voir § II. 4. 2) ont été définies par les variables floues suivantes:
-
Petit (P), Moyen (M), et Grand (G) pour C1, C2, et C3,
-
Faible (F), Moyen (M), et Elevé (E) pour le SA.
172
Remarque: SFF peut donner une sortie classée dans deux classes en même temps (C1,
C2), (C1, C3) ou (C2, C3).
Un premier travail effectué, pour établir l’expertise de SFF, est le regroupement des ses
règles tel que celles du même groupe sont traitées de la même façon:
- groupe 1: chaque règle appartenant à ce groupe est caractérisée par une classe
(C1, C2 ou C3) Grand et les deux autres classes Petit. Ainsi nous avons trois cas:
- si la première classe (C1) est Grand et les deux autres (C2 et
C3) sont Petit (cas GPP) alors la classe de sortie est C1,
- si la deuxième classe (C2) est Grand et les deux autres (C1 et
C3) sont Petit (cas PGP) alors la classe de sortie est C2
- si la troisième classe (C3) est Grand et les deux autres (C1 et
C2) sont Petit (cas PPG) alors la classe de sortie est C3.
- groupe 2: chaque règle appartenant à ce groupe est caractérisée par la classe C1
est Petit et les deux autres classes (C2 et C3) sont Moyen ou Grand (cas: PMG,
PGM, PMM, …). Alors:
- si SA est Faible alors la classe de sortie est C3,
- si SA est Moyen ou Elevé alors la classe de sortie est C2.
- groupe 3: ce groupe est composé de deux sous groupes:
* 1er sous groupe: chaque règle est caractérisée par la classe C1 est Moyen et
les deux autres classes (C2 et C3) sont différents (cas: MPM, MMP, MMG,
…). Nous avons 3 cas:
•
1er cas: la classe C2 est Moyen et C3 est Petit ou inversement.
Alors:
- pour C2 est Petit et C3 est Moyen (cas MPM): si SA est
Faible alors la classe de sortie est (C1, C3) sinon la classe de
sortie est C1,
- pour C2 est Moyen et C3 est Petit (cas MMP), si SA est
Faible ou Moyen alors la classe de sortie est C1 sinon la
classe de sortie est (C1, C2).
•
2ème cas: la classe C2 est Moyen et C3 est Grand (cas MMG) ou
inversement (cas MGM). Pour ces deux cas, si SA est Faible alors la
classe de sortie est C3 sinon la classe de sortie est C2.
173
•
3ème cas: la classe C2 est Petit et C3 est Grand ou inversement.
Alors
-
Pour C2 est Petit et C3 est Grand (cas MPG), si SA est
Faible alors la classe de sortie est C3 sinon la classe de sortie
(C1, C2),
-
Pour C2 est Grand et C3 est Petit (cas MGP), si SA est
Moyen ou Elevé, alors la classe de sortie est C2 sinon la
classe de sortie est (C1, C2).
* 2ème sous groupe: chaque règle est caractérisée par la classe C1 est Moyen et
les deux autres classes (C2 et C3) sont égaux et différents de la classe C1 (cas:
MPP, MGG). Alors:
- si C2 et C3 sont petit (MPP) alors la classe de sorte est C1,
- si C2 et C3 sont grand (MGG) alors si SA est Faible, la
classe de sortie est C3 sinon la classe de sortie est C2.
- groupe 4: chaque règle appartenant à ce groupe est caractérisée par les trois
classes C1, C2 et C3 sont identiques (cas: PPP, MMM ou GGG). Alors:
- si les trois classes, C1, C2 et C3 sont Petit (cas PPP) ou Moyen
(cas MMM) alors si SA est Faible alors la classe de sortie est
C3 sinon la classe de sortie est C2,
- si les trois classes, C1, C2 et C3 sont Grand (cas GGG) alors les
trois sorties prennent la valeur 0.001.
- groupe 5: chaque règle appartenant à ce groupe est caractérisée par la classe C1
est Grand et les deux autres classes (C2 et C3) sont différents. Nous avons trois cas:
•
1er cas: la classe C2 est Petit et C3 est Moyen (cas GPM) ou
inversement (cas GMP), alors la classe de sortie est C1.
•
2ème cas: si la classe C2 est Grand (cas: GGP, GGM), alors la classe de
sortie est (C1, C2).
•
3ème cas: si C3 est Grand (cas: GPG, GMG), alors la classe de sortie est
(C1, C3).
L’organigramme suivant récapitule l’ensemble des cas à traiter :
174
81 Règles
Groupe 1
Groupe 2
Cas GPP, PGP, PPG
Groupe 3
C1 = P, C2 ≠ P
et C3 ≠ P
Si GPP
Si PGP
Si PPG
Alors C1
Alors C2
Alors C3
Groupe 5
Groupe 4
C1 = G
C2 ≠ C3
Cas xxx
GGG
PPP, MMM
Si SA = F alors C3
Sinon C2
C1=C2=C3=
0.001
Si SA = F alors C3
Sinon C2
C1 = M et
C2 = C3 ≠ M
C1 = M et
C2≠ C3
Si MGG
Si MPP
C2= P et C3 = G
où
C2 = G et C3 = P
C2 = P et C3 = M
où
C2= M et C3 = P
Cas: C2= P et C3 = M
Si SA= F alors (C1, C3)
Si SA = M ou E alors C1
Cas: C2=M et C3= P
Si SA = F ou M alors C1
Si SA = E alors (C1, C2)
Cas: C2=P et C3 = G
Si SA = F alors C3
Sinon (C1, C2)
Alors C1
Si SA = F alors
C3
Sinon C2
Cas: C2 = G et C3 = P
Sinon (C1, C2)
C2 = M et C3 = G
où
C2 = G et C3 = M
Cas: C2= M et C3 = G
Si SA =F alors C3
C2 = P ou M
C3 = P ou M
Alors C1
Cas: C2= G et C3 = M
Si SA =F alors C3
C2 = G
Alors (C1, C2)
C3 = G
Alors (C1, C3)
175
L’indice de confiance (IC) associé à un diagnostic permet de déterminer la qualité
des résultats donnés par le Système d’Aide au Diagnostic (SAD). En effet, plus le IC est
élevé (proche de 1), plus le diagnostic du SAD est pertinent.
L’indice de Confiance IC est déterminé suivant les groupes présentés dans § E. 2 et
principalement:
-
pour chaque règle du groupe 1 (cas de classification tranchée: GPP, PGP et PPG),
l’indice de confiance prend une valeur élevée (0.8).
-
pour chaque règle du groupe 2:
-
si C2 et C3 sont identiques (cas: PMM et PGG), alors l’indice de
confiance IC prend:
- la valeur 0.5 si le SA est Faible ou Elevé,
-la valeur 0.2 si le SA est Moyen.
-
si C2 est Moyen et C3 est Grand (cas PMG) alors l’indice de
confiance IC prend:
- la valeur 0.7 si le SA est Faible,
- la valeurs 0.5 si SA est Moyen,
- la valeur 0.4 si le SA Elevé.
-
si C2 est Grand et C3 est Moyen (cas PGM), alors IC prend:
- la valeur 0.4 si le SA est Faible,
- la valeur 0.5 si SA est Moyen,
- la valeur 0.7 si le SA est Elevé.
-
pour chaque règle du groupe 3: si C3 est Moyen et C2 est Petit (cas MPM) ou si C2
est Moyen et C3 est Petit (cas MMP) alors l’indice de confiance IC prend la valeur
0.5.
-
-
si les trois classes, C1, C2 et C3 sont Petit (cas PPP) ou Moyen (cas
MMM) alors IC prend la valeur 0.5,
-
si les trois classes, C1, C2 et C3 sont Grand (cas GGG) alors IC
prend la valeur 0.001.
-
-
Si C2 est petit et C3 est Moyen (cas GPM) ou inversement (cas
GMP) alors IC prends la valeur 0.6,
-
Si C2 est Grand (cas: GGP, GGM) ou C3 est Grand (cas: GPM,
GMG) alors l’indice de confiance prend la valeur 0.1.
176
Le tableau suivant présente quelques exemples de règles obtenues en appliquant la
Règle
Expertise
groupe 1
groupe 2
groupe 3
groupe 4
groupe 5
GPP F
C1 C2 C3 IC
0.8 0.1 0.1 0.8
PMM F
C1 C2 C3 IC
0.1 0.1 0.5 0.5
MPM F
C1 C2 C3 IC
0.5 0.1 0.5 0.5
GGG M
C1 C2 C3 IC
0.001 0.001 0.001 0.001
GGP F
C1 C2 C3 IC
0.7 0.7 0.2 0.1
177
Le tableau suivant présente quelques exemples de règles obtenues en appliquant la
Règle
groupe 1
groupe 2
groupe 3
groupe 4
groupe 5
GPP F
C1 C2 C3 IC
PMM F
C1 C2 C3 IC
MPM F
C1 C2 C3 IC
GGG M
C1 C2 C3 IC
GGP F
C1 C2 C3 IC
178
Liste de publications dans le cadre de la thèse:
- Articles de Revues Internationales:
- Chohra A., Kanaoui N., and Madani K., ‘‘Hybrid Intelligent Classification for Computer Aided Diagnosis
(CAD) Systems Using Image Representation’’, Image Processing and Communications, An International
Journal, R. S. Choras (Editor-in-Chief), In: Special Section on Computer Graphics and Artificial Intelligence, K.
Saeed (Ed.), Vol. 10, No. 2, pp. 07-15, Published by the Institute of Telecommunications, Bydgoszcz, Poland
2005, ISSN 1425-140X.
- Kurosh Madani, Matthieu Voiry, Véronique Amarger, Nadia Kanaoui, Amine Chohra, François Houbre,
‘‘Computer Aided Diagnosis using Soft-Computing Techniques and Image’s Issued Representation: Application
to Medical and Industrial Problems’’, International Scientific Journal of Computing, Vol. 5, The Special Issue :
Neural Network and Artificial Intelligence, Issue 3, ISSN 1727-6209, pp. 43-53, 2006.
- Livres, ou Chapitres de Livres:
- Chohra A., Kanaoui N., and Madani K., ‘‘A Neural Network Based Computer Aided Diagnosis Approach
Using a Signal to Image Conversion: Application to Biomedical Computer Aided Diagnosis’’, Computer
Information Systems and Applications, Editors: K. Saeed, R. Mosdorf, J. Pejace, O. P. Hilmola, Z. Sosnowski, I.
El-Fray, WSFZB University Publisher, Poland, Volume II, pp. 96-107, 2004, ISBN-83-87256-68-4.
- Chohra, A., Kanaoui, N., Amarger, V.: A Soft Computing Based Approach Using Signal-To-Image Conversion
for Computer Aided Medical Diagnosis (CAMD). Information Processing and Security Systems, Edited by K.
Saeed and J. Pejas, Springer, (2005) 365-374.
- Chohra A., Kanaoui N., and Madani K., ‘‘Neural Hybrid Image Classification for Intelligent Diagnosis
Systems from Signal-to-Image Conversion’’, Computer Information Systems and Applications, Editors: K.
Saeed, R. Mosdorf, J. Pejace, O. P. Hilmola, Z. Sosnowski, I. El-Fray, WSFiZ University Publisher, Poland,
Volume I, pp. 329-338, 2005, ISBN 83-87256-86-2.
- Amine Chohra, Nadia Kanaoui, Véronique Amarger, and Kurosh Madani, ‘‘Signal and Image Representations
Based Hybrid Intelligent Diagnosis Approach for A Biomedicine Application’’, M. Ali and R. Dapoigny (Eds.):
IEA/AIE 2006, ‘‘Lecture Notes in Artificial Intelligence Series of Springer-Verlag’’ LNAI 4031, ISSN 03029743, ISBN 3-540-35453-0, pp. 155-165, 2006, Springer-Verlag Berlin Heidelberg 2006.
- Amine Chohra, Nadia Kanaoui, and Kurosh Madani, ‘‘Hybrid Intelligent Diagnosis Approaches: Analysis and
th
Comparison under a Biomedicine Application’’, 13 International Multi-Conference on Advanced Computer
Systems, October 18-20, Miedzyzdroje, Poland, J. Pejas I. El Fray and K. Saeed (Ed.), ISBN 83-87362-75-1,
Vol. I, Chapter I Artificial Intelligence, pp. 107-118, 2006.
Comparison under a Biomedicine Application’’, Edited by Jerzy Pejas and Khalid Saeed, Advances in
Information Processing and Protection, Springer, 1 edition, IBN-10: 0-387-73136-9, ISBN-13: 978-0-38773136-0, e-ISBN-13: 978-0-387-73137-7, Part I – Artificial Intelligence, pp. 67-76, October 25, 2007.
- Actes de Conférences Internationales:
- Amine Chohra, Nadia Kanaoui, and Kurosh Madani, ‘‘A Neural Network Based Computer Aided Diagnosis
Approach Using a Signal to Image Conversion’’, ACS-CISIM International Multi-Conferences on Advanced
Computer Systems (ACS) and Computer Information Systems and Industrial Management Applications (CISIM),
June 14-16, Elk (Grunwaldzka St. 1), Poland, 2004, pp. CDROM.
- Véronique Amarger, Nadia Kanaoui, Amine Chohra, and Kurosh Madani, ‘‘An Intelligent Diagnosis Approach
th
Based On Dual-Classification Using Both Signals and Image Representations’’, 8 International Conference on
Pattern Recognition and Information Processing (PRIP’2005), May 18-20, Minsk, Republic of Belarus, 2005,
ISBN 985-6329-55-8, pp.216-220.
179
- Amine Chohra, Nadia Kanaoui, and Kurosh Madani, ‘‘Neural Hybrid Image Classification for Intelligent
Diagnosis Systems from Signal-to-Image Conversion’’, ACS-CISIM International Multi-Conferences on
Advanced Computer Systems (ACS) and Computer Information Systems and Industrial Management
th
rd
Applications (CISIM), June 30 – July 3 , Elk (Grunwaldzka St. 1), Poland, 2005, pp. CDROM.
- Amine Chohra, Nadia Kanaoui, Véronique Amarger, and Kurosh Madani, ‘‘Fuzzy Hybridation of ‘‘Artificial
Neural Networks’’ (ANN) Based Signal and Image Processing Techniques: Application to Intelligent
‘‘Computer Aided Biomedical Diagnosis’’ (CAMD)’’, IEEE Third International Workshop on Intelligent Data
Acquisition and Advanced Computing Systems: Technology and Applications (IDAACS’2005), Sofia, Bulgaria,
September 5-7, 2005, pp. 78-83, ISBN: 0-7803-9446-1.
- Amine Chohra, Nadia Kanaoui, and Kurosh Madani, ‘‘Image Representation Based Hybrid Intelligent
Diagnosis Approach for Computer Aided Diagnosis (CAD) Systems’’, International Conference on Neural
Networks and Artificial Intelligence ICNNAI-2006, Brest State Technical University, ISBN 985-493-036-X,
Brest, Belarus, 31 May – 2 June, 2006, pp. 168-174.
- Amine Chohra, Nadia Kanaoui, Véronique Amarger, and Kurosh Madani, ‘‘Signal and Image Representations
Based Hybrid Intelligent Diagnosis Approach for A Biomedicine Application’’, The Nineteenth International
Conference on Industrial, Engineering & Other Applications of Applied Intelligent Systems IEA/IAE-2006 ISAI,
AAAI, ACM/SIGART, Annecy, France, June 27-30, 2006.
th
Comparison under a Biomedicine Application’’, 13 International Multi-Conference on Advanced Computer
Systems, October 18-20, Miedzyzdroje, Poland, J. Pejas I. El Fray and K. Saeed (Ed.), ISBN 83-87362-75-1,
Vol. I, Chapter I Artificial Intelligence, pp. 107-118, 2006.
- Amine Chohra, Nadia Kanaoui, and Kurosh Madani, ‘‘Image Recognition and Analysis Based Hybrid
Intelligent Approach for Computer Aided Diagnosis (CAD)’’, Ninth International Conference on Pattern
Recognition and Information Processing, International Association for Pattern Recognition (IAPR), ISBN 978985-6744-29-0, Vol. I, May 22-24, Minsk, Belarus, pp. 69-75, 2007.
th
- Amine Chohra, Nadia Kanaoui, Kurosh Madani, ‘‘Hybrid Intelligent Diagnosis Systems’’, 6 International
IEEE Conference on Computer Information Systems and Industrial Management Applications, IEEE Computer
Society, June 28-30, Elk, Poland, pp. 115-120, 2007.
- Amine Chohra, Nadia Kanaoui, Kurosh Madani, ‘‘Image Recognition Based Analysis and Comparison of
Hybrid Intelligent Approaches for Computer Aided Diagnosis (CAD)’’, IEEE International Workshop on 4
Intelligent Data Acquisition and Advanced Computing Systems: Technology and Applications 6-8 September,
Dortmund, Germany, 2007.
180
RESUME
Le travail de recherche développé dans cette thèse est en rapport avec les systèmes
d’aide à la décision pour le diagnostic de défaillances, la reconnaissance de formes et la prise
de décisions basées sur l’Intelligence Artificielle utilisant les techniques hybrides, et le ‘‘soft
computing’’ impliquant notamment les réseaux de neurones et la logique floue. Le but de ce
travail n’est absolument pas de remplacer le spécialiste humain (médecin, expert, …) mais de
proposer des systèmes d’aide à la décision pour le diagnostic de défaillances avec un certain
indice de confiance. Ainsi, l’objectif principal est le développement d’approches hybrides
modulaires permettant l’élaboration de tels SAD, destinés à répondre à certains types
d’applications (biomédicale et industrielle). Pour cela, une méthodologie globale, basée sur
une multiple représentation de la connaissance et une multiple classification, a été proposée
exploitant différentes stratégies de représentation et de classification. Les avantages potentiels
de cette méthodologie sont: la multiple représentation de la connaissance d’une même source
ou de différentes sources d’information (exploitant la richesse de l’information que l’on peut
extraire de différentes représentations: signal, image globale, image subdivisée), la multiple
classification (redondance et/ou complémentarité), l’hybridation dans la classification et la
prise de décisions basée sur des approches hybrides modulaires afin d’exploiter le caractère
complémentaire, et l’exploitation d’un paramètre de confiance dans la prise de décisions afin
de proposer un résultat final de diagnostic avec un indice de confiance. De plus, l’aspect
modulaire dans cette méthodologie facilitera son adaptation d’une application à une autre.
Mots Clés: Systèmes d’Aide au Diagnostic (SAD), représentation de la connaissance,
classification, prise de décisions, approches hybrides modulaires, apprentissage et
adaptation.
ABSTRACT
Research work developed in this thesis deals with decision support systems for fault
diagnosis, pattern recognition and decision-making based on Artificial Intelligence using
hybrid techniques, and soft computing implying neural networks and fuzzy logic. The aim of
this work is absolutely not to replace specialized human (doctor, expert, …) but to suggest
efficient Diagnosis Support Systems (DSS) with a certain confidence index. Thus, the main
objective is the development of hybrid modular approaches allowing the elaboration of such
DSS for certain kinds of applications (biomedicine and industrial). For that, a global
methodology, based on multiple knowledge representation and multiple classification has
been suggested exploiting different representation and classification strategies. Potential
advantages of this methodology are: the multiple knowledge representation from same source
or different sources of information (exploiting rich information which can be extracted from
different representations: signal, global image, subdivided image), the multiple classification
(redundancy and/or complementary), the hybrid structure in classification and decisionmaking based on hybrid modular approaches in order to exploit the complementary aspect,
and the exploitation of a confidence parameter in the decision-making to suggest a final result
of diagnosis with a confidence index. More, the modular aspect in this methodology will
facilitate its adaptation from one application to another.
Keywords: Diagnosis Support Systems (DSS), knowledge representation, classification,
decision-making, hybrid modular approaches, learning and adaptation.
178

Thèse de Doctorat Laboratoire Images, Signaux et Systèmes

Transcription

Documents pareils

TP : Réseau de neurones sous matlab

CCTP marché lycée Jean Monnet Yzeure

Caravane Hobby Excellent 490 SFf - Occasion

Généralisation de fonds de cartes . un scénariopour l`Afrique

public en situation de handicap - Billetterie

Développer vos ventes : comment promouvoir votre produit

Le fichier complet PDF

À vos bonnes résolutions

fiche formation cap couture flou.pub

Les nerfs à fleur de peau