Thèse de Doctorat Laboratoire Images, Signaux et Systèmes
Transcription
Thèse de Doctorat Laboratoire Images, Signaux et Systèmes
Université PARIS XII – Val de Marne Thèse de Doctorat Laboratoire Images, Signaux et Systèmes Intelligents EA 3956 Par Nadia KANAOUI Sujet: CONTRIBUTION A L’ETUDE ET A LA MISE EN ŒUVRE D’APPROCHES HYBRIDES D’AIDE AU DIAGNOSTIC: APPLICATION AUX DOMAINES BIOMEDICAL ET INDUSTRIEL M. Ezeddine BEN-BRAIEK (MCF) Rapporteur M. Amine CHOHRA (MCF) Examinateur M. Claude LISHOU (Professeur) Examinateur M. Hichem MAAREF (Professeur) Rapporteur M. Kurosh MADANI (Professeur) Directeur de thèse M. Gilles ZWINGELSTEIN (Professeur) Examinateur i Dédicaces Cette thèse n’aurait pas vu le jour sans l’aide et le soutien de ma famille et je la dédie à Mon Papa et ma Maman, A mes frères et mes sœurs. i ii TABLE DES MATIERES TABLE DES MATIERES.....................................................................................................iii LISTE DES ABREVIATIONS ............................................................................................... vii LISTE DES FIGURES ............................................................................................................ ix LISTE DES TABLEAUX.......................................................................................................xiii INTRODUCTION GENERALE ........................................................................................... 1 Chapitre I. SYSTEMES D’AIDE AU DIAGNOSTIC (SAD) .................................... 9 I. 1. INTRODUCTION ................................................................................................................... 11 I. 2. SYSTEMES D’AIDE AU DIAGNOSTIC (SAD) ................................................................. 12 I. 2. 1. Défaillances..................................................................................................................................... 12 I. 2. 2. Détection de Défaillances............................................................................................................... 13 I. 2. 3. Indice de Confiance d’un Diagnostic............................................................................................ 13 I. 2. 4. Représentation de la Connaissance .............................................................................................. 13 I. 2. 5. Classification .................................................................................................................................. 14 I. 2. 6. Prise de Décisions ........................................................................................................................... 15 I. 2. 7. Architecture Globale d’un Système d’Aide au Diagnostic (SAD).............................................. 16 I. 3. ETAT DE L’ART SUR LES APPROCHES POUR LES SYSTEMES D’AIDE AU DIAGNOSTIC (SAD) ..................................................................................................................... 17 I. 3. 1. Modèles Quantitatifs...................................................................................................................... 17 I. 3. 2. Modèles Qualitatifs ou Semi-Qualitatifs ...................................................................................... 18 I. 3. 3. Analyse des Modes de Défaillances et de leurs Effets ................................................................. 19 I. 3. 4. Arbres de Défaillances ................................................................................................................... 20 I. 3. 5. Analyse en Composantes Principales ........................................................................................... 21 I. 3. 6. Systèmes Experts............................................................................................................................ 22 I. 3. 7. Systèmes Flous (SF) ....................................................................................................................... 23 I. 3. 8. Réseaux de Neurones (RN)............................................................................................................ 26 I. 3. 9. Synthèse .......................................................................................................................................... 27 I. 4. PROBLEMATIQUE ET SOLUTIONS PROPOSEES........................................................ 28 iii I. 5. CONCLUSION ........................................................................................................................ 30 Chapitre II. ETUDE, CONCEPTION, ET DEVELOPPEMENT D’UN SYSTEME HYBRIDE MODULAIRE (SHM) POUR L’AIDE AU DIAGNOSTIC ...................... 31 II. 1. INTRODUCTION ................................................................................................................. 33 II. 2. ARCHITECTURE DE L’APPROCHE HYBRIDE MODULAIRE PROPOSEE........... 33 II. 3. ETUDE ET CONCEPTION ................................................................................................. 35 II. 3. 1. Représentation de la Connaissance............................................................................................. 35 II. 3. 1. 1. Représentation ‘‘Signal’’ de la Connaissance ................................................................... 35 II. 3. 1. 2. Avantages d’une Représentation Image de la Connaissance ........................................... 36 II. 3. 1. 3. Conversion Signal - Image de la Connaissance ................................................................. 37 II. 3. 1. 3. 1. Méthode de Conversion Signal - Image..................................................................... 38 II. 3. 1. 3. 2. Critères de Choix d’un Seuil de Coupe ..................................................................... 39 II. 3. 1. 4. Représentation Image Globale de la Connaissance .......................................................... 46 II. 3. 1. 5. Représentation Image Subdivisée de la Connaissance ..................................................... 46 II. 3. 2. Classification................................................................................................................................. 47 II. 3. 2. 1. Méthodes de Groupement (‘‘Clustering’’) ........................................................................ 47 II. 3. 2. 2. Méthodes Statistiques .......................................................................................................... 48 II. 3. 2. 3. Arbres de Décisions et Inductions ...................................................................................... 49 II. 3. 2. 4. Réseaux de Neurones (RN).................................................................................................. 50 II. 3. 2. 5. Choix d’une Méthode de Classification ............................................................................. 50 II. 3. 3. Prise de Décisions ......................................................................................................................... 52 II. 3. 3. 1. Analogie ................................................................................................................................ 53 II. 3. 3. 2. Méthode de Vote .................................................................................................................. 53 II. 3. 3. 3. Logique Floue (LF) .............................................................................................................. 55 II. 3. 3. 4. Choix d’une Méthode de Prise de Décisions ...................................................................... 55 II. 4. PRINCIPALES VARIANTES DE L’APPROCHE PROPOSEE...................................... 66 II. 5. CONCLUSION ...................................................................................................................... 67 Chapitre III. MISE EN ŒUVRE ET COMPARAISON DES SHM ..................... 71 III. 1. INTRODUCTION ................................................................................................................ 73 III. 2. APPLICATION BIOMEDICALE: Etude de Cas............................................................. 73 III. 2. 1. Présentation de l’Application..................................................................................................... 73 III. 2. 1. 1. Description .......................................................................................................................... 74 III. 2. 1. 2. Contexte Clinique............................................................................................................... 76 III. 2. 2. Elaboration des Bases de Connaissances .................................................................................. 78 III. 2. 3. Systèmes Hybrides Modulaires (SHM) ..................................................................................... 83 iv III. 2. 3. 1. Mise en Œuvre.................................................................................................................... 83 III. 2. 3. 1. 1. Classification .............................................................................................................. 84 III. 2. 3. 1. 2. Prise de Décisions ...................................................................................................... 88 III. 2. 3. 2. Résultats Obtenus............................................................................................................... 90 III. 2. 3. 2. 1. SHM-1_Signal-RBF_ImageGlobale-MLP............................................................... 91 III. 2. 3. 2. 2. SHM-2_ImageGlobale-MLP_ImageGlobale-RBF.................................................. 94 III. 2. 3. 2. 3. SHM-3_ImageSubdivisée-MLP_ImageSubdivisée-RBF........................................ 98 III. 2. 3. 2. 4. SHM-4_ImageSubdivisée-RBF_ImageGlobale-MLP........................................... 102 III. 2. 3. 2. 5. SHM-5_ImageSubdivisée-MLP_ImageGlobale-RBF........................................... 103 III. 2. 3. 2. 6. SHM-6_ImageSubdivisée-MLP_ImageGlobale-MLP.......................................... 104 III. 2. 3. 2. 7. SHM-7_ImageSubdivisée-RBF_ImageGlobale-RBF............................................ 105 III. 2. 3. 3. Synthèse............................................................................................................................. 106 III. 3. APPLICATION INDUSTRIELLE: Etude de Cas .......................................................... 107 III. 3. 1. Présentation de l’Application................................................................................................... 108 III. 3. 1. 1. Description ........................................................................................................................ 108 III. 3. 1. 2. Mise en Œuvre.................................................................................................................. 109 III. 3. 2. Elaboration de la Base de Connaissances ............................................................................... 110 III. 3. 3. Etape de Classification: Mise en Œuvre et Résultats Obtenus ............................................. 116 III. 3. 4. Synthèse ..................................................................................................................................... 118 III. 4. CONCLUSION................................................................................................................... 119 CONCLUSION GENERALE ............................................................................................. 121 REFERENCES BIBLIOGRAPHIQUES .......................................................................... 129 ANNEXES ............................................................................................................................ 137 ANNEXE A: RESEAUX DE NEURONES (RN) ....................................................................... 139 ANNEXE B: LOGIQUE FLOUE (LF) ....................................................................................... 151 ANNEXE C: APPLICATION BIOMEDICALE ....................................................................... 157 ANNEXE D: TRANSFORMEE EN ONDELETTES................................................................ 163 ANNEXE E: BASES DE REGLES FLOUES ............................................................................ 169 v vi LISTE DES ABREVIATIONS - C1 (Classe 1). - C2 (Classe 2). - C3 (Classe 3). - CEFON (Centre d’Explorations Fonctionnelles Oto-Neurologiques), Paris, France. - DF (Diagnostic Final). - DP (Diagnostic Primaire). - DTC (Dynamique Temporelle du tronc Cérébral). - EC (Endo-Cochléaire). - ELAUDY (Extraction et Lecture AUtomatique de la DYnamique temporelle du tronc cérébral). - IA (Intelligence Artificielle). - IC (Indice de Confiance). - ICg (Indice de Confiance de généralisation). - IG (Image Globale). - IS (Image Subdivisée). - LF (Logique Floue). - MLP (‘‘MultiLayer feedforward Perceptron networks’’). - N (Normale). - PC (Paramètre de Confiance). - PEA (Potentiels Evoqués Auditifs). - PEM (Potentiel Evoqué Moyenné). - RBF (‘‘Radial Basis Function networks’’). - RC (Rétro-Cochléaire). - RN (Réseaux de Neurones) - SA (Seuil Auditif). - SAD (Systèmes d’Aide au Diagnostic). - SHM (Systèmes Hybrides Modulaire). vii viii LISTE DES FIGURES Figure I. 1. Association d’une nouvelle observation Xi à une des classes…………….. 15 Figure I. 2. Synoptique global d’un Système d’Aide au Diagnostic (SAD)…............... 16 Figure I. 3. Principe de génération de résidus…………………………………………. 17 Figure I. 4. Architecture d’un système expert…………………………………………. 23 Figure I. 5. Les trois étapes d’un traitement flou………………………………………. 25 Figure I. 6. Exemple d’architecture d’un réseau de neurones MLP…………………… 26 Figure I. 7. Méthodologie globale d’aide au diagnostic……………………………….. 29 Figure II. 1. Architecture de l’approche hybride modulaire proposée pour l’aide au diagnostic………………………………………………………………. 34 Figure II. 2. Représentation signal moyenné de la connaissance……………………… 36 Figure II. 3. Représentation signal de la connaissance: (a) Signal vibratoire d’une machine tournante, (b). Signal moyenné des Potentiels Evoqués Auditifs. (c). Signaux composant la surface DTC………………………………………………..…………………… 37 Figure II. 4. (a). Etapes de la méthode de conversion signal à image. (b). Exemple d’image obtenue dans le cas d’une représentation multi-signaux. (c). Exemple d’image obtenue dans le cas d’un seul signal………………………………………………………………..…... 38 Figure II. 5. (a). Représentation signal de S(t). (b). Représentation signal de d(t). (c). Représentation signal de Sd(t). (d). Représentation image de Sd(t)-1er critère-…………………………………………………………………... 40 Figure II. 6. Approximation d’une région par un triangle……………………………... 41 Figure II. 7. Représentation image de Sd(t) -2ème critère-……………………………... 42 Figure II. 8. (a). Représentation signal de S(t). (b). Représentation signal de d(t) pour x = 0.4. (c). Représentation signal de Sd(t) pour x = 0.4………………………………………………………………………. 43 Figure II. 9. (a). Transformée en ondelettes du signal S(t). (b). Transformée en ondelettes du signal avec défaut Sd(t) pour x = 0.4. (c). Différence entre la transformée en ondelettes du Sd(t) et la transformée en ondelettes du S(t) pour x = 0.4…………………………………………. 43 Figure II. 10. La subdivision en plusieurs régions de la différence entre les deux ix transformées en ondelettes……………………………………………... Figure II. 11. I1 en fonction du rapport 44 des amplitudes ΓP …………………………………………………………………………… 45 Figure II. 12. I1 en fonction du rapport des aires ΓE …………………………………... 45 Figure II. 13. Représentation image globale de la connaissance………………………. 46 Figure II. 14. Représentation image subdivisée de la connaissance…………………... 46 Figure II. 15. Classifieur à un seul réseau de neurones (MLP ou RBF)……………. 52 Figure II. 16. Classifieur à plusieurs réseaux de neurones (MLP ou RBF)………… 52 Figure II. 17. Principe du raisonnement par analogie…………………………………. 53 Figure II. 18. Prise de décisions dans le cas de deux classifications neuronales……… 57 Figure II. 19. Etape de prise de décisions……………………………………………… 58 Figure II. 20. Système flou de prise de décisions……………………………………… 58 Figure II. 21. Fonction d’appartenance des paramètres C1-1, C1-2, C1-3 (ou C2-1, C2-2, C2-3) à partir d’une classification par MLP (ou RBF),ou du traitement statistique des classifications par MLP (ou RBF)…………... 59 Figure II. 22. Fonction d’appartenance du Paramètre de Confiance (PC): Exemple du Seuil Auditif (SA) dans une application biomédicale………………….. 63 Figure II. 23. Fonction d’appartenance des paramètres DPC1, DPC2, et DPC3…………. 63 Figure III. 1. Principe de génération de Potentiels Evoqués Auditifs (PEA)………….. 74 Figure III. 2. Potentiel Evoqué Auditif (PEA) parfait…………………………………. 75 Figure III. 3. Extraction et acquisition des Potentiels Evoqués Auditifs (PEA)………. 77 Figure III. 4. Elaboration de la surface de la Dynamique Temporelle du tronc Cérébral (DTC) à partir de 800 acquisitions…………………………… 77 Figure III. 5. Surfaces de la Dynamique Temporelle du tronc Cérébral (DTC): (a). Patient normo-entendant. (b). Patient souffrant d’un trouble auditif…... 78 Figure III. 6. (a). Représentation Signal moyenné (PEM). (b). un signal moyenné est représenté par un vecteur de 70 composants…………………………… 79 Figure III. 7. Représentation image: (a). Exemple de résultat de conversion signal à image en appliquant le 2ème protocole. (b). Image sans valeurs nulles ni valeurs trop élevées…………………………………………………….. 79 Figure III. 8. Représentation image globale de la connaissance………………………. 80 Figure III. 9. Représentation image subdivisée de la connaissance…………………… 80 Figure III. 10. Exemple de résultat de conversion signal à image en appliquant le 3ème x protocole………………………………………………………………... 81 Figure III. 11. Exemples de la représentation signal moyenné: (a). Cas de deux patients (classe Rétro-Cochléaire). (b). Cas de deux patients (classe Endo-Cochléaire). (c). Cas de deux patients (classe Normale)………… 82 Figure III. 12. Exemples de résultats de la conversion signal à image appliquant le 2ème protocole: (a). Cas de deux patients (classe Rétro-Cochléaire). (b). Cas de deux patients (classe Endo-Cochléaire). (c). Cas de deux patients (classe Normale)……………………………………………….. 83 Figure III. 13. Choix de la valeur du Taux d’apprentissage (eta). 84 Figure III. 14. Choix du nombre de neurones de la couche cachée (NNC). 85 Figure III. 15. Taux d’apprentissage en fonction de la zone d’influence (Béta). 86 Figure III. 16. Taux de généralisation en fonction de la zone d’influence (Béta). 86 Figure III. 17. Fonction d’appartenance des paramètres C1-1, C1-2, C1-3 (ou C2-1, C2-2, C2-3) à partir d’une classification par MLP (ou RBF), ou du traitement statistique des classifications par MLP (ou RBF)…………... 89 Figure III. 18. Fonction d’appartenance du Paramètre de Confiance (PC): le Seuil Auditif (SA)…………………………………………………………….. 90 Figure III. 19. Fonction d’appartenance des paramètres DPC1, DPC2, et DPC3………... 90 Figure III. 20. Résultats de la classification par MLP des 16 imagettes (image subdivisée)……………………………………………………………… 99 Figure III. 21 Résultats de la classification par RBF des 16 imagettes (image subdivisée)……………………………………………………………… 100 Figure III. 22. (a). Représentation du signal S(t). (b). Représentation d’un signal d1(t). (c). Représentation du signal avec défaut Sd1(t)………………… 109 Figure III. 23. (a). Représentation du signal S(t). (b). Représentation d’un signal d2(t). (c). Représentation du signal avec défaut Sd2(t)………………… 110 Figure III. 24. Représentation du signal avec défaut Sd1(t)…………………………... 111 Figure III. 25. Choix d’une ondelette basée sur le critère Min(Max)…………………. 112 Figure III. 26. Exemple de résultat de la conversion d’un signal à image. (a). Signal original. (b). La transformée en ondelettes du signal. (c). La représentation image du signal…………………………………………. 112 Figure III. 27. Représentation image globale de la connaissance……………………... 113 xi Figure III. 28. Exemples des signaux des trois classes: (a). Deux signaux de la classe Anormale-1. (b). Deux signaux de la classe Anormale-2. (c). Deux signaux de la classe Normale…………………………………………… 114 Figure III. 29. Exemples des transformées en ondelettes des signaux des trois classes: (a). Deux signaux de la classe Anormale-1. (b). Deux signaux de la classe Anormale-2. (c). Deux signaux de la classe Normale…………… 115 Figure III. 30. Exemples des représentations images des signaux des trois classes: (a). Deux signaux de la classe Anormale-1. (b). Deux signaux de la classe Anormale-2. (c). Deux signaux de la classe normale…………………... 116 Figure A. 1. Exemple d’architecture d’un MLP.……………………………………..... 141 Figure A. 2. Sortie d’un neurone en fonction des entrées……………………………… 143 Figure A. 3. Descente du gradient……………………………………………………... 144 Figure A. 4. Neurone élémentaire à noyau…………………………………………….. 146 Figure A. 5. Exemple d’architecture d’un RBF………………………………………... 148 Figure B. 1. Comparaison d’un ensemble classique et d’un ensemble flou…………… 153 Figure B. 2. (a). Fonction caractéristique. (b). Fonction d’appartenance……………… 154 Figure B. 3. Fonctions d’appartenance (ensembles flous)……………………………... 154 Figure B. 4. Fonctions d’appartenance linéaires par morceaux………………………... 155 Figure C. 1: Anatomie simplifiée d’une oreille………………………………………... 157 Figure D. 1. Ondelette Daubechies d’ordre 5 (db5)…………………………………… 163 Figure D. 2. Transformée de Fourier…………………………………………………... 164 Figure D. 3. Transformée en ondelettes continue……………………………………… 165 Figure D. 4. Correspondance échelle et fréquence…………………………………….. 165 Figure D. 5. Etape 2……………………………………………………………………. 166 Figure D. 6. Etape 3……………………………………………………………………. 166 Figure D. 7. Etape 4……………………………………………………………………. 166 xii LISTE DES TABLEAUX Tableau II. 1. Systèmes Hybrides Modulaires (SHM) proposés à partir des différentes variantes de l’approche hybride modulaire……………………….......... 67 Tableau III. 1. Répartition des trois bases de connaissance…………………………… 81 Tableau III. 2. Bases d’apprentissage et de généralisation……………………………. 82 Tableau III. 3. Résultats de la classification neuronale (RBF) du signal (SHM-1)…… 91 Tableau III. 4. Résultats de la classification neuronale (MLP) de l’image globale (SHM-1)………………………………………………………………… 91 Tableau III. 5. Résultats du Système Flou Primaire (SFP) de Prise de Décisions (SHM-1)………………………………………………………………… 92 Tableau III. 6. Résultats du Système Flou Final (SFF) de Prise de Décisions (SHM1)………………………………………………………………………... 92 Tableau III. 7. Résultats de la classification neuronale (RBF) du signal (SHM-1)…… 93 Tableau III. 8. Résultats de la classification neuronale (MLP) de l’image globale (SHM-1)………………………………………………………………… 93 Tableau III. 9. Résultats du Système Flou Primaire (SFP) de Prise de Décisions (SHM-1)………………………………………………………………… 93 Tableau III. 10. Résultats du Système Flou Final (SFF) de Prise de Décisions (SHM1)………………………………………………………………………... 94 Tableau III. 11. Résultats de la classification neuronale (MLP) de l’image globale (SHM-2)………………………………………………………………… 95 Tableau III. 12. Résultats de la classification neuronale (RBF) de l’image globale (SHM-2)………………………………………………………………… 95 Tableau III. 13. Résultats du Système Flou Primaire (SFP) de prise de décisions (SHM-2)………………………………………………………………… 96 Tableau III. 14. Résultats du Système Flou Final (SFF) de prise de décisions (SHM2)………………………………………………………………………... 96 Tableau III. 15. Résultats de la classification neuronale (MLP) de l’image globale (SHM-2)………………………………………………………………… 97 Tableau III. 16. Résultats de la classification neuronale (RBF) de l’image globale (SHM-2)………………………………………………………………… 97 Tableau III. 17. Résultats du Système Flou Primaire (SFP) de prise de décisions xiii (SHM-2)………………………………………………………………… 97 Tableau III. 18. Résultats du Système Flou Final (SFF) de prise de décisions (SHM2)………………………………………………………………………... 98 Tableau III. 19. Résultats de la classification neuronale (MLP) de l’image subdivisée (SHM-3)………………………………………………………………… 100 Tableau III. 20. Résultats de la classification neuronale (RBF) de l’image subdivisée (SHM-3)………………………………………………………………… 100 Tableau III. 21. Résultats du Système Flou Primaire (SFP) de prise de décisions (SHM-3)………………………………………………………………… 101 Tableau III. 22. Résultats du Système Flou Final (SFF) de prise de décisions (SHM3)………………………………………………………………………... 101 Tableau III. 23. Résultats du Système Flou Primaire (SFP) de prise de décisions (SHM-4)………………………………………………………………… 102 Tableau III. 24. Résultats du Système Flou Final (SFF) de prise de décisions (SHM4)………………………………………………………………………... 102 Tableau III. 25. Résultats du Système Flou Primaire (SFP) de prise de décisions (SHM-5)………………………………………………………………… 103 Tableau III. 26. Résultats du Système Flou Final (SFF) de prise de décisions (SHM5)………………………………………………………………………... 103 Tableau III. 27. Résultats du Système Flou Primaire (SFP) de prise de décisions (SHM-6)………………………………………………………………… 104 Tableau III. 28. Résultats du Système Flou Final (SFF) de prise de décisions (SHM6)………………………………………………………………………... 104 Tableau III. 29. Résultats du Système Flou Primaire (SFP) de prise de décisions (SHM-7)………………………………………………………………… 105 Tableau III. 30. Résultats du Système Flou Final (SFF) de prise de décisions (SHM7)………………………………………………………………………... 105 Tableau III. 31. Moyennes des taux de classifications après l’hybridation pour les trois classes RC, EC et N……………………………………………….. 107 Tableau III. 32. Répartition de la base de connaissances……………………………... 113 Tableau III. 33. Bases d’apprentissage et de généralisation (représentation image globale)…………………………………………………………………. 113 xiv Tableau III. 34. Résultats de la classification neuronale (MLP) de l’image globale utilisant Bior3.3………………………………………………………… 117 Tableau III. 35. Résultats de la classification neuronale (RBF) de l’image globale utilisant Bior3.3………………………………………………………… 117 Tableau III. 36. Résultats de la classification neuronale (MLP) de l’image globale utilisant Bior3.9………………………………………………………… 118 Tableau III. 37. Résultats de la classification neuronale (RBF) de l’image globale utilisant Bior3.9………………………………………………………… 118 Tableau E. 1. Les quatre groupes de la base de règles du SFP………………………... 169 Tableau E. 2. Les valeurs possibles pour (C1-1, C2-1), (C1-2, C2-2) et (C1-3, C2-3).. 170 Tableau E. 3. Exemples de règles et les expertises associées du SFP…………………. 172 Tableau E. 4. Exemples de règles et les expertises associées du SFP…………………. 177 xv xvi Remerciements Cette thèse a débuté au Laboratoire Intelligence dans les Instrumentations et les Systèmes I²S, de l’Université Paris XII. C’est dans le cadre d’une fusion de ce laboratoire avec deux autres laboratoires (LERISS, LIIA) de la dite Université, qu’elle se termine au sein du Laboratoire Image, Signaux et Systèmes Intelligents LISSI de l’Université Paris XII Val de Marne. Je tiens tout d'abord à remercier le Professeur Hichem MAAREF et le Docteur Ezeddine BEN-BRAIEK qui ont accepté la lourde tâche de rapporter mes travaux, ainsi que le Professeur Claude LISHOU et le Professeur Gilles ZWINGELSTEIN pour l'intérêt qu'ils portent à mon travail en acceptant de participer à mon jury. Mes vifs remerciements s’adressent à mon directeur de thèse le Professeur Kurosh MADANI qui m'a accueilli au sein de son laboratoire et dirigé de mains de maître cette thèse. Je tiens également à exprimer mes plus vifs remerciements au Docteur Amine CHOHRA, qui a co-encadré cette thèse. Sa disponibilité et ses nombreux conseils scientifiques ont permis de faire aboutir cette thèse. Un grand merci à Mr. Abdennasser CHEBIRA, Mme.Véronique AMARGER, Mr. Christophe SABORIN, Mr. Rachid MALTI, Mr. Vasse, Mr. Michel Barret et Mr. ABASSI, pour leur soutien tout au long de cette thèse. A mes collègues doctorants et docteurs que j’ai eu le plaisir de connaître pendant la préparation de ma thèse: Lamine, Saliou, Sofiene, Moustapha, WeiWei, Ivan, Mathieu, Arrash, Samira, Dalel, Sabri et Anne Sophie pour les échanges, leur sympathie et leur aide. Je n’oublie pas non plus mon Papa et ma Maman, qui m’ont soutenu tant financièrement que moralement, mes frères Simohammed, Abdelmajid, Youssef et Hicham et mes deux sœurs Fatima et Fadwa, une petite pensée à ma grande mère qui nous a quitté il y a quelque temps, merci à toute ma famille et mes amies en France et au Maroc. Merci à Tous xvii INTRODUCTION GENERALE 1 2 Le monde dans lequel nous vivons voit l’émergence des systèmes dont la complexité s'accroît constamment. Avec le développement des nouvelles technologies et de leur utilisation dans ces systèmes, la part consacrée à la détection et au diagnostic des défauts de ces derniers occupe une place de plus en plus importante. Les difficultés inhérentes à la construction d’un diagnostic pertinent ne concernent pas le seul domaine médical mais aussi d’autres domaines notamment le domaine industriel. En effet, dans le domaine médical, un diagnostic repose sur la capacité de raisonnement du médecin et de son aptitude à prendre des décisions, alors que les informations utilisées sont potentiellement entachées d'incertitudes. Ces incertitudes sont d'origines multiples: les informations utilisées peuvent être ambiguës car le malade peut exprimer une complainte et le médecin en entendre une autre. Ces informations peuvent être incomplètes car, en situation de prise de décisions, le médecin doit agir sans connaître l'ensemble des données relatives à un patient et bien entendu toute la connaissance spécifique de la situation. Elles peuvent être incertaines car les connaissances cliniques peuvent concerner des maladies plus ou moins fréquentes, ayant des formes cliniques différentes et ne s'exprimant pas toujours par la même symptomatologie, partageant certains signes avec d'autres maladies ou présentant des réponses variables à un traitement donné. Ces différentes raisons ont conduit à la conception et le développement des Systèmes d’Aide au Diagnostic (SAD) ayant pour but d’assister les praticiens dans l’élaboration de leurs diagnostic. Dans le domaine industriel, d’un côté les systèmes (véhicules, satellites, réseaux de télécommunications, …) sont de plus en plus complexes, mêlant matériel et logiciels et d’un autre côté il existe plusieurs contraintes à respecter: d’un point de vue économique, par 3 exemple, ces contraintes concernent l’obligation de rendement et la diminution des coûts en raison du contexte de plus en plus concurrentiel. Malheureusement, les systèmes ne sont pas à l'abri de défaillances avec des conséquences économiques, voire humaines. Ce qui explique la pertinence des SAD dans la réalisation de la chaîne du diagnostic (détection, localisation, identification de défaillances), et la part grandissante de ces derniers dans les installations industrielles. Un système global de diagnostic est composé des principales étapes à savoir: une étape de représentation de la connaissance (à partir d’une ou plusieurs sources d’information représentant les symptômes), une étape de classification, et une étape de prise de décisions. Les sorties du système représentent le diagnostic (avec une explication possible ou une justification) [BALA97]. Un Système d’Aide au Diagnostic (SAD) doit être capable d’identifier la nature d’un problème en examinant les symptômes observés: par exemple, à partir des symptômes observés, le SAD doit statuer en un fonctionnement ‘‘Normal’’ ou ‘‘Anormal’’ du système diagnostiqué. Ainsi, les principaux problèmes à résoudre afin d’élaborer un SAD sont: la représentation de la connaissance, la classification, la prise de décisions, ainsi que la proposition d’un indice de confiance d’identification des causes possibles (ou bien la suggestion de remèdes appropriés). Plusieurs approches ont été proposées pour l’élaboration d’un SAD. Pour les approches à base de modèles, il a été souvent supposé l’existence d’un modèle décrivant le système à diagnostiquer. Mais il faut aussi souligner les limites actuelles de cette approche, notamment du point de vue de son applicabilité à des problèmes réels. Selon [DAGU01] l'emploi des méthodes relevant de cette approche est justifié s'il existe un modèle précis du système, que ce soit sous forme mathématique ou sous forme de règles. Généralement, un modèle est une représentation formelle (mathématique) du système. L’élaboration d’un modèle précis implique donc une connaissance approfondie du système ce qui présente une limite lors du diagnostic d’un système complexe réel. Récemment, plusieurs approches basées sur les techniques issues de l’Intelligence Artificielle ont été développées [TURB 01], [KARR 04]. Les travaux développés concernent aussi bien des applications industrielles [BALA 97], [MENE 98], [PALM 05] que le domaine biomédical [PIAT 95], [VUCK 02], [WOLF 03], [YAN 05]. Ces approches ont l’avantage de ne pas nécessiter la connaissance d’un modèle mathématique exact, seule la disponibilité de données est nécessaire. Actuellement, l’une des approches les plus utilisées pour faire face aux problèmes 4 d’identification des caractéristiques, de classification et de prise de décisions inhérentes à la détection de défaillances et au diagnostic, est l’approche hybride multi-modèles avec le ‘‘soft computing’’ impliquant principalement les Réseaux de Neurones (RN) et la Logique Floue (LF) [PIAT 95], [BALA 97], [MURR 97], [KITT 98], [MENE 98], [KARR 04], [PALM 05], [YAN 05]. Inspiré à partir des systèmes nerveux biologiques et de la structure (architecture) du cerveau, les RN peuvent être vus comme des systèmes de traitement de l’information (de données) permettant l’élaboration de plusieurs techniques originales et couvrant un large champ d’applications, basés sur leur propriétés attrayantes telles que les capacités d’apprentissage et de généralisation [HAYK 99], [ZHAN 00], [EGMO 02]. Un grand nombre de techniques basées sur les RN ont déjà été développées pour résoudre des problèmes relatifs à l’optimisation, la modélisation, la prise de décisions, la classification, l’exploitation de données et l’approximation de fonctions non-linéaires (comportements). Un autre aspect tout aussi important et fortement lié au traitement des données complexes est l’extraction de l’information (la connaissance) utile à partir de ces données. Plusieurs approches ont été développé afin d’analyser et de classifier des signaux (issues des capteurs, des chaînes d’acquisition, des systèmes de contrôle, des systèmes de surveillance, …). Traditionnellement, de tels signaux sont traités en utilisant des approches de traitement du signal principalement basées sur l’identification des pics (amplitudes maximales) et des ondes à partir d’approches de reconnaissance de formes [PIAT 95], [DON 97], [VUCK 02], [WOLF 03], [VANN 02], [BRAD 04]. Le signal comme type de représentation de la connaissance est donc souvent utilisé dans le diagnostic de défaillances. Cependant, le temps (ou la fréquence) n’est pas toujours la variable la plus appropriée pour caractériser les phénomènes étudiés révélant ainsi l’intérêt et la nécessité d’exploitation de multiple représentations de la connaissance (signal, image, …). A partir de là, une idée intéressante dans le but d’élaborer des systèmes de diagnostic de défaillances peut consister à prendre l’avantage de plusieurs représentations de la même connaissance. Le travail de recherche développé dans cette thèse est en rapport avec les Systèmes d’Aide au Diagnostic (SAD) pour la détection et l’identification de défaillances, la reconnaissance (classification) de formes, et la prise de décisions basées sur l’Intelligence Artificielle, impliquant notamment les Réseaux de Neurones (RN) et la Logique Floue (LF). Le but de ce travail n’est absolument pas de remplacer le spécialiste humain (médecin, expert, …) mais de proposer des systèmes d’aide à la décision pour le diagnostic de défaillances avec un certain indice de confiance. Ainsi, l’objectif principal du travail développé dans cette thèse, est le développement d’approches hybrides, basées sur une multiple représentation de la 5 connaissance et reposant sur un ensemble de classifieurs (redondance et/ou complémentarité), permettant l’élaboration de Systèmes d’Aide au Diagnostic (SAD), destinés aux domaines biomédical et industriel qui s’adapteraient facilement d’une application à une autre. Nous nous sommes alors proposés une méthodologie globale d’aide au diagnostic basée sur le concept ci-dessus. Les avantages potentiels de cette méthodologie sont: le traitement indépendant de l’information afin d’avoir plusieurs avis différents, la multiple représentation de la connaissance d’une même source ou de différentes sources d’information, la multiple classification (redondance et/ou complémentarité), l’hybridation de techniques de classification et de prise de décisions et l’exploitation d’un ‘‘Paramètre de Confiance’’ (PC) dans la prise de décisions afin de proposer un résultat final de diagnostic avec Indice de Confiance (IC). De plus, l’aspect modulaire dans cette méthodologie facilitera l’adaptation de celle-ci à d’autres applications potentielles. Afin de valider la méthodologie proposée, nous proposons l’architecture d’une approche hybride modulaire qui se base essentiellement sur une double représentation de la connaissance et une double classification. Ainsi, cette architecture sera composée: d’une seule source d’information, de deux modules de représentation de la connaissance, de deux modules de classification, et d’un module de prise de décisions. Notons d’une part que l’intérêt dans la double représentation de la connaissance d’une même source d’information réside dans la richesse de l’information que l’on peut extraire de différentes représentations de la connaissance. D’autre part, notons que l’aspect redondant et/ou complémentaire, inhérent à cette double classification, agit au bénéfice de la viabilité de tout le système d’aide au diagnostic proposé. Cette validation de l’architecture proposée se poursuit par l’étude et la conception des différents modules de représentation de la connaissance, de classification, et de prise de décisions. De cette étude et conception, différentes variantes de l’approche hybride modulaire sont déduites selon différentes stratégies de représentation de la connaissance et de la classification. Ensuite, pour chaque variante étudiée un (ou plusieurs) système(s) hybride(s) est (sont) proposé(s), développé(s), et implémenté(s). Trois Chapitres charpentent le présent rapport doctoral. Dans le Chapitre I, une étude des notions de base en rapport direct avec les Systèmes d’Aide au Diagnostic (SAD) est présentée. L’état de l’art sur les approches pour les SAD est présenté, par la suite, focalisant sur les principales approches développées pour les SAD. A partir de là, nous avons recensé les principaux problèmes à résoudre (représentation de la connaissance, classification, et prise de décisions) dans l’élaboration d’un SAD. 6 Dans le Chapitre II, nous étudions une architecture de l’approche hybride modulaire de SAD exploitant une seule source d’information, et composée de deux modules de représentation de la connaissance, de deux modules de classification, et d’un module de prise de décisions. Nous présentons l’étude, la conception et le développement des différents modules de cette architecture de l’approche hybride modulaire. L’étude rapportée porte sur: - différentes représentations de la connaissance issues d’une seule source d’information, à savoir: la représentation signal, la représentation image globale, la représentation image subdivisée et différentes combinaisons ou stratégies exploitables dans une double représentation de la connaissance, - différents classifieurs potentiellement intéressants à mettre en oeuvre notamment un classifieur à un seul réseau de neurones ou un classifieur à plusieurs réseaux de neurones, utilisant deux types de réseaux de neurones: le réseau MLP (‘‘MultiLayer feedforward Perceptron networks’’) à cause du caractère global de ce type de réseau et le réseau RBF (‘‘Radial Basis Function networks’’) vis-à-vis de sa capacité de classification et en tant qu’approximateur neuronal local, - la prise de décisions se base sur deux systèmes flous: un système flou primaire pour décider, à partir de la double classification, d’un diagnostic primaire, et un système flou final pour décider, à partir du diagnostic primaire et d’un paramètre de confiance, d’un diagnostic final avec un indice de confiance. Concernant l’élaboration d’une représentation image, nous proposons une méthode de conversion Signal à Image basée sur deux critères de seuillages: 1er critère de seuillage basé sur les amplitudes et 2ème critère de seuillage basé sur les aires. A l’issue des études menées, plusieurs variantes exploitant une double représentation de l’information d’entrée et deux types de classifieurs ont été mises en œuvre. Compte tenu des différentes combinaisons possibles, nous proposons et développons plusieurs Systèmes Hybrides Modulaires (SHM) dont les performances seront comparées dans le Chapitre III. Dans le Chapitre III, nous présentons la mise en œuvre, les résultats expérimentaux, et la synthèse des différents Systèmes Hybrides Modulaires (SHM) d’aide au diagnostic proposés à travers une étude de cas relative au domaine biomédical. Ensuite, nous présentons la mise en œuvre, les résultats expérimentaux, et la synthèse relatifs à une étude de cas concernant une application industrielle. 7 Enfin, nous présentons les conclusions du travail de recherche effectué dans le cadre de cette thèse ainsi que les principaux travaux en perspectives. 8 Chapitre I. SYSTEMES D’AIDE AU DIAGNOSTIC (SAD) 9 10 I. 1. INTRODUCTION Etymologiquement, diagnostic vient du grec ‘‘diagnosis’’: connaissance. A l’origine utilisé dans le domaine médical, ce terme signifie: identification d’une maladie par ses symptômes. Plus généralement, on peut le définir comme: un jugement porté sur une situation, sur un état. Mais l’interprétation du mot diagnostic possède de nombreuses significations suivant les interlocuteurs auxquels on s’adresse: le diagnostic financier d’une société concerne la vérification de son état financier, le diagnostic médical s’intéresse à déterminer une maladie pour identifier les causes, le diagnostic industriel, quand à lui, a pour objet de trouver la cause d’une défaillance [ZWIN 95]. Les travaux de recherche sur le diagnostic ont mobilisé durant ces dernières années une large communauté de chercheurs [BALA 97], [MENE 98], [PALM 05], [VUCK 02], [WOLF 03]. Il a aujourd’hui conquis sa place tel que la recherche dans ce domaine s'appuie sur la prise en compte de cas réels. Ce constant aller-retour entre la réalité du terrain et l'avancée scientifique fait du diagnostic un terrain de recherche très intéressant. Le domaine médical a su très rapidement intégrer des outils d’aide au diagnostic [PIAT 95], [VUCK 02], [WOLF 03], [YAN 05] et la santé a constitué un enjeu très motivant pour les recherches dans ce domaine. Cette vision médicale a ensuite été reprise dans le monde technique et industriel [BALA 97], [MENE 98], [PALM 05]. Cette fois, il ne s'agit plus de rechercher les causes d'une maladie chez un patient mais les causes d'une défaillance ou d'une panne d'un dispositif physique. Dans ce domaine, plusieurs travaux ont été développés concernant plusieurs secteurs à haut niveau de risque comme l’aéronautique ou le 11 nucléaire [POTT 77], [DALY 79] ainsi que des secteurs de pointe tels que l’industrie de l’armement ou l’aérospatial [DESA 76], [DECK 77]. D'un point de vue conceptuel, il n'y a pas de différence fondamentale entre le diagnostic médical et le diagnostic technique (ou industriel). Tous les deux consistent à rechercher les causes d'un dysfonctionnement d'un système physique ou vivant en vue de le réparer ou de le soigner. Dans la partie § I. 2, nous passons en revue les caractéristiques de base d’un système d’aide au diagnostic, nous présentons, dans § I. 3, un état de l’art sur les approches permettant l’élaboration d’un système d’aide au diagnostic. Nous posons, dans § I. 4, la problématique et les solutions proposées, que nous nous sommes définis, pour l’élaboration d’un système d’aide au diagnostic. I. 2. SYSTEMES D’AIDE AU DIAGNOSTIC (SAD) Un système de diagnostic est un système capable d’identifier la nature d’un problème en examinant les symptômes observés, les sorties d’un tel système représentent le diagnostic. Globalement, le but principal d’un système d’aide au diagnostic [PALM 05], [YAN 05] est de détecter une ou plusieurs défaillances le plutôt possible, de classer et d’identifier les défauts et être capable de donner un Indice de Confiance (IC) associé au diagnostic effectué, ou le cas échéant de donner des remèdes (solutions) appropriés aux défaillances (système capable de conseiller). I. 2. 1. Défaillances Plusieurs définitions existent pour le terme défaillance qui est une notion fondamentale en diagnostic réclamant une grande rigueur lors de sa définition: - état d'incapacité à réaliser une fonction normale de façon adéquate, - altération ou cessation de l'aptitude d'un ensemble à accomplir sa ou ses fonctions requises avec les performances définies dans les spécifications techniques, - cessation de la capacité d'un système physique ou d'un dispositif à accomplir ses fonctions. 12 I. 2. 2. Détection de Défaillances La détection d'une défaillance consiste à reconnaître une déviation par rapport au fonctionnement attendu d’un système. De plus, un système d’aide au diagnostic doit être capable de détecter une ou plusieurs défaillances le plutôt possible. En effet, une détection précoce des défauts évite des conditions de fonctionnement dangereuses, augmente la disponibilité et la productivité du système et garantit la qualité du produit ou du service. Une autre propriété tout aussi importante d’un système d’aide au diagnostic est qu'il doit être suffisamment sensible pour permettre une détection des défaillances, mais également suffisamment robuste pour éviter les fausses alarmes en présence de perturbations. I. 2. 3. Indice de Confiance d’un Diagnostic Un Indice de Confiance (IC) associé à un diagnostic permet de déterminer la qualité des résultats donnés par le SAD. En effet, plus le IC est élevé, plus le diagnostic du SAD est pertinent. I. 2. 4. Représentation de la Connaissance Le signal unidimensionnel a souvent été utilisé comme support de la connaissance. Cette représentation signal a donc longtemps été exploitée aussi bien dans le diagnostic biomédical (sondes, signal d’électrocardiogrammes, électro-encéphalogramme, …) que dans le diagnostic industriel (signaux issues de capteurs industriels). Actuellement, avec le développement de la technologie des systèmes électroniques, des chaînes d’acquisition de données, des capteurs, et de l’informatique en général, la représentation image est de plus en plus disponible et de plus en plus exploitée (scanner, imagerie par résonance magnétique, …). Dans le domaine du diagnostic, ces deux types de représentations, signal et image, présentent un intérêt particulier dans le fait que ce que l’on pourrait exploiter d’un signal est différent de ce que l’on pourrait exploiter d’une image. Ce qui présente plutôt un avantage dans le cas où l’on disposerait d’une représentation signal et d’une représentation image à la fois. 13 Par conséquent, la qualité d’un SAD dépend fortement de ou des représentations de la connaissance exploitées (puisque le diagnostic dépendra des informations traitées). La qualité d’un SAD sera différente à partir: - de l’exploitation d’un seul type de représentation de la connaissance (signal ou image), - de l’exploitation de deux types de représentations de la connaissance (signal et image) issues de deux sources d’informations différentes, - ou de l’exploitation de deux types de représentations de la connaissance (signal et sa transformation ou conversion en image) issues d’une même source d’information. I. 2. 5. Classification Le diagnostic est basé sur des observations multiples, ces observations sont regroupées pour former des classes qui définissent une situation ou un mode de fonctionnement du processus, auxquelles une nouvelle observation sera comparée pour être identifiée. En d'autres termes, le diagnostic a pour mission d'identifier le mode de fonctionnement d'un système à partir d'observations sur celui-ci. La classification peut être définie comme le regroupement des observations (ou objets ou individus) qui ont des caractéristiques similaires. Chaque observation est définie par un vecteur noté X i = [x1 , x 2 ,..., x D ] dans un espace à D dimensions, où D correspond au nombre T d'attributs ou caractéristiques. Cet espace est connu sous le nom d'espace de représentation ou de description. Le regroupement des observations selon leurs caractéristiques permet la définition des classes décrivant des régions particulières de l'espace de représentation. L'ensemble des classes C = {C k , k = 1...K } définit l'espace de décisions. Le regroupement des observations pour construire l'espace de décisions est fait à partir d'une phase d'apprentissage en utilisant une mesure de similitude par le biais des méthodes de classification. L'objectif du réseau de neurones est alors de savoir associer toute nouvelle observation X i à une classe de l'espace de décisions comme illustré sur la Figure I. 1. L'affectation d'une observation X i à l'une des K classes notées C 1 ,..., C K indique une opération de classement ou de discrimination. 14 Figure I. 1. Association d’une nouvelle observation Xi à une des classes. Si nous nous plaçons dans le contexte du diagnostic, les paramètres caractérisant le vecteur d'observations, et par conséquent l'espace de représentation, seront les mesures disponibles issues des capteurs et actionneurs du processus ou bien informations extraites de ceux-ci. Les classes peuvent être assimilées aux différents modes de fonctionnement du processus, définissant alors l'espace de décisions. Donc, l'objectif en termes de diagnostic est de définir à quel mode de fonctionnement correspond une nouvelle observation. La classification est l’une des étapes les plus décisives dans un système d’aide au diagnostic. Classer des formes ou individus (par exemple des données, des images, des phénomènes, des objets, …) décrits par un ensemble de grandeurs caractéristiques, c’est les ranger en un certain nombre de catégories ou classes. Mais la grande difficulté d’un problème de diagnostic est due, dans de nombreux cas, à la similitude des caractéristiques des connaissances à partir desquelles est effectué un diagnostic, ce qui explique la difficulté de cette étape de classification (où les données sont souvent difficilement séparables) dans un système d’aide au diagnostic. I. 2. 6. Prise de Décisions La prise de décisions est une autre étape décisive dans un système d’aide au diagnostic. La prise de décisions consiste à décider d’un diagnostic final à partir d’un ensemble de données. Cette étape est loin d’être une tâche facile et particulièrement dans les domaines auxquels nous nous sommes intéressés: biomédical et industriel. En effet, les 15 stratégies de la prise de décisions peuvent dépendre de la nature des données à partir de laquelle les décisions sont élaborées. Mais il arrive souvent que les données disponibles soient imprécises, ambiguës ou floues (due aux conditions d’acquisition, etc…) rendant la tâche de la prise de décisions difficile à partir de ces données. Ainsi, la prise de décisions peut dépendre de la pertinence de représentation de la connaissance ou de l’efficacité de la classification. Elle peut aussi changer selon l’architecture du module de classification. Ainsi la nature des données (imprécises, ambiguës, floues, … ) et le nombre de classifieurs (un classifieur, plusieurs classifieurs) sont deux points importants dans l’étape de la prise de décisions. I. 2. 7. Architecture Globale d’un Système d’Aide au Diagnostic (SAD) Un Système d’Aide au Diagnostic (SAD) est un système capable d’identifier la nature d’un problème en examinant les symptômes observés [BALA 97]. Le synoptique global d’un système d’aide au diagnostic est présenté sur la Figure I. 2. Il est composé de trois étapes de traitement: une étape de représentation de la connaissance, une étape de classification (les sorties de cette étape sont alors un ensemble de classes de diagnostic primaire) et une dernière étape pour la prise de décisions (le rôle de cette étape est la détermination du diagnostic final). Après avoir donné quelques définitions et notions essentielles, ainsi que l’architecture globale d’un SAD, le paragraphe qui suit présente l’état de l’art des approches pour l’élaboration des SAD. Diagnostic Sorties Symptômes Représentation de la Connaissance Classification Prise de Décisions Indice de Confiance/ Remèdes (Solutions)/ … Figure I. 2. Synoptique global d’un Système d’Aide au Diagnostic (SAD). 16 I. 3. ETAT DE L’ART SUR LES APPROCHES POUR LES SYSTEMES D’AIDE AU DIAGNOSTIC (SAD) Dans ce paragraphe, nous présentons un ensemble d’approches destinées à l’élaboration d’un Système d’Aide au Diagnostic (SAD). Ces approches couvrent deux classes: les modèles quantitatifs, modèles qualitatifs ou semi qualitatifs qui relèvent des méthodes basées sur des modèles et l’analyse des modes de défaillances et de leurs effets, arbres de défaillances, analyse en composantes principales, systèmes experts, systèmes flous, réseaux de neurones qui relèvent des méthodes basées sur la connaissance. Ensuite, nous présentons une étude de synthèse dans le but de déterminer les principales caractéristiques d’une approche permettant l’élaboration d’un SAD. I. 3. 1. Modèles Quantitatifs Les Modèles Quantitatifs sont construits à partir des lois fondamentales (physique, chimie, ...) et décrits par des relations mathématiques sur les entrées-sorties du système. Diverses approches pour la détection de défaillances à partir des modèles mathématiques ont été développées depuis les années 70 [ISER 97]. Ces méthodes dites "méthodes des résidus" comportent deux étapes : d'une part, la génération des résidus et, d'autre part, le choix d'une règle de décisions pour le diagnostic. Les résidus représentent des changements ou divergences entre le comportement réel du processus et celui prévu par le modèle. La Figure I. 3 illustre le principe général pour la génération des résidus. E n trées S o rties S y stè m e R ésid u s M o d è le E tsim é G é n é ra tio n d e R é sid u s Figure I. 3. Principe de génération de résidus. L'objectif du résidu étant sa sensibilité aux défauts, en l'absence de défaillances, c'està-dire en fonctionnement normal, le résidu doit avoir une valeur nulle. Au contraire, en présence d'un défaut, le résidu doit avoir une valeur non nulle. 17 Les techniques les plus utilisées pour la génération des résidus, à partir de modèles analytiques, sont listées ci-dessous: • équations de parité [GERT 98], • estimation d'état à partir d'observateurs ou filtres de Kalman [FRAN 89], • estimation paramétrique [ISER 93], • analyse structurelle [CASS 97]. Une fois les résidus générés, ils doivent être évalués pour déterminer la présence ou non d'une défaillance. Cette évaluation des résidus est établie principalement par l'utilisation de seuils fixes ou adaptatifs pour éviter les fausses alarmes. Néanmoins, la plupart du temps, les résidus sont corrélés entre eux. Pour gérer cette corrélation, le maximum de vraisemblance généralisé peut être utilisé. Il s'agit d'une technique qui, sous l'hypothèse que les variables ont une distribution connue, usuellement la distribution normale, permet d'estimer les paramètres d'un modèle (d'une équation ou d'un système, linéaire ou non linéaire) avec des restrictions sur les paramètres (coefficients, matrice de variances et covariances) ou non. Plus spécifiquement, la technique consiste à construire une fonction appelée fonction de vraisemblance (construite à partir de la fonction de densité) et à maximiser son logarithme par rapport aux paramètres inconnus. Pour isoler la faute, l'approche ‘‘Fault Detection and Isolation’’ [CORD 00] par exemple, utilise une matrice de signatures de fautes (Σ ) qui est obtenue à partir de l'ensemble des résidus. Cette matrice décrit les relations entre les résidus (lignes de Σ ) et les fautes (colonnes de Σ ). Un élément de Σ ij aura une valeur de 1 si la faute de la colonne j a une influence sur le résidu de la ligne i, dans le cas contraire, la valeur sera 0. La comparaison d'une signature observée avec les différentes colonnes de la matrice permet alors de localiser la faute. I. 3. 2. Modèles Qualitatifs ou Semi-Qualitatifs Dans certains cas, il devient très difficile de disposer des connaissances complètes pour établir un modèle analytique du processus à cause de sa complexité structurelle ou de son comportement. Une alternative pour traiter les connaissances incomplètes est de faire des abstractions selon le principe du raisonnement qualitatif [TRAV 97]. Les modèles décrivent alors la structure du processus à diagnostiquer. Généralement, il s'agit des connexions entre 18 les composants. L'approche DX, décrite dans [CORD 00] exprime explicitement le lien entre un composant et les formules décrivant son comportement. Ces dernières années, l'utilisation de modèles qualitatifs pour la surveillance et le diagnostic de défaillances a pris une grande ampleur [TRAV97], [ESCO 01]. Parmi les méthodes qui utilisent les modèles physiques de type qualitatif pour la détection et le diagnostic de fautes, se trouve la prédiction du comportement à partir des équations différentielles qualitatives. Ces équations différentielles qualitatives sont des abstractions des équations différentielles ordinaires qui utilisent des intervalles de variables et des paramètres. L'algorithme Qualitative SIMulation (QSIM) [KUIP 86] représente un système comme un ensemble d'équations différentielles qualitatives couplées. Le comportement du système est alors représenté par une séquence d'états. Selon l'approche DX, le diagnostic est basé sur la théorie du raisonnement logique [DAGU 01]. Pour le diagnostic, les termes suspect et candidat sont utilisés. Le premier fait référence à tout composant que le système de diagnostic a identifié comme responsable possible de l'apparition d'une divergence. Tandis que le deuxième fait référence au composant, ou ensemble de composants, dont le fonctionnement incorrect expliquerait toutes les divergences observées. Une caractéristique de cette technique est que le diagnostic se fait de façon itérative en trois phases : • la détection de conflits: recherche de l'ensemble de composants suspects en fonction des divergences observées, • le diagnostic: recherche des candidats parmi les suspects, • la discrimination des hypothèses: raffinement de l'ensemble de candidats dans le cas où il y en aurait plusieurs. Le principal inconvénient des méthodes quantitatifs, qualitatifs ou semi-qualitatifs est la nécessité d’avoir des modèles mathématiques suffisamment précis, ce qui n’est pas toujours facile, voire impossible, pour des processus complexes. Ces modèles sont limités aux représentations linéaires ou à des modèles non-linéaires très spécifiques. I. 3. 3. Analyse des Modes de Défaillances et de leurs Effets La méthode de l'Analyse des Modes de Défaillances et de leurs Effets fût employée pour la première fois, à partir des années 1960, dans le domaine de l'aéronautique pour l'analyse de la sécurité des avions [RECH 66]. Cette méthode permet une analyse 19 systématique et très complète, composant par composant, de tous les modes de défaillances possibles, et précise leurs effets sur le système global [VILL 88]. La démarche consiste d'abord à définir le système, ses fonctions et ses composants. Ensuite, l'ensemble des modes de défaillances des composants doit être établi. Pour chaque mode de défaillances, les causes possibles de son apparition sont alors recherchées. Finalement, une étude des effets sur le système et sur l'opérateur est faite pour chaque combinaison (cause, mode de défaillances), donnant les résultats sous forme de tableau. L'Analyse des Modes de Défaillances et de leurs Effets est parfois complétée par une analyse de criticité, elle devient Analyse des Modes de Défaillances, de leurs Effets et de leur Criticité. La criticité permet d'extraire les modes de défaillances les plus critiques. L'analyse de criticité est évaluée à partir du couple probabilité-gravité. L'analyse de fonctionnement ‘‘Hazard and Operability Study’’ [JOYC 94] est une autre extension de l'Analyse des Modes de Défaillances et de leurs Effets. Cette méthode explore systématiquement l'aspect fonctionnel d'un système en identifiant, à la fois, les dangers et les dysfonctionnements d'une installation. Elle est mise en oeuvre à la fin de la phase de conception puisqu’elle s’appuie sur les schémas détaillés du système. L'utilisation des tableaux d’Analyse des Modes de Défaillances et de leurs Effets (et de leur Criticité) à des fins de diagnostic industriel conduit à utiliser une procédure déductive, c'est à dire à utiliser ces tableaux comme un outil d'identification des causes de défaillances à partir des effets observés [ZWIN 95]. La modélisation des relations cause à effet réalisée par l'Analyse des Modes de Défaillances, de leurs Effets et de leur Criticité rend cette démarche très puissante pour la résolution des problèmes de diagnostic de défaillances des procédés industriels. L’inconvénient principal de cette méthode est l’identification à priori de défauts pouvant apparaître dans le système à superviser. Ce recensement ne peut jamais être exhaustif et requiert en général une longue expérience. I. 3. 4. Arbres de Défaillances L'Arbre de Défaillances (ou Arbre de Causes) est l'un des outils majeurs d'analyse du risque technologique, développé au début des années 1960 aux Etats-Unis [VILL 88]. C'est la méthode la plus couramment utilisée dans les analyses de fiabilité, de disponibilité ou de sécurité des systèmes. 20 Il s'agit d'une méthode optimisée qui permet la détermination des chemins critiques dans un système. Cette méthode a pour objet de déterminer les diverses combinaisons possibles d'événements qui entraînent la réalisation d'un événement indésirable unique. Elle permet donc d'identifier les points faibles de la conception. C'est une méthode déductive dont la représentation graphique des combinaisons est réalisée par une structure arborescente (arbre), permettant un traitement à la fois qualitatif et quantitatif. Cet arbre est établi sous forme d'un diagramme logique et comporte au sommet l'événement indésirable. Les causes immédiates qui produisent cet événement sont ensuite hiérarchisées à l'aide de symboles logiques "ET" et "OU". De cette façon, l'arbre est créé pas à pas pour atteindre, à la base, un ensemble d'événements considérés comme élémentaires. Le principal inconvénient de cette méthode est que son développement est sensible aux erreurs commises à différentes étapes de construction de l’arbre de défaillances. I. 3. 5. Analyse en Composantes Principales L’Analyse en Composantes Principales est une technique statistique multivariables. Les techniques statistiques multivariables sont des outils puissants, capables de comprimer des données et de réduire leur dimensionnalité de sorte que l'information essentielle soit maintenue et plus facile à analyser que dans l'ensemble original de données. Ces techniques peuvent également manipuler le bruit et la corrélation pour extraire l'information efficacement. La fonction principale de ce type de techniques est, par le biais d'une procédure mathématique, de transformer un certain nombre de variables corrélées en un ensemble plus petit de variables non corrélées. L'Analyse en Composantes Principales est essentiellement basée sur une décomposition orthogonale de la matrice de covariance des variables du processus le long des directions qui expliquent la variation maximale des données, c'est à dire que cette méthode recherche une projection des observations sur des axes orthogonaux. De ce fait, le premier axe contiendra la plus grande variation. Le deuxième axe contiendra la seconde plus grande variation orthogonale au premier. Le but principal de l'Analyse en Composantes Principales est donc de trouver un ensemble de facteurs (composantes) qui ait une dimension inférieure à celle de l'ensemble original de données et qui puisse décrire correctement les tendances principales. L'Analyse en Composantes Principales est une procédure qui ne prend en compte que les variables du 21 processus. Parfois, un ensemble additionnel de données est disponible, c'est-à-dire variables de qualité du produit. Il est souhaitable d'inclure toutes les données disponibles pour la surveillance du procédé et d'utiliser de cette façon les variables du processus pour prédire et détecter des changements dans les variables de qualité du produit. Pour cela, la méthode des Moindres Carrés Partiels peut être utilisée [VENK 03]. Cette méthode modélise le rapport entre deux blocs de données tout en les comprimant simultanément. Elle est employée pour extraire les variables latentes qui expliquent la variation des données du processus. Divers travaux menés par MacGregor et al. [NOMI 94], [MACG 95] ont montré l'application des méthodes statistiques multivariables telles que l'Analyse en Composantes Principales et Moindres Carrés Partiels, dans l'analyse et la commande de processus, la détection et le diagnostic de défaillances, aussi bien dans le cas de procédés continus que dans les cas de procédés ‘‘batch’’ (continus par lots). La limitation importante de cette méthode est que la plupart des processus réels évoluent au cours du temps tandis que la représentation obtenue par cette méthode est invariante dans le temps, par conséquent, la représentation issue de l’Analyse en Composantes Principales nécessite une mise à jour périodiquement. I. 3. 6. Systèmes Experts Pour les systèmes experts, ou systèmes à base de connaissances, le diagnostic et particulièrement le diagnostic industriel est devenu un domaine d'application privilégié. Les systèmes experts sont des outils de l'Intelligence Artificielle, utilisés lorsqu’aucune méthode algorithmique exacte n'est disponible ou praticable. De façon générale, nous pouvons dire qu'un système expert sert à codifier la connaissance humaine en termes d'expérience, raisonnement approximatif, analogie, raisonnement par défaut, apprentissage, etc... De ce fait, la propriété principale de ces systèmes est de pouvoir représenter et restituer les connaissances acquises par les spécialistes d'un domaine technique précis. Les connaissances utilisées, dans la plupart des cas, pour le développement d'un système expert d'aide au diagnostic, reposent sur l'apprentissage des relations entre les causes et les effets observés pour chaque défaillance [AGUI 99]. Néanmoins, il est possible aussi d'utiliser les modèles fonctionnels décrivant les comportements des composantes de systèmes complexes [CHAT 93]. La définition que nous retenons pour les systèmes experts est celle donnée par [ZWIN 95]: 22 «Un système expert est un système informatique destiné à résoudre un problème précis à partir d’une analyse et d’une représentation des connaissances et du raisonnement d’un (ou plusieurs) spécialiste(s) de ce problème». Un système expert est composé de deux parties indépendantes, voir Figure I. 4: • une base de connaissances, elle même composée d'une base de règles qui modélise la connaissance du domaine considéré et d'une base de faits qui contient les informations concernant le cas traité, • un moteur d'inférences capable de produire un certain nombre de mécanismes simples du raisonnement à partir des informations contenues dans la base de connaissances, de faire des déductions, etc... Au fur et à mesure que les règles sont appliquées, des nouveaux faits se déduisent et se rajoutent à la base de faits. Expert Base de Règles Base de Faits M oteur d’Inférences Utilisateur Figure I. 4. Architecture d’un système expert. Les principaux avantages des systèmes experts, vis à vis du diagnostic, sont leur capacité à ‘‘raisonner’’ sous incertitude, leur capacité à apporter des explications à des solutions fournies et le jeu de règles efficaces résultat de l’expertise humaine. Parmi les inconvénients de cette méthode, sa dépendance de la qualité de l’expertise faite sur le système à diagnostiquer. De plus, les règles construites, étant fortement liées à un système, ne peuvent être utilisées sur un autre. I. 3. 7. Systèmes Flous (SF) Une autre alternative pour la modélisation des systèmes complexes est l'utilisation des concepts de la théorie des ensembles flous et de la Logique Floue (LF) [ZADE 65], [YAGE 23 94]. Un modèle flou est une représentation des caractéristiques d'un système à l'aide de règles floues qui décrivent sont comportement. Ceci permet une généralisation de l'information qui essaie d'imiter le raisonnement approximatif exécuté par l'homme en introduisant l'imprécision [ZADE 73]. Les systèmes à base de règles floues sont des systèmes où les relations entre variables sont représentées au moyen de règles floues [ZADE 92] de la forme: SI prémisse ALORS conclusion. Fondamentalement deux types de modèles sont distingués: • Modèles linguistiques flous [MAMD 77] qui décrivent le système à partir des règles SI - ALORS où, les prémisses et les conclusions utilisent des variables linguistiques qui ont des ensembles flous comme valeurs. L'ensemble de règles prend la place de l'ensemble d'équations classique utilisé pour caractériser un système. Ce type de modèles est essentiellement une expression qualitative du comportement du système, où les règles sont obtenues la plupart du temps à partir de la connaissance des experts et des différents mécanismes de raisonnement. De façon générale, une règle SI-ALORS linguistique s'écrit: Ri : SI x est Ai ALORS y est Bi , i = 1, 2,..., K où Ai et Bi sont des ensembles flous qui définissent le partitionnement des espaces d’entrée et de sortie. • Modèles flous type Takagi-Sugeno-Kang [TAKA 85] pour lesquels les prémisses des règles sont des variables linguistiques mais les conclusions sont de type numérique, généralement sous forme de constantes, de polynômes ou de fonctions (linéaires ou non linéaires) qui dépendent des entrées: Ri : SI x est Ai ALORS y i = f i ( x ), i = 1, 2,..., K En termes d’Intelligence Artificielle, ces règles résument l’expérience de l’expert et elles ne sont, en général, pas définissables de façon unique puisque chaque individu crée ses 24 propres règles. Les bases de règles floues, tout comme les systèmes experts classiques, fonctionnent en s’appuyant sur une base de connaissance issue de l’expertise humaine. Il y a néanmoins de grandes différences dans les caractéristiques et le traitement de cette connaissance. Fonctions d’Appartenances Entrées Fuzzification Base de Règles Floues Défuzzification Sorties Inférence Floue Figure I. 5. Les trois étapes d’un traitement flou. Les étapes d’un Traitement Flou: Un traitement flou comporte trois étapes fonctionnelles à partir de l’établissement des fonctions d’appartenances des entrées et d’une base de règles floues [LEE 90] (voir aussi Annexe B) résumées dans la Figure I. 5 suivante: • Fuzzification: cette opération calcule les degrés d’appartenance aux ensembles flous de chaque fonction d’appartenance correspondant à chaque entrée. • Inférence Floue: l’inférence floue est le mécanisme permettant de passer de l’entrée A à la conclusion B, en exploitant la base de règles floues et en utilisant un algorithme de recherche et d’appariement, et les opérateurs MAX-MIN, • Défuzzification: à la fin de l’inférence, l’ensemble flou de sortie est déterminé mais il n’est pas directement utilisable, il est nécessaire alors de procéder à l’opération inverse de la fuzzification, c’est l’opération de défuzzification. Il existe plusieurs méthodes pour réaliser cette opération dont les trois de méthodes suivantes: - la technique du maximum, - la technique de la moyenne pondérée, - la technique du centre de gravité. Un système basé sur la logique flou permet d’exploiter la caractéristique du raisonnement de l’être humain qui n’est pas basée sur la logique binaire classique, impliquant des vérités floues, des règles de déduction floue,…souvent nécessaires dans l’établissement d’un diagnostic. 25 I. 3. 8. Réseaux de Neurones (RN) Pour les Réseaux de Neurones (RN) [HAYK 99], le diagnostic de défaillances est essentiellement vu comme un problème de reconnaissance et de classification. En effet, l’une des tâches principales à effectuer en diagnostic est la reconnaissance et la classification des données et les réseaux de neurones sont des outils bien adaptés pour cette tâche. Un réseau de neurones artificiel est un ensemble d’unités de calcul appelées des neurones, organisées sous forme de couches et connectées totalement où partiellement entre elles. Pour chaque connexion entre deux neurones est associé un poids. La Figure I. 6 présente un exemple d’un réseau de neurones MLP. Dans cette exemple, le MLP est composé de trois couches tel que la couche d’entrée est composée de M neurones, la couche cachée est composée de P neurones et la couche de sortie est composée de N neurones de sorties. Le vecteur X(x1, x2, …, xM) présente le vecteur d’entrée, le vecteur O(o1, o2, …, oN) présente le vecteur de sortie, et W 2 kj et W 1ik présentent les poids de la couche cachée et de la couche de sortie respectivement. Couche d’Entrée X1 Xj XM 1 j Couche Cachée Y 1 Couche de Sortie 1 W2 kj 1 Y k k W1 ik O 1 i O i N O N Y P M P Figure I. 6. Exemple d’architecture d’un réseau de neurones MLP. Lorsqu’un réseau de neurones est utilisé pour le diagnostic, l’approche consiste à apprendre au réseau un certain nombre de situations de fonctionnement normal et anormal du système. Lors de l’apprentissage, les paramètres poids du réseau de neurones sont ajustés suivant les exemples appris. Dans le cas du réseau de neurones MLP par exemple, on utilise généralement l’algorithme de la rétropropagation pour l’apprentissage. A l’issu de cet apprentissage, le réseau de neurones peut généraliser en donnant des réponses (une classification correcte des données présentées) à des situations non apprises, grâce à la capacité de généralisation des réseaux de neurones. 26 La capacité des êtres humains à se rappeler et à apprendre, plusieurs choses sans nécessairement oublier celles apprises dans le passé, représente la principale fonction utilisée dans les RN pour mimer le cerveau humain et ce qui présente l’avantage principal de cette méthode. Essentiellement, les RN sont capables d’effectuer une tâche importante dans un système d’aide au diagnostic à savoir la classification par apprentissage et généralisation. I. 3. 9. Synthèse Nous avons passé en revue un ensemble d’approches pour l’élaboration des systèmes d’aide au diagnostic. Pour les deux premières approches, Modèles Quantitatifs et Modèles Qualitatifs (ou Semi Qualitatifs), elles se basent sur l’élaboration d’un modèle mathématique pour la détection et le diagnostic. Mais souvent la construction d’un tel modèle est très difficile due à la nature non linéaire du système à diagnostiquer, à des paramètres (souvent dynamiques), au grand nombre de paramètres mis en jeu, etc…, ce qui présente le principal inconvénient de ces méthodes. Pour ce qui concerne l’approche Analyse des Modes de Défaillances et de leurs Effets, une méthode très répandue dans de nombreux domaines industriels (l’aéronautique en particulier), elle reste lourde et insuffisante. En effet, il est nécessaire d’identifier à priori les défauts et/ou les dysfonctionnements pouvant apparaître dans le système supervisé. Le recensement préalable des défaillances et les relations éventuelles entre elles ne peut jamais être exhaustif et requiert en général une longue expérience. En plus, toute modification ou évolution du système nécessite une réécriture du tableau. Enfin, cette méthode ne peut traiter les cas de défaillances multiples. L’Arbre de Défaillances est une autre méthode que nous avons passée en revue. Elle permet la détermination des chemins critiques dans un système, mais son principal inconvénient est que sa mise en œuvre est sensible aux erreurs commises à différentes étapes. En effet, pour exécuter un diagnostic correct à partir des Arbres de Défaillances, ceux-ci doivent largement représenter toutes les relations causales du processus, c'est à dire qu’ils doivent être capables d'expliquer tous les scénarios de défauts possibles. De plus, l'emploi de cette méthode se révèle difficile pour les systèmes dynamiques. Enfin, il n'y a pas de méthode formelle pour vérifier l'exactitude de l’Arbre de Défaillance développé. L’Analyse en Composantes Principales est une technique statistique capable de comprimer les données et réduire leurs dimensionnalités de sorte que l’information essentielle 27 soit maintenue et plus facile à analyser, mais cette méthode présente une limitation importante. En effet, la représentation obtenue est invariante dans le temps, tandis que la plupart des processus réels évoluent au cours du temps. Par conséquent, la représentation issue de l'Analyse en Composantes Principales nécessite également d'être mise à jour périodiquement. Une autre méthode passée en revue est celle des Systèmes Experts permettant de codifier la connaissance humaine. Ce qui fait la force des Systèmes Experts, c’est le jeu de règles efficaces, résultat de l’expertise humaine. Mais cette méthode présente des inconvénients à savoir: le Système Expert est dépendant de la qualité de l’expertise faite sur le système à diagnostiquer. Les règles construites pour un système ne peuvent être utilisées sur un autre système car elles sont trop souvent dépendantes de son architecture. Le système à diagnostiquer évolue soit par remplacement de composants soit par des ajouts de composants ce qui entraîne une remise en cause du système de règles. Souvent les règles ne sont pas robustes face à des situations non rencontrées. En plus, ils ne sont pas efficaces pour l’analyse d’un ensemble important de données non corrélées, ambiguës et incomplètes. L’autre famille d’approches utilisées pour la détection et le diagnostic des défauts se basent sur l’Intelligence Artificielle et sur le ‘‘Soft Computing’’ impliquant les Réseaux de Neurones (RN) et la Logique Floue (LF) [PIAT 95], [BALA 97], [MENE 98], [KARR 04], [PALM 05], [Zade 65], [LEE 90], [HAYK 99], [ZHAN 00], [AZOU 02], [EGMO 02]. Les capacités d’apprentissage, d’adaptation et de généralisation des RN ont motivé le développement de plusieurs systèmes intelligents de diagnostic [TURB 01], [KARR 04]. Des approches de diagnostic basées sur de tels systèmes se sont développées pour des applications industrielles [BALA 97], [MENE 98], [PALM 05] et des applications biomédicales [PIAT 95], [VUCK 02], [WOLF 03], [YAN 05]. Ces approches ont l’avantage de ne pas nécessiter la connaissance d’un modèle mathématique, seule la disponibilité de données est nécessaire. I. 4. PROBLEMATIQUE ET SOLUTIONS PROPOSEES Compte tenu du schéma général d’un système global de diagnostic (Figure I. 2), les principaux problèmes à résoudre afin d’élaborer un SAD délivrant un indice de confiance associé à sa réponse sont: celui lié à la représentation de la connaissance (à partir d’une ou plusieurs sources d’information), celui lié à la classification, le problème de la prise de décisions, celui lié à la détermination de l’indice de confiance du diagnostic et celui 28 concernant la facilité d’adaptation d’un SAD proposé au changement du domaine d’application. Concernant la représentation de la connaissance: le choix de type de représentation de l’information (quantitatif ou qualitatif) et la méthode de traitement influencent la qualité du diagnostic donné par le SAD. En fait, l’information est souvent exploitée sous forme d’un signal. Une autre alternative est la représentation image de cette information offrant l’avantage d’une représentation plus riche et permettant de prendre en compte des caractéristiques plus complexes (formes, information particulière, …). Ainsi, l’information peut être traitée sous différentes représentations de la connaissance (signal, image). L’exploitation des plusieurs représentations de la connaissance permet entre autre de prendre bénéfice de chacune des représentations. Nous nous sommes alors proposés une méthodologie globale d’aide au diagnostic, voir Figure I. 7, composée d’une multiple représentation de la connaissance et d’une multiple classification. Les avantages potentiels de cette méthodologie sont: traitement indépendant de l’information afin d’avoir plusieurs avis, différentes représentations de la connaissance issues d’une même source (ou de différentes sources) d’information, plusieurs classifieurs (redondance et complémentarité), hybridation et fusion afin d’exploiter le caractère complémentaire générant une décision finale, exploitation d’un paramètre de confiance dans la prise de décisions et proposition d’un résultat final de diagnostic avec un Indice de Confiance (IC). Notons par ailleurs l’aspect modulaire dans l’architecture de cette méthodologie (ce qui facilitera l’adaptation à d’autres applications des systèmes d’aide au diagnostic issus d’une telle méthodologie). Prise de Décisions P aramètre de Con fiance (PC ) Classification D ia g nostic Classes (1) de Sorties Classes de Sorties Classification 1 Sources d’Information Représentations de la Connaissance Classes (2) de Sorties Classification 2 . . Prise de de Décisions Classes (N) de Sorties Indice de Confiance (IC) Classification N Figure I. 7. Méthodologie globale d’aide au diagnostic. 29 I. 5. CONCLUSION Nous considérons un SAD comme étant un système capable d’identifier la nature d’un dysfonctionnement en examinant les symptômes observés. Le synoptique global d’un tel système d’aide au diagnostic est composé de trois étapes, une étape de représentation de la connaissance, une étape de classification et une étape de prise de décisions. Ensuite, après une étude et une synthèse d’un ensemble d’approches destinées à l’élaboration d’un système d’aide au diagnostic, nous a conduites au choix d’approches basées sur l’Intelligence Artificielle utilisant les techniques hybrides impliquant les Réseaux de Neurones (RN) et la Logique Floue (LF). Ces approches permettent de faire face aux problèmes d’identification des caractéristiques, de classification, et de prise de décisions. Ces approches ont l’avantage de ne pas nécessiter la connaissance d’un modèle mathématique, seule la disponibilité de données est nécessaire. Le choix d’exploiter plusieurs représentations de la connaissance permet entre autre de prendre bénéfice de chacune des représentations, permettant ainsi d’exploiter la richesse de l’information que l’ont peut extraire de différentes représentations de la connaissance. D’autres parts, la multiple classification offre le potentiel d’un accroissement de la robustesse de la classification de l’état de fonctionnement du système. Une méthodologie globale d’aide au diagnostic incorporant les deux points précédents a été proposée. Dans le Chapitre suivant nous allons présenter l’étude, conception et le développement de l’approche hybride modulaire basée sur cette méthodologie. 30 Chapitre II. ETUDE, CONCEPTION, ET DEVELOPPEMENT D’UN SYSTEME HYBRIDE MODULAIRE (SHM) POUR L’AIDE AU DIAGNOSTIC 31 32 II. 1. INTRODUCTION Dans le Chapitre précédent, nous avons présenté une méthodologie globale d’aide au diagnostic, (Figure I. 7, § I. 4), composée essentiellement d’une multiple représentation de la connaissance et d’une multiple classification. Dans ce Chapitre, nous proposons l’architecture d’une approche hybride modulaire pour la validation de cette méthodologie d’aide au diagnostic. Cette architecture est basée essentiellement sur une double représentation de la connaissance et une double classification (une seule source d’information, deux modules de représentation de la connaissance, deux modules de classification, et un module de prise de décisions). Ensuite, nous présentons une étude et conception des différents modules composant l’architecture de l’approche hybride modulaire proposée (module de représentation de la connaissance, de classification, et de prise de décisions) pour l’exploitation et le développement de cette architecture de validation. A partir de cette étude et conception, nous développons différentes variantes de l’approche hybride modulaire proposée qui sont déduites selon différentes stratégies de représentation de la connaissance et de classification. Ensuite, pour chaque variante de l’approche hybride modulaire, un (ou plusieurs) système hybride modulaire est proposé et développé. II. 2. ARCHITECTURE DE L’APPROCHE HYBRIDE MODULAIRE PROPOSEE L’architecture de l’approche hybride modulaire que nous proposons pour l’élaboration des systèmes d’aide au diagnostic est présentée dans la Figure II. 1. Cette architecture est 33 composée de trois étages: le premier basé sur deux modules pour la représentation de la connaissance, le deuxième composé de deux modules de classification et le troisième pour la prise de décisions. Cette approche permet d’exploiter deux représentations de la connaissance issues d’une même source d’information. Chaque représentation est traitée par un classifieur indépendamment, en parallèle (redondance et complémentarité). Les sorties des deux classifieurs sont exploitées, enrichies d’un paramètre de confiance par l’étape de prise de décisions. Ainsi, la décision finale est obtenue à partir de l’exploitation des caractères complémentaire et redondant des représentations mais aussi grâce à une fusion d’expertises. Le résultat final de diagnostic est accompagné d’un indice de confiance qui permet de déterminer la qualité des résultats donnés par le SAD. Prise de Décisions Paramètre de Confiance (PC) Diagnostic Classification Classe 1 Représentation de la Connaissance 1 Classification 1 (Réseaux de Neurones) Classe 2 . . . Classe 1 Classe 2 Classe M Une Seule Source . . . Prise de Décisions (Logique Floue) d’Information Classe M Classe 1 Représentation de la Connaissance 2 Classification 2 (Réseaux de Neurones) Classe 2 . . . Indice de Confiance (IC) Classe M Figure II. 1. Architecture de l’approche hybride modulaire proposée pour l’aide au diagnostic. Dans cette architecture, la double représentation de la connaissance peut impliquer un signal avec une image (représentation Signal - Image) ou deux images (représentation Image Image). La double classification est effectuée par deux réseaux de neurones (du type MLP ou RBF). Quant à l’étage de la prise de décisions, il est basé sur la logique floue (LF). 34 II. 3. ETUDE ET CONCEPTION Cette partie est dédiée à l’étude et à la conception des différents étages de l’architecture de l’approche hybride modulaire présentée dans la Figure II. 1. Chaque module composant cette architecture est développé: deux modules de représentation de la connaissance, deux modules de classification, et un module de prise de décisions. II. 3. 1. Représentation de la Connaissance Dans notre travail, nous nous sommes intéressés au type de représentation de l’information (connaissance), qui est d’une grande importance dans la qualité d’un diagnostic. En effet, on peut traiter l’information sous différentes formes de représentation de la connaissance dont deux particulièrement intéressantes à savoir: la représentation signal et la représentation image. II. 3. 1. 1. Représentation ‘‘Signal’’ de la Connaissance Le signal a toujours présenté un moyen très populaire de support de l’information. Le traitement du signal permet de traiter les informations brutes pour extraire les caractéristiques pertinentes afin d’établir un diagnostic. En effet, dans le domaine du diagnostic industriel, le traitement du signal permet d’établir des signatures associées aux fonctionnements normaux et anormaux. Une signature élaborée à partir des signaux ou des données recueillies doit contenir les informations jugées pertinentes par les spécialistes pour la détection d'une défaillance. Pour le domaine du diagnostic médical, les informations sont toutes d'abord des données factuelles. Le patient décrit ses symptômes au médecin (intensité et localisation d'une douleur, apparition de troubles, sensations, ...), ce dernier va ensuite, après auscultation, déterminer la cause des symptômes décrits ou observés ou, si besoin, orienter le patient vers des examens complémentaires. Suivant le trouble dont il s'agit de trouver la cause, les examens sont différents. Il peut alors s'agir d'appareils d'imagerie (radio, scanner, imagerie par résonance magnétique, ...), mais aussi d'électrodes pour le recueil de signaux tels que les 35 électrocardiogrammes, électro-encéphalogramme, ou potentiels évoqués (réponse électrique provoquée par la stimulation brève d'un organe sensoriel. Dans quelques applications, l’information est disponible sous forme d’un ensemble de signaux, par exemple la surface DTC (Dynamique Temporelle du Tronc Cérébral): composée des estimations des Potentiels Evoqués Auditifs [MOTS 87]. Une manière pour traiter cette surface et l’élaboration d’un signal moyenné à partir de cette surface, voir Figure II. 2. M1 . . . Mp Figure II. 2. Représentation signal moyenné de la connaissance. Le signal peut être traité dans deux domaines: le domaine temporel et le domaine fréquentiel. Certes que la représentation fréquentielle du signal fournit le contenu spectral du signal mais ne donne aucune information quant aux instants auxquels ces composantes spectrales apparaissent, surtout dans le cas des signaux non stationnaires. On peut déduire que: les représentations temporelles n’apportent aucune caractéristique fréquentielle du signal et réciproquement, les représentations fréquentielles n’apportent aucune indication de nature temporelle sur le signal. Ainsi, l’exploitation du signal dans le domaine temporelle ne permet pas de se faire une idée sur sa périodicité, et la représentation fréquentielle ne donne aucune information quant aux instants auxquels les composantes spectrales apparaissent. Contrairement à une représentation basée sur le temps ou la fréquence, l’image est une autre alternative pour représenter la connaissance. II. 3. 1. 2. Avantages d’une Représentation Image de la Connaissance Une autre alternative pour traiter l’information, consiste à présenter l’information sous forme d’image (signal bidimensionnel) en transformant le signal unidimensionnel. Par exemple, dans le domaine du diagnostic médical, traditionnellement les signaux sont traités en utilisant des approches de traitement du signal, principalement basées sur des approches d'identification de pics et d’ondes et des approches de reconnaissance de formes 36 [PIAT 95], [VANN 2002], [WOLF 2003]. Cependant, un médecin analyse un résultat d’examen médical par une approche visuelle: en effet, il (ou elle) regarde les résultats (signaux) comme une image. C’est la raison principale de notre motivation pour considérer cette autre alternative comme étant un support pertinent de la représentation de la connaissance. Compte tenu de la nature visuelle de l’analyse de l’expert humain, parmi les avantages qu’offre la représentation image de la connaissance on peut citer: - extraction de paramètres sur les formes et leur texture, - détection de changements entre deux images, ça permet de détecter les changements apparus entre deux images acquises du même système à deux instants différents, ceci peut servir à établir un diagnostic plus précoce, mais aussi à évaluer l'efficacité de l’intervention, - comparaison des images de deux systèmes différents pour le diagnostic du même défaut. II. 3. 1. 3. Conversion Signal - Image de la Connaissance La connaissance, acquise comme les données, les mesures, …, est souvent disponible sous forme d’un signal ou plusieurs signaux: par exemple, dans le cas d’une analyse vibratoire d’une machine tournante (domaine industriel) ou la moyenne des potentiels évoqué auditifs il s’agit d’une représentation sous forme d’un signal, alors que la surface DTC (Dynamique Temporelle du Tronc Cérébral) donne l’exemple d’un cas de figure correspondant à une représentation multi-Signaux (Voir Figure II. 3). (a) (b) (c) Figure II. 3. Représentation signal de la connaissance: (a) Signal vibratoire d’une machine tournante, (b). Signal moyenné des Potentiels Evoqués Auditifs. (c). Signaux composant la surface DTC. 37 II. 3. 1. 3. 1. Méthode de Conversion Signal - Image A partir d’une représentation 3-D d’un signal, on procède à une conversion signal à image comme suit: - on élabore une représentation 3-D d’un signal, exemple la surface DTC (représentation multi-signaux (temps-temps)) [MOTS 87] ou à partir de la transformée en ondelettes d’un signal (conduit à une représentation 3-D (temps-fréquence)), - on détermine la valeur minimale de la représentation 3-D du signal et on décale de cette valeur la représentation vers le haut, - on applique un seuillage afin de déterminer les niveaux de gris en appliquant une coupe suivant un plan horizontal de la représentation selon un seuil. Deux critères sont présentées (Voir § II. 3. 1. 3. 2) pour le seuillage: un premier critère de seuillage basée sur les amplitudes et un deuxième critère de seuillage basée sur les aires. (a) Représentation 3-D du Signal (représentation multi-signaux, transformée en ondelettes d’un signal) (b) Décalage vers le haut Seuillage basé sur les Amplitudes Seuillage basé sur les Aires Représentation Image Représentation Image (c) Figure II. 4. (a). Etapes de la méthode de conversion signal à image. (b). Exemple d’image obtenue dans le cas d’une représentation multi-signaux. (c). Exemple d’image obtenue dans le cas d’un seul signal. Par conséquent on obtient une image représentée par une matrice de X lignes et Y colonnes. La Figure II. 4. (a) récapitule l’ensemble des étapes de conversion signal à image, la Figure II. 4. (b) présente un exemple d’une image obtenue à partir de la conversion signal à image en appliquant la méthode présentée ci-dessus dans le cas d’une représentation multisignaux et utilisant le 1er critère de seuillage et la Figure II. 4. (c) présente un exemple d’une 38 image obtenue à partir de la conversion signal à image en appliquant la même méthode dans le cas d’un seul signal et utilisant le 2ème critère de seuillage. Notons que le choix du seuil de coupe doit permettre de préserver l’information relative à un défaut même pour des valeurs faibles de celui-ci, par la suite on présente les deux critères de choix d’un seuil de coupe. II. 3. 1. 3. 2. Critères de Choix d’un Seuil de Coupe Dans la conversion signal à image de la connaissance (cas de plusieurs signaux et cas d’un seul signal), le principe de base est d’appliquer une coupe du volume obtenu à ‘‘ H’ ’’ représentant ‘‘un seuil de coupe’’, et convertir les amplitudes obtenues à des niveaux de gris afin d’obtenir une image [GONZ 02]. Cependant, le point important est de trouver ce ‘‘seuil de coupe’’ de telle manière à ne pas perdre les informations utiles. Par la suite, on présente les deux critères de choix d’un ‘‘ seuil de coupe’’ H ' . Pour les deux critères on considère: - X ( X min , X max ) représentant les coordonnées sur l’axe (Ox), - Y ( Ymin , Ymax ) représentant les coordonnées sur l’axe (Oy), - Z ( Z min , Z max ) représentant les coordonnées sur l’axe (Oz). 1er Critère: Seuillage Basé sur les Amplitudes - Etape 1: une subdivision par un nombre Nx suivant l’axe des abscisses (Ox) permet d’avoir, pour chaque valeur de Y fixée, ( X max / N x ) régions (sur l’axe (Ox) et l’axe (Oz)), alors M = ( X max / N x ). Ymax , où M représente le nombre global des régions obtenues. La détermination du nombre Nx se fait expérimentalement selon la taille de la représentation 3-D du signal sur un compromis entre le nombre de régions obtenues et leur taille. - Etape 2: on détermine l’amplitude, noté h, de chaque région, - Etape 3: on calcule la valeur h’ tel que: h' = 2 xh 2 - Etape 4: le ‘‘seuil de coupe’’ est obtenu alors comme suit: 39 H' = min(h'i )1≤i≤ M L’exemple suivant présente une réalisation de la représentation image à partir d’une représentation signal du Sd(t), en appliquant un seuillage basé sur le 1er critère tel que: - le signal S(t) = cos(3*t) ∀ t ∈ ℜ , voir Figure II. 5. (a), ⎧0.4 ⎪ - le défaut d(t) = ⎨ ⎪0 ⎩ ∀ t ∈ [a − 1 , a + 1] avec a = 10 * k , k ∈ Ν * , voir Figure II. 5. (b), - Sd(t) = S(t) + d(t), voir Figure II. 5. (c). Dans cet exemple, la représentation image du signal Sd(t) (voir Figure II. 5. (d)) est obtenue en appliquant une coupe suivant un plan horizontal à un seuil H’ = 2.4289. Figure II. 5. (a). Représentation Figure II. 5. (b). Représentation Figure II. 5. (c). Représentation signal signal de S(t). signal de d(t). de Sd(t). Figure II. 5. (d). Représentation image de Sd(t)-1er critère-. 40 2ème Critère: Seuillage Basé sur les Aires - Etape 1: on procède de la même manière que l’étape 1, du 1er critère de seuillage (seuillage basé sur les amplitudes). - Etape 2: pour chaque région, son maximum est alors noté par A, - Etape 3: chaque région est approximée par un triangle comme montré sur la Figure II. 6, Figure II. 6. Approximation d’une région par un triangle. - Etape 4: pour chaque triangle (chaque région), la hauteur h du triangle est déterminée, - Etape 5: la première équation, du système d’équations suivant, peut être déduite géométriquement et la deuxième équation à partir de la supposition (approximation) que la surface du trapèze DEBC est égale à 2 de la surface du triangle ABC: 2 ⎧ (h − h' ) b = ⎪ a ⎪⎪ h ⎨ ⎪ ⎪ h' (b + a) = 2 ⎛⎜ h × a ⎞⎟ ⎪⎩ 2 2 ⎝ 2 ⎠ - Etape 6: la résolution de ce système d’équation nous permet de déterminer h’ dans chaque triangle (chaque région) comme suit: h' = 0.4588 × h - Etape 7: le ‘‘seuil de coupe’’ est obtenu alors comme suit: H' = min(h'i )1≤i≤ M 41 La Figure II. 7 présente une réalisation de la représentation image du signal Sd(t) de l’exemple précédent (Figure II. 5. (d)), mais en appliquant un seuillage basé sur le 2ème critère. Dans cet exemple la représentation image est obtenue en appliquant une coupe suivant un plan horizontal à un seuil H’ = 1.5760. Figure II. 7. Représentation image de Sd(t) -2ème critère- Afin de comparer les deux critères de choix de seuil de coupe pour la conversion signal à image, on présente, pour la conversion signal à image dans le cas d’un seul signal, un protocole expérimental simulant une signature (Signal) correspondant au cas du ‘‘bon fonctionnement’’ (sans défaut) et une signature correspondant au cas d’un dysfonctionnement. La première notée S(t) est une fonction périodique (S(t) = cos(t)). Quand à la seconde, notée Sd(t), elle a été obtenue en ajoutant une perturbation d(t) à la première (Sd(t) = S(t) + d(t)): - le signal S(t) = cos(t) ∀ t ∈ ℜ , voir Figure II. 8. (a), ⎧x ⎪ - le défaut d(t) = ⎨ ⎪0 ⎩ ∀ t ∈ [a − 1 , a + 1] avec a = 10 * k , k ∈ Ν * , voir Figure II. 8. (b), Maintenant, le but est de générer, pour cette étude, un certain nombre de différents signaux avec défauts. Pour cela, on se propose alors 40 différents signaux avec défaut en faisant varier l’amplitude x du défaut de 0.01 à 0.4 par pas de 0.01. Ces amplitudes représentent en fait des défauts allant de 1% à 40% de l’amplitude du signal S(t). La Figure II. 8. (c) présente un exemple de Sd(t) pour une amplitude x = 0.4. 42 Figure II. 8. (a). Représentation signal Figure II. 8. (b). Représentation Figure II. 8. (c). Représentation de S(t). signal de d(t) pour x = 0.4. signal de Sd(t) pour x = 0.4. Ensuite, on détermine la transformée en ondelettes: - du signal S(t), - des 40 différents signaux avec défaut Sd(t). On calculera alors la différence dans chaque cas (40 cas) entre la transformée en ondelettes du signal avec défaut Sd(t) et celle du signal S(t). Un exemple est donné dans la Figure II. 9, présentant la transformée en ondelettes du signal S(t) dans la Figure II. 9. (a), la transformée en ondelettes du signal avec défaut Sd(t) dans la Figure II. 9. (b), et de la différence dans la Figure II. 9. (c). Figure II. 9. (a). Transformée en Figure II. 9. (b). Transformée en Figure II. 9. (c). Différence entre ondelettes du signal S(t). ondelettes du signal avec défaut la transformée en ondelettes du Sd(t) pour x = 0.4. Sd(t) et la transformée en ondelettes du S(t) pour x = 0.4. Pour chaque différence entre la transformée en ondelettes du signal avec défaut Sd(t) et la transformée en ondelettes du signal S(t), on procède à une subdivision en plusieurs régions. Ainsi, on subdivise par pas de 10 (de 1 à 70) sur l’axe du temps Ox et sachant que nous avons utilisé, voir la Figure II. 10, 40 fenêtres dans la transformée en ondelettes sur l’axe (Oy), nous obtenons alors: M = 40 x 7 = 280 régions 43 Oz Oy 40 3 2 1 0 10 70 20 Ox Figure II. 10. La subdivision en plusieurs régions de la différence entre les deux transformées en ondelettes. Pour chaque région où on a l’apparition d’un défaut (Na est le nombre de régions où on a l’apparition du défaut), on détermine la valeur I1, telle que I 1 = min(max1≤i ≤ N a ) . Ensuite nous présentons la valeur de I1 en fonction de ΓP (le rapport des amplitudes) et ΓE (le rapport des aires), voir Figure II. 11 et Figure II. 12, respectivement: ⎧ I 1 = f (Γ p ) ⎨ ⎩ I 1 = f ( ΓE ) avec: x1 ⎧ Γ = P ⎪ x2 ⎪ ⎨ ⎪Γ = x'1 ⎪⎩ E x' 2 x1 est l’amplitude maximale du défaut d(t), et x 2 est l’amplitude maximale du signal S(t), ' x1 est l’aire du défaut d(t), ' x 2 est l’aire du signal S(t). En comparant les résultats trouvés pour I1 ( I 1 = min(max1≤i ≤ N a ) avec Na est le nombre de régions où on a l’apparition du défaut en fonction de ΓP (le rapport des amplitudes) et ΓE (le rapport des aires), on remarque que l’indicateur ΓE est plus sensible à l’apparition du défaut que l’indicateur ΓP (voir Figure II. 11 et Figure II. 12). Ainsi le critère de seuillage basée sur les aires est plus pertinent que le critère de seuillage basée sur les amplitudes. Afin d’exploiter cette nouvelle représentation de la connaissance sous forme d’image, la représentation image peut être présenté en deux manières différentes: représentation image globale et représentation image subdivisée. L’intérêt dans l’exploitation de l’image globale est l’obtention d’un indicateur global de classification. Par contre, l’intérêt dans l’exploitation de l’image subdivisée est l’obtention d’indicateurs locaux de classification. 44 I1 en fonction du rapport des amplitudes TauxP 1,40E+00 1,20E+00 1,00E+00 I1 8,00E-01 6,00E-01 4,00E-01 2,00E-01 0,00E+00 0,00E+00 5,00E-02 1,00E-01 1,50E-01 2,00E-01 2,50E-01 TauxP Figure II. 11. I1 en fonction du rapport des amplitudes ΓP . I1 en fonction du rapport des aires TauxE 1,40E+00 1,20E+00 1,00E+00 I1 8,00E-01 6,00E-01 4,00E-01 2,00E-01 0,00E+00 0,00E+ 1,00E- 2,00E- 3,00E- 4,00E- 5,00E- 6,00E- 7,00E- 8,00E- 9,00E00 02 02 02 02 02 02 02 02 02 TauxE Figure II. 12. I1 en fonction du rapport des aires ΓE . 45 II. 3. 1. 4. Représentation Image Globale de la Connaissance Une première approche pour présenter l’image consiste à traiter toute l’image dans sa globalité. Pour cela, une des méthodes de traitement de l’image globale (vu le nombre élevé de pixels) est la suivante: on subdivise l’image en plusieurs régions et pour chaque région on calcule sa moyenne. En effet, on subdivise l’image en n régions de taille x × y et on calcule la moyenne de niveaux de gris de chaque région dans le but de présenter chaque image par un vecteur de n composants, voir Figure II. 13. Ainsi, la présentation de ce vecteur à un classifieur, nous permettra d’obtenir un indicateur global de classification. 1 2 … … i … M1 … n . . . Mn Figure II. 13. Représentation image globale de la connaissance. II. 3. 1. 5. Représentation Image Subdivisée de la Connaissance Une deuxième approche pour présenter l’image est basée essentiellement sur la subdivision de l’image en z imagettes comme illustré sur la Figure II. 14. Cette représentation de l’image sous forme des imagettes nous permet de traiter chaque pixel dans chaque imagette [PIAT 99], l’idée principale est de traiter l’information originale (pixel) sans aucune approximation. Ainsi, la présentation de chaque imagette à un classifieur, nous permettra d’obtenir des indicateurs locaux de classification (un indicateur local de classification par imagette). Représentation Image Image Subdivisée I-1 … I-2 I-i … I-1 … … .. . I-z I-z I-i: Imagette N° i Figure II. 14. Représentation image subdivisée de la connaissance. 46 II. 3. 2. Classification En général, les méthodes de classification sont basées sur l'optimisation d'une fonction objective, laquelle dépend du type de similitude défini dans l'ensemble des données (ou éléments) à classer. De ce fait, il existe des techniques qui minimisent les distances entre objets du même groupe et d'autres qui maximisent l'appartenance des objets à une classe. Nous donnons, maintenant, une brève présentation de quelques approches pour la classification. II. 3. 2. 1. Méthodes de Groupement (‘‘Clustering’’) Les techniques de groupement (‘‘cIustering’’) essayent de trouver une partition de l'espace en regroupant les éléments, de nature quantitative x ∈ ℜ D , d'un ensemble X = {x1 ,..., x N } en un nombre K de groupes (ou classes), selon leurs ressemblances ou bien leur proximité [KAUF 90], [JAIN 99]. Typiquement, le concept de similitude est défini à partir de la distance entre un vecteur de données et le prototype (centre) du groupe (classe). Ces groupes doivent satisfaire deux critères : - Chaque groupe ou classe est homogène: les objets appartenant au même groupe ou classe doivent être similaires entre eux (le plus proche possible), - Chaque groupe ou classe doit être distinct des autres: les objets qui appartiennent au même groupe doivent être différents des objets appartenant à d'autres groupes (le plus éloigné possible des autres groupes). Les caractéristiques des prototypes, qui ne sont pas habituellement connues à l'avance, doivent être choisies a1éatoirement et sont mises à jour en même temps qu'est faite la partition de l'espace. Les méthodes de regroupement sont basées sur l'optimisation itérative d'une fonction objectif (par exemple: la variabilité dans les classes), permettant d'obtenir des classes homogènes et les plus distinctes possibles. K-Moyennes: L'algorithme populaire et le plus connu des méthodes de regroupement est celui des K-moyennes (K-means) [MACQ 67]. Cet algorithme réalise une partition stricte 47 (‘‘dure’’), c'est à dire que chaque objet n'est assigné qu'à une seule classe. Il s'agit d'une procédure simple et itérative dont l'idée générale est de classer un ensemble X = {x1 ,..., x N } d'éléments dans un nombre K de groupes (‘‘clusters’’) fixés à l'avance. Chaque élément est un vecteur x ∈ ℜ D . La partition est faite de telle façon que les éléments à l'intérieur d'un groupe sont les plus semblables possible, et les plus distincts des éléments appartenant à d'autres groupes. Le regroupement est réalisé en deux étapes: d'abord, il faut définir les K centres ou prototypes de chaque groupe, ensuite, chaque élément est associé au groupe dont il est le plus proche du centre. Ainsi, chaque groupe est caractérisé par son centre Vk et par les éléments qui lui ont été associés. Le centre du groupe est le point dans l'espace qui minimise la somme de la distance de tous les éléments qui font partie du groupe. C-Moyennes Floues: Une extension directe de l'algorithme K-moyennes est l'algorithme des C-Moyennes Floues [BEZD 81], où la notion d'ensemble flou est introduite dans la définition des classes. Chaque objet a un degré d'appartenance (ou de validité) associé à chaque classe. II. 3. 2. 2. Méthodes Statistiques Selon Michie et al. [MICH 94] deux types différents de méthodes sont identifiés comme des procédures statistiques pour la classification. Le premier type correspond aux algorithmes dits "classiques" car ils sont dérivés des Discriminants Linéaires de Fisher [FISH 36]. Le deuxième type englobe des techniques de classification et fournit une estimation de la distribution conjointe des caractéristiques dans chaque classe. Pour l'approche des Discriminants Linéaires de Fisher, l'ensemble d'apprentissage comprend N éléments représentant q classes prédéfinies (connues). L'espace de représentation est défini par D attributs de type quantitatif et chaque objet de l'ensemble d'apprentissage est x = ( x , x ,..., x ) . Cet espace de représentation est divisé par décrit par un vecteur d'attributs ~ 1 2 D un ensemble d'hyperplans, chacun est défini par une combinaison linéaire des attributs. L'hyperplan divisant deux classes est tracé de façon à bissecter la ligne joignant les centres de ces classes. La direction de l'hyperplan est déterminée par la forme des groupes des éléments. Cette approche ne requiert pas de suppositions probabilistes. Il y a deux façons de réaliser la classification en utilisant les Discriminants Linéaires de Fisher: 48 - une façon est de maximiser 1a séparation entre les classes par le critère des moindres carrés. Un hyperplan dans l'espace de représentation D-dimensionnel est choisi pour séparer du mieux possible les classes prédéfinies. Les éléments sont classés selon le coté de l'hyperplan où ils se situent. - une autre possibilité est de faire la classification à l'aide de l'estimateur du maximum de vraisemblance. Ici, on suppose que les attributs des éléments d'une classe sont indépendants et suivent une certaine distribution de probabilité, avec une Fonction de r Probabilité f i [MICH 94]. Un nouvel objet, de vecteur d'attributs x est alors affecté à r la classe pour laquelle la Fonction de Probabilité f i ( x ) est maximale. Ces techniques de classification font l'hypothèse que le vecteur des caractéristiques des objets obéit à une loi de distribution connue. De ce fait, ces méthodes sont appelées aussi paramétriques [MARI 03], [CASI 03]. Une supposition très fréquente est que les distributions sont de type Gaussien (ou normal), avec des moyennes différentes mais avec la même matrice de covariance. Les techniques statistiques actuelles sont considérées comme des procédures de classification non paramétriques qui peuvent être utilisées sans hypothèses sur l'existence d'une loi de probabilité. La méthode des K plus proches voisins [DUDA 01] est une de ces techniques. L'idée générale est: pour un nouvel objet x', il s'agit de déterminer la classe de chacun des k plus proches individus de x' parmi tous les objets de l'ensemble d'apprentissage. Nous pouvons alors classer le nouvel objet dans la classe la plus fréquente parmi celles de ses voisins. II. 3. 2. 3. Arbres de Décisions et Inductions Les arbres de décisions sont des outils puissants et très répandus pour la classification et la prédiction [MICH 94]. Ce qui les rend attractif est le fait qu'ils peuvent être représentés comme des règles. Les règles peuvent, aisément, être exprimées de façon interprétable. Dans des applications où l'explication des causes ou des raisons d'une décision est cruciale, les experts ont besoin d'outils qui permettent de reconnaître et de valider les connaissances découvertes issues des données, dans le contexte du diagnostic. Il existe une variété d'algorithmes pour la construction des arbres de décisions qui offrent la qualité d'interprétation souhaitée. 49 Les arbres de décisions ont une structure arborescente. Ils réalisent une recherche de haut en bas (‘‘top-down’’). Chaque noeud représente une décision, ou un test, à effectuer sur un attribut donné des individus. Le noeud initial s'appelle racine, deux (ou plus) branches peuvent être issues d'un noeud selon si la décision à prendre est de type binaire ou non. Les nœuds intermédiaires sont des noeuds de décisions. Les noeuds terminaux se nomment feuilles, et c'est là que la décision est prise pour affecter un individu à une classe existante. II. 3. 2. 4. Réseaux de Neurones (RN) Les réseaux de neurones sont connus pour être appropriés pour la classification [HAYK 99], [ZHAN 00], [EGMO 02], [AZOU 02]. Dans la littérature, de nombreux travaux démontent leur utilité de par leurs caractéristiques d'apprentissage et leurs capacité de généralisation. Le réseau de neurones MLP est capable, grâce à un apprentissage (voir Annexe A), de procéder à une classification non linéaire. Une des techniques de l’apprentissage est l’apprentissage supervisé, tel que le MLP s’adapte par comparaison entre le résultat qu’il a calculé, en fonction des entrées fournies, et la réponse attendue en sortie. L’algorithme de rétropropagation est le plus populaire parmi les techniques d’apprentissage supervisé. Après la phase d’apprentissage à partir d'un ensemble des données, le MLP est prêt et peut être utilisé pour la classification de nouveaux exemples dans les classes existantes. Comme le MLP, le réseau de neurones RBF est capable de procéder à une classification non linéaire en représentant les données en termes de prototypes (centres) et leur similarité à chaque prototype (voir Annexe A). Cette similarité est calculée avec une métrique de distance. Un exemple fait partie d’une classe si la similarité est considérée suffisante. II. 3. 2. 5. Choix d’une Méthode de Classification Il n’existe pas une méthode universelle pour la classification, chaque méthode présente ses avantages et ses inconvénients. Pour la méthode de ‘‘clusterisation’’, un désavantage de ces algorithmes de groupement (‘‘clustering’’) est qu'ils sont sensibles à la sélection de la partition initiale. Souvent, l'initialisation se fait aléatoirement, plusieurs fois, dans l'espoir qu'une des partitions 50 mène à un groupement acceptable. Cette sensibilité à l'initialisation devient aiguë quand la distribution des données montre une grande variance. Ces techniques de groupement sont considérées parmi les méthodes de classification non supervisées, car elles n'utilisent aucune connaissance a priori des classes qui doivent être créées. Néanmoins, un nombre spécifique de classes doit être choisi à l'avance, peu importe si les classes créées sont significatives ou non, ce qui donne, tout de même, à ces méthodes un caractère supervisé. Ceci peut être un inconvénient car il n'est pas toujours possible de connaître le nombre de groupes (classes) contenues dans l'ensemble de données. Pour les méthodes statistiques, l’une des difficultés de ces méthodes est de trouver une normalisation appropriée des observations. Pour des données multi-variables, dont les variables sont mesurées selon différentes échelles, une norma1isation s'avère nécessaire afin de comparer les individus. Pour des ensembles de données trop importants en nombre, cette technique peut devenir coûteuse en temps puisque toutes les observations de l'ensemble des données doivent être enregistrées et examinées à chaque nouvelle classification d'un objet. Pour les arbres de décisions, Il n'y a aucune restriction pour la nature des données à classifier: les arbres de décisions peuvent manipuler des variables continues (discrétisées) et symboliques. Aussi ils ont la capacité à générer des règles compréhensibles, tout en réalisant la classification sans exiger beaucoup de calcul. Ils fournissent une indication claire sur les attributs les plus représentatifs pour la classification ou la prévision. Mais les arbres de décisions et la plupart d'entre eux examinent seulement un champ (attribut) à la fois, d’ailleurs, ils peuvent être informatiquement coûteux dans leur construction, de par leur croissance combinatoire ce qui présente un des inconvénients majeurs de cette méthode. Dans ce travail, pour l’étape de la classification, un intérêt particulier est porté aux réseaux de neurones et plus particulièrement le MLP et le RBF. Partant du fait, qu’en plus des capacités d’apprentissage et de généralisation des deux réseaux de neurones MLP et RBF, la classification par le MLP permet d’exploiter ses capacités d’un approximateur global et la classification par le RBF permet d’exploiter ses capacités d’un approximateur local. Ainsi, la mise en concurrence et en collaboration du MLP et du RBF permet d’exploiter à la fois deux RN l’un à caractère local (RBF) et l’autre à caractère global (MLP). Ainsi l’étage de la classification se base sur deux types de classifieurs, un premier type composé d’un seul réseau de neurones (MLP ou RBF), voir Figure II. 15, et un deuxième type de classifieur composé de plusieurs réseaux de neurones (MLP ou RBF), dans ce cas et à partir des résultats (présentant des indicateurs locaux) donnés par l’ensemble des classifieurs {C-1, …C-z} on procède à un traitement statistique basé sur une méthode de vote afin de 51 déterminer l’émergence du comportement collectif, ainsi, on obtient un indicateur global, voir Figure II. 16. Classifieur à un seul Réseau de Neurones Représentation de la Connaissance Indicateur Global Classe 1 Classe 2 Classe 3 Figure II. 15. Classifieur à un seul réseau de neurones (MLP ou RBF). Représentation De la Connaissance Indicateur Local I-1 .. . I-z Classe 3 1 Indicateurs Locaux Indicateur Local C-z Indicateur Global Classe 2 1 C-1 .. . Classe 1 1 .. . Traitement Statistique Classe 1 Classe 2 Classe 3 Classe 1 z Classe 2 z Classe 3 z Image Subdivisée (Sub-Image) Classifieur à plusieurs réseaux de neurones (MLP ou RBF) I-i: Imagette i C-i : Classificateur i Figure II. 16. Classifieur à plusieurs réseaux de neurones (MLP ou RBF). II. 3. 3. Prise de Décisions Comme présenté précédemment, la prise de décisions permet au système d’aide au diagnostic de choisir un diagnostic parmi un ensemble. Pour la prise de décisions, et comme pour la classification, le choix d’une méthode reste une étape très importante compte tenu de la complexité des problèmes généralement rencontrés dans le domaine de l’aide au diagnostic et plus particulièrement dans les domaines auxquels nous nous sommes intéressés. Il existe plusieurs méthodes qui permettent une prise de décisions, on commence par présenter la première méthode: Analogie. 52 II. 3. 3. 1. Analogie L’analogie est la démarche la plus naturelle et la plus proche du raisonnement humain. Le principe de cette méthode c’est s’inspirer des décisions prises dans le passé, dans des situations analogues, pour résoudre de nouveaux problèmes. La technique de cette méthode est le raisonnement à partir de cas (exemples) ou ‘‘Case-Based Reasoning (CBR)’’. Cette technique CBR se base sur l’hypothèse que la prise de décisions et la résolution d’un problème consiste en l’accès à des informations mémorisées lors d’expériences précédentes en vue d’une exploitation ultérieure [GENT 83] [SCHA 82] [AAMO 94], voir Figure II. 17. Figure II. 17. Principe du raisonnement par analogie. II. 3. 3. 2. Méthode de Vote Les méthodes de vote consistent à interpréter chaque diagnostic comme un vote. On peut classer cette méthode en trois catégories: vote avec seuil, majorité sans conflit et majorité notoire. Vote avec Seuil: les méthodes de vote peuvent pratiquement toutes être dérivées de la règle avec seuil exprimée par : ⎧⎪C i si ∑ L ei , j = max tN=1 ∑ L et , j ≥ λ .L j =1 j =1 E (x ) = ⎨ ⎪⎩rejet sinon λ correspond à la proportion de classifieur devant répondre la même classe pour que cette classe soit retenue comme résultat de la combinaison. Ainsi, pour λ = 0, il s'agit du vote 53 à la pluralité où la classe qui reçoit le plus de votes est choisie comme classe finale. Connue aussi sous le nom First past the post [CRAN 96]. Pour λ = 0,5, il s'agit du vote à la majorité. La classe finale est décidée si plus de la moitié des classifieurs l'ont proposée, c'est-à-dire si au moins k classifieurs sont d'accords. k pouvant être définie comme suit: ⎧L ⎪⎪ 2 si L est pair k =⎨ ⎪ L + 1 si L est impair ⎪⎩ 2 L'utilisation du vote à la majorité est justifiée surtout dans les problèmes où l’on combine un très grand nombre de classifieurs [JI 97] et pour lesquels il est difficile d'appliquer d'autres méthodes de combinaison plus complexes. On pourra citer les travaux de Lam et al., [LAM 97] où sont étudiées les propriétés de la méthode de vote à la majorité et surtout l'apport d'un classifieur supplémentaire dans une combinaison en fonction du nombre de classifieurs présents auparavant (pair ou impair). Pour λ = 1, la classe finale est choisie si tous les classifieurs proposent cette réponse sinon la réponse finale est le rejet. Majorité Sans Conflit: Le principe est identique à celui de la majorité unanime, à ceci près qu'on autorise les classifieurs à rejeter. Un classifieur proposant de rejeter l'élément n'a donc aucun poids dans ce système: lorsque tous les classifieurs rejettent sauf un, alors c'est la sortie de ce classifieur qui sera conservée comme résultat de la combinaison. Il n'y a rejet que lorsque tous les classifieurs ont proposé de rejeter l'élément ou en cas de conflit. Majorité Notoire: Dans ce cas, pour être désignée comme réponse finale, la classe majoritaire doit de plus se distinguer de la deuxième classe d'une différence supérieure à un certain seuil. Les méthodes que nous venons de présenter se composent d'une seule étape. Il existe d'autres méthodes de vote qui nécessitent plusieurs étapes. Elles utilisent des traitements itératifs au cours des différentes étapes permettant de réduire l'ensemble des classes participant au vote. On trouve la procédure run-off et la méthode de Condorcet [VANE 02]. La procédure run off se réalise en deux étapes. Dans la première étape, chaque classifieur peut proposer son vote pour chacune des classes. Si une classe reçoit la majorité de votes (par vote à la pluralité), elle est choisie. Sinon, une seconde élection par vote à la majorité entre les 54 deux premières classes (qui ont reçu le plus grand nombre de votes dans la première étape) est réalisée pour trancher. Dans cette méthode, il n'y a pas de rejet. Dans la méthode de Condorcet, les classes sont comparées deux à deux. La classe gagnante à chaque tour reçoit un score d'un point. Si une classe bat toutes les autres classes alors elle est choisie. Si on obtient plus d'une classe alors on utilise une méthode type ‘‘run-off’’ pour choisir une seule classe de l'ensemble. II. 3. 3. 3. Logique Floue (LF) Les données sur lesquelles se base la prise de décisions peuvent être des données ambiguës, incomplètes, incertaines, non binaires ce qui rend difficile le problème de la prise de décisions à partir de ces données. La logique floue permet de traiter ce type de données lors d’une prise de décisions. En effet, la logique floue se base essentiellement sur la manière avec laquelle les être humains raisonnent et prennent leurs propres décisions d’où l’intérêt que nous portons particulièrement à la logique floue pour des prise de décisions, traduite par l’utilisation des règles floues données par un expert humain (superviseur), par la fuzzification basée sur des fonctions d’appartenances (triangulaires, trapézoïdales, …), par l’inférence utilisant les opérateurs MAX-MIN, et par la défuzzification [ZADE 65], [PEDR 88], [CILI 89], [KOSK 92], [ZADE 96], [CHOH 99]. Dans une prise de décisions, la logique floue exploite les caractéristiques telle que: la représentation explicite de la connaissance, l’adaptation et la généralisation à partir de règles floues, la capacité à saisir la nature approximative et imprécise de l’environnement. Ainsi, la logique floue peut être vue comme une tentative d’évolution des concepts mathématiques conventionnels précis vers ceux de prise de décisions de l’être humain. II. 3. 3. 4. Choix d’une Méthode de Prise de Décisions Comme pour ce qui concerne les techniques de la classification, il n’existe pas une méthode universelle pour la prise de décisions, chaque méthode présente ses avantages et ses inconvénients. La première méthode présentée est la méthode de l’analogie tel qu’il est relativement facile de construire des systèmes d’aide au diagnostic basés sur ce principe. Cependant, la 55 technique de cette méthode (Raisonnement à Base de Cas), tel qu’il a été défini dans la littérature, utilise la logique classique (une proposition ne peut être que ‘‘vraie’’ ou ‘‘fausse’’). Par conséquent, il ne peut traiter les situations où les cas sont définis par des caractéristiques floues et incertaines alors que dans la prise de décisions, on est souvent face à des situations où les données sont floues et ambiguës. La deuxième méthode présentée est la méthode de vote, cette méthode est simple, facile à appliquer et utilisable surtout dans le cas des problèmes où on a un grand nombre de classifieurs. Cependant cette méthode présente quelques inconvénients par exemple: les risques de conflit sont particulièrement important dans le cas du vote à la pluralité, le vote à la majorité unanime est un vote qui accepte le moins de risque possible mais il y a un grand risque d’avoir comme réponse finale le rejet. Dans ce travail, un intérêt particulier est porté à la logique floue. En effet, un point important, dans le choix d’une méthode de prise de décisions et particulièrement dans le cas de classifications neuronales, est la nature des résultats (sorties des neurones). En fait, ces résultats sont en général des valeurs non binaires et ceci rend difficile le problème dans la prise de décisions. Par exemple, le réseau de neurones MLP (ou RBF) utilisé pour la classification avec des sorties sigmoïdes donnent des valeurs de classes de sorties entre [0, 1] tel que l’analyse des sorties du MLP montre que plus la sortie est proche de 1 et plus cette sortie va être proche de la classe identifiée. Contrairement, plus la sortie est proche de 0 et plus cette sortie va être loin de la classe identifiée. A partir de cette analyse, une approche possible de prise de décisions à partir de classifications neuronales est l’approche floue qui permet de prendre le caractère non modélisable du raisonnement de l’être humain. De plus la logique floue permet une interprétation sémantique du raisonnement de la fusion. Ainsi l’étage de la prise de décisions, voir Figure II. 18, se base sur l’approche flou pour l’élaboration du diagnostic à partir des résultats de la double classification neuronale donnés par la classification 1 et la classification 2. Maintenant, il s’agit du choix de la méthode floue de prise de décisions à suggérer dans l’architecture de l’approche hybride modulaire proposée dans le § II. 2, Figure II. 1. Partant d’une double classification à trois classes de sorties et un paramètre de confiance, une méthode floue de prise de décisions intéressante consiste alors à traiter ce problème de prise de décisions en deux étapes: - étape 1: un système flou primaire pour décider, à partir de la double classification, d’un diagnostic primaire, 56 - étape 2: un système flou final pour décider, à partir du diagnostic primaire et d’un paramètre de confiance, d’un diagnostic final avec un indice de confiance. PC P r is e d e D é c is io n s D ia g n o s tic C la s s ific a tio n C 1 -1 C la s s ific a tio n (R ésea u x d e N eu ro n es) 1 C 1 -2 C la s s e 1 C 1 -3 C la s s e 2 P r is e d e D é c is io n s (L o g iq u e F lo u e ) C la s s e 3 C 2 -1 C la s s ific a tio n (R ésea u x d e N eu ro n es) 2 E ta p e d e la C la s s ific a tio n C 2 -2 C 2 -3 IC E ta p e d e P ris e d e D é c is io n s P C : P a ra m è tre d e C o n fia n c e IC : In d ic e d e C o n fia n c e Figure II. 18. Prise de décisions dans le cas de deux classifications neuronales. L’intérêt dans cette méthode floue de prise de décisions étant dans le fait que la double classification est exploitée dans un système flou primaire pour décider d’un diagnostic primaire. Ensuite le système flou final permet de décider, à partir du diagnostic primaire et d’un paramètre de confiance, d’un diagnostic final avec un indice de confiance. Ainsi, pour chaque entrée {C1 − 1, C1 − 2, C1 − 3, C 2 − 1, C 2 − 2, C 2 − 3 } obtenue à partir des résultats de l’étape de la classification, SFP décide du diagnostic approprié parmi les sorties du diagnostic primaire DPC1 , DPC 2 et DPC 3 . Les sorties de SFP et le PC sont exploités dans le SFF afin de déterminer le diagnostic final. Le vecteur d’entrée de SFF est { PC , DPC1 , DPC 2 , DPC 3 }, et pour chaque entrée, SFF doit décider du diagnostic approprié parmi les sorties finales: DFC1 , DFC 2 et DFC 3 accompagné d’un Indice de Confiance (IC) sur cette décision, voir Figure II. 19. Les deux systèmes flous (SFP et SFF) se basent sur le système flou présenté dans la Figure II. 20 basée sur l’inférence floue de Mamdani. 57 D ia g n o stic F in a l D ia g n o stic P rim a ire PC C 1 -1 C 1 -2 C 1 -3 C 2 -1 S ystèm e F lo u P rim aire (S F P ) D P C1 D F C1 S ystèm e F lo u F in al D F C 2 (S F F ) D F C3 D P C2 IC D P C3 C 2 -2 C 2 -3 C 1 -1 , C 1 -2 , C 1 -3 : les tro is classes d e so rties d u classifieu r 1 C 2 -1 , C 2 -2 , C 2 -3 : les tro is classes d e so rties d u classifieu r 2 IC : In d ice d e C o n fian ce, P C : P aram ètre d e C o n fian ce, D P : D iag n o stic P rim aire, D F : D iag n o stic F in al. Figure II. 19. Etape de prise de décisions. Système Flou Primaire (SFP) Le système flou de prise de décisions, illustré dans la Figure II.20, qui se base sur l’inférence floue de Mamdani est utilisé pour le Système Flou Primaire (SFP). E n tré e s C 1 -1 , C 1 -2 , C 1 -3 et C 2 -1 , C 2 -2 , C 3 -3 F o n c tio n s d ’A p p a rte n a n c e s F u z z ific a tio n B a s e d e R è g le s F lo u e s E n tré e s F lo u e s In fé re n c e F lo u e ~ IC1 _ 1 , ~ IC1 _ 2 , ~ IC1 _ 3 , ~ IC 2 _ 1 ~ IC 2 _ 2 ~ IC 2 _ 3 S o rtie C la s s e O i D é fu z z ific a tio n S o rtie F lo u e ~ O Figure II. 20. Système flou de prise de décisions. 58 Les paramètres d’entrée sont C1-1, C1-2, C1-3 et C2-1, C2-2, C2-3 issues de la double classification (classification 1 et classification 2). Les fonctions d’appartenance de ces paramètres d’entrées ont été définies par les variables floues Loin (L), Moyen (M), et Proche (P). Pour les classes C1-1, C1-2, C1-3 (ou C2-1, C2-2, C2-3) à partir d’une classification par MLP (ou RBF), ou du traitement statistique des classifications par MLP (ou RBF), la fonction d’appartenance est illustrée dans la Figure II. 21. µ(Classe) 1 Loin Proche Moyen Classe 0 0.5 0 0.8 1 Figure II. 21. Fonction d’appartenance des paramètres C1-1, C1-2, C1-3 (ou C2-1, C2-2, C2-3) à partir d’une classification par MLP (ou RBF) ou du traitement statistique des classifications par MLP (ou RBF). ~ ~ ~ Les entrées floues des paramètres d’entrées sont alors notées: IC1 _ 1 , IC1 _ 2 , IC1 _ 3 , ~ ~ ~ ~ IC 2 _ 1 , IC 2 _ 2 , et IC 2 _ 3 . Le vecteur O représente le vecteur flou de la sortie Oi qui est une composante du vecteur O = [DPC1, DPC2, DPC3] où DPC1, DPC2, DPC3 sont les sorties du Diagnostic Primaire (DP). L’opération de fuzzification calcule les degrés d’appartenance de chaque entrée en utilisant la fonction d’appartenance correspondante. Par exemple pour l’entrée C1-1, cette opération calcule {µL(C1-1), µM(C1-1), µP(C11),} avec µL(C1-1), µM(C1-1) et µP(C1-1) sont les degrés d’appartenances aux ensembles flous Loin (L), Moyen (M) et Proche (P), respectivement. Dans ce système flou SFP, nous avons six (6) entrées dont chacune à trois (3) variables floues, par conséquent la base de règles est constituée de 36 = 729 règles floues. Ainsi, les règles floues établies sont de la forme: SI (C1-1 est P et C1-2 est P et C1-3 est P et C2-1 est P et C2-2 est P et C2-3 est P) ~ ALORS O = [µ(DPC1), µ(DPC2), µ(DPC3)], 59 SI (C1-1 est P et C1-2 est P et C1-3 est P et C2-1 est P et C2-2 est P et C2-3 est M) ~ ALORS O = [µ(DPC1), µ(DPC2), µ(DPC3)], … SI (C1-1 est L et C1-2 est L et C1-3 est L et C2-1 est L et C2-2 est L et C2-3 est M) ~ ALORS O = [µ(DPC1), µ(DPC2), µ(DPC3)], SI (C1-1 est L et C1-2 est L et C1-3 est L et C2-1 est L et C2-2 est L et C2-3 est L) ~ ALORS O = [µ(DPC1), µ(DPC2), µ(DPC3)]. On présente par la suite trois exemples de règles floues établies: Exemple 1: SI (C1-1 est L et C1-2 est L et C1-3 est P et C2-1 est L et C2-2 est L et C2-3 est P) ~ ALORS O = [0, 0, 1], Pour cet exemple, la sortie donnée par le SFP est la 3ème classe si les sorties (C1-1 et C1-2) du premier classifeur et (C2-1 et C2-2) du deuxième classifieur sont Loin (valeur proche de 0) et si la sortie C1-3 du premier classifieur et C2-3 du deuxième classifieur sont toutes les deux Proche (valeur proche de 1). Exemple 2: SI (C1-1 est L et C1-2 est L et C1-3 est L et C2-1 est M et C2-2 est M et C2-3 est P) ~ ALORS O = [0.15, 0.15, 0.4], Pour le deuxième exemple, la sortie donnée par le SFP est la 3ème classe si les trois sorties (C1-1, C1-2 et C1-3) du premier classifeur sont toutes Loin (valeur proche de 0), les sorties (C2-1 et C2-2) du deuxième classifieur sont Moyen (valeur qui varie autour de 0.5) et la sortie C2-3 est Proche (valeur proche de 1). Exemple 3: SI (C1-1 est M et C1-2 est L et C1-3 est M et C2-1 est P et C2-2 est L et C2-3 est M) ~ ALORS O = [0.7, 0.1, 0.4], Pour le troisième exemple, la sortie donnée par le SFP est la 1ère classe si les sorties (C1-2, C2-2) sont toutes Loin (valeur proche de 0), les sorties (C1-3, C2-3) sont toutes Moyen (valeur qui varie autour de 0.5), la sortie C1-1 du premier classifieur est Moyen (valeur qui varie autour de 0.5) et la sortie C2-1 du deuxième classifieur est Proche (valeur proche de 1). Les deux premiers exemples montrent que les classes données dans les deux cas est la ème 3 classe mais avec des valeurs différentes ceci dû aux valeurs des six sorties données par 60 les deux classifieurs. En effet, pour établir l’expertise, on analyse indépendamment les sorties de chaque classifieur dans un premier temps ensuite on les analyse simultanément. ~ Dans cette base de règles floues, le vecteur de prise de décisions O est exprimé par: ~ O = [ µ(C1-1m, C1-2m, C1-3m, C2-1m, C2-2m, C2-3m)(DPC1), µ( C1-1m, C1-2m, C1-3m, C2-1m, C2-2m, C2-3m)(DPC2), µ( C1-1m, C1-2m, C1-3m, C2-1m, C2-2m, C2-3m)(DPC3) ] où µ(C1-1m, C1-2m, C1-3m, C2-1m, C2-2m, C2-3m)(Oi) représente le degré d’appartenance Oi avec m = 1 ou 2, voir la simplification donnée ci-dessous. L’inférence floue est réalisée par les opérateurs de la logique floue MIN et MAX. Par ailleurs, la particularité des paramètres d’entrée est que, pour chaque entrée donnée, au moins un degré d’appartenance (parmi les trois degrés d’appartenance) est toujours égal à zéro. Par conséquent, seulement deux (2) degrés d’appartenance doivent être considérés [FARR 85]. A partir de cette simplification, pour chaque situation spécifique de prise de décisions, deux valeurs d’entrée sont prises en compte pour former les ensembles flous: ~ IC1 _ 1 = {µ1(C1-1), µ2(C1-1)}, ~ IC1 _ 2 = {µ1(C1-2), µ2(C1-2)}, ~ IC1 _ 3 = {µ1(C1-3), µ2(C1-3)}, ~ IC 2 _ 1 = {µ1(C2-1), µ2(C2-1)}, ~ IC 2 _ 2 = {µ1(C2-2), µ2(C2-2)}, ~ IC 2 _ 3 = {µ1(C2-3), µ2(C2-3)}. où, par exemple, µm(C1-1), avec m = 1 ou 2, sont les degrés d’appartenance de l’entrée C1-1. Ainsi, avec cette définition prenant en compte la simplification, nous avons six (6) paramètres d’entrées dont chacune à deux (2) variables floues, par conséquent, à chaque inférence, seulement 26 = 64 conditions possibles correspondant à soixante quatre (64) règles floues seront mises en traitement. Alors, le niveau de certitude de chaque condition µ1, µ2, …, µ64 est obtenu par l’opérateur MIN: 61 µcond(C1-11, C1-21, C1-31, C2-11, C2-21, C2-31) = MIN(µ1(C1-1), µ1(C1-2), µ1(C1-3), µ1(C2-1), µ1(C2-2), µ1(C2-3))= µ1, µcond(C1-11, C1-21, C1-31, C2-11, C2-21, C2-32) = MIN(µ1(C1-1), µ1(C1-2), µ1(C1-3), µ1(C2-1), µ1(C2-2), µ2(C2-3))= µ2, … µcond(C1-12, C1-22, C1-32, C2-12, C2-22, C2-32) = MIN(µ2(C1-1), µ2(C1-2), µ2(C1-3), µ2(C2-1), µ2(C2-2), µ2(C2-3))= µ64, où cond représente l’ensemble flou des conditions qui est écrit comme suit: cond = { µ1, µ2, …, µ64 }. A partir de là, chaque condition possible est ensuite associé à une situation de prise de décisions Oi.. La certitude de chaque situation est obtenue par les opérateurs MAX et MIN comme suit: µDPC1 = MAX{ MIN(µ1, µ(C1-11, C1-21, C1-31, C2-11, C2-21, C2-31)(DPC1)), MIN(µ2, µ( C1-11, C1-21, C1-31, C2-11, C2-21, C2-32)(DPC1)), … MIN(µ64, µ( C1-12, C1-22, C1-32, C2-12, C2-22, C2-32)(DPC1)) }, µDPC2 = MAX{ MIN(µ1, µ( C1-11, C1-21, C1-31, C2-11, C2-21, C2-31)(DPC2)), MIN(µ2, µ( C1-11, C1-21, C1-31, C2-11, C2-21, C2-32)(DPC2)), … MIN(µ64, µ( C1-12, C1-22, C1-32, C2-12, C2-22, C2-32)(DPC2)) }, µDPC3 = MAX{ MIN(µ1, µ( C1-11, C1-21, C1-31, C2-11, C2-21, C2-31)(DPC3)), MIN(µ2, µ( C1-11, C1-21, C1-31, C2-11, C2-21, C2-32)(DPC3)), … MIN(µ64, µ( C1-12, C1-22, C1-32, C2-12, C2-22, C2-32)(DPC3)) }. La collection de ces situations forme ainsi le vecteur flou de prise de décisions: 62 ~ O = { µDPC1(DPC1), µDPC2(DPC2), µDPC3(DPC3) }. Finalement, l’opérateur MAX est utilisé pour le processus de défuzzification afin de donner la situation de prise de décisions du Diagnostic Primaire (DP): Oi = MAX{ µDPC1, µDPC2, µDPC3 }. Système Flou Final (SFF) Le système flou final (SFF) permet de décider, à partir du diagnostic primaire et d’un paramètre de confiance, d’un Diagnostic Final (DF) avec un indice de confiance, comme montré dans la Figure II. 19 Notons que ce PC dépend entièrement de l’application, nous donnons alors par exemple le Seuil Auditif (SA) comme PC dans le cas d’une application biomédicale que nous traitons dans le § III. 2. µ(SA) 1 Faible Elevé Moyen 0 0 0.09 0.25 0.45 SA Figure II. 22. Fonction d’appartenance du Paramètre de Confiance (PC): Exemple du Seuil Auditif (SA) dans une application biomédicale. µ(DPClasse) 1 Petit Moyen Grand 0 0 0.3 0.4 0.5 DPClasse 1 Figure II. 23. Fonction d’appartenance des paramètres DPC1, DPC2, et DPC3. 63 Ce SFF est conçu et développé sur la même méthodologie décrite avant pour le SFP, où les paramètres d’entrée sont SA, DPC1, DPC2, et DPC3. La fonction d’appartenance du paramètre d’entrée SA a été définie par les variables floues Faible (F), Moyen (M), et Elevé (E), illustrée dans la Figure II. 22. Alors que la fonction d’appartenance des paramètres d’entrée DPC1, DPC2, et DPC3 a été définie par les variables floues Petit (P), Moyen (M), et Grand (G), illustrée dans la Figure II. 23. Dans ce système flou SFF, nous avons quatre (4) entrées dont chacune à trois (3) variables floues, par conséquent la base de règles est constituée de 34 = 81 règles floues. Ainsi, en prenant en compte la simplification, nous avons six (4) paramètres d’entrées dont chacune à deux (2) variables floues, par conséquent, à chaque inférence, seulement 24 = 16 conditions possibles correspondant à seize (16) règles floues seront mises en traitement. Ainsi, les règles floues établies sont de la forme: SI (SA est F et DPC1 est P et DPC2 est P et DPC3 est P) ~ ALORS O = [µ(DFC1), µ(DFC2), µ(DFC3)], SI (SA est F et DPC1 est P et DPC2 est P et DPC3 est M) ~ ALORS O = [µ(DFC1), µ(DFC2), µ(DFC3)], … SI (SA est E et DPC1 est G et DPC2 est G et DPC3 est M) ~ ALORS O = [µ(DFC1), µ(DFC2), µ(DFC3)], SI (SA est E et DPC1 est G et DPC2 est G et DPC3 est G) ~ ALORS O = [µ(DFC1), µ(DFC2), µ(DFC3)]. On présente par la suite trois exemples de règles floues établies: Exemple 1: SI (SA est E et DPC1 est P et DPC2 est G et DPC3 est P) ~ ALORS O = [0.1, 0.8, 0.1], IC = 0.8 Pour cet exemple, la sortie donnée par le SFF est la 2ème classe si le seuil auditif est Elevé (valeur proche de 0.45), les sorties (DPC1, DPC3) sont Petit (valeur proche de 0) et la sortie DPC2 est Grand (valeur proche de 1). Exemple 2: 64 SI (SA est M et DPC1 est M et DPC2 est P et DPC3 est P) ~ ALORS O = [0.5, 0.1, 0.1], IC = 0.5 Pour cet exemple, la sortie donnée par le SFF est la 1ère classe si le seuil auditif est Moyen (valeur qui varie autour de 0.17), les sorties (DPC2, DPC3) sont Petit (valeur proche de 0) et la sortie DPC1 est Moyen (valeur qui varie autour de 0.5). Exemple 3: SI (SA est F et DPC1 est P et DPC2 est M et DPC3 est G) ~ ALORS O = [0.1, 0.2, 0.7], IC = 0.6 Pour cet exemple, la sortie donnée par le SFF est la 3ème classe si le seuil auditif est Faible (valeur proche de 0), la sortie DPC1 est Petit (valeur proche de 0), la sortie DPC2 est Moyen (valeur qui varie autour de 0.5) et la sortie DPC3 est Grand (valeur proche de 1). En utilisant le même mécanisme d’inférence, le vecteur flou de prise de décisions est: ~ O = { µDFC1(DFC1), µDFC2(DFC2), µDFC3(DFC3) }. Et la situation de prise de décisions du Diagnostic Final (DF) est: Oi = MAX{ µDFC1, µDFC2, µDFC3 }. La particularité de ce SFF (par rapport au SFP) est que dans ce système, en plus du diagnostic final nous avons un Indice de Confiance (IC), compris entre 0 et 1, à donner comme résultat. Cet IC s’établit selon des règles en rapport direct avec le paramètre de confiance, en l’occurrence avec le Seuil Auditif dans le cas de l’application biomédicale traitée dans le § III. 2. Le résultat du SFF est exprimé alors par: Oi = MAX{ µDFC1, µDFC2, µDFC3 } et IC = { µIC }. Après l’étude et la conception des différents modules de représentations de la connaissance, de classification, et de prise de décisions, différentes variantes de l’approche hybride modulaire proposée sont alors déduites dans le paragraphe suivant. 65 II. 4. PRINCIPALES VARIANTES DE L’APPROCHE PROPOSEE De l’étude et conception des différentes étages composant l’architecture de l’approche hybride modulaire proposée (voir Figure II. 1, § II. 2), différentes variantes de cette approche hybride modulaire sont déduites. Ensuite, pour chaque variante, le développement d’un (ou plusieurs) Système Hybride Modulaire (SHM) est proposé. En effet, de l’étude et conception des trois étages (étage de représentation de la connaissance, étage de classification et étage de prise de décisions) composant l’architecture de l’approche hybride modulaire proposée, nous avons les possibilités suivantes: - Etage de représentation de la connaissance: l’information peut être exploitée sous trois formes différentes: le signal moyenné, l’image globale ou l’image subdivisée, - Etage de classification: on peut utiliser deux types de classifieurs: classifieur à un seul réseau de neurones ou classifieur à plusieurs réseaux de neurones et suivant la nature des réseaux de neurones MLP ou RBF. - Etage de prise de décisions est composée de deux systèmes flous: un système flou primaire pour décider, à partir de la double classification, d’un diagnostic primaire, et un système flou final pour décider, à partir du diagnostic primaire et d’un paramètre de confiance, d’un diagnostic final avec un indice de confiance. Ainsi, à partir de ces possibilités on peut avoir plusieurs variantes en fonction des représentations de l’information (signal moyenné, image globale ou image subdivisée), le type du classifieur (classifieur à un seul réseau de neurones ou classifieur à plusieurs réseaux de neurones) et la nature des réseaux de neurones engagés (MLP ou RBF). Le Tableau II. 1 récapitule, pour chaque variante de l’approche hybride modulaire le (ou les) système(s) hybride(s) modulaire(s) proposé(s). 66 Représentation de la Approche Hybride Modulaire Connaissance Prise de Décisions Classification Première Deuxième Première Deuxième Diagnostic Diagnostic Représentation Représentation Classification Classification Primaire Final RBF MLP MLP RBF Système Système Flou Flou Primaire Final (SFP) (SFF) Variante Basée sur une Représentation Signal et une SHM-1 Signal Image Globale Représentation Image Globale Variante Basée sur deux Représentations SHM-2 Image Image Globale Globale Image Image Subdivisée Subdivisée Image Globale Variante Basée sur deux Représentations SHM-3 Image MLP RBF Subdivisée SHM-4 Variante Basée sur une Représentation SHM-5 Image Subdivisée et SHM-6 une Représentation Image Globale SHM-7 Image Image Subdivisée Globale Image Image Subdivisée Globale Image Image Subdivisée Globale Image Image Subdivisée Globale RBF MLP MLP RBF MLP MLP RBF RBF Tableau II. 1. Systèmes Hybrides Modulaires (SHM) proposés à partir des différentes variantes de l’approche hybride modulaire. II. 5. CONCLUSION Dans ce Chapitre une architecture de l’approche hybride modulaire composée d’une seule source d’information, de deux modules de représentation de la connaissance, de deux modules de classification, et d’un module de prise se décisions a été proposée. 67 A travers d’étude et de conception des différents étages de cette architecture nous avons dégagé: - différentes représentations de la connaissance qui sont intéressantes à mettre en œuvre à partir d’une seule source d’information, à savoir la représentation signal, la représentation image globale, et la représentation image subdivisée, ainsi que différentes combinaisons ou stratégies intéressantes à exploiter dans une double représentation de la connaissance, - deux types de classifieurs: classifieur à un seul réseau de neurones et classifieur à plusieurs réseaux de neurones et suivant la nature des réseaux de neurones MLP (approximateur neuronal global) et RBF (approximateur neuronal local), - la prise de décisions est composée de deux systèmes flous: un système flou primaire pour décider, à partir de la double classification, d’un diagnostic primaire, et un système flou final pour décider, à partir du diagnostic primaire et d’un paramètre de confiance, d’un diagnostic final avec un indice de confiance. A partir de là, et selon les différentes stratégies de représentation de la connaissance (signal, image globale, image subdivisée), et les différents types de classifieurs (classifieur à un seul réseau de neurones (MLP ou RBF), classifieur à plusieurs réseaux de neurones (MLP ou RBF)), nous avons proposé une approche modulaire basée sur l’hybridation des deux représentations (parmi les trois récitées) de l’information d’entrée utilisant une classification concurrente de celles-ci. A partir de cette approche un ensemble de systèmes hybrides modulaires ont été déduits: - SHM-1: représentations utilisées sont le signal et l’image globale, la classification du signal est effectuée par un classifieur à un seul réseau (RBF) et celle d’image par un classifieur à un seul réseau (MLP), - SHM-2: les deux représentations utilisées sont de type image globale, l’une classifiée par un classifieur à un seul réseau (MLP) et l’autre par un classifieur à un seul réseau (RBF), - SHM-3: les deux représentations utilisées sont de type image subdivisée, l’une classifiée par un classifieur à plusieurs réseaux (MLP) et l’autre par un classifieur à plusieurs réseaux (RBF), - SHM-4: représentations utilisées sont l’image subdivisée et l’image globale, la classification de l’image subdivisée est effectuée par un classifieur à plusieurs réseaux (RBF) et celle d’image globale par un classifieur à un seul réseau (MLP), 68 - SHM-5: représentations utilisées sont l’image subdivisée et l’image globale, la classification de l’image subdivisée est effectuée par un classifieur à plusieurs réseaux (MLP) et celle d’image globale par un classifieur à un seul réseau (RBF), - SHM-6: représentations utilisées sont l’image subdivisée et l’image globale, la classification de l’image subdivisée est effectuée par un classifieur à plusieurs réseaux (MLP) et celle d’image globale par un classifieur à un seul réseau (MLP), - SHM-7: représentations utilisées sont l’image subdivisée et l’image globale, la classification de l’image subdivisée est effectuée par un classifieur à plusieurs réseaux (RBF) et celle d’image globale par un classifieur à un seul réseau (RBF), La mise en œuvre de ces différents Systèmes Hybrides Modulaires (SHM) d’aide au diagnostic est présentée dans le Chapitre suivant. 69 Chapitre III. MISE EN ŒUVRE ET COMPARAISON DES SHM 71 72 III. 1. INTRODUCTION Dans ce Chapitre, nous présentons la mise en œuvre et la comparaison des différents SHM proposés à travers deux études de cas (applications): la première relevant du domaine biomédical et la seconde simulant une application industrielle. III. 2. APPLICATION BIOMEDICALE: Etude de Cas Dans ce paragraphe, nous présentons la mise en œuvre, les résultats expérimentaux, et la synthèse des différents SHM d’aide au diagnostic proposés à travers une étude de cas d’une application biomédicale. III. 2. 1. Présentation de l’Application Le cadre est celui du développement d’un outil d’aide au diagnostic pour les médecins ORL (Oto-Rhino-Laryngologiste). L’exploration fonctionnelle otoneurologique possède aujourd’hui une technique permettant l’étude objective de la conduction nerveuse le long des voies auditives: les Potentiels Evoqués Auditifs (PEA), qui sont des signaux électriques. La difficulté principale dans ce diagnostic réside dans la ressemblance de signaux correspondant à des pathologies différentes, mais aussi dans la disparité des signaux au sein d’une même 73 classe. Les résultats du test médical peuvent, par exemple, être différents pour deux mesures différentes d’un même patient. III. 2. 1. 1. Description Les potentiels évoqués sont des réponses électriques provoquées par la stimulation brève d’un système sensoriel. Ce stimulus provoque le départ d’une volée de potentiels d’action qui peuvent être enregistrés sur le trajet des nerfs, ou plus à distance des structures activées. Les électrodes exploratrices enregistrent la réponse évoquée sous l’aspect de variations de potentiel successivement positives et négatives. Figure III. 1. Principe de génération de Potentiels Evoqués Auditifs (PEA). Le processus de génération d’un Potentiel Evoqué Auditif (PEA) consiste à stimuler l’oreille avec un écouteur attaqué par un clic électrique. Sous l’effet de cette stimulation, les fibres nerveuses sont excitées et génèrent un potentiel d’action. La somme des ces potentiels d’action, synchrones de la stimulation, recueillie à distance constitue le PEA. La Figure III. 1 présente un schéma de principe qui résume la génération des PEA. Les PEA sont des signaux d’amplitude très faible, quelques centaines de nanovolts, noyés dans un bruit de fond d’amplitude très supérieure, de centaines de millivolts. Ce bruit de fond est constitué de l’activité Electro-EncéphaloGraphique, à laquelle se rajoute l’activité électro-myographique due au fait que l’on recueille ces potentiels à distance de leur lieu d’émission, à travers les espaces méningés, la boîte crânienne, les muscles d’insertion céphalique et cervicale et le cuir chevelu [BELL 03]. 74 Ces potentiels reflètent l’activité de l’oreille interne, du nerf auditif et d’une partie du tronc cérébrale. Ils sont composés essentiellement de cinq ondes, désignés de I à V. Le temps d’apparition d’une onde par rapport à l’émission du clic est appelé latence de cette onde. La Figure III. 2. présente un PEA parfait. L’origine de ces ondes a longtemps été sujette à discussion. On s’accorde généralement pour admettre que les ondes I reflète l’activité du nerf auditif, l’onde II celle des noyaux cochléaires, l’onde III de l’olive supérieure, l’onde IV du lemnisque latéral et l’onde V celle du colliculus inférieur (Annexe C). C’est du moins le schéma qui prévaut en clinique courante. Toutefois, il ne s’agit que d’une approximation puisqu’il est probable qu’à une onde ne correspond pas un générateur unique mais un ensemble de générateurs qui déchargent simultanément [BELL 03]. Figure III. 2. Potentiel Evoqué Auditif (PEA) parfait. Les PEA nous renseignent donc sur l’activité des voies auditives, depuis l’oreille interne jusqu’au tronc cérébral. De ce fait, ils ont deux domaines d’application: la détermination objective du seuil auditif et le diagnostic des pathologies du nerf auditif ou des voies centrales: - Les PEA permettent de situer objectivement le seuil auditif sur la zone des aigus. De 2 000 à 4 000 Hz, par le repérage de l’onde V que l’on suit jusqu'à 10 à 20 dB du seuil auditif. Ceci est utile chaque fois que l’audiométrie tonale n’est pas réalisable (très jeunes enfants, personnes souffrant de retard mental ou simulant une surdité, …), 75 - Une altération du fonctionnement du nerf auditif ou du tronc cérébral va modifier les PEA. C’est ainsi qu’ils aident au diagnostic des tumeurs du nerf auditif (neurinome), des atteintes vasculaires ou tumorales du tronc cérébral ou encore dégénératives telle que, par exemple, la sclérose en plaque. L’examen des PEA a longtemps été celui qui permettait le diagnostic précoce du neurinome de l’acoustique, tumeur bénigne développée à partir de la gaine de Schwann du nerf cochléo-vestibulaire. Les PEA sont entrés dans la pratique clinique quotidienne du diagnostic étiologique d’une surdité à partir des années 70. A cette époque, ils se montraient même supérieurs au scanner. Avec le développement de l’Imagerie par Résonance Magnétique, dont le pouvoir de résolution théorique est de 2 mm, ils ont perdu leur suprématie dans ce domaine. Toutefois, maintenant que l’on peut faire un diagnostic par imagerie d’un tout petit neurinome, que l’on sait être une tumeur bénigne à évolution lente, savoir si elle entraîne ou non un retentissement sur la fonction de l’oreille est un élément important à considérer dans la prescription chirurgicale. Si la décision de ne pas opérer immédiatement est prise, les PEA sont un élément important du suivi du patient. III. 2. 1. 2. Contexte Clinique La Figure III. 3. présente l’extraction et le recueil des signaux. On installe des électrodes sur la tête du patient en des points précis qui dépendent des buts recherchés. Dans notre cas, on utilise quatre électrodes (3 autocollantes et une aiguille) que l’on place de la manière suivante: - une électrode autocollante sur le front (masse), - deux électrodes autocollantes derrière les oreilles, sur les mastoïdes, - une électrode aiguille au sommet du crâne (vertex) pour le recueil de l’ElectroEncéphaloGraphique. La stimulation du système auditif est réalisée à l’aide d’un son bref, proche d’un clic acoustique, délivré par un casque que porte le patient. 76 Figure III. 3. Extraction et acquisition des Potentiels Evoqués Auditifs (PEA). Une technique d’extraction, proposée par J. F. Motsch [MOTS 87] et M. Ohresser, permet, suite à 800 acquisitions de signaux, la visualisation de l’estimation des PEAs sur des moyennes de 16 acquisitions, voir Figure III. 4. 800 acquisitions 50 moyennages de 16 acquisitions Estimation et affichage de 50 mini-potentiels Filtre détection Modèle du PEM >Seuil oui non Rejet Filtre estimation Estimation du bruit Pour chaque groupe de 16 Figure III. 4. Elaboration de la surface de la Dynamique Temporelle du tronc Cérébral (DTC) à partir de 800 acquisitions. Ainsi, une surface composée de 50 estimations de PEA, et appelée Dynamique Temporelle du tronc Cérébral (DTC), peut-être visualisée, voir Figure III. 4. Le logiciel développé pour l’acquisition et le traitement du signal PEA s’appelle ELAUDY (Extraction et Lecture AUtomatique de la DYnamique temporelle du tronc cérébral). Celui-ci permet l’obtention du signal moyenné, appelé Potentiel Evoqué Moyenné (PEM), qui correspond à la moyenne des 800 acquisitions, et de la surface DTC. De plus, ce logiciel détermine automatiquement, à partir du signal PEM, les cinq ondes significatives et donne les latences 77 de ces ondes. Il permet aussi l’enregistrement, pour chaque patient, d’un fichier contenant les informations administratives (nom, âge, etc…), les résultats des tests auditifs et les conclusions du médecin ORL (Oto-Rhino-Laryngologiste): pathologie, causes, paramètre de confiance sur la pathologie diagnostiquée. La Figure III. 5. montre l’exemple de deux surfaces typiques, l’une obtenue avec un patient normo-entendant, voir Figure III. 5. (a), la deuxième surface avec un patient souffrant d’un trouble auditif, voir Figure III. 5. (b). (a) (b) Figure III. 5. Surfaces de la Dynamique Temporelle du tronc Cérébral (DTC): (a). Patient normo-entendant. (b). Patient souffrant d’un trouble auditif. En général, pour un patient ayant une audition normale, le résultat du test DTC est une surface régulière. Cependant, en réalité il n’est pas facile de distinguer les différentes surfaces présentant les différentes pathologies. Le résultat peut varier d’une session de test à une autre pour le même patient due aux conditions d’acquisition (relaxation du patient, le rapport signal-bruit, etc…). III. 2. 2. Elaboration des Bases de Connaissances Trois bases de connaissances ont été élaborées suivant les trois protocoles suivants: la première base de connaissances est composée de signaux moyennés élaborés suivant le 1er protocole, la deuxième base de connaissances est composée des images élaborées suivant le 2ème protocole et la troisième base de connaissances composée des images élaborées suivant le 3ème protocole. 1er Protocole La représentation signal moyenné est obtenue en calculant la moyenne de la surface DTC (composée de 50 estimations de PEA), ainsi on obtient un signal moyenné appelé 78 Potentiel Evoqué Moyenné (PEM) comme montré sur la Figure III. 6. (a) tel que le premier signal de la surface représente le PEM obtenu en calculant la moyenne de la surface DTC. Chaque signal moyenné obtenu est représenté par un vecteur de 70 composants, voir Figure III. 6. (b). (b) (a) M1 . . . M70 Le signal moyenné de la surface DTC Figure III. 6. (a). Représentation Signal moyenné (PEM). (b). un signal moyenné est représenté par un vecteur de 70 composants. 2ème Protocole La représentation image est obtenue à partir de la surface DTC,en appliquant la méthode de conversion signal à image, voir II. 3. 1. 3. 1, utilisant un seuillage basé sur le 1er critère (seuillage basé sur les amplitudes). La figure III. 7. (a) présente un exemple d’une représentation image obtenue en appliquant ce protocole. (a) (b) Figure III. 7. Représentation image: (a). Exemple de résultat de conversion signal à image en appliquant le 2ème protocole. (b). Image sans valeurs nulles ni valeurs trop élevées. Chaque image obtenue est représentée par une matrice de 50 lignes et 86 colonnes. Cependant l’observation des valeurs des ces images nous mène à considérer seulement une matrice de 40 lignes et 70 colonnes. En effet, quelques dernières lignes et quelques premières colonnes ne contenant que des valeurs nulles et/ou des valeurs trop élevées, sont à éliminer, due aux conditions d’acquisition des signaux. La Figure III. 7. (b) présente alors l’image sans les valeurs nulles et/ou les valeurs trop élevées. L’image obtenue peut alors être exploitée soit pour obtenir une représentation ‘‘image globale’’ (voir § II. 3. 1. 4) soit une représentation ‘‘image subdivisée’’ (voir § II. 3. 1. 5). 79 - Représentation image globale: on subdivise l’image en seize régions (dont douze régions sont de taille 10 x 20 et quatre régions sont de taille 10 x 10), et pour chaque région on calcule la moyenne de ses niveaux de gris. Ainsi chaque image sera présentée par un vecteur de seize composants, voir Figure III. 8. 1 … 2 … i … M1 … 16 . . . M16 Figure III. 8. Représentation image globale de la connaissance. - Représentation image subdivisée: on subdivise l’image en seize régions, où chaque région représente une imagette. Ainsi, chaque image est présentée par seize imagettes (dont douze imagettes sont de taille 10 x 20 et quatre imagettes sont de taille 10 x 10), voir Figure III. 9. I-1 .. . I-16 Figure III. 9. Représentation image subdivisée de la connaissance. 3ème Protocole La représentation image est obtenue à partir de la transformée en ondelettes du signal moyenné, en appliquant la méthode de conversion signal à image, voir II. 3. 1. 3. 1, utilisant un seuillage basé sur le 2ème critère (seuillage basé sur les aires). La figure III. 10 présente un exemple d’une représentation image obtenue en appliquant ce protocole. L’image obtenue peut alors être exploitée soit pour obtenir une représentation ‘‘image globale’’ (voir § II. 3. 1. 4) soit une représentation ‘‘image subdivisée’’ (voir § II. 3. 1. 5). L’image globale et l’image subdivisée sont élaborées de la même manière que l’image globale et l’image subdivisée du Protocole 2. Ainsi chaque image sera présentée par un vecteur de seize composants dans le cas d’une représentation image globale et par seize imagettes (dont 80 douze imagettes sont de taille 10 x 20 et quatre imagettes sont de taille 10 x 10) dans le cas d’une représentation image subdivisée. Figure III. 10. Exemple de résultat de conversion signal à image en appliquant le 3ème protocole. Bases d’Apprentissage et de Généralisation A partir des renseignements mentionnés par le médecin, une sélection des sujets a été faite dans le cadre des travaux développés dans [BELL 03] utilisant le logiciel ELAUDY et une base de données du CEFON (Centre d’Explorations Fonctionnelles Oto-Neurologiques). Trois catégories de patients selon le type de leurs troubles sont formées. Ces catégories sont: - Rétro-Cochléaire(RC): ces patients sont atteints de troubles qui touchent la partie de l’oreille située après la cochlée, (classe Rétro-Cochléaire), - Endo-Cochléaire (EC): ces patients sont atteints de troubles qui touchent la partie de l’oreille située au niveau de la cochlée, (classe Endo-Cochléaire), - Normale (N): ces patients ont une audition normale (classe Normale). Les trois bases de connaissances sont composées de 206 exemples. Le tableau suivant, voir Tableau III. 1, présente la répartition de chacune de ces trois bases de connaissance en fonction des trois pathologies: Retro-Cochléaire, Endo-Cochléaire et Normale. Tableau III. 1. Répartition des trois bases de connaissance. Classes C1 C2 C3 Pathologie Rétro-Cochléaire Endo-Cochléaire Normale Nombre d’Exemples 38 77 91 81 La répartition de la base d’apprentissage et de la base de généralisation pour chaque base de connaissance est présentée dans le Tableau III. 2, telle que 104 images (≈ 50% de la base) sont utilisées dans la base d’apprentissage et 102 images (≈ 50%) sont utilisées dans la base de généralisation. Tableau III. 2. Bases d’apprentissage et de généralisation. Base de Connaissances Classe Rétro- Classe Endo- Classe 206 Exemples Cochléaire Cochléaire Normale Base d’Apprentissage (104) 19 39 46 Base de Généralisation (102) 19 38 45 La Figure III. 11 présente quelques exemples de la représentation signal moyenné de six patients, obtenues en appliquant le 1er protocole. La Figure III. 11. (a) présente le cas de deux patients appartenant à la classe Rétro-Cochléaire, la Figure III. 11. (b) présente le cas de deux patients appartenant à la classe Endo-Cochléaire, et la Figure III. 11. (c) présente le cas de deux patients appartenant à la classe Normale. (a ) (b ) (c) Figure III. 11. Exemples de la représentation signal moyenné: (a). Cas de deux patients (classe RétroCochléaire). (b). Cas de deux patients (classe Endo-Cochléaire). (c). Cas de deux patients (classe Normale). La Figure III. 12 présente la représentation image pour les mêmes patients obtenue en appliquant le 2ème protocole. La Figure III. 12. (a) présente le cas de deux patients appartenant 82 à la classe Rétro-Cochléaire, la Figure III. 12. (b) présente le cas de deux patients appartenant à la classe Endo-Cochléaire, et la Figure III. 12. (c) présente le cas de deux patients appartenant à la classe Normale. a b c Figure III. 12. Exemples de résultats de la conversion signal à image appliquant le 2ème protocole: (a). Cas de deux patients (classe Rétro-Cochléaire). (b). Cas de deux patients (classe Endo-Cochléaire). (c). Cas de deux patients (classe Normale). Ces exemples montrent qu’on peut avoir deux exemples appartenant à deux classes différentes et qui se ressemblent, comme on peut avoir deux exemples appartenant à la même classe et qui sont différents, d’où la difficulté de la classification, et par conséquent la difficulté d’établir un diagnostic dans le cas de cette application. III. 2. 3. Systèmes Hybrides Modulaires (SHM) III. 2. 3. 1. Mise en Œuvre La mise en oeuvre des Systèmes Hybrides Modulaires (SHM) proposés, voir § II. 4, Tableau II. 1, est présentée dans ce paragraphe. Pour l’ensemble de ces systèmes, le signal est présenté par un vecteur de 70 composants, l’image globale est présentée par un vecteur de 16 composants et l’image subdivisée est présentée par 16 imagettes. 83 III. 2. 3. 1. 1. Classification - Choix des paramètres des classifieurs • Pour MLP Les paramètres, du réseau MLP, à ajuster sont: - taux d’apprentissage, - nombre de neurones de la couche cachée, - nombre de cycle (epochs). Pour ajuster ces paramètres, nous avons donc mené une étude utilisant la représentation image globale de la 2ème base de connaissance. Taux d’apprentissage Pour choisir le taux d’apprentissage (eta), nous avons fixé l’erreur admissible (ea) à 0.01, le nombre de neurones de la couche cachée (NNC) à 45 neurones et le nombre de cycles à 2000 cycles. La Figure III. 13 présente les résultats obtenus pour différentes valeurs de eta. De cette étude, la valeur choisie de eta est 0.1. Nombre de neurones de la couche cachée Le nombre de neurones de la couche d’entrée correspond au nombre de composantes de vecteurs d’entrée. Le nombre de neurones de la couche de sortie correspond quant à lui au nombre de classes que l’on souhaite obtenir, dans ce travail le nombre de neurones dans la couche de sortie est de 3 neurones. Pour choisir le nombre de neurones de la couche cachée (NNC), nous avons fixé l’erreur admissible (ea) à 0.01, le taux d’apprentissage à 0.1 et le nombre de cycles à 2000 cycles. La Figure III. 14 présente les résultats obtenus pour différentes valeurs de NNC. D’après cette étude, la valeur choisie de NNC est 85. Choix de Eta 30 25 20 Rétro Endo 15 Normal 10 5 0 0 0,05 0,1 0,15 0,2 0,25 valeurs de Et a Figure III. 13. Choix de la valeur du Taux d’apprentissage (eta). 84 Choix de NNC Taux de Généralisation 35 30 25 Rétro 20 Endo 15 Normal 10 5 0 0 20 40 60 80 100 120 Valeurs de NNC Figure III. 14. Choix du nombre de neurones de la couche cachée (NNC). Nombre de cycles (epochs) Le nombre de cycles choisi est celui qui donne le taux d’apprentissage le plus élevé en comparant entre les taux de généralisation obtenus pour différentes valeurs de cycles. • Pour RBF Les paramètres ajustables dans le réseau RBF sont: - position et nombre des noyaux, - rayon de la zone d’influence, - adaptation des poids de la couche de sortie. La procédure adoptée, pour l’apprentissage du RBF, est la procédure d’apprentissage hybride basée sur: - la détermination des paramètres de la première couche (position et nombre des noyaux, Rayon de la zone d’influence). - l’apprentissage des poids de la couche de sortie utilisant la rétropropagation du gradient. Position et nombre des noyaux Les noyaux choisis correspondent aux exemples de la base d’apprentissage utilisée, ainsi le nombre de noyaux dans la couche cachée du RBF est 104 noyaux (la base d’apprentissage est composée de 104 exemples pour les trois bases de connaissances utilisées). Rayon de la zone d’influence (Beta) Pour ajuster ce paramètre, nous avons donc mené une étude utilisant la représentation signal de la 1ère base de connaissance. Pour choisir la taille de la zone d’influence des neurones, nous avons fait varier sa valeur de 0.006 à 0.01 avec un pas de 0.001 et de 0.01 à 85 0.06 avec un pas de 0.01. La Figure III. 15 et la Figure III. 16 présentent les résultats obtenus pour différentes valeurs de Beta pour les deux bases: apprentissage et généralisation. Choix de Beta Beta = 0.01 50 Taux d'apprentissage 45 40 35 30 Retro-Cochléaire 25 Endo-Cochléaire 20 Normal 15 10 5 0 0 0,02 0,04 0,06 0,08 valeurs de Beta Figure III. 15. Taux d’apprentissage en fonction de la zone d’influence (Béta). choix de Beta Beta = 0.01 50 Taux de généralisation 45 40 35 30 Retro-Cochléaire 25 Endo-Cochléaire 20 Normal 15 10 5 0 0 0,02 0,04 0,06 0,08 Valeurs de Beta Figure III. 16. Taux de généralisation en fonction de la zone d’influence (Béta). Adaptation des poids de la couche de sortie Les poids de la couche de sortie sont déterminés par un apprentissage utilisant la rétropropagation du gradient avec un taux d’apprentissage de 0.1 et une erreur admissible de 0.01. - Paramètres des classifieurs Nous donnons, par la suite, les principaux paramètres des classifieurs utilisés. • Paramètres du Réseau RBF (Signal, 1er protocole) - Nombre de neurones dans la couche d’entrée: 70, 86 - Nombre de neurones dans la couche cachée: 104, - Initialisation aléatoire des poids entre [-1, +1], - Rayon de la zone d’influence: 0.01, - Algorithme d’entraînement: la rétropropagation du gradient, - Taux d’apprentissage: 0.1, - Erreur admissible: 0.01, - Nombre de cycles (epochs) ≈ 2000. • Paramètres du Réseau MLP (Image Globale, 2ème et 3ème protocole) - Algorithme d’entraînement: la rétropropagation du gradient (voir Annexe A. 3. 2), - Nombre de couches du réseau de neurones: 3 couches, - Nombre de neurones dans la couche d’entrée: 16, - Nombre de neurones dans la couche cachée: 85, - Initialisation aléatoire des poids entre [-1, +1], - Taux d’apprentissage: 0.1, - Erreur admissible: 0.01, - Nombre de cycles (epochs) ≈ 5000. • Paramètres du Réseau RBF (Image Globale, 2ème et 3ème protocole) - Nombre de neurones dans la couche d’entrée: 16, - Nombre de neurones dans la couche cachée: 104, - Initialisation aléatoire des poids entre [-1, +1], - Rayon de la zone d’influence: 0.1, - Algorithme d’entraînement: la rétropropagation du gradient, - Taux d’apprentissage: 0.1, - Erreur admissible: 0.01, - Nombre de cycles (epochs) ≈ 20000. • Paramètres du MLP (Image Subdivisée, 2ème protocole) - Algorithme d’entraînement : la rétropropagation du gradient, - Nombre de couches du réseau de neurones: 3 couches, - Nombre de neurones dans la couche d’entrée: 200 (imagette 10 x 20) et 100 (imagette 10 x10), 87 - Nombre de neurones dans la couche cachée: 211 (imagette 10 x 20) et 111 (imagette 10 x 10), - Initialisation aléatoire des poids entre [-1, +1], - Taux d’apprentissage: 0.1, - Erreur admissible: 0.01, - Nombre de cycles (epochs) ≈ 2500. • Paramètres du Réseau RBF (Image Subdivisée, 2ème protocole) - Nombre de neurones dans la couche d’entrée: 200 (imagette 10 x 20) et 100 (imagette 10 x10), - Nombre de neurones dans la couche cachée: 104, - Initialisation aléatoire des poids entre [-1, +1], - Rayon de la zone d’influence: 0.1, - Algorithme d’entraînement : la rétropropagation du gradient, - Taux d’apprentissage: 0.1, - Erreur admissible: 0.01, - Nombre de cycles (epochs) ≈ 5000. III. 2. 3. 1. 2. Prise de Décisions - Choix des paramètres des systèmes flous: SFP et SFF Choix du modèle Le modèle utilisé est le modèle de Mamdani qui décrit le système à partir des règles SI ALORS où, les prémisses et les conclusions utilisent des variables linguistiques qui ont des ensembles flous comme valeurs. Ce type de modèles est essentiellement une expression qualitative du comportement du système, où les règles sont obtenues la plupart du temps à partir de la connaissance des experts et des différents mécanismes de raisonnement. Dans ce travail, les conclusions sont de nature linguistiques ce qui a motivé notre choix du model de Mamdani pour le SFP et le SFF grâce à ces règles SI-ALORS linguistique contrairement à d’autres modèles comme le Takagi-Kang pour les quels les prémisses des règles sont des variables linguistiques mais les conclusion sont de type numérique (constante, polynôme ou fonction). 88 Fonctions d’appartenances Les courbes d'appartenance prennent différentes formes en fonction de la nature des données. Après une étude sur la nature des données en question, les fonctions d’appartenances de type trapézoïdal sont les plus adaptées pour les deux systèmes flous SFP et SFF. Les intervalles sont définis pour présenter les différentes catégories. Nous donnons, dans ce paragraphe, les principales caractéristiques des systèmes flous utilisés pour la prise de décisions. - Les caractéristiques des deux systèmes: SFP et SFF • Les Principales Caractéristiques du Système Flou Primaire (SFP): Le SFP, développé dans § II. 3. 3. 4, est chargé de la prise de décisions à partir de la double classification (deux classifications neuronales). Il est caractérisé par: - Les fonctions d’appartenance des entrées (C1-1, C1-2, C1-3) et (C2-1, C2-2, C2-3), illustrées dans la Figure III. 17, et que nous avons établi sur la base d’observations des sorties d’un MLP ou RBF et des sorties d’un traitement statistique (des classifications par RBF ou par MLP), - L’expertise des 729 règles floues constituant la base de règles floues, que nous avons établi et détaillé en Annexe E. 1, - Le mécanisme d’inférence est présenté dans § II. 3. 3. 4. µ(Classe) 1 Loin Proche Moyen Classe 0 0 0.5 0.8 1 Figure III. 17. Fonction d’appartenance des paramètres C1-1, C1-2, C1-3 (ou C2-1, C2-2, C2-3) à partir d’une classification par MLP (ou RBF), ou du traitement statistique des classifications par MLP (ou RBF). • Les Principales Caractéristiques du Système Flou Final (SFF): Le SFF, développé dans le § II. 3. 3. 4, est chargé de la prise de décisions à partir du résultat du système flou primaire et d’un Paramètre de Confiance (PC). Il est caractérisé par: 89 - Les fonctions d’appartenance des entrées (PC, DPc1, DPc2, DPc3), illustrées dans la Figure III. 18 et la Figure III. 19, et que nous avons établi sur la base d’observations du PC, du Seuil Auditif (SA) dans ce cas, ainsi que des sorties du Diagnostic Primaire (DP), - L’expertise des 81 règles floues constituant la base de règles, que nous avons établi et détaillé en Annexe E. 2, - Le mécanisme d’inférence est présenté dans § II. 3. 3. 4. µ(SA) 1 Faible Elevé Moyen 0 0 0.25 0.09 0.45 SA Figure III. 18. Fonction d’appartenance du Paramètre de Confiance (PC): le Seuil Auditif (SA). µ(DPClasse) 1 Petit Moyen Grand 0 0 DPClasse 1 0.3 0.4 0.5 Figure III. 19. Fonction d’appartenance des paramètres DPC1, DPC2, et DPC3. Remarque: Par la suite, dans les tableaux des SFP et SFF, nous présentons pour chaque classe: - le taux d’apprentissage, - le taux global de généralisation (le taux de la totalité des exemples classés comprenant aussi les exemples classés simultanément dans deux classes), - l’Indice de Confiance de généralisation ICg. Notons que l’indice de confiance de généralisation qui sera présenté entre parenthèses est défini tel que: taux des exemples bien classés Indice de Confiance de généralisation (ICg) = taux global de généralisation 90 III. 2. 3. 2. Résultats Obtenus III. 2. 3. 2. 1. SHM-1_Signal-RBF_ImageGlobale-MLP • Les représentations de la connaissance utilisées sont les suivantes: - la 1ère représentation est le signal obtenu en appliquant le 1er protocole, - la 2ème représentation est l’image globale obtenue en appliquant le 2ème protocole. - Etage de Classification: Les résultats de la phase de la classification sont présentés dans le Tableau III. 3 pour la classification du signal par le réseau de neurones RBF et dans le Tableau III. 4 pour la classification de l’image globale par le réseau de neurones MLP. Tableau III. 3. Résultats de la classification neuronale (RBF) du signal (SHM-1). Résultats Signal (RBF) Rétro-Cochléaire (RC) Endo-Cochléaire (EC) Normale (N) Taux d’Apprentissage 100 % 100 % 100 % Taux de Généralisation 52.63 % 36.84 % 62.22 % Tableau III. 4. Résultats de la classification neuronale (MLP) de l’image globale (SHM-1). Résultats Image Globale (MLP) Rétro-Cochléaire (RC) Endo-Cochléaire (EC) Normale (N) Taux d’Apprentissage 100 % 100 % 100 % Taux de Généralisation 36.84 % 42.10 % 66.66 % La base d’apprentissage a été apprise avec un taux d’apprentissage de 100 % pour l’ensemble des classes et pour les deux réseaux de neurones utilisés (RBF et MLP) pour la classification du signal et de l’image globale, respectivement. Les taux de généralisation (en moyenne) pour les deux classifieurs sont plutôt équivalents avec un avantage pour le signal, (50.56 % pour le signal et 48.53 % pour l’image globale). La classification du signal donne un taux de généralisation pour la classe RC(52.63%) supérieur à celui donné par la classification de l’image globale (RC(36.84%)) par contre, pour les deux classes EC et N, les deux classifieurs donnent des taux de généralisation équivalents. 91 - Etage de Prise de Décisions: Les résultats de la phase de la prise de décisions sont présentés dans le Tableau III. 5 pour le SFP et dans le Tableau III. 6 pour le SFF. Tableau III. 5. Résultats du Système Flou Primaire (SFP) de Prise de Décisions (SHM-1). Résultats Système Flou Primaire (SFP) Taux d’Apprentissage Rétro-Cochléaire (RC) Endo-Cochléaire (EC) Normale (N) 100 % 100 % 100 % Taux Global de Généralisation (Indice de Confiance de généralisation de SFP) 52.63 % (0.89) 42.10 % (0.62) 77.77 % (0.82) Tableau III. 6. Résultats du Système Flou Final (SFF) de Prise de Décisions (SHM-1). Résultats Système Flou Final (SFF) Taux d’Apprentissage Rétro-Cochléaire (RC) Endo- Cochléaire (EC) Normale (N) 100 % 97.43 % 100 % Taux Global de Généralisation (Indice de Confiance de généralisation de SFF) 57.89 % (0.81) 52.63 % (0.84) 73.33 % (0.93) Les taux globaux de généralisation donnés par le SFF sont meilleurs que les taux globaux de généralisation donnés par le SFP sauf pour la classe Normale et l’indice de confiance de généralisation (en moyenne) de SFF (0.86) est supérieur à celui de SFP (0.77). Comparons les résultats donnés par le SFP et le SFF aux résultats de l’étape de la classification, on remarque que les taux globaux de généralisation donnés par le SFP et le SFF sont meilleurs que les taux de généralisation donnés par la classification du signal par RBF et la classification de l’image globale par MLP. Le SFF donne de mauvais résultats pour les deux classes RC(57.89%) et EC(52.63%) mais donne un bon résultat pour la classe N(73.33%). • Les représentations de la connaissance utilisées sont les suivantes: - la 1ère représentation est le signal obtenu en appliquant le 1er protocole, - la 2ème représentation est l’image globale obtenue en appliquant le 3ème protocole. 92 - Etage de Classification: Les résultats de la phase de la classification sont présentés dans le Tableau III. 7 pour la classification du signal par le réseau de neurones RBF et dans le Tableau III. 8 pour la classification de l’image globale par le réseau de neurones MLP. Tableau III. 7. Résultats de la classification neuronale (RBF) du signal (SHM-1). Résultats Signal (RBF) Rétro-Cochléaire (RC) Endo-Cochléaire (EC) Normale (N) Taux d’Apprentissage 100 % 100 % 100 % Taux de Généralisation 52.63 % 36.84 % 62.22 % Tableau III. 8. Résultats de la classification neuronale (MLP) de l’image globale (SHM-1). Résultats Image Globale (MLP) Rétro-Cochléaire (RC) Endo-Cochléaire (EC) Normale (N) Taux d’Apprentissage 100 % 100 % 100 % Taux de Généralisation 31.57 % 42.10 % 64.44 % La base d’apprentissage a été apprise avec un taux d’apprentissage de 100 % pour l’ensemble des classes et pour les deux réseaux de neurones utilisés (RBF et MLP) pour la classification du signal et de l’image globale, respectivement. Les taux de généralisation (en moyenne) pour les deux classifieurs sont plutôt équivalents avec un avantage pour le signal (50.56 % pour le signal et 46.03 % pour l’image globale). La classification du signal donne un taux de généralisation pour la classe RC(52.63%) supérieur à celui donné par la classification de l’image globale (RC(31.57%)). Pour les deux classes EC et N, les deux classifieurs donnent des taux de généralisation comparables. - Etage de Prise de Décisions: Les résultats de la phase de la prise de décisions sont présentés dans le Tableau III. 9 pour le SFP et dans le Tableau III. 10 pour le SFF. Tableau III. 9. Résultats du Système Flou Primaire (SFP) de Prise de Décisions (SHM-1). Résultats Système Flou Primaire (SFP) Taux d’Apprentissage Rétro-Cochléaire (RC) Endo- Cochléaire (EC) Normale (N) 100 % 97.43 % 100 % Taux Global de Généralisation (Indice de Confiance de généralisation de SFP) 36.84 % (1) 36.84 % (0.85) 71.11 % (0.86) 93 Tableau III. 10. Résultats du Système Flou Final (SFF) de Prise de Décisions (SHM-1). Résultats Système Flou Final (SFF) Taux d’Apprentissage Rétro-Cochléaire (RC) Endo-Cochléaire (EC) Normale (N) 100 % 94.87 % 100 % Taux Global de Généralisation (Indice de Confiance de généralisation de SFF) 52.63 % (1) 60.52 % (0.73) 82.22 % (0.91) Les taux globaux de généralisation donnés par le SFF sont meilleurs que les taux globaux de généralisation donnés par le SFP pour les trois classes et l’indice de confiance de généralisation (en moyenne) de SFF (0.88) est comparable à celui de SFP (0.90). Comparons les résultats donnés par le SFP et le SFF aux résultats de l’étape de la classification, on remarque que: - Les taux globaux de généralisation donnés par le SFP sont comparables aux taux de généralisation donnés par le RBF et le MLP pour les classes RC et EC, avec un avantage pour le taux de généralisation de la classe RC donné par le RBF. Pour la classe N, le SFP donne un taux global de généralisation supérieur aux taux de généralisation donnés par le RBF et le MLP, - Les taux globaux de généralisation donnés par le SFF sont meilleurs que les taux de généralisation donnés par le RBF et le MLP. Le SFF donne un mauvais résultat pour la classe RC, un très bon résultat pour la classe N et une nette amélioration pour la classe EC (de 36.84% à 60.52%). La comparaison de l’ensemble des résultats de SHM-1 obtenus à partir du 2ème protocole (1er cas) ou du 3ème protocole (2ème cas) montre que: - pour le SFP, les taux globaux de généralisation dans le 1er cas sont supérieurs aux taux globaux de généralisation dans le 2ème cas pour les trois classes, - pour le SFF, les taux globaux de généralisation sont comparables dans le 1er et 2ème cas pour la classe RC. Les taux globaux de généralisation sont supérieurs dans le 2ème cas pour les classes EC et N. III. 2. 3. 2. 2. SHM-2_ImageGlobale-MLP_ImageGlobale-RBF • Les représentations de la connaissance utilisées sont les suivantes: 94 - la 1ère représentation est l’image globale obtenue en appliquant le 2ème protocole, - la 2ème représentation est l’image globale obtenue en appliquant le 2ème protocole. - Etage de Classification: Les résultats de la phase de la classification sont présentés dans le Tableau III. 11 pour la classification de l’image globale par le réseau de neurones MLP et dans le Tableau III. 12 pour la classification de l’image globale par le réseau de neurones RBF. Tableau III. 11. Résultats de la classification neuronale (MLP) de l’image globale (SHM-2). Résultats Image Globale (MLP) Rétro-Cochléaire (RC) Endo-Cochléaire (EC) Normale (N) Taux d’Apprentissage 100 % 100 % 100 % Taux de Généralisation 36.84 % 42.10 % 66.66 % Tableau III. 12. Résultats de la classification neuronale (RBF) de l’image globale (SHM-2). Résultats Image Globale (RBF) Rétro-Cochléaire (RC) Endo-Cochléaire (EC) Normale (N) Taux d’Apprentissage 100 % 94.87 % 100 % Taux de Généralisation 36.84 % 36.84 % 55.55 % La base d’apprentissage a été apprise avec un taux d’apprentissage de 100% pour les trois classes et par les deux classifieurs (MLP et RBF) sauf pour la classe EC (94.87%) par le réseau RBF. Pour la classe RC, les deux classifieurs donnent le même taux de généralisation (36.84%). Pour les deux classes EC et N, le MLP donne des meilleurs résultats (EC (42.10%), N(66.66%)) par rapport à ceux donnés par le RBF, EC(36.84%) et N (55.55). Les taux de généralisation (en moyenne) pour les deux classifieurs sont plutôt équivalents avec un avantage pour la classification de l’image globale par le MLP (48.53 % pour l’image globale par le MLP et 43.07 % pour l’image globale par le RBF). Ceci suggère que le MLP est mieux adapté à la classification de l’Image Globale que le RBF. - Etage de Prise de Décisions: Les résultats de la phase de la prise de décisions sont présentés dans le Tableau III. 13 pour le SFP et dans le Tableau III. 14 pour le SFF. 95 Tableau III. 13. Résultats du Système Flou Primaire (SFP) de prise de décisions (SHM-2). Résultats Système Flou Primaire (SFP) Taux d’Apprentissage Rétro-Cochléaire (RC) Endo-Cochléaire (EC) Normale (N) 100 % 100 % 100 % Taux Global de Généralisation (Indice de Confiance de la généralisation de SFP) 36.84 % (1) 39.47 % (0.93) 66.66 % (0.86) Tableau III. 14. Résultats du Système Flou Final (SFF) de prise de décisions (SHM-2). Résultats Système Flou Final (SFF) Taux d’Apprentissage Rétro-Cochléaire (RC) Endo-Cochléaire (EC) Normale (N) 100 % 89.74 % 100 % Taux Global de Généralisation (Indice de Confiance de la généralisation de SFF) 36.84 % (1) 42.10 % (0.93) 73.33 % (0.87) Les taux globaux de généralisation donnés par le SFF sont légèrement supérieurs aux taux globaux de généralisation donnés par le SFP et l’indice de confiance de généralisation (en moyenne) est de 0.93 donné à la fois par SFP et SFF. Comparons les résultats donnés par le SFP et SFF aux résultats de l’étape de la classification, on remarque que: - les taux globaux de généralisation donnés par le SFP sont comparables aux taux de généralisation donnés par le MLP et le RBF, - les taux globaux de généralisation du SFF sont globalement supérieurs à ceux données par RBF et comparables à ceux donnés par MLP. Le SFF ne permet pas une amélioration des résultats des deux classes RC et EC puisqu’il conserve les mêmes taux de généralisation donnés par le MLP (RC(36.84%) et EC(42.10%)) mais il donne un bon résultat pour la classe N. • Les représentations de la connaissance utilisées sont les suivantes: - la 1ère représentation est l’image globale obtenue en appliquant le 3ème protocole, - la 2ème représentation est l’image globale obtenue en appliquant le 3ème protocole. 96 - Etage de Classification: Les résultats de la phase de la classification sont présentés dans le Tableau III. 15 pour la classification de l’image globale par le réseau de neurones MLP et dans le Tableau III. 16 pour la classification de l’image globale par le réseau de neurones RBF. Tableau III. 15. Résultats de la classification neuronale (MLP) de l’image globale (SHM-2). Résultats Image Globale (MLP) Rétro-Cochléaire (RC) Endo-Cochléaire (EC) Normale (N) Taux d’Apprentissage 100 % 100 % 100 % Taux de Généralisation 31.57 % 42.10 % 64.44 % Tableau III. 16. Résultats de la classification neuronale (RBF) de l’image globale (SHM-2). Résultats Image Globale (RBF) Rétro-Cochléaire (RC) Endo-Cochléaire (EC) Normale (N) Taux d’Apprentissage 100 % 100 % 100 % Taux de Généralisation 31.57 % 28.94 % 57.77 % La base d’apprentissage a été apprise avec un taux d’apprentissage de 100% pour l’ensemble des classes et pour les deux réseaux de neurones utilisés (MLP et RBF). Le taux de généralisation (en moyenne) donné par le MLP (46.03%) est supérieur au taux de généralisation (en moyenne) donné par le RBF (39.42%). Les taux de généralisation donnés par le RBF et le MLP sont comparables pour les trois classes avec un avantage pour le taux de généralisation de la classe EC donné par le MLP par rapport à celui donné par le RBF pour la même classe. - Etage de Prise de Décisions: Les résultats de la phase de la prise de décisions sont présentés dans le Tableau III. 17 pour le SFP et dans le Tableau III. 18 pour le SFF. Tableau III. 17. Résultats du Système Flou Primaire (SFP) de prise de décisions (SHM-2). Résultats Système Flou Primaire (SFP) Taux d’Apprentissage Rétro-Cochléaire (RC) Endo-Cochléaire (EC) Normale (N) 100 % 97.43 % 100 % Taux Global de Généralisation (Indice de Confiance de généralisation de SFP) 31.57 % (1) 39.47 % (0.66) 77.77 % (0.88) 97 Tableau III. 18. Résultats du Système Flou Final (SFF) de prise de décisions (SHM-2). Résultats Système Flou Final (SFF) Taux d’Apprentissage Rétro-Cochléaire (RC) Endo- Cochléaire (EC) Normale (N) 100 % 87.17 % 100 % Taux Global de Généralisation (Indice de Confiance de généralisation de SFF) 31.57 % (1) 44.73 % (0.58) 82.22 % (0.97) Les taux globaux de généralisation donnés par le SFF et par le SFP sont comparables avec un léger avantage pour les résultats donnés par le SFF et l’indice de confiance de généralisation (en moyenne) de SFF (0.85) est comparable à celui de SFP (0.84). Comparons les résultats donnés par le SFP et le SFF aux résultats de l’étape de la classification, on remarque que: - les taux globaux de généralisation donnés par le SFP sont comparables aux taux de généralisation donnés par le MLP et le RBF pour les deux classes RC et EC. Pour la classe N, le taux global de généralisation donné par le SFP est meilleur que ceux donnés par le MLP et le RBF, - les taux globaux de généralisation donnés par le SFF sont meilleurs que les taux de généralisation donnés par le MLP et le RBF sauf pour la classe RC: le SFF conserve le même taux de généralisation donné par le MLP et le RBF (RC(31.57%)). Le SFF donne des mauvais résultats pour les deux classes RC et EC mais donne un très bon résultat pour la classe N. La comparaison de l’ensemble des résultats de SHM-2 obtenus à partir du 2ème protocole (1er cas) ou du 3ème protocole (2ème cas), pour les deux systèmes flous SFP et SFF, montre que: - pour les classes RC et EC: les taux globaux de généralisation donnés par SHM-2 (1er cas) et SHM-2 (2ème cas) sont comparables, - pour la classe N: le taux global de généralisation donné par SHM-2 (2ème cas) est supérieur au taux global de généralisation donné par SHM-2 (1er cas). III. 2. 3. 2. 3. SHM-3_ImageSubdivisée-MLP_ImageSubdivisée-RBF • Les représentations de la connaissance utilisées sont les suivantes: 98 - la 1ère représentation est l’image subdivisée obtenue en appliquant le 2ème protocole, - la 2ème représentation est l’image subdivisée obtenue en appliquant le 2ème protocole. - Etage de Classification: Les taux de classification (des 16 imagettes), donnés par les seize classifieurs MLP-1 à MLP-16 sont présentés dans la Figure III. 20 et ceux donnés par les seize classifieurs RBF-1 à RBF-16, sont présentés dans la Figure III. 21. Patients Endo-Cochléaire (MLP) Taux de Classification Patients Rétro-Cochléaire (MLP) 120 100 80 60 40 20 0 1 2 3 4 5 6 7 8 9 120 100 80 60 40 20 0 10 11 12 13 14 15 16 1 2 3 4 5 6 I ma ge t t e s 7 8 9 10 11 12 13 14 15 16 Imagettes Taux de Classification Patients Normal (MLP) 150 100 Taux d’Apprentissage Taux de Généralisation 50 0 1 3 5 7 9 11 13 15 Imagettes Figure III. 20. Résultats de la classification par MLP des 16 imagettes (image subdivisée). Le Tableau III. 19 présente les résultats obtenus après le traitement statistique (voir § II. 3. 2. 5) déduisant un indicateur global dans le cas des classifieurs MLP et le Tableau III. 20 présente les résultats obtenus après le même traitement statistique déduisant un indicateur global dans le cas des classifieurs RBF. Globalement, les deux classes RC et EC sont difficilement séparables de la classe N et cela à la fois par le MLP et le RBF. 99 Patients Normal ( (RBF) Patients Rétro-Cochléaire (RBF) 120 120 100 100 80 80 60 60 40 40 20 20 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1 2 3 4 5 I ma ge t t e s 6 7 8 9 10 11 12 13 14 15 16 I ma ge t t e s Patients Endo-Cochléaire(RBF) Taux d’Apprentissage Taux de Généralisation 120 100 80 60 40 20 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 I ma ge t t e s Figure III. 21 Résultats de la classification par RBF des 16 imagettes (image subdivisée). Tableau III. 19. Résultats de la classification neuronale (MLP) de l’image subdivisée (SHM-3). Résultats Image Subdivisée (MLP) Rétro-Cochléaire (RC) Endo-Cochléaire (EC) Normale (N) Taux d’Apprentissage 100 % 100 % 100 % Taux de Généralisation 10.52 % 31.57 % 66.66 % Tableau III. 20. Résultats de la classification neuronale (RBF) de l’image subdivisée (SHM-3). Résultats Image Subdivisée (RBF) Rétro-Cochléaire (RC) Endo-Cochléaire (EC) Normale (N) Taux d’Apprentissage 100 % 100 % 100 % Taux de Généralisation 21.05 % 13.15 % 88.88 % La base d’apprentissage a été apprise avec un taux d’apprentissage de 100% pour l’ensemble des trois classes par les deux classifieurs MLP et RBF. Pour la base de généralisation, les taux obtenus par la classification de RC et EC sont assez faible pour les deux réseaux de neurones. La classification de N permet d’obtenir des taux de généralisation de 66.66% par MLP et de 88.88% par RBF. Le taux de généralisation (en moyenne) donné par l’ImageSubdivisée-MLP (36.25%) est inférieur à celui donné par l’ImageSubdivisée-RBF (41.02%). Ce qui suggère que le RBF est mieux adapté à la classification de l’Image Subdivisée que le MLP. 100 - Etage de Prise de Décisions: Les résultats de la phase de la prise de décisions sont présentés dans le Tableau III. 21 pour le SFP et dans le Tableau III. 22 pour le SFF. Tableau III. 21. Résultats du Système Flou Primaire (SFP) de prise de décisions (SHM-3). Résultats Système Flou Primaire (SFP) Taux d’Apprentissage Rétro-Cochléaire (RC) Endo-Cochléaire (EC) Normale (N) 100 % 100 % 100 % Taux Global de Généralisation (Indice de Confiance de généralisation de SFP) 31.57 % (0.33) 34.21 % (0.46) 91.11 % (0.85) Tableau III. 22. Résultats du Système Flou Final (SFF) de prise de décisions (SHM-3). Résultats Système Flou Final (SFF) Taux d’Apprentissage Rétro-Cochléaire (RC) Endo-Cochléaire (EC) Normale (N) 100 % 94.87 % 100 % Taux Global de Généralisation (Indice de Confiance de généralisation de SFF) 21.05 % (1) 65.78 % (0.88) 86.66 % (0.94) Les taux globaux de généralisation donnés par le SFF sont légèrement inférieurs aux taux globaux de généralisation donnés par le SFP pour les deux classes RC et N, et supérieur pour la classe EC. Quant à l’indice de confiance de généralisation (en moyenne), celui donné par SFF (0.94) est largement supérieur à celui donné par SFP (0.54). Comparons les résultats donnés par le SFP et le SFF aux résultats de l’étape de la classification, on remarque que les taux globaux de généralisation donnés par le SFP et le SFF sont meilleurs que les taux de généralisation donnés par les deux classifieurs MLP et RBF pour les trois classes. Le SFF donne un mauvais résultat pour la classe RC, un très bon résultat pour la classe N et une amélioration spectaculaire pour la classe EC (de 34.21% à 65.78%). A partir de maintenant, c-à-d, pour les quatre systèmes SHM-4, SHM-5, SHM-6 et SHM-7, nous nous intéressons qu’à l’étage de prise de décisions. En fait nous nous intéressons à la prise de décisions des combinaisons des deux représentations ImageSubdivisée et ImageGlobale obtenues en appliquant le 2ème protocole et classées par MLP et RBF. 101 Les résultats des différentes classifications (ImageGlobale-MLP, ImageGlobale-RBF, ImageSubdivisée-MLP, et ImageSubdivisée-RBF) étant déjà présentés et commentés, nous présentons les résultats des systèmes flous SFP et SFF dans les quatre combinaisons intéressantes afin d’analyser les résultats de la prise de décisions (l’exploitation de la redondance, de la complémentarité des classifieurs, ainsi que celle du paramètre de confiance) dans ces cas là. III. 2. 3. 2. 4. SHM-4_ImageSubdivisée-RBF_ImageGlobale-MLP - Etage de Prise de Décisions: Les résultats de la phase de la prise de décisions sont présentés dans le Tableau III. 23. pour le SFP et dans le Tableau III. 24 pour le SFF. Tableau III. 23. Résultats du Système Flou Primaire (SFP) de prise de décisions (SHM-4). Résultats Système Flou Primaire (SFP) Taux d’Apprentissage Rétro-Cochléaire (RC) Endo-Cochléaire (EC) Normale (N) 100 % 100 % 100 % Taux Global de Généralisation (Indice de Confiance de généralisation de SFP) 36.84 % (0.85) 34.21 % (0.92) 77.77 % (0.97) Tableau III. 24. Résultats du Système Flou Final (SFF) de prise de décisions (SHM-4). Résultats Système Flou Final (SFF) Taux d’Apprentissage Rétro-Cochléaire (RC) Endo-Cochléaire (EC) Normale (N) 100 % 94.87 % 100 % Taux Global de Généralisation (Indice de Confiance de généralisation de SFF) 31.57 % (1) 44.73 % (0.58) 86.66 % (0.92) Les taux globaux de généralisation donnés par le SFF sont supérieurs aux taux globaux de généralisation donnés par le SFP sauf pour la classe RC et l’indice de confiance de généralisation (en moyenne) de SFF (0.83) est inférieur à celui de SFP (0.91). Comparons les résultats donnés par le SFP et le SFF aux résultats donnés par la classification, on remarque que: 102 - les taux globaux de généralisation donnés par le SFP sont comparables aux taux de généralisation donnés par le MLP et globalement supérieurs aux taux de généralisation donnés par le RBF, - Les taux globaux de généralisation donnés par SFF sont globalement supérieurs aux taux de généralisation donnés par RBF. Ils sont comparables aux taux de généralisation donnés par le MLP sauf pour la classe N: SFF permet une importante amélioration (de 66.66% à 86.66%). Le SFF donne de mauvais résultats pour les deux classes RC et EC mais donne un très bon résultat pour la classe N(86.66%). III. 2. 3. 2. 5. SHM-5_ImageSubdivisée-MLP_ImageGlobale-RBF - Etage de Prise de Décisions: Les résultats de la phase de la prise de décisions sont présentés dans le Tableau III. 25 pour le SFP et dans le Tableau III. 26 pour le SFF. Tableau III. 25. Résultats du Système Flou Primaire (SFP) de prise de décisions (SHM-5). Résultats Système Flou Primaire (SFP) Taux d’Apprentissage Rétro-Cochléaire (RC) Endo-Cochléaire (EC) Normale (N) 100 % 100 % 100 % Taux Global de Généralisation (Indice de Confiance de généralisation de SFP) 31.57 % (0.83) 31.57 % (0.91) 68.88 % (0.90) Tableau III. 26. Résultats du Système Flou Final (SFF) de prise de décisions (SHM-5). Résultats Système Flou Final (SFF) Taux d’Apprentissage Rétro-Cochléaire (RC) Endo-Cochléaire (EC) Normale (N) 100 % 87.19 % 100 % Taux Global de Généralisation (Indice de Confiance de généralisation de SFF) 26.31 % (1) 47.36 % (0.77) 77.77 % (0.91) Les taux globaux de généralisation donnés par le SFF sont meilleurs que les taux globaux de généralisation donnés par le SFP sauf pour la classe RC et l’indice de confiance de généralisation (en moyenne) de SFF (0.89) est comparable à celui de SFP (0.88). 103 Comparons les résultats donnés par le SFP et le SFF aux résultats de l’étape de la classification, on remarque que: - les taux globaux de généralisation donnés par SFP sont globalement comparables au taux de généralisation donnés par le MLP et RBF, - Les taux globaux de généralisation donnés par SFF sont supérieurs aux taux de généralisation donnés par le MLP et le RBF sauf pour la classe RC(26.31%) comparée au taux de généralisation donné par le RBF (RC(36.84%)). Le SFF donne de mauvais résultats pour les deux classes RC et EC mais donne un bon résultat pour la classe N. III. 2. 3. 2. 6. SHM-6_ImageSubdivisée-MLP_ImageGlobale-MLP - Etage de Prise de Décisions: Les résultats de la phase de la prise de décisions sont présentés dans le Tableau III. 27 pour le SFP et dans le Tableau III. 28 pour le SFF. Tableau III. 27. Résultats du Système Flou Primaire (SFP) de prise de décisions (SHM-6). Résultats Système Flou Primaire (SFP) Taux d’Apprentissage Rétro-Cochléaire (RC) Endo-Cochléaire (EC) Normale (N) 100 % 100 % 100 % Taux Global de Généralisation (Indice de Confiance de généralisation de SFP) 36.84% (0.71) 36.84 % (0.92) 73.33 % (1) Tableau III. 28. Résultats du Système Flou Final (SFF) de prise de décisions (SHM-6). Résultats Système Flou Final (SFF) Taux d’Apprentissage Rétro-Cochléaire (RC) Endo-Cochléaire (EC) Normale (N) 100 % 97.43 % 100 % Taux Global de Généralisation (Indice de Confiance de généralisation de SFF) 21.05 % (1) 55.26 % (0.71) 80 % (0.94) Les taux globaux de généralisation donnés par le SFF sont supérieurs aux taux globaux de généralisation donnés par le SFP sauf pour la classe RC et l’indice de confiance de généralisation (en moyenne) de SFF (0.88) est comparable à celui de SFP (0.87). 104 Comparons les résultats donnés par le SFP et le SFF aux résultats de l’étape de la classification, on remarque que les taux globaux donnés par le SFP et le SFF sont meilleurs que les taux de généralisation donnés par la classification de l’image subdivisée. Les taux globaux de généralisation donnés par le SFP et par la classification de l’image globale sont comparables. Les taux globaux de généralisation de SFF sont supérieurs à ceux donnés par la classification de l’image globale sauf pour la classe RC. Le SFF donne de mauvais résultats pour les deux classes RC et EC mais donne un bon résultat pour la classe N. III. 2. 3. 2. 7. SHM-7_ImageSubdivisée-RBF_ImageGlobale-RBF - Etage de Prise de Décisions: Les résultats de la phase de la prise de décisions sont présentés dans le Tableau III. 29 pour le SFP et dans le Tableau III. 30 pour le SFF. Tableau III. 29. Résultats du Système Flou Primaire (SFP) de prise de décisions (SHM-7). Résultats Système Flou Primaire (SFP) Taux d’Apprentissage Rétro-Cochléaire (RC) Endo-Cochléaire (EC) Normale (N) 100 % 100 % 100 % Taux Global de Généralisation (Indice de Confiance de généralisation de SFP) 36.84 % (0.85) 34.21 % (0.76) 77.77 % (0.85) Tableau III. 30. Résultats du Système Flou Final (SFF) de prise de décisions (SHM-7). Résultats Système Flou Final (SFF) Taux d’Apprentissage Rétro-Cochléaire (RC) Endo-Cochléaire (EC) Normale (N) 100 % 82.05 % 100 % Taux Global de Généralisation (Indice de Confiance de généralisation de SFF) 31.57 % (1) 36.84 % (0.78) 88.88 % (0.90) Les taux globaux de généralisation donnés par le SFF sont comparables aux taux globaux de généralisation donnés par le SFP sauf pour la classe N qui présente une amélioration (de 77.77% à 88.88%). Quant à l’indice de confiance de généralisation (en moyenne), celui donné par SFF (0.89) est supérieur à celui donné par SFP (0.82). 105 Comparons les résultats donnés par le SFP et le SFF aux résultats de l’étape de la classification, on remarque que les taux globaux de généralisation de SFP et SFF sont globalement supérieurs à ceux donnés par la classification de l’image subdivisée et comparables au taux de généralisation donnés par la classification de l’image globale sauf pour la classe N: le SFP et SFF permettent une importante amélioration de cette classe. Le SFF donne de mauvais résultats pour les deux classes RC et EC mais donne un très bon résultat pour la classe N. III. 2. 3. 3. Synthèse Concernant les résultats de la classification: A part la classification satisfaisante (un taux de bonne classification d’environ de 90 % en généralisation) des patients seins (correspondant à la classe N) par le classifieur à base du modèle RBF opérant à partir de la représentation ‘‘Image Subdivisée’’, les autres résultats, correspondant aux cas où la classification est effectuée par l’un ou l’autre des deux modèles neuronaux (MLP ou RBF), sont médiocres (les taux de bonne classification plafonnent à une cinquantaine de pourcents et cela quelque soit la représentation de la connaissance utilisée). Cependant, si ces résultats (obtenus à partir de l’utilisation individuelle de chaque modèle neuronal comme classifieur) ne correspondent pas aux taux de classification pouvant être jugés comme acceptables (taux de bonne classification supérieure à 75%), ils permettent néanmoins de dégager quelques tendances se résumant comme ceci: - notre choix d’une architecture plus complexe fusionnant les réponses issues des classifieurs individuels (plus simples) semble pertinente, - le choix de deux classifieurs, l’un basé sur un apprentissage global (MLP) et l’autre basé sur un apprentissage local (RBF) semble aussi trouver une certaine pertinence. En effet, le modèle MLP semble plus adapté à la classification à partir d’une représentation ‘‘Image Globale’’ alors que le modèle RBF correspondrait plutôt mieux à la classification à partir de la représentation ‘‘Image Subdivisée’’. Concernant la classification après l’hybridation, la comparaison (des résultats obtenus dans le cas) des 7 variantes proposées (SHM-1 à SHM-7) peut être synthétisée comme suit: - le système hybride SHM-1 obtient le meilleur succès en ce qui concerne la classification des patients relevant de la classe Rétro-Cochléaire (RC), SHM-3 permet une meilleure reconnaissance des patients appartenant à la classe Endo-Cochléaire 106 (EC), finalement les meilleurs résultats de la classification correcte des patients seins (classe N) sont donnés par le système hybride SHM-7, - l’étage de décision basé sur la logique floue (et de ce fait l’hybridation des réponses des deux classifieurs) améliore sensiblement les résultats de classification issus de chaque classifieur neuronal individuel (MLP ou RBF). En effet, on peut constater une amélioration d’environ de 17% du taux de bonne classification des patients appartenant à la classe EC ainsi qu’une amélioration d’environ de 13 % du taux de bonne classification des patients seins (classe N) à la sortie de l’étage de décisions (voir le tableau III. 31), Tableau III. 31. Moyennes des taux de classifications après l’hybridation pour les trois classes RC, EC et N. Moyenne Classifieurs après SFP après SFF Rétro-Cochléaire 31.57% 37.59% 32.32% Endo-Cochléaire 32.1% 36.08% 49.24% Normale 67.99% 76.18% 80.94% - quant à la stagnation du taux de bonne classification des patients relevant de la classe RC, elle devrait être considérée avec certaine prudence à cause du faible nombre d’exemples de la base d’apprentissage (19 seulement) utilisée. Finalement, les résultats obtenus dans les cas des systèmes SHM-1 et SHM-2 semble confirmer la pertinence du seuillage utilisé dans le 3ème protocole1 (par rapport au seuillage utilisé dans le 2ème protocole2): notamment en ce qui concerne la classe EC, la représentation ‘‘Image Globale’’ issue du 3ème protocole semble plus adéquate que les autres représentations (conduisant à un taux de bonne classification d’environ 60%). III. 3. APPLICATION INDUSTRIELLE: Etude de Cas Dans ce paragraphe, nous présentons la mise en œuvre, les résultats expérimentaux, et la synthèse d’une étape de classification proposée à travers une étude de cas en vue d’une application industrielle. 1 2 Conversion signal à image à partir d’une transformée en ondelettes d’un signal (temps fréquence). Conversion signal à image à partir d’une surface (temps-temps). 107 III. 3. 1. Présentation de l’Application L’objet de cette étude concerne la mise en place d’un outil d’aide au diagnostic d’une machine asynchrone qui représente plus de 90 % des machines tournantes. Dans un cadre concurrentiel, la maintenance et le diagnostic de ces machines asynchrones deviennent donc un enjeu économique. Il est important de détecter de manière précoce les défauts qui peuvent apparaître dans ces machines et de développer des systèmes d’aide au diagnostic afin d’éviter les éventuels dysfonctionnements. Parmi les techniques permettant de diagnostiquer une machine asynchrone on trouve le diagnostic basé sur les signaux vibratoires. III. 3. 1. 1. Description Le contrôle des machines tournantes en utilisant des signaux vibratoires est couramment utilisé notamment pour la surveillance des composants fragiles ou stratégiques d’un système, par exemple les roulements à billes, les engrenages ou les rotors. La procédure consiste à détecter l’apparition d’un défaut sans démontage de la machine en prélevant le signal vibratoire. Les vibrations engendrées par une machine tournante traduisent les efforts dynamiques engendrés par les pièces de la machine en mouvement. L’exploitation des ces signatures vibratoires permet de dresser un diagnostic de l'état de fonctionnement de la machine et de déceler des défauts à un stade précoce. Ainsi cela permet de mieux gérer les défaillances en intervenant avant, lors d'arrêts programmés, en réduisant le risque d'arrêts de production. L’utilisation des signaux vibratoires permet de diagnostiquer: - un désalignement ou un déséquilibre sur un arbre de transmission, - un état des roulements et engrenages, - des défauts de serrage, - un descellement d'une patte de fixation, - des défauts de courroie, - des perturbations électromagnétiques sur un moteur, - un état des pâles d'un ventilateur, des aubes d'une pompe. Dans l’étude de cas présentée ici, nous nous plaçons dans le cadre décrit avec la présence de deux défauts suivants: défaut de balourd et défaut de roulement. 108 III. 3. 1. 2. Mise en Œuvre Afin d’étudier les signaux vibratoires en vue d’une application industrielle, nous avons mis en place une étude de cas se basant sur des données synthétiques: un ensemble de signaux élaboré à partir des modèles mathématiques suivant: - S(t) = cos(w1*t) ⎧x ⎪ - d1(t) = ⎨ ⎪0 ⎩ ∀ t ∈ℜ , voir Figure III. 22. (a), ∀ t ∈ [a − 1 , a + 1] avec a = 10 * k , - d2(t) = sin(w2*t) ∀ t ∈ℜ , k ∈ Ν * , voir Figure III. 22. (b), voir Figure III. 23. (b). Figure III. 22. (a). Représentation du signal S(t). Figure III. 22. (b). Représentation du signal d1(t). Figure III. 22. (c). Représentation du signal avec défaut Sd1(t). En fait, les signaux vibratoires d’une machine tournante peuvent être simulés par des signaux périodiques. Les défauts quant à eux vont introduire par exemple: - des chocs qui peuvent être simulés par des effets sur l’amplitude, 109 - une dissymétrie d’axe de rotation qui peut être simulée par un effet de modulation. Ainsi on construit trois types de signaux S(t), Sd1(t) et Sd2(t) tels que: • S(t) est un signal sans défaut, voir Figure III. 22. (a), • Sd1(t) = S(t) + d1(t), où S(t) est un signal sans défaut présenté dans la Figure III. 22. (a), d1(t) est un signal (premier type de défaut) présenté dans la Figure III. 22. (b), et Sd1(t) est un signal avec un premier type de défaut présenté dans la Figure III. 22. (c), • Sd2(t) = S(t) x d2(t), où S(t) est un signal sans défaut présenté dans la Figure III. 23. (a), d2(t) est un signal sinus présenté dans la Figure III. 23. (b), et Sd2(t) est un signal avec un deuxième type de défaut présenté dans la Figure III. 23. (c). Figure III. 23. (a). Représentation du signal S(t). Figure III. 23. (b). Représentation du signal d2(t). Figure III. 23. (c). Représentation du signal avec défaut Sd2(t). III. 3. 2. Elaboration de la Base de Connaissances La base de connaissances est composée des images. La représentation image est obtenue à partir de la transformée en ondelettes du signal, en appliquant la méthode de conversion signal à image, voir II. 3. 1. 3. 1, utilisant un seuillage basé sur le 2ème critère (seuillage basé sur les aires). 110 • Choix d’une Ondelette (Transformée en Ondelettes) Le type de l’ondelette utilisé pour l’élaboration de la transformée en ondelettes a une grande influence sur le résultat obtenu. Il est donc nécessaire de se donner un critère de sélection d’ondelette, afin de trouver celle qui sera la mieux adaptée au défaut que l’on souhaite détecter dans le signal. Pour cela nous avons développé un signal vibratoire synthétique présenté dans la Figure III. 24. et sur lequel nous avons testé les différentes fonctions d’ondelette suivantes: - Daubechies (ordre 1 à 10), - Symlets (ordre 2 à 8), - Coiflets (ordre 1 à 5), - BiorSplines (ordre: 1.1, 1.3, 1.5, 2.2, 2.4, 2.6, 2.8, 3.3, 3.5, 3.7, 3.9, 4.4, 5.5, 6.8), - ReverseBior (ordre: 1.1, 1.3, 1.5, 2.2, 2.4, 2.6, 2.8, 3.1, 3.3, 3.5, 3.7, 3.9, 4.4, 5.5, 6.8), - Meyer, - DMeyer, - Gaussian (ordre 1 à 8), - Mexican_hat, - Morlet. Figure III. 24. Représentation du signal avec défaut Sd1(t). Le critère utilisé pour le choix d’une ondelette est le minimum des amplitudes maximales de la transformée en ondelettes du signal (Min(Max)). L’idée dans le choix de ce critère est de déterminer laquelle des ondelettes fera apparaître le mieux un défaut (afin qu’il puisse être facilement détecté). 111 La Figure III. 25. présente les valeurs obtenues de ce critère en fonction des 64 fonctions d’ondelettes testés. A partir de ces résultats, deux ondelettes ont été choisies, l’ondelette bior3.3 et l’ondelette bior3.9. Min(Max) des transformées en ondelettes 1,6 Bior3.3 1,4 Bior3.9 Min(Max) 1,2 db sym 1 coif 0,8 bior rbior 0,6 gaus meyr, dmey, mexh, morl 0,4 0,2 0 0 5 10 15 20 ordre des ondelettes Figure III. 25. Choix d’une ondelette basée sur le critère Min(Max). • Elaboration de la Représentation Image (Image Globale) La représentation image est alors élaborée à partir de la transformée en ondelettes du signal, en appliquant la méthode de conversion signal à image, voir II. 3. 1. 3. 1, utilisant un seuillage basé sur le 2ème critère (seuillage basé sur les aires). La Figure III. 26, présente un exemple de la représentation image obtenue en appliquant cette méthode de conversion. (a) (b) (c) Figure III. 26. Exemple de résultat de la conversion d’un signal à image. (a). Signal original. (b). La transformée en ondelettes du signal. (c). La représentation image du signal. 112 Afin d’exploiter la représentation image obtenue, on utilise la représentation image globale (voir § II. 3. 1. 4), tel que on subdivise l’image en seize régions (dont douze régions sont de taille 10x20 et quatre régions sont de tailles 10x10) et pour chaque région on calcule la moyenne de ses niveaux de gris. Ainsi, chaque image sera présentée par un vecteur de seize composants, voir Figure III. 27. 1 … 2 … i M1 . . . … … 16 M 16 Figure III. 27. Représentation image globale de la connaissance. • Bases d’Apprentissage et de Généralisation La base de données est ainsi élaborée à partir des trois types de signaux présentés, S(t), Sd1(t) et Sd2(t): - Classe 1: Classe Anormale-1, composée des signaux de type Sd1(t), - Classe 2: Classe Anormale-2, composée des signaux de type Sd2(t), - Classe 3: Classe Normale, composée des signaux de type S(t). Le Tableau III. 32 présente la répartition de la base de données (Composée de 240 exemples) en fonction des trois classes: Anormale-1, Anormale-2 et Normale. Tableau III. 32. Répartition de la base de connaissances. Classe Anormale-1 Anormale-2 Normale Nombre d’Exemples 80 80 80 Tableau III. 33. Bases d’apprentissage et de généralisation (représentation image globale). Base de Connaissances (50%) Classe Classe 240 Exemples Anormale-1 Anormale-2 Normale Base d’Apprentissage (120) 40 40 40 Base de Généralisation (120) 40 40 40 113 La répartition de la base d’apprentissage et de la base de généralisation est présentée dans le Tableau III. 33, où 120 images (50% de la base) sont utilisées dans la base d’apprentissage et 120 images (50% de la base) sont utilisées dans la base de généralisation. Pour la base d’apprentissage, chaque classe est composée de 40 signaux: - pour la classe Anormale-1, en faisant varier la valeur x du signal d1(t) entre 0.1 et 0.49 avec un pas T = 0.01, - pour la classe Anormale-2, en faisant varier la valeur w2 du signal d2(t) entre 0.09 et 0.98 avec un pas T = 0.0225, - pour la classe Normale, en faisant varier la valeur w1 du signal S(t) entre 0.1 et 0.99 avec un pas T = 0.0225. Pour la base de généralisation, chaque classe est composée de 40 signaux: - pour la classe Anormale-1, en faisant varier la valeur x du signal d1(t) entre 0.08 et 0.47 avec un pas T = 0.01, - pour la classe Anormale-2, en faisant varier la valeur w2 du signal d2(t) entre 0.045 et 0.49 avec un pas T = 0.0112, - pour la classe Normale, en faisant varier la valeur w1 du signal S(t) entre 0.055 et 0.5 avec un pas T = 0.0112. (a) Classe Anormale-1: exemple 1 du signal (b) Classe Anormale-2: exemple 1 du signal (c) Classe Normale: exemple 1 du signal S(t) Sd1(t) = S(t)+ d1(t) pour x = 0.23. Sd2(t) = S(t) + d2(t) pour w2 = 0.49. pour w1 = 0.5. (a) Classe Anormale-1: exemple 2 du signal (b) Classe Anormale-2: exemple 2 du signal (c) Classe Normale: exemple 2 du signal S(t) Sd1(t) = S(t)+ d1(t) pour x = 0.33. Sd2(t) = S(t) + d2(t) pour w2 = 0.98. pour w1 = 0.99. Figure III. 28. Exemples des signaux des trois classes: (a). Deux signaux de la classe Anormale-1. (b). Deux signaux de la classe Anormale-2. (c). Deux signaux de la classe Normale. 114 La Figure III. 28 présente six exemples tels que: - deux exemples du signal Sd1(t) pour l’amplitude x = 0.23 et 0.33 ( voir Figure III. 28. (a)), - deux exemples du signal Sd2(t) pour w2 = 0.49 et 0.98 ( voir Figure III. 28. (b)), - deux exemples du signal S(t) pour w1 = 0.5 et 0.99 ( voir Figure III. 28. (c)). La Figure III. 29 présente les transformées en ondelettes de ces six exemples: la Figure III. 29. (a) présente les transformées en ondelettes des deux signaux de la classe Anormale-1, la Figure III. 29. (b) présente les transformées en ondelettes des deux signaux de la classe Anormale-2 et la Figure III. 29. (c) présente les transformées en ondelettes des deux signaux de la classe Normale. (a) Classe Anormale-1: tranformée en (b) Classe Anormale-2: tranformée en (c) ondelettes de Sd1(t) pour x = 0.23. ondelettes de Sd2(t) pour w2 = 0.49. ondelettes de S(t) pour w1 = 0.5. (a) Classe Anormale-1: tranformée en (b) Classe Anormale-2: tranformée en (c) ondelettes de Sd1(t) pour x = 0.33. ondelettes de Sd2(t) pour w2 = 0.98. ondelettes de S(t) pour w1 = 0.99. Classe Classe Normale: Normale: tranformée tranformée Figure III. 29. Exemples des transformées en ondelettes des signaux des trois classes: (a). Deux signaux de la classe Anormale-1. (b). Deux signaux de la classe Anormale-2. (c). Deux signaux de la classe Normale. La Figure III. 30 présente les représentations images des mêmes signaux présentés cidessus: la Figure III. 30. (a) présente le cas de deux signaux de la classe Anormale-1, Figure III. 30. (b) présente le cas de deux signaux de la classe Anormale-2 et Figure III. 30. (c) présente le cas de deux signaux de la classe Normale. 115 en en (a) Classe Anormale-1: représentation (b) Classe Anormale-2: représentation (c) Classe Normale: représentation image image de Sd1(t) pour x = 0.23. image de Sd2(t) pour w2= 0.49. de S(t) pour w1 = 0.5. (a) Classe Anormale-1: représentation (b) Classe Anormale-2: représentation (c) Classe Normale: représentation image image de Sd1(t) pour x = 0.33. image de Sd2(t) pour w2 = 0.98. de S(t) pour w1 = 0.99. Figure III. 30. Exemples des représentations images des signaux des trois classes: (a). Deux signaux de la classe Anormale-1. (b). Deux signaux de la classe Anormale-2. (c). Deux signaux de la classe normale. III. 3. 3. Etape de Classification: Mise en Œuvre et Résultats Obtenus Mise en oeuvre: Les deux classifieurs utilisés sont les réseaux de neurones MLP et RBF pour la classification de l’image globale dans deux cas: en utilisant la transformée en ondelettes basée sur Bior3.3 et la transformée en ondelettes basée sur Bior3.9 dans la conversion signal à image. Les paramètres de chaque réseau de neurones dans les deux cas (Bior3.3 et Bior3.9) sont comme suit: - Paramètres du Réseau MLP: - Algorithme d’entraînement: la rétropropagation du gradient, - Nombre de couches du réseau de neurones: 3 couches, - Nombre de neurones dans la couche d’entrée: 16, 116 - Nombre de neurones dans la couche cachée: 20, - Initialisation aléatoire des poids entre [-1, +1], - Taux d’apprentissage: 0.1, - Erreur admissible: 0.01, - Nombre de cycles (epochs) ≈ 10000. Paramètres du Réseau RBF - Nombre de neurones dans la couche d’entrée: 16, - Nombre de neurones dans la couche cachée: 120, - Initialisation aléatoire des poids entre [-1, +1], - Rayon de la zone d’influence: 0.01, - Algorithme d’entraînement: la rétropropagation du gradient, - Taux d’apprentissage: 0.1, - Erreur admissible: 0.01, - Nombre de cycles (epochs) ≈ 7000. Résultats obtenus: - Premier cas: Bior3.3 Les résultats de la classification de l’image globale par MLP sont présentés dans le Tableau III. 34 et les résultats de la classification de l’image globale par RBF sont présentés dans le Tableau III. 35. Tableau III. 34. Résultats de la classification neuronale (MLP) de l’image globale utilisant Bior3.3. Résultats Image Globale (MLP) Anormale-1 Anormale-2 Normale Taux d’Apprentissage 100 % 100 % 100 % Taux de Généralisation 85 % 100 % 100 % Tableau III. 35. Résultats de la classification neuronale (RBF) de l’image globale utilisant Bior3.3. Résultats Image Globale(RBF) Anormale-1 Anormale-2 Normale Taux d’Apprentissage 100 % 100 % 100 % Taux de Généralisation 87.5 % 100 % 100 % 117 - Deuxième cas: Bior3.9 Les résultats de la classification de l’image globale par MLP sont présentés dans le Tableau III. 36 et les résultats de la classification de l’image globale par RBF sont présentés dans le Tableau III. 37. Tableau III. 36. Résultats de la classification neuronale (MLP) de l’image globale utilisant Bior3.9. Résultats Image Globale (MLP) Anormale-1 Anormale-2 Normale Taux d’Apprentissage 100 % 100 % 100 % Taux de Généralisation 87.5 % 100 % 100 % Tableau III. 37. Résultats de la classification neuronale (RBF) de l’image globale utilisant Bior3.9. Résultats Image Globale(RBF) Anormale-1 Anormale-2 Normale Taux d’Apprentissage 100 % 100 % 100 % Taux de Généralisation 87.5 % 100 % 100 % III. 3. 4. Synthèse Les résultats obtenus dans cette étude de cas se résument en deux points importants: - les résultats obtenus de l’étape de classification de l’image globale tant en apprentissage qu’en généralisation s’expriment avec des taux de généralisation très élevés, avec un léger avantage d’utilisation de la transformée en ondelettes Bior3.9 (par rapport à Bior 3.3), - ces résultats sont encourageants en ce qui concerne la faisabilité de l’application de la méthode proposée à la détection et la classification de signaux réels. Cependant, la simplicité de cette étude (de cas) ne permet pas, à ce stade, de statuer sur les performances de l’approche dans le cas d’une application réelle de celle-ci. En effet, des expérimentations plus poussées sont nécessaires. 118 III. 4. CONCLUSION Dans ce Chapitre, nous avons présenté la mise en œuvre et la comparaison des différents SHM proposés à travers deux études de cas (applications): la première relevant du domaine biomédical et la seconde simulant une application industrielle. Concernant l’application biomédicale, les résultats obtenus, dans cette étude, se résument principalement de la façon suivante: Concernant les résultats de la classification: Les moyennes des taux de généralisation dans le cas de la classification du signal par RBF (élaboré par le 1er protocole) de l’image globale (élaborée par le 2ème protocole et le 3ème protocole) par MLP ou RBF et de l’image subdivisée (élaboré par le 2ème protocole) par MLP ou RBF ne dépassent pas les 50% dans tous les cas, présentant ainsi des taux insuffisants. Ainsi les structures neuronales simples ne permettent pas d'obtenir des performances suffisantes. Afin d’améliorer ces taux, l’exploitation de l’aspect complémentaire des classifieurs s’avère nécessaire. Cependant, la meilleure moyenne des taux de généralisation est obtenue dans le cas de la classification du signal moyenné (élaboré par le 1er protocole) par le réseau RBF et les moyennes les plus basses sont obtenues dans le cas de la classification de l’image subdivisée (élaborée par le 2ème protocole) dans les deux cas de classification MLP et RBF, nous pensons que ceci est dû principalement à la subdivision proposée, en fait, une subdivision plus adéquate devrait être mise en œuvre afin de remédier à ce problème. Par ailleurs, la classification du signal moyenné par le réseau RBF permet une meilleure reconnaissance de la classe Rétro-Cochléaire, la classification de l’image globale par le réseau MLP permet une meilleure reconnaissance de la classe Endo-Cochléaire et la classification de l’image subdivisée par le réseau RBF permet une meilleur reconnaissance de la classe Normale. Ceci suggère qu’il faudrait probablement l’exploitation, dans le SHM, des trois représentations au lieu de deux. Cependant, si ces résultats (obtenus à partir de l’utilisation individuelle de chaque modèle neuronal comme classifieur) ne correspondent pas aux taux de classification pouvant être jugés comme acceptables (taux de bonne classification supérieure à 75%), ils permettent néanmoins de dégager quelques tendances se résumant ainsi: - notre choix d’une architecture plus complexe fusionnant les réponses issues des classifieurs individuels (plus simples) semble pertinente, 119 - le choix de deux classifieurs, l’un basé sur un apprentissage global (MLP) et l’autre basé sur un apprentissage local (RBF) semble aussi trouver une certaine pertinence. En effet, le modèle MLP semble plus adapté à la classification à partir d’une représentation ‘‘Image Globale’’ alors que le modèle RBF correspondrait plutôt mieux à la classification à partir de la représentation ‘‘Image Subdivisée’’. Les avantages de la méthode floue proposée pour la de prise de décisions, à travers le Système Flou Primaire (SFP) et le Système Flou Final (SFF), sont: - l’exploitation par le SFP des aspects redondant et complémentaire de la double classification dans la délivrance d’un diagnostic primaire, - l’exploitation par le SFF d’un Paramètre de Confiance (PC) et les résultats du diagnostic primaire, délivrant un diagnostic final avec un Indice de Confiance de la décision (IC) associé. Les résultats obtenus dans le cas de l’application industrielle sont encourageants en ce qui concerne la faisabilité de l’application de la méthode proposée à la détection et à la classification de signaux réels. Cependant, la simplicité de cette étude (de cas) ne permet pas, à ce stade, de statuer sur les performances de l’approche dans le cas d’une application réelle de celle-ci. En effet, des expérimentations plus poussées sont nécessaires. Enfin, un autre aspect intéressant et potentiellement prometteur de la méthodologie proposée est lié à la nature à la fois modulaire et neuronale permettant une adaptation relativement aisée de celle-ci aux différents domaines d’applications (biomédical, industriel, etc …). 120 CONCLUSION GENERALE 121 122 Un Systèmes d’Aide au Diagnostic (SAD) peut être vu comme étant composé d’un module d’extraction (de représentation) de la connaissance, d’un étage de classification, et d’un étage de prise de décisions. Ainsi, à partir d’un ensemble de symptômes, un SAD doit être capable de détecter et identifier une ou plusieurs défaillances en associant un Indice de Confiance de la décision (IC) à la réponse délivrée. Une étude d’un ensemble d’approches visant l’élaboration d’un tel SAD, basées sur l’Intelligence Artificielle et sur une hybridation de techniques issues de ce domaine (impliquant les Réseaux de Neurones et la Logique Floue) a été effectuée. Ces approches ont l’avantage de ne pas nécessiter la connaissance d’un modèle exact: seule la disponibilité de données est nécessaire (pour l’apprentissage). Par ailleurs, l’utilisation de plusieurs représentations de la connaissance à la fois (signal, image, …) permet d’exploiter la richesse (de l’information) et la complémentarité de ces différentes représentations de la connaissance. Aussi, la multiple classification, exploitée par l’architecture proposée, tient compte de l’aspect redondant (dans cette multiple classification) et/ou complémentaire des symptômes et agit au bénéfice d’une augmentation de l’indice de confiance associé au diagnostic délivré. Nous nous sommes alors proposé la validation de cette méthodologie globale d’aide au diagnostic à travers une architecture réduite basée sur une double représentation de la connaissance, une double classification (une seule source d’information, deux modules de représentation de la connaissance, deux modules de classification) et un module de prise de décisions (basé sur la logique floue). 123 Cette architecture réduite a été ensuite développée (développement logiciel) et implémentée sous forme de plusieurs variantes. Sept Systèmes Hybrides Modulaires ont été comparés dans le cadre d’une étude de cas relevant du domaine biomédical. Concernant cette étude, les résultats obtenus conduisent aux constats suivants: Les moyennes des taux de généralisation dans le cas de la classification par les deux structures neuronales simples (RBF et MLP) sont faibles et confirment la pertinence de l’exploitation de l’aspect complémentaire des classifieurs utilisés. La classification du signal moyenné par le réseau RBF permet une meilleure reconnaissance de la classe Rétro-Cochléaire, celle de l’image globale par le réseau MLP permet une meilleure reconnaissance de la classe Endo-Cochléaire et la classification de l’image subdivisée par le réseau RBF permet une meilleur reconnaissance de la classe Normale. Ceci conduit à la piste de l’exploitation, dans le SHM, des trois représentations au lieu de deux. Cependant, l’apport complémentaire des deux classifieurs utilisés a été confirmé par les résultats obtenus, c-à-d, les exemples bien classés par l’un des classifieurs ne sont pas tous nécessairement les mêmes que ceux bien classés par l’autre classifieur. Les avantages de la méthode floue proposée pour la prise de décisions, à travers le Système Flou Primaire (SFP) et le Système Flou Final (SFF) ont été observés: - l’exploitation par le SFP des aspects redondant et complémentaire de la double classification dans la délivrance d’un diagnostic primaire, - l’exploitation par le SFF d’un Paramètre de Confiance (PC) et les résultats du diagnostic primaire, délivrant un diagnostic final avec un Indice de Confiance de la décision (IC) associé. La comparaison, pour chaque classe, entre la moyenne des taux de généralisation donnés par les différents classifieurs, la moyenne des taux de généralisation donnés par les différents SFP et la moyenne des taux de généralisation donnés par les différents SFF montre que: - dans le cas de la classe Rétro-Cochélaire, la moyenne des taux de généralisation des classifieurs, des SFP et des SFF sont comparables, - dans le cas des deux classes Endo-Cochléaire et Normale, la moyenne des taux de généralisation des SFP permet une amélioration par rapport à la moyenne des taux de généralisation des classifieurs et la moyenne des taux de généralisation des SFF permet une amélioration par rapport à la moyenne des taux de généralisation des SFP. Ainsi, la mise en place du SHM permet d’améliorer en moyenne le taux de 124 généralisation particulièrement dans le cas de la classe Endo-Cochléaire (+ 17%) et dans le cas de la classe Normale (+ 13%). Finalement, les résultats obtenus dans les cas des systèmes SHM-1 et SHM-2 semble confirmer la pertinence du seuillage utilisé dans le 3ème protocole3 (par rapport au seuillage utilisé dans le 2ème protocole4): notamment en ce qui concerne la classe EC, la représentation ‘‘Image Globale’’ issue du 3ème protocole semble plus adéquate que les autres représentations (conduisant à un taux de bonne classification d’environ 60%). Les résultats obtenus dans le cas de l’application industrielle sont encourageants. Cependant, avant de conclure en la pertinence de l’approche proposée pour la détection et la classification des dysfonctionnements d’une machine tournante réelle, il est nécessaire de mettre en œuvre des études plus poussées. Enfin, il ne faut pas oublier un autre aspect intéressant de la méthodologie proposée lié à la nature à la fois modulaire et neuronale permettant une adaptation relativement aisée de l’architecture hybride modulaire proposée aux différentes applications relevant des domaines variés (biomédical, industriel, etc …). Avant de présenter les perspectives du travail de recherche présenté, il est intéressant de situer celui-ci, et plus particulièrement le volet lié aux signaux PEA, par rapport aux autres travaux du domaine. En effet, en ce qui concerne les signaux PEA, plusieurs approches ont été développées. La plupart des ces approches se concentrent sur le traitement de la représentation signal. Les travaux élaborés dans [WOOD 83], [PETE 86], [OZDA 90], [SINI 93], [PIAT 95], [DON 97], [VANN 02] se sont focalisés sur deux points importants pour l’analyse, l’évaluation, et l’identification des PEA à savoir: sur le traitement des signaux PEA ou bien sur la détermination des pics des PEA. Aussi un certain nombre de travaux ont concerné le traitement des signaux PEA. Plusieurs travaux, se basant sur des approches statistiques ont été publiés (par exemple, celles passées en revue et proposées dans [DOBI 93]). D’autres approches, se basant sur des méthodes d’identification dans le domaine temporel, exploitant la corrélation entre deux ‘‘traces’’ de PEA [PETE 86], [OZDA 90]. Une autre méthode d’identification, développée dans [SINI 93], exploite le signal moyenné des PEA par évaluation des coefficients d’auto-corrélation. 3 4 Conversion signal à image à partir d’une transformée en ondelettes d’un signal (temps fréquence). Conversion signal à image à partir d’une surface (temps-temps). 125 Par ailleurs, partant du principe qu’un signal PEA comprend cinq ondes particulières (I à V), une autre manière de traitement de l’information revient à traiter les pics qui composent ce signal. Ainsi, plusieurs méthodes d’identification des pics ont été alors proposées: se basant sur la reconnaissance des formes [MADH 86], [GRÖN 94], [VANN 02], sur le filtrage passe bande [PRAT 89], [DELG 94], [GRÖN 94], sur les systèmes experts, sur les réseaux de neurones [GILS 94], [TIAN 97], [POPE 99], sur la logique floue [PIAT 95], ou sur la transformée en ondelettes [POPE 99], [BRAD 04]. Par rapport à ces travaux, dans notre travail nous avons plutôt opté pour un traitement des signaux PEA en s’intéressant non seulement à leur représentation signal mais aussi à leur représentation image. Aussi nous avons opté pour des méthodes de reconnaissance de formes basées sur les réseaux de neurones pour l’identification des PEA. Notre motivation pour la représentation image repose en fait sur deux points. D’une part que le temps (ou la fréquence) n’est pas toujours la variable qui caractérise les phénomènes étudiés conduisant à la nécessité d’exploitation d’autres types de représentations de la connaissance (autre que la représentation signal) notamment celle de l’image où l’on exploite la forme. D’autre part, le fait que les experts peuvent utiliser plusieurs informations (connaissances), sous différentes formes, données qualitatives ou quantitatives, signal, image, pour élaborer leurs diagnostics. Ce qui nous a conduit à l’exploitation simultanée d’une représentation signal et sa représentation image dans notre méthodologie. Concernant la classification, plusieurs travaux utilisant des structures neuronales, comme dans notre travail, ont été développés [PRAD 96], [KALA 95], [WILS 00], [VUCK 02], [BELL 03]. Par rapport à ceux-ci dans notre travail nous proposons une double classification conduisant à un problème de combinaison (prise de décisions à partir) de deux classifieurs. Cette problématique a été traitée dans plusieurs travaux de recherches et notamment dans [WANA 99], [KARR 04]. En effet, en optant pour une multiple classification utilisant plusieurs modèles de classification, l’une des solutions usuelles consiste à choisir le modèle de classification donnant le meilleur résultat. Dans notre travail, nous avons utilisé à la fois la redondance et la complémentarité des modèles de classification utilisés. Finalement dans notre travail, nous avons proposé l’exploitation d’un Paramètre de Confiance dans cette prise de décisions afin de donner non seulement la classe identifiée mais aussi un Indice de Confiance (IC) sur cette identification. Pour ce qui concerne les perspectives de ce travail, deux groupes de travaux sont envisagés. Le premier est lié aux aspects ‘‘représentation de la connaissance’’ et 126 ‘‘classification’’. Concernant la ‘‘représentation’’, une piste intéressante est l’exploitation (la prise en compte d’autres attributs) d’image (contour, texture, etc …). Concernant la ‘‘classification’’, une piste issue de l’analyse des résultats présentés est le passage à un étage de classification constitué de 3 classifieurs exploitant trois représentations différentes de l’information d’entrée (au lieu de deux). Finalement, une dernière piste est celle de reconsidérer la manière de la prise en compte des imagettes résultantes d’une subdivision. Il serait intéressant de pondérer l’influence des imagettes dans la construction du vecteur d’entrée des classifieurs: l’idée émanant du fait que les défaillances se reflètent plutôt dans certaines parties de l’image initiale et non pas nécessairement dans toute l’image. En ce qui concerne le second groupe des travaux en perspective, il est lié à l’étape de décision. Une première alternative concerne l’affinement des règles floues des deux systèmes floues (SFP et SFF). Une autre alternative intéressante pour des travaux futurs concernerait, l’investigation dans les aspects relatifs aux différentes techniques de fusion des informations issues des classifieurs neuronaux (réseaux de neurones flous, les réseaux de neurones basés sur la théorie de la résonance adaptative, …) [KITT 98], [WANA 99], [AZOU 02], [LAI 04]. 127 128 REFERENCES BIBLIOGRAPHIQUES [AAMO 94] Aamodt and E. Plaza. “Case-Based Reasoning: Foundational Issues, Methodological Variations. and System Approaches”, AI Communications, IOS Press, vol. 7:1, pp. 39-59, 1994. [AGUI 99] Aguilar-Martin J., "Knowledge-based supervision and diagnosis of complex process." IEEE International Symposium on Intelligent Control, Intelligent Systems and Semiotics (151'99), Cambridge, USA, pp. 225-230, Septembre 1999. [AZOU 02] Azouaoui, O., Chohra, A.: Soft Computing Based Pattern Classifiers for the Obstacle Avoidance Behavior of Intelligent Autonomous Vehicles (IAV). Int. J. of Applied Intelligence, Kluwer Academic Publishers, 16, no. 3, 249-271, 2002. [BALA 97] Balakrishnan, K., Honavar, V.: Intelligent Diagnosis Systems. Technical Report, Iowa State University, Ames, Iowa 50011-1040, U.S.A (1997). [BARR 02] M. Barret, J. Tomczak, and K. Madani, ‘‘A Wavelet Based Technique for Mechanical Fault Detection and Diagnosis’’, Workshop on Advanced Control and Diagnosis, 2002. [BELL 03] A.-S. Bellanger-Dujardin, ‘‘Contribution à l’étude de structures neuronales pour la classification de signatures: application au diagnostic de pannes des systèmes industriels et à l’aide au diagnostic médical’’, Thèse, Université Paris XII, 08 Décembre 2003. [BEZD 81] Bezdek J.C., "Pattern recognition with fuzzy objective algorithms." Plenum Publishing Corporation, New York, 1981. [BRAD 04] Bradley, A.P., Wilson W.J.: On Wavelet Analysis of Auditory Evoked Potentials. Clinical Neurophysiology, 115, (2004) 1114-1128. [CASI 03] Casimir R., Diagnostic des défauts des machines asynchrones par reconnaissance des formes. Thèse de doctorat de l'École Central de Lyon, 2003. [CASS 97] Cassar J. P., Staroswiecki M., "A structural approach for the design of failure detection and identification systems". Proceedings IFAC/IFIP/IMACS Conference on Control of Industrial Processe, Belfort, France, pp. 329-334, 1997. [CHAT 93] Chatain J. N., Diagnostic par systèmes experts. Hermes, Paris, 1993. [CHEN 89] Chen S. Billings S. A. Luo W. Orthogonal least squares methods and their application to non-linear system identification. Int J. Control vol 50 n°5 pp. 18731896. 1989. [CHEN 91] Chen S. Cowan S. F. N. Grant P. M. Orthogonal least squares learning algorithm for radial basis function networks IEEE Trans. Neural Networks. Vol 2 n°2. pp. 302309. 1991. 129 [CHOH 99] A. Chohra, ‘‘Planification et contrôle de la navigation des Véhicules Autonomes Intelligents (VAI) en environnements dynamiques’’, Thèse, LTDS/ENP & LRIA/CDTA, Ecole Nationale Polytechnique d’Alger, Algérie, 16 Mars 1999. [CICH 93] Cichocki A. Unbehauen R. Neural networks for optimisation and signal processing. Ed. J. Willey & sons. 1993. [CILI 89] Ciliz, M. K. and C. Isik. "Fuzzy Rule-Based Motion Controller for an Autonomous Mobile Robot."Robotica, Vol. 7, pp. 37-42,1989. [CORD 00] Cordier M.-O., Dague P., Dumas M., Lévy F., Montmain J., Staroswiecki M. et Travé-Massuyès L., "AI and Automatic Control Theory approaches of modelbased diagnosis: links and underlying hypotheses", Safeprocess'2000, Budapest, pp. 274-279, 2000. [CRAN 96] Cranor, L. (1996). Declared-strategy voting: an instrument for group decisionmaking. Phd thesis, Washington University. [DAGU 01] Dague P., "Théorie logique d.u diagnostic à base de modèles". Chapitre 1 dans Diagnostic, intelligence artificielle et reconnaissance des formes. Hermes, Paris, 2001. [DALY 79] Daly, K C., Gai, E., Harrison, J V., Generalised likelihood test for FDI in redundant sensor configuration. Journal of Guidance and Control, Vol. 2, N° 1, p 9-17, 1979. [DECK 77] Deckert, J C., Desai, M N., Deyst, J J., Willsky, A S., F-8 DFBW sensor failure identification using analytic redundancy. IEEE Transactions on Automatic Control, Vol. 22, No. 5, p 795-803, 1977. [DELG 94] Delgado RE, Ozdamar O. Automated auditory brainstem response interpretation. IEEE-EMB Mag April/ May 1994:227–37. [DESA 76] Desai, M N., Deckert, J C., Deyst, J J., Willsky, A S., Chow, E Y., Dual-redundant sensor FDI techniques applied to the NASA F8C-DFBW aircraft.AIAA Guidance and Control Conference, San Diego (California, USA), Vol. 1, p 502- 513, 1976. [DOBI 93] Dobie RA. Objective response detection. Ear Hear 1993;14:31–5. [DON 97] Don, M., Masuda, A., Nelson, R., Brackmann, D.: Successful Detection of Small Acoustic Tumors using the Stacked Derived-Band Auditory Brain Stem Response Amplitude. The American Journal of Otology 18, 5, (1997) 608-621. [DUDA 01] Duda R., Hart P., Stork D., "Chapter 4: Nonparametric Techniques", dans Pattern Classification, Second Edition, Wiley-Interscience, 2001. [EGMO 02] Egmont-Petersen, M., De Ridder, D., Handels, H.: Image Processing with Neural Networks – A Review. Pattern Recognition, 35, 2279-2301, 2002. 130 [ESCO 01] Escobet T., Travé-Massuyès L., Tornil S., Quevedo J., "Fault detection of a gas turbine fuel actuator based on qualitative causal models." European ContraI Conference (ECC'01), Porto, Portugal, pp. 2741-2746, Septembre 2001. [FARR 85] Farreny H., Prade H.: Tackling Uncertainty and Imprecision in Robotics. 3rd Int. Symposium on Robotics Research, (1985) 85-91. [FISH 36] Fisher R. A., "The use of multiple measurements in taxonomie problems". Annals of Eugenics, Vol. 7, pp 179 - 188, 1936. [FRAN 89] Frank P. M., Wünnenberg J., "Robust fault diagnosis using unknown input observer schemes", en: Patton R. J., Frank P.M., Clark R.N. (Eds.). Fault diagnosis in dynamic systems - theory and applications. Prentice Hall, London, 1989. [FREE 92] Freeman, J. A. and Skapura. D. M. Neural Networks: Algorithms, Applications, and Programming Techniques. Addison-Wesley, New York, 1992. [GENT 83] D. Gentner, “Structure Mapping: A Theorotical Framework of Analogy”, Cognitive Science, Vol. 7, 1983, pp. 155-170. [GERT 98] Gertler J., Fault Detection and Diagnosis in Engineering Systems. Marcel Dekker, New York, 1998. [GILS 94] Gils van MJ, Cluitmans PJM. Automatic peak identification in auditory evoked potentials with the use of artificial neural networks. In: Proceedings 16th Annual International Conference, IEEE-EMBS 1994. IEEE Press, ISBN 0-7803-2050-6. [GONZ 02] Gonzalez, R.C., Woods, R.E.: Digital Image Processing. 2nd Edition Prentice-Hall (2002). [GRON 94] Grönfors T. Computer analysis of auditory brainstem responses by using advanced pattern recognition. J Med Syst 1994;18:191–9. [HAYK 94] [HAYK 99] Haykin S. Neural Networks. A comprehensive foundation. IEEE Press. 1994. Haykin, S.: Neural Networks: A Comprehensive Foundation, 2nd Ed. Prentice-Hall (1999). [HORN 89] Hornik, k., Stinchcombe, M. White, H. ‘‘Multilayer Feedforward Networks are Universal Approximators’’ Neural Networks, vol. 2, 1989, pp. 359-366. [ISER 93] Isermann R., "Fault diagnosis of machines via parameter estimation and knowledge processing", Automatica, Vol. 29, N° 4, pp. 815-835, 1993. [ISER 97] Isermann R., "Supervision, Fault Detection and Fault Diagnosis Methods - An introduction", Control Eng. Practice, Vol. 5, N° 5, pp. 639-652, 1997. [JAIN 99] Jain A.K., Murty M.N., Flynn P.J., "Data clustering: A review." ACM Computing Surveys, Vol. 31, No. 3, September 1999. 131 [JI 97] Ji, C. and Ma, S. (1997). Combinations of weak classiers. Special Issue of Neural Networks and Pattern Recognition, IEEE Transactions on Neural Networks, 8(1):32{42. [JOYC 94] Joyce D., ‘‘Control critical controls critically’’. International Food Hygiene, 5(2), 2529, 1994. [KALA 95] Kalayci T, Ozdamar O. Wavelet preprocessing for automated neural network detection of EEG spikes. IEEE Eng Med Biol Mag 1995;16:0–166. [KARR 04] Karray, F. O., De Silva, C.: Soft Computing and Intelligent Systems Design, Theory, Tools and Applications. Addison Wesley, ISBN 0-321-11617-8, Pearson Ed. Limited (2004). [KAUF 90] Kaufman L., Rousseeuw P.J., Finding Groups in Data: An Introduction to Cluster Analysis, Wiley, New York, 1990. [KITT 98] Kittler, J., M. Hatef, R. P. W. Duin, and J. Matas, ‘‘On Combining Classifiers’’, IEEE Trans. Pattern Analysis and Machine Int., Vol. 20, No. 3, pp. 226-239, 1998. [KOSK 92] Kosko, B. Neural Networks and Fuzzy Systems. University of Southem Califomia, Prentice Hall, A Simon & Schuster Company, Englewood Cliffs, New Jersey 07632, 1992. [KUIP 86] Kuipers B., "Qualitative simulation", Artificial Intelligence, Vol. 29, N° 3, pp. 289338, 1986. [LAI 04] Lai, C., D. M. J. Tax, R. P. W. Duin, E. Pekalska, and P. Paclik, ‘‘A Study on Combining Image Representations for Image Classification and Retrieval’’, International Journal of Pattern Recognition and Artificial Intelligence, Vol. 18, No. 5, pp. 867-890, World Scientific Publishing Compagny, 2004. [LAM 97] Lam, L. and Suen, C. (1997). Application of majority voting to pattern rcognition: an analysis of its behavior and performance. IEEE Transactions on System, Man, and Cybernetics, Part A: Systems and Humans, 27(5):553-568. [LEE 90] Lee, C.C.: Fuzzy Logic in Control Systems: Fuzzy Logic Controller – Part I & Part II. IEEE Trans. On Systems, Man, and Cybernetics, 20, no. 2, (1990) 404-435. [MACG 95] MacGregor J. F., Kourti T., "Statistical process control of multivariate processes." ControlEngineeringPractice,Vol. 3, N° 3, pp. 403-414, 1995. [MACQ 67] MacQueen J., "Some methods for classification and analysis of multivariate observations." Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability, Vol. 1, University of California, Berkeley, USA, pp. 281297, 1967. 132 [MADH 86] [MAMD 77] Madhavan GP, de Bruin H, Upton ARM, Jernigan ME. Classification of brainstem auditory evoked potentials by syntactic methods. Electroencephalogr Clin Neurophysiol 1986;65:289–96. Mamdani E., 3application of fuzzy logic to approximate reasoning using linguistic systems." Fuzzy sets and systems, vol. 26, pp. 1182-1191, 1977. [MARI 03] Marie-Joseph L, Méthodologie de diagnostique appliquée à la maintenance préventive d'unités de production d'électricité en sites isolés.Thèse de doctorat de l'Université des Antilles et de la Guyane, 2003. [MENE 98] Meneganti, M., Saviello, F.S., Tagliaferri, R.: Fuzzy Neural Networks for Classification and Detection of Anomalies. IEEE Transactions on Neural Networks, 9, No. 5, (1998) 848-861. [MICH 94] Michie D., Spiegelhalter D.J., Taylor c.c., Machine Learning, Neural and Statistical Classification, Ellis Horwood series in Artificial Intelligence, February, 1994. [MOOD 89] Moody J. Darken C. J. Fast learning in networks of locally-tuned processing units. Neural Computation. Vol 1. pp. 281-294. 1989. [MOTS 87] Motsh J. F., ‘La dynamique temporelle du tronc cérébral: receuil, extraction, et analyse optimale des potentiels évoqués auditifs du tronc cérébral’, PhD Thesis, Paris-XII University, 1987. [MURR 97] R. Murray-Smith and T. A. Johansen, ‘‘Multiple Model Approaches to Modelling and Control’’, Taylor & Francis Publishers, 1997. [MUSA 92] Musavi M. T. Ahmed W. Chan K. H. Faris K. B. Hummels D. M. On the training of radial basis function classifiers. Neural Networks Vol 5 pp. 595-603. 1993. [NOMI 94] Nomikos P., MacGrego.r Jo, "Monitoring batch processes using multiway principal component analysis." American Institute of Chemical Engineers Journal, Vol. 40, N° 8, pp.1361-1375, 1994. [OZDA 90] Ozdamar O, Delgado RE, Eilers RE, Widen JE. Computer methods for on-line hearing testing with auditory brainstem responses. Ear Hear 1990;11(6):417–29. [PALM 05] Palmero, G.I.S., Santamaria, J.J., de la Torre, E.J.M., Gonzalez, J.R.P.: Fault Detection and Fuzzy Rule Extraction in AC Motors by a Neuro-Fuzzy ART-Based System. Engineering Applications of Artificial Intelligence, 18, Elsevier, (2005) 867874. [PEDR 88] Pedrycz, W. Fuzzy Control and Fuzzy Systems. John Wiley & Sons Inc., 1988. [PETE 86] Peters JG. The ALGO-1: an automated infant hearing screener utilizing advanced evoked response technology. Hear J 1986;39:25–30. 133 [PIAT 95] Piater, J.H., Stuchlik, F., von Specht, H., Mühler, R.: Fuzzy Sets for Feature Identification in Biomedical Signals with Self-Assessment of Reliability: An Adaptable Algorithm Modeling Human Procedure in BAEP Analysis. Comput. and Biomedical Resear., 28, (1995) 335-353. [PIAT 99] Justus H. Piater, Edward M. Riseman and Paul E. Utgoff (1999), ‘‘Interactively Training Pixel Classifiers’’, International Journal of Pattern Recognition and Artificial Intelligence 13 (2), pp. 171-194. [POPE 99] Popescu M, Papadimitriou S, Karamitsos D, Bezerianos A. Adaptive denoising and multiscale detection of the V wave in brainstem auditory evoked potentials. Audiol Neurootol 1999;4:38–50. [POTT 77] Potter, J E., Suman, M C., Thresholdless redundancy management with arrays of skewed instruments . Agardograph 224, Integrity in Electronic flight control systems, p 15.1-15.24, 1977. [PRAD 96] Pradhan N, Sadasivan PK, Arunodaya GR. Detection of seizure activity in EEG by an artificial neural network: a preliminary study. Comput Biomed Res 1996;29(4):303–13. [PRAT 89] Pratt H, Urbach D, Bleich N. Auditory brainstem evoked potentials peak identification by finite impulse response digital filters. Audiology 1989;28:272–83. [RECH 66] Recht J. L., Failure Mode and Effect. National Safety Council, 1966. [SCHA 82] R. Schank, “Dynamic Memory: A Theory of Reminding and Learning in Computer and People”, Cambridge University Press, 1982. [SINI 93] Sininger, Y. S. Auditory brain stem response for objective measures of hearing. Ear and Hearing 14 (1), pp. 23-30 (1993). [TAKA 85] Takagi T., Sugeno M., "Fuzzy identification of systems and its application to modeling and control." IEEE Transactions on systems, man and cybernetics, Vol. 15, N° 1, pp. 116-132, 1985. [TIAN 97] Tian J, Juhola M, Gro¨nfors T. Latency estimation of auditory brainstem response by neural networks. Artif Intell Med 1997;10:115–28. [TRAV 97] Travé-Massuyès L., Dague P., Guerrin F. (dir.), Le raisonnement qualitatif pour les sciences de l'ingenieur, Hermes, Paris, 1997. [TURB 01] Turban, E., Aronson, J.E.: Decision Support Systems and Intelligent Systems. Int. Edition, Sixth Edition, Prentice-Hall (2001). [VANE 02] Van-Erp, M., Vuurpijl, L., and Schomaker, L. (2002). An overview and comparison of voting methods for pattern recognition. In 8th International Workshop on Frontiers in Handwriting Recognition, pages 195{200, Niagara-on-the-Lake, Ontario. 134 [VANN 02] Vannier, E., Adam, O., Motsch, J.F.: Objective Detection of Brainstem Auditory Evoked Potentials with a Priori Information from Higher Presentation Levels. Artificial Intelligence in Medicine, 25, (2002) 283-301. [VENK 03] Venkatasubramanian V., Rengaswamy R., Kavuri S., Yin K., "A review of process fault detection and diagnosis. Part III: Process history based methods." Computers & Chemical Engineering, Vol. 27, N° 3, pp. 327- 346, 2003. [VILL 88] Villemeur A., Sûreté de fonctionnement des systèmes industriels. Fiabilité Facteurs humains Informatisation. Eyrolles, 1988. [VUCK 02] Vuckovic, A., Radivojevic, V., Chen, A.C.N., Popovic, D.: Automatic Recognition of Alertness and Drowsiness from EEG by an Artificial Neural Network. Medical Engineering & Physics, 24 (5), (June 2002) 349-360. [WANA 99] Wanas, N., Kamel, M. S., Auda, G., and Karray, F., ‘Feature-based decision aggregation in modular neural network classifiers’, Pattern Recognition Letters 20, Elsevier, pp. 1353-1359, 1999. [WILS 00] Wilson BJ, Bracewell TD. Alertness monitor using neural networks for EEG analysis. Proc Neur Net Signal Process X (ISPS) 2000;2:814–20. [WOLF 03] Wolf, A., Barbosa, C.H., Monteiro, E.C., Vellasco, M.: Multiple MLP Neural Networks Applied on the Determination of Segment Limits in ECG Signals. 7th International Work-Conf. on Artificial and Natural NN, Proc. Part II, Mao, Menorca, Spain, June 2003, LNCS 2687, Springer-Verlag Berlin Heidelberg, (2003) 607-614. [WOOD 83] Woodworth, W., Reisman, S., and Fontaine, A. B. The detection of auditory evoked responses using a matched filter. IEEE transactions on biomedical Engineering 30 (7), pp. 369-376 (1983). [YAGE 94] Yager R. R., Fi/ev D. P., "Chapter 5: Fuzzy system models" dans Essentials of fuzzy modeling and control. John Wiley &sons, Inc., 1994. [YAN 05] Yan, H., Jiang, Y., Zheng, J., Peng, C., Li, Q.: A Multilayer Perceptron-Based Medical Support System for Heart Disease Diagnosis. Exp. Syst. with App., Elsevier, (2005) in press. [ZADE 65] Zadeh, L. A. "Fuzzy Sets." Information & Control, Vol. 8, pp. 338 353,1965. [ZADE 73] Zadeh L., "Outline of a new approach to the analysis of complex ystems and decision processes." IEEE Transactions on systems, man and cybernetics, MC3, pp. 24-44, 1973. [ZADE 92] Zadeh, L.A.: The Calculus of Fuzzy If / Then Rules. AI Expert, (1992) 23-27. ZADE 96] Zadeh, L. A. "Fuzzy Logic Computing with Words." IEEE Trans. on Fuzzy Systems, Vol. 4, No. 2, pp. 103-111, May 1996. 135 [ZHAN 00] Zhang, G.P.: Neural Networks for Classification: A Survey. IEEE Trans. on Systems, Man, and Cybernetics – Part C: Applications and Reviews, vol. 30, no. 4, (2000) 451-462. [ZWIN 95] Zwingelstein G., Diagnostic des défaillances - Théorie et pratique pour les systèmes industriels. Traité des Nouvelles Technologies, série Diagnostic et Maintenance. Hermès, Paris, 1995. 136 ANNEXES 137 138 ANNEXE A: RESEAUX DE NEURONES (RN) Durant ces dernières décennies, de nouvelles approches basées sur les Réseaux de Neurones (RN) ont été développé dans le but de résoudre les problèmes des systèmes complexes réels relatifs à l’optimisation, la modélisation, la prise de décisions, la classification, l’exploitation de données, et l’approximation de fonctions non-linéaires (comportements). Inspiré à partir des systèmes nerveux biologiques et de la structure (architecture) du cerveau, les réseaux de neurones peuvent être vus comme des systèmes de traitement de l’information (de données) permettant l’élaboration de plusieurs techniques originales et couvrant un large champ d’applications, basés sur leur propriétés attrayantes telles que les capacités d’apprentissage et de généralisation [HAYK 99], [ZHAN 00], [EGMO 02]. A. 1. Historique Brièvement, les premières recherches remontent à la fin du 19ème et au début du 20ème siècle. Ils consistent en des travaux multidisciplinaires en physique, en psychologie et en neuro-physiologie par des scientifiques tels Hermann Von Helmholtz, Ernst Mach et Ivan Pavlov. A cette époque, il s’agissait de théories plutôt générales sans modèle mathématique précis d’un neurone. La naissance du domaine des réseaux de neurones artificiels remonte aux années 1940 avec les travaux de Warren McCulloch et Walter Pitts qui ont montré qu’avec de tels réseaux, on pouvait, en principe, calculer n’importe quelle fonction arithmétique ou logique. Vers la fin des années 1940, Donald Hebb a ensuite proposé une théorie fondamentale pour l’apprentissage. La première application concrète des réseaux de neurones artificiels est survenue vers la fin des années 1950 avec l’invention du réseau dit «perceptron» par Frank Rosenblatt. Rosenblatt et ses collègues ont construit un réseau et démontré ses capacités à reconnaître des formes. Malheureusement, il a été démontré par la suite que ce perceptron simple ne pouvait résoudre qu’une classe limitée de problème. Environ au même 139 moment, Bernard Widrow et Ted Hoff ont proposé un nouvel algorithme d’apprentissage pour entraîner un réseau adaptatif de neurones linéaires, dont la structure et les capacités sont similaires au perceptron. Vers la fin des années 1960, un livre publié par Marvin Minsky et Seymour Papert est venu jeter beaucoup d’ombre sur le domaine des réseaux de neurones. Entre autres, ces deux auteurs ont démontré les limitations des réseaux développés par Rosenblatt et Widrow-Hoff. Beaucoup de gens ont été influencés par cette démonstration qu’ils ont généralement mal interprétée. Ils ont conclu à tort que le domaine des réseaux de neurones n’était pas intéressant et qu’il fallait cesser de s’y intéresser. Une révolution survient alors dans le domaine des réseaux de neurones artificiels: une nouvelle génération de réseaux de neurones, appelé Perceptron Multi-Couches, capables de traiter avec succès des phénomènes non-linéaires. Le Perceptron Multi-Couches apparaît en 1986 introduit par Rumelhart, et, simultanément, sous une appellation voisine, par Yann Le Cun. Ce système repose sur l’apprentissage par la rétropropagation du gradient de l’erreur, et ne possède pas les défauts mis en évidence pas Minsky. A. 2. Applications Les réseaux de neurones servent aujourd’hui dans plusieurs applications dans divers domaines. Par exemple, des auto-pilotes pour avion, ou encore un système de guidage pour automobile, des systèmes de lecture automatique de chèques bancaires et d’adresses postales. Des applications ont été élaborées pour le traitement du signal dans différents domaines, par exemple, un système pour la synthèse de la parole. Des réseaux sont utilisés aussi pour élaborer des systèmes de vision par ordinateur, pour faire des prévisions sur les marchés monétaires, pour évaluer le risque financier ou en assurance, pour différents processus manufacturiers, pour le diagnostic médical, pour l’exploration pétrolière ou gazière, en robotique, en télécommunication, etc… A. 3. ‘‘MultiLayer feedforward Perceptron networks’’ (MLP) Un neurone élémentaire partage l’espace des observations avec un hyperplan séparateur. Seuls les problèmes où les deux classes linéairement séparables peuvent donc être résolus. Cette limitation théorique des capacités du perceptron a été un frein à l’avancée des 140 recherches sur les réseaux de neurones. Vers les années 1980 on redécouvre les propriétés intéressantes des réseaux multicouches entraînés par l’algorithme de la rétropropagation du gradient. Un problème de classification à K classes peut être alors résolu avec un perceptron multicouches. Plusieurs auteurs ont montré en effet qu’un pereceptron multicouches permet d’approximer une fonction quelconque avec une grande précision à condition qu’il ait au moins trois couches et suffisamment de neurones [HORN 89]. A. 3. 1. Architecture Le perceptron multicouches est un réseau orienté de neurones artificiels, organisé en couches et où l’information se transmet dans un seul sens, de la couche d’entrée vers la couche de sortie. La Figure A. 1 donne l’exemple d’un réseau contenant une couche d’entrée, deux couches cachées et une couche de sortie. Couche d’Entrée X1 Xj XM 1 j Couche Cachée Y 1 Couche de Sortie 1 W2 kj 1 Y k k W1 ik O 1 i O i N O N Y P M P Figure A. 1. Exemple d’architecture d’un MLP. Chaque neurone élémentaire est connecté à l’ensemble des neurones de la couche qui suit celle à laquelle il appartient. Dans un problème de classification, le nombre de neurones en sortie est fonction du codage adopté. Le plus souvent, chaque sortie est dédiée à une classe donnée. L’un des problèmes majeurs des réseaux de neurones c’est le choix du nombre de couches cachées et du nombre de neurones par couche. Ceci se fait souvent de façon ad hoc 141 ou en utilisant quelques règles heuristiques simples. Souvent on procède en essayant diverses architectures pour un problème donné et en calculant l’erreur de généralisation pour chacune sur un ensemble de validation. Une solution à ce problème consiste à utiliser des algorithmes constructifs qui commencent avec une architecture minimale en ajoutant des neurones et des connexions au fur et à mesure de l’apprentissage. D’autres solutions utilisent plutôt une technique inverse: à partir d’une architecture complète, ils éliminent certains neurones et/ou connexions qui semblent non essentiels. D’autres méthodes d’optimisation pour chercher l’architecture idéale proposent l’utilisation des algorithmes génétiques. A. 3. 2. Apprentissage La procédure d’apprentissage se base sur la rétropropagation qui repose sur l’idée de propager vers les couches internes l’erreur commise en sortie pour modifier les poids. C’est un apprentissage supervisé, pour cela, on dispose d’un ensemble d’exemples (base d’apprentissage). Lors de l’apprentissage, on présente les exemples au réseau qui calcule les sorties correspondante. Ces calculs s’effectuent de proche en proche depuis la couche d’entrée vers la couche de sortie. L’erreur entre la sortie réelle et la sortie désirée est calculée (somme quadratique des erreurs sur chaque neurone de sortie). Cette erreur est ensuite rétropropagée (de la couche de sortie vers la couche cachée et ainsi de suite) à travers le réseau donnant lieu à une modification des poids entre les couches. Ce processus est réitéré pour chaque exemple de la base d’apprentissage. Si pour tous les exemples, l’erreur commise est inférieure à un seuil choisi, on dit alors que le réseau a convergé. L’apprentissage consiste donc à minimiser l’erreur quadratique commise sur l’ensemble des exemples, par ajustement des poids en diminuant le gradient. Pour formaliser, de façon générale, le principe de l’algorithme de rétropropagation (ou backpropagation) abondamment décrit dans la littérature [CICH 93], prenons un réseau à p neurones d’entrée et q neurones de sorties tel que le couple ( x(n ), d (n )) désignant la nème donnée d’entraînement du réseau où: X (n ) = x1 (n )...x p (n ) et d (n ) = d1 (n )...d q (n ) correspondent respectivement aux p entrées et aux q sorties désirées du système. 142 L’algorithme de rétropropagation consiste alors à mesurer l’erreur entre les sorties désirées d (n) et les sorties observées y (n ) : y (n ) = y1 (n )... y q (n) résultant de la propagation vers l’avant des entrées X (n ) , et rétropropager cette erreur à travers les couches du réseau en allant des sorties vers les entrées. L’algorithme de rétropropagation procède à l’adaptation des poids, neurone par neurone, en commençant par la couche de sortie. Soit l’erreur observée e j (n ) pour le neurone de sortie j et la donnée d’entraînement n: e j (n ) = d j (n ) − y j (n ) où (A. 1) d j (n ) correspond à la sortie désirée du neurone j et y j (n ) à sa sortie observée. Figure A. 2. Sortie d’un neurone en fonction des entrées. L’objectif de l’algorithme est d’adapter les poids des connexions du réseau de manière à minimiser la somme des erreurs sur tous les neurones de sortie. Soit E (n ) la somme des erreurs quadratiques observées sur l’ensemble C des neurones de sortie: E (n ) = 1 e 2j (n ) ∑ 2 j∈C (A. 2) La sortie y j (n ) du neurone j est définie par: [ ] ⎤ ⎡ r y j (n ) = ϕ v j (n ) = ϕ ⎢∑ w ji (n ) y i (n )⎥ ⎦ ⎣ i =0 (A. 3) 143 . , voir Figure A. 2, est la fonction d’activation du neurone, v j (n ) est la somme où ϕ [] pondérée des centres du neurone j, w ji est le poids de la connexion entre le neurone i de la couche précédente et le neurone j de la couche courante, et y i (n ) est la sortie du neurone i. On suppose ici que la couche précédente contient r neurones numérotés de 1 à r, que le poids w j 0 (n ) correspond au biais du neurone j et que l’entrée y 0 (n ) = −1 . L’indice i représentera un neurone sur la couche précédente par rapport au neurone j, on suppose par ailleurs que cette couche contient r neurones. Pour corriger l’erreur observée, il s’agit de modifier le poids w ji (n ) dans le sens opposé au gradient d (E (n )) d (w ji (n )) de l’erreur, voir Figure A. 3. Figure A. 3. Descente du gradient. Et on exprime la variation de poids ∆w ji (n ) sous la forme suivante: ∆wji (n ) = −η ∂E (n ) ∂w ji (n ) (A. 4) avec 0 ≤ η ≤ 1 représentant un taux d’apprentissage ou gain de l’algorithme. Evaluons maintenant chacun des termes du gradient. - Couche de Sortie La règle dite du “delta” pour la couche de sortie s’exprime par : ∆w ji (n ) = −η ∂E (n ) = ηδ j (n ) y i (n ) ∂w ji (n ) (A. 5) 144 avec δ j (n ) = e j (n ) y j (n)[1 − y j (n )] (A. 6) qui correspond à ce qu’on appelle le “gradient local”. - Couche d’Entrée ∆w ji (n ) = −η ∂E (n ) = ηδ j (n ) y i (n ) ∂w ji (n ) (A. 7) avec δ j (n ) = y j (n)[1 − y j (n )]∑ δ k (n )wkj (n ) (A. 8) k∈C Sommaire de l’Algorithme de Rétropropagation du Gradient L’algorithme de rétropropagation standard se résume à la série d’étapes suivantes: 1. initialiser tous les poids à de petites valeurs aléatoires dans l’intervalle [− 1, + 1] , 2. normaliser les données d’entraînement, 3. pour chaque donnée d’entraînement n: a) calculer les sorties observées en propageant les entrées vers l’avant, b) ajuster les poids en rétropropageant l’erreur observée: w ji (n ) = w ji (n − 1) + ∆w ji (n ) = w ji (n − 1) + ηδ j (n ) y i (n ) [ (A. 9) ]∑δ (n)w (n) si j appartient à où le “gradient local” est défini par: δ j (n ) = y j (n) 1 − y j (n) k kj k une couche cachée et δ j (n ) = e j (n ) y j (n)[1 − y j (n )] si j appartient à une couche de sortie, avec 0 ≤ η ≤ 1 représentant le taux d’apprentissage et y i (n ) représentant soit la sortie du neurone i sur la couche précédente soit l’entrée i autrement. 145 4. Répéter les étapes 3 et 4 jusqu’à ce que la somme des erreurs quadratiques E(n) soit très proche de l’erreur admissible, c-à-d, l’erreur pour tous les exemples d’entraînement est réduite à une valeur acceptable [FREE 92]. A. 4. ‘‘Radial Basis Function networks’’ (RBF) L’approximation de fonctions non linéaires peut également s’effectuer à l’aide d’une somme de fonctions noyaux. Si ces noyaux sont fixés en largeur et position, la sortie dépend linéairement des poids. Pour une fonction continue φ d’une variable vectorielle Y , son estimation par une somme de Nc noyaux s’écrit: Nc ϕ (Y ) = w0 + ∑ wi Φ Y − ci (A.10) i =1 où φ désigne la fonction noyau, wi les coefficients de pondération et ci le ième noyau. Cette formulation, très ancienne en reconnaissance des formes (méthode des fenêtres de Parzen) pour l’estimation des densités de probabilité conditionnelle, est à la base des réseaux de neurones à fonctions radiales de base ou RBF (Radial Basis Function). En classification, le modèle de neurones à fonctions radiale de base a été introduit par plusieurs auteurs comme Moody et Darken [MOOD 89], Musavi et al. [MUSA 1992]. Chaque neurone élémentaire, s’identifie à un noyau dans l’expression (A. 11) il calcule la distance entre l’entrée et son centre qu’il fait passer ensuite dans une non linéarité Φ (voir Figure A. 4). Y1 Calcul de Distance Y2 Fonction d’Activation S || Y – c|| Y Centre c Φ Yn Figure A. 4. Neurone élémentaire à noyau. 146 La sortie S du neurone s’écrit finalement sous la forme: S = Φ( Y − c ) (A.11) Dans cette expression, l’opérateur norme est considérée dans sa forme généralisée défini par: 2 X ( = XtA X ) t (A.12) où A est une matrice de normalisation définie positive, Si A est la matrice identité, on retrouve la norme euclidienne. La sortie du neurone vaut donc: ( ) 1 − ⎞ ⎛ t ⎜ S = Φ⎜ (Y − c ) A (Y − c ) 2 ⎟⎟ ⎠ ⎝ (A.13) Les noyaux utilisés comme fonction d’activation sont des fonctions définies de ℜ vers ℜ + , symétriques radialement par rapport à un point (d’où la dénomination de neurones à fonctions radiales de base) parmi lesquelles on peut citer [CHEN 89]: Noyau gaussien: ⎛ v2 Φ (v ) = exp⎜⎜ − 2 ⎝ 2β Noyau thin plate Φ(v ) = v 2 log(v ) noyau multiquadratique Φ (v ) = (v 2 +β2 ⎞ ⎟⎟ ⎠ (A. 14) (A. 15) ) (A. 16) Le noyau gaussien est le plus largement répondu. La valeur que prend sa sortie est d’autant plus importante que l’entrée est plus proche de son centre et elle tend vers zéro lorsque la distance entrée - centre devient importante. Le paramètre β permet de contrôler la vitesse de décroissante de la fonction Φ et il conviendra de le choisir de façon judicieuse. ⎛ Y −c Φ (Y ) = exp⎜ − ⎜ 2β 2 ⎝ 2 ⎞ ⎟ = exp⎛⎜ − 1 (Y − c )t A (Y − c )⎞⎟ ⎟ ⎜ 2β 2 ⎟ ⎠ ⎝ ⎠ (A.17) 147 A. 4. 1. Architecture L’architecture d’un réseau RBF s’organise en deux couches seulement: une couche cachée et une couche de sortie. La première couche, constituée de N c noyaux élémentaires, effectue une transformation non linéaire de l’espace d’entrée. La couche de sortie, la plupart du temps constituée d’une fonction d’activation linéaire, calcule une combinaison linéaire des sorties des noyaux élémentaires, voir Figure A. 5. c1 Φ ||.|| c2 Φ ||.|| Y Vecteur d’entrée S1 1 w1 S2 . . . . . . S Σ F w Nc c Nc ||.|| w0 w2 Φ S Nc Couche cachée N c noyaux Couche De sortie Figure A. 5. Exemple d’architecture d’un RBF. La sortie d’un tel réseau s’exprime sous la forme: Nc ⎛ S = F ⎜⎜ w0 + ∑ wi Φ ( Y − ci i =1 ⎝ )⎞⎟⎟ ⎠ (A.18) Les utilisations habituelles des réseaux RBF [CHEN 91], [HAYK 94] conservent une fonction d’activation linéaire en sortie mais l’utilisation d’une fonction non linéaire comme une sigmoïde est aussi possible. A. 4. 2. Apprentissage Les paramètres ajustables dans un réseau RBF: - la position des centres ci 1 ≤ i ≤ N c , 148 - -l’optimisation du nombre N c de noyaux, - le choix des matrices de normalisation Ai (1 < i ≤ N c ) intervenant dans le calcul de distance, - la valeur de l’écart-type β i associés à chaque noyau, - Les poids de la couche de sortie w , Le type de fonctions noyaux sera toujours fixé avant l’apprentissage et dans le cas de ce travail, il s’agit de noyaux gaussiens. Différentes stratégies d’apprentissage sont alors possibles: Apprentissage Global: pour un nombre de noyaux fixé à priori et une matrice de normalisation choisie (généralement la matrice identité), cette approche consiste à ajuster simultanément à l’aide d’un apprentissage supervisé la position des noyaux, l’écart-type relatif à chaque noyau et les poids en sortie. Ces paramètres (ci , β i , w) sont modifiés itérativement à l’aide d’un algorithme de gradient pour minimiser une fonction coût de type moindre carrés par exemple [HAYK 94]. L’initialisation de ces paramètres se fait généralement de façon aléatoire. Plusieurs auteurs ont montré que ce type d’apprentissage peut présenter des difficultés de convergence. Apprentissage Hybride: ce dernier possède plusieurs variantes. Soit on commence par le positionnement des noyaux et l’optimisation (ou le choix ) de leur nombre et on détermine ensuite les poids et les matrices de normalisation (les noyaux étant immobiles) par apprentissage à l’aide d’un algorithme de type gradient. Soit l’apprentissage des deux couches s’effectue séparément et dans un premier temps, on choisit les paramètres des deux couches (position des noyaux, nombre des noyaux, écart –type, et matrice de normalisation) puis on procède au calcul des poids de la couche de sortie. Notons que l’apprentissage des poids peut s’effectuer itérativement en utilisant la règle delta ou delta généralisée. Dans le cadre de ce travail, nous adoptons la procédure d’apprentissage hybride basée sur: • la détermination des paramètres de la première couche (position des noyaux, nombre des noyaux, écart –type, et matrice de normalisation), • l’apprentissage des poids de la couche de sortie utilisant la rétropropagation. 149 150 ANNEXE B: LOGIQUE FLOUE (LF) B. 1. Historique Les prémisses de la Logique Floue (LF) sont apparues avant les années 1940, avec les premières approches, par des chercheurs Américains, du concept d'incertitude. Il a fallu attendre 1965, pour que le concept de sous ensembles flous soit proposé par L. A. Zadeh [ZADE 65], automaticien de réputation internationale, professeur à l'université de Berkeley en Californie, qui a contribué à la modélisation du phénomène sous forme floue, en vue de pallier les limitations dues aux incertitudes des modèles classiques à équations différentielles. En 1974, M. Mamdani expérimentait la théorie énoncée par Zadeh sur une chaudière à vapeur, matériel dont on connaît la complexité, introduisant ainsi la commande floue dans la régulation d'un processus industriel. Plusieurs applications ont vu alors le jour en Europe, pour des systèmes parfois très complexes, tel que le système de régulation de fours de cimenterie réalisé par la société F. L. Smidt-Fuller. Grâce au chercheur Japonais M. Sugeno, la LF était introduite dès 1985 dans les sociétés Japonaises exploitant l'avantage à la fois technique et commercial de la LF: • facilité d'implantation, • solution de problèmes multivariables complexes, • robustesse vis-à-vis des incertitudes, • possibilité d'intégration du savoir d’un expert. B. 2. Applications Si les premières applications de la commande floue ont été développées en Europe par Mamdani, Van Lauta Lemke, Willayes, … dans les années 1975, ce type de commande a été largement utilisé au Japon à la fin des années 80 et au début des années 90, par exemple sur le 151 métro Sendai (Juillet 1987), dans la conception du lave-linge Aïsaïgo Day Fuzzy de Matsushita (Février 1990). Tirant profit d'une évolution de la technologie, l'industrie Japonaise a développé des produits au grand public à base de LF: • appareils électroménagers (lave-linge, aspirateurs, autocuiseurs, etc …), • systèmes audio-visuels (appareils de photos autofocus, caméscope à stabilisateur d'images, photocopieurs, ...), • systèmes automobiles embarqués (BVA, ABS, suspension, climatisation, etc …), • systèmes autonomes mobiles, • systèmes de transport (train, métro, ascenseur, ...), • systèmes de conditionnement d'ambiance, • systèmes de décision, de diagnostic, et de reconnaissance, • systèmes de contrôle/commande dans la plupart des domaines industriels de production, transformation, et traitement de produit et déchet. Terminons cette liste par une application, à savoir la commande à distance d'un hélicoptère sans pilote, pour des opérations de sauvetage ou inspection de sites dangereux, travail développé par l'équipe du Professeur Sugeno. Ce système intrinsèquement non linéaire, instable et présentant de fort couplage, est caractérisé par 15 variables d'état et 4 commandes (vitesse et inclinaison des rotors), reçoit des ordres globaux du style: atterrissage, décollage, vol stabilisé, vol avant, vol arrière, virage à droite, virage à gauche, .... Un système à base de LF, très structuré hiérarchiquement (2 niveaux de commande, une douzaine de blocs d'une soixantaine de règles chacun), traite ces ordres pour arriver aux actions sur les organes de commande de l'hélicoptère, qui vole déjà dans le ciel de Tokyo. B. 3. Variable Floue Contrairement aux variables binaires qui sont définies par les deux états « vrai » ou « faux », les variables floues présentent toute une gradation entre la valeur « vrai » et la valeur « faux ». Cette dernière idée est vraiment importante parce qu’on définit un intervalle classique L de réels par ses deux extrémités, disons L = [a, b]. 152 B. 4. Notion d’Appartenance Partielle Dans la théorie des ensembles, un élément appartient ou n’appartient pas à un ensemble. Cette notion essentielle ne permet cependant pas de rendre compte de situations pourtant simples et rencontrées fréquemment. La théorie des ensembles flous repose sur la notion d’appartenance partielle: chaque élément appartient partiellement ou graduellement aux ensembles flous, voir Figure B. 1. T X n’appartient ni à A ni à B Y appartient totalement à A Z appartient totalement à B T appartient partiellement à B Figure B. 1. Comparaison d’un ensemble classique et d’un ensemble flou. B. 5. Fonctions d’Appartenance Un ensemble flou est défini par sa «fonction d’appartenance» qui correspond à la notion de « fonction caractéristique » en logique classique. Supposons que nous voulions définir l'ensemble des personnes de « taille moyenne ». En logique classique, nous conviendrons par exemple que les personnes de taille moyenne sont celles dont la taille est comprise entre 1,60 m et 1,80 m. La fonction caractéristique de l'ensemble, (voir Figure B. 2. (a)), donne « 0 » pour les tailles hors de l'intervalle [1,60 m , 1,80 m] et « 1 » dans cet intervalle. L’ensemble flou des personnes de « taille moyenne» sera défini par une « fonction d'appartenance» qui diffère d'une fonction caractéristique par le fait qu’elle peut prendre n'importe quelle valeur dans l'intervalle [0, 1]. A chaque taille possible correspond un « degré d'appartenance», (voir Figure B. 2. (b)), compris entre 0 et 1. Plusieurs ensembles flous peuvent être définis sur la même variable, par exemple les ensembles « taille petite », « taille moyenne» et « taille grande », notions explicitées chacune par une fonction d'appartenance, voir Figure B. 3. 153 Figure B. 2.(a). Fonction caractéristique. Figure B. 2.(b). Fonction d’appartenance. Figure B. 3. Fonctions d’appartenance (ensembles flous). Cet exemple montre la gradualité qui permet d'introduire la logique floue. Une personne de 1,80 m appartient à l'ensemble « taille grande» avec un degré 0,3 et à l'ensemble « taille moyenne» avec un degré de 0,7. En logique classique, le passage de moyen à grand serait brusque. Une personne de 1,80 m serait par exemple de taille moyenne alors qu’une personne de 1,81 m serait grande, ce qui choque l'intuition. La variable (par exemple : taille) ainsi que les termes (par exemple: moyenne, grande) définis par les fonctions d'appartenance portent respectivement les noms de variable linguistique et de termes linguistiques. Les fonctions d’appartenance peuvent théoriquement prendre n’importe quelle forme. Toutefois, elles sont souvent définies par des segments de droites, et dites « linéaires par morceaux ou trapézoïdales», voir Figure B. 4. Les fonctions d’appartenance « linéaires par morceaux» sont très utilisées car: • elles sont simples, • elles comportent des points permettant de définir les zones où la notion est vraie, les zones où elle est fausse, ce qui simplifie le recueil d'expertise. 154 Figure B. 4. Fonctions d’appartenance linéaires par morceaux. B. 6. Opérateurs Logiques Flous Ces opérateurs permettent d’écrire des combinaisons logiques entre notions floues, c'est à dire de faire des calculs sur des degrés de vérité. Comme pour la logique classique, on peut définir des opérateurs ET, OU, négation et autres. Il existe de nombreuses variantes dans ces opérateurs. Cependant, les plus répandus sont ceux dits « de Zadeh » décrits ci-dessous. Dans ce qui suit, le degré de vérité d’une proposition A sera noté µ ( A) . B. 6. 1. Intersection L’opérateur logique correspondant à l’intersection d’ensembles est le ET. Le degré de vérité de la proposition « A ET B » est le minimum des degrés de vérité de A et de B: µ ( A ET B ) = MIN (µ ( A), µ (B )) (C. 1) B. 6. 2. Union L'opérateur logique correspondant à l'union d'ensembles est le OU. Le degré de vérité de la proposition « A OU B » est le maximum des degrés de vérité de A et de B : 155 µ ( A OU B ) = MAX (µ ( A), µ (B )) (C. 2) B. 6. 3. Complément L’opérateur logique correspondant au complément d’un ensemble est la négation. µ ( NON A) = 1 − µ ( A) (C. 3) 156 ANNEXE C: APPLICATION BIOMEDICALE C. 1. Appareil Auditif Humain C. 1. 1. Appareil Auditif On peut décomposer l'appareil auditif en trois parties: l'oreille externe, l'oreille moyenne et l'oreille interne. La Figure C. 1. est une vue d'ensemble du système auditif à laquelle on pourra se reporter tout au long de cette partie. Figure C. 1: Anatomie simplifiée d’une oreille. C. 1. 2. Oreille Externe On appelle oreille externe, l'ensemble constitué du pavillon et du conduit auditif externe. Le conduit auditif externe est un conduit musculo-membraneux dans ses deux tiers externe et osseux dans son tiers interne. Son rôle est de protéger le tympan des agressions 157 mécaniques et de modifier le champ sonore en augmentant la directivité des sons, en association avec le rôle diffracteur de la tête. L'oreille externe est responsable d'un gain auditif substantiel sur les hautes fréquences. C. 1. 3. Oreille Moyenne L'oreille moyenne comprend le tympan et la chaîne ossiculaire - ou osselets (marteau, enclume, étrier) - logés dans un espace osseux du rocher appelé caisse du tympan. C'est un espace rempli d'air qui communique avec le pharynx par l'intermédiaire de la trompe d'Eustache, un conduit musculo-membraneux. Le rôle de ce conduit est de maintenir l'équipression de part et d'autre du tympan grâce à son ouverture régulière au cours des mouvements de bâillement ou de déglutition. Il permet ainsi la vibration optimale de la chaîne tympano-ossiculaire. La membrane tympanique est une structure élastique, fibrillaire dans laquelle est inclus le marteau par sa longue apophyse, encore appelée manche du marteau. La tête du marteau est articulée avec l'enclume. Il est suspendu dans l'oreille moyenne par un puissant ligament qui s'insère sur sa courte apophyse, sa longue apophyse est en relation avec l'étrier. L'étrier, quant à lui, est constitué de deux branches, et d'une partie plate - ou platine qui repose dans la fenêtre ovale, par laquelle il est en contact avec l'oreille interne. Le développement fonctionnel de l'oreille moyenne, qui a commencé chez les amphibiens, a considérablement amélioré la transmission sonore en agissant comme un adaptateur d'impédance. Cet effet est accompli principalement à travers la grande différence de surface entre le tympan (65 mm²) et la platine de l'étrier (3,2 mm²) et, à moindre degré, à travers l'action de levier de la chaîne ossiculaire. Les osselets sont maintenus en place par un système complexe de ligaments et de muscles. Parmi ces derniers, les plus importants sont le muscle du marteau et le muscle de l'étrier - ou muscle stapédien - dont le rôle est de tendre la chaîne ossiculaire. L'onde sonore atteint le conduit auditif externe et met le tympan en vibration. L'énergie sonore est transférée à la chaîne ossiculaire dont les déplacements sont de l'ordre de quelques angströms, puis au liquide de l'oreille interne par l'intermédiaire de la platine de l'étrier. 158 C. 1. 4. Oreille Interne L'oreille interne est constituée d'une partie responsable de l'audition, la cochlée et d'une partie responsable de l'équilibre, le vestibule. La cochlée, plus familièrement appelée limaçon en raison de sa forme de tube enroulé sur deux trous de demi de spire, est entouré d'une capsule osseuse et remplie de liquide. Ce tube est cloisonné par deux membranes constituant trois rampes, qu'on distingue bien sur une coupe transversale: les rampes vestibulaire, tympanique et surtout cochléaire qui nous intéresse particulièrement, car c'est là que se situe l'organe sensoriel de l'audition: l'organe de Corti. L'organe de Corti est constitué d'une architecture complexe de cellules sensorielles et de cellules de soutien. On trouve deux types de cellules sensorielles: les cellules ciliées internes (CCI), disposées sur une seule rangée, et les cellules ciliées externes (CCE), disposées, elles, sur trois rangs. Ces cellules ciliées ont la particularité de présenter à leur extrémité apicale des expansions cytoplasmiques en doigts de gants appelées stéréocils. Il existe plusieurs rangées de stéréocils par cellule, les plus courts étant disposés à l'intérieur de la cochlée, les plus longs, à l'extérieur. Ces stéréocils sont rangés en ligne dans les CCI et le long d'un W dans les CCE. Les CCE ont la propriété de se contracter en réponse à une stimulation sonore. Elles ont avant tout une activité musculaire, les CCI étant, quant à elles, les véritables cellules sensorielles qui transmettent l'information sonore au nerf auditif. Lorsque l'onde sonore est transmise à l'oreille interne, elle fait vibrer la membrane basilaire, sur laquelle repose l'organe de Corti. En se contractant, les CCE permettent une amplification très localisée de la vibration de la membrane basilaire, ce qui permet de ne stimuler qu'un nombre limité de CCI, améliorant ainsi la sélection fréquentielle. Quand il y a destruction de CCE, comme dans le cas d'un traumatisme sonore, il faut de fortes intensités sonores pour stimuler directement les CCI. Alors, de nombreuses CCI sont stimulées, entraînant une perte de sélectivité fréquentielle. Les CCI ont un rôle de transduction en transformant la stimulation vibratoire en influx nerveux destiné aux dendrites des axones du nerf auditif qui font synapses au niveau du pôle inférieur de la cellule. Il s'agit d'une innervation afférente. Il existe, au niveau de la cochlée, une répartition fréquentielle tonotopique, les aigus étant codés à la base et les graves à l'apex, qui a fait comparer la cochlée à un clavier de piano (clavier cochléaire). 159 C. 1. 5. Voies Auditives Centrales L'ensemble de 30 000 axones innervant l'organe de Corti constitue le nerf auditif. Il chemine dans le conduit auditif interne et rejoint le tronc cérébral. Il existe, au niveau du nerf auditif, une organisation tonotopique, chaque fibre répondant de manière préférentielle à une fréquence particulière, dite fréquence caractéristique. Au niveau des fibres auditives, on observe une activité spontanée en dehors de toute stimulation auditive. Pour une fibre donnée, le niveau d'activité est assez stable, en revanche, il varie beaucoup d'une fibre à l'autre. Les neurones auditifs primaires répondent tous de manière univoque à la stimulation sonore, en augmentant leur activité. Il existe une brusque augmentation des décharges au début du stimulus, suivie d'une diminution de l'activité qui se stabilise en plateau durant la deuxième partie de la stimulation. Le premier relais des neurones du nerf auditif se situe au niveau des noyaux cochléaires du bulbe qui contiennent les neurones auditifs secondaires. Il existe une grande variété de types cellulaires dans les noyaux cochléaires, corrélée avec une grande variété de types de réponses qui contraste avec l'activité univoque des neurones primaires. Comme au niveau du nerf auditif, on observe une organisation tonotopique au niveau des noyaux cochléaires. Puis, les relais des voies auditives se trouvent au niveau de la protubérance. Il s'agit du complexe olivaire supérieur. Au sein de ces noyaux, les différents neurones n'ont pas tous les mêmes caractéristiques physiologiques. Il s'agit du niveau le plus bas du système auditif. Le relais suivant est le colliculus inférieur. Quand le signal atteint ce relais, il a déjà subi plusieurs modifications, non seulement dues aux transformations synaptiques survenues entre la cochlée et le colliculus inférieur, mais aussi à la convergence des fibres provenant des deux oreilles au niveau d'un même neurone à des niveaux inférieurs. La mise en jeu des excitations et des inhibitions devient de plus en plus complexe. Le corps grenouillé médian est le dernier relais sous cortical. Il est composé de deux parties: une partie principale et un noyau ventral. Les fibres en provenance du colliculus inférieur se terminent essentiellement dans la partie principale. Enfin, les ondes auditives se projettent sur le cortex auditif. 160 C. 2. Traitement de l’Information Médicale En médecine, peut-être plus que dans d'autres disciplines, les observations sur lesquelles se basent les décisions médicales sont très imparfaites. Elles peuvent être ambiguës, incomplètes, incertaines. Le processus décisionnel, qu'il soit diagnostique, thérapeutique ou pronostique est donc un processus sous incertitude. Plusieurs éléments participent à cette situation. Les observations sont ambiguës, incomplètes, incertaines parce qu'il n'y a pas de vocabulaire standardisé communément utilisé par la communauté médicale et répondant à des définitions clairement exprimées. L'utilisation pour un même concept de termes proches mais non rigoureusement synonymes, ou pour des concepts voisins du même terme est source d'ambiguïté et d'imprécision sémantique. En effet, il est commun de retrouver dans les observations consignées dans les dossiers médicaux des expressions comme douleur abdominale aiguë, hépatomégalie ou malaises fréquents. De telles observations sont ambiguës car le malade peut exprimer une complainte et le médecin en entendre une autre. De plus, des observateurs différents ont des seuils de perception différents dans l'appréciation de la présence ou l'absence d'un signe. Les observations sont incomplètes car, en situation de décision, le médecin doit agir sans connaître l'ensemble des données relatives à un patient et bien entendu toute la connaissance spécifique de la situation. Ceci est particulièrement vrai dans des situations d'urgences, où un patient peut se retrouver inconscient, lorsque les résultats de laboratoire ne sont pas encore disponibles. Elles sont incertaines car les connaissances cliniques sont l'expression d'observations statistiques sur des échantillons de patients présentant des maladies plus ou moins fréquentes, ayant des formes cliniques différentes et ne s'exprimant pas toujours par la même symptomatologie, partageant certains signes avec d'autres maladies, etc … Dans le cas de l’application biomédicale (§ III. 2. 1. 1) par exemple, les Potentiels Evoqués Auditifs sont des signaux d’amplitude très faible, quelques centaines de nanovolts, noyés dans un bruit de fond d’amplitude supérieure, de centaines de millivolts. Ce bruit de fond est constitué de l’activité Electro-EncéphaloGraphique, à laquelle se rajoute l’activité électro-myographique due au fait que l’on recueillie ces potentiels à distance de leur lieu d’émission, à travers les espaces méningés, la boîte crânienne, les muscles d’insertion céphalique et cervicale et le cuir chevelu. Ainsi ce bruit rend l’information bruitée. Un 161 deuxième facteur, rendant l’information bruité et ambiguë, est relatif aux conditions d’acquisition des PEA telles que lors de l’acquisition, le patient doit être le plus calme possible, pour que l’activité cérébrale ne perturbe pas l’acquisition du PEA. 162 ANNEXE D: TRANSFORMEE EN ONDELETTES La transformée en ondelettes a été développée au départ pour situer de façon plus précise la position des fréquences composant le spectre d’un signal. En effet la transformée de Fourier permet de calculer le spectre d’un signal sans donner de précisions sur la position des éléments spectraux dans le signal. La transformée de Fourier à fenêtre offre l’avantage de faire correspondre un spectre à une ‘‘fenêtre’’ du signal. La transformée en ondelettes présente, par rapport à la transformée de Fourier à fenêtre, l’intérêt d’un aspect multi-échelles de la fenêtre d’analyse au lieu d’une fonction continue comme les bases en cosinus et en sinus utilisées pour la décomposition de Fourier et sa version à fenêtre. D’une façon similaire à la transformée de Fourier, il s’agit de quantifier la corrélation qui existe entre signal temporel s (t ) et une fonction particulière Ψ (t ) . Dans le cas de la transformée de Fourier, cette fonction Ψ est la fonction cosinus ou la fonction sinus. Dans le cas de la transformée en ondelettes, cette fonction Ψ doit seulement respecter un minimum de conditions. L’une de ces conditions impose que l’intégrale de Ψ soit égale à zéro (t variant de − ∞ à + ∞ ) la Figure D. 1 montre la forme typique d’une ondelette. Figure D. 1. Ondelette Daubechies d’ordre 5 (db5). La grande originalité de l’ondelette réside dans le fait que l’on peut la comprimer ou la dilater, ce qui permet de faire varier sa fréquence. D’autre part, en translatant cette ondelette 163 le long de l’axe des temps ‘‘t’’, on peut analyser le signal s(t) sur des plages de temps différentes. On obtient donc une représentation temps-fréquence du signal [BARR 02]. D. 1. Transformée en Ondelettes Continue Pour bien comprendre la transformation en ondelettes continue, on considère la transformation de Fourier. Le processus d'analyse de Fourier est représenté par : F (ω ) = ∫ +∞ −∞ f (t )e − jωt dt (E. 1) Les résultats de la transformation sont des coefficients F (ω ) . Quand on multiplie ces coefficients par un sinusoïdale de fréquence ω on peut obtenir les composants de signal, voir Figure D. 2. Figure D. 2. Transformée de Fourier. Pour la transformation en ondelettes continue, elle est définie comme la somme sur tout le temps du signal multiplié par des échelles: C (échelle, position ) = ∫ +∞ −∞ f (t ) Ψ (échelle, position, t ) dt (E. 2) Avec Ψs ,τ ( x ) = ⎛ x −τ ⎞ Ψ⎜ ⎟ s ⎝ s ⎠ 1 (E. 3) 164 - τ est un coefficient de translation de temps, - s est un coefficient d’échelle. Figure D. 3. Transformée en ondelettes continue. Les différentes échelles, Figure D. 3, correspondent à l’étirage ou la compression de l’ondelette. Le décalage de temps signifie le déplacement d’ondelette. Les résultats de la transformée en ondelettes continue sont des coefficients C. D. 2. Relation entre Echelle et Fréquence Il y a une correspondance entre les échelles d’ondelette et la fréquence, voir figure D. 4: Figure D. 4. Correspondance échelle et fréquence. - basse échelle ⇒ ondelette compressée ⇒ changer le détail rapidement ⇒ haute fréquence, - haute échelle ⇒ ondelette tirée ⇒ changer le détail lentement ⇒ haute fréquence. 165 D. 3. Cinq Etapes pour la Transformée en Ondelettes Continue Il y a cinq étapes pour effectuer la transformée en ondelettes continue: 1. Prendre une ondelette et la comparer à une section au début du signal original, 2. Calculer C (voir équation E. 2), qui représente le degré de similitude de cette petite onde avec cette section du signal, voir Figure D.5. C peut être interprété comme coefficient de corrélation tel que plus C est élevé, plus on a de similarité. Noter que les résultats dépendent de la forme d’ondelette choisie, Figure D. 5. Etape 2. 3. Déplacer l’ondelette à droite et répéter les étapes 1 et 2, voir Figure D.6, Figure D. 6. Etape 3. Figure D. 7. Etape 4. 166 4. Etirer l’ondelette et répéter l’étape 1 jusqu’à l’étape 3, voir Figure D.7, 5. Répéter les tapes 1 à 4 pour toutes les échelles, Quand on a fini toutes les étapes ci-dessus, on multiplie les coefficients à différentes échelles par les différentes sections du signal. 167 168 ANNEXE E: BASES DE REGLES FLOUES E. 1. Etablissement des Règles du Système Flou Primaire (SFP) Les règles permettent de relier les variables floues d’entrées aux variables floues de sorties. Le système flou primaire est composé de 729 règles. Un premier travail effectué, pour établir l’expertise de SFP, est le regroupement de ses règles (les règles du même groupe sont traitées de la même façon). Rappelons que les fonctions d’appartenances des paramètres d’entrées (C1-1, C1-2, C1-3, C2-1, C2-2, C2-3) de SFP (voir § II. 3. 3. 4) ont été définies par les variables floues Loin (L), Moyen (M), et Proche (P) et le vecteur de sortie de SFP est (C1, C2, C3). Dans le cas de SFP, nous avons établi quatre groupes, voir Tableau E. 1. Groupe états groupe 1 abc abc … groupe 2 groupe 3 groupe 4 aaa aaa aaa bbb bbb aaa … xxx abc abc xxx … abc aPP, aPP abc abc PaP, PaP abc abc PPa, PPa, abc Nombre de Cas 496 8 Exemples (LMP LPM, …) (LLP LLP, …) … (LLL LLL, …) (LLL MMM, …) (PPP LLL, …) … 144 (LLL LMP, …) (LMP LLL, …) 81 (LML PMP, LMM LPP LMM MPP, …) … Tableau E. 1. Les quatre groupes de la base de règles du SFP. - groupe 1: ce groupe est composé de 496 règles (la majorité de la base des règles). Pour chaque entrée de ce groupe (C1-1, C1-2, C1-3, C2-1, C2-2, C2-3), on attribue une valeur comprise entre 0 et 1 pour C1, C2, et C3. En fait, on procède à une analyse indépendante des deux sorties des deux classifieurs 1 et 2, ensuite, on analyse les deux sorties des deux classifieurs en même temps pour élaborer l’expertise. Par exemple, pour attribuer une valeur à C1, on analyse indépendamment les sorties des deux 169 classifieurs, ensuite, on analyse les deux sorties en même temps: on regarde la valeur de (C1-1, C2-1) et on prend en compte aussi les valeurs de (C1-2, C2-2) et (C1-3, C23). Le Tableau E. 2 récapitule l’ensemble des valeurs que peut prendre C1, C2, et C3 suivant les valeurs de (C1-1, C2-1), (C1-2, C2-2) et (C1-3, C2-3) respectivement. C1-1 C2-1 C1-2 C2-2 C1-3 C2-3 L L 0 L L 0.05 L L 0.1 L P 0.15 P L 0.15 L M 0.2 M L 0.2 M L 0.3 L M 0.3 M M 0.4 M P 0.5 P M 0.5 P L 0.55 L P 0.55 P M 0.6 M P 0.6 P L 0.65 L P 0.65 P M 0.7 M P 0.7 P P 0.8 P P 0.85 P P 1 Valeur Tableau E. 2. Les valeurs possibles pour (C1-1, C2-1), (C1-2, C2-2) et (C1-3, C2-3). - groupe 2: ce groupe, qu’on a appelé les cas intraitables, est composé des entrées telles que les C1-1, C1-2, C1-3, C2-1, C2-2, et C2-3 sont tous Loin, tous Moyen, ou 170 tous Proche pour chaque entrée. Dans ce cas, on attribue la valeur 0.002 pour les trois classes C1, C2 et C3, - groupe 3: dans ce cas, on traite que la partie abc, tel que pour chaque entrée, on attribut des valeurs comprises entre 0 et 1pour C1, C2 et C3, - groupe 4: c’est l’ensemble des règles comportant deux P dans deux emplacements différents, présentant un autre type de cas intraitables, pour ce groupe de règles, on attribue la valeur 0.001 pour les trois classe C1, C2 et C3. L’organigramme suivant résume les étapes d’établissement de l’expertise du Système Flou Primaire (SFP), 729 Règles Groupe 1 Groupe 3 Groupe 2 Type abc abc Ex: LMP LPM, …LLP LLP, … Type: xxx abc, abc xxx Ex: (LLL LMP, … (LMP LLL, …) Type : xxx xxx, xxx yyy, yyy xxx Ex: LLL LLL, LLL MMM… L L | 0 0.05 0.1 L P L M | M L | M M | M P | P L | 0.15 0.2 0.3 0.4 0.5 0.55 | Analyse indépendante des deux sorties du Classifieur 1 et du Classifieur 2 Analyse des deux sorties données par les deux classifieurs en même temps Expertise Type abc aPP, aPP abc abc PaP, PaP abc, abc PPa, PPa, abc 0.001 0.001 0.001 On traite que abc 0.002 0.002 0.002 L L L L | | Groupe 4 P M | P P L M | | 0.6 0.65 0.7 Sorties du Classifieur 1 C1-1 C1-1 C1-2 C1-2 P P P P | 0.8 P P | | 0.85 1 Sorties du Classifieur 2 C2-1 C1-3 C2-1 C1-3 OC1 OC2 C2-2 C2-2 C2-3 C2-3 OC3 171 Remarque: on peut attribuer à LL la valeur 0, la valeur 0.05 ou encore la valeur 0.2 suivant les valeurs des deux autres classes. Exemple, pour la règle LLL LLP, son expertise est 0 0 1 (C1 prend la valeur 0, C2 prend la valeur 0 et C3 prend la valeur 1) et pour la règle LLP LMP, son expertise est 0.1 0.2 0.85 (C1 prend la valeur 0.1, C2 prend la valeur 0.2 et C3 prend la valeur 0.85). Le tableau suivant présente quelques exemples des règles obtenus en appliquant la méthode présentée ci-dessus: Tableau E. 3. Exemples de règles et les expertises associées du SFP. Règle Expertise groupe 1 groupe 2 groupe 3 groupe 4 LLM LLM C1 C2 C3 0.05 0.05 0.4 LLL MMM C1 C2 C3 0.002 0.002 0.002 LLL LLM C1 C2 C3 0.1 0.1 0.2 LML PMP C1 C2 C3 0.001 0.001 0.001 E. 2. Etablissement des Règles du Système Flou Final (SFF) Le système flou final est composé de 81 règles, chaque entrée est composée des sorties données par le SFP (C1, C2, C3) et d’un Paramètre de Confiance (PC) pour élaborer le diagnostic final. Dans le cas de l’application biomédicale, le PC est le Seuil Auditif (SA), en effet, l’examen du seuil auditif est une étape nécessaire au médecin pour permettre de distinguer les patients de la classe Normale, des patients souffrant d’une atteinte de type EndoCochléaire. Plus la valeur du SA d’un patient est proche de zéro, plus la perte auditive est faible et plus la valeur de SA est grande, plus la perte auditive est élevée. Deux règles sont alors prises en compte dans l’établissement de l’expertise à savoir: - si la classe est Endo-Cochléaire et le SA est faible alors le patient est de la classe Normale, - si la classe est Normale et le SA est élevé alors le patient est de la classe EndoCochléaire. Pour cette application, C1 présente la classe Rétro-Cochléaire, C2 présente la classe Endo-Cochléaire et C3 présente la classe Normale. Rappelons que les fonctions d’appartenances des paramètres d’entrées (C1, C2, C3, SA) de SFF (voir § II. 4. 2) ont été définies par les variables floues suivantes: - Petit (P), Moyen (M), et Grand (G) pour C1, C2, et C3, - Faible (F), Moyen (M), et Elevé (E) pour le SA. 172 Remarque: SFF peut donner une sortie classée dans deux classes en même temps (C1, C2), (C1, C3) ou (C2, C3). Un premier travail effectué, pour établir l’expertise de SFF, est le regroupement des ses règles tel que celles du même groupe sont traitées de la même façon: - groupe 1: chaque règle appartenant à ce groupe est caractérisée par une classe (C1, C2 ou C3) Grand et les deux autres classes Petit. Ainsi nous avons trois cas: - si la première classe (C1) est Grand et les deux autres (C2 et C3) sont Petit (cas GPP) alors la classe de sortie est C1, - si la deuxième classe (C2) est Grand et les deux autres (C1 et C3) sont Petit (cas PGP) alors la classe de sortie est C2 - si la troisième classe (C3) est Grand et les deux autres (C1 et C2) sont Petit (cas PPG) alors la classe de sortie est C3. - groupe 2: chaque règle appartenant à ce groupe est caractérisée par la classe C1 est Petit et les deux autres classes (C2 et C3) sont Moyen ou Grand (cas: PMG, PGM, PMM, …). Alors: - si SA est Faible alors la classe de sortie est C3, - si SA est Moyen ou Elevé alors la classe de sortie est C2. - groupe 3: ce groupe est composé de deux sous groupes: * 1er sous groupe: chaque règle est caractérisée par la classe C1 est Moyen et les deux autres classes (C2 et C3) sont différents (cas: MPM, MMP, MMG, …). Nous avons 3 cas: • 1er cas: la classe C2 est Moyen et C3 est Petit ou inversement. Alors: - pour C2 est Petit et C3 est Moyen (cas MPM): si SA est Faible alors la classe de sortie est (C1, C3) sinon la classe de sortie est C1, - pour C2 est Moyen et C3 est Petit (cas MMP), si SA est Faible ou Moyen alors la classe de sortie est C1 sinon la classe de sortie est (C1, C2). • 2ème cas: la classe C2 est Moyen et C3 est Grand (cas MMG) ou inversement (cas MGM). Pour ces deux cas, si SA est Faible alors la classe de sortie est C3 sinon la classe de sortie est C2. 173 • 3ème cas: la classe C2 est Petit et C3 est Grand ou inversement. Alors - Pour C2 est Petit et C3 est Grand (cas MPG), si SA est Faible alors la classe de sortie est C3 sinon la classe de sortie (C1, C2), - Pour C2 est Grand et C3 est Petit (cas MGP), si SA est Moyen ou Elevé, alors la classe de sortie est C2 sinon la classe de sortie est (C1, C2). * 2ème sous groupe: chaque règle est caractérisée par la classe C1 est Moyen et les deux autres classes (C2 et C3) sont égaux et différents de la classe C1 (cas: MPP, MGG). Alors: - si C2 et C3 sont petit (MPP) alors la classe de sorte est C1, - si C2 et C3 sont grand (MGG) alors si SA est Faible, la classe de sortie est C3 sinon la classe de sortie est C2. - groupe 4: chaque règle appartenant à ce groupe est caractérisée par les trois classes C1, C2 et C3 sont identiques (cas: PPP, MMM ou GGG). Alors: - si les trois classes, C1, C2 et C3 sont Petit (cas PPP) ou Moyen (cas MMM) alors si SA est Faible alors la classe de sortie est C3 sinon la classe de sortie est C2, - si les trois classes, C1, C2 et C3 sont Grand (cas GGG) alors les trois sorties prennent la valeur 0.001. - groupe 5: chaque règle appartenant à ce groupe est caractérisée par la classe C1 est Grand et les deux autres classes (C2 et C3) sont différents. Nous avons trois cas: • 1er cas: la classe C2 est Petit et C3 est Moyen (cas GPM) ou inversement (cas GMP), alors la classe de sortie est C1. • 2ème cas: si la classe C2 est Grand (cas: GGP, GGM), alors la classe de sortie est (C1, C2). • 3ème cas: si C3 est Grand (cas: GPG, GMG), alors la classe de sortie est (C1, C3). L’organigramme suivant récapitule l’ensemble des cas à traiter : 174 81 Règles Groupe 1 Groupe 2 Cas GPP, PGP, PPG Groupe 3 C1 = P, C2 ≠ P et C3 ≠ P Si GPP Si PGP Si PPG Alors C1 Alors C2 Alors C3 Groupe 5 Groupe 4 C1 = G C2 ≠ C3 Cas xxx GGG PPP, MMM Si SA = F alors C3 Sinon C2 C1=C2=C3= 0.001 Si SA = F alors C3 Sinon C2 C1 = M et C2 = C3 ≠ M C1 = M et C2≠ C3 Si MGG Si MPP C2= P et C3 = G où C2 = G et C3 = P C2 = P et C3 = M où C2= M et C3 = P Cas: C2= P et C3 = M Si SA= F alors (C1, C3) Si SA = M ou E alors C1 Cas: C2=M et C3= P Si SA = F ou M alors C1 Si SA = E alors (C1, C2) Cas: C2=P et C3 = G Si SA = F alors C3 Sinon (C1, C2) Alors C1 Si SA = F alors C3 Sinon C2 Cas: C2 = G et C3 = P Si SA = M ou E alors C2 Sinon (C1, C2) C2 = M et C3 = G où C2 = G et C3 = M Cas: C2= M et C3 = G Si SA =F alors C3 Si SA = M ou E alors C2 C2 = P ou M C3 = P ou M Alors C1 Cas: C2= G et C3 = M Si SA =F alors C3 Si SA = M ou E alors C2 C2 = G Alors (C1, C2) C3 = G Alors (C1, C3) 175 L’indice de confiance (IC) associé à un diagnostic permet de déterminer la qualité des résultats donnés par le Système d’Aide au Diagnostic (SAD). En effet, plus le IC est élevé (proche de 1), plus le diagnostic du SAD est pertinent. L’indice de Confiance IC est déterminé suivant les groupes présentés dans § E. 2 et principalement: - pour chaque règle du groupe 1 (cas de classification tranchée: GPP, PGP et PPG), l’indice de confiance prend une valeur élevée (0.8). - pour chaque règle du groupe 2: - si C2 et C3 sont identiques (cas: PMM et PGG), alors l’indice de confiance IC prend: - la valeur 0.5 si le SA est Faible ou Elevé, -la valeur 0.2 si le SA est Moyen. - si C2 est Moyen et C3 est Grand (cas PMG) alors l’indice de confiance IC prend: - la valeur 0.7 si le SA est Faible, - la valeurs 0.5 si SA est Moyen, - la valeur 0.4 si le SA Elevé. - si C2 est Grand et C3 est Moyen (cas PGM), alors IC prend: - la valeur 0.4 si le SA est Faible, - la valeur 0.5 si SA est Moyen, - la valeur 0.7 si le SA est Elevé. - pour chaque règle du groupe 3: si C3 est Moyen et C2 est Petit (cas MPM) ou si C2 est Moyen et C3 est Petit (cas MMP) alors l’indice de confiance IC prend la valeur 0.5. - pour chaque règle du groupe 4: - si les trois classes, C1, C2 et C3 sont Petit (cas PPP) ou Moyen (cas MMM) alors IC prend la valeur 0.5, - si les trois classes, C1, C2 et C3 sont Grand (cas GGG) alors IC prend la valeur 0.001. - pour chaque règle du groupe 5: - Si C2 est petit et C3 est Moyen (cas GPM) ou inversement (cas GMP) alors IC prends la valeur 0.6, - Si C2 est Grand (cas: GGP, GGM) ou C3 est Grand (cas: GPM, GMG) alors l’indice de confiance prend la valeur 0.1. 176 Le tableau suivant présente quelques exemples de règles obtenues en appliquant la méthode présentée ci-dessus: Tableau E. 4. Exemples de règles et les expertises associées du SFP. Règle Expertise groupe 1 groupe 2 groupe 3 groupe 4 groupe 5 GPP F C1 C2 C3 IC 0.8 0.1 0.1 0.8 PMM F C1 C2 C3 IC 0.1 0.1 0.5 0.5 MPM F C1 C2 C3 IC 0.5 0.1 0.5 0.5 GGG M C1 C2 C3 IC 0.001 0.001 0.001 0.001 GGP F C1 C2 C3 IC 0.7 0.7 0.2 0.1 177 Le tableau suivant présente quelques exemples de règles obtenues en appliquant la méthode présentée ci-dessus: Tableau E. 4. Exemples de règles et les expertises associées du SFP. Règle groupe 1 groupe 2 groupe 3 groupe 4 groupe 5 GPP F C1 C2 C3 IC PMM F C1 C2 C3 IC MPM F C1 C2 C3 IC GGG M C1 C2 C3 IC GGP F C1 C2 C3 IC 178 Liste de publications dans le cadre de la thèse: - Articles de Revues Internationales: - Chohra A., Kanaoui N., and Madani K., ‘‘Hybrid Intelligent Classification for Computer Aided Diagnosis (CAD) Systems Using Image Representation’’, Image Processing and Communications, An International Journal, R. S. Choras (Editor-in-Chief), In: Special Section on Computer Graphics and Artificial Intelligence, K. Saeed (Ed.), Vol. 10, No. 2, pp. 07-15, Published by the Institute of Telecommunications, Bydgoszcz, Poland 2005, ISSN 1425-140X. - Kurosh Madani, Matthieu Voiry, Véronique Amarger, Nadia Kanaoui, Amine Chohra, François Houbre, ‘‘Computer Aided Diagnosis using Soft-Computing Techniques and Image’s Issued Representation: Application to Medical and Industrial Problems’’, International Scientific Journal of Computing, Vol. 5, The Special Issue : Neural Network and Artificial Intelligence, Issue 3, ISSN 1727-6209, pp. 43-53, 2006. - Livres, ou Chapitres de Livres: - Chohra A., Kanaoui N., and Madani K., ‘‘A Neural Network Based Computer Aided Diagnosis Approach Using a Signal to Image Conversion: Application to Biomedical Computer Aided Diagnosis’’, Computer Information Systems and Applications, Editors: K. Saeed, R. Mosdorf, J. Pejace, O. P. Hilmola, Z. Sosnowski, I. El-Fray, WSFZB University Publisher, Poland, Volume II, pp. 96-107, 2004, ISBN-83-87256-68-4. - Chohra, A., Kanaoui, N., Amarger, V.: A Soft Computing Based Approach Using Signal-To-Image Conversion for Computer Aided Medical Diagnosis (CAMD). Information Processing and Security Systems, Edited by K. Saeed and J. Pejas, Springer, (2005) 365-374. - Chohra A., Kanaoui N., and Madani K., ‘‘Neural Hybrid Image Classification for Intelligent Diagnosis Systems from Signal-to-Image Conversion’’, Computer Information Systems and Applications, Editors: K. Saeed, R. Mosdorf, J. Pejace, O. P. Hilmola, Z. Sosnowski, I. El-Fray, WSFiZ University Publisher, Poland, Volume I, pp. 329-338, 2005, ISBN 83-87256-86-2. - Amine Chohra, Nadia Kanaoui, Véronique Amarger, and Kurosh Madani, ‘‘Signal and Image Representations Based Hybrid Intelligent Diagnosis Approach for A Biomedicine Application’’, M. Ali and R. Dapoigny (Eds.): IEA/AIE 2006, ‘‘Lecture Notes in Artificial Intelligence Series of Springer-Verlag’’ LNAI 4031, ISSN 03029743, ISBN 3-540-35453-0, pp. 155-165, 2006, Springer-Verlag Berlin Heidelberg 2006. - Amine Chohra, Nadia Kanaoui, and Kurosh Madani, ‘‘Hybrid Intelligent Diagnosis Approaches: Analysis and th Comparison under a Biomedicine Application’’, 13 International Multi-Conference on Advanced Computer Systems, October 18-20, Miedzyzdroje, Poland, J. Pejas I. El Fray and K. Saeed (Ed.), ISBN 83-87362-75-1, Vol. I, Chapter I Artificial Intelligence, pp. 107-118, 2006. - Amine Chohra, Nadia Kanaoui, and Kurosh Madani, ‘‘Hybrid Intelligent Diagnosis Approaches: Analysis and Comparison under a Biomedicine Application’’, Edited by Jerzy Pejas and Khalid Saeed, Advances in Information Processing and Protection, Springer, 1 edition, IBN-10: 0-387-73136-9, ISBN-13: 978-0-38773136-0, e-ISBN-13: 978-0-387-73137-7, Part I – Artificial Intelligence, pp. 67-76, October 25, 2007. - Actes de Conférences Internationales: - Amine Chohra, Nadia Kanaoui, and Kurosh Madani, ‘‘A Neural Network Based Computer Aided Diagnosis Approach Using a Signal to Image Conversion’’, ACS-CISIM International Multi-Conferences on Advanced Computer Systems (ACS) and Computer Information Systems and Industrial Management Applications (CISIM), June 14-16, Elk (Grunwaldzka St. 1), Poland, 2004, pp. CDROM. - Véronique Amarger, Nadia Kanaoui, Amine Chohra, and Kurosh Madani, ‘‘An Intelligent Diagnosis Approach th Based On Dual-Classification Using Both Signals and Image Representations’’, 8 International Conference on Pattern Recognition and Information Processing (PRIP’2005), May 18-20, Minsk, Republic of Belarus, 2005, ISBN 985-6329-55-8, pp.216-220. 179 - Amine Chohra, Nadia Kanaoui, and Kurosh Madani, ‘‘Neural Hybrid Image Classification for Intelligent Diagnosis Systems from Signal-to-Image Conversion’’, ACS-CISIM International Multi-Conferences on Advanced Computer Systems (ACS) and Computer Information Systems and Industrial Management th rd Applications (CISIM), June 30 – July 3 , Elk (Grunwaldzka St. 1), Poland, 2005, pp. CDROM. - Amine Chohra, Nadia Kanaoui, Véronique Amarger, and Kurosh Madani, ‘‘Fuzzy Hybridation of ‘‘Artificial Neural Networks’’ (ANN) Based Signal and Image Processing Techniques: Application to Intelligent ‘‘Computer Aided Biomedical Diagnosis’’ (CAMD)’’, IEEE Third International Workshop on Intelligent Data Acquisition and Advanced Computing Systems: Technology and Applications (IDAACS’2005), Sofia, Bulgaria, September 5-7, 2005, pp. 78-83, ISBN: 0-7803-9446-1. - Amine Chohra, Nadia Kanaoui, and Kurosh Madani, ‘‘Image Representation Based Hybrid Intelligent Diagnosis Approach for Computer Aided Diagnosis (CAD) Systems’’, International Conference on Neural Networks and Artificial Intelligence ICNNAI-2006, Brest State Technical University, ISBN 985-493-036-X, Brest, Belarus, 31 May – 2 June, 2006, pp. 168-174. - Amine Chohra, Nadia Kanaoui, Véronique Amarger, and Kurosh Madani, ‘‘Signal and Image Representations Based Hybrid Intelligent Diagnosis Approach for A Biomedicine Application’’, The Nineteenth International Conference on Industrial, Engineering & Other Applications of Applied Intelligent Systems IEA/IAE-2006 ISAI, AAAI, ACM/SIGART, Annecy, France, June 27-30, 2006. - Amine Chohra, Nadia Kanaoui, and Kurosh Madani, ‘‘Hybrid Intelligent Diagnosis Approaches: Analysis and th Comparison under a Biomedicine Application’’, 13 International Multi-Conference on Advanced Computer Systems, October 18-20, Miedzyzdroje, Poland, J. Pejas I. El Fray and K. Saeed (Ed.), ISBN 83-87362-75-1, Vol. I, Chapter I Artificial Intelligence, pp. 107-118, 2006. - Amine Chohra, Nadia Kanaoui, and Kurosh Madani, ‘‘Image Recognition and Analysis Based Hybrid Intelligent Approach for Computer Aided Diagnosis (CAD)’’, Ninth International Conference on Pattern Recognition and Information Processing, International Association for Pattern Recognition (IAPR), ISBN 978985-6744-29-0, Vol. I, May 22-24, Minsk, Belarus, pp. 69-75, 2007. th - Amine Chohra, Nadia Kanaoui, Kurosh Madani, ‘‘Hybrid Intelligent Diagnosis Systems’’, 6 International IEEE Conference on Computer Information Systems and Industrial Management Applications, IEEE Computer Society, June 28-30, Elk, Poland, pp. 115-120, 2007. - Amine Chohra, Nadia Kanaoui, Kurosh Madani, ‘‘Image Recognition Based Analysis and Comparison of Hybrid Intelligent Approaches for Computer Aided Diagnosis (CAD)’’, IEEE International Workshop on 4 Intelligent Data Acquisition and Advanced Computing Systems: Technology and Applications 6-8 September, Dortmund, Germany, 2007. 180 RESUME Le travail de recherche développé dans cette thèse est en rapport avec les systèmes d’aide à la décision pour le diagnostic de défaillances, la reconnaissance de formes et la prise de décisions basées sur l’Intelligence Artificielle utilisant les techniques hybrides, et le ‘‘soft computing’’ impliquant notamment les réseaux de neurones et la logique floue. Le but de ce travail n’est absolument pas de remplacer le spécialiste humain (médecin, expert, …) mais de proposer des systèmes d’aide à la décision pour le diagnostic de défaillances avec un certain indice de confiance. Ainsi, l’objectif principal est le développement d’approches hybrides modulaires permettant l’élaboration de tels SAD, destinés à répondre à certains types d’applications (biomédicale et industrielle). Pour cela, une méthodologie globale, basée sur une multiple représentation de la connaissance et une multiple classification, a été proposée exploitant différentes stratégies de représentation et de classification. Les avantages potentiels de cette méthodologie sont: la multiple représentation de la connaissance d’une même source ou de différentes sources d’information (exploitant la richesse de l’information que l’on peut extraire de différentes représentations: signal, image globale, image subdivisée), la multiple classification (redondance et/ou complémentarité), l’hybridation dans la classification et la prise de décisions basée sur des approches hybrides modulaires afin d’exploiter le caractère complémentaire, et l’exploitation d’un paramètre de confiance dans la prise de décisions afin de proposer un résultat final de diagnostic avec un indice de confiance. De plus, l’aspect modulaire dans cette méthodologie facilitera son adaptation d’une application à une autre. Mots Clés: Systèmes d’Aide au Diagnostic (SAD), représentation de la connaissance, classification, prise de décisions, approches hybrides modulaires, apprentissage et adaptation. ABSTRACT Research work developed in this thesis deals with decision support systems for fault diagnosis, pattern recognition and decision-making based on Artificial Intelligence using hybrid techniques, and soft computing implying neural networks and fuzzy logic. The aim of this work is absolutely not to replace specialized human (doctor, expert, …) but to suggest efficient Diagnosis Support Systems (DSS) with a certain confidence index. Thus, the main objective is the development of hybrid modular approaches allowing the elaboration of such DSS for certain kinds of applications (biomedicine and industrial). For that, a global methodology, based on multiple knowledge representation and multiple classification has been suggested exploiting different representation and classification strategies. Potential advantages of this methodology are: the multiple knowledge representation from same source or different sources of information (exploiting rich information which can be extracted from different representations: signal, global image, subdivided image), the multiple classification (redundancy and/or complementary), the hybrid structure in classification and decisionmaking based on hybrid modular approaches in order to exploit the complementary aspect, and the exploitation of a confidence parameter in the decision-making to suggest a final result of diagnosis with a confidence index. More, the modular aspect in this methodology will facilitate its adaptation from one application to another. Keywords: Diagnosis Support Systems (DSS), knowledge representation, classification, decision-making, hybrid modular approaches, learning and adaptation. 178