Modélisation statistique des images et des objets 3D
Transcription
Modélisation statistique des images et des objets 3D
UNIVERSITÉ MOHAMMED V –AGDAL FACULTÉ DES SCIENCES DE RABAT LRIT URAC 29 HABILITATION À DIRIGER LES RECHERCHES Présentée par Mohammed El Hassouni Docteur de L’Université de Bourgogne Professeur Assistant à la Faculté de Lettres et des Sciences Humaines de Rabat Modélisation statistique des images et des objets 3D : Contributions en reconnaissance, qualité et Débruitage Soutenue le 29/09/2012 devant le jury : Président : M. Driss Aboutajdine, PES à la Faculté des Sciences de Rabat Examinateurs : M. Ahmed Hammouch, PES à L’ENSET de Rabat M. Rachid Oulad Haj Thami, PES à ENSIAS, Rabat M. Noureddine Zahid, PES à la Faculté de Sciences de Rabat Contexte général et verrous scientifiques Mes travaux de recherches se situent à la croisée des chemins entre les statistiques et le traitement des images et des objets 3D. La modélisation stochastique et le calcul des métriques de similarité constituent le socle théorique de mes activités pour développer des approches originales capables de résoudre des problèmes classiques en traitement d’images et des objets 3D comme la reconnaissance faciale, caractérisation des textures couleur, évaluation de la qualité des images naturelles et le débruitage des maillages 3D. L'interprétation des images est aujourd'hui au cœur des procédés industriels de nombreux secteurs d'activités. Ainsi, de l'aéronautique aux domaines de la géophysique en passant par le secteur médical, tous ces secteurs utilisent l'image dans des applications de compression, de classification, d'indexation, de segmentation et/ou de débruitage. Si la plupart des verrous technologiques concernant l'acquisition et la visualisation de l'image sont aujourd'hui levés, certains subsistent et empêchent le développement d'applications fiables et pérennes. Extraire une connaissance par le biais de l'interprétation des images implique à la fois d'identifier les limites spatiales des objets qui la composent. Modéliser et caractériser ces images apparaît comme fondamental pour fiabiliser les nombreux dispositifs technologiques fondés sur l'analyse des images. En faisant le lien entre la modélisation statistique et les thèmes étudiés dans ce mémoire, nous avons identifié quelques verrous scientifiques à lever : • • • • Modélisation: La conception d'un modèle se heurte au problème de la dimensionnalité. Donc, il faut disposer d'une description statistique générique et compacte du contenu informatif de l'image. Une fois le modèle défini, il faut trouver un estimateur des paramètres simple et efficace. L'identification du modèle nécessite le développement d'une forme analytique de la mesure de similarité. Reconnaissance faciale: Les systèmes de reconnaissance faciale opérationnels, ce sont les systèmes qui minimisent les données nécessaires à l'enrôlement et qui prennent en compte l'usage des utilisateurs. Cette faible quantité de données d'apprentissage est également une contrainte intéressante d'un point de vue algorithmique. Ces contraintes nécessitent notamment la création automatique des caractéristiques pertinentes basées sur les apparences locales et la définition de métriques de similarité. Qualité: Les méthodes à référence réduite représentent un bon compromis entre la quantité d'information nécessaire et la précision obtenue. Cependant, la mise en œuvre d'une telle mesure de qualité nécessite un processus très délicat, vu les contraintes liés à l'adaptation de la métrique à plusieurs types de dégradations visuelles, la quantité d'information transmise et l'implémentation en temps réel. Débruitage des maillages 3D: Le processus d'échantillonnage est généralement inconnu, en particulier on ne sait pas qu'elle est la nature des bruits présents dans les objets réels. Dans les méthodes de débruitage, nous remarquons l'absence d'une étude complète sur le caractère et la distribution des composantes géométriques du maillage. La taille des maillages rend l'objet 3D plus réaliste, mais le temps des traitements associés demande d'être optimisé. A l'issue de ces problématiques, nous avons cherché à résoudre quelques unes en proposant quelques contributions scientifiques. Contributions scientifiques Le premier thème traite le sujet de la reconnaissance faciale. Ce thème faisait l'objet d'un projet industriel qui liait le Laboratoire LRIT avec la direction Etudes et Recherches de Maroc Telecom. A travers ce projet, nous avons confronté plusieurs problèmes réels liés à la sécurisation d'accès. Nous avons développés de nouvelles méthodes basées sur la représentation dans le domaine de la multi résolution. Ces méthodes permettent d'extraire les caractéristiques dans le domaine de transformée qui seront utilisées localement et globalement dans un schéma de classification. Plusieurs transformées ont été proposées, nous citons les Curvelets, Contourlets et les Pyramides orientables (Steerable Pyramids). Plusieurs descripteurs locaux (sur des blocs de la sous bande) et globaux (sur toute la sous bande) ont été testés, parmi ces descripteurs nous avons utilisé le LBP (Local Binary Pattern), la moyenne, la variance et l'entropie. Nous avons également, évalué les taux de classification en faisant appel à plusieurs outils tels que SVM, LDA etc.… Nous avons mené une étude très large en testant plusieurs combinaisons (transformée/descripteur/classifieur) et nous avons évalué les résultats obtenus tout en les comparant avec les méthodes qui existent dans la littérature. Le deuxième thème abordé dans nos activités de recherche vient de répondre aux besoins de la modélisation des textures couleur. Ce thème s'inscrit dans le cadre d'un projet de coopération CNRS-CNRST qui lie le Laboratoire LRIT et le Laboratoire IMS de l'Université de Bordeaux 1. L'analyse de la texture a été proposée dans le but de trouver des solutions à plusieurs difficultés relevées du monde socio-économique des deux pays. L'industrie textile est en pleine expansion au Maroc et le domaine de la petrophysique et l'aéronautique en France. L'objectif principal est de trouver un modèle stochastique qui décrit à la fois le caractère de dépendance inter et intra bandes et qui dépend aussi de l'espace couleur étudié. Nous avons choisi d'utiliser la classe des modèles multivariés qui traite tous ces genres de dépendance. La nature de l'espace couleur choisi joue un rôle très important dans le choix du modèle, par exemple dans un espace RGB un modèle mutlivarié est suffisent vue la forte corrélation qui caractérise les composantes couleurs. Par contre, dans un espace couleur perceptuel, nous avons proposé un multi-modèle mutlivarié qui traite les composantes Luminance et Chrominance séparément. Pour caractériser l'aspect mutlivarié, nous avons utilisé les copules qui représentent un outil robuste dans le domaine des statistiques modernes et plus particulièrement dans la prédiction du risque financier. Comme nous nous sommes placés dans les méthodes de classification par extraction des caractéristiques, nous avions eu intérêts à étudier la mesure de similarité entre deux modèles et deux fonctions de densités de probabilités. Dans ce sens, nous avons développé une nouvelle distance géodésique de Rao entre deux fonctions de densité de probabilité basées sur les copules. Plusieurs copules ont été utilisées pour modéliser les sous bandes de la transformée en ondelette complexe. Weibull dans un premier temps, Gamma et enfin Gamma Généralisée comme modèle générique ont été intégrés dans notre schéma proposé. Le résultat était comparé avec plusieurs méthodes statistiques et même basées sur les copules mais avec des mesures de similarité calculées par MCMC. Nous sommes arrivés à des résultats presque identiques tout en gagnant en termes de temps de calcul. Le troisième thème traite un sujet d'actualité préoccupant les scientifiques et les industriels, c'est l’évaluation de la qualité des images naturelles. L'évolution et l'usage des flux multimédia sur les réseaux à haut débits a donné lieu à des études poussées dans le domaine de la qualité de l'expérience. Le but de l'estimation de la qualité perçue est de simuler le jugement de l'observateur humain par des mesures proprement objectives. C'est une opération très délicate parce qu'elle nécessite tout d'abord une représentation de l'image qui modélise mieux le système visuel humain. C'est dans ce sens que nous avons proposé pour la première fois l'évaluation de la qualité des images dans le domaine de la décomposition empirique modale EMD. Nous avons exploité l'adaptativité et la simplicité de cette décomposition pour décrire les changements et les variations locales qui se trouvent dans les scènes rencontrées dans la réalité. Ainsi, vu le caractère oscillatoire des modes de cette décomposition, nous pouvons modéliser la fréquence de balayage de l'écran faiblement perçu par l'observateur humain. Nous avons utilisé une mesure de qualité qui existe dans la littérature dans le domaine EMD. Nous avons testé nos résultats de deux façons différentes, la première en utilisant le protocole FR-TV1 établi par le VQEG (Video Quality Expert Group), ensuite nous avons proposé une méthode d'évaluation par procédure d'apprentissage en utilisant SVM. Nos contributions ne se sont pas arrêtées à ce niveau, mais nous avons cherché une autre représentation adaptative mais cette fois multiorientation et multi-résolution vue que le système visuel humain interprète une scène naturelle dans plusieurs niveaux de résolutions et plusieurs orientations. Dans ce contexte, nous avons proposé une nouvelle transformation en tetrolet, c'est une forme générale qui prend l'ondelette de Haar comme cas particulier. Pour représenter les dépendances qui existent entre composantes des sous bandes, nous avons calculé notre métrique sur le modèle de mélange d'échelles de gaussienne GSM. Ce modèle couvre plusieurs cas particuliers tels que les formes K de Bessel, les alpha-stable, le t-student etc. Nous avons testé notre métrique sur plusieurs types de dégradation et des résultats intéressants ont été obtenus. Le dernier thème abordé concerne le domaine de débruitage des objets 3D. Vu la demande croissante sur la visualisation 3D et les jeux vidéo et la télémédecine, les objets 3D sont exposés durant la chaîne d'acquisition, compression et transmission à des pertes dues au bruit qui les affecte. Comme ces objets sont généralement représentés par un maillage polygonal et dans la plupart des cas triangulaires, il a été très difficile d'aborder une opération de filtrage. C'est dans ce sens que plusieurs méthodes appliquées sur les images 2D ont été adaptées pour répondre à la nature géométrique des maillages 3D. Dans ce contexte, nous avons contribué dans ce domaine par des méthodes de filtrage appliquées sur les normales et aussi sur les sommets. La première méthode basée sur la normale utilise un estimateur de la valeur Myriad pour mettre à jour les normales à chaque surface. Ce choix a été justifié par un test d'ajustement statistique appliqué sur la distribution des angles entre normales sur tout l'objet. La deuxième méthode consiste à ajouter un noyau au lisseur laplacien, afin d'amortir l'effet de surlissage provoqué par l'écoulement laplacien classique. Aussi nous avons apporté une amélioration par combinaison avec un autre filtre afin de réduire le nombre d'itérations. Cette méthode met à jour directement la position des sommets. Dans nos résultats, plusieurs objets synthétiques et réels ont été utilisés, plusieurs métriques ont été employées afin de juger la pertinence de nos filtres proposés. Nous avons atteints des résultats importants et nous avons pu réduire l'effet de surlissage ainsi que le nombre d'itérations.