Modélisation statistique des images et des objets 3D

Transcription

Modélisation statistique des images et des objets 3D
UNIVERSITÉ MOHAMMED V –AGDAL
FACULTÉ DES SCIENCES DE RABAT
LRIT URAC 29
HABILITATION À DIRIGER LES RECHERCHES
Présentée par
Mohammed El Hassouni
Docteur de L’Université de Bourgogne
Professeur Assistant à la Faculté de Lettres et des Sciences Humaines de Rabat
Modélisation statistique des images et des objets
3D : Contributions en reconnaissance, qualité et
Débruitage
Soutenue le 29/09/2012 devant le jury :
Président :
M. Driss Aboutajdine, PES à la Faculté des Sciences de Rabat
Examinateurs :
M. Ahmed Hammouch, PES à L’ENSET de Rabat
M. Rachid Oulad Haj Thami, PES à ENSIAS, Rabat
M. Noureddine Zahid, PES à la Faculté de Sciences de Rabat
Contexte général et verrous scientifiques
Mes travaux de recherches se situent à la croisée des chemins entre les statistiques et le
traitement des images et des objets 3D. La modélisation stochastique et le calcul des
métriques de similarité constituent le socle théorique de mes activités pour développer des
approches originales capables de résoudre des problèmes classiques en traitement
d’images et des objets 3D comme la reconnaissance faciale, caractérisation des textures
couleur, évaluation de la qualité des images naturelles et le débruitage des maillages 3D.
L'interprétation des images est aujourd'hui au cœur des procédés industriels de nombreux
secteurs d'activités. Ainsi, de l'aéronautique aux domaines de la géophysique en passant par
le secteur médical, tous ces secteurs utilisent l'image dans des applications de compression,
de classification, d'indexation, de segmentation et/ou de débruitage. Si la plupart des verrous
technologiques concernant l'acquisition et la visualisation de l'image sont aujourd'hui levés,
certains subsistent et empêchent le développement d'applications fiables et pérennes.
Extraire une connaissance par le biais de l'interprétation des images implique à la fois
d'identifier les limites spatiales des objets qui la composent. Modéliser et caractériser ces
images apparaît comme fondamental pour fiabiliser les nombreux dispositifs technologiques
fondés sur l'analyse des images.
En faisant le lien entre la modélisation statistique et les thèmes étudiés dans ce mémoire,
nous avons identifié quelques verrous scientifiques à lever :
•
•
•
•
Modélisation: La conception d'un modèle se heurte au problème de la
dimensionnalité. Donc, il faut disposer d'une description statistique générique et
compacte du contenu informatif de l'image. Une fois le modèle défini, il faut trouver
un estimateur des paramètres simple et efficace. L'identification du modèle nécessite
le développement d'une forme analytique de la mesure de similarité.
Reconnaissance faciale: Les systèmes de reconnaissance faciale opérationnels, ce
sont les systèmes qui minimisent les données nécessaires à l'enrôlement et qui
prennent en compte l'usage des utilisateurs. Cette faible quantité de données
d'apprentissage est également une contrainte intéressante d'un point de vue
algorithmique. Ces contraintes nécessitent notamment la création automatique des
caractéristiques pertinentes basées sur les apparences locales et la définition de
métriques de similarité.
Qualité: Les méthodes à référence réduite représentent un bon compromis entre la
quantité d'information nécessaire et la précision obtenue. Cependant, la mise en
œuvre d'une telle mesure de qualité nécessite un processus très délicat, vu les
contraintes liés à l'adaptation de la métrique à plusieurs types de dégradations
visuelles, la quantité d'information transmise et l'implémentation en temps réel.
Débruitage des maillages 3D: Le processus d'échantillonnage est généralement
inconnu, en particulier on ne sait pas qu'elle est la nature des bruits présents dans les
objets réels. Dans les méthodes de débruitage, nous remarquons l'absence d'une
étude complète sur le caractère et la distribution des composantes géométriques du
maillage. La taille des maillages rend l'objet 3D plus réaliste, mais le temps des
traitements associés demande d'être optimisé.
A l'issue de ces problématiques, nous avons cherché à résoudre quelques unes en
proposant quelques contributions scientifiques.
Contributions scientifiques
Le premier thème traite le sujet de la reconnaissance faciale. Ce thème faisait l'objet d'un
projet industriel qui liait le Laboratoire LRIT avec la direction Etudes et Recherches de Maroc
Telecom. A travers ce projet, nous avons confronté plusieurs problèmes réels liés à la
sécurisation d'accès. Nous avons développés de nouvelles méthodes basées sur la
représentation dans le domaine de la multi résolution. Ces méthodes permettent d'extraire
les caractéristiques dans le domaine de transformée qui seront utilisées localement et
globalement dans un schéma de classification. Plusieurs transformées ont été proposées,
nous citons les Curvelets, Contourlets et les Pyramides orientables (Steerable Pyramids).
Plusieurs descripteurs locaux (sur des blocs de la sous bande) et globaux (sur toute la sous
bande) ont été testés, parmi ces descripteurs nous avons utilisé le LBP (Local Binary
Pattern), la moyenne, la variance et l'entropie. Nous avons également, évalué les taux de
classification en faisant appel à plusieurs outils tels que SVM, LDA etc.… Nous avons mené
une étude très large en testant plusieurs combinaisons (transformée/descripteur/classifieur)
et nous avons évalué les résultats obtenus tout en les comparant avec les méthodes qui
existent dans la littérature.
Le deuxième thème abordé dans nos activités de recherche vient de répondre aux besoins
de la modélisation des textures couleur. Ce thème s'inscrit dans le cadre d'un projet de
coopération CNRS-CNRST qui lie le Laboratoire LRIT et le Laboratoire IMS de l'Université
de Bordeaux 1. L'analyse de la texture a été proposée dans le but de trouver des solutions à
plusieurs difficultés relevées du monde socio-économique des deux pays. L'industrie textile
est en pleine expansion au Maroc et le domaine de la petrophysique et l'aéronautique en
France. L'objectif principal est de trouver un modèle stochastique qui décrit à la fois le
caractère de dépendance inter et intra bandes et qui dépend aussi de l'espace couleur
étudié. Nous avons choisi d'utiliser la classe des modèles multivariés qui traite tous ces
genres de dépendance. La nature de l'espace couleur choisi joue un rôle très important dans
le choix du modèle, par exemple dans un espace RGB un modèle mutlivarié est suffisent
vue la forte corrélation qui caractérise les composantes couleurs. Par contre, dans un
espace couleur perceptuel, nous avons proposé un multi-modèle mutlivarié qui traite les
composantes Luminance et Chrominance séparément. Pour caractériser l'aspect mutlivarié,
nous avons utilisé les copules qui représentent un outil robuste dans le domaine des
statistiques modernes et plus particulièrement dans la prédiction du risque financier. Comme
nous nous sommes placés dans les méthodes de classification par extraction des
caractéristiques, nous avions eu intérêts à étudier la mesure de similarité entre deux
modèles et deux fonctions de densités de probabilités. Dans ce sens, nous avons développé
une nouvelle distance géodésique de Rao entre deux fonctions de densité de probabilité
basées sur les copules. Plusieurs copules ont été utilisées pour modéliser les sous bandes
de la transformée en ondelette complexe. Weibull dans un premier temps, Gamma et enfin
Gamma Généralisée comme modèle générique ont été intégrés dans notre schéma
proposé. Le résultat était comparé avec plusieurs méthodes statistiques et même basées sur
les copules mais avec des mesures de similarité calculées par MCMC. Nous sommes arrivés
à des résultats presque identiques tout en gagnant en termes de temps de calcul.
Le troisième thème traite un sujet d'actualité préoccupant les scientifiques et les industriels,
c'est l’évaluation de la qualité des images naturelles. L'évolution et l'usage des flux
multimédia sur les réseaux à haut débits a donné lieu à des études poussées dans le
domaine de la qualité de l'expérience. Le but de l'estimation de la qualité perçue est de
simuler le jugement de l'observateur humain par des mesures proprement objectives. C'est
une opération très délicate parce qu'elle nécessite tout d'abord une représentation de l'image
qui modélise mieux le système visuel humain. C'est dans ce sens que nous avons proposé
pour la première fois l'évaluation de la qualité des images dans le domaine de la
décomposition empirique modale EMD. Nous avons exploité l'adaptativité et la simplicité de
cette décomposition pour décrire les changements et les variations locales qui se trouvent
dans les scènes rencontrées dans la réalité. Ainsi, vu le caractère oscillatoire des modes de
cette décomposition, nous pouvons modéliser la fréquence de balayage de l'écran
faiblement perçu par l'observateur humain. Nous avons utilisé une mesure de qualité qui
existe dans la littérature dans le domaine EMD. Nous avons testé nos résultats de deux
façons différentes, la première en utilisant le protocole FR-TV1 établi par le VQEG (Video
Quality Expert Group), ensuite nous avons proposé une méthode d'évaluation par procédure
d'apprentissage en utilisant SVM. Nos contributions ne se sont pas arrêtées à ce niveau,
mais nous avons cherché une autre représentation adaptative mais cette fois multiorientation et multi-résolution vue que le système visuel humain interprète une scène
naturelle dans plusieurs niveaux de résolutions et plusieurs orientations. Dans ce contexte,
nous avons proposé une nouvelle transformation en tetrolet, c'est une forme générale qui
prend l'ondelette de Haar comme cas particulier. Pour représenter les dépendances qui
existent entre composantes des sous bandes, nous avons calculé notre métrique sur le
modèle de mélange d'échelles de gaussienne GSM. Ce modèle couvre plusieurs cas
particuliers tels que les formes K de Bessel, les alpha-stable, le t-student etc. Nous avons
testé notre métrique sur plusieurs types de dégradation et des résultats intéressants ont été
obtenus.
Le dernier thème abordé concerne le domaine de débruitage des objets 3D. Vu la
demande croissante sur la visualisation 3D et les jeux vidéo et la télémédecine, les objets 3D
sont exposés durant la chaîne d'acquisition, compression et transmission à des pertes dues
au bruit qui les affecte. Comme ces objets sont généralement représentés par un maillage
polygonal et dans la plupart des cas triangulaires, il a été très difficile d'aborder une
opération de filtrage. C'est dans ce sens que plusieurs méthodes appliquées sur les images
2D ont été adaptées pour répondre à la nature géométrique des maillages 3D. Dans ce
contexte, nous avons contribué dans ce domaine par des méthodes de filtrage appliquées
sur les normales et aussi sur les sommets. La première méthode basée sur la normale utilise
un estimateur de la valeur Myriad pour mettre à jour les normales à chaque surface. Ce
choix a été justifié par un test d'ajustement statistique appliqué sur la distribution des angles
entre normales sur tout l'objet. La deuxième méthode consiste à ajouter un noyau au lisseur
laplacien, afin d'amortir l'effet de surlissage provoqué par l'écoulement laplacien classique.
Aussi nous avons apporté une amélioration par combinaison avec un autre filtre afin de
réduire le nombre d'itérations. Cette méthode met à jour directement la position des
sommets. Dans nos résultats, plusieurs objets synthétiques et réels ont été utilisés, plusieurs
métriques ont été employées afin de juger la pertinence de nos filtres proposés. Nous avons
atteints des résultats importants et nous avons pu réduire l'effet de surlissage ainsi que le
nombre d'itérations.