Descripteur d`images fondé sur l`arbre des composantes

Transcription

Descripteur d`images fondé sur l`arbre des composantes
Descripteur d'images fondé sur l'arbre des composantes
connexes: application à la recherche et à la détection de
symboles au sein de larges bases
Laboratoire d'accueil
LORIA, UMR 7503 - Laboratoire Lorrain de Recherche en Informatique
Thématique scientique
Le projet Qgar (http ://qgar.loria.fr/) du LORIA travaille depuis plusieurs années sur la reconnaissance
de documents graphiques. D'une manière générale, il s'agit de transformer l'image numérisée d'un document
graphique (éclaté de pièce mécanique, plan cadastral, etc.) en une représentation plus compacte, exprimée en
termes de primitives graphiques (segments de droite et arcs de cercle pour les plus élémentaires) et de relations
(structurelles, spatiales, etc.) entre ces primitives.
Motivations
Au sein de larges bases de documents techniques, qui mélangent texte et symboles graphiques, il est très
important d'avoir des outils de recherche ecaces permettant de retrouver des documents ayant certaines
caractéristiques, en utilisant des techniques d'indexation. Ces caractéristiques peuvent être relatives par exemple
à la nature des symboles contenus dans un document donné. Une autre application peut être liée au spotting
de symboles, c'est à dire à la recherche dans une base de documents d'une zone similaire à une certaine zone
requête.
Les techniques d'indexation sont généralement fondées sur une représentation plus compacte de l'image,
permettant d'accéder de manière rapide à des données structurées. Parmi les techniques d'indexation, celles
reposant sur les graphes permettent de modéliser des informations structurelles et topologiques sur les objets
qui composent une image.
Le but de ce stage est d'étudier une technique d'indexation de document graphique originale fondée sur
l'arbre des composantes connexes.
Sujet
L'arbre des composantes connexes [1,2] permet de modéliser une image (binaire ou en niveaux de gris) en
codant l'ensemble des composantes connexes de ses ensembles de niveaux ainsi que les relations d'inclusion entre
ces composantes. A chaque n÷ud de l'arbre sont associés un ou plusieurs attributs, qui peuvent être simples
(surface de la composante) ou plus complexes (descripteur de forme associé à la composante). Une fois calculé
l'arbre des composantes connexes pour une image, il est possible d'eectuer très rapidement un ensemble de
traitements évolués (ltrage, simplication, détection d'objets) qui se réduisent à un élagage de l'arbre suivi
d'une phase de reconstruction (très rapide) de l'image. L'indexation d'images fondée sur une représentation
de l'image par un tel arbre n'a encore jamais été considérée ; l'utilisation de l'arbre des composantes connexes
associé à des descripteurs pertinents devrait pourtant permettre une indexation ecace des objets contenus
dans une image.
La problématique principale de ce stage consistera à utiliser l'arbre des composantes connexes comme descripteur d'images dans un but d'indexation. Les problèmes à résoudre sont multiples :
Il sera d'abord nécessaire d'étudier et de développer des descripteurs adaptés au domaine du document graphique, permettant notamment de modéliser ecacement diérentes classes de symboles. Ces descripteurs
pourront s'appuyer sur des méthodes déjà largement utilisés dans le domaine de l'indexation (comme les
descripteurs de Fourier génériques), ou être entièrement nouveaux (fondés par exemple sur l'information
de courbure de la composante connexe [3]).
Il faudra ensuite se pencher sur la problématique de la connexion d'objets au sein des documents, an de
permettre la séparation d'objets distincts appartenant à la même composante. L'inuence de ce problème
sur l'arbre des composantes connexes devra être étudié.
Enn, il sera nécessaire d'aborder la problématique de la représentation et du stockage de la structure de
données oine, an de permettre une gestion ecace des données.
Ces travaux s'appliqueront à la détection de symboles au sein de documents graphiques, ainsi qu'à l'analyse
et l'indexation de documents anciens.
Cadre du travail
Les développements de ce stage se feront en C++. Une librairie de morphologie mathématique en C++,
implémentant l'algorithme de construction de l'arbre des composantes connexes, sera également à la disposition
du stagiaire.
Compétences indispensables
Programmation C++
Maîtrise d'UNIX/Linux
Encadrement (à contacter pour plus d'informations)
Naegel (LORIA) - [email protected]
Wendling (LORIA) - [email protected]
Passat (LSIIT) - [email protected]
Benoît
Laurent
Nicolas
Références
[1] P. Salembier, A. Oliveras, L. Garrido Anti-extensive Connected Operators for Image and Sequence Processing
IEEE Transactions on Image Processing, Vol.7 Num. 4, p. 555-670. 1998
[2] L. Najman, M. Couprie Building the component tree in quasi-linear time. IEEE Transactions on Image
Processing, Vol.15 Num. 11, p. 3531-3539. 2006
[3] N. Alajlan, M. Kamel Geometry-Based Image Retrieval in Binary Image Databases IEEE Transactions on
PAMI, Vol.30 Num. 6, p. 1003-1013. 2008
2