Descripteur d`images fondé sur l`arbre des composantes
Transcription
Descripteur d`images fondé sur l`arbre des composantes
Descripteur d'images fondé sur l'arbre des composantes connexes: application à la recherche et à la détection de symboles au sein de larges bases Laboratoire d'accueil LORIA, UMR 7503 - Laboratoire Lorrain de Recherche en Informatique Thématique scientique Le projet Qgar (http ://qgar.loria.fr/) du LORIA travaille depuis plusieurs années sur la reconnaissance de documents graphiques. D'une manière générale, il s'agit de transformer l'image numérisée d'un document graphique (éclaté de pièce mécanique, plan cadastral, etc.) en une représentation plus compacte, exprimée en termes de primitives graphiques (segments de droite et arcs de cercle pour les plus élémentaires) et de relations (structurelles, spatiales, etc.) entre ces primitives. Motivations Au sein de larges bases de documents techniques, qui mélangent texte et symboles graphiques, il est très important d'avoir des outils de recherche ecaces permettant de retrouver des documents ayant certaines caractéristiques, en utilisant des techniques d'indexation. Ces caractéristiques peuvent être relatives par exemple à la nature des symboles contenus dans un document donné. Une autre application peut être liée au spotting de symboles, c'est à dire à la recherche dans une base de documents d'une zone similaire à une certaine zone requête. Les techniques d'indexation sont généralement fondées sur une représentation plus compacte de l'image, permettant d'accéder de manière rapide à des données structurées. Parmi les techniques d'indexation, celles reposant sur les graphes permettent de modéliser des informations structurelles et topologiques sur les objets qui composent une image. Le but de ce stage est d'étudier une technique d'indexation de document graphique originale fondée sur l'arbre des composantes connexes. Sujet L'arbre des composantes connexes [1,2] permet de modéliser une image (binaire ou en niveaux de gris) en codant l'ensemble des composantes connexes de ses ensembles de niveaux ainsi que les relations d'inclusion entre ces composantes. A chaque n÷ud de l'arbre sont associés un ou plusieurs attributs, qui peuvent être simples (surface de la composante) ou plus complexes (descripteur de forme associé à la composante). Une fois calculé l'arbre des composantes connexes pour une image, il est possible d'eectuer très rapidement un ensemble de traitements évolués (ltrage, simplication, détection d'objets) qui se réduisent à un élagage de l'arbre suivi d'une phase de reconstruction (très rapide) de l'image. L'indexation d'images fondée sur une représentation de l'image par un tel arbre n'a encore jamais été considérée ; l'utilisation de l'arbre des composantes connexes associé à des descripteurs pertinents devrait pourtant permettre une indexation ecace des objets contenus dans une image. La problématique principale de ce stage consistera à utiliser l'arbre des composantes connexes comme descripteur d'images dans un but d'indexation. Les problèmes à résoudre sont multiples : Il sera d'abord nécessaire d'étudier et de développer des descripteurs adaptés au domaine du document graphique, permettant notamment de modéliser ecacement diérentes classes de symboles. Ces descripteurs pourront s'appuyer sur des méthodes déjà largement utilisés dans le domaine de l'indexation (comme les descripteurs de Fourier génériques), ou être entièrement nouveaux (fondés par exemple sur l'information de courbure de la composante connexe [3]). Il faudra ensuite se pencher sur la problématique de la connexion d'objets au sein des documents, an de permettre la séparation d'objets distincts appartenant à la même composante. L'inuence de ce problème sur l'arbre des composantes connexes devra être étudié. Enn, il sera nécessaire d'aborder la problématique de la représentation et du stockage de la structure de données oine, an de permettre une gestion ecace des données. Ces travaux s'appliqueront à la détection de symboles au sein de documents graphiques, ainsi qu'à l'analyse et l'indexation de documents anciens. Cadre du travail Les développements de ce stage se feront en C++. Une librairie de morphologie mathématique en C++, implémentant l'algorithme de construction de l'arbre des composantes connexes, sera également à la disposition du stagiaire. Compétences indispensables Programmation C++ Maîtrise d'UNIX/Linux Encadrement (à contacter pour plus d'informations) Naegel (LORIA) - [email protected] Wendling (LORIA) - [email protected] Passat (LSIIT) - [email protected] Benoît Laurent Nicolas Références [1] P. Salembier, A. Oliveras, L. Garrido Anti-extensive Connected Operators for Image and Sequence Processing IEEE Transactions on Image Processing, Vol.7 Num. 4, p. 555-670. 1998 [2] L. Najman, M. Couprie Building the component tree in quasi-linear time. IEEE Transactions on Image Processing, Vol.15 Num. 11, p. 3531-3539. 2006 [3] N. Alajlan, M. Kamel Geometry-Based Image Retrieval in Binary Image Databases IEEE Transactions on PAMI, Vol.30 Num. 6, p. 1003-1013. 2008 2