Géométrie post-Euclidienne pour les moteurs de recherche
Transcription
Géométrie post-Euclidienne pour les moteurs de recherche
Géométrie post-Euclidienne pour les moteurs de recherche multimédia Frank Nielsen Olivier Schwander 05 mars 2010 1 Cadre Le stage d’une durée de 2 à 3 mois se déroulera au sein de l’équipe de Géométrie de l’Information du Laboratoire d’Informatique de l’École Polytechnique, sous la direction de Frank Nielsen (http ://www.lix.polytechnique.fr/ nielsen/) et Olivier Schwander (http ://www.lix.polytechnique.fr/ schwander/). 2 Contexte Les moteurs de recherche multimédia, et notamment le système de recherche d’images basée sur le contenu, sont l’objet d’une recherche intensive et commencent à être accessibles sur le Web (http ://tineye.com, http ://bigimbaz.inrialpes.fr). On retrouve les défis classiques en vision : choisir des descripteurs performants (robustes au bruit, aux changements de position, aux variations d’illumination, etc.) et des mesures de dissimilarité adaptées au problème. L’autre défi est d’être capable d’indexer une base de plusieurs millions d’images de façon à rechercher efficacement les entrées similaires (occupation mémoire, temps d’une requête, etc.). Les méthodes modernes utilisent souvent l’approche par sac de mots : un document est décrit comme une collection non-ordonnée de mots visuels construits à partir des descripteurs SIFT [8, 3, 4]. D’autres méthodes utilisent une description globale de l’image, basée sur les descripteurs GIST [2, 6]. D’autre part, la géométrie de l’information [1] est une discipline récente qui s’intéresse à la géométrie des données pour choisir au mieux la mesure de dissimilarité utilisée (Divergence de Bregman, de Csiszar, etc.) ou apprendre une variété riemannienne sous-jacente (réduction de dimensions nonlinéaire). Elle s’applique de façon naturelle aux problèmes d’apprentissage [5] et donc aux moteurs de recherche [7]. 1 3 Objectifs On se propose d’étudier des problèmes de réduction de dimension nonlinéaire tenant compte de la structure Riemannienne de l’espace des données. Cette étude se fera dans le cadre d’un système de recherche d’images basée sur le contenu. On s’intéressera principalement aux descripteurs SIFT et GIST qui sont parmi les plus utilisés dans ce domaine. Références [1] S.I. Amari and H. Nagaoka. Methods of information geometry. AMS Bookstore, 2007. [2] Matthijs Douze, Hervé Jégou, Harsimrat Singh, Laurent Amsaleg, and Cordelia Schmid. Evaluation of gist descriptors for web-scale image search. In International Conference on Image and Video Retrieval. ACM, july 2009. [3] Hervé Jégou, Matthijs Douze, and Cordelia Schmid. Hamming embedding and weak geometric consistency for large scale image search. In Andrew Zisserman David Forsyth, Philip Torr, editor, European Conference on Computer Vision, volume I of LNCS, pages 304–317. Springer, oct 2008. [4] D.G. Lowe. Object recognition from local scale-invariant features. In International Conference on Computer Vision, volume 2, pages 1150– 1157, 1999. [5] R. Nock and F. Nielsen. Intrinsic Geometries in Learning. Lecture Notes In Computer Science, pages 175–215, 2009. [6] A. Oliva and A. Torralba. Modeling the shape of the scene : A holistic representation of the spatial envelope. International Journal of Computer Vision, 42(3) :145–175, 2001. [7] O. Schwander and F. Nielsen. Reranking with contextual dissimilarity measures from representational bregman k-means,. In VISAPP, 2010. [8] J. Sivic and A. Zisserman. Video Google : A text retrieval approach to object matching in videos. In Proc. ICCV, volume 2, pages 1470–1477. Citeseer, 2003. 2