Géométrie post-Euclidienne pour les moteurs de recherche

Transcription

Géométrie post-Euclidienne pour les moteurs de recherche
Géométrie post-Euclidienne pour les moteurs de
recherche multimédia
Frank Nielsen
Olivier Schwander
05 mars 2010
1
Cadre
Le stage d’une durée de 2 à 3 mois se déroulera au sein de l’équipe de Géométrie de l’Information du Laboratoire d’Informatique de l’École Polytechnique, sous la direction de Frank Nielsen (http ://www.lix.polytechnique.fr/ nielsen/) et Olivier Schwander (http ://www.lix.polytechnique.fr/ schwander/).
2
Contexte
Les moteurs de recherche multimédia, et notamment le système de recherche d’images basée sur le contenu, sont l’objet d’une recherche intensive
et commencent à être accessibles sur le Web (http ://tineye.com, http ://bigimbaz.inrialpes.fr). On retrouve les défis classiques en vision : choisir des
descripteurs performants (robustes au bruit, aux changements de position,
aux variations d’illumination, etc.) et des mesures de dissimilarité adaptées
au problème. L’autre défi est d’être capable d’indexer une base de plusieurs
millions d’images de façon à rechercher efficacement les entrées similaires
(occupation mémoire, temps d’une requête, etc.).
Les méthodes modernes utilisent souvent l’approche par sac de mots :
un document est décrit comme une collection non-ordonnée de mots visuels
construits à partir des descripteurs SIFT [8, 3, 4]. D’autres méthodes utilisent
une description globale de l’image, basée sur les descripteurs GIST [2, 6].
D’autre part, la géométrie de l’information [1] est une discipline récente
qui s’intéresse à la géométrie des données pour choisir au mieux la mesure
de dissimilarité utilisée (Divergence de Bregman, de Csiszar, etc.) ou apprendre une variété riemannienne sous-jacente (réduction de dimensions nonlinéaire). Elle s’applique de façon naturelle aux problèmes d’apprentissage [5]
et donc aux moteurs de recherche [7].
1
3
Objectifs
On se propose d’étudier des problèmes de réduction de dimension nonlinéaire tenant compte de la structure Riemannienne de l’espace des données.
Cette étude se fera dans le cadre d’un système de recherche d’images basée
sur le contenu. On s’intéressera principalement aux descripteurs SIFT et
GIST qui sont parmi les plus utilisés dans ce domaine.
Références
[1] S.I. Amari and H. Nagaoka. Methods of information geometry. AMS
Bookstore, 2007.
[2] Matthijs Douze, Hervé Jégou, Harsimrat Singh, Laurent Amsaleg, and
Cordelia Schmid. Evaluation of gist descriptors for web-scale image
search. In International Conference on Image and Video Retrieval. ACM,
july 2009.
[3] Hervé Jégou, Matthijs Douze, and Cordelia Schmid. Hamming embedding and weak geometric consistency for large scale image search. In
Andrew Zisserman David Forsyth, Philip Torr, editor, European Conference on Computer Vision, volume I of LNCS, pages 304–317. Springer,
oct 2008.
[4] D.G. Lowe. Object recognition from local scale-invariant features. In
International Conference on Computer Vision, volume 2, pages 1150–
1157, 1999.
[5] R. Nock and F. Nielsen. Intrinsic Geometries in Learning. Lecture Notes
In Computer Science, pages 175–215, 2009.
[6] A. Oliva and A. Torralba. Modeling the shape of the scene : A holistic
representation of the spatial envelope. International Journal of Computer
Vision, 42(3) :145–175, 2001.
[7] O. Schwander and F. Nielsen. Reranking with contextual dissimilarity
measures from representational bregman k-means,. In VISAPP, 2010.
[8] J. Sivic and A. Zisserman. Video Google : A text retrieval approach to
object matching in videos. In Proc. ICCV, volume 2, pages 1470–1477.
Citeseer, 2003.
2