Annotation automatique d`images à l`aide d`un modèle probabiliste à
Transcription
Annotation automatique d`images à l`aide d`un modèle probabiliste à
Annotation automatique d’images à l’aide d’un modèle probabiliste à variables latentes et à structure dynamique El Mehdi ROCHD Laboratoire des Sciences de l’Information et des Systèmes (LSIS UMR 7296) Domaine universitaire de Saint Jérôme Avenue Escadrille Normandie Niemen 13397 MARSEILLE Cedex 20 [email protected] RÉSUMÉ. On considère le problème de la modélisation de données avec plusieurs entités et son application à l’annotation automatique d’images (régions d’images décrites par des mots). Pour réaliser cette tâche, on définit un nouveau modèle probabiliste à base de contexte, qui utilise les fondements théoriques de Correspondance LDA, mais dont la structure est dynamique et évolue en fonction des données à traiter. On a testé ce modèle sur une collection d’images fournies par la section "Picture of the day" de wikipedia pour évaluer ses performances quant à l’annotation automatique d’images. ABSTRACT. We consider the problem of modeling data with multiple entities and its application to the automatic image annotation (image regions described by words). To accomplish this task, we define a new probabilistic topic model, using the theoretical foundations of Correspondence LDA, but whose structure is dynamic and changes depending on the data to be processed. We tested this model on a collection of images provided by the "Picture of the day" of wikipedia to evaluate its performance on automatic image annotation modèles probabilistes, recherche d’information, annotation automatique d’images, modèles graphiques MOTS-CLÉS : KEYWORDS: topic models, information retrieval, automatic image annotation, graphical models 10 èmes Journées des doctorants du LSIS. Juin 2013, pages 1 à 10 2 10 èmes Journées des doctorants du LSIS. Juin 2013 1. Introduction Le problème de la recherche d’information devient de plus en plus abordé dans la communauté de datamining. De plus, les volumes sans précédent de donnnées disponibles en ligne impliquent une forte demande de techniques efficaces pour effectuer des recherches dans de grandes collections. Les méthodes traditionnelles de recherche d’images sont basées sur l’utilisation de légendes descriptives pour récupérer des images. Le point faible de ces méthodes est que ces légendes sont souvent obtenues manuellement. Cependant, le processus devient insoluble dans le cas de larges corpus. Un certain nombre d’études récentes ont proposé des modèles probabilistes traitant des données de multiples modalités : texte/image (Blei et al., 2003a),(Li et al., 2007), (Putthividhya et al., 2010), image/audio et texte/audio (Xiao et al., 2010). Les modèles probabilistes contextuels (Steyvers et al., 2007) sont un moyen de faire face aux gros volumes de données en découvrant leur structure thématique cachée. La valeur ajoutée de ces modèles est qu’ils peuvent traiter les données textuelles qui n’ont pas été classées manuellement par l’être humain. Le concept de topic consiste à découvrir des groupes de données traitant des sujets similaires. Ces groupes sont obtenus en calculant les occurrences des nouveaux mots utilisés fréquemment ensemble dans différents textes indépendants. Formellement, les modèles probabilistes à base de topic utilisent leurs variables cachées pour découvrir la structure sémantique latente dans les gros volumes de données textuelles. Parmi les modèles les plus utilisés, on cite LDA (Latent Dirichlet Allocation) (Blei et al., 2003b) et ses dérivés : CTM (Correlated Topic Model) (Blei et al., 2007a), SLDA (Supervised LDA) (Blei et al., 2007b), DTM (Dynamic Topic Model) (Blei et al., 2006) (Wang et al., 2008) (Ramage et al., 2009) . Une limite de ces modèle est qu’ils ne traitent que les données avec une seule entité. D’où l’intérêt du modèle Correspondance LDA (Corr-LDA) (Blei et al., 2003a) qui permet d’analyser des données ayant 2 entités. Dans ce papier, on propose un modèle probabiliste qui s’appuie sur Corr-LDA, mais qui définit dynamiquement la structure du modèle en fonction des données, contrairement aux autres modèles dont la structure est statique. On applique ce modèle au cas de l’annotation automatique d’images : étant donnée une image sans description, la tâche consiste à prévoir ses légendes manquantes. La comparaison de notre modèle avec Corr-LDA a donné des résultats satisfaisants quant à la réalisation de cette tâche. La suite de cet article est organisée comme suit : La section 2 présente quelques travaux connexes dans la modélisation contetuelle appliqués à la recherche d’images. La section 3 présente le modèle et l’approche qu’on propose. Les résultats expérimentaux et l’évaluation du modèle sont discutés dans la section 4. Enfin, la section 5 conclut cet article. CNLDA 3 2. Travaux connexes Le modèle présenté dans cet article consiste à modéliser contextuellement et dynamiquement des informations provenant de sources de multiples entités, dont l’objectif est d’annoter automatiquement des images sans intervention humaine. Dans la communauté du traitement de texte, les modèles probabilistes contextuels, comme LDA (Blei et al., 2003b) ont été efficaces dans la découverte de thèmes sous-jacents dans les documents sous forme textuelle. Pour cela, ils analysent les groupes de mots sémantiquement cohérents qui génèrent les données d’entraînement. En effet, ces modèles s’appuient sur la représentation des textes sous forme de sacs de mots. Ces modèles ont été étendus pour prédire mots à partir d’images (Barnard et al., 2003), (Rasiwasia et al., 2010), (Socher et al., 2010). Cela a permis de traiter avec succès des problèmes liés à la classification de scène et la recherche d’images. Un travail récent basé sur LDA a été mis en place pour la segmentation d’images (Zhao et al., 2010). Bien que LDA ait prouvé son efficacité dans le cas d’entité unique, il ne peut s’appliquer au cas multi-modal. En effet, LDA ne modélise pas les relations entre les contextes provenant de différentes modalités. Des travaux récents se sont intéressés à la problématique de l’analyse de données ayant plusieurs entités (Jia et al., 2011) (Nguyen et al., 2010) (Putthividhya et al., 2011). A ces fins, LDA a été étendu à correspondance LDA (Corr-LDA) pour modéliser le processus de génération de régions d’images et des mots dans le même espace latent (Blei et al., 2003a). SLDA (Blei et al., 2007b) est une autre extension de LDA, elle a été développée pour prédire une réponse, en utilisant une régression linéaire. L’utilisation de Corr-LDA et SLDA répond à deux besoins différents. Corr-LDA trouve les contextes permettant de prédire les annotations. SLDA trouve les contextes permettant de prédire une réponse globale. Cependant, les deux approches utilisent des hypothèses statistiques similaires. Enfin, un modèle supervisé a été proposé comme extension de Corr-LDA, pour répondre aux besoins de classification (Wang et al., 2009). Tous les modèles présentés dans cette section ont une structure statique. Le modèle qu’on propose se base sur le modèle Corr-LDA, mais dont la structure est dynamique et dépend des données à analyser. 3. Modèle proposé : Correlated Neighbors LDA (CNLDA) 3.1. Correspondance LDA (Corr-LDA) revisité Le modèle Corr-LDA (figure 1) a été introduit pour résoudre le problème de la modélisation des données annotées. Il permet d’évaluer les relations conditionnelles entre les variables latentes représentant l’ensemble des régions d’une image 4 10 èmes Journées des doctorants du LSIS. Juin 2013 et l’ensemble des mots la décrivant (légende descriptive). Le processus de génération de Corr-LDA consiste d’abord à générer pour chaque image, M régions rm à partir d’un modèle LDA. Ensuite, pour chacun des mots N, une des régions de l’image est sélectionnée. Finalement, un mot wn est choisi, conditionné par le facteur qui a généré la région sélectionnée. Figure 1. Modèle Graphique de Corr-LDA 3.2. Descritpion du modèle CNLDA Soient z = {z1 , z2 , ..., zM } les facteurs latents qui génèrent l’image, et y = {y1 , y2 , ..., yn } des variables d’indexation discrètes qui prennent des valeurs de 1 à N de probabilité égale. Le processus de génération d’une paire image/annotation (r, w) pour le modèle CNLDA (figure 2) est le suivant : 1) Identifier le voisinge des annotations. 2) Choisir θ ∼ Dir(θ|α) 3) Pour chaque région rm , m ∈ {1, ..., M } - Choisir zm ∼ Mult(θ) - Choisir rm ∼ p(r|zm , π) à partir d’une distribution multinomiale conditionnée par zm 4) Pour chaque annotation wn , n ∈ {1, ..., N } - Choisir yn , n ∼ Unif(1, ..., N ) - Choisir wn ∼ p(w|yn , yv , z, β) Dans la suite du papier, on considère que : v ∈ Indice(Neighbor(annotation)). CNLDA définit la distribution jointe sur les régions d’images, mots (légendes desciptives) et les variables latentes ainsi : CNLDA 5 Figure 2. Modèle graphique de CNLDA p(zm |θ)p(rm |zm , π) � p(yn |M )p(yv |M )p(wn |yn , yv , z, β) � p(r, w, θ, z, y|α, π, β) = p(θ|α) � N � � n=1 v � M � m=1 [1] où α, π, β sont les paramètres à estimer. 3.3. Inférence variationnelle et estimation des paramètres L’inférence exacte n’est pas envisageable pour CNLDA, par conséquent, on se retourne vers les méthodes variationnelles (Blei et al., 2003b) pour approcher la distribution a posteriori des variables latentes étant donnée une image/légende. Pour cela, on introduit une distribution variationnelle q sur les variables latentes θ, z, y dont les paramètres variationnels sont γ, φ, λ et δ. L’objectif est de déterminer les paramètres variationnels qui permettent à la distribution variationnelle q d’être proche de la distribution réelle p. Ensuite, en utilisant la définition de la loi marginale et de l’inégalité de Jensen (Blei et al., 2003b), on obtient la borne inférieure liée à la log-vraisemblance en factorisant p et q : 6 10 èmes Journées des doctorants du LSIS. Juin 2013 L(γ, φ, λ; α, π, β) = Eq [log p(θ|α)] + M � m=1 +Eq [log p(y|M )] + (Eq [log p(zm |θ)] + Eq [log p(rm |zm , π)]) N � � n=1 v Eq [log p(wn |yn , yv , z, β)] − H(q) [2] Ainsi, en développant chaque terme de l’équation (2) et en la maximisant par rapport à chaque paramètre variationnel, on trouve les règles de mise à jour suivantes : γ i = αi + M � [3] φmi m=1 φmi ∝ πirm exp ψ(γi ) − ψ( λnm ∝ exp( K � � i=1 K � γj ) + j=1 N � � n=1 v λnm δvm log βiwn φmi δvm log βiwn ) [4] [5] v Ensuite, on maximise la borne inférieure par rapport aux paramètres du modèle α, π, β. Etant donné un jeu d’apprentissage D = {(rd , wd )}D d=1 , l’objectif est d’estimer le maximum de vraisemblance pour α, π, β. Les valeurs de π et β qui maximisent cette borne inférieure sont : πij ∝ Md D � � βij ∝ Nd D � � j φdmi rdm [6] d=1 m=1 d=1 n=1 j wdn Md � � φdmi λdnm δdvm [7] m=1 v Enfin, on utilise l’algorithme de Newton-Raphson (Blei et al., 2003b) pour estimer le paramètre α. CNLDA 7 4. Résultats expérimentaux 4.1. Données utilisées On a testé ce modèle sur une collection d’images fournies par la section "Picture of the day" de wikipedia. Chaque image est décrite par un paragraphe d’environ 100 mots. Pour cette expérience, on a utilisé des images collectées du 1 Novembre 2004 au 2 Février 2011. On a retiré les images qui n’ont pas de description et on a gardé un vocabulaire dont les mots correspondent aux objets présents dans les images. On a alors obtenu un corpus de 530 images et un vocabulaire de 90 annotations. Aussi, un traitement a été effectué pour redimensionner les images afin que chacune se compose de 400 régions. 4.2. Annotation automatique d’images Etant donnée une image non annotée, on utilise les modèles CNLDA et Corr-LDA pour calculer une distribution sur les mots conditionnée par l’image en question : p(w|r). Cette distribution prédit les annotations pour cette image. Pour illustrer les annotations obtenues, on donne 3 exemples d’annotations automatiques à l’aide des 2 modèles (figure 3). Vérité Terrain water iron CorrLDA water iron city town CNLDA water iron sky world Vérité Terrain air flight aircraft CorrLDA air water flight tower CNLDA air flight aircraft town Vérité Terrain river tower CorrLDA world river city town CNLDA river tower world town Figure 3. Exemples d’images tirées des données de test et leurs annotations automatiques obtenues à l’aide de CorrLDA et CNLDA. 4.3. Mesures d’évaluation On introduit deux mesures largement utilisées dans le cas de la classification multilabels (Zhang et al., 2010) : Hamming Loss et Accuracy Score. 8 10 èmes Journées des doctorants du LSIS. Juin 2013 Hamming Loss prend en compte les erreurs de prédiction (une étiquette incorrecte est prédite) et des erreurs manquantes (une étiquette n’est pas prédite). Cette mesure est définie ainsi : p 1 � |h(xi )ΔYi | Hamming_Loss(h) = p i=1 |Y | [8] où Δ désigne la différence symétrique entre deux ensembles, xi un vecteur de caractéristiques et Y l’ensemble des étiquettes qui lui sont associées. h(xi ) renvoie une valeur réelle indiquant si y est une bonne étiquette de xi . Le tableau 1 donne les résultats obtenus (plus la valeur de la mesure est proche de 0, meilleure est la qualité de prédiction). Tableau 1. Hamming Loss (%). Nombre de Contextes CorrLDA CNLDA 10 41,39 35,97 20 40,14 36,67 30 39,72 35,56 40 40,97 37,50 50 41,67 34,03 60 38,47 29,44 La fonction Accuracy Score évalue la proximité entre l’étiquette prédite et l’étiquette réelle. Elle est définie ainsi : Accuracy_Score(y, y�) = 1 nsamples −1 nsamples i=0 � [9] 1(yi = y�i ) où y est l’étiquette prédite et y� est l’étiquette réelle. Le tableau 2 présente les résultats obtenus. Tableau 2. Accuracy Score (%). Nombre de Contextes CorrLDA CNLDA 10 58,61 64,03 20 59,86 63,33 30 60,28 64,44 40 59,03 62,50 50 58,33 65,97 60 61,53 70,56 5. Conclusion Dans ce papier, on a proposé un nouveau modèle probabiliste qui permet d’annoter automatiquement les images et qui est l’extension du modèle Corr-LDA (Blei CNLDA 9 et al., 2003a). La principale contribution de ce papier est la définition dynamique de la structure du modèle, cela permet d’adapter le modèle au type de données à traiter. Les résultats expérimentaux de l’annotation automatique d’images ont montré que la qualité de prédiction d’annotations de CNLDA est meilleure que celle de Corr-LDA. 6. Bibliographie Barnard K., Duygulu P., Freitas N., Forsyth D., Blei D., Jordan M., « Matching words and pictures », Journal of Machine Learning Research, vol. 3 :1107-1135, 2003, p. 1107-1135, November, 2003. Blei D., Jordan M., « Modeling annotated data », ACM SIGIR conference on Research and development in informaion retrieval, 2003, p. 127-134, March, 2003a. Blei D., Lafferty J., « Dynamic topic models. », Proceedings of the 23rd International Conference on Machine Learning, 2006. Blei D. M., Lafferty. J. D., « A correlated topic model of Science. », Annals of Applied Statistics, p. 17-35, 2007a. Blei D., McAuliffe J., « Supervised topic models. », Neural Information Processing Systems NIPS, 2007b. Blei D., Ng A., Jordan M., « Latent Dirichlet Allocation », Journal of Machine Learning Research, vol. 3 :993-1022, 2003, n˚ 5, p. 1107-1135, 2003b. Jia Y., Salzmann M., Darrell T., « Learning Cross-modality Similarity for Multinomial Data », ICCV, 2011. Li L.-J., Fei-Fei L., « What, where and who ? Classifying events by scene and object recognition. », The International Conference on Computer Vision (ICCV), 2007. Nguyen C.-T., Kaothanthong N., Phan X.-H., Tokuyama T., « A feature-word-topic model for image annotation », The International Conference on Information and Knowledge Management CIKM, 2010. Putthividhya D., Attias H. T., Nagarajan S. S., « Supervised topic model for automatic image annotation », The International Conference on Acoustics, Speech, and Signal Processing ICASSP, 2010. Putthividhya D., Attias H. T., Nagarajan S. S., « Topic regression multi-modal Latent Dirichlet Allocation for image annotation », CVPR, 2011. Ramage D., Hall D., Nallapati R., Manning C. D., « Labeled LDA : a supervised topic model for credit attribution in multi-labeled corpora. », Proceedings of the Conference on Empirical Methods in Natural Language Processing, 2009. Rasiwasia N., Pereira J. C., Coviello E., Doyle G., Lanckriet G., Levy R., Vasconcelos N., « A new approach to cross-modal multimedia retrieval. », The International Conference on Multimedia (ACM MM), 2010. Socher R., Fei-Fei L., « Connecting Modalities : Semi-supervised Segmentation and Annotation of Images Using Unaligned Text. », The Computer Vision and Pattern Recognition (CVPR), 2010. Steyvers M., Griffiths T., « Probabilistic topic models. », In T. Landauer, D. S. McNamara, S. Dennis, W. Kintsch (Eds.), Handbook of Latent Semantic Analysis. Hillsdale, NJ : Erlbaum, 2007. 10 10 èmes Journées des doctorants du LSIS. Juin 2013 Wang C., Blei D., Heckerman D., « Continuous time dynamic topic models. », Uncertainty in Artificial Intelligence, 2008. Wang C., Blei D., Li F., « Simultaneous image classification », CVPR, 2009. Xiao H., Stibor T., « Toward Artificial Synesthesia : Linking Images and Sounds via Words. », NIPS Workshop on Machine Learning for next generation Computer Vision challenges, 2010. Zhang M.-L., Zhang K., « Multi-Label Learning by Exploiting Label Dependency. », Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining, 2010. Zhao B., Fei-Fei L., Xing E., « Image segmentation with topic random field. », The European conference on Computer vision (ECCV), 2010.