Annotation automatique d`images à l`aide d`un modèle probabiliste à

Transcription

Annotation automatique d`images à l`aide d`un modèle probabiliste à
Annotation automatique d’images à l’aide
d’un modèle probabiliste à variables
latentes et à structure dynamique
El Mehdi ROCHD
Laboratoire des Sciences de l’Information et des Systèmes (LSIS UMR 7296)
Domaine universitaire de Saint Jérôme
Avenue Escadrille Normandie Niemen
13397 MARSEILLE Cedex 20
[email protected]
RÉSUMÉ. On considère le problème de la modélisation de données avec plusieurs entités et son
application à l’annotation automatique d’images (régions d’images décrites par des mots).
Pour réaliser cette tâche, on définit un nouveau modèle probabiliste à base de contexte, qui
utilise les fondements théoriques de Correspondance LDA, mais dont la structure est dynamique
et évolue en fonction des données à traiter. On a testé ce modèle sur une collection d’images
fournies par la section "Picture of the day" de wikipedia pour évaluer ses performances quant
à l’annotation automatique d’images.
ABSTRACT. We consider the problem of modeling data with multiple entities and its application to
the automatic image annotation (image regions described by words). To accomplish this task,
we define a new probabilistic topic model, using the theoretical foundations of Correspondence
LDA, but whose structure is dynamic and changes depending on the data to be processed. We
tested this model on a collection of images provided by the "Picture of the day" of wikipedia to
evaluate its performance on automatic image annotation
modèles probabilistes, recherche d’information, annotation automatique d’images,
modèles graphiques
MOTS-CLÉS :
KEYWORDS:
topic models, information retrieval, automatic image annotation, graphical models
10 èmes Journées des doctorants du LSIS. Juin 2013, pages 1 à 10
2
10 èmes Journées des doctorants du LSIS. Juin 2013
1. Introduction
Le problème de la recherche d’information devient de plus en plus abordé dans
la communauté de datamining. De plus, les volumes sans précédent de donnnées
disponibles en ligne impliquent une forte demande de techniques efficaces pour effectuer des recherches dans de grandes collections. Les méthodes traditionnelles
de recherche d’images sont basées sur l’utilisation de légendes descriptives pour
récupérer des images. Le point faible de ces méthodes est que ces légendes sont
souvent obtenues manuellement. Cependant, le processus devient insoluble dans le
cas de larges corpus. Un certain nombre d’études récentes ont proposé des modèles
probabilistes traitant des données de multiples modalités : texte/image (Blei et al.,
2003a),(Li et al., 2007), (Putthividhya et al., 2010), image/audio et texte/audio (Xiao
et al., 2010).
Les modèles probabilistes contextuels (Steyvers et al., 2007) sont un moyen de
faire face aux gros volumes de données en découvrant leur structure thématique
cachée. La valeur ajoutée de ces modèles est qu’ils peuvent traiter les données
textuelles qui n’ont pas été classées manuellement par l’être humain. Le concept de
topic consiste à découvrir des groupes de données traitant des sujets similaires. Ces
groupes sont obtenus en calculant les occurrences des nouveaux mots utilisés fréquemment ensemble dans différents textes indépendants. Formellement, les modèles probabilistes à base de topic utilisent leurs variables cachées pour découvrir la structure
sémantique latente dans les gros volumes de données textuelles.
Parmi les modèles les plus utilisés, on cite LDA (Latent Dirichlet Allocation) (Blei
et al., 2003b) et ses dérivés : CTM (Correlated Topic Model) (Blei et al., 2007a),
SLDA (Supervised LDA) (Blei et al., 2007b), DTM (Dynamic Topic Model) (Blei et
al., 2006) (Wang et al., 2008) (Ramage et al., 2009) . Une limite de ces modèle est
qu’ils ne traitent que les données avec une seule entité. D’où l’intérêt du modèle Correspondance LDA (Corr-LDA) (Blei et al., 2003a) qui permet d’analyser des données
ayant 2 entités.
Dans ce papier, on propose un modèle probabiliste qui s’appuie sur Corr-LDA,
mais qui définit dynamiquement la structure du modèle en fonction des données, contrairement aux autres modèles dont la structure est statique. On applique ce modèle au
cas de l’annotation automatique d’images : étant donnée une image sans description,
la tâche consiste à prévoir ses légendes manquantes. La comparaison de notre modèle
avec Corr-LDA a donné des résultats satisfaisants quant à la réalisation de cette tâche.
La suite de cet article est organisée comme suit : La section 2 présente quelques
travaux connexes dans la modélisation contetuelle appliqués à la recherche d’images.
La section 3 présente le modèle et l’approche qu’on propose. Les résultats expérimentaux et l’évaluation du modèle sont discutés dans la section 4. Enfin, la section 5
conclut cet article.
CNLDA
3
2. Travaux connexes
Le modèle présenté dans cet article consiste à modéliser contextuellement et dynamiquement des informations provenant de sources de multiples entités, dont l’objectif est d’annoter automatiquement des images sans intervention humaine. Dans la communauté du traitement de texte, les modèles probabilistes contextuels, comme LDA
(Blei et al., 2003b) ont été efficaces dans la découverte de thèmes sous-jacents dans les
documents sous forme textuelle. Pour cela, ils analysent les groupes de mots sémantiquement cohérents qui génèrent les données d’entraînement. En effet, ces modèles
s’appuient sur la représentation des textes sous forme de sacs de mots.
Ces modèles ont été étendus pour prédire mots à partir d’images (Barnard et al.,
2003), (Rasiwasia et al., 2010), (Socher et al., 2010). Cela a permis de traiter avec
succès des problèmes liés à la classification de scène et la recherche d’images. Un
travail récent basé sur LDA a été mis en place pour la segmentation d’images (Zhao
et al., 2010).
Bien que LDA ait prouvé son efficacité dans le cas d’entité unique, il ne peut
s’appliquer au cas multi-modal. En effet, LDA ne modélise pas les relations entre les
contextes provenant de différentes modalités.
Des travaux récents se sont intéressés à la problématique de l’analyse de données
ayant plusieurs entités (Jia et al., 2011) (Nguyen et al., 2010) (Putthividhya et al.,
2011). A ces fins, LDA a été étendu à correspondance LDA (Corr-LDA) pour modéliser le processus de génération de régions d’images et des mots dans le même espace
latent (Blei et al., 2003a). SLDA (Blei et al., 2007b) est une autre extension de LDA,
elle a été développée pour prédire une réponse, en utilisant une régression linéaire.
L’utilisation de Corr-LDA et SLDA répond à deux besoins différents. Corr-LDA
trouve les contextes permettant de prédire les annotations. SLDA trouve les contextes
permettant de prédire une réponse globale. Cependant, les deux approches utilisent
des hypothèses statistiques similaires.
Enfin, un modèle supervisé a été proposé comme extension de Corr-LDA, pour
répondre aux besoins de classification (Wang et al., 2009).
Tous les modèles présentés dans cette section ont une structure statique. Le modèle
qu’on propose se base sur le modèle Corr-LDA, mais dont la structure est dynamique
et dépend des données à analyser.
3. Modèle proposé : Correlated Neighbors LDA (CNLDA)
3.1. Correspondance LDA (Corr-LDA) revisité
Le modèle Corr-LDA (figure 1) a été introduit pour résoudre le problème de
la modélisation des données annotées. Il permet d’évaluer les relations conditionnelles entre les variables latentes représentant l’ensemble des régions d’une image
4
10 èmes Journées des doctorants du LSIS. Juin 2013
et l’ensemble des mots la décrivant (légende descriptive). Le processus de génération
de Corr-LDA consiste d’abord à générer pour chaque image, M régions rm à partir
d’un modèle LDA. Ensuite, pour chacun des mots N, une des régions de l’image est
sélectionnée. Finalement, un mot wn est choisi, conditionné par le facteur qui a généré
la région sélectionnée.
Figure 1. Modèle Graphique de Corr-LDA
3.2. Descritpion du modèle CNLDA
Soient z = {z1 , z2 , ..., zM } les facteurs latents qui génèrent l’image, et y =
{y1 , y2 , ..., yn } des variables d’indexation discrètes qui prennent des valeurs de 1 à N
de probabilité égale. Le processus de génération d’une paire image/annotation (r, w)
pour le modèle CNLDA (figure 2) est le suivant :
1) Identifier le voisinge des annotations.
2) Choisir θ ∼ Dir(θ|α)
3) Pour chaque région rm , m ∈ {1, ..., M }
- Choisir zm ∼ Mult(θ)
- Choisir rm ∼ p(r|zm , π) à partir d’une distribution multinomiale conditionnée par zm
4) Pour chaque annotation wn , n ∈ {1, ..., N }
- Choisir yn , n ∼ Unif(1, ..., N )
- Choisir wn ∼ p(w|yn , yv , z, β)
Dans la suite du papier, on considère que : v ∈ Indice(Neighbor(annotation)).
CNLDA définit la distribution jointe sur les régions d’images, mots (légendes desciptives) et les variables latentes ainsi :
CNLDA
5
Figure 2. Modèle graphique de CNLDA
p(zm |θ)p(rm |zm , π)
�
p(yn |M )p(yv |M )p(wn |yn , yv , z, β)
�
p(r, w, θ, z, y|α, π, β) = p(θ|α)
�
N �
�
n=1 v
�
M
�
m=1
[1]
où α, π, β sont les paramètres à estimer.
3.3. Inférence variationnelle et estimation des paramètres
L’inférence exacte n’est pas envisageable pour CNLDA, par conséquent, on se
retourne vers les méthodes variationnelles (Blei et al., 2003b) pour approcher la distribution a posteriori des variables latentes étant donnée une image/légende. Pour cela,
on introduit une distribution variationnelle q sur les variables latentes θ, z, y dont les
paramètres variationnels sont γ, φ, λ et δ.
L’objectif est de déterminer les paramètres variationnels qui permettent à la distribution variationnelle q d’être proche de la distribution réelle p.
Ensuite, en utilisant la définition de la loi marginale et de l’inégalité de Jensen (Blei
et al., 2003b), on obtient la borne inférieure liée à la log-vraisemblance en factorisant
p et q :
6
10 èmes Journées des doctorants du LSIS. Juin 2013
L(γ, φ, λ; α, π, β) = Eq [log p(θ|α)] +
M
�
m=1
+Eq [log p(y|M )] +
(Eq [log p(zm |θ)] + Eq [log p(rm |zm , π)])
N �
�
n=1 v
Eq [log p(wn |yn , yv , z, β)] − H(q)
[2]
Ainsi, en développant chaque terme de l’équation (2) et en la maximisant par rapport à chaque paramètre variationnel, on trouve les règles de mise à jour suivantes :
γ i = αi +
M
�
[3]
φmi
m=1

φmi ∝ πirm exp ψ(γi ) − ψ(
λnm ∝ exp(
K �
�
i=1
K
�
γj ) +
j=1
N �
�
n=1 v

λnm δvm log βiwn 
φmi δvm log βiwn )
[4]
[5]
v
Ensuite, on maximise la borne inférieure par rapport aux paramètres du modèle
α, π, β. Etant donné un jeu d’apprentissage D = {(rd , wd )}D
d=1 , l’objectif est d’estimer le maximum de vraisemblance pour α, π, β.
Les valeurs de π et β qui maximisent cette borne inférieure sont :
πij ∝
Md
D �
�
βij ∝
Nd
D �
�
j
φdmi rdm
[6]
d=1 m=1
d=1 n=1
j
wdn
Md �
�
φdmi λdnm δdvm
[7]
m=1 v
Enfin, on utilise l’algorithme de Newton-Raphson (Blei et al., 2003b) pour estimer
le paramètre α.
CNLDA
7
4. Résultats expérimentaux
4.1. Données utilisées
On a testé ce modèle sur une collection d’images fournies par la section "Picture
of the day" de wikipedia. Chaque image est décrite par un paragraphe d’environ 100
mots. Pour cette expérience, on a utilisé des images collectées du 1 Novembre 2004
au 2 Février 2011. On a retiré les images qui n’ont pas de description et on a gardé
un vocabulaire dont les mots correspondent aux objets présents dans les images. On a
alors obtenu un corpus de 530 images et un vocabulaire de 90 annotations. Aussi, un
traitement a été effectué pour redimensionner les images afin que chacune se compose
de 400 régions.
4.2. Annotation automatique d’images
Etant donnée une image non annotée, on utilise les modèles CNLDA et Corr-LDA
pour calculer une distribution sur les mots conditionnée par l’image en question :
p(w|r). Cette distribution prédit les annotations pour cette image.
Pour illustrer les annotations obtenues, on donne 3 exemples d’annotations automatiques à l’aide des 2 modèles (figure 3).
Vérité Terrain
water iron
CorrLDA
water iron city town
CNLDA
water iron sky world
Vérité Terrain
air flight aircraft
CorrLDA
air water flight tower
CNLDA
air flight aircraft town
Vérité Terrain
river tower
CorrLDA
world river city town
CNLDA
river tower world town
Figure 3. Exemples d’images tirées des données de test et leurs annotations automatiques obtenues à l’aide de CorrLDA et CNLDA.
4.3. Mesures d’évaluation
On introduit deux mesures largement utilisées dans le cas de la classification multilabels (Zhang et al., 2010) : Hamming Loss et Accuracy Score.
8
10 èmes Journées des doctorants du LSIS. Juin 2013
Hamming Loss prend en compte les erreurs de prédiction (une étiquette incorrecte
est prédite) et des erreurs manquantes (une étiquette n’est pas prédite). Cette mesure
est définie ainsi :
p
1 � |h(xi )ΔYi |
Hamming_Loss(h) =
p i=1
|Y |
[8]
où Δ désigne la différence symétrique entre deux ensembles, xi un vecteur de
caractéristiques et Y l’ensemble des étiquettes qui lui sont associées. h(xi ) renvoie
une valeur réelle indiquant si y est une bonne étiquette de xi . Le tableau 1 donne les
résultats obtenus (plus la valeur de la mesure est proche de 0, meilleure est la qualité
de prédiction).
Tableau 1. Hamming Loss (%).
Nombre de Contextes
CorrLDA
CNLDA
10
41,39
35,97
20
40,14
36,67
30
39,72
35,56
40
40,97
37,50
50
41,67
34,03
60
38,47
29,44
La fonction Accuracy Score évalue la proximité entre l’étiquette prédite et l’étiquette réelle. Elle est définie ainsi :
Accuracy_Score(y, y�) =
1
nsamples −1
nsamples
i=0
�
[9]
1(yi = y�i )
où y est l’étiquette prédite et y� est l’étiquette réelle.
Le tableau 2 présente les résultats obtenus.
Tableau 2. Accuracy Score (%).
Nombre de Contextes
CorrLDA
CNLDA
10
58,61
64,03
20
59,86
63,33
30
60,28
64,44
40
59,03
62,50
50
58,33
65,97
60
61,53
70,56
5. Conclusion
Dans ce papier, on a proposé un nouveau modèle probabiliste qui permet d’annoter automatiquement les images et qui est l’extension du modèle Corr-LDA (Blei
CNLDA
9
et al., 2003a). La principale contribution de ce papier est la définition dynamique de
la structure du modèle, cela permet d’adapter le modèle au type de données à traiter.
Les résultats expérimentaux de l’annotation automatique d’images ont montré que la
qualité de prédiction d’annotations de CNLDA est meilleure que celle de Corr-LDA.
6. Bibliographie
Barnard K., Duygulu P., Freitas N., Forsyth D., Blei D., Jordan M., « Matching words and
pictures », Journal of Machine Learning Research, vol. 3 :1107-1135, 2003, p. 1107-1135,
November, 2003.
Blei D., Jordan M., « Modeling annotated data », ACM SIGIR conference on Research and
development in informaion retrieval, 2003, p. 127-134, March, 2003a.
Blei D., Lafferty J., « Dynamic topic models. », Proceedings of the 23rd International Conference on Machine Learning, 2006.
Blei D. M., Lafferty. J. D., « A correlated topic model of Science. », Annals of Applied Statistics,
p. 17-35, 2007a.
Blei D., McAuliffe J., « Supervised topic models. », Neural Information Processing Systems NIPS, 2007b.
Blei D., Ng A., Jordan M., « Latent Dirichlet Allocation », Journal of Machine Learning Research, vol. 3 :993-1022, 2003, n˚ 5, p. 1107-1135, 2003b.
Jia Y., Salzmann M., Darrell T., « Learning Cross-modality Similarity for Multinomial Data »,
ICCV, 2011.
Li L.-J., Fei-Fei L., « What, where and who ? Classifying events by scene and object recognition. », The International Conference on Computer Vision (ICCV), 2007.
Nguyen C.-T., Kaothanthong N., Phan X.-H., Tokuyama T., « A feature-word-topic model for
image annotation », The International Conference on Information and Knowledge Management CIKM, 2010.
Putthividhya D., Attias H. T., Nagarajan S. S., « Supervised topic model for automatic image
annotation », The International Conference on Acoustics, Speech, and Signal Processing ICASSP, 2010.
Putthividhya D., Attias H. T., Nagarajan S. S., « Topic regression multi-modal Latent Dirichlet
Allocation for image annotation », CVPR, 2011.
Ramage D., Hall D., Nallapati R., Manning C. D., « Labeled LDA : a supervised topic model for
credit attribution in multi-labeled corpora. », Proceedings of the Conference on Empirical
Methods in Natural Language Processing, 2009.
Rasiwasia N., Pereira J. C., Coviello E., Doyle G., Lanckriet G., Levy R., Vasconcelos N.,
« A new approach to cross-modal multimedia retrieval. », The International Conference on
Multimedia (ACM MM), 2010.
Socher R., Fei-Fei L., « Connecting Modalities : Semi-supervised Segmentation and Annotation
of Images Using Unaligned Text. », The Computer Vision and Pattern Recognition (CVPR),
2010.
Steyvers M., Griffiths T., « Probabilistic topic models. », In T. Landauer, D. S. McNamara, S.
Dennis, W. Kintsch (Eds.), Handbook of Latent Semantic Analysis. Hillsdale, NJ : Erlbaum,
2007.
10
10 èmes Journées des doctorants du LSIS. Juin 2013
Wang C., Blei D., Heckerman D., « Continuous time dynamic topic models. », Uncertainty in
Artificial Intelligence, 2008.
Wang C., Blei D., Li F., « Simultaneous image classification », CVPR, 2009.
Xiao H., Stibor T., « Toward Artificial Synesthesia : Linking Images and Sounds via Words. »,
NIPS Workshop on Machine Learning for next generation Computer Vision challenges,
2010.
Zhang M.-L., Zhang K., « Multi-Label Learning by Exploiting Label Dependency. », Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data
mining, 2010.
Zhao B., Fei-Fei L., Xing E., « Image segmentation with topic random field. », The European
conference on Computer vision (ECCV), 2010.