Reclassement sémantique pour l`indexation de documents
Transcription
Reclassement sémantique pour l`indexation de documents
Reclassement sémantique pour l’indexation de documents multimédia. Abdelkader Hamadi 1 1. UJF-Grenoble;1 / UPMF-Grenoble 2 / Grenoble INP / CNRS, LIG UMR 5217, Grenoble, F-38041, France . [email protected] Cet article décrit une nouvelle approche pour indexer des documents multimédia (vidéo avec son) par des concepts visuels. En plus des informations relatives au concept cible, l’idée développée propose d’intégrer la détection d’un ensemble d’autres concepts. L’avantage escompté par une telle combinaison est d’améliorer la performance d’un système d’indexation profitant des relations entre les concepts. Des expérimentations sur le corpus TRECVID 2012 sont présentées et commentées. Notre méthode a permis d’améliorer significativement les performances d’un bon système, jusqu’à +6% sur la précision moyenne. RÉSUMÉ. This paper describes a new approach for indexing multimedia documents (video with sound) by visual concepts. In addition to information regarding a target concept, the idea developed proposes to integrate the detection of a set of other concepts. The expected benefit from such a combination is to consider the relationships between concepts in order to reclassify the results of an initial indexing system. Experiments on the TRECVID 2012 corpus are presented and discussed. Our method has significantly improved the performance of an already good system, up to +6 % on average precision. ABSTRACT. MOTS-CLÉS : Indexation, Recherche, Multimédia, Détection de concepts visuels, Fusion. KEYWORDS: Indexing, Retrieval, Multimedia, Visual concept detection, Fusion, TRECVID. 1. Directeur de thèse : Georges Quénot. Co-directeur de thèse : Philippe Mulhem Abdelkader. Hamadi 1. Introduction Nous nous intéressons dans ce travail à la détection automatique d’un grand nombre de concepts visuels. Le but est d’améliorer un système d’indexation existant, quelque soit sa performance. Nous proposons donc une approche basée sur un reclassement des vidéos/images, qui prend en compte deux types d’informations : des informations relatives au concept à détecter et celles concernant d’autres concepts. Cet article se décompose de la manière suivante. Dans la section 2, nous décrivons certains travaux qui ont une relation avec notre proposition. Nous détaillons notre approche dans la section 3. Les expérimentations et les résultats sont présentés en section 4. Nous concluons dans la section 5. 2. État de l’art L’annotation d’échantillons multimédia grâce à une connaissance liée à plusieurs concepts a déjà été étudiée par le passé (R Naphade et al., 2002, Kennedy, 2007, Snoek et al., 2006). Par exemple dans le cas de la recherche de vidéos, (Kennedy, 2007) propose d’utiliser les scores d’annotation de l’ensemble des images renvoyées pour la requête, et de les fusionner avec de nouveaux scores, pour former une nouvelle liste d’images réponses. Une autre classe de travaux s’intéresse à la prise en compte des relations entre concepts qui annotent les échantillons. (R Naphade et al., 2002) proposent un multinet probabiliste bayésien pour modéliser explicitement les relations entre concepts via un graphe construit à base d’une ontologie. (Jiang et al., 2007) utilisent des champs de Markov cachés pour calculer la probabilité finale pour qu’un concept annote une image, en tenant compte des probabilités d’occurrence d’autres concepts. (Bannour et al., 2012) utilisent pour leur part, une hiérarchie de concepts pour affiner les annotations en fusionnant des classificateurs. Une approche qui est relativement similaire aux travaux présentés ici a été proposée dans (Snoek et al., 2006), dans laquelle une approche (baptisée charm) consiste à créer un vecteur de 101 dimensions par plan vidéo, une dimension correspondant au score d’un concept pour le plan considéré. Ensuite, un classifieur est appris sur ces vecteurs et les annotations manuelles initiales. Les résultats obtenus n’ont pas été concluants, mais notre proposition se comporte beaucoup mieux, comme nous le montrons dans la suite. 3. Reclassement sémantique par regroupement L’approche que nous proposons et que nous appelons dans la suite reclassement sémantique par regroupement, est basée sur le constat suivant : en raison de la richesse du contenu d’une image/vidéo en termes de sémantiques, tenter de détecter un concept visuel seul est une idée très naïve. En effet, les concepts n’existent pas isolément, certains concepts cooccurent toujours (Animal & Vehicule), certains autres, très souvent (Sky & Airplane). La présence de certains concepts exclut l’occurrence de certains autres (Indoor & Outdoor). Nous supposons qu’utiliser des informations Reclassement sémantique liées à d’autres concepts permettrait d’améliorer les performances initiales de détection d’un concept cible, par rapport au cas où aucune autre information externe n’est utilisée. Sur la base de cette idée, si l’on considère que nous avons un score de détection pour chaque concept, et en considérant pour chaque échantillons les scores de détection d’un ensemble de concepts comme vecteur caractéristique, nous pensons que les échantillons positifs se réuniront dans l’espace, et un échantillon négatif sera plus éloigné (qu’un exemple positif) des centres des groupes qui contiennent beaucoup d’exemples positifs. Cela conduit à notre proposition. Nous notons dans ce qui suit : – Scoreinit (e, c) : le score de détection d’un concept c dans un échantillon e sans reclassement sémantique. On notera Scoreinit (e, .) le vecteur contenant le score de détection de tous les concepts dans l’ échantillon e. – Scorerecl (e, c) : le score de reclassement sémantique pour le concept c dans e ; – Scoref inal (e, c) : le score final de détection, résultat d’application d’une fonction G de R × R dans R : Scoref inal (e, c) = G(Scoreinit (e, c), Fretro (e, c)) Notre approche modifie les scores d’une première classification Scoreinit (e, c) pour calculer de nouvelles valeurs d’annotation automatique (Scorerecl (e, c)). L’annotation d’un échantillon par un concept est décrite par les étapes suivantes : 1) Calculer de Scoreinit (e, .) pour tous les échantillons ; 2) Faire un regroupement (clustering) suivant Scoreinit (e, .) sur l’ensemble des échantillons d’apprentissage, annotés positivement ou négativement par c. Le résultat est un ensemble de CLc clusters notés clusc,j avec j ∈ [1, CLc ]. Dans notre approche, un regroupement à base de K-moyennes (K-means) est utilisé, et le nombre CLc est un paramètre optimisé sur un corpus de développement ; 3) Estimer la probabilité d’occurence du concept c dans chaque cluster clusc,j : Pc (+|clustc,j ) = # positif s pour c dans clusc,j # positif s ou négatif s pour c dans clusc,j [1] 4) Calculer la distance séparant Scoreinit (e, .) des centroïdes des clusters clustc,j , notée dist(e, clusc,j ). Notre choix s’est porté sur la distance L1 (dite de Manhattan) normalisée par le nombre de dimensions considéré, dans notre cas |C| ; 5) En déduire la valeur Scorerecl (e, c). Nous avons choisi d’utiliser un calcul de plus proches voisins, avec un paramètre K qui dénote le nombre des plus proches clusters considéré et N un facteur de normalisation : X 1 Pc (+|clustc,j ) Scorerecl (e, c) = ∗ [2] N dist(e, clustc,j ) j∈k plus proches voisins avec N = CL Xc j=1 Pc (+|clustc,j ) dist(e, clustc,j ) 6) Fusionner les scores de reclassement et les scores initiaux. Après avoir testé plusieurs fonctions G, nous avons opté pour une combinaison linéaire pondérée : Abdelkader. Hamadi Scoref inal (e, c) = αc .Scoreinit (e, c) + (1 − αc ).Scorerecl (e, c) où αc est un facteur de pondération 4. Expérimentations et résultats 4.1. Données Notre évaluation a été réalisée sur les collections de données TRECVID 2012. Nous avons considéré un lexique de 346 concepts. Nos expérimentations ont été faites sur trois corpus : apprentissage, validation et test. Les annotations ont été fournies par l’annotation collaborative TRECVID 2012 (Ayache et al., 2008). Nous avons utilisé la précision moyenne (MAP) comme mesure de performance, calculée sur les 346 concepts pour le corpus de validation, et sur 46 concepts pour le corpus de test. Ce choix est dû au fait que c’est la procédure officielle d’évaluation de TRECVID, et aussi parce que nous ne disposions pas des annotations des autres concepts. 4.2. Expérimentations 20 types de descripteurs sont utilisés. Ces descripteurs portent sur les textures/couleurs, SIFT, STIP, VLAD, VLAT, Percepts, ... 100 variantes au total de ces descripteurs (par exemple en fonction de la taille du dictionnaire pour les “bags of word”) sont considérées. L’ensemble des descripteurs utilisé est décrit dans (Ballas et al., 2012). Nous pouvons diviser nos expérimentations en trois étapes : a) Détection initiale des concepts En raison de leurs bons résultats, nous avons choisi d’utiliser MSVM (Safadi et al., 2010) et KNN (Yang et al., 2008) comme classifieurs supervisés initiaux. Comme entrée de ces détecteurs, les descripteurs décrits ci-dessus ont été utilisés. Pour chaque paire (concept, descripteur), les expérimentations suivantes ont été effectuées :1) Optimiser les paramètres sur l’ensemble d’apprentissage ; 2) Application sur le corpus de validation et évaluation sur 346 concepts ; 3) Application sur le corpus de test et évaluation sur 46 concepts (procédure officielle de TRECVID2012). b) Fusion Une fusion tardive des scores obtenus dans la première étape est réalisée afin d’améliorer les performances. Nous avons considéré trois résultats de fusion comme systèmes de base : 1) F usion_1 : fusion basée sur un apprentissage 2) ; F usion_2 : une fusion hiérarchique, décrite dans (Safadi et al., 2012) ; 3) F usion_3 : résultat de la fusion de F usion_1 et F usion_2. c) Reclassement par regroupement F usion_1, F usion_2 et F usion_3 donnent de bonnes valeurs de MAP, qui s’élèvent à plus de 0.2, ce qui donnerait un bon classement officiel à TRECVID. Dans nos expérimentations, une optimisation globale des paramètres (des classifieurs, CLc , αc ) a été tentée, ce qui a donné des résultats décevants en terme de MAP. Cela s’explique, Reclassement sémantique F usion_1 F usion_2 F usion_3 Corpus de validation MAP MAP (gain %) initiale après reclassement 0.2010 0.2139 (+6.42) 0.2469 0.2525 (+2.27) 0.2488 0.2538 (+2.01) Corpus de Test MAP MAP (gain %) initiale après reclassement 0.2431 0.2522 (+3.75 ) 0.2600 0.2591 (-0.34) 0.2749 0.2774 (+0.90) Tableau 1. Résultats sur la collection TRECVID. Les paramètres sont optimisés sur le corpus d’apprentissage. d’une part, par la différence du nombre et des instances des exemples positifs et négatifs pour les différents concepts, et d’autre part, par la différence des performances obtenues pour les différents descripteurs. En effet, ces différences mènent sans doute à un regroupement différent avec les k-means. On a donc dans un second temps opté pour une optimisation locale pour chaque paire (concept, descripteur), choix pour lequel les résultats qui suivent sont présentés. 4.3. Résultats Le tableau 1 montre les résultats obtenus en utilisant le reclassement sémantique par regroupement, sur les deux corpus de validation et de test. On remarque que notre approche améliore les résultats sur le corpus de validation, quelque soient les résultats initiaux utilisés. Le gain va entre +2.01% pour F usion3 et +6.42% pour F usion1 . Cette différence de gain peut être expliquée par la différence des performances de la première classification : il est plus difficile d’améliorer un bon système qu’un moins bon. On notera que cette amélioration est très significative, selon le test de Student bilatéral par paires, où les valeurs de p sont inférieures à 3,1E-14. Les remarques sont similaires pour la collection de test, à part une legère dégradation obtenue en utilisant les scores F usion2 . L’amélioration n’est pas aussi importante que dans le cas du corpus de validation. Ceci s’explique par le fait qu’il n’y a que 46 concepts dans la procédure officielle d’évaluation de TRECVID. 5. Conclusion Nous avons proposé dans cet article une approche de reclassement sémantique pour détecter automatiquement des concepts dans des échantillons multimédia. Notre méthode repose sur l’utilisation de la détection d’un grand nombre de concepts, en modifiant les scores d’une première classification, en se basant sur le résultat d’un clustering d’information sémantique. Nous avons expérimenté notre proposition sur la collection de documents vidéos TRECVID 2012, en utilisant des caractéristiques provenant du consortium IRIM et de QUAERO. Les résultats obtenus montrent que Abdelkader. Hamadi notre proposition améliore la qualité d’annotation des plans vidéos, de manière significative sur l’ensemble de développement de 346 concepts. A l’avenir, nous voulons étendre notre proposition à la prise en compte non pas des scores d’annotation automatique de tous les concepts à la fois, mais uniquement de certains concepts regroupés en familles. Cette approche devrait encore améliorer les résultats obtenus. 6. Remerciement Ce travail a été partiellement réalisé dans le cadre du programme Quaero qui est financé par OSEO, l’organisme d’état français pour l’innovation. 7. Bibliographie Ayache S., Quénot G., « Video corpus annotation using active learning », Proceedings of the IR research, ECIR’08, Springer-Verlag, Berlin, Heidelberg, p. 187-198, 2008. Ballas N., Labbé B., Shabou A., Le Borgne H., Gosselin P., Redi M., Merialdo B., Jégou H., Delhumeau J., Vieux R., Mansencal B., Benois-Pineau J., Ayache S., Hamadi A., Safadi B., Thollard F., Derbas N., Quénot G., Bredin H., Cord M., Gao B., Zhu C., tang Y., Dellandrea E., Bichot C.-E., Chen L., Benoît A., Lambert P., Strat T., Razik J., Paris S., Glotin H., Ngoc Trung T., Petrovska Delacrétaz D., Chollet G., Stoian A., Crucianu M., « IRIM at TRECVID 2012 : Semantic Indexing and Instance Search », Proc. TRECVID Workshop, Gaithersburg, MD, USA, nov, 2012. Bannour H., Hudelot C., « Hierarchical image annotation using semantic hierarchies », Proceedings of the 21st ACM international conference on Information and knowledge management, CIKM ’12, ACM, New York, NY, USA, p. 2431-2434, 2012. Jiang W., Chang S.-F., Loui A., « Context- Based Concept Fusion with Boosted Conditional Random Fields », Acoustics, Speech and Signal Processing, 2007. ICASSP 2007. IEEE International Conference on, vol. 1, p. I-949 -I-952, april, 2007. Kennedy L. S., « A Reranking Approach for Context-based Concept Fusion in Video Indexing and Retrieval », In Conference on Image and Video Retrieval, 2007. R Naphade M., Kozintsev I. V., Huang T. S., « Factor graph framework for semantic video indexing », IEEE Trans. Cir. and Sys. for Video Technol., vol. 12, n˚ 1, p. 40-52, January, 2002. Safadi B., Derbas N., Hamadi A., Thollard F., Quénot G., Delhumeau J., Jégou H., Gehrig T., Kemal Ekenel H., Stifelhagen R., « Quaero at TRECVID 2012 : Semantic Indexing », Proc. TRECVID Workshop, Gaithersburg, MD, USA, nov, 2012. Safadi B., Quénot G., « Evaluations of multi-learner approaches for concept indexing in video documents », RIAO, p. 88-91, 2010. Snoek C. G. M., Gemert J. C. V., Gevers T., Huurnink B., Koelma D. C., Liempt M. V., Rooij O. . D., Seinstra F. J., Smeulders A. W. M., Thean A. H. C., Veenman C. J., Worring M., « The MediaMill TRECVID 2006 semantic video search engine », In Proceedings of the 4th TRECVID Workshop, 2006. Yang J., Hauptmann A. G., « (Un)Reliability of video concept detection. », CIVR’08, p. 85-94, 2008.