Comment extraire la sémantique d`une image ?
Transcription
Comment extraire la sémantique d`une image ?
SETIT 2005 3rd International Conference: Sciences of Electronic, Technologies of Information and Telecommunications March 27-31, 2005 – TUNISIA Comment extraire la sémantique d’une image ? Alain Boucher* et Thi-Lan Le** * Institut de la Francophonie pour l’Informatique, Hanoi, Vietnam [email protected] ** Centre de Recherche International MICA, Institut Polytechnique de Hanoi, Vietnam [email protected] Résumé: Dans cet article, nous présentons un état de l’art de la recherche d’images par le contenu, avec certains résultats, mais aussi les problèmes qui subsistent. Nous proposons notre système de recherche symbolique d’images basé avant tout sur la couleur et la texture. À partir des connaissances existantes sur la recherche d’images par le contenu symbolique, nous discutons de façons pour ajouter de la sémantique dans le processus d’analyse de l’image. Il existe deux méthodes pour arriver à cela : définition de concepts (ontologie) et interaction homme-machine. Nous présentons notre approche et nos résultats préliminaires et les discutons dans le but de parvenir à concevoir un système utile pour l’homme, c’est-à-dire exploitant les données au niveau sémantique. De plus, nous discutons des extensions possibles de ces mécanismes vers la recherche d’informations multimédias, où l’image côtoie la vidéo, la parole, le son et le texte. Dans cette optique, nous démontrons que la meilleure voie possible est de lier ces médias très différents via l’extraction de sémantique. Mots clés: Bases de données multimédia, Recherche d’information, Interaction, Sémantique, Traitement d’images. utilisateurs humains d’un tel système. 1. Introduction La dernière décennie a vu une explosion du nombre d’articles publiés dans le domaine de l’indexation et de la recherche d’images. La mise à portée de chacun d’appareils photos et de caméras numériques, conjugée avec la montée en puissance et en stockage des ordinateurs, ont contribuées à créer à la fois un besoin, mais aussi certaines réponses dans ce domaine. Plusieurs équipes de recherche ont développés des travaux dans ce sens, ce qui a débouché sur plusieurs avancées dans le problème plus général du traitement d’images et de la vision par ordinateur. Ce nouveau problème, ou défi, a redéfini en des termes nouveaux les objectifs du traitement automatique des images, et cela a conduit à de nouvelles réflexions simplement par l’introduction d’une problématique légèrement différente à ce qui se faisait avant. Nous nous intéressons dans cet article à l’interprétation du contenu des images à des fins d’indexation et de recherche d’information. Deux niveaux d’interprétation d’une image sont définis : symbolique, ou bas niveau, et sémantique, ou haut niveau. L’objectif de la recherche étant d’obtenir une interprétation de l’image au niveau sémantique, afin de communiquer des résultats fidèles aux attentes des Dans la section 2 de cet article nous revenons en arrière et relions l’historique des travaux en vision par ordinateur aux problèmes d’aujourd’hui en interprération, analyse et recherche d’informations au niveau sémantique de l’image. Ensuite, dans la section 3, nous discutons de recherche d’images par le contenu symbolique et présentons aussi nos résultats actuels dans le domaine. Dans la section 4, nous nous intéressons à la recherche d’information au niveau sémantique, où nous présentons les approches possibles et discutons de notre prototype dans ce domaine. Enfin, la section 5 contient des quelques réflexions sur l’évolution du domaine vers la recherche d’information multimédia. 2. Evolution de la notion de sémantique 2.1. En vision par ordinateur… La recherche en traitement d’images et en vision par ordinateur s’est orientée pendant de nombreuses années sur l’extraction d’informations et sur la reconnaissance des éléments qui constituent l’image. On retrouve ici notamment les travaux de Marr (Marr, 1982) qui a clairement défini les étapes de la vision par ordinateur en partant de la segmentation et l’extraction de caractéristiques de base (bas niveau) et SETIT2005 progressant de façon unidirectionnelle vers l’interprétation de l’image (haut niveau). Cette approche, qualifiée d’ascendante, a longtemps dominé et est encore très largement utilisé aujourd’hui. Fossé sémantique Maison Il existe un autre courant de pensée, attestant que l’interprétation ne pouvait se faire que si elle était dirigé par un but. Il s’agit de l’approche descendante, partant du haut niveau et allant vers le bas niveau (Clouard et al., 1995). Malgré tous les efforts et les avancées qui ont été faits, le problème demeure encore entier, ou presque. Comme dans plusieurs autres domaines lorsqu’on hésite entre deux voies opposées, la solution probable se trouve probablement quelque part entre les deux. Dans cette optique, il existe aussi plusieurs travaux combinant les approches ascendante et descendante (Germond et al., 1997). L’extraction d’informations bas niveau est nécessaire, mais l’analyse « en aveugle » de l’image entière est impossible et il faut cibler un ou quelques objectifs que l’on désire accomplir par les traitements. L’analogie est facile avec la vision humaine, ou la vision sert à déterminer et à accomplir l’action. On ne fait pas que voir, tel un observateur extérieur, mais nous sommes au centre de la scène et notre survie dépend de notre vision. Cette analogie a, entre autres, motivé toute une philosophie de recherche autour de ce qu’on appelle la vision active (Aloimonos et al., 1987) et ses dérivées. Malgré de nombreuses et réelles avancées, le problème de contrôle entre le bas niveau et le haut niveau n’est toujours pas résolu aujourd’hui, et les percées vers le grand public des applications de vision haut niveau ne sont pas encore à la hauteur des attentes. Comment concilier le bas niveau, plutôt mathématique, avec le haut niveau, plutôt du domaine de l’intelligence artificielle ? Ce problème était autrefois largement vu comme un problème de contrôle uniquement (Boucher, 1999), et les efforts ciblaient l’améloration de ce contrôle dans les systèmes de vision. 2.2. … et en recherche d’images par le contenu Après tout cela est arrivé l’essor d’un nouveau domaine qu’est l’indexation et la recherche d’images. En fait, le domaine n’est pas nouveau, puisqu’il provient directement du problème, plus vaste, de la recherche d’information (Baeza-Yates et al, 1999), mais on peut dire, sans se tromper, qu’il y a eu un véritable engouement de la part des équipes de recherche de partout dans le monde vers ce domaine il y a environ une dizaine d’années seulement, pour des raisons évoquées dans l’introduction. Outre les avancées techniques, ce domaine a aussi contribué à de nouvelles réflexions sur le domaine. Le problème était redéfini, car on ne cherche plus à reconnaître les éléments constituant l’image, mais on cherche la similarité entre les images. Cette nouvelle définition de la tâche a sans doute fait naître de nombreux Monde RGB = (225,0,32) Forme = 1,23 Caméra Fossé sensoriel Figure 1. Le fossé sensoriel entre le monde observé et l’image acquise ainsi que le fossé sémantique entre l’analyse par l’ordinateur et l’interprétation humaine de l’image. espoirs. De nombreux travaux ont été publiés sur la recherche d’images par le contenu symbolique, et cela a permis de nombreuses avancées sur l’utilisation de la couleur, des textures, des formes, et autres invariants de l’image. Cependant, après l’euphorie initiale, on retombe sur les mêmes vieux problèmes, mais cette fois, et c’est une nouveauté, on leur donne des noms : le fossé sensoriel et le fossé sémantique (voir figure 1). Le fossé sensoriel était déjà connu, et même très bien documenté et travaillé. Il intervient avant même l’analyse bas niveau de l’image, soit au niveau de l’acquisition de l’image. Il est défini comme « le fossé entre les objets dans le monde réel et l’information contenue dans une description (informatique) dérivée de l’enregistrement de cette scène » (Smeulders et al., 2000). Il s’agit de la projection d’une réalité, souvent 3D et continue, dans une représentation informatique discrète et 2D. Ce fossé est soit accepté par les chercheurs travaillant sur les images 2D, ou repoussé par les chercheurs travaillant sur les images 3D ou stéréoscopiques. En imagerie 2D, l’hypothèse courante de travail est que dans tous les cas, l’humain réussit à utiliser, et à interpréter, les images 2D, donc l’ordinateur pourrait très bien le faire aussi. Cette hypothèse est nécessaire dans la pratique puisque la masse d’images qui nous entoure est bien souvent qu’en 2D, ce qui fait que le besoin d’outils pour travailler, et interpréter, les images 2D est criant et bien réel. Cependant, cette hypothèse ne fait que renforcer le deuxième fossé, en limitant les informations disponibles et en repoussant une partie du traitement vers l’interprétation, soit plus haut dans la chaîne de traitement. SETIT2005 64 65 65 66 66 59 (a) 60 62 66 66 64 63 69 100 149 151 68 97 145 148 70 95 142 146 68 90 135 140 64 84 129 134 62 88 130 128 (b) Figure 2. Représentations différentes d’une même image évoquant des sémantiques différentes. (a) Représentation en niveau de gris, interprétée sémantiquement par l’humain. (b) Représentation matricielle d’une partie de l’image, manipulable par l’ordinateur. Le fossé sémantique est le plus difficile à traiter. Depuis plusieurs années, les chercheurs tournaient autour de ce fossé sans véritablement le nommer, ce qui est chose faite aujourd’hui. Le fossé sémantique est définit comme « le manque de concordance entre les informations qu’on peut extraire des données visuelles et l’interprétation qu’on ces mêmes données pour un utilisateur dans une situation déterminée » (Smeulders et al., 2000). Ce fossé n‘est ni plus ni moins que le même problème de liaison entre traitements de bas niveau et traitements de haut niveau, sauf que maintenant, il est clairement vu comme un problème de gestion d’informations et non uniquement comme un problème de contrôle. Et même si l’application en indexation et recherche d’images a permis pendant un certain temps de redéfinir l’objectif des traitements, on se heurte de nouveau à un problème récurrent en vision par ordinateur (qui relève d’ailleurs autant de la vision par ordinateur que de l’intelligence artificielle). Nous résumons, en simplifiant outrageusement, le problème avec la figure 2. Ce que nous voyons et interprétons est représenté à la figure 2a : une voiture que nous voyons et imaginons très bien. La figure 2b représente une portion de la première image sous forme de matrice de nombres. Il s’agit de la représentation utilisée par l’ordinateur pour traiter les images : une matrice de nombres. Il est important de noter que ces deux représentations sont duales et entièrement équivalentes, comme chacun le sait. Pourtant, la seconde représentation ne nous évoque absolument aucun sentiment équivalent à la première image. Que se passe-t-il ? Par notre constitution, notre éducation, notre apprentissage de la vie, notre volonté de survie et par d’autres phénomènes qui dépassent le cadre de cet article, nous sommes capable d’extraire le contenu sématnique de la première représentation, tandis que l’ordinateur n’arrive pas à extraire de sémantique, que de la symbolique, de l’une ou l’autre des représentations. Or, pour la majorité des applications où l’ordinateur interagit avec l’homme, où l’ordinateur tente d’apporter une solution à un problème de l’homme, celui-ci s’attend à un dialogue se situant au niveau sémantique. Même dans un discours au niveau symbolique, l’homme ajoute sans le vouloir une interprétation sémantique aux symboles, ce qui fausse la compréhension entre l’homme et la machine. Sans pouvoir éviter ce phénomène, il faut en prendre conscience dans la recherche de systèmes adaptés pour l’homme, ce que nous discuterons en section 4. Mais auparavant, la prochaine section continue la discussion sur la recherche d’images au niveau symbolique en expliquant et discutant les résultats de notre système. 3. Recherche d’images par le contenu symbolique 3.1. Intérêt de l’approche Nous avons déjà mentionné l’intérêt actuel porté sur les bases d’images, les techniques d’indexation et les techniques de recherche d’images dans de telles bases. Cependant, dans les applications pratiques de ces bases d’images que l’on retrouve aujourd’hui, que ce soit pour les chaînes de télévision, les journaux, les musées et mêmes pour les moteurs de recherche sur Internet qui proposent des solutions de recherche d’images, l’indexation et la recherche de ces images se fait en se basant majoritairement sur des annotations textuelles ou des éléments de texte qu’on peut rattacher aux images. Dans plusieurs cas (chaînes de télévision, journaux, …), l’archivage des images et des séquences vidéos ne se fait qu’au prix d’une étape d’annotation manuelle à l’aide de mots-clés. Cette indexation représente une tâche longue et répétitive pour l’humain, surtout avec les bases d’images qui deviennent aujourd’hui de plus en plus grandes. De plus, cette tâche est très subjective à la culture, à la connaissance et aux sentiments de chaque personne. Le besoin de méthodes d’indexation et de recherche directement basées sur le contenu de l’image n’est donc plus à démontrer. Partant de l’image, cette approche se base essentiellement sur des descripteurs extraits automatiquement à partir de l'image telles que la couleur, la texture, la forme, et tout autre descripteur de l’image qu’on peut imaginer. Elle est indépendante des personnes et du contexte, donc plus objective. Mais il est difficile de trouver des descripteurs puissants pour représenter les images. Nous avons construit un premier système pour la recherche d’images basé essentiellement sur la couleur et la texture. Cependant, tel que déjà argumenté dasn la section précédente, nous reconnaissons qu’utilisées seules, ces caractéristiques symboliques ne peuvent pas satisfaire pleinement les requêtes des utilisateurs. La raison principale de cet état de fait est qu’un utilisateur pense sa requête en termes sémantiques (une montagne, une maison ou une personne connue), et non en termes de valeurs symboliques extraites (zone rouge, texture rayée, etc.) des images. Mais il SETIT2005 faut commencer quelque part et ces caractéristiques sont la première piste d’information que nous possédons. Il faut donc les exploiter à leur juste mesure. L’aspect sémantique est discuté à la section 4. Un système de recherche d’images par le contenu symbolique est donc un système se basant sur les couleurs, les textures, les formes, ainsi que d’autres caractéristiques. Mais une image contient beaucoup de caractéristiques. Donc, comment peut-on choisir les caractéristiques adéquates et comment peut-on combiner ces caractéristiques ? Ce sont ces aspects que nous discutons ici. 3.2. Caratéristiques symboliques de l’image 3.2.1. La couleur La couleur est très souvent le premier descripteur qui est employé pour la recherche d’images. Plusieurs travaux ont déjà prouvé qu’il s’agit d’un descripteur efficace (Smeulders et al., 2000). Une technique très utilisée pour la couleur est l’intersection d’histogrammes (Swain et al., 1991). Les histogrammes sont faciles et rapides à calculer, et robustes à la rotation et à la translation. Cependant l’utilisation d’histogrammes pour l'indexation et la recherche d’images pose quatre problèmes (Gong et al., 1998). Premièrement, ils sont de grandes tailles, donc par conséquent il est difficile de créer une indexation rapide et efficace en les utilisant tels quels. Deuxièmement, ils ne possèdent pas d’informations spatiales sur les positions des couleurs. Troisièmement, ils sont sensibles à de petits changements de luminosité, ce qui est problématique pour comparer des images similaires, mais acquises dans des conditions différentes. Et quatrièmement, ils sont inutilisables pour la comparaison partielle des images (objet particulier dans une image), puisque calculés globalement sur toute l’image. Plusieurs travaux récents ont été effectuées pour améliorer ces problèmes. Il existe deux approches suivies par les chercheurs : l’une ajoute des informations spatiales à l’histogramme, l’autre utilise d’autres espaces de codage des couleurs qui se rapprochent plus de la perception humaine. La première approche ajoute des informations spatiales aux histogrammes. Dans (Stricker et al., 2004), les auteurs ont divisé une image en cinq blocs fixés superposés et ils ont extrait les trois premiers moments d’inertie de chaque bloc pour créer un vecteur de descripteurs. Pass et Zabih (Pass et al., 1996) ont ajouté de la cohérence spatiale dans des histogrammes. Un pixel est cohérent s'il appartient à une région validée par la segmentation et incohérent autrement (soit les pixels situés hors des régions segmentées). Les valeurs d’un histogramme sont divisées en deux classes en fonction des pixels correspondants à ces valeurs : classe cohérente et classe incohérente. La comparaison entre deux histogrammes devient la comparaison entre les valeurs d’histogrammes dans les classes correspondantes. Huang et al. (Huang et al., 1997) ont proposé le corrélogramme et l’auto-corrélogramme. La deuxième approche recherche d'autres espaces de couleurs qui se basent sur la perception de couleur de l’humain. L’espace RVB est un espace de couleur utilisé couramment, par facilité, dans tous les systèmes de vision automatique, mais il n’est pas forcément le mieux adapté. En effet, les trois composantes RVB sont très dépendantes les unes des autres. Un simple changement d’éclairage dans la scène modifie les trois composantes, alors que les objets de la scène n’ont pas changés de couleur, mais se sont simplement assombris ou éclairés. Dans (Smeulders et al., 2000) les auteurs ont présenté quelques expérimentations intéressantes pour utiliser d’autres espaces en indexation, tandis que Park et al. (Park et al., 1999) ont proposé l'espace CIE LUV et Gong et al. (Gong & al., 1998) ont employé l’espace HVC. Un panorama des travaux existants permet de trouver plusieurs espaces couleurs différents comme solution au lieu d’un espace unique. La solution se trouve probablement dans l’utilisation de plusieurs espaces complémentaires (Vandenbroucke, 2000). Dans notre système de recherche d’images, nous avons adopté les espaces RVB et HSV, choisis pour leur complémentarité. 3.2.2. La texture La texture, autre primitive visuelle, est étudiée depuis une vingtaine d’années et plusieurs techniques ont été développées pour l’analyser. Une méthode très connue pour analyser la texture est la matrice de cooccurrences de Haralick. Afin d'estimer la similarité entre des matrices de co-occurrences, quatre caractéristiques extraites de ces matrices sont largement utilisées : l’énergie, l’entropie, le contraste et le moment inverse de différence. Il existe aussi d’autres méthodes pour analyser les textures dont celle basée sur les filtres de Gabor. Après avoir appliquée la transformation de Gabor sur une image, une région de texture est caractérisée par la moyenne et la variance des coefficients de transformation. Un vecteur de caractéristiques est construit en utilisant ces caractéristiques comme composants. Une méthode n’ayant pas forcément d’avantage majeur sur l’autre, nous avons utilisé les matrices de co-occurrences pour notre système de recherche d’images. 3.2.3. Caractéristiques globales vs locales A la base, les caractéristiques présentées précédemment sont calculées de façon globale sur l’image. Cependant, un système basé uniquement sur des caractéristiques globales ne peut pas donner les résultats désirés. Soit une image composée de plusieurs objets ayant des caractéristiques, couleurs et textures, très différentes, le vecteur de caractéristiques global extrait à partir de l’image entière perd les SETIT2005 informations locales (les objets) et ne produit qu’une moyenne grossière du contenu de cette image. Par contre, l’analyse uniquement basée sur des caractéristiques locales risque de perdre le sens global de l’image, en submergeant celui-ci dans un flot de petits détails inutiles. Par conséquent, un compromis doit être trouvé, différent selon les applications et selon les requêtes individuelles, entre caractéristiques globales et caractéristiques locales. Deux approches différentes peuvent être employées pour calculer les caractéristiques locales. La première approche consiste à diviser une image en utilisant une grille et les caractéristiques de chaque bloc sont calculées pour chaque case de cette grille. Dans la figure 3a, l'image est divisée en 12 zones de même taille et les caractéristiques sont calculées pour chacune de ces zones. La deuxième approche consiste à segmenter l’image pour la diviser en zones locales plus proches des objets constituant l’image et ensuite calculer les caractéristiques pour chacune des régions extraites. La segmentation est une étape qu'on souhaiterait éviter, en raison de tous les problèmes pour choisir une "bonne" méthode de segmentation valide pour toutes les images de la base d’images. Cependant, la division d'une image en régions ou objets d'intérêt est souvent nécessaire pour pouvoir s’attaquer ensuite à l'extraction d’informations sémantiques à partir de l'image. Plutôt que de viser une segmentation exacte (en terme d’interprétation de l’image), on préfère souvent parler de « groupement de pixels » (Forsyth et al., 2003) ou encore de « segmentation faible » (Medioni et al., 2005) selon les auteurs. Dans les deux cas, il s’agit simplement d’oublier le découpage précis en terme d’objets, mais plutôt de découper l’image en régions similaires du point de vue caractéristiques mesurées sur l’image (voir figure 3b). Cette dernière idée apparaît comme plus logique, car l’idée même d’objet est une vue sémantique de l’image, or il est facile de conclure à la lumière des innombrables travaux en segmentation des dernières décennies que segmentation bas niveau (basée uniquement sur les caractéristiques issues de l’image) et découpage sémantique de l’image sont deux idées complètement différentes. Un objet tel que nous le percevons dans l’image n’est pas forcément homogène en termes de caractéristiques, tandis qu’une zone homogène de l’image peut très bien contenir plusieurs objets différents. Dans notre système de recherche d’images, nous combinons approche globale et approche locale dans la mesure de la similarité entre deux images. Du point de vue symbolique, les deux approches sont complémentaires dans la mesure de la similarité. En effet, tant que la requête n’est pas mieux définie (voir la section 4.3 sur l’interaction pour la recherche sémantique), aucune information ne permet de conclure que les images recherchées doivent être semblables dans leur globalité, ou dans leurs (a) (b) Figure 3. Deux découpages différents de l’image. (a) Découpage en grille de l’image. (b) Découpage par la segmentation division-fusion de l’image. composants. L’approche locale utilisée repose soit sur la division d’une image, soit par découpage en grille ou par segmentation, en quelques zones générales d'intérêt, sans rechercher le calcul exact de toutes les régions. Pour ce faire, nous utilisons une technique très connue qu’est la segmentation par division-fusion. Nous recherchons des régions homogènes, mais utilisons comme critère d’arrêt de l’algorithme la division de l’image en 3 à 10 régions maximum (voir figure 3b). Encore une fois, sans précision sur la requête, il est inutile de chercher le découpage « parfait » pour deux raisons : (1) la définition même de perfection dans ce cas est subjective à chaque personne voire à chaque requête et (2) les zones similaires recherchées dans la base d’images ne sont que similaires et pas identiques. 3.2.4. Autres caractéristiques de l’image Il existe plusieurs autres caractéristiques, ou descripteurs, de l’image qui peuvent être utilisées pour mesurer la similarité d’une image, telles que la forme, les points d’intérêt, les invariants, et plus encore. La forme est une caratéristique visuelle importante et elle est une des caractéristiques de base pour décrire le contenu d'une image. Cependant, la description des formes est une tâche difficile, surtout dans un contexte de « segmentation faible » et dans un contexte où on recherche la similitude et non l’exactitude. Ainsi dans les systèmes de recherche récents, peu emploient la forme comme critère de recherche. D'autres caractéristiques telles que des invariants, les points d’intérêts sont recherchés pour améliorer les performances des systèmes de recherche d’images (Alfarez et al., 2001, Sun et al., 2004, Wang et al., 1998). Iqbal et Aggarwal (Iqbal et al., 2002) ont ajouté la structure de l'image à la couleur et la texture pour le système CIRES. Dans (Sciascio & al., 1997), les auteurs ont présenté un système de recherche d’images basé sur la couleur, l’orientation d'objet et la position relative. Chacune de ces combinaisons a des avantages et des inconvénients et chacune peut être bien adaptée pour certaines bases d'images, mais ne fonctionnera pas correctement avec d'autres. Les problèmes du bon choix de caractéristiques pour décrire l’image et de la pondération de ces caractéristiques ne sont pas encore résolus. Alors qu’un consensus minimal sur l’utilisation de la couleur SETIT2005 et de la texture semble se dégager des travaux présentés ces dernières années, certaines systèmes ajoutent d’autres caractéristiques, variables selon les systèmes et surtout selon les applications visées. Quant à la pondération des caractéristiques dans la fonction de mesure de la similarité entre les images, elle varie aussi fortement selon les systèmes, les applications et mêmes selon les requêtes. La solution semble se trouver dans l’adaptation de la fonction et de ses poids, mais selon quels critères ? Ces critères ne sont pas forcément d’ordre symbolique, mais plutôt d’ordre sémantique. Nous reviendrons sur ce sujet à la section 4.3. 3.3. Notre système de recherche symbolique Dans le cadre de nos recherches, nous développons actuellement un système de recherche d’images par le contenu. Nous présentons dans cette section la partie symbolique de ce système avant d’exposer dans les sections suivantes les extensions sémantiques de ce système. Les caractéristiques de base retenues sont la couleur et la texture. Pour la couleur, deux espaces de couleur différents sont combinés : RVB et HSV. La comparaison se fait en calculant les intersections d’histogrammes (Swain et al., 1991). Notre système utilise à la fois les histogrammes globaux (sur toute l’image) et locaux (selon un découpage par blocs en grille, ou par segmentation – voir section 3.2.3). Pour la texture, nous calculons les matrices de cooccurrences et nous avons créé un vecteur de caractéristiques en extrayant les quatre caractéristiques les plus appropriées des matrices : l’énergie, l’entropie, le contraste et le moment inverse de différence. L'utilisateur choisit une requête et une méthode avec quelques paramètres. Le système calcule les vecteurs de caractéristiques pour chaque image de la base d’images et les compare pour proposer ses résultats. Ce système est assez similaire à d’autres systèmes dans sa conception, sauf que l’accent a été mis dans la flexibilité de manipulation des différentes caractéristiques de l’image. Cette flexibilité nous sera très utile afin d’augmenter les capacités du systèmes par l’ajout de raisonnement au niveau sémantique (voir section 4). http://www1.cs.columbia.edu/CAVE/research/ softlib/coil-100.html. La figure 4 montre l’interface de base de notre système, ainsi que quelques exemples de résultats en utilisant les deux bases d’images mentionnées, avec les seize premiers résultats d’une requête qui sont présentés avec leurs noms, leurs distances avec la requête, ainsi que leurs rangs. La figure 5 montre pour chaque classe d’images (10) de la base d’images Wang les courbes de précision vs rappel. Nous ne montrons pas les courbes pour l’autre base d’images (Columbia COIL-100), car ces courbes ne sont pas représentatives, à cause de la simplicité relative de la base dans ce contexte (précision=100 pour toute valeur de rappel ou presque). Ces résultats, ainsi que ceux de la figure 4, sont comparables à d'autres travaux déjà publiés sur des bases d’images similaires. Cependant, ils ne peuvent être considérés comme parfaits, puisque même si nous retrouvons dans ces résultats des autobus ou des boîtes de comprimés, aucune information sémantique n’a été utilisée et rien ne garanti qu’en complexifiant la base d’images utilisée les résultats seront les mêmes. On le voit dans le deuxième exemple (figure 4b) où les boîtes de couleurs et textures similaires sont mélangées aux (a) 3.4. Evaluation et bases d’images Pour évaluer et valider notre système de recherche d’images, nous avons utilisé deux bases d’images disponibles sur Internet à des fins de recherche : • • la base de 1000 images (10 classes x 100 images/classe) de J.Z. Wang de l’Université de Pennsylvanie (Wang et al., 2001) : http://wang.ist.psu.edu/ ; la base de 7200 images (100 objets x 72 images/objet) de l’Université Columbia (COIL100) (Nene et al., 1998) : (b) Figure 4. Interface et exemples de résultats de notre système de recherche des images par le contenu symbolique. (a) Base d’images de Wang. (b) Base d’images Columbia COIL-100. SETIT2005 déboucher sur de réelles avancées répondant à des besoins et applications divers, tant personnels que professionnels. Figure 5. Courbes de précision versus rappel pour les 10 classes d’images de la base d’images de Wang. résultats. Sur ce point, il est à noter que l’évaluation faite avec les bases d’images actuellement disponibles sur Internet est limitée, car la majorité de ces bases sont calibrées pour la recherche et ne correspondent pas forcément aux images rencontrées dans les applications réelles et grand public. Le principal avantage des bases utilisées ci-dessus réside dans leur disponibilité pour tous afin de comparer les différents travaux de recherche. Pour les applications réelles, les images ne comportent pas forcément qu’un seul objet, mais souvent plusieurs objets en avant-plan et possiblement plusieurs objets en arrière-plan. Ce qui fait donc qu’une image n’appartient pas qu’à une seule classe, mais à plusieurs classes. Ce qui peut compliquer le processus de recherche d’images, mais aussi le processus d’évaluation. Dans cet optique, nous développons actuellement une base de plus de 8000 images annotées et acquises en conditions réelles sans a priori d’utilisation pour la recherche (photos collectées de plusieurs photographes amateurs). Chaque image fait partie de plusieurs classes différentes et le système devra donc s’adapter aux classes souhaitées par l’utilisateur. Cette base est toujours en cours de développement et sera disponible pendant l’année 2005. Une démonstration de l’état actuel de la base est consultatble sur Internet en allant sur http://www.mica.edu.vn/ImagesDemo/. 4. Recherche d’images par le contenu sémantique Raisonner au niveau sémantique signifie que l’analyse de l’image se fait en termes d’objet et de contenu, et non pas seulement en termes de statistiques sur les couleurs, les textures ou autres caractéristiques bas niveau de l’image. Ce qui demande un complément d’information certain à la méthode, car par définition, seules les caractéristiques de base sont disponibles immédiatement dans l’image. La sémantique elle-même n’est pas inscrite dans l’image, mais se trouve ailleurs. Il faut donc rechercher ces sources extérieures nous donnant accès aux clés de décodage sémantique de l’image. Nous soutenons que la sémantique exprimée dans une image dépend de deux éléments : • du niveau de connaissances et de la perception qu’a l’observateur de cette image ; • de l’objectif poursuivi par l’utilisateur de cette image lorsqu’il la regarde. Et c’est pourquoi cette sémantique doit retrouvée selon deux approches complémentaires et indissociables : (1) l’une recherche des moyens pour « connecter » (ou lier) la connaissance sémantique humaine et l’apparence de l’image (les caractéristiques extraites de celle-ci), (2) l’autre recherche des méthodes pour comprendre l’objectif de l’utilisateur, le sens de sa requête. Et c’est avec la combinaison des deux approches que l’on pourra faire émerger la sémantique de l’image. Grâce à notre connaissance, nous voyons qu’une tache verte observée dans une image correspond à de la végétation, ce que l’ordinateur ne peut savoir. Ensuite, nos buts conditionnent notre compréhension de l’image. Par exemple, dans (Ballard et al. 1992), selon la question posée à un observateur d’une image, le parcours, le regard posé et les informations recueillies dans l’image varient. Il en est de même en recherche d’images similaires où une requête peut signifier différents buts selon le contexte (Santini & al., 2001). Nous poursuivons cette présentation par l’étude de ces deux approches : (1) la définition des concepts de l’image et (2) l’interaction avec l’utilisateur. Nos recherches sur ce sujet n’étant pas encore complétées, nous présentons dans la suite certains éléments seulement de notre prototype de recherche d’images par le contenu sémantique. 4.1. Qu’est-ce que la sémantique d’une image ? Après avoir présenté les aspects d’un système de recherche d’images par le contenu symbolique, illustré avec les résultats de notre système, nous présentons maintenant les extensions possibles d’un tel système pour traiter les images au niveau sémantique, c’est-àdire au niveau de jugement que l’humain porte en regardant les images. C’est à cette condition que la recherche d’information sur les images pourra 4.2. Définitions des concepts La définition des concepts est la définition de termes sémantiques que nous voulons utiliser pour décrire l’image et leurs définitions en termes de caractéristiques que nous pouvons extraire de l’image. Les deux éléments sont importants, car la définition seule d’un vocabulaire ne permettra pas au système de retrouver ces termes dans l’analyse automatique de SETIT2005 l’image. Il existe plusieurs mécanismes de représentation de connaissances issus du domaine de l’intelligence artificielle. Nous retenons ici le plus utilisé ces dernières années en recherche, soit les ontologies. Selon (Mezaris & al., 2003) : «Une ontologie peut être définie comme des spécifications d'un vocabulaire de representation pour un domaine partagé du discours qui peut inclure des définitions de classes, des relations, des fonctions et d'autres objets ». Mais il existe un problème récurrent à toute représentation de connaissances pour l’image. Comment connecte-t-on la connaissance haut niveau et l’apparence de l’image ? Dans (Maillot et al., 2004), les auteurs présentent une méthode pour définir des concepts visuels. Ces concepts visuels permettent de connecter la connaissance de domaine et l’apparence de l’image en utilisant de l’apprentissage de caractéristiques. Chaque concept est appris à l’aide d’exemples extraits manuellement des images. La segmentation manuelle d’exemples est utilisée ici pour fournir de bons exemples pour l’apprentissage, mais en même temps cela limite la capacité du système pour retrouver la même qualité de régions en segmentation automatique. Les auteurs travaillent actuellement sur ce point. Mais comment peux-t-on travailler dans un contexte général, et de « segmentation faible » (voir section 3.2.3) et fournir un vocabulaire sémantique « de qualité » au système de recherche ? Dans (Mulhem et al. 2003), les auteurs utilise un vocabulaire général pour identifier les visages, les foules, le ciel, le sol, l’eau, le feuillage, les montagnes, les bâtiments, etc. La représentation des concepts et le raisonnement sur ceux-ci se font à l’aide de graphes conceptuels, autre technique répandue. Dans tous ces cas, la difficulté majeure est le nombre de concepts sémantiques que l’on peut donner au système. Alors qu’il est relativement aisé de faire apprendre au système un certain nombre de concepts généraux, le problème devient très complexe lorsqu’on désire apprendre un nombre important de concepts. Sauf dans le cas d’applications spécifiques, où l’on peut sur-spécialiser le système, il est difficile dans le cas général de faire une sélection pertinente de concepts qui seraient valides pour tous les usages imaginables, ou même pour restreindre un peu, tous les usages généraux imaginables. Pour connecter les concepts sémantiques aux caractéristiques de l’image, l’apprentissage est une tendance populaire et efficace (Dong et al., 2003, Weber et al., 2000), aussi bien ici que dans plusieurs domaines de l'informatique en général. On le voit comme la meilleure manière pour ajouter la connaissance dans le système sans imposer une vision définie par l’humain de cette connaissance. Une difficulté de l’apprentissage qui est connue depuis longtemps, mais qui devient plus flagrante en recherche d’images similaires, du fait des visées grand public et généraliste, est le choix de la base d’exemples pour apprendre les caractéristiques. Contrairement à d’autres applications en vision, aucune hypothèse, ou très peu, ne peut être faite sur l’acquisition des images. Ce qui fait que nous souhaitons être capable à la fois de traiter des images acquises en condition d’intérieur ou d’extérieur, de jour comme de nuit, et de tout objet possible vu de n’importe quel côté. Le dernier point rappelle le fossé sensoriel (voir section 2.2). Ce fossé limite les interprétations possibles d’une image, sachant que les apparences des objets peuvent être trop différentes selon les points de vue. Il s’agit du moins d’une limite dans les conditions technologiques actuelles, puisque le cerveau humain est capable d’une telle abstraction. La représentation dec concepts sémantiques couplée à des techniques d'apprentissage pour lier les concepts à l’image est une étape nécessaire pour obtenir la recherche d’images par le contenu sémantique, malgré les difficultés évoquées ci-haut. Cependant, et malgré cela, il n’est pas possible de prévoir, ou d’apprendre, toutes les questions possibles des utilisateurs lors de requêtes de recherche d’images similaires. Il s’agit de la plus grande limite à l’utilisation de méthodes de représentation de connaissance et d'apprentissage automatique. 4.3. Interaction avec l’utilisateur Avec une seule requête, le système ne peut pas comprendre les intentions de l’utilisateur, parce que la sémantique de l’image change lorsqu’on change de contexte. Santini et al. (Santini et al., 2001) ont donné un bon exemple de cela, en expliquant qu’une même image (une peinture d’un visage) utilisée par un même utilisateur dans deux contextes différents possède deux sémantiques différentes : l’une est une peinture, visant à rechercher d’autres peintures, l’autre est un visage, visant à rechercher d’autres visages, peints ou non. Pour palier ce problème, quelques systèmes ont intégré des interfaces où les utilisateurs peuvent interagir avec le système. Par ces interactions, le système apprend les intentions de l’utilisateur et rend des résultats qui peuvent satisfaire l’utilisateur. L’idée de construire des systèmes semi-interactifs pour résoudre des problèmes de vision par ordinateur prend de plus en plus d’ampleur ces dernières années, et pas seulement pour la recherche d’information, mais aussi en reconnaissance des formes et autres (Boucher et al., 2002). La motivation de cette approche est de se dire qu’un système automatisé en vision par ordinateur peut apporter une aide substantielle au processus de décision humain, mais ne peut complètement remplacer l’humain (du moins, pas aujourd’hui), et ce particulièrement dans les domaines demandant une haute expertise ou une abstraction sémantique qu’il serait impossible ou presque d’incorporer dans un logiciel informatique. Dans bien SETIT2005 des cas, quelques clics de souris, permettent de débloquer un problème plus efficacement que le plus puissant des algorithmes. Ce cas de figure utilise la complémentarité entre la machine d’une part, puissante pour le traitement de volumes importants de données, et l’humain d’autre part, garant du contexte d’utilisation et de l’abstraction sémantique nécessaire. Ce contexte et cette sémantique peuvent être apprises par la machine, mais bien souvent qu’au prix d’hypothèses simplificatrices ou d’une application très spécialisée. En recherche d’information, cette complémentarité entre la machine et l’humain est encore plus évidente, puisqu’il est presque impossible de connaître les intentions complètes de l’utilisateur formulant une nouvelle requête. Prenons l’exemple très simple des moteurs de recherche existant sur Internet. A partir d’une première requête, l’utilisateur sélectionne les réponses qu’il juge les plus satisfaisantes pour sa requête, accumule de nouvelles informations et reformule une nouvelle requête en ajoutant ou modifiant ses motsclés pour s’assurer un plus grand nombre de réponses appropriées. C’est du moins la façon instinctive avec laquelle beaucoup de personnes utilisent, sans forcément en prendre conscience, les moteurs de recherche. Santini et al. (Santini et al., 2001) ont proposé ainsi un modèle d’interaction où l’utilisateur change les positions des images dans un espace de représentation pour aider le système à trouver la requête exacte (au sens de ce que veut l’utilisateur). Quelques travaux ont cherché à transposer les techniques d’enrichissement de la requête, entre autres par le relevance feedback (traduit parfois en français par « pertinence rétroactive » ou « retour de pertinence ») (Rui et al., 1998, Giacinto et al., 2004). Au début, les poids des descripteurs pour chaque image de la base sont fixes et objectifs, puisque calculés de façon indépendante, tandis que les requêtes de l’utilisateur sont subjectives par nature. L’objectif est de faire des interactions entre le système et l’utilisateur afin de faire refléter cette subjectivité dans les poids des descripteurs pour la composition de la réponse. A notre connaissance, cette technique est surtout utilisée lorsqu’on a préalablement indexé les images d’une base d’images, et non lorsqu’on calcule sur demande la similarité entre images. Par exemple, les différences d’histogrammes placent toujours l’image requête comme référentiel de la comparaison, tandis qu’une indexation préalable se fait sans image de référence. 4.4 Notre prototype de recherche sémantique Pour notre système, nous nous sommes d’abord intéressés à l’étude de l’interaction dans les systèmes de recherche d’images. Ceci pour permettre au système de modifier la fonction de mesure de similarité entre les images en fonction des requêtes des utilisateurs. Ces requêtes ne peuvent, bien sur, être comprises qu’après quelques interactions avec l’utilisateur. Cette section montre le prototype que nous étudions actuellement. Ces interactions se font via les aspects suivants : • Des exemples et des contre-exemples de réponses à la requête ; • Les régions des images utiles pour préciser la requête. Concernant le premier point, il s’agit d’un aspect classique en recherche d’informations (au sens général), mais étrangement peu exploité en recherche d’images. On retrouve quelques travaux traitant le cas de plusieurs images requêtes positives (Iqbal et al., 2003), mais à notre connaissance presque rien sur le cas des images requêtes négatives, qui sont plus complexe à incorporer dans la fonction de mesure de similarité. Pour le deuxième point, il est essentiel pour comprendre si l’utilisateur s’intéresse à la globalité de l’image (scènes similaires), ou qu’à une portion de l’image, qui peut se trouver en avant-plan ou arrièreplan selon les cas. Cela permet à l’utilisateur d’exprimer des requêtes dans le genre : « je veux les images ayant un arrière-plan de montagnes enneigées comme ces exemples, mais sans me soucier du contenu d’avant-plan ». La figure 6 montre un exemple de requête interactive. A partir d’une première image requête, le système renvoie les premiers résultats sous la forme d’un graphique 2D (voir figure 6a), où la requête se situe dans le coin en bas à gauche, et les autres étant présentées selon la distance des caractéristiques de base, soit pour cet exemple, l’histogramme RVB vs l’histogramme HSV (deux espaces couleurs complémentaires). Dans le cas de plus de trois caractéristiques utilisées dans le calcul de la fonction de similarité, une analyse en composantes principales permet de ne retenir que les deux axes principaux et assurer une représentation dans un plan 2D pour l’utilisateur. Cette réprésentation permet une meilleure interaction avec l’utilisateur par sa disposition plus intuitive des résultats dans un même plan. Ensuite, l’utilisateur peut sélectionner les exemples (positifs) et les contre-exemples (négatifs) pour affiner sa requête (voir figure 6b). Dans ce cas-ci, toutes les régions de l’image contribuent à la nouvelle requête. Mais il est également possible de choisir pour certaines images les régions positives et négatives, permettant un niveau de détail plus grand (figure 6c). Il est à remarquer que la représentation en régions suit la segmentation grossière (dite « faible ») que nous avons discuté en section 3.2.3 et qui est déjà utilisée par le système pour les calculs. Même si cette segmentation ne correspond pas toujours exactement aux souhaits de l’utilisateur en terme de précision de requête, elle représente néanmoins la façon pour le SETIT2005 5. Réflexions sur une extension multimédia L’extension naturelle des travaux que nous avons présentés dans cet article est de définir un cadre de recherche d’informations multimédia. En effet, si beaucoup de travaux existent sur les médias pris séparément, il existe peu de recherches faite sur le couplage entre plusieurs sources d’informations, telle que l’image, la vidéo, la parole, le son et le texte. Il s’agit d’un axe de recherche que nous débutons seulement, mais nous jugeons utile de présenter certaines réflexions brutes sur le sujet, car cela peut orienter les travaux non seulement sur le multimédia, mais aussi sur chaque média isolé afin d’obtenir une meilleure convergence le moment voulu. (a) N Il existe plusieurs travaux couplant l’image et le texte, ou la vidéo et le texte (Ide et al., 2003), mais pour nombre de ces travaux, la recherche principale se fait sur le texte, ou les annotations de l’image, et le contenu de l’image est bien souvent négligé dans la fonction de recherche. Une difficulté majeure dans le couplage multimédia est de faire correspondre des informations de natures différentes. Y (b) N Y (c) Figure 6. Prototype de système de recherche interactif. (a) Représentation graphique des résultats de la première requête. (b) Sélection d’images exemples positifs (Y – un seul éléphant avec le ciel) et exemples négatifs (N – un troupeau d’éléphant). (c) Sélection de régions segmentées comme exemples positifs (Y- le ciel) et exemples négatifs (N – le cheval). système de représenter le contenu de l’image. La précision de la segmentation n’est pas un grand problème en comparaison avec les fossés sensoriel et sémantique, et avec les différences d’illumination et d’apparence des différentes images souhaitées par la requête. Dans la recherche d’informations textuelles, les éléments de base manipulés par le système sont des mots de vocabulaire, ou des phrases, qui existent déjà dans la langue. Le travail consiste principalement à extraire la sémantique à partir de ces mots, ce qui n’est pas forcément facile, mais les recherches dans ce domaine s’appuie sur la structure existante de la langue et sur tous les travaux déjà effectués par les linguistes. Nous pouvons dire que la requête possède déjà une sémantique « intermédiaire ». Le terme « intermédiaire » réfère au fait que nous connaissons déjà la(les) définition(s) de ces mots, mais qu’il reste à extraire la sémantique globale de la combinaison des mots. Plusieurs progrès ont été faits sur ce type de recherche, dont les meilleurs exemples sont les moteurs de recherche sur Internet qui existent aujourd’hui, même s’il demeure encore plusieurs problèmes à résoudre (Baeza-Yates et al., 1999). Dans la recherche d’informations avec la parole, la tâche est déjà plus difficile. D’un signal audio, il faut d’abord effectuer la reconnaissance de la parole, et les meilleurs systèmes aujourd’hui arrivent à de bons taux de reconnaissance selon les langues et les conditions d’acquisition (Cox et al. 2000). Une fois la reconnaissance des mots effectués, alors cette recherche d’informations peut s’appuyer sur tous les travaux existants pour la recherche d’informations textuelles, car nous sommes revenus presqu’au point de départ, en ayant obtenu les mots exprimés, à quelques termes manquants près. Pour la recherche d’informations avec l’image, le problème est plus difficile, car il n’existe pas de langage ou de vocabulaire structurant le contenu de l’image. De plus, l’interprétation de l’image est SETIT2005 complexifiée par l’existance des fossés sensoriel et sémantique déjà discutés dans la section 2.2. Dans le cas de la recherche d’informations par la vidéo, le problème est presque le même, sauf que nous possédons quelques informations supplémentaires avec le mouvement, ce qui permet plus aisément de segmenter l’image, de séparer l’arrière-plan de l’avant-plan et de définir les objets importants pour la requête. Mais avec l’absence de structure de vocabulaire et de langage, l’interprétation sémantique de l’image est beaucoup plus difficile, et surtout, le couplage avec les autres médias d’informations, comme le texte et la parole, n’est pas évident. Cependant, il est possible de faire une recherche d’informations en additionnant les résultats de recherches séparées sur chaque média, mais cette solution n’est pas satisfaisante, car elle n’exploite pas à leur juste valeur les complémentarités existantes entre les médias. Une solution à ce problème a déjà été discuté à la section 4.2. La définition de concepts, par l’utilisation d’ontologies ou d’autres techniques, est une première voie vers la structuration des éléments de l’image en un vocabulaire exploitable en complémentarité avec d’autres médias. C’est à ce prix qu’il sera possible d’établir une véritable complémentarité entre les médias. Car une fois que le vocabulaire de chaque média sera structuré (ou au moins semi-structuré), alors il sera possible d’établir des règles de raisonnement. Un exemple de règle est de relier un mouvement rapide dans une vidéo avec un bruit sec simultané. Les deux médias séparés peuvent être difficile à interpréter, mais pris ensemble l’hypothèse d’un choc ou d’un chute devient plus plausible. Il est à prévoir que nous assisterons dans les prochaines années à l’émergence de véritables systèmes de recherche d’information multimédia utilisant des raisonnements croisés et complémentaires entre les différents médias. Mais cela ne pourra se faire que par la définition d’une structure, ou d’un vocabulaire, pour l’interprétation de chaque média. Ceci est d’autant plus vrai pour l’image ou la vidéo. Ce n’est qu’en recherchant des voies pour exprimer le contenu de l’image sur le plan sémantique que les raisonnements entre médias pourront être réalisés. Alors qu’aujourd’hui, bon nombre de travaux profitent de l’information provenant des autres médias pour palier le manque de structure de l’image, nous espérons que l’avenir verra aussi l’émergence de travaux où le contenu de l’image servira aussi à palier le manque de connaissances pour les autres médias, comme c’est le cas pour le raisonnement humain. 6. Conclusions La recherche d’images similaires est un domaine qui attire de plus en plus l’attention des groupes de recherche. La problématique est de bien comprendre l’intention des utilisateurs et de trouver des descripteurs efficaces pour exprimer le contenu de l’image. Dans cet article, nous avons d’abord présenté quelques notions sur les systèmes de recherche par le contenu symbolique, et avons présenté nos travaux dans ce domaine. Mais en utilisant seulement des caractéristiques symboliques, un système de recherche se retrouve rapidement limité. C’est pourquoi nos travaux porte sur l’ajout de sémantique dans un système de recherche des images par le contenu. Aujourd’hui, deux approches complémentaires permettent d’ajouter de la sémantique dans un tel système : définitions des concepts (par ontologies ou autres) et interaction homme-machine. On retrouve assez facilement des travaux utilisant l’une ou l’autre de ces approches. Cependant, il n’existe pas à notre connaissance de travaux regroupant ces deux techniques et il s’agit d’un manque grave à notre avis. Ces approches répondent à deux objectifs différents. Une ontologie permet de définir la structure des concepts présents dans l’image, tandis que l’interaction permet de définir les intentions de l’utilisateur dans une requête. Nous soutenons que ces objectifs sont complémentaires et ne devraient pas être dissociés si l’on souhaite obtenir un système de recherche non seulement performant, mais surtout répondant aux besoins et attentes des utilisateurs. Certaines idées et le prototype de recherche sémantique présentés dans cette article restent à compléter. Mais la réflexion sur les concepts d’extraction de sémantique qui est développée permet de voir plus clair sur l’avenir de la recherche d’images par le contenu. Ces points sont d’autant plus valables dans l’optique d’un système multimédia de recherche par le contenu. Un tel système, couplant texte, parole, son, image et vidéo, doit permettre l’échange d’informations entre les différents médias pour l’interprétation du contenu, et ainsi pour la recherche robuste d’informations similaires. Références R. Alferez and Y.F. Wang. Image indexing and retrieval using image-derived, Geometrically and Illumination Invariant Features. Proc. of the 2001 IEEE Multimedia Conference, Tokyo (Japan), 2001. Y. Aloimonos, I. Weiss, and A. Bandyopadhyay. Active Vision. International Journal on Computer Vision, 1(4), pp. 333-356, January 1987. R. Baeza-Yates and B. Ribeiro-Neto. Modern Information Retrieval. Addison-Wesley, 1999. D.H. Ballard and C.M. Brown. Principles of Animate vision. CVGIP: Image Understanding, 56(1), pp. 3-21, July 1992. A. Boucher. Une approche décentralisée et adaptative de la gestion d'informations en vision. Thèse de Doctorat en Informatique, Université Joseph Fourier, 1999. SETIT2005 A. Boucher, P.J. Hidalgo, M. Thonnat, J. Belmonte, C. Galan, P. Bonton and R. Tomczak. Development of a semi-automatic system for pollen recognition. Aerobiologia, 18(3-4), pp. 195-201, Sept.-Dec. 2002. R. Clouard, A. Elmoataz, C. Porquet and M. Revenu. BORG: a Knowledge-based system for the automation of Image Segmentation Task. IEEE Intertnational Conference on Image Processing and its Applications, pp. 524-528, 1995. Edinburgh (UK). R.V. Cox, C.A. Kamm, L. Rabiner, J. Schroeter and J.G. Wilpon. Speech and Language Processing for NextMillennium Communications Services. Proceedings of the IEEE, vol. 88, no 8, pp. 1314-1337, August 2000. A. Dong and B. Bhanu. Active Concept Learning for Image Retrieval in Dynamic Databases. Proc. of Int. Conf. on Computer Vision (ICCV), vol. 1, pp. 90, 2003. D.A. Forsyth and J. Ponce. Computer Vision – A Modern Approach. Prentice-Hall, 2003. L. Germond, C. Garbay, C. Taylor, and S. Solloway. Coopération entre processus guidés par les données et processus guidés par les modèles pour la segmentation. Actes GRETSI, Grenoble (France), vol. 2, pp. 371-374, 1997. G. Giacinto and F. Roli. Nearest-Prototype Relevance Feedback for Content Based Image Retrieval. Proc. of Int. Conf. on Pattern Recognition (ICPR), 2004. Y. Gong, G. Proietti and C. Faloutsos. Image Indexing and Retrieval Based on Human Perceptual Color Clustering. Proc. of International Conference on Computer Vision and Pattern Recognition(CVPR), June 1998. J. Huang, S.Kumar, M. Mitra, W.J. Zhu and R. Zabih. Image Indexing Using Color Correlograms. Proc. of Conf. on Comp. Vision and Patt. Recog.(CVPR), San Juan (Puerto Rico), pp. 762-768, 1997. I. Ide, H. Mo and N. Katayama. Threading news video topics. Proc. of 5th ACM SIGMM International Workshop on Multimedia Information Retrieval, pp. 239-246, Berkeley (CA,USA), 2003. Q. Iqbal and J.K. Aggarwal. Combining structure, color and texture for image retrieval: a performance evaluation. IEEE Int. Conf. on Patt. Recog. (ICPR), Quebec (Canada), 2002. Q. Iqbal and J.K. Aggarwal. Feature Integration, Multiimage Queries and Relevance Feedback in Image Retrieval. Proc. of 6th International Conference on Visual Information Systems (VISUAL), Miami (FL, USA), pp. 467-474, 2003 N. Maillot, M. Thonnat and C. Hudelot. Ontology Based Object Learning and Recognition: Application to Image Retrieval. International Conference on Tools with Artificial Intelligence (ICTAI), 2004. D. Marr. Vision. W.H. Freeman, 1982. G. Medioni and Sing Bing Kang, editors. Emerging Topics in Computer Vision. IMSC Press Multimedia Series, Prentice-Hall PTR, chap. 8, 2005. P. Mulhem, J.H. Lim, W.K. Leow and M. Kankanhalli, Advances in Digital Home Image Albums, in Multimedia Systems and Content-Based Image Retrieval, Idea Publishing, chap. 9, pp. 201-226, 2003. S. A. Nene, S. K. Nayar and H. Murase. Columbia Object Image Library (COIL-100). Technical Report CUCS006-96, February 1996. V. Mezaris, I. Kompatsiaris and M. Strintzis. An Ontology Approach to Object-Based Image Retrieval. Proc. of International Conference on Image Processing (ICIP), vol. 2, pp. 511-514, Sept. 2003. D. Park, J. Park and J.H.Han. Image Indexing using Color Histogram in the CIELUV Color Space. Proc. of the 5th Japan-Korea Joint Workshop on Computer Vision, pp. 126-132, January 1999. G. Pass and R. Zabih. Histogram refinement for contentbased image retrieval. Proc. of the Third IEEE Workshop on Applications of Computer Vision, Sarasota (FL, USA), Dec. 1996. Y. Rui, T.S. Huang, M. Ortega and S. Machrotra. Relevance Feedback: A Power Tool for Interactive Content-Based Image Retrieval. IEEE Transactions on Circuits and Video Technology, vol. 8, no 5, Sept. 1998. S. Santini, A. Gupta, and R. Jain. Emergent Semantics though interaction in Image Databases. IEEE Transactions on Knowledge and Data Engineering, vol. 13, no. 3, pp. 332-351, May/June 2001. E.D. Sciascio. Similarity Evaluation In Image Retrieval Using Simple Features. Proc. of Storage and Retrieval for Image and Video Databases V, February 8-14, San Jose (CA, USA), vol. 3022, pp. 467-477, 1997. A.W.M. Smeulders, M. Worring, S.Santini, A.Gupta and R. Jain. Content-Based Image Retrieval at the End of the Early Years. IEEE Trans. on Patt. Anal. and Machine Intell., vol. 22, no 12, pp. 1349-1380, Dec.2000. M. Stricker and A. Dimai. Color indexing with weak spatial constraints. SPIE Proc., vol. 2670, pp. 29 - 40, 1996. Y. Sun and S. Ozawa. A novel image retrieval algorithm by using salient points in wavelet domain. Proc. of Asian Conference on Computer Vision (ACCV), 2004 M.J. Swain and D.H. Ballard. Color indexing. Int. J. of Computer Vision, vol. 7, no. 1, pp. 11-22, 1991. N. Vandenbroucke. Segmentation d’images couleur par classification de pixels dans des espaces d’attributs colorimétriques adaptés - Application à l’analyse d’images de football. Thèse de doctorat, Université des Sciences et Technologies de Lille, 2000. J.Z. Wang, J. Li, G. Wiederhold. SIMPLIcity: Semanticssensitive Integrated Matching for Picture Libraries. IEEE Trans. on Patt. Anal. and Machine Intell., vol 23, no.9, pp. 947-963, 2001. J.Z. Wang, G. Wiederhold, O. Firschein, and S.X. Wei. Content-based image indexing and searching using Daubechies wavelets. International Journal of Digital Libraries, pp. 311-328, Springer-Verlag, 1998. M. Weber, M. Welling and P. Perona. Towards Automatic Discovery of Object Categories. IEEE Conf. on Comp. Vision and Patt. Recog. (CVPR), vol. 2, p. 101, 2000.