Comment extraire la sémantique d`une image ?

Transcription

Comment extraire la sémantique d`une image ?
SETIT 2005
3rd International Conference: Sciences of Electronic,
Technologies of Information and Telecommunications
March 27-31, 2005 – TUNISIA
Comment extraire la sémantique d’une image ?
Alain Boucher* et Thi-Lan Le**
*
Institut de la Francophonie pour l’Informatique, Hanoi, Vietnam
[email protected]
**
Centre de Recherche International MICA, Institut Polytechnique de Hanoi, Vietnam
[email protected]
Résumé: Dans cet article, nous présentons un état de l’art de la recherche d’images par le contenu, avec certains
résultats, mais aussi les problèmes qui subsistent. Nous proposons notre système de recherche symbolique d’images
basé avant tout sur la couleur et la texture. À partir des connaissances existantes sur la recherche d’images par le
contenu symbolique, nous discutons de façons pour ajouter de la sémantique dans le processus d’analyse de l’image. Il
existe deux méthodes pour arriver à cela : définition de concepts (ontologie) et interaction homme-machine. Nous
présentons notre approche et nos résultats préliminaires et les discutons dans le but de parvenir à concevoir un système
utile pour l’homme, c’est-à-dire exploitant les données au niveau sémantique. De plus, nous discutons des extensions
possibles de ces mécanismes vers la recherche d’informations multimédias, où l’image côtoie la vidéo, la parole, le son
et le texte. Dans cette optique, nous démontrons que la meilleure voie possible est de lier ces médias très différents via
l’extraction de sémantique.
Mots clés: Bases de données multimédia, Recherche d’information, Interaction, Sémantique, Traitement d’images.
utilisateurs humains d’un tel système.
1. Introduction
La dernière décennie a vu une explosion du
nombre d’articles publiés dans le domaine de
l’indexation et de la recherche d’images. La mise à
portée de chacun d’appareils photos et de caméras
numériques, conjugée avec la montée en puissance et
en stockage des ordinateurs, ont contribuées à créer à
la fois un besoin, mais aussi certaines réponses dans
ce domaine. Plusieurs équipes de recherche ont
développés des travaux dans ce sens, ce qui a
débouché sur plusieurs avancées dans le problème
plus général du traitement d’images et de la vision par
ordinateur. Ce nouveau problème, ou défi, a redéfini
en des termes nouveaux les objectifs du traitement
automatique des images, et cela a conduit à de
nouvelles réflexions simplement par l’introduction
d’une problématique légèrement différente à ce qui se
faisait avant.
Nous nous intéressons dans cet article à
l’interprétation du contenu des images à des fins
d’indexation et de recherche d’information. Deux
niveaux d’interprétation d’une image sont définis :
symbolique, ou bas niveau, et sémantique, ou haut
niveau. L’objectif de la recherche étant d’obtenir une
interprétation de l’image au niveau sémantique, afin
de communiquer des résultats fidèles aux attentes des
Dans la section 2 de cet article nous revenons en
arrière et relions l’historique des travaux en vision par
ordinateur aux problèmes d’aujourd’hui en
interprération, analyse et recherche d’informations au
niveau sémantique de l’image. Ensuite, dans la section
3, nous discutons de recherche d’images par le
contenu symbolique et présentons aussi nos résultats
actuels dans le domaine. Dans la section 4, nous nous
intéressons à la recherche d’information au niveau
sémantique, où nous présentons les approches
possibles et discutons de notre prototype dans ce
domaine. Enfin, la section 5 contient des quelques
réflexions sur l’évolution du domaine vers la
recherche d’information multimédia.
2. Evolution de la notion de sémantique
2.1. En vision par ordinateur…
La recherche en traitement d’images et en vision
par ordinateur s’est orientée pendant de nombreuses
années sur l’extraction d’informations et sur la
reconnaissance des éléments qui constituent l’image.
On retrouve ici notamment les travaux de Marr
(Marr, 1982) qui a clairement défini les étapes de la
vision par ordinateur en partant de la segmentation et
l’extraction de caractéristiques de base (bas niveau) et
SETIT2005
progressant de façon unidirectionnelle vers
l’interprétation de l’image (haut niveau). Cette
approche, qualifiée d’ascendante, a longtemps dominé
et est encore très largement utilisé aujourd’hui.
Fossé sémantique
Maison
Il existe un autre courant de pensée, attestant que
l’interprétation ne pouvait se faire que si elle était
dirigé par un but. Il s’agit de l’approche descendante,
partant du haut niveau et allant vers le bas niveau
(Clouard et al., 1995).
Malgré tous les efforts et les avancées qui ont été
faits, le problème demeure encore entier, ou presque.
Comme dans plusieurs autres domaines lorsqu’on
hésite entre deux voies opposées, la solution probable
se trouve probablement quelque part entre les deux.
Dans cette optique, il existe aussi plusieurs travaux
combinant les approches ascendante et descendante
(Germond et al., 1997). L’extraction d’informations
bas niveau est nécessaire, mais l’analyse « en
aveugle » de l’image entière est impossible et il faut
cibler un ou quelques objectifs que l’on désire
accomplir par les traitements.
L’analogie est facile avec la vision humaine, ou la
vision sert à déterminer et à accomplir l’action. On ne
fait pas que voir, tel un observateur extérieur, mais
nous sommes au centre de la scène et notre survie
dépend de notre vision. Cette analogie a, entre autres,
motivé toute une philosophie de recherche autour de
ce qu’on appelle la vision active (Aloimonos et al.,
1987) et ses dérivées. Malgré de nombreuses et réelles
avancées, le problème de contrôle entre le bas niveau
et le haut niveau n’est toujours pas résolu aujourd’hui,
et les percées vers le grand public des applications de
vision haut niveau ne sont pas encore à la hauteur des
attentes. Comment concilier le bas niveau, plutôt
mathématique, avec le haut niveau, plutôt du domaine
de l’intelligence artificielle ? Ce problème était
autrefois largement vu comme un problème de
contrôle uniquement (Boucher, 1999), et les efforts
ciblaient l’améloration de ce contrôle dans les
systèmes de vision.
2.2. … et en recherche d’images par le contenu
Après tout cela est arrivé l’essor d’un nouveau
domaine qu’est l’indexation et la recherche d’images.
En fait, le domaine n’est pas nouveau, puisqu’il
provient directement du problème, plus vaste, de la
recherche d’information (Baeza-Yates et al, 1999),
mais on peut dire, sans se tromper, qu’il y a eu un
véritable engouement de la part des équipes de
recherche de partout dans le monde vers ce domaine il
y a environ une dizaine d’années seulement, pour des
raisons évoquées dans l’introduction. Outre les
avancées techniques, ce domaine a aussi contribué à
de nouvelles réflexions sur le domaine. Le problème
était redéfini, car on ne cherche plus à reconnaître les
éléments constituant l’image, mais on cherche la
similarité entre les images. Cette nouvelle définition
de la tâche a sans doute fait naître de nombreux
Monde
RGB = (225,0,32)
Forme = 1,23
Caméra
Fossé sensoriel
Figure 1. Le fossé sensoriel entre le monde observé et
l’image acquise ainsi que le fossé sémantique entre
l’analyse par l’ordinateur et l’interprétation humaine
de l’image.
espoirs. De nombreux travaux ont été publiés sur la
recherche d’images par le contenu symbolique, et cela
a permis de nombreuses avancées sur l’utilisation de
la couleur, des textures, des formes, et autres
invariants de l’image.
Cependant, après l’euphorie initiale, on retombe
sur les mêmes vieux problèmes, mais cette fois, et
c’est une nouveauté, on leur donne des noms : le fossé
sensoriel et le fossé sémantique (voir figure 1).
Le fossé sensoriel était déjà connu, et même très
bien documenté et travaillé. Il intervient avant même
l’analyse bas niveau de l’image, soit au niveau de
l’acquisition de l’image. Il est défini comme « le fossé
entre les objets dans le monde réel et l’information
contenue dans une description (informatique) dérivée
de l’enregistrement de cette scène » (Smeulders et al.,
2000). Il s’agit de la projection d’une réalité, souvent
3D et continue, dans une représentation informatique
discrète et 2D. Ce fossé est soit accepté par les
chercheurs travaillant sur les images 2D, ou repoussé
par les chercheurs travaillant sur les images 3D ou
stéréoscopiques.
En imagerie 2D, l’hypothèse courante de travail est
que dans tous les cas, l’humain réussit à utiliser, et à
interpréter, les images 2D, donc l’ordinateur pourrait
très bien le faire aussi. Cette hypothèse est nécessaire
dans la pratique puisque la masse d’images qui nous
entoure est bien souvent qu’en 2D, ce qui fait que le
besoin d’outils pour travailler, et interpréter, les
images 2D est criant et bien réel. Cependant, cette
hypothèse ne fait que renforcer le deuxième fossé, en
limitant les informations disponibles et en repoussant
une partie du traitement vers l’interprétation, soit plus
haut dans la chaîne de traitement.
SETIT2005
64
65
65
66
66
59
(a)
60
62
66
66
64
63
69 100 149 151
68 97 145 148
70 95 142 146
68 90 135 140
64 84 129 134
62 88 130 128
(b)
Figure 2. Représentations différentes d’une même image
évoquant des sémantiques différentes. (a) Représentation en
niveau de gris, interprétée sémantiquement par l’humain.
(b) Représentation matricielle d’une partie de l’image,
manipulable par l’ordinateur.
Le fossé sémantique est le plus difficile à traiter.
Depuis plusieurs années, les chercheurs tournaient
autour de ce fossé sans véritablement le nommer, ce
qui est chose faite aujourd’hui. Le fossé sémantique
est définit comme « le manque de concordance entre
les informations qu’on peut extraire des données
visuelles et l’interprétation qu’on ces mêmes données
pour un utilisateur dans une situation déterminée »
(Smeulders et al., 2000).
Ce fossé n‘est ni plus ni moins que le même
problème de liaison entre traitements de bas niveau et
traitements de haut niveau, sauf que maintenant, il est
clairement vu comme un problème de gestion
d’informations et non uniquement comme un
problème de contrôle. Et même si l’application en
indexation et recherche d’images a permis pendant un
certain temps de redéfinir l’objectif des traitements, on
se heurte de nouveau à un problème récurrent en
vision par ordinateur (qui relève d’ailleurs autant de la
vision par ordinateur que de l’intelligence artificielle).
Nous résumons, en simplifiant outrageusement, le
problème avec la figure 2. Ce que nous voyons et
interprétons est représenté à la figure 2a : une voiture
que nous voyons et imaginons très bien. La figure 2b
représente une portion de la première image sous
forme de matrice de nombres. Il s’agit de la
représentation utilisée par l’ordinateur pour traiter les
images : une matrice de nombres. Il est important de
noter que ces deux représentations sont duales et
entièrement équivalentes, comme chacun le sait.
Pourtant, la seconde représentation ne nous évoque
absolument aucun sentiment équivalent à la première
image.
Que se passe-t-il ? Par notre constitution, notre
éducation, notre apprentissage de la vie, notre volonté
de survie et par d’autres phénomènes qui dépassent le
cadre de cet article, nous sommes capable d’extraire le
contenu sématnique de la première représentation,
tandis que l’ordinateur n’arrive pas à extraire de
sémantique, que de la symbolique, de l’une ou l’autre
des représentations.
Or, pour la majorité des applications où
l’ordinateur interagit avec l’homme, où l’ordinateur
tente d’apporter une solution à un problème de
l’homme, celui-ci s’attend à un dialogue se situant au
niveau sémantique. Même dans un discours au niveau
symbolique, l’homme ajoute sans le vouloir une
interprétation sémantique aux symboles, ce qui fausse
la compréhension entre l’homme et la machine.
Sans pouvoir éviter ce phénomène, il faut en
prendre conscience dans la recherche de systèmes
adaptés pour l’homme, ce que nous discuterons en
section 4. Mais auparavant, la prochaine section
continue la discussion sur la recherche d’images au
niveau symbolique en expliquant et discutant les
résultats de notre système.
3. Recherche d’images par le contenu
symbolique
3.1. Intérêt de l’approche
Nous avons déjà mentionné l’intérêt actuel porté
sur les bases d’images, les techniques d’indexation et
les techniques de recherche d’images dans de telles
bases. Cependant, dans les applications pratiques de
ces bases d’images que l’on retrouve aujourd’hui, que
ce soit pour les chaînes de télévision, les journaux, les
musées et mêmes pour les moteurs de recherche sur
Internet qui proposent des solutions de recherche
d’images, l’indexation et la recherche de ces images se
fait en se basant majoritairement sur des annotations
textuelles ou des éléments de texte qu’on peut
rattacher aux images. Dans plusieurs cas (chaînes de
télévision, journaux, …), l’archivage des images et
des séquences vidéos ne se fait qu’au prix d’une étape
d’annotation manuelle à l’aide de mots-clés. Cette
indexation représente une tâche longue et répétitive
pour l’humain, surtout avec les bases d’images qui
deviennent aujourd’hui de plus en plus grandes. De
plus, cette tâche est très subjective à la culture, à la
connaissance et aux sentiments de chaque personne.
Le besoin de méthodes d’indexation et de
recherche directement basées sur le contenu de
l’image n’est donc plus à démontrer. Partant de
l’image, cette approche se base essentiellement sur des
descripteurs extraits automatiquement à partir de
l'image telles que la couleur, la texture, la forme, et
tout autre descripteur de l’image qu’on peut imaginer.
Elle est indépendante des personnes et du contexte,
donc plus objective. Mais il est difficile de trouver des
descripteurs puissants pour représenter les images.
Nous avons construit un premier système pour la
recherche d’images basé essentiellement sur la couleur
et la texture. Cependant, tel que déjà argumenté dasn
la section précédente, nous reconnaissons qu’utilisées
seules, ces caractéristiques symboliques ne peuvent
pas satisfaire pleinement les requêtes des utilisateurs.
La raison principale de cet état de fait est qu’un
utilisateur pense sa requête en termes sémantiques
(une montagne, une maison ou une personne connue),
et non en termes de valeurs symboliques extraites
(zone rouge, texture rayée, etc.) des images. Mais il
SETIT2005
faut commencer quelque part et ces caractéristiques
sont la première piste d’information que nous
possédons. Il faut donc les exploiter à leur juste
mesure. L’aspect sémantique est discuté à la section 4.
Un système de recherche d’images par le contenu
symbolique est donc un système se basant sur les
couleurs, les textures, les formes, ainsi que d’autres
caractéristiques. Mais une image contient beaucoup de
caractéristiques. Donc, comment peut-on choisir les
caractéristiques adéquates et comment peut-on
combiner ces caractéristiques ? Ce sont ces aspects
que nous discutons ici.
3.2. Caratéristiques symboliques de l’image
3.2.1. La couleur
La couleur est très souvent le premier descripteur
qui est employé pour la recherche d’images. Plusieurs
travaux ont déjà prouvé qu’il s’agit d’un descripteur
efficace (Smeulders et al., 2000). Une technique très
utilisée pour la couleur est l’intersection
d’histogrammes (Swain et al., 1991). Les
histogrammes sont faciles et rapides à calculer, et
robustes à la rotation et à la translation. Cependant
l’utilisation d’histogrammes pour l'indexation et la
recherche d’images pose quatre problèmes (Gong et
al., 1998). Premièrement, ils sont de grandes tailles,
donc par conséquent il est difficile de créer une
indexation rapide et efficace en les utilisant tels quels.
Deuxièmement, ils ne possèdent pas d’informations
spatiales
sur
les
positions
des
couleurs.
Troisièmement, ils sont sensibles à de petits
changements de luminosité, ce qui est problématique
pour comparer des images similaires, mais acquises
dans des conditions différentes. Et quatrièmement, ils
sont inutilisables pour la comparaison partielle des
images (objet particulier dans une image), puisque
calculés globalement sur toute l’image. Plusieurs
travaux récents ont été effectuées pour améliorer ces
problèmes. Il existe deux approches suivies par les
chercheurs : l’une ajoute des informations spatiales à
l’histogramme, l’autre utilise d’autres espaces de
codage des couleurs qui se rapprochent plus de la
perception humaine.
La première approche ajoute des informations
spatiales aux histogrammes. Dans (Stricker et al.,
2004), les auteurs ont divisé une image en cinq blocs
fixés superposés et ils ont extrait les trois premiers
moments d’inertie de chaque bloc pour créer un
vecteur de descripteurs. Pass et Zabih (Pass et al.,
1996) ont ajouté de la cohérence spatiale dans des
histogrammes. Un pixel est cohérent s'il appartient à
une région validée par la segmentation et incohérent
autrement (soit les pixels situés hors des régions
segmentées). Les valeurs d’un histogramme sont
divisées en deux classes en fonction des pixels
correspondants à ces valeurs : classe cohérente et
classe incohérente. La comparaison entre deux
histogrammes devient la comparaison entre les valeurs
d’histogrammes dans les classes correspondantes.
Huang et al. (Huang et al., 1997) ont proposé le
corrélogramme et l’auto-corrélogramme.
La deuxième approche recherche d'autres espaces
de couleurs qui se basent sur la perception de couleur
de l’humain. L’espace RVB est un espace de couleur
utilisé couramment, par facilité, dans tous les systèmes
de vision automatique, mais il n’est pas forcément le
mieux adapté. En effet, les trois composantes RVB
sont très dépendantes les unes des autres. Un simple
changement d’éclairage dans la scène modifie les trois
composantes, alors que les objets de la scène n’ont pas
changés de couleur, mais se sont simplement
assombris ou éclairés. Dans (Smeulders et al., 2000)
les auteurs ont présenté quelques expérimentations
intéressantes pour utiliser d’autres espaces en
indexation, tandis que Park et al. (Park et al., 1999)
ont proposé l'espace CIE LUV et Gong et al. (Gong &
al., 1998) ont employé l’espace HVC. Un panorama
des travaux existants permet de trouver plusieurs
espaces couleurs différents comme solution au lieu
d’un espace unique. La solution se trouve
probablement dans l’utilisation de plusieurs espaces
complémentaires (Vandenbroucke, 2000).
Dans notre système de recherche d’images, nous
avons adopté les espaces RVB et HSV, choisis pour
leur complémentarité.
3.2.2. La texture
La texture, autre primitive visuelle, est étudiée
depuis une vingtaine d’années et plusieurs techniques
ont été développées pour l’analyser. Une méthode très
connue pour analyser la texture est la matrice de cooccurrences de Haralick. Afin d'estimer la similarité
entre des matrices de co-occurrences, quatre
caractéristiques extraites de ces matrices sont
largement utilisées : l’énergie, l’entropie, le contraste
et le moment inverse de différence.
Il existe aussi d’autres méthodes pour analyser les
textures dont celle basée sur les filtres de Gabor.
Après avoir appliquée la transformation de Gabor sur
une image, une région de texture est caractérisée par la
moyenne et la variance des coefficients de
transformation. Un vecteur de caractéristiques est
construit en utilisant ces caractéristiques comme
composants.
Une méthode n’ayant pas forcément d’avantage
majeur sur l’autre, nous avons utilisé les matrices de
co-occurrences pour notre système de recherche
d’images.
3.2.3. Caractéristiques globales vs locales
A la base, les caractéristiques présentées
précédemment sont calculées de façon globale sur
l’image. Cependant, un système basé uniquement sur
des caractéristiques globales ne peut pas donner les
résultats désirés. Soit une image composée de
plusieurs objets ayant des caractéristiques, couleurs et
textures, très différentes, le vecteur de caractéristiques
global extrait à partir de l’image entière perd les
SETIT2005
informations locales (les objets) et ne produit qu’une
moyenne grossière du contenu de cette image. Par
contre, l’analyse uniquement basée sur des
caractéristiques locales risque de perdre le sens global
de l’image, en submergeant celui-ci dans un flot de
petits détails inutiles. Par conséquent, un compromis
doit être trouvé, différent selon les applications et
selon les requêtes individuelles, entre caractéristiques
globales et caractéristiques locales.
Deux approches différentes peuvent être
employées pour calculer les caractéristiques locales.
La première approche consiste à diviser une image en
utilisant une grille et les caractéristiques de chaque
bloc sont calculées pour chaque case de cette grille.
Dans la figure 3a, l'image est divisée en 12 zones de
même taille et les caractéristiques sont calculées pour
chacune de ces zones.
La deuxième approche consiste à segmenter
l’image pour la diviser en zones locales plus proches
des objets constituant l’image et ensuite calculer les
caractéristiques pour chacune des régions extraites. La
segmentation est une étape qu'on souhaiterait éviter,
en raison de tous les problèmes pour choisir une
"bonne" méthode de segmentation valide pour toutes
les images de la base d’images. Cependant, la division
d'une image en régions ou objets d'intérêt est souvent
nécessaire pour pouvoir s’attaquer ensuite à
l'extraction d’informations sémantiques à partir de
l'image. Plutôt que de viser une segmentation exacte
(en terme d’interprétation de l’image), on préfère
souvent parler de « groupement de pixels » (Forsyth et
al., 2003) ou encore de « segmentation faible »
(Medioni et al., 2005) selon les auteurs. Dans les deux
cas, il s’agit simplement d’oublier le découpage précis
en terme d’objets, mais plutôt de découper l’image en
régions similaires du point de vue caractéristiques
mesurées sur l’image (voir figure 3b). Cette dernière
idée apparaît comme plus logique, car l’idée même
d’objet est une vue sémantique de l’image, or il est
facile de conclure à la lumière des innombrables
travaux en segmentation des dernières décennies que
segmentation bas niveau (basée uniquement sur les
caractéristiques issues de l’image) et découpage
sémantique de l’image sont deux idées complètement
différentes. Un objet tel que nous le percevons dans
l’image n’est pas forcément homogène en termes de
caractéristiques, tandis qu’une zone homogène de
l’image peut très bien contenir plusieurs objets
différents.
Dans notre système de recherche d’images, nous
combinons approche globale et approche locale dans
la mesure de la similarité entre deux images. Du point
de vue symbolique, les deux approches sont
complémentaires dans la mesure de la similarité. En
effet, tant que la requête n’est pas mieux définie (voir
la section 4.3 sur l’interaction pour la recherche
sémantique), aucune information ne permet de
conclure que les images recherchées doivent être
semblables dans leur globalité, ou dans leurs
(a)
(b)
Figure 3. Deux découpages différents de l’image. (a)
Découpage en grille de l’image. (b) Découpage par la
segmentation division-fusion de l’image.
composants. L’approche locale utilisée repose soit sur
la division d’une image, soit par découpage en grille
ou par segmentation, en quelques zones générales
d'intérêt, sans rechercher le calcul exact de toutes les
régions. Pour ce faire, nous utilisons une technique
très connue qu’est la segmentation par division-fusion.
Nous recherchons des régions homogènes, mais
utilisons comme critère d’arrêt de l’algorithme la
division de l’image en 3 à 10 régions maximum (voir
figure 3b). Encore une fois, sans précision sur la
requête, il est inutile de chercher le découpage
« parfait » pour deux raisons : (1) la définition même
de perfection dans ce cas est subjective à chaque
personne voire à chaque requête et (2) les zones
similaires recherchées dans la base d’images ne sont
que similaires et pas identiques.
3.2.4. Autres caractéristiques de l’image
Il existe plusieurs autres caractéristiques, ou
descripteurs, de l’image qui peuvent être utilisées pour
mesurer la similarité d’une image, telles que la forme,
les points d’intérêt, les invariants, et plus encore. La
forme est une caratéristique visuelle importante et elle
est une des caractéristiques de base pour décrire le
contenu d'une image. Cependant, la description des
formes est une tâche difficile, surtout dans un contexte
de « segmentation faible » et dans un contexte où on
recherche la similitude et non l’exactitude. Ainsi dans
les systèmes de recherche récents, peu emploient la
forme comme critère de recherche.
D'autres caractéristiques telles que des invariants,
les points d’intérêts sont recherchés pour améliorer les
performances des systèmes de recherche d’images
(Alfarez et al., 2001, Sun et al., 2004, Wang et al.,
1998). Iqbal et Aggarwal (Iqbal et al., 2002) ont ajouté
la structure de l'image à la couleur et la texture pour le
système CIRES. Dans (Sciascio & al., 1997), les
auteurs ont présenté un système de recherche d’images
basé sur la couleur, l’orientation d'objet et la position
relative. Chacune de ces combinaisons a des avantages
et des inconvénients et chacune peut être bien adaptée
pour certaines bases d'images, mais ne fonctionnera
pas correctement avec d'autres.
Les problèmes du bon choix de caractéristiques
pour décrire l’image et de la pondération de ces
caractéristiques ne sont pas encore résolus. Alors
qu’un consensus minimal sur l’utilisation de la couleur
SETIT2005
et de la texture semble se dégager des travaux
présentés ces dernières années, certaines systèmes
ajoutent d’autres caractéristiques, variables selon les
systèmes et surtout selon les applications visées.
Quant à la pondération des caractéristiques dans la
fonction de mesure de la similarité entre les images,
elle varie aussi fortement selon les systèmes, les
applications et mêmes selon les requêtes. La solution
semble se trouver dans l’adaptation de la fonction et
de ses poids, mais selon quels critères ? Ces critères ne
sont pas forcément d’ordre symbolique, mais plutôt
d’ordre sémantique. Nous reviendrons sur ce sujet à la
section 4.3.
3.3. Notre système de recherche symbolique
Dans le cadre de nos recherches, nous développons
actuellement un système de recherche d’images par le
contenu. Nous présentons dans cette section la partie
symbolique de ce système avant d’exposer dans les
sections suivantes les extensions sémantiques de ce
système. Les caractéristiques de base retenues sont la
couleur et la texture. Pour la couleur, deux espaces de
couleur différents sont combinés : RVB et HSV. La
comparaison se fait en calculant les intersections
d’histogrammes (Swain et al., 1991). Notre système
utilise à la fois les histogrammes globaux (sur toute
l’image) et locaux (selon un découpage par blocs en
grille, ou par segmentation – voir section 3.2.3). Pour
la texture, nous calculons les matrices de cooccurrences et nous avons créé un vecteur de
caractéristiques en extrayant les quatre caractéristiques
les plus appropriées des matrices : l’énergie,
l’entropie, le contraste et le moment inverse de
différence. L'utilisateur choisit une requête et une
méthode avec quelques paramètres. Le système
calcule les vecteurs de caractéristiques pour chaque
image de la base d’images et les compare pour
proposer ses résultats.
Ce système est assez similaire à d’autres systèmes
dans sa conception, sauf que l’accent a été mis dans la
flexibilité
de
manipulation
des
différentes
caractéristiques de l’image. Cette flexibilité nous sera
très utile afin d’augmenter les capacités du systèmes
par l’ajout de raisonnement au niveau sémantique
(voir section 4).
http://www1.cs.columbia.edu/CAVE/research/
softlib/coil-100.html.
La figure 4 montre l’interface de base de notre
système, ainsi que quelques exemples de résultats en
utilisant les deux bases d’images mentionnées, avec
les seize premiers résultats d’une requête qui sont
présentés avec leurs noms, leurs distances avec la
requête, ainsi que leurs rangs.
La figure 5 montre pour chaque classe d’images
(10) de la base d’images Wang les courbes de
précision vs rappel. Nous ne montrons pas les courbes
pour l’autre base d’images (Columbia COIL-100), car
ces courbes ne sont pas représentatives, à cause de la
simplicité relative de la base dans ce contexte
(précision=100 pour toute valeur de rappel ou
presque). Ces résultats, ainsi que ceux de la figure 4,
sont comparables à d'autres travaux déjà publiés sur
des bases d’images similaires. Cependant, ils ne
peuvent être considérés comme parfaits, puisque
même si nous retrouvons dans ces résultats des
autobus ou des boîtes de comprimés, aucune
information sémantique n’a été utilisée et rien ne
garanti qu’en complexifiant la base d’images utilisée
les résultats seront les mêmes. On le voit dans le
deuxième exemple (figure 4b) où les boîtes de
couleurs et textures similaires sont mélangées aux
(a)
3.4. Evaluation et bases d’images
Pour évaluer et valider notre système de recherche
d’images, nous avons utilisé deux bases d’images
disponibles sur Internet à des fins de recherche :
•
•
la base de 1000 images (10 classes x 100
images/classe) de J.Z. Wang de l’Université de
Pennsylvanie
(Wang
et al., 2001) :
http://wang.ist.psu.edu/ ;
la base de 7200 images (100 objets x 72
images/objet) de l’Université Columbia (COIL100)
(Nene
et
al.,
1998)
:
(b)
Figure 4. Interface et exemples de résultats de notre
système de recherche des images par le contenu
symbolique. (a) Base d’images de Wang. (b) Base
d’images Columbia COIL-100.
SETIT2005
déboucher sur de réelles avancées répondant à des
besoins et applications divers, tant personnels que
professionnels.
Figure 5. Courbes de précision versus rappel pour les
10 classes d’images de la base d’images de Wang.
résultats.
Sur ce point, il est à noter que l’évaluation faite
avec les bases d’images actuellement disponibles sur
Internet est limitée, car la majorité de ces bases sont
calibrées pour la recherche et ne correspondent pas
forcément aux images rencontrées dans les
applications réelles et grand public. Le principal
avantage des bases utilisées ci-dessus réside dans leur
disponibilité pour tous afin de comparer les différents
travaux de recherche. Pour les applications réelles, les
images ne comportent pas forcément qu’un seul objet,
mais souvent plusieurs objets en avant-plan et
possiblement plusieurs objets en arrière-plan. Ce qui
fait donc qu’une image n’appartient pas qu’à une seule
classe, mais à plusieurs classes. Ce qui peut
compliquer le processus de recherche d’images, mais
aussi le processus d’évaluation. Dans cet optique, nous
développons actuellement une base de plus de 8000
images annotées et acquises en conditions réelles sans
a priori d’utilisation pour la recherche (photos
collectées de plusieurs photographes amateurs).
Chaque image fait partie de plusieurs classes
différentes et le système devra donc s’adapter aux
classes souhaitées par l’utilisateur. Cette base est
toujours en cours de développement et sera disponible
pendant l’année 2005. Une démonstration de l’état
actuel de la base est consultatble sur Internet en allant
sur http://www.mica.edu.vn/ImagesDemo/.
4. Recherche d’images par le contenu
sémantique
Raisonner au niveau sémantique signifie que
l’analyse de l’image se fait en termes d’objet et de
contenu, et non pas seulement en termes de
statistiques sur les couleurs, les textures ou autres
caractéristiques bas niveau de l’image. Ce qui
demande un complément d’information certain à la
méthode, car par définition, seules les caractéristiques
de base sont disponibles immédiatement dans l’image.
La sémantique elle-même n’est pas inscrite dans
l’image, mais se trouve ailleurs. Il faut donc
rechercher ces sources extérieures nous donnant accès
aux clés de décodage sémantique de l’image.
Nous soutenons que la sémantique exprimée dans
une image dépend de deux éléments :
• du niveau de connaissances et de la perception
qu’a l’observateur de cette image ;
• de l’objectif poursuivi par l’utilisateur de cette
image lorsqu’il la regarde.
Et c’est pourquoi cette sémantique doit retrouvée
selon
deux
approches
complémentaires
et
indissociables : (1) l’une recherche des moyens pour
« connecter » (ou lier) la connaissance sémantique
humaine
et
l’apparence
de
l’image
(les
caractéristiques extraites de celle-ci), (2) l’autre
recherche des méthodes pour comprendre l’objectif de
l’utilisateur, le sens de sa requête. Et c’est avec la
combinaison des deux approches que l’on pourra faire
émerger la sémantique de l’image. Grâce à notre
connaissance, nous voyons qu’une tache verte
observée dans une image correspond à de la
végétation, ce que l’ordinateur ne peut savoir. Ensuite,
nos buts conditionnent notre compréhension de
l’image. Par exemple, dans (Ballard et al. 1992), selon
la question posée à un observateur d’une image, le
parcours, le regard posé et les informations recueillies
dans l’image varient. Il en est de même en recherche
d’images similaires où une requête peut signifier
différents buts selon le contexte (Santini & al., 2001).
Nous poursuivons cette présentation par l’étude de
ces deux approches : (1) la définition des concepts de
l’image et (2) l’interaction avec l’utilisateur. Nos
recherches sur ce sujet n’étant pas encore complétées,
nous présentons dans la suite certains éléments
seulement de notre prototype de recherche d’images
par le contenu sémantique.
4.1. Qu’est-ce que la sémantique d’une image ?
Après avoir présenté les aspects d’un système de
recherche d’images par le contenu symbolique, illustré
avec les résultats de notre système, nous présentons
maintenant les extensions possibles d’un tel système
pour traiter les images au niveau sémantique, c’est-àdire au niveau de jugement que l’humain porte en
regardant les images. C’est à cette condition que la
recherche d’information sur les images pourra
4.2. Définitions des concepts
La définition des concepts est la définition de
termes sémantiques que nous voulons utiliser pour
décrire l’image et leurs définitions en termes de
caractéristiques que nous pouvons extraire de l’image.
Les deux éléments sont importants, car la définition
seule d’un vocabulaire ne permettra pas au système de
retrouver ces termes dans l’analyse automatique de
SETIT2005
l’image.
Il existe plusieurs mécanismes de représentation de
connaissances issus du domaine de l’intelligence
artificielle. Nous retenons ici le plus utilisé ces
dernières années en recherche, soit les ontologies.
Selon (Mezaris & al., 2003) : «Une ontologie peut être
définie comme des spécifications d'un vocabulaire de
representation pour un domaine partagé du discours
qui peut inclure des définitions de classes, des
relations, des fonctions et d'autres objets ».
Mais il existe un problème récurrent à toute
représentation de connaissances pour l’image.
Comment connecte-t-on la connaissance haut niveau
et l’apparence de l’image ? Dans (Maillot et al., 2004),
les auteurs présentent une méthode pour définir des
concepts visuels. Ces concepts visuels permettent de
connecter la connaissance de domaine et l’apparence
de l’image en utilisant de l’apprentissage de
caractéristiques. Chaque concept est appris à l’aide
d’exemples extraits manuellement des images. La
segmentation manuelle d’exemples est utilisée ici pour
fournir de bons exemples pour l’apprentissage, mais
en même temps cela limite la capacité du système
pour retrouver la même qualité de régions en
segmentation automatique. Les auteurs travaillent
actuellement sur ce point. Mais comment peux-t-on
travailler dans un contexte général, et de
« segmentation faible » (voir section 3.2.3) et fournir
un vocabulaire sémantique « de qualité » au système
de recherche ?
Dans (Mulhem et al. 2003), les auteurs utilise un
vocabulaire général pour identifier les visages, les
foules, le ciel, le sol, l’eau, le feuillage, les montagnes,
les bâtiments, etc. La représentation des concepts et le
raisonnement sur ceux-ci se font à l’aide de graphes
conceptuels, autre technique répandue.
Dans tous ces cas, la difficulté majeure est le
nombre de concepts sémantiques que l’on peut donner
au système. Alors qu’il est relativement aisé de faire
apprendre au système un certain nombre de concepts
généraux, le problème devient très complexe
lorsqu’on désire apprendre un nombre important de
concepts. Sauf dans le cas d’applications spécifiques,
où l’on peut sur-spécialiser le système, il est difficile
dans le cas général de faire une sélection pertinente de
concepts qui seraient valides pour tous les usages
imaginables, ou même pour restreindre un peu, tous
les usages généraux imaginables.
Pour connecter les concepts sémantiques aux
caractéristiques de l’image, l’apprentissage est une
tendance populaire et efficace (Dong et al., 2003,
Weber et al., 2000), aussi bien ici que dans plusieurs
domaines de l'informatique en général. On le voit
comme la meilleure manière pour ajouter la
connaissance dans le système sans imposer une vision
définie par l’humain de cette connaissance.
Une difficulté de l’apprentissage qui est connue
depuis longtemps, mais qui devient plus flagrante en
recherche d’images similaires, du fait des visées grand
public et généraliste, est le choix de la base
d’exemples pour apprendre les caractéristiques.
Contrairement à d’autres applications en vision,
aucune hypothèse, ou très peu, ne peut être faite sur
l’acquisition des images. Ce qui fait que nous
souhaitons être capable à la fois de traiter des images
acquises en condition d’intérieur ou d’extérieur, de
jour comme de nuit, et de tout objet possible vu de
n’importe quel côté. Le dernier point rappelle le fossé
sensoriel (voir section 2.2). Ce fossé limite les
interprétations possibles d’une image, sachant que les
apparences des objets peuvent être trop différentes
selon les points de vue. Il s’agit du moins d’une limite
dans les conditions technologiques actuelles, puisque
le cerveau humain est capable d’une telle abstraction.
La représentation dec concepts sémantiques
couplée à des techniques d'apprentissage pour lier les
concepts à l’image est une étape nécessaire pour
obtenir la recherche d’images par le contenu
sémantique, malgré les difficultés évoquées ci-haut.
Cependant, et malgré cela, il n’est pas possible de
prévoir, ou d’apprendre, toutes les questions possibles
des utilisateurs lors de requêtes de recherche d’images
similaires. Il s’agit de la plus grande limite à
l’utilisation de méthodes de représentation de
connaissance et d'apprentissage automatique.
4.3. Interaction avec l’utilisateur
Avec une seule requête, le système ne peut pas
comprendre les intentions de l’utilisateur, parce que la
sémantique de l’image change lorsqu’on change de
contexte. Santini et al. (Santini et al., 2001) ont donné
un bon exemple de cela, en expliquant qu’une même
image (une peinture d’un visage) utilisée par un même
utilisateur dans deux contextes différents possède
deux sémantiques différentes : l’une est une peinture,
visant à rechercher d’autres peintures, l’autre est un
visage, visant à rechercher d’autres visages, peints ou
non. Pour palier ce problème, quelques systèmes ont
intégré des interfaces où les utilisateurs peuvent
interagir avec le système. Par ces interactions, le
système apprend les intentions de l’utilisateur et rend
des résultats qui peuvent satisfaire l’utilisateur.
L’idée de construire des systèmes semi-interactifs
pour résoudre des problèmes de vision par ordinateur
prend de plus en plus d’ampleur ces dernières années,
et pas seulement pour la recherche d’information,
mais aussi en reconnaissance des formes et autres
(Boucher et al., 2002). La motivation de cette
approche est de se dire qu’un système automatisé en
vision par ordinateur peut apporter une aide
substantielle au processus de décision humain, mais ne
peut complètement remplacer l’humain (du moins, pas
aujourd’hui), et ce particulièrement dans les domaines
demandant une haute expertise ou une abstraction
sémantique qu’il serait impossible ou presque
d’incorporer dans un logiciel informatique. Dans bien
SETIT2005
des cas, quelques clics de souris, permettent de
débloquer un problème plus efficacement que le plus
puissant des algorithmes.
Ce cas de figure utilise la complémentarité entre la
machine d’une part, puissante pour le traitement de
volumes importants de données, et l’humain d’autre
part, garant du contexte d’utilisation et de l’abstraction
sémantique nécessaire. Ce contexte et cette
sémantique peuvent être apprises par la machine, mais
bien souvent qu’au prix d’hypothèses simplificatrices
ou d’une application très spécialisée. En recherche
d’information, cette complémentarité entre la machine
et l’humain est encore plus évidente, puisqu’il est
presque impossible de connaître les intentions
complètes de l’utilisateur formulant une nouvelle
requête.
Prenons l’exemple très simple des moteurs de
recherche existant sur Internet. A partir d’une
première requête, l’utilisateur sélectionne les réponses
qu’il juge les plus satisfaisantes pour sa requête,
accumule de nouvelles informations et reformule une
nouvelle requête en ajoutant ou modifiant ses motsclés pour s’assurer un plus grand nombre de réponses
appropriées. C’est du moins la façon instinctive avec
laquelle beaucoup de personnes utilisent, sans
forcément en prendre conscience, les moteurs de
recherche. Santini et al. (Santini et al., 2001) ont
proposé ainsi un modèle d’interaction où l’utilisateur
change les positions des images dans un espace de
représentation pour aider le système à trouver la
requête exacte (au sens de ce que veut l’utilisateur).
Quelques travaux ont cherché à transposer les
techniques d’enrichissement de la requête, entre autres
par le relevance feedback (traduit parfois en français
par « pertinence rétroactive » ou « retour de
pertinence ») (Rui et al., 1998, Giacinto et al., 2004).
Au début, les poids des descripteurs pour chaque
image de la base sont fixes et objectifs, puisque
calculés de façon indépendante, tandis que les
requêtes de l’utilisateur sont subjectives par nature.
L’objectif est de faire des interactions entre le système
et l’utilisateur afin de faire refléter cette subjectivité
dans les poids des descripteurs pour la composition de
la réponse. A notre connaissance, cette technique est
surtout utilisée lorsqu’on a préalablement indexé les
images d’une base d’images, et non lorsqu’on calcule
sur demande la similarité entre images. Par exemple,
les différences d’histogrammes placent toujours
l’image requête comme référentiel de la comparaison,
tandis qu’une indexation préalable se fait sans image
de référence.
4.4 Notre prototype de recherche sémantique
Pour notre système, nous nous sommes d’abord
intéressés à l’étude de l’interaction dans les systèmes
de recherche d’images. Ceci pour permettre au
système de modifier la fonction de mesure de
similarité entre les images en fonction des requêtes
des utilisateurs. Ces requêtes ne peuvent, bien sur, être
comprises qu’après quelques interactions avec
l’utilisateur. Cette section montre le prototype que
nous étudions actuellement.
Ces interactions se font via les aspects suivants :
•
Des exemples et des contre-exemples de
réponses à la requête ;
•
Les régions des images utiles pour préciser la
requête.
Concernant le premier point, il s’agit d’un aspect
classique en recherche d’informations (au sens
général), mais étrangement peu exploité en recherche
d’images. On retrouve quelques travaux traitant le cas
de plusieurs images requêtes positives (Iqbal et al.,
2003), mais à notre connaissance presque rien sur le
cas des images requêtes négatives, qui sont plus
complexe à incorporer dans la fonction de mesure de
similarité.
Pour le deuxième point, il est essentiel pour
comprendre si l’utilisateur s’intéresse à la globalité de
l’image (scènes similaires), ou qu’à une portion de
l’image, qui peut se trouver en avant-plan ou arrièreplan selon les cas. Cela permet à l’utilisateur
d’exprimer des requêtes dans le genre : « je veux les
images ayant un arrière-plan de montagnes enneigées
comme ces exemples, mais sans me soucier du
contenu d’avant-plan ».
La figure 6 montre un exemple de requête
interactive. A partir d’une première image requête, le
système renvoie les premiers résultats sous la forme
d’un graphique 2D (voir figure 6a), où la requête se
situe dans le coin en bas à gauche, et les autres étant
présentées selon la distance des caractéristiques de
base, soit pour cet exemple, l’histogramme RVB vs
l’histogramme HSV (deux espaces couleurs
complémentaires). Dans le cas de plus de trois
caractéristiques utilisées dans le calcul de la fonction
de similarité, une analyse en composantes principales
permet de ne retenir que les deux axes principaux et
assurer une représentation dans un plan 2D pour
l’utilisateur. Cette réprésentation permet une meilleure
interaction avec l’utilisateur par sa disposition plus
intuitive des résultats dans un même plan.
Ensuite, l’utilisateur peut sélectionner les exemples
(positifs) et les contre-exemples (négatifs) pour affiner
sa requête (voir figure 6b). Dans ce cas-ci, toutes les
régions de l’image contribuent à la nouvelle requête.
Mais il est également possible de choisir pour
certaines images les régions positives et négatives,
permettant un niveau de détail plus grand (figure 6c).
Il est à remarquer que la représentation en régions suit
la segmentation grossière (dite « faible ») que nous
avons discuté en section 3.2.3 et qui est déjà utilisée
par le système pour les calculs. Même si cette
segmentation ne correspond pas toujours exactement
aux souhaits de l’utilisateur en terme de précision de
requête, elle représente néanmoins la façon pour le
SETIT2005
5. Réflexions sur une extension multimédia
L’extension naturelle des travaux que nous avons
présentés dans cet article est de définir un cadre de
recherche d’informations multimédia. En effet, si
beaucoup de travaux existent sur les médias pris
séparément, il existe peu de recherches faite sur le
couplage entre plusieurs sources d’informations, telle
que l’image, la vidéo, la parole, le son et le texte. Il
s’agit d’un axe de recherche que nous débutons
seulement, mais nous jugeons utile de présenter
certaines réflexions brutes sur le sujet, car cela peut
orienter les travaux non seulement sur le multimédia,
mais aussi sur chaque média isolé afin d’obtenir une
meilleure convergence le moment voulu.
(a)
N
Il existe plusieurs travaux couplant l’image et le
texte, ou la vidéo et le texte (Ide et al., 2003), mais
pour nombre de ces travaux, la recherche principale se
fait sur le texte, ou les annotations de l’image, et le
contenu de l’image est bien souvent négligé dans la
fonction de recherche.
Une difficulté majeure dans le couplage
multimédia est de faire correspondre des informations
de natures différentes.
Y
(b)
N
Y
(c)
Figure 6. Prototype de système de recherche interactif. (a)
Représentation graphique des résultats de la première
requête. (b) Sélection d’images exemples positifs (Y – un
seul éléphant avec le ciel) et exemples négatifs (N – un
troupeau d’éléphant). (c) Sélection de régions segmentées
comme exemples positifs (Y- le ciel) et exemples négatifs
(N – le cheval).
système de représenter le contenu de l’image. La
précision de la segmentation n’est pas un grand
problème en comparaison avec les fossés sensoriel et
sémantique, et avec les différences d’illumination et
d’apparence des différentes images souhaitées par la
requête.
Dans la recherche d’informations textuelles, les
éléments de base manipulés par le système sont des
mots de vocabulaire, ou des phrases, qui existent déjà
dans la langue. Le travail consiste principalement à
extraire la sémantique à partir de ces mots, ce qui n’est
pas forcément facile, mais les recherches dans ce
domaine s’appuie sur la structure existante de la
langue et sur tous les travaux déjà effectués par les
linguistes. Nous pouvons dire que la requête possède
déjà une sémantique « intermédiaire ». Le terme
« intermédiaire » réfère au fait que nous connaissons
déjà la(les) définition(s) de ces mots, mais qu’il reste à
extraire la sémantique globale de la combinaison des
mots. Plusieurs progrès ont été faits sur ce type de
recherche, dont les meilleurs exemples sont les
moteurs de recherche sur Internet qui existent
aujourd’hui, même s’il demeure encore plusieurs
problèmes à résoudre (Baeza-Yates et al., 1999).
Dans la recherche d’informations avec la parole, la
tâche est déjà plus difficile. D’un signal audio, il faut
d’abord effectuer la reconnaissance de la parole, et les
meilleurs systèmes aujourd’hui arrivent à de bons taux
de reconnaissance selon les langues et les conditions
d’acquisition (Cox et al. 2000). Une fois la
reconnaissance des mots effectués, alors cette
recherche d’informations peut s’appuyer sur tous les
travaux existants pour la recherche d’informations
textuelles, car nous sommes revenus presqu’au point
de départ, en ayant obtenu les mots exprimés, à
quelques termes manquants près.
Pour la recherche d’informations avec l’image, le
problème est plus difficile, car il n’existe pas de
langage ou de vocabulaire structurant le contenu de
l’image. De plus, l’interprétation de l’image est
SETIT2005
complexifiée par l’existance des fossés sensoriel et
sémantique déjà discutés dans la section 2.2. Dans le
cas de la recherche d’informations par la vidéo, le
problème est presque le même, sauf que nous
possédons quelques informations supplémentaires
avec le mouvement, ce qui permet plus aisément de
segmenter l’image, de séparer l’arrière-plan de
l’avant-plan et de définir les objets importants pour la
requête. Mais avec l’absence de structure de
vocabulaire et de langage, l’interprétation sémantique
de l’image est beaucoup plus difficile, et surtout, le
couplage avec les autres médias d’informations,
comme le texte et la parole, n’est pas évident.
Cependant, il est possible de faire une recherche
d’informations en additionnant les résultats de
recherches séparées sur chaque média, mais cette
solution n’est pas satisfaisante, car elle n’exploite pas
à leur juste valeur les complémentarités existantes
entre les médias.
Une solution à ce problème a déjà été discuté à la
section 4.2. La définition de concepts, par l’utilisation
d’ontologies ou d’autres techniques, est une première
voie vers la structuration des éléments de l’image en
un vocabulaire exploitable en complémentarité avec
d’autres médias. C’est à ce prix qu’il sera possible
d’établir une véritable complémentarité entre les
médias. Car une fois que le vocabulaire de chaque
média sera structuré (ou au moins semi-structuré),
alors il sera possible d’établir des règles de
raisonnement. Un exemple de règle est de relier un
mouvement rapide dans une vidéo avec un bruit sec
simultané. Les deux médias séparés peuvent être
difficile à interpréter, mais pris ensemble l’hypothèse
d’un choc ou d’un chute devient plus plausible.
Il est à prévoir que nous assisterons dans les
prochaines années à l’émergence de véritables
systèmes de recherche d’information multimédia
utilisant des raisonnements croisés et complémentaires
entre les différents médias. Mais cela ne pourra se
faire que par la définition d’une structure, ou d’un
vocabulaire, pour l’interprétation de chaque média.
Ceci est d’autant plus vrai pour l’image ou la vidéo.
Ce n’est qu’en recherchant des voies pour exprimer le
contenu de l’image sur le plan sémantique que les
raisonnements entre médias pourront être réalisés.
Alors qu’aujourd’hui, bon nombre de travaux profitent
de l’information provenant des autres médias pour
palier le manque de structure de l’image, nous
espérons que l’avenir verra aussi l’émergence de
travaux où le contenu de l’image servira aussi à palier
le manque de connaissances pour les autres médias,
comme c’est le cas pour le raisonnement humain.
6. Conclusions
La recherche d’images similaires est un domaine
qui attire de plus en plus l’attention des groupes de
recherche. La problématique est de bien comprendre
l’intention des utilisateurs et de trouver des
descripteurs efficaces pour exprimer le contenu de
l’image. Dans cet article, nous avons d’abord présenté
quelques notions sur les systèmes de recherche par le
contenu symbolique, et avons présenté nos travaux
dans ce domaine.
Mais en utilisant seulement des caractéristiques
symboliques, un système de recherche se retrouve
rapidement limité. C’est pourquoi nos travaux porte
sur l’ajout de sémantique dans un système de
recherche des images par le contenu. Aujourd’hui,
deux approches complémentaires permettent d’ajouter
de la sémantique dans un tel système : définitions des
concepts (par ontologies ou autres) et interaction
homme-machine. On retrouve assez facilement des
travaux utilisant l’une ou l’autre de ces approches.
Cependant, il n’existe pas à notre connaissance de
travaux regroupant ces deux techniques et il s’agit
d’un manque grave à notre avis. Ces approches
répondent à deux objectifs différents. Une ontologie
permet de définir la structure des concepts présents
dans l’image, tandis que l’interaction permet de
définir les intentions de l’utilisateur dans une requête.
Nous
soutenons
que
ces
objectifs
sont
complémentaires et ne devraient pas être dissociés si
l’on souhaite obtenir un système de recherche non
seulement performant, mais surtout répondant aux
besoins et attentes des utilisateurs.
Certaines idées et le prototype de recherche
sémantique présentés dans cette article restent à
compléter. Mais la réflexion sur les concepts
d’extraction de sémantique qui est développée permet
de voir plus clair sur l’avenir de la recherche d’images
par le contenu.
Ces points sont d’autant plus valables dans
l’optique d’un système multimédia de recherche par le
contenu. Un tel système, couplant texte, parole, son,
image et vidéo, doit permettre l’échange
d’informations entre les différents médias pour
l’interprétation du contenu, et ainsi pour la recherche
robuste d’informations similaires.
Références
R. Alferez and Y.F. Wang. Image indexing and retrieval
using image-derived, Geometrically and Illumination
Invariant Features. Proc. of the 2001 IEEE Multimedia
Conference, Tokyo (Japan), 2001.
Y. Aloimonos, I. Weiss, and A. Bandyopadhyay. Active
Vision. International Journal on Computer Vision, 1(4),
pp. 333-356, January 1987.
R. Baeza-Yates and B. Ribeiro-Neto. Modern Information
Retrieval. Addison-Wesley, 1999.
D.H. Ballard and C.M. Brown. Principles of Animate vision.
CVGIP: Image Understanding, 56(1), pp. 3-21, July
1992.
A. Boucher. Une approche décentralisée et adaptative de la
gestion d'informations en vision. Thèse de Doctorat en
Informatique, Université Joseph Fourier, 1999.
SETIT2005
A. Boucher, P.J. Hidalgo, M. Thonnat, J. Belmonte, C.
Galan, P. Bonton and R. Tomczak. Development of a
semi-automatic system for pollen recognition.
Aerobiologia, 18(3-4), pp. 195-201, Sept.-Dec. 2002.
R. Clouard, A. Elmoataz, C. Porquet and M. Revenu.
BORG: a Knowledge-based system for the automation
of Image Segmentation Task. IEEE Intertnational
Conference on Image Processing and its Applications,
pp. 524-528, 1995. Edinburgh (UK).
R.V. Cox, C.A. Kamm, L. Rabiner, J. Schroeter and J.G.
Wilpon. Speech and Language Processing for NextMillennium Communications Services. Proceedings of
the IEEE, vol. 88, no 8, pp. 1314-1337, August 2000.
A. Dong and B. Bhanu. Active Concept Learning for Image
Retrieval in Dynamic Databases. Proc. of Int. Conf. on
Computer Vision (ICCV), vol. 1, pp. 90, 2003.
D.A. Forsyth and J. Ponce. Computer Vision – A Modern
Approach. Prentice-Hall, 2003.
L. Germond, C. Garbay, C. Taylor, and S. Solloway.
Coopération entre processus guidés par les données et
processus guidés par les modèles pour la segmentation.
Actes GRETSI, Grenoble (France), vol. 2, pp. 371-374,
1997.
G. Giacinto and F. Roli. Nearest-Prototype Relevance
Feedback for Content Based Image Retrieval. Proc. of
Int. Conf. on Pattern Recognition (ICPR), 2004.
Y. Gong, G. Proietti and C. Faloutsos. Image Indexing and
Retrieval Based on Human Perceptual Color Clustering.
Proc. of International Conference on Computer Vision
and Pattern Recognition(CVPR), June 1998.
J. Huang, S.Kumar, M. Mitra, W.J. Zhu and R. Zabih. Image
Indexing Using Color Correlograms. Proc. of Conf. on
Comp. Vision and Patt. Recog.(CVPR), San Juan (Puerto
Rico), pp. 762-768, 1997.
I. Ide, H. Mo and N. Katayama. Threading news video
topics. Proc. of 5th ACM SIGMM International
Workshop on Multimedia Information Retrieval, pp.
239-246, Berkeley (CA,USA), 2003.
Q. Iqbal and J.K. Aggarwal. Combining structure, color and
texture for image retrieval: a performance evaluation.
IEEE Int. Conf. on Patt. Recog. (ICPR), Quebec
(Canada), 2002.
Q. Iqbal and J.K. Aggarwal. Feature Integration, Multiimage Queries and Relevance Feedback in Image
Retrieval. Proc. of 6th International Conference on
Visual Information Systems (VISUAL), Miami (FL,
USA), pp. 467-474, 2003
N. Maillot, M. Thonnat and C. Hudelot. Ontology Based
Object Learning and Recognition: Application to Image
Retrieval. International Conference on Tools with
Artificial Intelligence (ICTAI), 2004.
D. Marr. Vision. W.H. Freeman, 1982.
G. Medioni and Sing Bing Kang, editors. Emerging Topics
in Computer Vision. IMSC Press Multimedia Series,
Prentice-Hall PTR, chap. 8, 2005.
P. Mulhem, J.H. Lim, W.K. Leow and M. Kankanhalli,
Advances in Digital Home Image Albums, in
Multimedia Systems and Content-Based Image
Retrieval, Idea Publishing, chap. 9, pp. 201-226, 2003.
S. A. Nene, S. K. Nayar and H. Murase. Columbia Object
Image Library (COIL-100). Technical Report CUCS006-96, February 1996.
V. Mezaris, I. Kompatsiaris and M. Strintzis. An Ontology
Approach to Object-Based Image Retrieval. Proc. of
International Conference on Image Processing (ICIP),
vol. 2, pp. 511-514, Sept. 2003.
D. Park, J. Park and J.H.Han. Image Indexing using Color
Histogram in the CIELUV Color Space. Proc. of the 5th
Japan-Korea Joint Workshop on Computer Vision, pp.
126-132, January 1999.
G. Pass and R. Zabih. Histogram refinement for contentbased image retrieval. Proc. of the Third IEEE Workshop
on Applications of Computer Vision, Sarasota (FL,
USA), Dec. 1996.
Y. Rui, T.S. Huang, M. Ortega and S. Machrotra. Relevance
Feedback: A Power Tool for Interactive Content-Based
Image Retrieval. IEEE Transactions on Circuits and
Video Technology, vol. 8, no 5, Sept. 1998.
S. Santini, A. Gupta, and R. Jain. Emergent Semantics
though interaction in Image Databases. IEEE
Transactions on Knowledge and Data Engineering, vol.
13, no. 3, pp. 332-351, May/June 2001.
E.D. Sciascio. Similarity Evaluation In Image Retrieval
Using Simple Features. Proc. of Storage and Retrieval
for Image and Video Databases V, February 8-14, San
Jose (CA, USA), vol. 3022, pp. 467-477, 1997.
A.W.M. Smeulders, M. Worring, S.Santini, A.Gupta and R.
Jain. Content-Based Image Retrieval at the End of the
Early Years. IEEE Trans. on Patt. Anal. and Machine
Intell., vol. 22, no 12, pp. 1349-1380, Dec.2000.
M. Stricker and A. Dimai. Color indexing with weak spatial
constraints. SPIE Proc., vol. 2670, pp. 29 - 40, 1996.
Y. Sun and S. Ozawa. A novel image retrieval algorithm by
using salient points in wavelet domain. Proc. of Asian
Conference on Computer Vision (ACCV), 2004
M.J. Swain and D.H. Ballard. Color indexing. Int. J. of
Computer Vision, vol. 7, no. 1, pp. 11-22, 1991.
N. Vandenbroucke. Segmentation d’images couleur par
classification de pixels dans des espaces d’attributs
colorimétriques adaptés - Application à l’analyse
d’images de football. Thèse de doctorat, Université des
Sciences et Technologies de Lille, 2000.
J.Z. Wang, J. Li, G. Wiederhold. SIMPLIcity: Semanticssensitive Integrated Matching for Picture Libraries.
IEEE Trans. on Patt. Anal. and Machine Intell., vol 23,
no.9, pp. 947-963, 2001.
J.Z. Wang, G. Wiederhold, O. Firschein, and S.X. Wei.
Content-based image indexing and searching using
Daubechies wavelets. International Journal of Digital
Libraries, pp. 311-328, Springer-Verlag, 1998.
M. Weber, M. Welling and P. Perona. Towards Automatic
Discovery of Object Categories. IEEE Conf. on Comp.
Vision and Patt. Recog. (CVPR), vol. 2, p. 101, 2000.

Documents pareils