Chapitre II

Transcription

Chapitre II
Chapitre II - L’OUTIL :
LES POINTS D’INTÉRÊT
II.1 – L'outil : Les points d'intérêt – Les détecteurs utilisés
Nous nous sommes appuyés sur les travaux du laboratoire RFV concernant la
détection de points d'intérêt dans les images pour les appliquer à la vidéo (voir la
démonstration en ligne [Jolion Démo]). Nous nous limitons ici à une présentation rapide des
détecteurs que nous avons utilisés. Dans un deuxième temps, nous présentons une
expérimentation que nous avons réalisée sur des vidéos réelles et compressées dans le but
de vérifier si le comportement temporel des points d'intérêt permet de les exploiter en vue de
l'analyse du mouvement [Etiévent 99/i] [Etiévent 99/c]. Pour cela, nous avons défini des
critères de stabilité temporelle des points d'intérêt, qui nous ont permis aussi de comparer
les différents détecteurs.
Les points d'intérêt sont des points caractéristiques de l'image qui sont particulièrement
porteurs d'information. Complétés par des descripteurs d'image locaux, ils ont la propriété de
fournir à eux seuls une représentation résumée d'une image (figure 3). Ainsi, un nombre très
réduit de points de l'ordre de 100 peut concentrer l'information la plus importante de l'image,
à comparer aux 100.000 pixels des images que nous analysons ici. Les détecteurs de points
d'intérêt existants recherchent en général des points qui présentent des variations locales
particulières. La configuration classiquement recherchée est le coin, qui est plus spécifique
qu'un contour et se rencontre par conséquent en moins grand nombre dans une image. Les
points d'intérêt sont utilisés pour l'appariement d'images, en particulier en robotique [Allezard
97], en stéréovision ([Serra 96] p.150), et maintenant en indexation d'images [Schmid 96].
Pour ce qui nous concerne plus directement, les points d'intérêt ont commencé à être
exploités pour analyser le mouvement assez récemment, comme nous le verrons au
Chapitre III - p.49.
Figure 3: Carte de points d'intérêt à contraste multirésolution, et image reconstruite à
partir d'une petite partie de l'information de contraste multirésolution [Bres 99].
[Loupias 00] donne un état de l'art sur les détecteurs de points d'intérêt (chapitre 5
§1.2), ainsi que [Schmid 96] au §2 p.8. On peut classer les détecteurs en deux catégories :
les détecteurs construits spécifiquement pour détecter les coins ([Harris 88], Susan [Smith
97/s]), et les détecteurs à base de mesures d'énergie (contraste multirésolution [Bres 99],
points de focalisation [Itti 98], issus d'une carte de saillance qui combine différentes
caractéristiques de l'image à plusieurs échelles). En effet, la notion de coin est bien adaptée
au cadre de la robotique, où on rencontre souvent des scènes d'intérieur avec des objets
géométriques. Par contre elle n'est pas aussi nette dans les images naturelles que l'on
rencontre en indexation, et des détecteurs qui ne l'utilisent pas sont a priori plus adaptés.
Nous verrons toutefois que la première catégorie ne se limite pas à la détection de coins.
36
II.1 – L'outil : Les points d'intérêt – Les détecteurs utilisés
Lorsque nous avons présenté notre démarche, nous avons précisé les raisons pour
lesquelles nous avons voulu tester l'efficacité des points d'intérêt dans le cadre de
l'indexation vidéo par le mouvement (§ I.4.2 p.31). D'une part, ils fournissent une description
résumée de l'image. D'autre part, ils sont caractéristiques et il y a donc peu d'ambiguïté pour
définir leur mouvement, par rapport à des points de contour ou de zones uniformes. En effet,
dans ces derniers cas, il s'agit du problème dit d'ouverture, c'est-à-dire qu'il reste
respectivement un ou deux degrés de liberté dans l'appariement d'une image à la suivante.
?
Figure 4: Appariement entre deux images successives pour un point de contour et
dans le cas d'une zone de l'image qui présente une variation bidimensionnelle, ici un coin.
II.1. Les détecteurs utilisés
Les différentes approches ont un principe commun qui est de calculer en chaque pixel
de l'image une grandeur que nous appellerons "valeur d'intérêt" liée à la configuration du
voisinage. La valeur obtenue est seuillée pour obtenir les points les plus intéressants, et
seuls les points correspondant à des maxima locaux sont conservés.
II.1.1. Le détecteur de Harris
Cette méthode différentielle se fonde sur l'analyse de la variation de la luminance au
voisinage d'un point. Dans le cas d'un coin ou d'une autre configuration complexe qui n'est
pas soumise au problème d'ouverture, la variation de l'image est grande quelle que soit la
direction dans laquelle on effectue un décalage de l'image, par opposition à un contour ou à
une zone homogène.
37
II.1 – L'outil : Les points d'intérêt – Les détecteurs utilisés
Variations quelle que
soit la direction
Peu de
variations
dans cette
direction
Figure 5: Variation du signal dans le cas d'un contour et d'un coin.
Par une approximation au premier ordre, la variation de luminance locale, moyennée
dans le voisinage à l'aide d'une fenêtre gaussienne, se met sous la forme
 I x 2 I x ⋅I y 
où M = FenêtreGaussienne(x, y) ⊗
2 
 
 I x ⋅I y I y 
avec I x et I y, dérivées premières de l'image
[x y]⋅M ⋅ xy
La matrice M dite du gradient carré moyen décrit la manière dont la variation de
luminance se comporte autour du point. Une configuration où l'image présente des variations
dans toutes les directions correspond au cas où les deux valeurs propres de cette matrice
sont de même importance et suffisamment grandes pour ne pas être causées par du bruit.
Dans le cas d'un contour, une valeur propre est prépondérante, et la variation de luminance
ne dépend que d'une seule direction, et reste faible selon la direction du contour.
Pour éviter le calcul des valeurs propres, [Harris 88] prend comme "valeur d'intérêt" la
grandeur suivante:
2
2
det(M) − k ⋅ trace (M) = (λ 1 ⋅ λ 2) − k ⋅ (λ 1 + λ 2) où λ 1 et λ 2 sont les valeurs propres de M.
Cette grandeur favorise en effet les configurations où deux valeurs propres sont
grandes et d'égale importance.
En dehors du seuil sur la "valeur d'intérêt", nous avons trois paramètres : k, qui
influence le nombre de points détectés, la taille de la fenêtre de lissage, ainsi que le choix
d'une méthode d'estimation de la dérivée. Concernant k, l'expérimentation montre selon
plusieurs auteurs qu'un nombre optimal de points est obtenu pour une valeur de l'ordre de
0,04 (on considère qu'un maximum local de la valeur d'intérêt définit un point d'intérêt s'il est
positif). La fenêtre de lissage est réalisée par deux applications de la fenêtre [1 2 1] sur
chaque axe. Nous utilisons l'estimateur de la dérivée de Deriche, avec pour le paramètre α
la valeur usuelle de 1 qui donne priorité aux détails.
II.1.2. Le détecteur Susan
[Smith 97/s] se réfère toujours à la notion de coin. Il considère qu'au niveau d'un coin,
on est en présence de deux objets de luminance différente, qui déterminent deux zones
distinctes dans le voisinage du coin. Si on considère le voisinage d'un pixel donné, la zone
de luminance similaire à celle du pixel est appelée noyau (sur la figure 5, les noyaux sont les
38
II.1 – L'outil : Les points d'intérêt – Les détecteurs utilisés
régions noires à l'intérieur du voisinage circulaire). Ainsi, la valeur d'intérêt du point
considéré est liée à la proportion de points du voisinage appartenant au noyau : pour un coin
à angle droit, on obtient un quart des points, et pour un coin plus aigu ou plus obtus on
obtient au plus la moitié des points, cas qui correspondrait à un contour.
Plus précisément, l'appartenance au noyau n'est pas déterminée par un seuil abrupt
sur la luminance mais de manière floue pour rendre le calcul plus robuste aux variations de
la luminance. Ainsi, pour déterminer la contribution d'un point dans le noyau, on utilise une
fonction avec une transition progressive comme sur la figure 6.
Contribution au noyau
1
Contribution au noyau
Pixel
central
0
Pixel
central
1
0
Niveau de gris
Seuillage standard
Niveau de gris
Seuillage progressif
Figure 6: Seuillage dans le détecteur Susan.
Les paramètres sont donc le seuil sur la valeur d'intérêt, liée à l'angularité du coin, et le
seuil de luminance qui détermine la similarité avec le pixel central.
La simplicité du détecteur Susan lui donne une rapidité très nettement supérieure aux
autres18. Par contre, [Bres 99] montre qu'il est moins robuste à la compression Jpeg, ce qui
risque de poser problème pour des vidéos codées Mpeg.
II.1.3. Le détecteur à contraste multirésolution
Pour s'affranchir du modèle de coin trop lié aux scènes artificielles, [Bres 99] propose
de caractériser les variations de l'image par le contraste, notion mathématiquement plus
faible et qui ne suppose pas de modèle de coin. Le contraste local de luminance mesure la
différence de luminance entre le voisinage immédiat et l'arrière-plan, ce dernier étant pris sur
un voisinage un peu plus grand (le tout est rapporté à la luminance de l'arrière-plan). Le
choix de la taille du voisinage dépend de l'échelle des détails utiles de l'image, qui n'est pas
unique ; d'où l'idée de tenir compte du contraste à plusieurs échelles. La grandeur utilisée
est donc un cumul des contrastes à plusieurs échelles (somme pondérée par une fonction
qui décroît avec la résolution pour favoriser le contraste local).
Ce calcul à plusieurs échelles est effectué à partir d'une pyramide multirésolution
gaussienne de l'image, où on passe d'un niveau à l'autre par une opération de filtrage
gaussien et de sous-échantillonnage. La luminance de l'arrière-plan d'un point est obtenue
par la luminance à la résolution inférieure.
18 Remarquons qu'il existe des cartes matérielles qui effectuent le calcul des points de Harris en temps réel.
39
II.1 – L'outil : Les points d'intérêt – Les détecteurs utilisés
II.1.4. Divers modes de seuillage
Le nombre de points d'intérêt est déterminé par
un seuil sur la "valeur d'intérêt". L'expérience montre
que le nombre de points obtenu avec un seuil fixe est
très variable au cours d'une séquence, en particulier
d’un plan à l'autre. Il peut passer de quelques points
à plusieurs centaines. On remarque en effet sur la
figure 7 qu'au-dessus de 100 points, on se trouve
dans la zone sensible des courbes de réponse des
détecteurs de Harris et de contraste multirésolution.
Or, d’un côté, il est nécessaire d’avoir un
nombre suffisant de points pour obtenir tous les
objets de l’image, comme c'est généralement le cas
avec 200 points. De l'autre, le suivi de points est plus
rapide si on limite le nombre de points.
Ainsi, pour obtenir un nombre de points fixé à
l'avance,
nous
proposons
de
contrôler
automatiquement le seuillage final. Pour cela, on
détecte les points tout d’abord avec un seuil
relativement faible en dessous duquel la mesure
n'est plus significative, pour éviter d'obtenir des
points instables dans les images contenant peu
d'information. On sélectionne alors le nombre voulu
de points en choisissant les plus intéressants, et la
valeur d'intérêt minimale obtenue correspond alors
au seuil définitif. Il s'agit là de la méthode dite du
seuillage par pourcentage appliquée à l'image des
valeurs d'intérêt. Cela permet un réglage rapide
puisqu’une seule extraction des points est
nécessaire.
On peut choisir de régler le seuil soit une fois
pour chaque plan en calculant le seuil à la première
image, soit à chaque image. Cette dernière méthode
est intéressante en particulier en cas de variation de
luminosité. Par contre, s'il y a des changements dans
la scène observée, elle risque de faire disparaître ou
apparaître des points dont la "valeur d'intérêt" reste
constante. Nous utilisons la première méthode
comme référence.
st
i
ar
t
x
e
st
ni
o
p
e
d
er
b
m
o
N
300
200
100
0
0
2
4
Seuil
6
x 10
Harris
st
i
ar
t
x
e
st
ni
o
p
e
d
er
b
m
o
N
300
200
100
0
0
0.5
Seuil
1
Contraste multirésolution
st
i
ar
t
x
e
st
ni
o
p
e
d
er
b
m
o
N
300
200
100
0
0
500
1000
Seuil
1500
2000
Susan
Figure 7: Profil du nombre de
points en fonction du seuil pour
différents détecteurs de points d'intérêt.
Remarque: Pour Susan, régler le seuil final n’est pas forcément le choix le plus adapté. En
effet, ce seuil correspond à l'angularité des coins. Il serait préférable de régler le seuil
d’intensité (celui qui permet de déterminer les deux régions délimitées par le coin), pour
permettre en particulier de détecter des coins dans une image peu contrastée. Mais cela
impliquerait de recalculer complètement les points, jusqu'à trouver le nombre voulu. On
remarque d'ailleurs que la courbe du nombre de points en fonction du seuil n’est pas de
type hyperbolique comme pour les autres détecteurs, mais au contraire à décroissance
plus lente près de l’origine (figure 7).
40
8
-3
II.2 – L'outil : Les points d'intérêt – Le mouvement des points d'intérêt, exemples
II.2. Le mouvement des points d'intérêt, exemples
Dans la perspective de l'analyse du mouvement, nous nous intéressons à la
succession temporelle des cartes de points d'intérêt. Lorsque nous visualisons une
animation de ces cartes, nous percevons clairement le mouvement, et nous distinguons des
groupes de points correspondant aux divers mouvements, par exemple sur la figure 8, le
personnage qui entre et le fond fixe. C'est une confirmation empirique de la validité de
l'approche par les points d'intérêt, et nous allons maintenant vérifier expérimentalement
l'adéquation des points d'intérêt au suivi de mouvement dans des séquences compressées.
Figure 8: Personnage entrant : visualisation statique du mouvement par superposition
temporelle des cartes de points d'intérêt (l'ordre d'apparition des points va du plus sombre au
plus clair).
Figure 9: Danseuse en rotation.
41
II.3 – L'outil : Les points d'intérêt – Expérimentation : La stabilité des points d'intérêt dans les séquences vidéo
II.3. Expérimentation : la stabilité des points d'intérêt dans
les séquences vidéo
II.3.1. Les causes d'instabilité
Un algorithme de suivi implique une certaine stabilité temporelle des éléments. Or, en
indexation vidéo, nous nous plaçons dans des conditions difficiles, avec des vidéos
compressées contrairement au domaine de la robotique. La compression Mpeg produit des
discontinuités dans l'image et une déformation des contours, les "effets de blocs"
(compression spatiale similaire à Jpeg et compensation de mouvement), alors que les points
d'intérêt sont fondés sur des mesures locales.
En outre, par rapport à l'image fixe, nous avons
aussi l'influence du mouvement qui implique une
déformation des objets, ou le changement du
voisinage du point pour la partie qui inclut le fond de
l'image en ce qui concerne les points situés sur le
bord de l'objet.
Le problème de la compression a été abordé
pour les images fixes par [Bres 99]. Nous voulons
maintenant vérifier la stabilité temporelle des points
d'intérêt dans le cas de vidéos réelles et
compressées, et comparer les trois détecteurs décrits
précédemment. La stabilité temporelle signifie pour
nous qu'un point d'intérêt présent dans une image
doit être détecté aussi dans l'image suivante19. Ainsi,
nous allons définir des indices de stabilité, et vérifier
leur validité.
Figure 10: L'effet de bloc
(zoom x5)
Enfin, nous souhaitons déterminer l’influence sur la stabilité du mode de seuillage de
la "valeur d'intérêt".
II.3.2. Le protocole d'expérimentation
II.3.2.1. Les séquences utilisées
Il s’agit d’archives de télévision du corpus de l’Ina : codage Mpeg1 (352 x 288 pixels),
25 images/s, compression à 1.445.600 bit/s [AIM 97] :
• un reportage de 1400 images, avec des scènes de rue et des mouvements de foule,
19 Par contre, nous ne nous intéressons pas à la stabilité spatiale au cours du temps, c'est-à-dire à la précision
spatiale de la détection. Une légère délocalisation des points a pour nous moins d'importance par rapport à
d'autres applications comme la reconstitution tridimensionnelle, puisqu’une description grossière des
mouvements peut nous suffire (dans la limite où la cohérence du mouvement des trajectoires reste suffisante).
42
II.3 – L'outil : Les points d'intérêt – Expérimentation : La stabilité des points d'intérêt dans les séquences vidéo
• une bande annonce de film, de 885 images, avec des plans nombreux, des
personnages en scène d’intérieur, du mouvement.
Concernant les paramètres des détecteurs, nous avons pris des valeurs standards :
pour Susan un seuil de luminosité de 20 niveaux de gris, et pour Harris les paramètres
standards définis au paragraphe (§ II.1 p.37).
Remarque: Les points dus aux bandes noires du bord de l'image ont été supprimés.
II.3.2.2. Les critères de comparaison
Un indice global
Dans un premier temps, nous testons la stabilité du nombre de points extraits, sous la
forme d’un histogramme de la variation du nombre de points par image entre images
successives. Par exemple pour le détecteur de Harris sur la figure 13/GP200A, 240 images
ont une variation du nombre de points de 10% par rapport à la précédente.
Remarque: Les transitions entre plans, qui produisent de grandes variations du nombre de
points, sont supprimées (en fait, leur nombre réduit influe peu).
Un indice d’appariement
D'un point de vue local, nous
testons la stabilité temporelle des points
d'intérêt grâce à un appariement au plus
proche voisin : si un nouveau point
apparaît dans une image, il est apparié
avec un autre point qui, lui, est apparié
aussi
avec
son
véritable
correspondant (figure 11).
Conflit
Points à (t-1)
Points à (t)
Nouveau point.
Figure 11: Conflit d'appariement
Remarque: Ce type d’appariement n’est valable que pour des déplacements faibles par
rapport à la densité des points20. Nos séquences de test présentent des mouvements
moyens, et nous devrons vérifier la robustesse de l’indice par rapport au mouvement.
Le comptage des conflits d’appariement par rapport au nombre de points de l’image
donne donc un indice de la stabilité temporelle des
points (lorsque plusieurs points sont appariés au
même, on compte autant de conflits, en soustrayant un
pour l'appariement correct). Par exemple, pour Susan
sur la figure 14/P200A p.46, on compte 165 images qui
présentent 5 conflits pour 100 points. Cet indice se
rapproche plus de la question du suivi que l'indice
global que nous avons défini puisqu'il se fonde sur un
appariement des points d'intérêt entre images
successives.
A titre d'illustration, l’effet est particulièrement
visible au niveau des changements de plan, où la
modification de la configuration des points produit des
conflits d’appariement multiples (figure 12).
Figure 12: Conflits d'appariement
lors d'un changement de plan.
20 Cet appariement simple ne nous sert pas à faire du suivi.
43
II.3 – L'outil : Les points d'intérêt – Expérimentation : La stabilité des points d'intérêt dans les séquences vidéo
II.3.2.3. Vérifier la robustesse des indices
Nous comparons la stabilité sur deux séquences de nature différente pour éviter de se
placer dans un cas particulier, et nous étudions la dépendance des indices que nous venons
de définir par rapport au nombre de points et au mouvement (celui-ci peut en effet perturber
la méthode d’appariement au plus proche voisin). Pour le nombre de points, nous
comparons les résultats respectivement avec 200 et 100 points (même si cette dernière
valeur ne produit pas toujours suffisamment de points pour détecter tous les objets). Pour le
mouvement, nous comparons les résultats d’une part avec la séquence complète et d’autre
part lorsqu’on exclut les images qui présentent du mouvement.
Nous avions testé d’autres critères, liés à la distance entre points appariés (si un
nouveau point apparaît, il n’aura pas son correspondant dans l'image précédente, il a donc
des chances de s’apparier avec un point plus éloigné). Mais cela donne des résultats non
discriminants, très dépendants du seuillage et du mouvement contrairement aux indices que
nous avons présentés ici.
II.3.3. Résultats pour l'indice global
La figure 13 montre que la variation du nombre de points n'est pas négligeable, mais
reste généralement inférieure à 15%. Le détecteur de Harris produit un nombre de points un
peu plus stable que les autres détecteurs, indépendamment des conditions de nombre de
points et de seuillage.
Toutefois, ces courbes ne présentent pas de différences entre elles très révélatrices,
certainement du fait que la variation du nombre de point dépend plus de la modification du
contenu de l’image que de la stabilité des points d’intérêt. Voyons maintenant l'indice
d'appariement, qui est plus proche de la problématique du suivi.
II.3.4. Résultats pour l'indice d'appariement
La figure 14 montre que nous avons un taux de conflit d'appariement généralement de
l'ordre de 5 à 10% des points. Le détecteur de Harris est plus stable que le détecteur de
Susan, lui-même plus stable que le détecteur à contraste multirésolution, toujours quelles
que soient les conditions d'expérimentation. Concernant les modes de seuillage, que nous
avions présentés au paragraphe II.1.4 (p.40), la figure 15 montre que les résultats sont peu
différents.
Nous remarquons que les distributions du taux de conflit ne sont pas très régulières.
Cela dépend de la séquence (voir la séquence "annonce"), et peut s'expliquer par une taille
de l'échantillon légèrement insuffisante. Soulignons toutefois que l'allure générale des
courbes et les conclusions sont toujours similaires.
44
II.3 – L'outil : Les points d'intérêt – Expérimentation : La stabilité des points d'intérêt dans les séquences vidéo
Figure 13: Stabilité des détecteurs mesurée par l'indice global.
Légende des noms des courbes: indice (G)lobal, seuil (F)ixe, ou calculé une fois par (P)lan,
ou à chaque (I)mage; nombre de points, séquence (A)nnonce ou (R)eportage.
Conditions de détection
Seuil fixe, calculé pour obtenir 200 points à la
1ière image du plan, (180 points/image pour le
contraste multirésolution, 160 pour Harris et
Susan)
Même conditions, avec 100 points à la 1ière
image
Seuil fixé pour toute la séquence (130
points/image en moyenne. Seuils : contraste
0,32, Harris : 0.0003, Susan : 1050)
Comparaison au premier cas
Harris plus stable
Résultats proches (un peu moins
GP100A
favorable, sauf pour Harris)
Résultats très proches (différence
GF130A
légèrement accentuée entre Harris et
les deux autres)
300
300
Contraste
Harris
Susan
250
s
e
g
a
m
i'
d
er
b
m
o
n
Contraste
Harris
Susan
250
200
s
e
g
a
m
i'
d
er
b
m
o
n
150
100
50
0
200
150
100
50
0
10
20
30
40
50
60
70
% variation du nombre de points
80
90
0
100
0
10
20
Courbe GP200A
80
90
100
300
Contraste
Harris
Susan
400
Contraste
Harris
Susan
250
s
e
g
a
m
i'
d
er
b
m
o
n
300
200
100
0
30
40
50
60
70
% variation du nombre de points
Courbe GP100A
500
s
e
g
a
m
i'
d
er
b
m
o
n
Courbe
GP200A
GP200R
200
150
100
50
0
10
20
30
40
50
60
70
% variation du nombre de points
80
Courbe GP200R
90
100
0
0
10
20
30
40
50
60
70
% variation du nombre de points
80
Courbe GF130A
45
90
100
II.3 – L'outil : Les points d'intérêt – Expérimentation : La stabilité des points d'intérêt dans les séquences vidéo
Figure 14: Stabilité des détecteurs mesurée par l'indice d'appariement.
Conditions de détection
Seuil fixe, calculé pour obtenir 200 points à la
1ière image du plan (180 points/image pour le
contraste multirésolution, 160 pour Harris et
Susan) - séquence "Annonce"
Même conditions, en excluant les images
présentant du mouvement
Même conditions, avec 100 points à la 1ière
image
Mêmes conditions pour la séquence
"Reportage" (230 points/image pour le
contraste multirésolution, 210 pour Harris et
Susan ♣)
Comparaison au premier cas
(cas de référence)
Peu de conflits.
Harris > Susan > Contraste
Courbe
P200A
Résultats très proches
MP200A
Conclusion semblable, avec une
stabilité moins bonne pour tous les
détecteurs (écart-type des
distributions nettement plus
important)
Résultats très proches (légèrement
moins favorable pour Susan)
P100A
P200R
♣ Les nombres de points sont différents d'une séquence à l'autre du fait que le seuil est fixe dans chaque plan.
200
100
Contraste
Harris
Susan
150
s
e
g
a
m
i'
d
er
b
m
o
N
80
s
e
g
a
m
i'
d
er
b
m
o
N
100
50
0
0
5
10
15
20
% conflit/nombre de points
25
Contraste
Harris
Susan
60
40
20
0
30
0
5
Courbe P200A
Contraste
Harris
Susan
250
s
e
g
a
m
i'
d
er
b
m
o
N
60
40
20
200
150
100
50
0
5
10
15
20
% conflit/nombre de points
25
Courbe MP200A
46
30
300
Contraste
Harris
Susan
80
0
25
Courbe P100A
100
s
e
g
a
m
i'
d
er
b
m
o
N
10
15
20
% conflit/nombre de points
30
0
0
5
10
15
20
% conflit/nombre de points
25
Courbe P200R
30
II.3 – L'outil : Les points d'intérêt – Expérimentation : La stabilité des points d'intérêt dans les séquences vidéo
Figure 15: Influence du type de seuillage mesurée par l'indice d'appariement.
Conditions de détection
Seuil fixe, calculé pour obtenir 200 points à la
1ière image du plan (180 points/image pour le
contraste multirésolution, 160 pour Harris et
Susan) - séquence "Annonce"
Seuil fixé pour toute la séquence (130
points/image en moyenne. Seuils : contraste
0,31, Harris : 0.0003, Susan : 1050)
Seuil fixe, calculé pour obtenir 200 points à la
1ière image du plan.
Seuil calculé à chaque image pour obtenir 200
points.
Comparaison au premier cas
(cas de référence)
Peu de conflits.
Harris > Susan > Contraste
Courbe
P200A
Résultat assez proche (un peu
meilleur pour Harris)
F130A
(cas de référence pour "Reportage")
P200R
Résultat proche, légèrement meilleur I200R
pour le détecteur à contraste
300
200
Contraste
Harris
Susan
150
s
e
g
a
m
i'
d
er
b
m
o
N
Contraste
Harris
Susan
250
s
e
g
a
m
i'
d
er
b
m
o
N
100
50
200
150
100
50
0
0
5
10
15
20
% conflit/nombre de points
25
0
30
0
5
Courbe P200A
30
300
Contraste
Harris
Susan
120
Contraste
Harris
Susan
250
100
s
e
g
a
m
i'
d
er
b
m
o
N
80
60
40
200
150
100
50
20
0
25
Courbe P200R
140
s
e
g
a
m
i'
d
er
b
m
o
N
10
15
20
% conflit/nombre de points
0
5
10
15
20
% conflit/nombre de points
25
Courbe F130A
30
0
0
5
10
15
20
% conflit/nombre de points
25
Courbe I200R
47
30
II.4 – L'outil : Les points d'intérêt – Expérimentation :Synthèse des résultats
II.4. Synthèse des résultats
Nos résultats sur la stabilité des détecteurs dans des séquences vidéo compressées
Mpeg réelles montrent un taux de conflits d'appariement relativement faible (pour le
détecteur de Harris, le maximum des distributions correspond à un taux de 3%
indépendamment des conditions opératoires). Ils rendent envisageable l'utilisation des points
d'intérêt pour l'analyse du mouvement, ceci d'autant plus que nous n'avons utilisé dans cette
expérimentation aucune des informations exploitées par les méthodes de suivi pour
déterminer les appariements. Toutefois, une question se pose. Nous avions mentionné que
l'effet de bloc Mpeg crée des contours et des coins parasites dans l'image, ce qui est
susceptible d'influencer la détection des points d'intérêt puisqu'elle se fonde sur des mesures
locales. Pourtant, nous obtenons une certaine stabilité des points d'intérêt. En fait, on peut
remarquer que pour chacun des détecteurs, certains facteurs atténuent les effets des
dégradations. Pour le détecteur de Harris, le calcul des dérivées est effectué sur une image
traitée par un filtre passe-bas. Pour le détecteur à contraste, la multirésolution tient compte
de résolutions faibles qui sont peu perturbées par la compression. Pour le détecteur Susan,
la mesure sur le voisinage est statistique donc peu sensible à des perturbations, et de plus
l'opération de seuillage utilisée est rendue plus robuste.
Si on compare les différents types de points d'intérêt, le détecteur de Harris est le plus
stable, suivi par le détecteur Susan, puis par le détecteur à contraste multirésolution21. Cette
conclusion est indépendante du mouvement dans l'image, du nombre de points extraits, et
de la méthode de seuillage. Ce résultat concorde aussi avec les observations que l'on peut
faire en visualisant temporellement les cartes de points d'intérêt : on perçoit en effet un
scintillement dû aux points qui apparaissent ou disparaissent, et on remarque que ce
scintillement est plus léger dans le cas du détecteur de Harris. Nous utiliserons donc
préférentiellement ce détecteur dans la perspective de l'analyse du mouvement.
21 Les résultats sont différents de ceux concernant la résistance à la compression Jpeg, où les détecteurs de
Harris et à contraste multirésolution sont plus robustes que le détecteur Susan [Bres 99]. Cela peut être
expliqué par les différences entre compressions Jpeg et Mpeg, cette dernière utilisant la redondance temporelle
de l'image à l'aide d'une méthode de compensation du mouvement. Cela introduit un lissage et une certaine
diminution de l'effet de bloc sur les images obtenues par prédiction du mouvement, qui sont majoritaires dans
les séquences Mpeg.
Rappelons par ailleurs que pour le détecteur à contraste multirésolution, nous n'avons pas exploité ici la
distribution multirésolution des points d'intérêt mais uniquement ceux issus de la résolution la plus fine, afin de
se placer dans des conditions comparables à celles des autres détecteurs.
48

Documents pareils