Chapitre II
Transcription
Chapitre II
Chapitre II - L’OUTIL : LES POINTS D’INTÉRÊT II.1 – L'outil : Les points d'intérêt – Les détecteurs utilisés Nous nous sommes appuyés sur les travaux du laboratoire RFV concernant la détection de points d'intérêt dans les images pour les appliquer à la vidéo (voir la démonstration en ligne [Jolion Démo]). Nous nous limitons ici à une présentation rapide des détecteurs que nous avons utilisés. Dans un deuxième temps, nous présentons une expérimentation que nous avons réalisée sur des vidéos réelles et compressées dans le but de vérifier si le comportement temporel des points d'intérêt permet de les exploiter en vue de l'analyse du mouvement [Etiévent 99/i] [Etiévent 99/c]. Pour cela, nous avons défini des critères de stabilité temporelle des points d'intérêt, qui nous ont permis aussi de comparer les différents détecteurs. Les points d'intérêt sont des points caractéristiques de l'image qui sont particulièrement porteurs d'information. Complétés par des descripteurs d'image locaux, ils ont la propriété de fournir à eux seuls une représentation résumée d'une image (figure 3). Ainsi, un nombre très réduit de points de l'ordre de 100 peut concentrer l'information la plus importante de l'image, à comparer aux 100.000 pixels des images que nous analysons ici. Les détecteurs de points d'intérêt existants recherchent en général des points qui présentent des variations locales particulières. La configuration classiquement recherchée est le coin, qui est plus spécifique qu'un contour et se rencontre par conséquent en moins grand nombre dans une image. Les points d'intérêt sont utilisés pour l'appariement d'images, en particulier en robotique [Allezard 97], en stéréovision ([Serra 96] p.150), et maintenant en indexation d'images [Schmid 96]. Pour ce qui nous concerne plus directement, les points d'intérêt ont commencé à être exploités pour analyser le mouvement assez récemment, comme nous le verrons au Chapitre III - p.49. Figure 3: Carte de points d'intérêt à contraste multirésolution, et image reconstruite à partir d'une petite partie de l'information de contraste multirésolution [Bres 99]. [Loupias 00] donne un état de l'art sur les détecteurs de points d'intérêt (chapitre 5 §1.2), ainsi que [Schmid 96] au §2 p.8. On peut classer les détecteurs en deux catégories : les détecteurs construits spécifiquement pour détecter les coins ([Harris 88], Susan [Smith 97/s]), et les détecteurs à base de mesures d'énergie (contraste multirésolution [Bres 99], points de focalisation [Itti 98], issus d'une carte de saillance qui combine différentes caractéristiques de l'image à plusieurs échelles). En effet, la notion de coin est bien adaptée au cadre de la robotique, où on rencontre souvent des scènes d'intérieur avec des objets géométriques. Par contre elle n'est pas aussi nette dans les images naturelles que l'on rencontre en indexation, et des détecteurs qui ne l'utilisent pas sont a priori plus adaptés. Nous verrons toutefois que la première catégorie ne se limite pas à la détection de coins. 36 II.1 – L'outil : Les points d'intérêt – Les détecteurs utilisés Lorsque nous avons présenté notre démarche, nous avons précisé les raisons pour lesquelles nous avons voulu tester l'efficacité des points d'intérêt dans le cadre de l'indexation vidéo par le mouvement (§ I.4.2 p.31). D'une part, ils fournissent une description résumée de l'image. D'autre part, ils sont caractéristiques et il y a donc peu d'ambiguïté pour définir leur mouvement, par rapport à des points de contour ou de zones uniformes. En effet, dans ces derniers cas, il s'agit du problème dit d'ouverture, c'est-à-dire qu'il reste respectivement un ou deux degrés de liberté dans l'appariement d'une image à la suivante. ? Figure 4: Appariement entre deux images successives pour un point de contour et dans le cas d'une zone de l'image qui présente une variation bidimensionnelle, ici un coin. II.1. Les détecteurs utilisés Les différentes approches ont un principe commun qui est de calculer en chaque pixel de l'image une grandeur que nous appellerons "valeur d'intérêt" liée à la configuration du voisinage. La valeur obtenue est seuillée pour obtenir les points les plus intéressants, et seuls les points correspondant à des maxima locaux sont conservés. II.1.1. Le détecteur de Harris Cette méthode différentielle se fonde sur l'analyse de la variation de la luminance au voisinage d'un point. Dans le cas d'un coin ou d'une autre configuration complexe qui n'est pas soumise au problème d'ouverture, la variation de l'image est grande quelle que soit la direction dans laquelle on effectue un décalage de l'image, par opposition à un contour ou à une zone homogène. 37 II.1 – L'outil : Les points d'intérêt – Les détecteurs utilisés Variations quelle que soit la direction Peu de variations dans cette direction Figure 5: Variation du signal dans le cas d'un contour et d'un coin. Par une approximation au premier ordre, la variation de luminance locale, moyennée dans le voisinage à l'aide d'une fenêtre gaussienne, se met sous la forme I x 2 I x ⋅I y où M = FenêtreGaussienne(x, y) ⊗ 2 I x ⋅I y I y avec I x et I y, dérivées premières de l'image [x y]⋅M ⋅ xy La matrice M dite du gradient carré moyen décrit la manière dont la variation de luminance se comporte autour du point. Une configuration où l'image présente des variations dans toutes les directions correspond au cas où les deux valeurs propres de cette matrice sont de même importance et suffisamment grandes pour ne pas être causées par du bruit. Dans le cas d'un contour, une valeur propre est prépondérante, et la variation de luminance ne dépend que d'une seule direction, et reste faible selon la direction du contour. Pour éviter le calcul des valeurs propres, [Harris 88] prend comme "valeur d'intérêt" la grandeur suivante: 2 2 det(M) − k ⋅ trace (M) = (λ 1 ⋅ λ 2) − k ⋅ (λ 1 + λ 2) où λ 1 et λ 2 sont les valeurs propres de M. Cette grandeur favorise en effet les configurations où deux valeurs propres sont grandes et d'égale importance. En dehors du seuil sur la "valeur d'intérêt", nous avons trois paramètres : k, qui influence le nombre de points détectés, la taille de la fenêtre de lissage, ainsi que le choix d'une méthode d'estimation de la dérivée. Concernant k, l'expérimentation montre selon plusieurs auteurs qu'un nombre optimal de points est obtenu pour une valeur de l'ordre de 0,04 (on considère qu'un maximum local de la valeur d'intérêt définit un point d'intérêt s'il est positif). La fenêtre de lissage est réalisée par deux applications de la fenêtre [1 2 1] sur chaque axe. Nous utilisons l'estimateur de la dérivée de Deriche, avec pour le paramètre α la valeur usuelle de 1 qui donne priorité aux détails. II.1.2. Le détecteur Susan [Smith 97/s] se réfère toujours à la notion de coin. Il considère qu'au niveau d'un coin, on est en présence de deux objets de luminance différente, qui déterminent deux zones distinctes dans le voisinage du coin. Si on considère le voisinage d'un pixel donné, la zone de luminance similaire à celle du pixel est appelée noyau (sur la figure 5, les noyaux sont les 38 II.1 – L'outil : Les points d'intérêt – Les détecteurs utilisés régions noires à l'intérieur du voisinage circulaire). Ainsi, la valeur d'intérêt du point considéré est liée à la proportion de points du voisinage appartenant au noyau : pour un coin à angle droit, on obtient un quart des points, et pour un coin plus aigu ou plus obtus on obtient au plus la moitié des points, cas qui correspondrait à un contour. Plus précisément, l'appartenance au noyau n'est pas déterminée par un seuil abrupt sur la luminance mais de manière floue pour rendre le calcul plus robuste aux variations de la luminance. Ainsi, pour déterminer la contribution d'un point dans le noyau, on utilise une fonction avec une transition progressive comme sur la figure 6. Contribution au noyau 1 Contribution au noyau Pixel central 0 Pixel central 1 0 Niveau de gris Seuillage standard Niveau de gris Seuillage progressif Figure 6: Seuillage dans le détecteur Susan. Les paramètres sont donc le seuil sur la valeur d'intérêt, liée à l'angularité du coin, et le seuil de luminance qui détermine la similarité avec le pixel central. La simplicité du détecteur Susan lui donne une rapidité très nettement supérieure aux autres18. Par contre, [Bres 99] montre qu'il est moins robuste à la compression Jpeg, ce qui risque de poser problème pour des vidéos codées Mpeg. II.1.3. Le détecteur à contraste multirésolution Pour s'affranchir du modèle de coin trop lié aux scènes artificielles, [Bres 99] propose de caractériser les variations de l'image par le contraste, notion mathématiquement plus faible et qui ne suppose pas de modèle de coin. Le contraste local de luminance mesure la différence de luminance entre le voisinage immédiat et l'arrière-plan, ce dernier étant pris sur un voisinage un peu plus grand (le tout est rapporté à la luminance de l'arrière-plan). Le choix de la taille du voisinage dépend de l'échelle des détails utiles de l'image, qui n'est pas unique ; d'où l'idée de tenir compte du contraste à plusieurs échelles. La grandeur utilisée est donc un cumul des contrastes à plusieurs échelles (somme pondérée par une fonction qui décroît avec la résolution pour favoriser le contraste local). Ce calcul à plusieurs échelles est effectué à partir d'une pyramide multirésolution gaussienne de l'image, où on passe d'un niveau à l'autre par une opération de filtrage gaussien et de sous-échantillonnage. La luminance de l'arrière-plan d'un point est obtenue par la luminance à la résolution inférieure. 18 Remarquons qu'il existe des cartes matérielles qui effectuent le calcul des points de Harris en temps réel. 39 II.1 – L'outil : Les points d'intérêt – Les détecteurs utilisés II.1.4. Divers modes de seuillage Le nombre de points d'intérêt est déterminé par un seuil sur la "valeur d'intérêt". L'expérience montre que le nombre de points obtenu avec un seuil fixe est très variable au cours d'une séquence, en particulier d’un plan à l'autre. Il peut passer de quelques points à plusieurs centaines. On remarque en effet sur la figure 7 qu'au-dessus de 100 points, on se trouve dans la zone sensible des courbes de réponse des détecteurs de Harris et de contraste multirésolution. Or, d’un côté, il est nécessaire d’avoir un nombre suffisant de points pour obtenir tous les objets de l’image, comme c'est généralement le cas avec 200 points. De l'autre, le suivi de points est plus rapide si on limite le nombre de points. Ainsi, pour obtenir un nombre de points fixé à l'avance, nous proposons de contrôler automatiquement le seuillage final. Pour cela, on détecte les points tout d’abord avec un seuil relativement faible en dessous duquel la mesure n'est plus significative, pour éviter d'obtenir des points instables dans les images contenant peu d'information. On sélectionne alors le nombre voulu de points en choisissant les plus intéressants, et la valeur d'intérêt minimale obtenue correspond alors au seuil définitif. Il s'agit là de la méthode dite du seuillage par pourcentage appliquée à l'image des valeurs d'intérêt. Cela permet un réglage rapide puisqu’une seule extraction des points est nécessaire. On peut choisir de régler le seuil soit une fois pour chaque plan en calculant le seuil à la première image, soit à chaque image. Cette dernière méthode est intéressante en particulier en cas de variation de luminosité. Par contre, s'il y a des changements dans la scène observée, elle risque de faire disparaître ou apparaître des points dont la "valeur d'intérêt" reste constante. Nous utilisons la première méthode comme référence. st i ar t x e st ni o p e d er b m o N 300 200 100 0 0 2 4 Seuil 6 x 10 Harris st i ar t x e st ni o p e d er b m o N 300 200 100 0 0 0.5 Seuil 1 Contraste multirésolution st i ar t x e st ni o p e d er b m o N 300 200 100 0 0 500 1000 Seuil 1500 2000 Susan Figure 7: Profil du nombre de points en fonction du seuil pour différents détecteurs de points d'intérêt. Remarque: Pour Susan, régler le seuil final n’est pas forcément le choix le plus adapté. En effet, ce seuil correspond à l'angularité des coins. Il serait préférable de régler le seuil d’intensité (celui qui permet de déterminer les deux régions délimitées par le coin), pour permettre en particulier de détecter des coins dans une image peu contrastée. Mais cela impliquerait de recalculer complètement les points, jusqu'à trouver le nombre voulu. On remarque d'ailleurs que la courbe du nombre de points en fonction du seuil n’est pas de type hyperbolique comme pour les autres détecteurs, mais au contraire à décroissance plus lente près de l’origine (figure 7). 40 8 -3 II.2 – L'outil : Les points d'intérêt – Le mouvement des points d'intérêt, exemples II.2. Le mouvement des points d'intérêt, exemples Dans la perspective de l'analyse du mouvement, nous nous intéressons à la succession temporelle des cartes de points d'intérêt. Lorsque nous visualisons une animation de ces cartes, nous percevons clairement le mouvement, et nous distinguons des groupes de points correspondant aux divers mouvements, par exemple sur la figure 8, le personnage qui entre et le fond fixe. C'est une confirmation empirique de la validité de l'approche par les points d'intérêt, et nous allons maintenant vérifier expérimentalement l'adéquation des points d'intérêt au suivi de mouvement dans des séquences compressées. Figure 8: Personnage entrant : visualisation statique du mouvement par superposition temporelle des cartes de points d'intérêt (l'ordre d'apparition des points va du plus sombre au plus clair). Figure 9: Danseuse en rotation. 41 II.3 – L'outil : Les points d'intérêt – Expérimentation : La stabilité des points d'intérêt dans les séquences vidéo II.3. Expérimentation : la stabilité des points d'intérêt dans les séquences vidéo II.3.1. Les causes d'instabilité Un algorithme de suivi implique une certaine stabilité temporelle des éléments. Or, en indexation vidéo, nous nous plaçons dans des conditions difficiles, avec des vidéos compressées contrairement au domaine de la robotique. La compression Mpeg produit des discontinuités dans l'image et une déformation des contours, les "effets de blocs" (compression spatiale similaire à Jpeg et compensation de mouvement), alors que les points d'intérêt sont fondés sur des mesures locales. En outre, par rapport à l'image fixe, nous avons aussi l'influence du mouvement qui implique une déformation des objets, ou le changement du voisinage du point pour la partie qui inclut le fond de l'image en ce qui concerne les points situés sur le bord de l'objet. Le problème de la compression a été abordé pour les images fixes par [Bres 99]. Nous voulons maintenant vérifier la stabilité temporelle des points d'intérêt dans le cas de vidéos réelles et compressées, et comparer les trois détecteurs décrits précédemment. La stabilité temporelle signifie pour nous qu'un point d'intérêt présent dans une image doit être détecté aussi dans l'image suivante19. Ainsi, nous allons définir des indices de stabilité, et vérifier leur validité. Figure 10: L'effet de bloc (zoom x5) Enfin, nous souhaitons déterminer l’influence sur la stabilité du mode de seuillage de la "valeur d'intérêt". II.3.2. Le protocole d'expérimentation II.3.2.1. Les séquences utilisées Il s’agit d’archives de télévision du corpus de l’Ina : codage Mpeg1 (352 x 288 pixels), 25 images/s, compression à 1.445.600 bit/s [AIM 97] : • un reportage de 1400 images, avec des scènes de rue et des mouvements de foule, 19 Par contre, nous ne nous intéressons pas à la stabilité spatiale au cours du temps, c'est-à-dire à la précision spatiale de la détection. Une légère délocalisation des points a pour nous moins d'importance par rapport à d'autres applications comme la reconstitution tridimensionnelle, puisqu’une description grossière des mouvements peut nous suffire (dans la limite où la cohérence du mouvement des trajectoires reste suffisante). 42 II.3 – L'outil : Les points d'intérêt – Expérimentation : La stabilité des points d'intérêt dans les séquences vidéo • une bande annonce de film, de 885 images, avec des plans nombreux, des personnages en scène d’intérieur, du mouvement. Concernant les paramètres des détecteurs, nous avons pris des valeurs standards : pour Susan un seuil de luminosité de 20 niveaux de gris, et pour Harris les paramètres standards définis au paragraphe (§ II.1 p.37). Remarque: Les points dus aux bandes noires du bord de l'image ont été supprimés. II.3.2.2. Les critères de comparaison Un indice global Dans un premier temps, nous testons la stabilité du nombre de points extraits, sous la forme d’un histogramme de la variation du nombre de points par image entre images successives. Par exemple pour le détecteur de Harris sur la figure 13/GP200A, 240 images ont une variation du nombre de points de 10% par rapport à la précédente. Remarque: Les transitions entre plans, qui produisent de grandes variations du nombre de points, sont supprimées (en fait, leur nombre réduit influe peu). Un indice d’appariement D'un point de vue local, nous testons la stabilité temporelle des points d'intérêt grâce à un appariement au plus proche voisin : si un nouveau point apparaît dans une image, il est apparié avec un autre point qui, lui, est apparié aussi avec son véritable correspondant (figure 11). Conflit Points à (t-1) Points à (t) Nouveau point. Figure 11: Conflit d'appariement Remarque: Ce type d’appariement n’est valable que pour des déplacements faibles par rapport à la densité des points20. Nos séquences de test présentent des mouvements moyens, et nous devrons vérifier la robustesse de l’indice par rapport au mouvement. Le comptage des conflits d’appariement par rapport au nombre de points de l’image donne donc un indice de la stabilité temporelle des points (lorsque plusieurs points sont appariés au même, on compte autant de conflits, en soustrayant un pour l'appariement correct). Par exemple, pour Susan sur la figure 14/P200A p.46, on compte 165 images qui présentent 5 conflits pour 100 points. Cet indice se rapproche plus de la question du suivi que l'indice global que nous avons défini puisqu'il se fonde sur un appariement des points d'intérêt entre images successives. A titre d'illustration, l’effet est particulièrement visible au niveau des changements de plan, où la modification de la configuration des points produit des conflits d’appariement multiples (figure 12). Figure 12: Conflits d'appariement lors d'un changement de plan. 20 Cet appariement simple ne nous sert pas à faire du suivi. 43 II.3 – L'outil : Les points d'intérêt – Expérimentation : La stabilité des points d'intérêt dans les séquences vidéo II.3.2.3. Vérifier la robustesse des indices Nous comparons la stabilité sur deux séquences de nature différente pour éviter de se placer dans un cas particulier, et nous étudions la dépendance des indices que nous venons de définir par rapport au nombre de points et au mouvement (celui-ci peut en effet perturber la méthode d’appariement au plus proche voisin). Pour le nombre de points, nous comparons les résultats respectivement avec 200 et 100 points (même si cette dernière valeur ne produit pas toujours suffisamment de points pour détecter tous les objets). Pour le mouvement, nous comparons les résultats d’une part avec la séquence complète et d’autre part lorsqu’on exclut les images qui présentent du mouvement. Nous avions testé d’autres critères, liés à la distance entre points appariés (si un nouveau point apparaît, il n’aura pas son correspondant dans l'image précédente, il a donc des chances de s’apparier avec un point plus éloigné). Mais cela donne des résultats non discriminants, très dépendants du seuillage et du mouvement contrairement aux indices que nous avons présentés ici. II.3.3. Résultats pour l'indice global La figure 13 montre que la variation du nombre de points n'est pas négligeable, mais reste généralement inférieure à 15%. Le détecteur de Harris produit un nombre de points un peu plus stable que les autres détecteurs, indépendamment des conditions de nombre de points et de seuillage. Toutefois, ces courbes ne présentent pas de différences entre elles très révélatrices, certainement du fait que la variation du nombre de point dépend plus de la modification du contenu de l’image que de la stabilité des points d’intérêt. Voyons maintenant l'indice d'appariement, qui est plus proche de la problématique du suivi. II.3.4. Résultats pour l'indice d'appariement La figure 14 montre que nous avons un taux de conflit d'appariement généralement de l'ordre de 5 à 10% des points. Le détecteur de Harris est plus stable que le détecteur de Susan, lui-même plus stable que le détecteur à contraste multirésolution, toujours quelles que soient les conditions d'expérimentation. Concernant les modes de seuillage, que nous avions présentés au paragraphe II.1.4 (p.40), la figure 15 montre que les résultats sont peu différents. Nous remarquons que les distributions du taux de conflit ne sont pas très régulières. Cela dépend de la séquence (voir la séquence "annonce"), et peut s'expliquer par une taille de l'échantillon légèrement insuffisante. Soulignons toutefois que l'allure générale des courbes et les conclusions sont toujours similaires. 44 II.3 – L'outil : Les points d'intérêt – Expérimentation : La stabilité des points d'intérêt dans les séquences vidéo Figure 13: Stabilité des détecteurs mesurée par l'indice global. Légende des noms des courbes: indice (G)lobal, seuil (F)ixe, ou calculé une fois par (P)lan, ou à chaque (I)mage; nombre de points, séquence (A)nnonce ou (R)eportage. Conditions de détection Seuil fixe, calculé pour obtenir 200 points à la 1ière image du plan, (180 points/image pour le contraste multirésolution, 160 pour Harris et Susan) Même conditions, avec 100 points à la 1ière image Seuil fixé pour toute la séquence (130 points/image en moyenne. Seuils : contraste 0,32, Harris : 0.0003, Susan : 1050) Comparaison au premier cas Harris plus stable Résultats proches (un peu moins GP100A favorable, sauf pour Harris) Résultats très proches (différence GF130A légèrement accentuée entre Harris et les deux autres) 300 300 Contraste Harris Susan 250 s e g a m i' d er b m o n Contraste Harris Susan 250 200 s e g a m i' d er b m o n 150 100 50 0 200 150 100 50 0 10 20 30 40 50 60 70 % variation du nombre de points 80 90 0 100 0 10 20 Courbe GP200A 80 90 100 300 Contraste Harris Susan 400 Contraste Harris Susan 250 s e g a m i' d er b m o n 300 200 100 0 30 40 50 60 70 % variation du nombre de points Courbe GP100A 500 s e g a m i' d er b m o n Courbe GP200A GP200R 200 150 100 50 0 10 20 30 40 50 60 70 % variation du nombre de points 80 Courbe GP200R 90 100 0 0 10 20 30 40 50 60 70 % variation du nombre de points 80 Courbe GF130A 45 90 100 II.3 – L'outil : Les points d'intérêt – Expérimentation : La stabilité des points d'intérêt dans les séquences vidéo Figure 14: Stabilité des détecteurs mesurée par l'indice d'appariement. Conditions de détection Seuil fixe, calculé pour obtenir 200 points à la 1ière image du plan (180 points/image pour le contraste multirésolution, 160 pour Harris et Susan) - séquence "Annonce" Même conditions, en excluant les images présentant du mouvement Même conditions, avec 100 points à la 1ière image Mêmes conditions pour la séquence "Reportage" (230 points/image pour le contraste multirésolution, 210 pour Harris et Susan ♣) Comparaison au premier cas (cas de référence) Peu de conflits. Harris > Susan > Contraste Courbe P200A Résultats très proches MP200A Conclusion semblable, avec une stabilité moins bonne pour tous les détecteurs (écart-type des distributions nettement plus important) Résultats très proches (légèrement moins favorable pour Susan) P100A P200R ♣ Les nombres de points sont différents d'une séquence à l'autre du fait que le seuil est fixe dans chaque plan. 200 100 Contraste Harris Susan 150 s e g a m i' d er b m o N 80 s e g a m i' d er b m o N 100 50 0 0 5 10 15 20 % conflit/nombre de points 25 Contraste Harris Susan 60 40 20 0 30 0 5 Courbe P200A Contraste Harris Susan 250 s e g a m i' d er b m o N 60 40 20 200 150 100 50 0 5 10 15 20 % conflit/nombre de points 25 Courbe MP200A 46 30 300 Contraste Harris Susan 80 0 25 Courbe P100A 100 s e g a m i' d er b m o N 10 15 20 % conflit/nombre de points 30 0 0 5 10 15 20 % conflit/nombre de points 25 Courbe P200R 30 II.3 – L'outil : Les points d'intérêt – Expérimentation : La stabilité des points d'intérêt dans les séquences vidéo Figure 15: Influence du type de seuillage mesurée par l'indice d'appariement. Conditions de détection Seuil fixe, calculé pour obtenir 200 points à la 1ière image du plan (180 points/image pour le contraste multirésolution, 160 pour Harris et Susan) - séquence "Annonce" Seuil fixé pour toute la séquence (130 points/image en moyenne. Seuils : contraste 0,31, Harris : 0.0003, Susan : 1050) Seuil fixe, calculé pour obtenir 200 points à la 1ière image du plan. Seuil calculé à chaque image pour obtenir 200 points. Comparaison au premier cas (cas de référence) Peu de conflits. Harris > Susan > Contraste Courbe P200A Résultat assez proche (un peu meilleur pour Harris) F130A (cas de référence pour "Reportage") P200R Résultat proche, légèrement meilleur I200R pour le détecteur à contraste 300 200 Contraste Harris Susan 150 s e g a m i' d er b m o N Contraste Harris Susan 250 s e g a m i' d er b m o N 100 50 200 150 100 50 0 0 5 10 15 20 % conflit/nombre de points 25 0 30 0 5 Courbe P200A 30 300 Contraste Harris Susan 120 Contraste Harris Susan 250 100 s e g a m i' d er b m o N 80 60 40 200 150 100 50 20 0 25 Courbe P200R 140 s e g a m i' d er b m o N 10 15 20 % conflit/nombre de points 0 5 10 15 20 % conflit/nombre de points 25 Courbe F130A 30 0 0 5 10 15 20 % conflit/nombre de points 25 Courbe I200R 47 30 II.4 – L'outil : Les points d'intérêt – Expérimentation :Synthèse des résultats II.4. Synthèse des résultats Nos résultats sur la stabilité des détecteurs dans des séquences vidéo compressées Mpeg réelles montrent un taux de conflits d'appariement relativement faible (pour le détecteur de Harris, le maximum des distributions correspond à un taux de 3% indépendamment des conditions opératoires). Ils rendent envisageable l'utilisation des points d'intérêt pour l'analyse du mouvement, ceci d'autant plus que nous n'avons utilisé dans cette expérimentation aucune des informations exploitées par les méthodes de suivi pour déterminer les appariements. Toutefois, une question se pose. Nous avions mentionné que l'effet de bloc Mpeg crée des contours et des coins parasites dans l'image, ce qui est susceptible d'influencer la détection des points d'intérêt puisqu'elle se fonde sur des mesures locales. Pourtant, nous obtenons une certaine stabilité des points d'intérêt. En fait, on peut remarquer que pour chacun des détecteurs, certains facteurs atténuent les effets des dégradations. Pour le détecteur de Harris, le calcul des dérivées est effectué sur une image traitée par un filtre passe-bas. Pour le détecteur à contraste, la multirésolution tient compte de résolutions faibles qui sont peu perturbées par la compression. Pour le détecteur Susan, la mesure sur le voisinage est statistique donc peu sensible à des perturbations, et de plus l'opération de seuillage utilisée est rendue plus robuste. Si on compare les différents types de points d'intérêt, le détecteur de Harris est le plus stable, suivi par le détecteur Susan, puis par le détecteur à contraste multirésolution21. Cette conclusion est indépendante du mouvement dans l'image, du nombre de points extraits, et de la méthode de seuillage. Ce résultat concorde aussi avec les observations que l'on peut faire en visualisant temporellement les cartes de points d'intérêt : on perçoit en effet un scintillement dû aux points qui apparaissent ou disparaissent, et on remarque que ce scintillement est plus léger dans le cas du détecteur de Harris. Nous utiliserons donc préférentiellement ce détecteur dans la perspective de l'analyse du mouvement. 21 Les résultats sont différents de ceux concernant la résistance à la compression Jpeg, où les détecteurs de Harris et à contraste multirésolution sont plus robustes que le détecteur Susan [Bres 99]. Cela peut être expliqué par les différences entre compressions Jpeg et Mpeg, cette dernière utilisant la redondance temporelle de l'image à l'aide d'une méthode de compensation du mouvement. Cela introduit un lissage et une certaine diminution de l'effet de bloc sur les images obtenues par prédiction du mouvement, qui sont majoritaires dans les séquences Mpeg. Rappelons par ailleurs que pour le détecteur à contraste multirésolution, nous n'avons pas exploité ici la distribution multirésolution des points d'intérêt mais uniquement ceux issus de la résolution la plus fine, afin de se placer dans des conditions comparables à celles des autres détecteurs. 48