PDF - 170kB - GDR

Transcription

PDF - 170kB - GDR
Jeudi 26 Septembre 2013 Journée Commune GDR ISIS/ GDR VISION Lieu : AMPHI A, ENSAM, Arts et Métiers Paris Tech, 151 Boulevard de l'Hôpital, 75013 Paris La saillance visuelle et son exploitation dans l'amélioration des algorithmes de traitement d'images et l'évaluation de la qualité d'images. 09h45-­‐10h15: Yann Coello "Liage spatio-­‐temporel des informations visuelles pour la perception et l'action"
10h20-­‐10h50: Nathalie Guyader "Influence de différents attributs : couleur, mouvement, visages, biais de centralité, son et 3D sur l’exploration de scènes et leur prise en compte dans des modèles d'attention visuelle"
10h55-­‐11h15: Geoffroy Fouquier
"optimisation de séquences de segmentation combinant modèle structurel et focalisation de l'attention visuelle, appliqué à la segmentation de structures cérébrales"
11h20-­‐11h40: Nicolas Loménie "Adaptive Picture-­‐in-­‐Picture Technology based on Visual Saliency"
11h45-­‐12h05: Stephane Herbin "Vision fovéale pour la reconnaissance d'objet"
12h10-­‐12h30: Thomas Grilletta "Parcours automatique de peintures numériques à partir de cartes de saillance"
12h30 -­‐ 13h45: Repas 13h45-­‐14h15: Patrick Cavanagh "L'attention spatiale: un système active pour la saillance"
14h20-­‐14h40: Arezki Aberkane "Extraction de lignes de crêtes perceptuelles avec un filtre orienté de demi-­‐gaussiennes multi-­‐échelle"
14h45-­‐15h05: Syntyche Gbehounou
"Les régions saillantes amélioreraient-­‐elles l’évaluation de l’impact émotionnel des images ?" 15h10-­‐15h30: Nicolas Ballas
"Saliency-­‐Pooling for Human Action recognition" 15h35-­‐15h55: Shahrbanoo Hamel "L’influence de la couleur sur les mouvements oculaires lors de l’observation de vidéos" 16h00-­‐17h00: Discussions Liage spatio-­‐temporel des informations visuelles pour la perception et l'action Yann Coello (URECA, Université Lille 3)
Influence de différents attributs : couleur, mouvement, visages, biais de centralité, son et 3D sur l’exploration de scènes et leur prise en compte dans des modèles d'attention visuelle Nathalie Guyader (Gipsa-Lab ,Grenoble)
Depuis de nombreux années, nous menons des travaux au GIPSA-lab sur la perception visuelle en utilisant une double
approche à la fois (1) comportementale avec l'enregistrement des mouvements et oculaires et plus récemment des
signaux électro encéphalographiques, mais aussi (2) en modélisation fonctionnelle. Dans ce cadre-là, au sein de
l'équipe ViBS, Vision and Brain Signal Processing, l'étude de l'attention visuelle occupe une place centrale. Il s'agit de
développer des modèles bio-inspirés permettant de prédire les régions qui attirent le regard dans une scène, et intégrant
les différentes étapes de traitement de l’information visuelle depuis la rétine jusqu’aux cellules corticales.
Nous présentons ici une revue de plusieurs études sur l’influence d’attributs visuels de bas niveau (couleur, mouvement,
3D), d’attributs visuels dits de plus haut niveau (visage), d’attributs non visuels (la bande son) ou encore d’attributs à la
fois liés aux stimuli mais également aux mouvements oculaires (biais de centralité) lors de l’exploration de scènes
naturelles. La mise en évidence d’une influence d’un attribut se fait en utilisant différents critères qui permettent de
comparer des mouvements oculaires enregistrés dans différentes conditions (trajets oculaires ou paramètres
oculomoteurs comme la durée des fixations et l’amplitude des saccades). Nous proposons enfin aux vues des résultats
expérimentaux obtenus des pistes d’intégration de ces attributs dans des modèles d’attention visuelle.
Optimisation de séquences de segmentation combinant modèle structurel et focalisation de l'attention visuelle, appliqué à la segmentation de structures cérébrales
Geoffroy Fouquier (Groupe Traitement et Interprétation des Images(TII), Telecom Paristech.)
Un processus de segmentation séquentielle, où les objets d'une scène sont segmentés de manière successive, soulève
deux principaux problèmes : le choix de la meilleure séquence de segmentation à effectuer et de la manière d’éviter la
propagation des erreurs. Nous proposons ici une approche originale pour répondre à ces questions dans le cas où les
objets à segmenter sont représentés par un modèle décrivant les relations spatiales entre ces objets. Le processus est
guide par un critère dérivé de l'attention visuelle (une carte de saillance adaptée à nos données) ainsi que de
l'information spatiale qui permet une focalisation de l'attention. Le critère est utilisé pour optimiser la séquence de
segmentation. L'information spatiale est ensuite utilisée pour garantir la cohérence du résultat et de revenir en arrière si
nécessaire. L'approche proposée est appliquée à la segmentation des structures internes du cerveau dans des IRMs. Les
résultats montrent la pertinence du critère d'optimisation et l’intérêt de la procédure de retour en arrière pour garantir
des résultats bons et cohérents.
Adaptive Picture-­‐in-­‐Picture Technology based on Visual Saliency Nicolas Loménie (Université Paris Descartes, UFR Math&Info)
Picture-in-picture (PiP) is a feature of some television receivers and video devices, which allows one main program to
be displayed on the full screen while one or more subprogram displayed in inset windows. Currently most TV/video
devices require users to specify where and how large to place the sub-program over the main program display. This
process is instead not user-friendly as it involves a manual process and once specified, the size and the location of the
sub-program will be fixed even when they block some key visual information from the main program. We propose an
automatic and adaptive PiP technology that makes use of computational modeling of visual saliency. For each frame of
the main program, a saliency map is computed efficiently which quantifies how probable a display region of the main
program contains useful information and will attract humans’ attention/eyes. The sub-program can thus be adaptively
resized and placed to the display region that contains the least useful information. Preliminary experiments show the
effectiveness of the proposed technology.
Vision fovéale pour la reconnaissance d’objets Stephane Herbin (ONERA, DTIM, Palaiseau)
Le système visuel humain est une source d'inspiration récurrente pour la conception de systèmes artificiels et
d'algorithmes en raison de sa compacité, de sa polyvalence, et de l'utilisation optimisée de ses ressources. L'une des
caractéristiques les plus notables est la combinaison de capteurs à résolution spatiale et à typologie variables dans le
champ visuel et de mécanismes attentionnels de prise d'information par modification de la ligne de visée, que l'on peut
dénommer succinctement par vision fovéale.
La notion de saillance apparaît en creux dans ce type de problématique, et peut être considérée comme une variable
cachée capable de coder le "where to look next" de la séquence de saccades explorant le champ visuel.
L'exposé se situe dans le contexte de la conception de systèmes artificiels de vision. Il examinera la possibilité et
l'intérêt de développer un système de vision fovéale pour des tâches d'interprétation de scène de haut niveau. Le cas de
la reconnaissance d'objet sous catégorielle ("fine-grained") sera plus particulièrement abordé. Une question sous-jacente
portera sur la pertinence de la notion de carte de saillance pour des tâches d'interprétation de haut niveau.
L'exposé sera illustré par des résultats issus de plusieurs actions de recherche portant sur la conception d'algorithmes de
reconnaissance active d'objet. Il s'appuiera également sur certaines connaissances en neurosciences pour identifier les
analogies possibles entre systèmes artificiels et naturels.
Parcours automatique de peintures numériques à partir de cartes de saillance T. Grilletta 1,2, J.T. Tchoumou 1, W. Puech 2, F. Comby 2, N. Rodriguez 2 (1 : Laoviland Expérience, 2 :
LIRMM UMR CNRS/UM2, Montpellier)
Afin d'introduire la culture dans des lieux publics, la société Laoviland Expérience, en collaboration avec l'équipe ICAR
du LIRMM, propose de développer un système de visualisation d'œuvres numériques sur du mobilier urbain. Le
challenge n'est pas simple car les panneaux publicitaires numériques actuels sont, soit positionnés pour être regardés
depuis une distance assez importante, soit de petites tailles. L'objectif du système de visualisation consiste donc à
extraire de manière automatique des zones d'intérêt dans l’œuvre numérique à visualiser afin de les enchainer en gros
plan sur le support numérique. Pour développer ce système, la société Laoviland Expérience et l'équipe ICAR du
LIRMM se sont appuyées sur l'extraction de cartes de saillance dans les images.
L'attention spatiale: un système active pour la saillance Patrick Cavanagh (LPP, Université Paris Descartes)
I will present research showing that the eye movement map is the “master map of locations” – for eye movements, for
attention, and for perception. Evidence shows that it is not a passive salience as it represents not current target locations
but predicted locations, predicted based on knowledge of upcoming changes due to eye or target motion. Our
behavioral results show attention benefits at these predicted locations and we now demonstrate that when targets are
moving, they are seen ahead of their actual retinal location because they are seen at their predicted next location.
Extraction de lignes de crêtes perceptuelles avec un filtre orienté de demi-­‐gaussiennes multi-­‐
échelle Arezki Aberkane, Baptiste Magnier, Philippe Montesinos (Mines, Ales)
Les méthodes d'extraction de contours classiques d'ordre 1 dans les images ne sont pas adaptées à la détection de lignes
de crêtes (crêtes ou vallées), puisqu'elles calculent la pente des contours et ainsi extraient deux contours de part et
d'autre de chaque crête.
Afin de bien détecter et extraire ces lignes de crêtes, nous avons utilisé un filtrage linéaire directionnel anisotrope par le
moyen de la différence de deux demi-gaussiennes orientées. A partir des filtrages directionnels, un opérateur de crête
est calculé, cet opérateur fournit directement une valeur de saillance à partir d'une image non segmentée.
Cet algorithme est très performant, même aux niveaux des crêtes coudées puisqu'il est composé de deux demi-noyaux
de lissage orientés dans deux directions différentes.
Pour détecter toutes les crêtes quelque soient leurs largeurs dans une image, nous avons traité cette dernière à
différentes échelles. Comme le filtre utilisé est gaussien et anisotrope, nous avons créé un espace échelle en deux
dimensions, d'une part, la variation de la largeur et d'autre part, la variation de la longueur du filtre. L'idée est de
toujours avoir le rapport (longueur /largeur) constant quel que soit l'échelle utilisée ; cela revient à utiliser un filtre avec
une longueur adéquate pour chaque échelle. Cette technique permet de bien détecter les crêtes de petites tailles et d'être
en même temps robuste aux bruits, du fait que le filtre utilisé est composé d'un fort lissage orienté dans la direction de
ces lignes de crêtes. Enfin, contrairement aux méthodes d’extraction de lignes de crêtes classiques et multi-échelles
existantes, les lignes de crêtes floues, discontinues, coudées, même si un coin n’apparaît pas dans l’image originale,
sont extraites de manière continue.
Les régions saillantes amélioreraient-­‐elles l’évaluation de l’impact émotionnel des images? Syntyche Gbehounou (XLIM-SIC, Poitiers)
Les régions saillantes contiennent des informations intéressantes pour résumer une image, o rant ainsi des clés pour
une bonne analyse et une compréhension aisée. Nous avons étudié l’impact de la réduction d’une image `a la région
saillante sur l’évaluation de l’impact émotionnel. Pour ce faire, nous avons choisi un modèle de saillance de type
”bottum-up” puisque la base de test SENSE (Studies of Emotion on Natural image databaSE), utilisée, est faiblement
sémantique. Nous avons organisé deux expérimentations subjectives. La première, appelée SENSE1, a été réalisée sur
les images de la base alors que la seconde SENSE2 a été faite sur les régions saillantes des images. Pendant ces
évaluations, nous avons demandé aux participants d’indiquer la nature (positive, neutre ou négative) et la puissance
(elle variait de faible à fort) de l’émotion relative aux images observées. Durant ces deux tests, certaines images ont une
catégorisation ambigüe (aucune nature d’émotion n’est majoritaire) malgré le nombre de participants ; 1741 pour
SENSE1 et 1166 pour SENSE2. L’une des premières conclusions de l’utilisation des régions saillantes est que 79% des
images non catégorisées durant SENSE1 le sont désormais dans l’une des deux classes majoritaires. Le fait de réduire la
taille des images à la région saillante permettrait peut-être de réduire interpretation sémantique.
Saliency-­‐Pooling for Human Action recognition Nicolas Ballas (Mines-Paristech et CEA/LVIC)
We address the problem of action recognition in unconstrained videos. We propose a novel saliency driven pooling that
leverages space-time context while being robust toward global space-time transformations. Being robust to such
transformations is of primary importance in unconstrained videos where the action localizations can drastically shift
between frames. Our pooling identifies regions of interest using video bottom-up structural cues estimated by different
saliency functions. It does not require any fixed space-time partition. To combine the different structural information,
we introduce an top-down iterative weighting scheme, WSVM (weighted SVM), that determines the optimal bottom-up
saliency cues associated with an action model, using top-down information. A new optimization method is proposed to
solve the WSVM' highly non-smooth objective function. We evaluate our approach on standard action datasets (KTH,
UCF50 and HMDB). Most noticeably, the accuracy of our algorithm reaches 51.8% on the challenging HMDB dataset
which outperforms the state-of-the-art of 11% relatively.
L’influence de la couleur sur les mouvements oculaires lors de l’observation de vidéos Shahrbanoo Hamel (Gipsa-Lab, Grenoble)
Bien que beaucoup d’études de l’attention visuelle considèrent la couleur comme l'un des facteurs importants dans
l'orientation du regard, seules quelques études ont examiné son influence sur les mouvements oculaires lors de
l’observation de scènes dynamiques naturelles.
Nous avons étudié cette influence en analysant les mouvements oculaires des participants enregistrés lors de
l’exploration de vidéos en couleur ou en niveaux de gris.
Dans cette présentation, nous détaillons dans un premier temps les résultats de la comparaison des deux séries de
données des mouvements oculaires, en utilisant différentes mesures (dispersion, nombre de clusters, Normalized
Saliency Scanpath et divergence de Kullback Leibler). Dans un second temps nous comparons les mouvements
oculaires avec deux modèles de saillance visuelle : le premier modèle est basé seulement sur les attributs achromatiques
des stimuli (modèle de Marat et al. 2009 et implémentation temps réel de Rahman et al. 2010) et le deuxième modèle
est une version modifiée du modèle de Marat prenant en compte des informations chromatiques. Les résultats montrent
que même si, globalement, les régions d’intérêts sont communes entre les vidéos en couleur et en niveaux de gris, il
existe des différences significatives. En effet, les mesures calculées permettent d’identifier ces différences, qui
augmentent au cours du temps. Enfin, les résultats indiquent que le modèle de saillance qui comprend des informations
chromatiques, peut mieux prédire les mouvements oculaires enregistrés lors de l'exploitation de vidéos en couleur.

Documents pareils