Analyse image-vidéo, application à l`extraction d`information

Transcription

Analyse image-vidéo, application à l`extraction d`information
Analyse image-vidéo,
application à l’extraction
d’information sur les personnes
Jean Martinet
FOX – LIFL – Université Lille1
Introduction
 Profusion de flux vidéos
 Environnement personnel : Webcams (2D or 3D)
 Environnement public : Système de surveillance/protection, TV
 Extraction d’information sur :
 Le retour implicite de l’utilisateur (expression, action …)
 Analyse de foules (comportement, situation anormale …)
 Sentir le contexte (carte de densité, d’occupation, flux …)
 Utiliser
des caméras standards dans des environnements
peu contraints
 Traiter
les flux vidéos dans des délais courts
2
Plan
 Introduction
 Personne
 Suivi
de la tête / Suivi du regard
 Reconnaissance de visages, de personnes
 Expressions et fatigue
 Actions
 Foule
 Dynamique
d’une foule
 Situation anormales
 Conclusions
3
Niveau individu
 Suivi
de la tête / du regard
 Que
regardent les usagers ?
 Quels sont les éléments vus dans une scène ?
 Reconnaissance
de visages
 Qui
est la personne face à la caméra ?
 Quelle est la personne dont le journal télévisé parle ?
 Expressions
faciales
 Comment
est perçu un contenu/produit ?
 Quel est l’état (émotionnel) courant de l’usager ?
 L’usager s’endort-il ?
 Actions
 Qu’est-ce
que l’usager est en train de faire?
 Fait-il des actions non autorisées ?
4
Suivi du regard
5
Plot of the dispersion value (Gini, inter-user distance) for each frame
6
 Reveals the structure of the movie: fast sequence of short-length shots, with a few
longer shots in between where character faces can be clearly seen)
 low dispersion (= good focus) ~ long shots
 high dispersion (= uncertain focus) ~ chains of short-length shots, with hard cuts
(<-- individual physiological variations)
 Last shot: static display of the product name
  tools to analyse/predict audience focus in video shot
6
Estimation de la pose de la tête
7
 Solutions
intrusives (lunettes, casque, etc.)
 Solutions non-intrusives et peu onéreuses
 Distances
variables, multi-personnes
 Estimation de la position de la tête + position
 Avec U. Amsterdam : filtres de Gabor + suivi
 Avec USTHB Alger : symétrie du visage
des yeux
Suivi du regard
8
Reconnaissance de personnes
9
ANR - PERson reCOgnition in audiovisuaL content (2011-13)
 Recognize people in TV programs
  robustness to small changes of light, view points, partial occlusion, pose,
expression …
Improve static approaches
  take into account temporal aspects for more robust algorithms
Take into account depth information from stereo inputs
Who are these persons?
9
Time dimension
 Objective:
10
enhance static methods with time
 Several strategies
 Interest point tracking
 Select and track interest points
 Build a face time signature
 Space-time histograms
 Build a person signature
 Compare histograms
10
Expressions faciales
 Approches
statiques
 Locale
: 7 points caractéristiques du visage
 Globale : visage normalisé + classification (mono
expression)
 Approches
 Détection
 Détection
standard
dynamiques
d’unité d’actions
automatique des points – matériel
11
Expressions faciales – statique locale
12
 Proposition
d’une
combination de
différentes méthodes
 Détection de visages
Face Detec(on Eye Detec(on Eyebrow Localiza(on Surprise/Neutral Emo(on Detec(on Nose Localiza(on Mouth Corner Detec(on Happy/Neutral Emo(on Detec(on  OpenCV,
 Détection
 RNA,
Viola-Jones
des yeux
Rowley
 Sourcils
& Position du nez
 Seuillage
 Détection
adaptatif
coins de la
bouche
 RNA
 Expressions
 Règles
faciales
de décision
Expressions faciales – statique locale
13
Endormissement
 Drowsy
Driver Detection System (DDDS) temps
réel basé sur les “eye blink patterns”
(système non intrusif)
 Pas
de calibration/pas d’initialisation du système
 Faible coût computationnel
 Capteurs bon marché (caméras low-cost)
 Symétrie
horizontale des yeux
14
Drowsy Driver Detection System
Drowsy Driver Detection
 Face
Camera Face Detec(on Eye Detec(on Eye Blink Pattern Detection
Horizontal Symmetry Calcula(on Eye
Horizontal
Symmetry
Open No
Increase Drowsy Frame Counter No
is Drowsy?
No
Yes
& Eye Detection
 Eye region extraction
 Eye blink detection
 Horizontal
Closed Yes
15
is Sleeping?
Yes
symmetry
 Threshold
 Drowsiness
Original
Detection
Vertical flip
0.5x0.16
of IPD
Subtracted
Alert normalized to 20x15px
Reconnaissance d’actions
16
 Détection
d’action de la vie courante (marcher, courir,
sauter, répondre au téléphone … )
Répondre au téléphone
Boxer
 Challenges
 Différentes
échelles spatio-temporelles
 Variabilité du mouvement et occlusions
 Mouvement de la personne vs. Mouvement de la caméra
Reconnaissance d’actions – HOF/HOG
17
Video stream
Detecting interest points
Computing optical flow
Allocating vectors to blocs
Circular clustering
Non-cirular clustering
Direction model
Magnitude model
Direction : Mixture of von Mises distributions
Query models
Template models
Distance metric
Magnitude : Mixture of Gaussian distributions
Action recognition
17
Reconnaissance d’actions
18
…
walking
running
…
jogging
Modèle requête
…
handwaving
…
handclapping
…
boxing
…
Modèles de référence
18
Mouvemements de foule  Description de scène :
 Extraction
 Extraction
 des zones les plus/moins fréquentées
de classes de trajectoires
Détection d’évenements non usuels :
 Detection
de situations anormales de foule
 Logs de situation anormales (indexation/
recherche)
Collapsing
Overcrowd (high density)
Running
Evacuation, dispersion
19
19
Regroupement et suivi
de groupes
20
 Regroupement
(cluster) des blocs contigüs ayant
des directions proches
20
Expérimentations
21
Split / local dispersion events
21
Expés : situations anormales
22
Split / local dispersion events
22
Conclusions
 Thème
: extraction/analyse d’actions humaines à
partir de flux vidéos
 Niveau
individu
 Suivi
de la tête / du regard
 Reconnaissance de personnes
 Expressions faciales et endormissement
 Actions
 Niveau
groupe
 Détection
et suivi de groupe
 Dynamiques de foule, évenements non usuels
 Travaux
connexes :
 Indexation
et recherche d’informations multimédia
 Multimédia, métadonnées et sémantique
23