Analyse image-vidéo, application à l`extraction d`information
Transcription
Analyse image-vidéo, application à l`extraction d`information
Analyse image-vidéo, application à l’extraction d’information sur les personnes Jean Martinet FOX – LIFL – Université Lille1 Introduction Profusion de flux vidéos Environnement personnel : Webcams (2D or 3D) Environnement public : Système de surveillance/protection, TV Extraction d’information sur : Le retour implicite de l’utilisateur (expression, action …) Analyse de foules (comportement, situation anormale …) Sentir le contexte (carte de densité, d’occupation, flux …) Utiliser des caméras standards dans des environnements peu contraints Traiter les flux vidéos dans des délais courts 2 Plan Introduction Personne Suivi de la tête / Suivi du regard Reconnaissance de visages, de personnes Expressions et fatigue Actions Foule Dynamique d’une foule Situation anormales Conclusions 3 Niveau individu Suivi de la tête / du regard Que regardent les usagers ? Quels sont les éléments vus dans une scène ? Reconnaissance de visages Qui est la personne face à la caméra ? Quelle est la personne dont le journal télévisé parle ? Expressions faciales Comment est perçu un contenu/produit ? Quel est l’état (émotionnel) courant de l’usager ? L’usager s’endort-il ? Actions Qu’est-ce que l’usager est en train de faire? Fait-il des actions non autorisées ? 4 Suivi du regard 5 Plot of the dispersion value (Gini, inter-user distance) for each frame 6 Reveals the structure of the movie: fast sequence of short-length shots, with a few longer shots in between where character faces can be clearly seen) low dispersion (= good focus) ~ long shots high dispersion (= uncertain focus) ~ chains of short-length shots, with hard cuts (<-- individual physiological variations) Last shot: static display of the product name tools to analyse/predict audience focus in video shot 6 Estimation de la pose de la tête 7 Solutions intrusives (lunettes, casque, etc.) Solutions non-intrusives et peu onéreuses Distances variables, multi-personnes Estimation de la position de la tête + position Avec U. Amsterdam : filtres de Gabor + suivi Avec USTHB Alger : symétrie du visage des yeux Suivi du regard 8 Reconnaissance de personnes 9 ANR - PERson reCOgnition in audiovisuaL content (2011-13) Recognize people in TV programs robustness to small changes of light, view points, partial occlusion, pose, expression … Improve static approaches take into account temporal aspects for more robust algorithms Take into account depth information from stereo inputs Who are these persons? 9 Time dimension Objective: 10 enhance static methods with time Several strategies Interest point tracking Select and track interest points Build a face time signature Space-time histograms Build a person signature Compare histograms 10 Expressions faciales Approches statiques Locale : 7 points caractéristiques du visage Globale : visage normalisé + classification (mono expression) Approches Détection Détection standard dynamiques d’unité d’actions automatique des points – matériel 11 Expressions faciales – statique locale 12 Proposition d’une combination de différentes méthodes Détection de visages Face Detec(on Eye Detec(on Eyebrow Localiza(on Surprise/Neutral Emo(on Detec(on Nose Localiza(on Mouth Corner Detec(on Happy/Neutral Emo(on Detec(on OpenCV, Détection RNA, Viola-Jones des yeux Rowley Sourcils & Position du nez Seuillage Détection adaptatif coins de la bouche RNA Expressions Règles faciales de décision Expressions faciales – statique locale 13 Endormissement Drowsy Driver Detection System (DDDS) temps réel basé sur les “eye blink patterns” (système non intrusif) Pas de calibration/pas d’initialisation du système Faible coût computationnel Capteurs bon marché (caméras low-cost) Symétrie horizontale des yeux 14 Drowsy Driver Detection System Drowsy Driver Detection Face Camera Face Detec(on Eye Detec(on Eye Blink Pattern Detection Horizontal Symmetry Calcula(on Eye Horizontal Symmetry Open No Increase Drowsy Frame Counter No is Drowsy? No Yes & Eye Detection Eye region extraction Eye blink detection Horizontal Closed Yes 15 is Sleeping? Yes symmetry Threshold Drowsiness Original Detection Vertical flip 0.5x0.16 of IPD Subtracted Alert normalized to 20x15px Reconnaissance d’actions 16 Détection d’action de la vie courante (marcher, courir, sauter, répondre au téléphone … ) Répondre au téléphone Boxer Challenges Différentes échelles spatio-temporelles Variabilité du mouvement et occlusions Mouvement de la personne vs. Mouvement de la caméra Reconnaissance d’actions – HOF/HOG 17 Video stream Detecting interest points Computing optical flow Allocating vectors to blocs Circular clustering Non-cirular clustering Direction model Magnitude model Direction : Mixture of von Mises distributions Query models Template models Distance metric Magnitude : Mixture of Gaussian distributions Action recognition 17 Reconnaissance d’actions 18 … walking running … jogging Modèle requête … handwaving … handclapping … boxing … Modèles de référence 18 Mouvemements de foule Description de scène : Extraction Extraction des zones les plus/moins fréquentées de classes de trajectoires Détection d’évenements non usuels : Detection de situations anormales de foule Logs de situation anormales (indexation/ recherche) Collapsing Overcrowd (high density) Running Evacuation, dispersion 19 19 Regroupement et suivi de groupes 20 Regroupement (cluster) des blocs contigüs ayant des directions proches 20 Expérimentations 21 Split / local dispersion events 21 Expés : situations anormales 22 Split / local dispersion events 22 Conclusions Thème : extraction/analyse d’actions humaines à partir de flux vidéos Niveau individu Suivi de la tête / du regard Reconnaissance de personnes Expressions faciales et endormissement Actions Niveau groupe Détection et suivi de groupe Dynamiques de foule, évenements non usuels Travaux connexes : Indexation et recherche d’informations multimédia Multimédia, métadonnées et sémantique 23