Contributions en surveillance vidéo
Transcription
Contributions en surveillance vidéo
Contributions en surveillance vidéo Guillaume-Alexandre Bilodeau∗ LITIV lab., École Polytechnique de Montréal, P.O. Box 6079, Station Centre-ville, Montréal, (Québec), Canada, H3C 3A7 RÉSUMÉ Les technologies des systèmes de surveillance vidéo sont en progrès continu. Malgré ce fait, la surveillance vidéo automatisée est encore peu utilisée en pratique, car les algorithmes de détection et de suivi automatiques ne sont pas encore assez fiables. Nous proposons dans cette article trois avenues possibles pour l’amélioration des performances des systèmes de vidéosurveillance: 1) L’ajout d’un senseur thermique pour obtenir des informations complémentaires sur la scène, 2) Des algorithmes de suivi pour des conditions difficiles avec un senseur thermique, et 3) le suivi avec une caméra orientable (PTZ) qui permet de progressivement zoomer sur une cible. Keywords: Vidéosurveillance, suivi, infrarouge, thermographie, caméra PTZ ABSTRACT Videosurveillance system technologies are continuously progressing. Still, automatic videosurveillance systems are seldomly used in practice because detection and tracking algorithm are not enough reliable. In this paper, we propose three possible ways to improve videosurveillance system performances: 1) Adding a thermal sensor to obtain complementary information on the scene, 2) Developping tracking algorithms for infrared sensor in the case of difficult environmental conditions, and 3) Tracking with PTZ camera to progressively zoom on a target. Keywords: Videosurveillance, tracking, infrared, thermography, PTZ camera 1. INTRODUCTION Les technologies des systèmes de surveillance vidéo sont en progrès continu. Malgré ce fait, la surveillance vidéo automatisée est encore peu utilisée en pratique, car les algorithmes de détection et de suivi automatiques ne sont pas encore assez fiables. En effet, d’une part, les capteurs visibles sont limités à certaines conditions envirommentales, telles que la scène doit être bien éclairée et les objets d’intérêt bien contrastés par rapport à la scène. D’autre part, les champs de vue peuvent être limités dans le cas de caméras fixes et sans zoom. Ainsi, depuis quelques années, d’autres avenues possibles sont considérées pour résoudre certaines de ces lacunes. Une première avenue consiste en l’utilisation de systèmes de capteurs multimodaux (audio, infrarouge, sonar, hyperspectral). L’idée est de combiner plusieurs capteurs fournissant des informations complémentaires afin d’améliorer ou valider les détections. Une deuxième avenue possible est d’utiliser des caméras visibles ayant plus de capacité. Par exemple, des caméras avec des objectifs fisheye pour une champ de vue plus large, ou encore d’utilisation de caméras avec objectif motorisé PTZ qui permet d’orienter la caméra vers un objet en particulier pour obtenir une vue plus détaillée de celui-ci. Nous proposons dans cette article trois approches à la vidéosurveillance qui s’inscrivent dans les avenues possibles décrites ci-dessus: 1) L’ajout d’un senseur thermique pour obtenir des informations complémentaires sur la scène, 2) Des algorithmes de suivi pour des conditions difficiles avec un senseur thermique, et 3) le suivi avec une caméra orientable (PTZ) qui permet de progressivement zoomer sur une cible. Nous ferons un survol de différentes méthodes que nous avons développées. 2. SURVOL DES MÉTHODES Dans ce qui suit, nous allons présenter des méthodes possibles pour augmenter les capacités des systèmes de vidéosurveillance. ∗ [email protected]; Phone: 1 514 340 4711x5064; www.polymtl.ca/litiv (a) (b) (c) Figure 1. Recalage par trajectoires. (a) Trajectoires en infrarouge, (b) trajectoires en visible, et (c) recalage résultant. 2.1 Combinaison d’une caméra visible et caméra infrarouge La surveillance vidéo par caméra visible suppose que les objets à identifier et à suivre de trame en trame ont une apparence différente de leur environnement, car la détection et les modèles utilisés sont généralement basés sur le contraste des couleurs de l’objet par rapport à l’arrière-plan. Dans un contexte général, cette supposition n’est pas toujours vérifiée. Une personne vêtue de noir peut se déplacer devant un mur noir. Dans ce cas, il y aura échec de la détection ou du suivi. C’est pourquoi plusieurs chercheurs s’intéressent maintenant l’utilisation d’informations multimodales dans les applications de surveillance vidéo. Dans nos travaux, nous suggérons de coupler une caméra infrarouge avec une caméra visible, afin de profiter des informations complémentaires fournies par les deux capteurs.1–7 L’information thermique, originant de phénomènes différents de la couleur, donne des résultats fiables (permettant l’identification d’objets ou personnes) dans des conditions qui ne sont pas correlées avec les conditions optimales d’utilisation d’un capteur visible. L’idée est donc d’intégrer les informations des deux capteurs en faisant le recalage des images provenant des deux caméras. Le type de recalage à effectuer dépend des conditions d’observation de la scène. Nous nous sommes intéressés à deux cas, en nous concentrant sur le recalage des régions correspondant aux humains: 1. La distance entre les personnes est beaucoup plus petite que la distance entre les personnes et la caméra.1, 2, 5, 6 2. La distance entre les personnes est équivalente à la distance entre les personnes de la caméra.3, 4, 7 Dans le premier cas, on peut supposer que les personnes se déplacent dans un seul plan, et qu’on peut alors déterminer une matrice de transformation globale pour ce plan afin de transformer les points dans l’image infrarouge vers le référentiel de l’image visible. Pour estimer cette matrice de transformation, nous avons proposé une méthode1, 2 qui extrait des points correspondants dans l’image visible et dans l’image infrarouge à l’aide des trajectoires des objets calculés dans chaque image. Les matrices de transformation sont évaluées à l’aide d’une métrique basée sur le recouvrement des régions ayant engendrées les trajectoires (Figure 1). Ce type de recalage est précis au pixel près dans la majorité des cas. Dans le deuxième cas, il n’existe pas de matrice de transformation qui peut faire un recalage global des images. Chaque région d’humain doit être recalée individuellement. De plus, puisque les personnes sont près de la caméra, on ne peut supposer que ceux-ci sont planaires. Dans notre plus récent travail nous proposons donc de faire un recalage à partir d’une carte de disparité dense.3, 7 Le recalage est fait en quatre étapes: 1. Les caméras sont calibrées, et les images sont rectifiées pour permettre une recheche de correspondances visibles-infrarouges ligne par ligne. 2. Une détection approximation des régions d’humain est appliquée avec une méthode de soustraction d’arrièreplan. 3. Les régions d’humain sont divisées en segment selon leur quantité de mouvement pour résoudre les cas d’occlusion. 4. Une méthode de correspondance par fenêtre est appliquée sur chaque segment en utilisant comme mesure de similarité le descripteur d’image Local Self-Similarity 8 (Figure 2). Figure 2. Correspondance par fenêtre sur des segments de même quantité de mouvement. À gauche segment provenant de l’image visible; à droite, segment provenant de l’image infrarouge. Il résulte de l’application de ces quatre étapes, une carte de disparités qui permet de réaliser le recalage des images visibles et infrarouges, en plus de fournir des informations sur la profondeur des différents objets. 2.2 Suivi et mesure de température en infrarouge L’utilisation d’une caméra infrarouge dans un système de surveillance vidéo permet de s’intéresser à la mesure de température du sujet. Cela est très intéressant pour les applications médicales, car cela permet de faire certains diagnostiques sur des pathologies ou des phénomènes physiologiques. C’est le cas, par exemple, de l’épilepsie où il a été observé que lors de convulsions, la température corporelle change.9 Pour réaliser des mesures de températures en infrarouge, il faut définir une méthode de suivi adaptée. Nous avons développé deux méthodes de suivi adaptées à différentes conditions d’observation. Dans un premier temps, nous nous sommes intéressés à la mesure de la température d’un animal dans des conditions d’observation normales (Figure 3 a)). Nous avons développé un filtre de particles en utilisant les suppositions suivantes.10 1) Les images sont en tons de gris, avec une intensité grande signifiant chaud, et une intensité faible signifiant froid; 2) la région d’intérêt est elliptique et permet d’observer de la peau nue; 3) la température de la région d’intérêt est plus grande que les températures environnantes; 4) la région d’intérêt peut être cachée partiellemennt par des équipements médicaux; et 5) la région d’intérêt est toujours dans le champ de vue de la caméra. L’algorithme développé est basé sur un modèle d’intensité et de forme défini avec des points de contrôle définissant un ellipse sur le contour de l’objet: 1. Initialisation. Sélection manuelle de points sur le périmètre de la région d’intérêt. Pour chaque trame: 2. Seuiller l’image infrarouge pour obtenir les régions les plus chaudes. Calculer le gradient de l’image pour obtenir des informations de forme en utilisant un filtre de Sobel.11 3. Appliquer le filtre de particules pour sélectionner la meilleure région candidate sb (même forme et même intensité). 4. Mesurer la température Tsb (f ) de sb avec Tsb (f ) = Tmin + ((Csb /255) ∗ (Tmax − Tmin )) où Tmin et Tmax sont les valeurs minimum et maximum possibles selon le réglage de la caméra et Csb est l’intensité moyenne des pixels de la région sb . Les erreurs de mesure obtenues sont inférieures à 0.1o C. Dans un deuxième temps, nous nous sommes intéressé à la mesure de température d’un animal dans des séquences vidéo où le contraste est faible et où la température de l’environnement change de façon dynamique12 (Figure 3 b)). La température est mesurée de la même façon, (a) (b) Figure 3. Mesure de la température d’un animal sous condition normale (a) ou condition difficile (b). mais la stratégie pour obtenir la région de mesure est différente. Dans ce cas, le mouvement est utilié pour localiser l’animal puisque l’apparence est changeante, et une hypothèse de changement graduel de température est faite pour différentier l’animal de mouvements parasites tels que ceux provenant de l’apparition de tache d’urine. Plus précisement, l’algorithme suivant a été adopté: • Si aucun mouvement n’est detecté, la température devrait être mesurée sur la même région que pour la trame précédente; • S’il y a du mouvement dans une région en intersection avec la position précédente de l’animal, la région de l’objet doit être mise à jour. Cette opération est réalisé à l’aide d’opération de morphologie mathématique; • S’il y a du mouvement dans une grande région qui n’est pas en intersection avec la position précédente de l’animal, la nouvelle région devrait correspondre à l’animal après un grand déplacement si la température est à peu près semblable. Dans ce cas, les erreurs de mesure sur les températures sont environ 1o C. 2.3 Suivi avec caméra PTZ Le suivi par une caméra PTZ est une autre possibilité pour améliorer un système de surveillance vidéo. En effet, ce type de caméra permet de suivre un objet en orientant sa lentille vers celui-ci. De plus, une caméra PTZ peut zoomer sur un objet pour obtenir des informations plus détaillées sur son apparence. Par contre, suivre un objet avec une caméra PTZ, particulièrement si la séquence vidéo transite via un réseau IP, pose plusieurs problèmes. En effet, le déplacement de l’objet dans le plan image peut être grand (mouvement de la caméra par rapport à celui de la personne), l’apparence de la scène change lors de chaque mouvement de la caméra, et une erreur de contrôle de la caméra fera en sorte que celle-ci perdra le suivi de l’objet. Nous avons développé une méthode robuste pour réaliser le suivi et le contrôle dans ces conditions à l’aide d’une caméra IP PTZ.13, 14 Notre méthode est basée sur deux suppositions: 1. Si l’objet à suivre ne bouge pas ou bouge près du centre de l’image, l’orientation de la caméra ne doit pas changer; 2. Si l’objet est près des frontières de l’image, la caméra doit être réorientée pour le placer près du centre. Ainsi, si la méthode de suivi fonctionne correctement, l’objet devrait être essentiellement toujours près du centre de l’image. Ainsi, pour réaliser le suivi, nous utilisons un filtre de particles15 pour lequel les particules seront concentrés dans le centre de l’image. L’objet est modélisé par un ellipse englobant la région à suivre, et les couleurs de cette région. Le filtre de particules est ainsi utilisé pour localiser la région élliptique candidate Figure 4. Positions de la personne suivi dans le plan image suite au suivi par notre algorithme. la plus semblable au modèle. Étant donné que le suivi ne sera pas toujours parfait, l’objet peut être loin du centre de l’image. Ainsi, il faut placer des particules ailleurs qu’au centre de l’image. Pour ce faire, le flux optique est utiliser pour localiser les objets en mouvement, suite à l’annulation du mouvement provenant caméra. Des particules additionnelles sont ajoutés autour des régions identifiées par le flux optique. La caméra est ensuite déplacée pour positionner l’objet au centre du champ de vue de la caméra en utilisant une prédiction du déplacement de l’objet en fonction de sa direction et sa vitesse. Les résultats démontrent une précision dans le suivi supérieure à 90% avec peu de perte de suivi. Notre algorithme permet de garder l’objet au centre du champ de vue de la caméra presqu’à toutes les trames (Figure 4). 3. CONCLUSION Dans cette article, nous avons présenté diverses méthodes pour améliorer les systèmes de surveillance vidéo. Les résultats obtenus indiquent, entre autre, que l’utilisation d’un capteur infrarouge permet d’améliorer la qualité des détections des humains et de leur suivi grâce aux informations complémentaires qu’il amène. Par ailleurs, nos résultats montrent aussi que le suivi par caméra PTZ, bien que comportant des défis additionnels, est possible malgré des déplacements relatifs très grands des objets d’une trame à l’autre. Les travaux futurs consiste donc à poursuivre l’amélioration de ces différentes méthodes et de les appliquer pour des tâches de surveillance de plus haut niveau. REMERCIEMENTS L’auteur remercie Atousa Torabi, Parisa Darvish Zadeh Varcheie, François Morin, Pier-Luc St-Onge, Guillaume Massé, Charles Ouellet, Romain Ganier, Ramla Ghali, et Rana Farah qui ont tous joués des rôles-clefs dans l’élaboration des méthodes présentées dans cet article. Ces méthodes ont été réalisées grâce à des subventions et des bourses du Fonds québécois de la recherche sur la nature et les technologies (FQRNT) et du Conseil de recherches en sciences naturelles et en génie du Canada (CRSNG). REFERENCES [1] Torabi, A., Masse, G., and Bilodeau, G.-A., “An iterative integrated framework for thermal-visible image registration, sensor fusion, and people tracking for video surveillance applications,” Computer Vision and Image Understanding 116(2), 210 – 221 (2012). [2] Bilodeau, G., Torabi, A., and Morin, F., “Visible and infrared image registration using trajectories and composite foreground images,” Image and Vision Computing 29(1), 41 – 50 (2011). [3] Torabi, A. and Bilodeau, G.-A., “Local self-similarity as a dense stereo correspondence measure for thermalvisible video registration,” in [Computer Vision and Pattern Recognition Workshops (CVPRW), 2011 IEEE Computer Society Conference on ], 61 –67 (jun. 2011). [4] Bilodeau, G.-A., St-Onge, P.-L., and Garnier, R., “Silhouette-based features for visible-infrared registration,” in [Computer Vision and Pattern Recognition Workshops (CVPRW), 2011 IEEE Computer Society Conference on ], 68 –73 (jun. 2011). [5] Torabi, A., Masse, G., and Bilodeau, G.-A., “Feedback scheme for thermal-visible video registration, sensor fusion, and people tracking,” in [Computer Vision and Pattern Recognition Workshops (CVPRW), 2010 IEEE Computer Society Conference on ], 15 –22 (jun. 2010). [6] Morin, F., Torabi, A., and Bilodeau, G.-A., “Automatic registration of color and infrared videos using trajectories obtained from a multiple object tracking algorithm,” in [Computer and Robot Vision, Canadian Conference ], 311–318, IEEE Computer Society, Los Alamitos, CA, USA (2008). [7] Torabi, A., Najafianrazavi, M., and Bilodeau, G.-A., “A comparative evaluation of multimodal dense stereo correspondence measures,” in [Robotic and Sensors Environments, 2011. ROSE 2011. IEEE International Symposium on ], 143 –148 (sept. 2011). [8] Shechtman, E. and Irani, M., “Matching local self-similarities across images and videos,” in [IEEE Conference on Computer Vision and Pattern Recognition 2007 (CVPR’07) ], (June 2007). [9] Levesque, M., Langlois, J. P., Lema, P., Courtemanche, R., Bilodeau, G.-A., and Carmant, L., “Synchronized gamma oscillations (30-50 hz) in the amygdalo-hippocampal network in relation with seizure propagation and severity,” Neurobiology of Disease 35(2), 209 – 218 (2009). [10] Bilodeau, G.-A., Torabi, A., Levesque, M., Ouellet, C., Langlois, J., Lema, P., and Carmant, L., “Body temperature estimation of a moving subject from thermographic images,” Machine Vision and Applications 23, 299–311. [11] Forsyth, D. A. and Ponce, J., [Computer Vision: A Modern Approach ], Prentice Hall, 1 ed. (Aug. 2002). [12] Bilodeau, G.-A., Ghali, R., Desgent, S., Langlois, J., Farah, R., St-Onge, P.-L., Duss, S., and Carmant, L., “Where is the rat? tracking in low contrast thermographic images,” in [Computer Vision and Pattern Recognition Workshops (CVPRW), 2011 IEEE Computer Society Conference on ], 55 –60 (jun. 2011). [13] Varcheie, P. and Bilodeau, G.-A., “People tracking using a network-based ptz camera,” Machine Vision and Applications 22, 671–690 (2011). 10.1007/s00138-010-0300-1. [14] Darvish Zadeh Varcheie, P. and Bilodeau, G.-A., “Adaptive fuzzy particle filter tracker for a ptz camera in an ip surveillance system,” IEEE Transactions on Instrumentation and Measurement 60(2), 354–371 (2011). [15] Isard, M. and Blake, A., “Condensation - conditional density propagation for visual tracking,” International Journal of Computer Vision 29(1), 5–28 (1998).