Contributions en surveillance vidéo

Transcription

Contributions en surveillance vidéo
Contributions en surveillance vidéo
Guillaume-Alexandre Bilodeau∗
LITIV lab., École Polytechnique de Montréal, P.O. Box 6079, Station Centre-ville, Montréal,
(Québec), Canada, H3C 3A7
RÉSUMÉ
Les technologies des systèmes de surveillance vidéo sont en progrès continu. Malgré ce fait, la surveillance vidéo
automatisée est encore peu utilisée en pratique, car les algorithmes de détection et de suivi automatiques ne
sont pas encore assez fiables. Nous proposons dans cette article trois avenues possibles pour l’amélioration des
performances des systèmes de vidéosurveillance: 1) L’ajout d’un senseur thermique pour obtenir des informations
complémentaires sur la scène, 2) Des algorithmes de suivi pour des conditions difficiles avec un senseur thermique,
et 3) le suivi avec une caméra orientable (PTZ) qui permet de progressivement zoomer sur une cible.
Keywords: Vidéosurveillance, suivi, infrarouge, thermographie, caméra PTZ
ABSTRACT
Videosurveillance system technologies are continuously progressing. Still, automatic videosurveillance systems
are seldomly used in practice because detection and tracking algorithm are not enough reliable. In this paper,
we propose three possible ways to improve videosurveillance system performances: 1) Adding a thermal sensor
to obtain complementary information on the scene, 2) Developping tracking algorithms for infrared sensor in the
case of difficult environmental conditions, and 3) Tracking with PTZ camera to progressively zoom on a target.
Keywords: Videosurveillance, tracking, infrared, thermography, PTZ camera
1. INTRODUCTION
Les technologies des systèmes de surveillance vidéo sont en progrès continu. Malgré ce fait, la surveillance
vidéo automatisée est encore peu utilisée en pratique, car les algorithmes de détection et de suivi automatiques
ne sont pas encore assez fiables. En effet, d’une part, les capteurs visibles sont limités à certaines conditions
envirommentales, telles que la scène doit être bien éclairée et les objets d’intérêt bien contrastés par rapport à
la scène. D’autre part, les champs de vue peuvent être limités dans le cas de caméras fixes et sans zoom.
Ainsi, depuis quelques années, d’autres avenues possibles sont considérées pour résoudre certaines de ces
lacunes. Une première avenue consiste en l’utilisation de systèmes de capteurs multimodaux (audio, infrarouge,
sonar, hyperspectral). L’idée est de combiner plusieurs capteurs fournissant des informations complémentaires
afin d’améliorer ou valider les détections. Une deuxième avenue possible est d’utiliser des caméras visibles ayant
plus de capacité. Par exemple, des caméras avec des objectifs fisheye pour une champ de vue plus large, ou
encore d’utilisation de caméras avec objectif motorisé PTZ qui permet d’orienter la caméra vers un objet en
particulier pour obtenir une vue plus détaillée de celui-ci.
Nous proposons dans cette article trois approches à la vidéosurveillance qui s’inscrivent dans les avenues
possibles décrites ci-dessus: 1) L’ajout d’un senseur thermique pour obtenir des informations complémentaires
sur la scène, 2) Des algorithmes de suivi pour des conditions difficiles avec un senseur thermique, et 3) le suivi
avec une caméra orientable (PTZ) qui permet de progressivement zoomer sur une cible. Nous ferons un survol
de différentes méthodes que nous avons développées.
2. SURVOL DES MÉTHODES
Dans ce qui suit, nous allons présenter des méthodes possibles pour augmenter les capacités des systèmes de
vidéosurveillance.
∗
[email protected]; Phone: 1 514 340 4711x5064; www.polymtl.ca/litiv
(a)
(b)
(c)
Figure 1. Recalage par trajectoires. (a) Trajectoires en infrarouge, (b) trajectoires en visible, et (c) recalage résultant.
2.1 Combinaison d’une caméra visible et caméra infrarouge
La surveillance vidéo par caméra visible suppose que les objets à identifier et à suivre de trame en trame ont
une apparence différente de leur environnement, car la détection et les modèles utilisés sont généralement basés
sur le contraste des couleurs de l’objet par rapport à l’arrière-plan. Dans un contexte général, cette supposition
n’est pas toujours vérifiée. Une personne vêtue de noir peut se déplacer devant un mur noir. Dans ce cas, il y
aura échec de la détection ou du suivi. C’est pourquoi plusieurs chercheurs s’intéressent maintenant l’utilisation
d’informations multimodales dans les applications de surveillance vidéo.
Dans nos travaux, nous suggérons de coupler une caméra infrarouge avec une caméra visible, afin de profiter
des informations complémentaires fournies par les deux capteurs.1–7 L’information thermique, originant de
phénomènes différents de la couleur, donne des résultats fiables (permettant l’identification d’objets ou personnes)
dans des conditions qui ne sont pas correlées avec les conditions optimales d’utilisation d’un capteur visible.
L’idée est donc d’intégrer les informations des deux capteurs en faisant le recalage des images provenant des
deux caméras. Le type de recalage à effectuer dépend des conditions d’observation de la scène. Nous nous
sommes intéressés à deux cas, en nous concentrant sur le recalage des régions correspondant aux humains:
1. La distance entre les personnes est beaucoup plus petite que la distance entre les personnes et la caméra.1, 2, 5, 6
2. La distance entre les personnes est équivalente à la distance entre les personnes de la caméra.3, 4, 7
Dans le premier cas, on peut supposer que les personnes se déplacent dans un seul plan, et qu’on peut
alors déterminer une matrice de transformation globale pour ce plan afin de transformer les points dans l’image
infrarouge vers le référentiel de l’image visible. Pour estimer cette matrice de transformation, nous avons proposé
une méthode1, 2 qui extrait des points correspondants dans l’image visible et dans l’image infrarouge à l’aide des
trajectoires des objets calculés dans chaque image. Les matrices de transformation sont évaluées à l’aide d’une
métrique basée sur le recouvrement des régions ayant engendrées les trajectoires (Figure 1). Ce type de recalage
est précis au pixel près dans la majorité des cas.
Dans le deuxième cas, il n’existe pas de matrice de transformation qui peut faire un recalage global des
images. Chaque région d’humain doit être recalée individuellement. De plus, puisque les personnes sont près de
la caméra, on ne peut supposer que ceux-ci sont planaires. Dans notre plus récent travail nous proposons donc
de faire un recalage à partir d’une carte de disparité dense.3, 7 Le recalage est fait en quatre étapes:
1. Les caméras sont calibrées, et les images sont rectifiées pour permettre une recheche de correspondances
visibles-infrarouges ligne par ligne.
2. Une détection approximation des régions d’humain est appliquée avec une méthode de soustraction d’arrièreplan.
3. Les régions d’humain sont divisées en segment selon leur quantité de mouvement pour résoudre les cas
d’occlusion.
4. Une méthode de correspondance par fenêtre est appliquée sur chaque segment en utilisant comme mesure
de similarité le descripteur d’image Local Self-Similarity 8 (Figure 2).
Figure 2. Correspondance par fenêtre sur des segments de même quantité de mouvement. À gauche segment provenant
de l’image visible; à droite, segment provenant de l’image infrarouge.
Il résulte de l’application de ces quatre étapes, une carte de disparités qui permet de réaliser le recalage des
images visibles et infrarouges, en plus de fournir des informations sur la profondeur des différents objets.
2.2 Suivi et mesure de température en infrarouge
L’utilisation d’une caméra infrarouge dans un système de surveillance vidéo permet de s’intéresser à la mesure de
température du sujet. Cela est très intéressant pour les applications médicales, car cela permet de faire certains
diagnostiques sur des pathologies ou des phénomènes physiologiques. C’est le cas, par exemple, de l’épilepsie
où il a été observé que lors de convulsions, la température corporelle change.9 Pour réaliser des mesures de
températures en infrarouge, il faut définir une méthode de suivi adaptée. Nous avons développé deux méthodes
de suivi adaptées à différentes conditions d’observation.
Dans un premier temps, nous nous sommes intéressés à la mesure de la température d’un animal dans des
conditions d’observation normales (Figure 3 a)). Nous avons développé un filtre de particles en utilisant les
suppositions suivantes.10 1) Les images sont en tons de gris, avec une intensité grande signifiant chaud, et une
intensité faible signifiant froid; 2) la région d’intérêt est elliptique et permet d’observer de la peau nue; 3) la
température de la région d’intérêt est plus grande que les températures environnantes; 4) la région d’intérêt peut
être cachée partiellemennt par des équipements médicaux; et 5) la région d’intérêt est toujours dans le champ
de vue de la caméra.
L’algorithme développé est basé sur un modèle d’intensité et de forme défini avec des points de contrôle
définissant un ellipse sur le contour de l’objet:
1. Initialisation. Sélection manuelle de points sur le périmètre de la région d’intérêt.
Pour chaque trame:
2. Seuiller l’image infrarouge pour obtenir les régions les plus chaudes. Calculer le gradient de l’image pour
obtenir des informations de forme en utilisant un filtre de Sobel.11
3. Appliquer le filtre de particules pour sélectionner la meilleure région candidate sb (même forme et même
intensité).
4. Mesurer la température Tsb (f ) de sb avec Tsb (f ) = Tmin + ((Csb /255) ∗ (Tmax − Tmin )) où Tmin et Tmax
sont les valeurs minimum et maximum possibles selon le réglage de la caméra et Csb est l’intensité moyenne
des pixels de la région sb .
Les erreurs de mesure obtenues sont inférieures à 0.1o C. Dans un deuxième temps, nous nous sommes intéressé
à la mesure de température d’un animal dans des séquences vidéo où le contraste est faible et où la température
de l’environnement change de façon dynamique12 (Figure 3 b)). La température est mesurée de la même façon,
(a)
(b)
Figure 3. Mesure de la température d’un animal sous condition normale (a) ou condition difficile (b).
mais la stratégie pour obtenir la région de mesure est différente. Dans ce cas, le mouvement est utilié pour
localiser l’animal puisque l’apparence est changeante, et une hypothèse de changement graduel de température
est faite pour différentier l’animal de mouvements parasites tels que ceux provenant de l’apparition de tache
d’urine. Plus précisement, l’algorithme suivant a été adopté:
• Si aucun mouvement n’est detecté, la température devrait être mesurée sur la même région que pour la
trame précédente;
• S’il y a du mouvement dans une région en intersection avec la position précédente de l’animal, la région de
l’objet doit être mise à jour. Cette opération est réalisé à l’aide d’opération de morphologie mathématique;
• S’il y a du mouvement dans une grande région qui n’est pas en intersection avec la position précédente de
l’animal, la nouvelle région devrait correspondre à l’animal après un grand déplacement si la température
est à peu près semblable.
Dans ce cas, les erreurs de mesure sur les températures sont environ 1o C.
2.3 Suivi avec caméra PTZ
Le suivi par une caméra PTZ est une autre possibilité pour améliorer un système de surveillance vidéo. En effet,
ce type de caméra permet de suivre un objet en orientant sa lentille vers celui-ci. De plus, une caméra PTZ peut
zoomer sur un objet pour obtenir des informations plus détaillées sur son apparence. Par contre, suivre un objet
avec une caméra PTZ, particulièrement si la séquence vidéo transite via un réseau IP, pose plusieurs problèmes.
En effet, le déplacement de l’objet dans le plan image peut être grand (mouvement de la caméra par rapport à
celui de la personne), l’apparence de la scène change lors de chaque mouvement de la caméra, et une erreur de
contrôle de la caméra fera en sorte que celle-ci perdra le suivi de l’objet.
Nous avons développé une méthode robuste pour réaliser le suivi et le contrôle dans ces conditions à l’aide
d’une caméra IP PTZ.13, 14 Notre méthode est basée sur deux suppositions:
1. Si l’objet à suivre ne bouge pas ou bouge près du centre de l’image, l’orientation de la caméra ne doit pas
changer;
2. Si l’objet est près des frontières de l’image, la caméra doit être réorientée pour le placer près du centre.
Ainsi, si la méthode de suivi fonctionne correctement, l’objet devrait être essentiellement toujours près du
centre de l’image. Ainsi, pour réaliser le suivi, nous utilisons un filtre de particles15 pour lequel les particules
seront concentrés dans le centre de l’image. L’objet est modélisé par un ellipse englobant la région à suivre, et
les couleurs de cette région. Le filtre de particules est ainsi utilisé pour localiser la région élliptique candidate
Figure 4. Positions de la personne suivi dans le plan image suite au suivi par notre algorithme.
la plus semblable au modèle. Étant donné que le suivi ne sera pas toujours parfait, l’objet peut être loin
du centre de l’image. Ainsi, il faut placer des particules ailleurs qu’au centre de l’image. Pour ce faire, le
flux optique est utiliser pour localiser les objets en mouvement, suite à l’annulation du mouvement provenant
caméra. Des particules additionnelles sont ajoutés autour des régions identifiées par le flux optique. La caméra
est ensuite déplacée pour positionner l’objet au centre du champ de vue de la caméra en utilisant une prédiction
du déplacement de l’objet en fonction de sa direction et sa vitesse.
Les résultats démontrent une précision dans le suivi supérieure à 90% avec peu de perte de suivi. Notre
algorithme permet de garder l’objet au centre du champ de vue de la caméra presqu’à toutes les trames (Figure
4).
3. CONCLUSION
Dans cette article, nous avons présenté diverses méthodes pour améliorer les systèmes de surveillance vidéo. Les
résultats obtenus indiquent, entre autre, que l’utilisation d’un capteur infrarouge permet d’améliorer la qualité
des détections des humains et de leur suivi grâce aux informations complémentaires qu’il amène. Par ailleurs, nos
résultats montrent aussi que le suivi par caméra PTZ, bien que comportant des défis additionnels, est possible
malgré des déplacements relatifs très grands des objets d’une trame à l’autre. Les travaux futurs consiste donc à
poursuivre l’amélioration de ces différentes méthodes et de les appliquer pour des tâches de surveillance de plus
haut niveau.
REMERCIEMENTS
L’auteur remercie Atousa Torabi, Parisa Darvish Zadeh Varcheie, François Morin, Pier-Luc St-Onge, Guillaume
Massé, Charles Ouellet, Romain Ganier, Ramla Ghali, et Rana Farah qui ont tous joués des rôles-clefs dans
l’élaboration des méthodes présentées dans cet article. Ces méthodes ont été réalisées grâce à des subventions
et des bourses du Fonds québécois de la recherche sur la nature et les technologies (FQRNT) et du Conseil de
recherches en sciences naturelles et en génie du Canada (CRSNG).
REFERENCES
[1] Torabi, A., Masse, G., and Bilodeau, G.-A., “An iterative integrated framework for thermal-visible image
registration, sensor fusion, and people tracking for video surveillance applications,” Computer Vision and
Image Understanding 116(2), 210 – 221 (2012).
[2] Bilodeau, G., Torabi, A., and Morin, F., “Visible and infrared image registration using trajectories and
composite foreground images,” Image and Vision Computing 29(1), 41 – 50 (2011).
[3] Torabi, A. and Bilodeau, G.-A., “Local self-similarity as a dense stereo correspondence measure for thermalvisible video registration,” in [Computer Vision and Pattern Recognition Workshops (CVPRW), 2011 IEEE
Computer Society Conference on ], 61 –67 (jun. 2011).
[4] Bilodeau, G.-A., St-Onge, P.-L., and Garnier, R., “Silhouette-based features for visible-infrared registration,” in [Computer Vision and Pattern Recognition Workshops (CVPRW), 2011 IEEE Computer Society
Conference on ], 68 –73 (jun. 2011).
[5] Torabi, A., Masse, G., and Bilodeau, G.-A., “Feedback scheme for thermal-visible video registration, sensor
fusion, and people tracking,” in [Computer Vision and Pattern Recognition Workshops (CVPRW), 2010
IEEE Computer Society Conference on ], 15 –22 (jun. 2010).
[6] Morin, F., Torabi, A., and Bilodeau, G.-A., “Automatic registration of color and infrared videos using
trajectories obtained from a multiple object tracking algorithm,” in [Computer and Robot Vision, Canadian
Conference ], 311–318, IEEE Computer Society, Los Alamitos, CA, USA (2008).
[7] Torabi, A., Najafianrazavi, M., and Bilodeau, G.-A., “A comparative evaluation of multimodal dense stereo
correspondence measures,” in [Robotic and Sensors Environments, 2011. ROSE 2011. IEEE International
Symposium on ], 143 –148 (sept. 2011).
[8] Shechtman, E. and Irani, M., “Matching local self-similarities across images and videos,” in [IEEE Conference on Computer Vision and Pattern Recognition 2007 (CVPR’07) ], (June 2007).
[9] Levesque, M., Langlois, J. P., Lema, P., Courtemanche, R., Bilodeau, G.-A., and Carmant, L., “Synchronized
gamma oscillations (30-50 hz) in the amygdalo-hippocampal network in relation with seizure propagation
and severity,” Neurobiology of Disease 35(2), 209 – 218 (2009).
[10] Bilodeau, G.-A., Torabi, A., Levesque, M., Ouellet, C., Langlois, J., Lema, P., and Carmant, L., “Body temperature estimation of a moving subject from thermographic images,” Machine Vision and Applications 23,
299–311.
[11] Forsyth, D. A. and Ponce, J., [Computer Vision: A Modern Approach ], Prentice Hall, 1 ed. (Aug. 2002).
[12] Bilodeau, G.-A., Ghali, R., Desgent, S., Langlois, J., Farah, R., St-Onge, P.-L., Duss, S., and Carmant,
L., “Where is the rat? tracking in low contrast thermographic images,” in [Computer Vision and Pattern
Recognition Workshops (CVPRW), 2011 IEEE Computer Society Conference on ], 55 –60 (jun. 2011).
[13] Varcheie, P. and Bilodeau, G.-A., “People tracking using a network-based ptz camera,” Machine Vision and
Applications 22, 671–690 (2011). 10.1007/s00138-010-0300-1.
[14] Darvish Zadeh Varcheie, P. and Bilodeau, G.-A., “Adaptive fuzzy particle filter tracker for a ptz camera in
an ip surveillance system,” IEEE Transactions on Instrumentation and Measurement 60(2), 354–371 (2011).
[15] Isard, M. and Blake, A., “Condensation - conditional density propagation for visual tracking,” International
Journal of Computer Vision 29(1), 5–28 (1998).

Documents pareils