Indexation De La Vidéo Par Le Contenu Et Besoin En Architectures

Transcription

Indexation De La Vidéo Par Le Contenu Et Besoin En Architectures
SETIT 2009
5th International Conference: Sciences of Electronic,
Technologies of Information and Telecommunications
March 22-26, 2009 – TUNISIA
Indexation De La Vidéo Par Le Contenu Et Besoin En
Architectures Matérielles Dédiées
Abdessalem BEN ABDELALI*, Mohamed Nidhal KRIFA*, Lamjed TOUIL*,
Abdellatif MTIBAA* et Elbay BOURENNANE**
*Laboratoire d’EµE, groupe CSR, Faculté des sciences de Monastir, Tunisie
[email protected]
[email protected]
[email protected]
[email protected]
** LE2I, Université de Bourgogne Dijon, France
[email protected]
Résumé: Dans ce papier nous avons proposé une étude du domaine de l’indexation de la vidéo par le contenu dans le
but d’examiner l’impact des nouvelles exigences dans ce domaine sur le choix des méthodes de conception et des
solutions technologiques pouvant être utilisées pour la mise en œuvre d’architectures matérielles dédiées pour ce type
d’application. Il s’agit d’une étude de ce domaine à travers les caractéristiques et les besoins des nouvelles applications
possibles et des techniques mises en œuvre pour l’indexation de la vidéo par le contenu. Dans ce cadre un modèle
générique d’un système d’analyse du contenu audio visuel a été proposé. Il exprime l’interaction et les combinaisons
possibles des techniques existantes pour différents types d’application et en tenant compte des principales
caractéristiques des systèmes d’indexation actuels. Des exemples d’applications de ces systèmes ont étés aussi présentés
tout en mettant l’accent sur leurs exigences. Une discussion des besoins spécifiques des systèmes d’indexation actuels et
la nécessité de faire recours aux nouvelles technologies des systèmes embarqués a été proposée à la fin de ce papier.
Mots clés: Indexation par le contenu, vidéo, applications temps réel, architectures matérielles dédiées.
développées pour faciliter l’accès aux documents
audio-visuels sont d’une importance majeure pour le
grand public comme pour les utilisateurs
professionnels. Vu l’importance de ce sujet une norme
appelée MPEG7 a été élaborée, elle s’adresse aux
problèmes de gestion et d’exploitation du contenu
multimédia. Elle admet comme objectif de fournir un
cadre d’outils normalisés pouvant être utilisés pour
décrire et contrôler efficacement le contenu
multimédia.
INTRODUCTION
Ce travail s’inscrit dans le cadre de l’étude de la
conception d’architectures matérielles dédiées et de
l’exploitation des nouvelles technologies des systèmes
embarqués pour les applications multimédia récentes.
Dans ce papier nous proposons une étude du domaine
de l’indexation de la vidéo par le contenu dans le but
de montrer l’impact des nouvelles exigences dans ce
domaine sur le choix des solutions technologiques et
des méthodes de conception pouvant être exploitées
pour la mise en œuvre de systèmes électroniques pour
l’analyse du contenu AV.
Malgré la grande activité au niveau de
développement d’algorithmes et de techniques
d’indexation et de recherche automatique des
informations audiovisuelles, un manque de travaux
concernant la conception de systèmes embarqués et les
possibilités d’exploitation des nouvelles technologies
pour ce domaine d’application est à signaler. Ceci est
dû principalement au fait que les travaux de recherche
dans ce domaine sont essentiellement orientés vers le
développement
de
techniques
permettant
l’automatisation de l’indexation et de la recherche des
informations audiovisuelles. Ce domaine a été aussi
restreint à la gestion des bases de données AV sans
L’indexation de la vidéo par le contenu constitue un
exemple d’application multimédia récent et d’une
grande
importance actuelle. En fait, devant la
production croissante et la quantité énorme des
données AV, l’accès à l’information désirée est devenu
de plus en plus difficile. Dans ce cadre des efforts très
significatifs ont été consacrés au développement
d’outils et de techniques permettant une gestion plus
efficace de ce type de données. Les techniques
-1-
SETIT2009
contraintes particulières.
visuel n’est généralement plus interprété de la même
façon par des personnes différentes et les résultats
d’indexation peuvent ne pas être satisfaisants.
Actuellement les techniques de l’indexation
automatique sont devenues de plus en plus nombreuses
et couvrent plus de domaines d’applications sous des
contraintes de plus en plus exigeantes. De ce fait, la
complexité est de plus de plus ressentie et forme
actuellement un grand souci pour les applications à
aspect temps réel ou même non temps réel à cause de
la lourdeur et le nombre de techniques mises en œuvre
ainsi que la nature des documents vidéo qui présente
généralement une quantité énorme d’informations.
Mais le plus important reste le cadre des nouvelles
applications de l’indexation de la vidéo et les nouvelles
possibilités fournies à l’utilisateur pour un accès plus
performant aux informations audiovisuelles. Ceci
implique la mise en œuvre de systèmes plus complexes
basés sur des modèles de description du contenu
avancés et qui peuvent être exploités dans des
applications plus exigeantes. Dans ce papier nous
essayons de mettre l’accent sur ces aspects dans le but
de montrer la possibilité d’exploitation des nouvelles
technologies et des moyens de conception de systèmes
embarqués en faveur de ce domaine d’application.
La difficulté d’extraction automatique des
informations sémantiques de la vidéo rend
l’automatisation de la phase d’indexation une tâche de
grande complexité. Des multiples problèmes
sont posés : choix des techniques d’analyse du contenu
audiovisuel, gestion de ces différentes techniques,
nature des indexes à associer aux documents vidéo
selon les requêtes possibles de l’utilisateur qui peut
être un être humain ou une machine, comment extraire
l’information désirée par des méthodes automatiques,
etc. Ceci rend le domaine de l’indexation automatique
par le contenu très actif avec des contributions venant à
la fois de la communauté analyse d’images et de vidéo
et également de la communauté informatique et base
de données.
L’indexation automatique de la vidéo par le contenu
se base sur l’extraction automatique des méta-données
descriptives à partir du contenu physique (bas niveau)
de la vidéo. Ces méta-données (ou méta-information)
sont extraites des documents audiovisuels par des
outils d’analyse du contenu.
Le reste de ce papier sera organisé en cinq
paragraphes. Dans le premier paragraphe nous
rappelons
la
problématique
de
l’indexation
automatique de la vidéo par le contenu. Dans le
deuxième paragraphe nous donnons un petit aperçu sur
les différentes générations des systèmes d’indexation et
de recherche de la vidéo par le contenu. Dans le
troisième paragraphe nous exposons les techniques et
les structures des systèmes d’analyse de contenu AV
tout en insistant sur les nouvelles tendances des
systèmes d’analyse du contenu AV actuels. Dans le
quatrième paragraphe nous nous intéressons aux
applications des systèmes d’indexation de la vidéo par
le contenu et les nouvelles contraintes dans ce
domaine. Une discussion des besoins en nouvelles
technologies des systèmes embarqués est proposée
dans le cinquième paragraphe.
L’extraction automatique des méta-données
descriptives se base sur l’analyse des caractéristiques
perceptuelles de bas niveau. Dans ce cadre la
problématique majeure est l’exploitation de ces
caractéristiques
pouvant
être
extraites
automatiquement pour la génération de descriptions
utiles qui peuvent être exploitées par l’utilisateur pour
accéder aux informations qui l’intéressent. Ce principe
est illustré par la Figure 1. Cette figure représente un
système d’indexation qui fournit, à partir des métadonnées extraites automatiquement, des informations
(indices spatiotemporels) exploitables par l’utilisateur
au travers des modèles de représentation adéquats.
Extraction automatique
des méta-données
1. Problématiques de l’automatisation de
d’indexation de la vidéo
Parole
L’automatisation de la phase d’indexation pose des
problèmes très divers liés à la possibilité de confier une
tâche souvent effectuée par l’être humain à une
machine. En fait, l'homme est capable de distinguer et
d'interpréter les différents aspects visuels (régions
d'une image, couleurs, etc.), les relations entre les
actions (dans un film par exemple), la signification des
aspects visuels et leur relation avec le contexte des
actions (exemple : des couleurs et un décor qui font
peur), la classification des documents vidéo selon
différents critères (type du document : journal, film
triste, film de fiction, documentaire sur les animaux,
etc.). Ceci se fait grâce à la possibilité de combiner les
différentes informations acquises par le système de
visions et le système auditif et la grande puissance
d’analyse et d’interprétation chez l’homme. Mais le
problème majeur de l’indexation manuelle reste le coût
très élevé et surtout la subjectivité. En fait, le contenu
Modèles
Visage
OCR texte Localisation
Événements
Interface
utilisateur
Figure 1. Analyse du contenu vidéo et extraction d’indices
spatiotemporels
2. Les systèmes d’indexation actuels et le
gap sémantique
Nous pouvons distinguer trois générations de
systèmes d’indexation et de recherche de la vidéo par
le contenu [CAL 04].
Dans la première génération les attributs des
données visuelles sont extraits de façon manuelle.
Nous obtenons des descriptions de haut niveau des
images avec une modélisation conceptuelle du contenu
visuel. Ces représentations permettent l’identification
-2-
SETIT2009
d’entités significatives dans une image ou dans une
vidéo (un objet, une personne, etc.), des parties des
objets (yeux dans une visage, bateau dans un lac, etc.)
ou de la scène représentées et les concepts qui leur
sont associés (un paysage, une tempête, etc.). Des
schémas de représentation comme les modèles
relationnels et les modèles orientés objets sont utilisés.
La recherche d’information pour ce type d’indexation
se fait de façon textuelle. Cependant, comme nous
l’avons déjà signalé, l’indexation manuelle présente un
coût très élevé et souffre de la subjectivité des
descriptions vu que les annotateurs sont des personnes
différentes de celles qui envoient les requêtes. De plus
la quantité énorme de documents vidéo disponible
chaque jour et la nature des applications actuelles
rendent l’indexation manuelle impossible.
L’avantage des approches utilisées dans la
deuxième génération des systèmes d’indexation est
l’automatisation complète de la phase d’indexation et
la description du contenu par des caractéristiques
visuelles. Cependant, le problème majeur avec ces
systèmes est le gap sémantique entre les concepts de
haut niveau chez l’utilisateur et les caractéristiques de
bas niveau qui lui sont actuellement fournies pour
formuler ces requêtes et effectuer les recherches
d’information. Dans la majorité des cas pratiques, la
similarité des propriétés perceptuelles n’est pas d’une
grande utilité si elle n’est pas combinée avec une
similarité des informations de haut niveau. En effet, un
des échecs majeurs de systèmes d’indexation actuels
est ce gap sémantique. Il réfère à la discontinuité entre
les caractéristiques et les descriptions du contenu qui
sont actuellement extraites automatiquement et la
richesse de sémantiques pouvant être exploités pour
effectuer la recherche de données. Il peut être aussi
définie comme étant le manque de coïncidence entre
l’information qui peut être extraite à partir d’une
donnée visuelles et l’interprétation de cette même
donné pour un utilisateur dans une situation
spécifique.
Les systèmes de la deuxième génération se
focalisent sur l’automatisation complète de la phase
d’indexation. Ils s’adressent aux caractéristiques
perceptuelles comme la couleur, la texture, la forme,
les relations spatiales, etc. Les descripteurs du contenu
sont extraits automatiquement au travers des mesures
objectives du contenu visuel. Ces systèmes exploitent
les techniques de traitement d’images et de
reconnaissance de forme qui fournissent des solutions
pour modéliser et extraire les primitifs visuels. Ces
techniques font donc partie intégrante des architectures
des systèmes d’indexation de la deuxième génération.
Ces derniers supportent la recherche par le contenu
basée sur la combinaison des différentes
caractéristiques extraites. L’identification d’images
recherchées consiste à exploiter des caractéristiques ou
des descripteurs du contenu (exemple : l’histogramme
de couleur) pour comparer des objets visuels en
mesurant les distances entre ces descripteurs. La
requête se fait donc par l’exemple. Quand l’utilisateur
envoie sa requête, celle-ci sera transformée en
quelques descripteurs de bas niveau et le moteur de
recherche doit trouver l’information la plus similaire à
partir d’une base de méta-donnés déjà existante.
La tendance actuelle est vers une troisième
génération de systèmes d’indexation automatique avec
plus d’informations sémantique sur le contenu
audiovisuel. Les personnages, leurs rôles, les actions et
leurs relations logiques, etc. sont des informations
qu’on cherche à extraire automatiquement sans ou avec
un minimum d’intervention manuelle afin de permettre
une indexation sémantique plus objective. L’indexation
de la vidéo ne peut être efficace que si elle supporte
des descriptions à un haut niveau d’abstraction. En fait,
la mémoire humaine est plus concernée par la structure
narrative du contenu que les simples éléments
perceptuels d’une vidéo. Les spectateurs ne
s’intéressent pas à la segmentation en plan ou au
montage vidéo. Par contre ils aperçoivent le rythme des
séquences (qui est inclus par le montage), les scènes
(qui sont obtenues à partir des plans), l’histoire (qui
inclut les personnages et leurs rôles, les actions et leurs
relations logiques, etc.), ainsi que les sentiments (qui
dépendent de la combinaison des objets perceptuels
comme la couleur, les objets, la musique, etc. et de la
signification de la scène).
A la différence des images fixes, la vidéo porte des
messages instructifs au travers des multiples plans de
communication. Ceux-ci incluent la façon par laquelle
les images d’une séquence vidéo sont liées ensemble
en utilisant des effets de montages (CUTs, fondus, etc.)
et les informations de haut niveau (les personnages, le
contenu de l’histoire et le message transmis par
l’éditeur, etc.). Le texte, ainsi que les autres données
sensorielles tels que les sons et les paroles peuvent
aussi être exploités pour extraire des informations
utiles. Les travaux de recherche pour la deuxième
génération des systèmes d’indexation se sont focalisés
plus particulièrement sur l’extraction automatique de la
structure des vidéos. Ceci se fait à travers la détection
des effets de transition qui permettent la décomposition
des séquences vidéo et l’extraction des images clés. Le
contenu perceptuel de ces images clés est modélisé afin
de faciliter l’accès aux segments vidéo représenté par
ces images. Dans ce cas le problème de recherche de la
vidéo par le contenu est réduit au problème d’accès par
le contenu aux images fixes structurées.
Réduire le gap sémantique présente le principal défi
des nouveaux travaux de recherche dans le domaine
d’indexation de la vidéo par le contenu. Les nouveaux
paradigme issus de cette problématique incluent la
modélisation sémantique de la vidéo, le paradigme de
recherche interactive, l’interaction émotionnel et
émotif, la recherche de la vidéo basée sur la perception
humaine, l’interaction homme machine, les stratégies
d’apprentissage et de réaction de pertinence et les
résumés intelligents. Dans la littérature plusieurs
travaux ont abordé le problème de l’indexation
sémantique de la vidéo [HAM 99][SMI 00][ZHA
01][DIM 03][ENS 03][NAP 03][CHA 05]. Ces travaux
s’adressent principalement à la réduction du gap
sémantique au travers des méthodes d’annotation et de
description automatique de haut niveau.
-3-
SETIT2009
La réduction du gap sémantique nécessite des
analyses plus complexes des caractéristiques de bas
niveau. L’exploitation efficace de ces caractéristiques
peut se faire au travers des schémas d’indexation plus
complexes en se basant sur des approches et des
techniques de l’intelligence artificielle. La question
essentielle qui se pose ici concerne la représentation
adéquate des vidéos et des connaissances pour ce type
de système. Les modèles de représentation des
concepts sémantiques [NAP 03] représentent le coeur
d’une indexation intelligente.
œuvre (techniques de segmentation spatiotemporelle,
techniques de suivie d’objets, techniques de
classification, techniques de sélection d’images clés
pour le résumé vidéo, etc.).
Plusieurs techniques et outils d’analyse du contenu
AV ont été développés. Ces outils se basent sur des
techniques des différents domaines suivants :
- Traitement d’image et de signal pour l’analyse des
composantes image et son.
- Technologies de langage pour le texte et la parole.
- Classification et reconnaissance (reconnaissance de
formes et de visages, etc.)
- Techniques intelligentes (flou, neurone, etc.) pour
l’analyse et l’interprétation des informations issues
des autres techniques.
Les techniques d’analyse du contenu AV peuvent
être classées selon différents critères possibles. Elles
peuvent être par exemple classées selon leur niveau
d’abstraction (bas niveau, moyen niveau ou haut
niveau). Pour une indexation de bas et de moyen
niveau les techniques suivantes peuvent être définies :
Dans une chaîne typique d’indexation et de
recherche d’information les médias d’entrée sous
forme numérique sont traités par les modules
d’extraction des caractéristiques pour générer des
descripteurs de bas niveau. Le système doit exploiter
ces descripteurs selon des représentations adaptatives
pouvant assurer une communication conceptuelle et
sémantique avec l’utilisateur. Ceci soulève plusieurs
problèmes dont l’extraction d’indices visuels
discriminants, l’indexation multidimensionnelle, la
modélisation du contenu audiovisuel et de l’utilisateur,
la catégorisation, etc. La recherche d’information par le
contenu tende à apporter une contribution originale à
ces problèmes intrinsèquement difficiles [NOZ 03].
- Description de bas niveau : il s’agit de description du
contenu perceptuel (couleurs, textures, formes,
mouvement, etc.).
- Structuration hiérarchique du contenu vidéo et
segmentation spatiotemporelle
A un niveau d’abstraction plus élevé les techniques
suivantes sont définies. Elles permettent un accès aux
informations AV par le contenu sémantique (action,
temps, lieu, etc.).
3. Techniques et systèmes d’analyse de
contenu AV
3.1. Outils d’analyse du contenu AV
Les techniques d’analyse du contenu AV sont
définies relativement aux indices spatiotemporels et
aux informations devant être extraites selon les besoins
en terme d’accès aux données multimédia. Dans ce
cadre plusieurs tâches peuvent être définies. Parmi ces
tâche nous pouvons citer l’analyse et l’extraction
d'objets vidéo sémantiques [CAV 04], la recherche et la
classification d'images clés, l’identification et la
reconnaissance automatique, par exemple, des spots
publicitaires [SAN 99] [MAO 92], la classification
d'images en intérieures/ extérieures [SZU 98] [BOU
06], la reconnaissance et la classification des
programmes TV [REA 02][CHU 02] [GLA 05][BER
01], etc. Des exemples de tâches d’analyse du contenu
AV sont proposés, à chaque édition, pour l’évaluation
dans le cadre de la conférence spécialisée TRECVID
[TRE 06].
- Résumé vidéo.
- Segmentation en scènes (Macro segmentation).
- Détection d’événements.
- Classification et catégorisation.
- Etc.
Dans [BAI 05] la classification suivante a été
adoptée :
– Outils d’analyse du contenu visuel. Ils concernent les
outils d’analyse des caractéristiques visuelles de bas
niveau (couleur, texture, forme et mouvement), les
techniques de segmentation spatiale, temporelle et
spatiotemporelle, les techniques de reconnaissances
des caractères et les techniques de détection et de
reconnaissance de visages.
– Outils d’analyse du contenu pour l’audio et la parole.
Ces outils font appel à des techniques d’analyse des
caractéristiques audio de bas niveau et à des
techniques de reconnaissance automatiques de la
parole (ASR).
– Outils d’analyse du contenu sémantique. Ces outils
se base principalement sur l’association de plusieurs
outils d’analyse du contenu AV. L’analyse du contenu
sémantique concerne la segmentation en scène
(macro segmentation), la classification des plans et
des scènes, la détection d’événements, le résumé
vidéo, etc.
Chacune des techniques citées fait appel à une large
panoplie de méthodes et d’approches proposées dans la
Les techniques d’analyse du contenu AV présentent
des outils d’extraction et de reconstitution
d’information qui ont pour objectif de produire et de
reconstituer un ensemble d’informations à partir de
l’analyse de la vidéo sous sa forme brute (signal
numérique). L’information extraite ou reconstituée peut
être structurelle liée à l’organisation et la structure du
contenu et/ou sémantique qui s’intéresse aux situations
et aux concepts exprimés par les images et les sons.
L’extraction de la structure intrinsèque de la vidéo ainsi
que des entités élémentaires de base d’un document
vidéo (segments : plans, scènes, objets, etc.) et la
caractérisation de leurs aspects visuels présentent des
tâches de base à assurer par les techniques mises en
-4-
SETIT2009
littérature. Dans [BAI 05] une présentation objective
de ces méthodes est proposée avec une bibliographie
très riche.
et montre bien la complexité de ce type de systèmes.
4. Applications des systèmes d’indexation
de la vidéo par le contenu et nouvelles
contraintes
3.2. Structure des systèmes d’analyse du contenu AV
La structure des systèmes d’analyse du contenu AV
dépend principalement de l’application visée et des
informations nécessaires pour assurer l’accès désiré
aux informations AV dans le cadre de cette application
(accès par informations sémantiques ou par
informations visuelles de bas niveau, navigation
structurée, etc.). Ces systèmes se basent sur une
combinaison structurée de différentes techniques pour
assurer des services particuliers. Devant la diversité
des approches proposées le choix des techniques à
exploiter n’est plus une tâche évidente. En fait il
n’existe pas des critères clairs permettant d’indiquer
dans quelle situation et pourquoi utiliser une telle ou
telle technique. Dans ce cadre les informations d’ordre
général suivantes peuvent être prises en compte :
La connaissance des domaines et des types
d’applications est de grande importance pour la
définition de la phase d’indexation. En fait, le choix et
la conception d’un système d’indexation sont guidés
par les besoins et les concepts du domaine de
l'application visée. De plus les contraintes à respecter
lors de la mise en œuvre du système d’indexation sont
définies par l’environnement de l’application. Dans ce
paragraphe nous passons en revue les principaux
domaines et types d’application de l’indexation de la
vidéo par le contenu tout en insistant sur les nouvelles
applications dans ce domaine et leurs besoins
spécifiques. Ces besoins sont, d’une part exprimés en
terme de nécessité au niveau de la qualité du service et
des fonctionnalités fournies et d’autre part ils sont liés
à l’environnement de l’application (temps réel,
puissance de calcul, etc.).
- Certaines des techniques existantes sont dépendantes
de l’application visée et du contexte d’utilisation.
Dans ce cadre des informations contextuelles doivent
être fournies pour assurer convenablement le
processus d’analyse. L’information extraite reste
fonctionnelle pour la solution d’un problème
déterminé dans un contexte donné.
- Les techniques utilisées sont substantiellement basées
sur des analyses statistiques d’un ensemble de
caractéristiques de bas niveaux extraits directement
du contenu AV. L’ensemble des caractéristiques
sélectionnées dépend de la tâche particulière à
résoudre et plus particulièrement de la pertinence
jugée pour les observateurs humains dans un
problème particulier.
D’autres critères liés à la qualité du service, au
temps d’exécution, au coût, etc. peuvent être aussi
considérés.
De part son caractère multimédia et sa richesse du
contenu qui le rend d’une grande facilité
d’appréhension, la vidéo se multiplie à toutes les
échelles et apparaît comme un média essentiel d’une
société de l’information. Faciliter la manipulation de
l’information vidéo correspond à un fort besoin dans
les diverses industries de production, d’archivage ou de
distribution du contenu vidéo. En fait, l’indexation de
la vidéo par le contenu présente actuellement une
technologie clé pour plusieurs domaines d’application
tels que l’internet, l’exploration des bibliothèques
multimédia distribuées et cinémathèques numériques
en réseau, les applications scientifiques, le filtrage dans
un flux de données audiovisuelles, la télévision
interactive et les applications de sécurité.
De façon générale, nous distinguons trois
principaux
types
d’accès
aux
informations
audiovisuelles : Navigation, recherche et filtrage et
deux types d’applications : applications "push" et
applications "pull". Les applications "push" sont
relatives à l’accès par navigation ou par recherche
comme par exemple les moteurs de recherche pour
internet ou les bases de données. Pour les applications
"Pull" nous pouvons citer, par exemple, la diffusion et
le filtrage du contenu dans le cadre de la télévision
interactive.
L’association de plusieurs techniques à différents
niveaux d’indexation, la multi modalité et la multi
fonctionnalité sont parmi les caractéristiques les plus
importantes des systèmes actuels d’analyse du contenu
AV. Ceci est lié à la diversité du contenu (types de
document manipulé, les modalités considérées, etc.), à
la diversité des types d’accès désirés, à la diversité du
contexte des applications considérées, etc. Devant
l’absence de procédures universelles, la combinaison
de plusieurs techniques même pour une même tâche
peut être adoptée pour assurer des meilleurs résultats.
De même l’exploitation de plusieurs descripteurs pour
une même caractéristique (couleur, texture, etc.) est
souvent adoptée. Ceci permet une meilleure
caractérisation de cette entité visuelle pour une
meilleure description de l’objet vidéo considéré.
Les systèmes d’indexation sont actuellement
utilisés dans plusieurs types d’applications : les
applications de stockage et de recherche, l’accès
multimédia universel, la sélection du média en
diffusion, la TV personnalisée, la télésurveillance et les
applications de sécurité, etc. Les applications les plus
innovantes concernent les filtres de média personnels,
les navigateurs vidéo intelligents, les fonctionnalités de
gestion des informations vidéo pour la télévision
interactive, etc. Dans ce cadre plusieurs nouveaux
services peuvent être fournis à l’utilisateur : possibilité
de sélection automatique des chaînes TV et radio
Dans la figure 2 nous présentons une structure
générique d’un système d’analyse du contenu AV. Elle
exprime les interactions possibles entre les différents
outils d’analyse du contenu de différents niveaux
d’abstraction et pour différentes modalités d’un
document vidéo. Cette structure reflète l’aspect d’un
système d’analyse du contenu AV de future génération
-5-
SETIT2009
Figure 2. Modèle d’interaction possible entre des différents outils d’indexation
-6-
SETIT2009
selon le type de programme désiré, possibilité de
navigation rapide dans des centaines de documents
stockées provisoirement, accès dans une grande base
de films à une séquence bien particulière, filtrage, etc.
Des travaux qui visent à émerger ces applications dans
des environnements tels que les serveurs multimédia
personnels et les appareils multimédia portables [CHA
03] trouvent leurs intérêts.
des caméras de surveillance. Des nouvelles
fonctionnalités sont intégrées dans les systèmes de
télésurveillances pour les rendre plus intelligents et
plus efficaces. Ceci concerne l’analyse des séquences
vidéo acquises et la génération de descriptions de haut
niveau du contenu selon le besoin de l’application. Les
serveurs d’informations proposés dans [BOY 04] par
exemple offrent, en plus des fonctions de surveillance
classiques, la possibilité d’interaction avec les
applications des clients. Ils peuvent être configurés
dynamiquement pour différentes fonctions plus
avancées autre que la simple description du contenu
vidéo pour la surveillance. Le concept de base de ces
serveurs a été introduit en comparaison avec le
principe de la caméra MPEG-7 [EBR 01]. Cette
dernière permet de fournir directement des
descriptions du contenu vidéo en format XML
pouvant être diffusées sur le réseau. Elle intègre des
fonctions d’analyse du contenu vidéo qui s’effectuent
en temps réel lors de l’acquisition.
Plusieurs nouveaux scénarios d’application des
systèmes d’indexation de la vidéo par le contenu sont
envisagés, par la suite nous présentons quelques
exemples. Dans [DEN 05][STE 05b] une application
de l’indexation de la vidéo pour l’assistance de
conducteurs de voitures est proposée. Dans cette
application une voiture est considérée sur l’autoroute
et dans un tunnel. Sur l’autoroute les lignes, les
obstacles, la distance entre véhicules ainsi que les
autres utilisateurs de la route comme les voitures, les
vélos, les motos, les piétons et les animaux doivent
être distinguées. Pour un tunnel on commence par
identifier sont entrées, puis des algorithmes tenant
compte des conditions à l’intérieure de ces tunnels
sont appliqués pour l’identification des obstacles. Le
changement des algorithmes appliqués à l’extérieur et
à l’intérieur des tunnels se fait de façon dynamique.
La Figure 3 [FAB 04] et la Figure 4 [LEF 02b]
représentent deux autres exemples de scénario
d’application de l’indexation de la vidéo par le
contenu : Filtrage d’un flux vidéo et transmission
intelligente des émissions sportives en direct.
Dans [ANA 06] une analyse de la structure de
systèmes de gestion de trafique et de surveillance
d’autoroutes est proposée. Ces systèmes sont basés sur
la combinaison de réseaux de capteurs d’images,
d’algorithmes de traitement d’images de bas niveau et
des schémas de description MPEG-7 de haut niveau.
Les algorithmes de bas niveau sont utilisés pour
l’identification des véhicules ainsi que l’extraction de
caractéristiques visuels et la détection de leur
changement dans le but de les exploiter pour la
détection des événements.
Mesure de
similarité basée sur
les descripteurs
MPEG-7
Canal de transmission
Source du stream vidéo
Station de réception
Figure 3. Filtrage d’un flux vidéo en ligne
Acquisition
vidéo
Les travaux présentés dans [KIM 03][LEE 03]
s’intéressent à l’intégration de fonctions d’analyse de
contenu AV dans les PVR (Personal Video Recoder).
Dans [KIM 03] une méthode de détection de
changement de scène pour les PVR est proposée.
L’objectif de ce travail est d’offrir à l’utilisateur un
ensemble de fonctionnalités tels que la navigation et
l’avancement et le saut rapide dans les vidéos
enregistrées. Dans [LEE 03] un outil de résumé
automatique est introduit pour les PVR. Cet outil se
base sur l’extraction de descripteurs visuel de bas
niveau MPEG-7 pour générer des indexes pour le
résumé. Les indexes obtenus permettent de générer
non seulement un aperçue de la vidéo mais ils
permettent aussi un accès non linaire au contenu. De
plus ces indexes supportent la recherche par similarité
des plans vidéos.
Détection
d’un but
Transmission
aux abonnés
Figure 4. Transmission intelligente des documents sportifs
en direct
La mise en œuvre des techniques d’analyse du
contenu AV dans le cadre de ces applications pose des
nouvelles contraintes liées principalement à la
puissance de calcul, au temps réel, à la flexibilité du
système et aussi à la consommation. Un intérêt
remarquable est de plus en plus consacré à la
contrainte temps réel à travers un grand nombre de
travaux dans la littérature [YAM 06] [STE 05a] [PER
02] [YOO 04] [KAS 03] [DEN 05] [STE 05b] [WOZ
04] [LEF 01] [LEF 02a] [KAP 06] [SRI 03] [SAV 03]
[BAE 03] [EOM 05] [CHA 04]. Vu l’importance de ce
critère, depuis 2004, les informations sur la
performance en terme de temps de calcul des
algorithmes de détections de changement de plan sont
collectées dans TRECVID [TRE 06]. Les traitements
Dans [PER 02][BOY 04][STE 05a][PAT 99] les
techniques d’indexation de la vidéo par le contenu
sont
exploitées
pour les
applications de
télésurveillance. L’objectif principal d’utilisation des
techniques d’indexation de la vidéo pour ce type
d’applications est la détection des événements
importants de façon automatique afin de gérer la
grande quantité des données vidéo actuellement issues
-7-
SETIT2009
effectués en temps réel concernent par exemple
l’identification des séquences vidéo, la génération
temps réel des vidéos annotées pour la surveillance,
l’indexation temps réel pour les programmes TV
diffusés en direct (live), l’identification temps réel des
événements importants, etc. Selon la manière de prise
en compte de la contrainte temps réel nous pouvons
distinguer deux classes de travaux : celles qui
s’intéressent aux algorithmes et leurs modes
d’application et celles qui s’intéressent aux techniques
d’implémentation de ces algorithmes. Dans le premier
cas nous pouvons citer par exemple l’application des
techniques d’analyse du contenu AV sur des images de
faible résolution [LEF 02a] ou l’extraction des
descripteurs dans le domaine compressé [EOM
05][BAE 03]. Dans le deuxième cas, les travaux
proposés concernent principalement l’utilisation
d’accélérateurs matériels pour l’extraction des
descripteurs du contenu AV [SAV 03] [WOZ 04]
[YAM 06].
concepteur doit définir le modèle de contenu en
respectent les besoins de l’application et le modèle de
l’utilisateur. Des connaissances sur les documents, des
connaissances sur les concepts du domaine de
l'application et des connaissances sur les utilisateurs
sont exploitées. Dans cette étape le concepteur précise
le type d’indexes et de la description du contenu qui
correspondent aux besoins en terme d’accès aux
information AV (type d’accès : navigation, recherche
par objet ou par événement, etc.). Ceci permet au
concepteur de définir le modèle du système d’analyse
du contenu AV à adopter ainsi que les techniques à
utiliser et leurs interactions. L’étape suivante consiste
à faire le choix des solutions (algorithmes et
approches) permettant la mise en œuvre concret du
système et des techniques choisies (exemple :
combinaison de plusieurs descripteurs de couleurs et
de texture ou de mouvement pour la détection de
changement de plan et la sélection d’images clés). Le
choix de ces algorithmes dépend de type de document
vidéo et de la qualité de service désirée.
5. Besoins en architectures matérielles
dédiées
Application
Æ Utilisateur
Besoins de
Æ Type du document l’application
Donnée
Image
Audio
Texte
À partir de l’étude de l’état de l’art de l’indexation
automatique de la vidéo par le contenu nous pouvons
tirer les conclusions et les interprétations suivantes :
Modèle du contenu
audiovisuel
Informations à extraire
Exemples de Techniques
d’indexation bas, moyen et
haut niveau:
Model générique
Modèle du système
Æ Techniques de segmentation
d’analyse du contenu AV en plan, en objet
Æ Multi modalité
Æ Niveaux d’indexation
Æ Niveau de segmentation
Æ etc ;
Dans le cadre de la problématique de
l’automatisation de l’indexation de la vidéo par le
contenu, des modèles conceptuels et des méthodes
d’indexation basées sur des approches avancées ont
été proposés. En fait, les systèmes d’indexation de la
vidéo de troisième génération ont pour objectif de
fournir des possibilités d’accès plus faciles et plus
intelligents aux informations audiovisuelles au travers
des méthodes d’analyse automatique du contenu
vidéo. Ces systèmes offrent une multitude de
nouvelles fonctionnalités et de service de haut niveau.
Les concepts importants telles que la segmentation
hiérarchique du contenu, la multi-modalité et
l’indexation multi-niveaux sont exploités. Les
systèmes proposés se basent sur une exploitation plus
complexe des opérations d’analyse de bas niveau et
sur la combinaison d’un nombre important de
techniques et d’algorithmes en étroite interaction. De
ce fait, les systèmes d’analyse du contenu sont
devenus beaucoup plus complexes comme nous
l’avons montré à travers le modèle proposé dans la
figure 2.
ÆTechniques à mettre en ouvre
Æ Structure du system (interaction
entre les différentes techniques)
Æ Macro segmentation
Æ Détection d’événement
Æ Résumé automatique
Æ Reconnaissance de visages
Æ etc.
Techniques à utiliser
Exemple d’algorithmes :
Æ Algo de traitement d’images
Æ Histogramme de couleurs
Æ Filtres de détection de contour
Æ Réseau de neurones
Æ Algo de Traitement de signal
Choix des outils (algorithmes)
Æ Mise en oeuvre des techniques
d’analyse du contenu AV
Image
Audio
Texte
Etc.
Structure finale du système
d’analyse du contenu AV
Donnée
Système d’analyse du contenu AV
Æ Tests et validation fonctionnelle
Æ Mise en œuvre et expérimentation
Figure 5. Démarche de conception d’un système d’analyse
du contenu AV
La structure d’un système d’analyse du contenu
AV et les algorithmes mis en œuvre dépendent donc
fortement de type de contenu manipulé et du cadre de
l’application. Dans ce contexte, une grande majorité
des systèmes proposés sont dédiés pour des domaines
restreints et des types de documents bien particuliers
(exemple : surveillance, sport particulier, film, etc.).
Les approches utilisées dans ces systèmes sont
spécifiques à une application donnée et elles sont
difficilement généralisables. Dans le cadre de
systèmes génériques devant supporter plusieurs types
de documents vidéo comme par exemple le cas de la
TV numérique, les choses deviennent beaucoup plus
complexes. En fait, devant l’absence d’outils
génériques le concepteur se trouve obligé d’adopter
plusieurs techniques à utiliser selon le cas. Ceci
augmente davantage la complexité du système qui doit
assurer à la fois une grande puissance de calcul et une
grande flexibilité afin de pouvoir adapter facilement la
Tenant compte de la diversité des modèles et des
méthodes de résolution du problème d’indexation
automatique de la vidéo, la structure d’un système
d’analyse du contenu AV peut avoir plusieurs
configurations possibles. De plus, la grande diversité
des algorithmes pouvant être exploités complique
davantage la tâche du concepteur qui doit assurer un
meilleurs choix des techniques à mettre en œuvre. Ces
techniques sont définies relativement aux besoins de
l’application et aux types de documents analysés.
L’organigramme proposé dans la figure 5 permet de
résumer la démarche à suivre pour la conception d’un
système d’analyse du contenu AV. En premier lieu le
-8-
SETIT2009
structure de système selon le contexte de l’application.
exploitation plus efficace des descripteurs de bas
niveau pour réduire le gap sémantique. Ils offrent une
multitude de nouvelles fonctionnalités et de service de
haut niveau en exploitant des concepts importants
telles que la segmentation hiérarchique du contenu, la
multi modalité et l’indexation multi-niveaux.
Cependant, les systèmes obtenus deviennent beaucoup
plus complexes et nécessitent une plus grande
puissance de calcul.
Si nous ajoutons à ces considérations de
complexité la nature des environnements des
nouvelles applications de l’indexation de la vidéo avec
plus des besoins en terme de temps réel, de flexibilité
(adaptation dynamique selon les besoins de
l’application), de consommation et de portabilité (des
applications mobiles et les PVR), le choix de la
technologie de système électronique permettant de
supporter ces contraintes est fortement posé. Ceci pose
aussi des questions méthodologiques liées à cette
diversité de techniques et d’environnements
d’application : spécification, rapidité de validation,
analyse de l’espace de solution, choix de configuration
matérielle adéquate, supporter la complexité de ces
systèmes, temps de mise sur le marché, etc.
Une analyse de l’état de l’art des applications
actuelles des systèmes d’indexation a été aussi
proposée dans ce papier. Cette analyse montre
l’existence d’une multitude de nouveaux champs
d’application des techniques d’indexation notamment
pour la télévision interactive, les PVR, les applications
de sécurité, etc. Ces applications présentent des
nouvelles contraintes plus critiques (puissance et
temps de calcul, flexibilité, etc.) devant être prise en
compte lors de la mise en œuvre des systèmes
d’analyse du contenu AV.
L’accélération matérielle des techniques d’analyse
du contenu AV et l’exploitation des nouvelles
technologies de systèmes embarqués pour l’indexation
automatique de la vidéo par le contenu deviennent une
nécessité. Ceci afin de permettre de supporter la
complexité des systèmes d’analyse du contenu AV et
les contraintes des nouvelles applications dans ce
domaine. Dans ce cadre la technologie reconfigurable
peut être de grand intérêt surtout pour des applications
comme la TV interactive et les PVR où les contraintes
de temps et de puissance de calcul sont fortement
posées à côté des exigences en terme de flexibilité et
de limitation de ressources. Les systèmes à base
d’architectures reconfigurables permettent une
adaptation de la structure du système d’analyse du
contenu AV selon le besoin tout en assurant une forte
puissance de calcul. L’adaptation de la structure de
systèmes d’analyse de contenu AV concerne le
changement d’algorithmes appliqués selon le contexte
(exemple : type de documents) et la qualité de service
ainsi que le changement de fonctionnalité et du service
fourni.
Cette étude nous a permis de montrer l’intérêt et la
nécessité de faire recours aux nouvelles technologies
de systèmes embarqués. Ceci est afin de pouvoir
supporter la complexité des systèmes actuels et de
répondre aux besoins des nouveaux environnements
d’application. Une discussion de ce problème a été
proposée dans le cinquième paragraphe.
REFERENCES
[ANA06]
C.
ANAGNOSTOPOULOS,
T.
ALEXANDROPOULOS, V. LOUMOS et E.
KAYAFAS, "Intelligent traffic management through
MPEG-7 vehicle flow surveillance", jva, pp. 202-207,
IEEE John Vincent Atanasoff 2006 International
Symposium on Modern Computing (JVA'06), 2006.
[BAE 03] B. BAE, SUN WOO YANG et YONG
MAN RO, "Fast MPEG-7 visual descriptor extraction
using DCT coefficient", TENCON 2003. Conference
on Convergent Technologies for Asia-Pacific Region,
pages: 1136- 1139 Vol.3, 15-17 Oct. 2003.
6. Conclusion
Le travail présenté dans ce papier constitue une
contribution à l’étude de l’indexation automatique de
la vidéo par le contenu en vue de la conception de
système embarqué dédié à ce type d’application
multimédia. Après une discussion de la problématique
d’automatisation de l’indexation nous avons présenté
les trois générations des systèmes d’indexation, depuis
les systèmes classiques basés sur l’intervention
manuelle jusqu’aux systèmes actuels. De même nous
avons discuté la problématique majeure de
l’indexation automatique de la vidéo par le contenu
qui est le gap sémantique entre le besoin conceptuel de
l’utilisateur et les descripteurs perceptuels de bas
niveau qui peuvent être extraits automatiquement.
Dans ce papier nous avons aussi proposé un aperçu
des techniques et des outils d’analyse du contenu AV
pour l’indexation de la vidéo ainsi que les structures
possibles de systèmes d’analyse du contenu et
l’interaction entre les différentes techniques qui le
constituent. Ces systèmes se caractérisent par la
combinaison d’une multitude de techniques et une
[BAI 05] W. BAILER, F. HÖLLER , A. MESSINA,
D.
AIROLA,
P.
SCHALLAUER
et
M.
HAUSENBLAS, "State of the Art of Content Analysis
Tools for Video, Audio and Speech", Report, FP6-IST507336 PrestoSpace Deliverable D15.3 MDS3,
10/03/2005.
[BER 01] M. BERTINI, A. DEL BIMBO et P. PALA,
"Content-Based Indexing and Retrieval of TV News",
Pattern Recognition Letters 22 pp. 503-516, 2001.
[BOU 06] L. BOUSSAID, "Etude et implantation de
descripteurs de contenu AV pour les applications
multimedia temps reel", thèse de doctorat, Ecole
nationale d’ingénieurs de Sfax, 2006.
[BOY 04] J. E. BOYD, M. SAYLES, L. OLSEN et P.
TARJAN, "Content Description Servers for
Networked Video Surveillance", International
Conference on Information Technology: Coding and
Computing (ITCC'04) Volume 2, p. 798, 2004.
-9-
SETIT2009
[CAL 04] J. CALIĆ, "Highly Efficient Low-Level
Feature Extraction For Video Representation And
Retrieveal", thèse, Department of Electronic
Engineering, Queen Mary, University of London.
2004-09-24.
[GLA 05] R. GLASBERG, A. SAMOUR, K.
ELAZOUZI et T. SIKORA, "Cartoon-Recognition
Using Video & Audio Descriptors", 13th European
Signal Processing Conference, Antalya – Turquie,
Septembre 2005.
[CAV 04] A. CAVALLARO et T. EBRAHIMI,
"Interaction between High-Level and Low-Level
Image Analysis for Semantic Video Object
Extraction", EURASIP Journal on Applied Signal
Processing, Volume (2004), Issue 6, pp. 786-797,
2004.
[HAM 99] A. HAMPAPUR, "Semantic Video
Indexing: Approach and Issues", SIGMOD Rec,
volume 28, issue 1, pages: 32-39, 1999.
[KAS 03] E. KASUTANI et A. YAMADA: "An
Adaptive Feature Comparison Method for Real-time
Video Identification", IEEE Proc. of International
Conference on Image Processing (ICIP 2003), vol.II,
pp. 5-8, September 2003.
[CHA 03] H.W. CHANG, "A Study on Content-Based
Video Retrieval", travail dirigé par Dr. Ling-Hwei
Chen, Institute of Computer and Information Science,
National Chiao Tung University.
http://debut.cis.nctu.edu.tw/pages/Demo/CBVR/paper
_E.pdf
[KAP 06] R. KAPELA, A. RYBARCZYK, P.
SNIATALA et R. RUDNICKI, "Hardware Realization
Of The MPEG-7 Edge Histogram Descriptor", Mixed
Design of Integrated Circuits and System, MIXDES
2006. Page(s): 675- 678, 22-24 June 2006.
[CHA 04] J.Y. CHANG, H.C. FANG, Y.W. HUANG et
L.G. CHEN, "Architecture of MPEG-7 color structure
description generator for realtime video applications",
Internatinal conference on Image Processing (ICIP),
2004.
[KIM 03] J.R. KIM, S. SUH et S. SULL, "Fast scene
change detection for personal video recorder", ICCE
2003 IEEE International Conference, Consumer
Electronics, 2003, page(s): 236- 237,17-19 June 2003,
ISBN: 0-7803-7721-4.
[CHA 05] M. CHARHAD, "Modèles de Documents
Vidéo basés sur le Formalisme des Graphes
Conceptuels pour l’Indexation et la Recherche par le
Contenu Sémantique", Thèse de doctorat, université
Joseph Fourier, novembre 2005.
[LEE 03] J.H. LEE, MEMBER, G.G. LEE et W.Y.
KIM, "Automatic Video Summarizing Tool using
MPEG-7 Descriptors for personal Video Recorder",
IEEE Transactions on Consumer Electronics, Vol. 49,
No. 3, AUGUST 2003.
[CHUHong02] H. CHU HONG, "A Study of ContentBased Video Classification, Indexing and Retrieval",
Master of Philosophy, first-term research paper, Hong
Kong S.A.R., Novembre 2002.
[LEF 01] S. LEFEVRE, J. HOLLER et N. VINCENT,
"Segmentation temporelle de séquences d’images en
couleurs compressées et non compressées en temps
réel", Congrès francophone ORASIS de Vision par
Ordinateur. Cahors (France). p. 329–338. 2001.
[DEN 05] R. DENCHEV et W. STECHELE, "An
Experimentation Environment for MPEG-7 based
Driver Assistance", Eurocon 2005, Belgrade,
November 22-24, 2005.
[LEF 02a] S LEFEVRE, J. HOLLER et N. VINCENT,
"A Review of Real-time Segmentation of
Uncompressed Video Sequences for Content-Based
Search and Retrieval", Real Time Imaging. Septembre
2002.
[DIM 03] N. DIMITROVA, "Multimedia content
analysis: The next wave", International conference on
Image and Video Retrieval, Lecture Note in Computer
Science, vol. 2728, Springer (2003) 8-17.
[EBR 01] T. EBRAHIMI, Y. ABDELJAOUED, R.M.
FIGUERAS I VENTURA et O. DIVORRA ESCODA,
"MPEG-7 camera", International Conference on
Image Processing, page(s): 600-603 vol.3,
Thessaloniki, Greece, 2001.
[LEF 02b] S. LEFEVRE, "Détection d'Evènements
dans une Séquence Vidéo", Thèse en Informatique,
Ecole Doctorale : Santé, Sciences et Technologies,
Décembre 2002.
[MAO 92] J. MAO et A.K. JAIN, "Texture
Classification and Segmentation using Multiresolution
Simultaneous Autoregressive Models", Pattern
Recognition, 25(2):pp.173-188, 1992.
[ENS 03] P. ENSER et C. SANDOM, "Towards a
comprehensive survey of the semantic gap in visual
image retrieval", International conference on Image
and Video Retrieval, Lecture Note in Computer
Science, vol. 2728, Springer (2003) 8-17.
[NAP 03] M. NAPHADE et J. SMITH, "A hybrid
framework for detecting the semantics of concepts and
context", International conference on Image and Video
Retrieval, Lecture Note in Computer Science, vol.
2728, Springer (2003) 8-17.
[EOM 05] M. EOM et Y. CHOE, "Fast Extraction of
Edge Histogram in DCT Domain based on MPEG7",
TRANSACTIONS
ON
ENGINEERING,
COMPUTING
AND
TECHNOLOGY
V.9
NOVEMBER 2005 ISSN 1305-5313.
[NOZ 03] B. NOZHA et J. FREDERIC, "Recherche
d'information par le contenu visuel", Editorial,
Technique et science informatiques RSTI, série TSI,
Vol.22 N° 9/2003. Hermes Science Publications.
[FAB 04] F. FALCHI, C. GENNARO et P. SAVINO,
"Efficient Video Filtering of MPEG-7 Streams",
Technical Report, Id: 2004-TR-38, CNR - Istituto di
Scienza e Tecnologie de l'Informazione 'A. Faedo'g,
- 10 -
SETIT2009
[PAT 99] P. PATRICK, D. DAMIEN, C. ANDREA et
B. MICHEL, "High Level Description of Video
Surveillance Sequences", ECMAST 99, May 99,
Madrid , 1999.
R.KIM et S.SULL, "Real-Time Video Indexing
System for Live Digital Broadcast TV Programs",
Lecture notes in computer science , ISSU 3115, pages
261-269, 2004.
[PER 02] A. J. PERROTT, A. T. LINDSAY et A. P.
PARKES, "Real-time multimedia tagging and contentbased retrieval for CCTV surveillance systems",
proceedings-spie the international society for optical
engineering, 2002, issu 4862, pages 40-49.
[WOZ 04] B. WOZ et A. SAVAKIS, "A VHDL
MPEG-7 shape descriptor extractor", ACM/SIGDA
12th international symposium on Field programmable
gate arrays, Monterey, California, USA, p. 246 – 246,
February 22 - 24, 2004.
[REA 02] S. REAAIJMAKERS, J. DEN HARTOG et
J. BAAN, "Multimodal Topic Segmentation and
Classification on News Video", IEEE International
Conference on Multimedia and Expo 2002,
Proceedings, Volume 2, pp. 33-36, 2002.
[ZHA 01] D. ZHANG et G. LU, "Segmentation of
moving objects in image sequence: A review", Circuit,
Systems and Signal Processing, 20(2), 143-189, 2001.
[SAN 99] J.M. SANCHEZ et X. BINEFA, "Automatic
Digital TV Commercial Recognition", Proc. VIII
National Symposium on Pattern Recognition and
Image Analysis (SNRFAI'99), Vol 1, pp.313-320,
Bilbao-Spain, Mars 1999.
[SAV 03] A. SAVAKIS, P. SNIATALA et R.
RUDNICKI, "Real-time Video Annotation using
MPEG-7 Motion Activity Descriptors", Mixed Design
of Integrated Circuits and System, MIXDES 2003.
[SMI 00] J.R. SMITH et A.B. BENITEZ, "Conceptual
Modeling of Audio-Visual Content", IEEE
international conference on Multimedia and Expo,
ICME 2000.
[SRITsrip03] T. SRIPAN, M. EL-SHARKAWY et M.
RIZKALLA, "Fast multiplierless approximation of the
DCT for MPEG-7 color layout descriptor", the 46th
IEEE International Midwest Symposium on Circuits
and Systems, 27-30 Dec. 2003 Pages: 708 - 713 Vol. 2.
[STE 05a] O. STEIGER, T. EBRAHIMI et A.
CAVALLARO, "Real-time generation of annotated
video for surveillance", Proceedings of IEE workshop
on image analysis for multimedia interactive services,
WIAMIS 2005.
[STE 05b] W.STECHELE et S.HERRMANN,
"Reconfigurable Hardware Acceleration for Videobased Driver Assistance", Workshop on Hardware for
Visual Computing, Tübingen. April 29, 2005.
[SZU 98] M. SZUMMER et R. W. PICARD, "IndoorOutdoor Image Classification", Proceedings of the
International Workshop on Content-Based Access of
Image and Video Databases, "CAIVD'98",
Washington-USA, 1998.
[TRE 06] Guidelines for the TRECVID 2006
Evaluation,
http://www-lpir.nist.gov/projects/tv2006/tv2006.html
[YAM 06] K. YAMAOKA, T. MORIMOTO, H.
ADACHI et T. KOIDE, "Image segmentation and
pattern matching based FPGA/ASIC implementation
architecture of real-time object tracking", Proceedings
of the 2006 conference on Asia South Pacific design
automation, pp. 176 – 181, ISBN:0-7803-9451-8,
Yokohama, Japan, 2006.
[YOO 04] J.-C.YOON, H. KIM, S. S.CHUN, J.- 11 -

Documents pareils