1 IMAGERIE INTERNET (2)

Transcription

1 IMAGERIE INTERNET (2)
IMAGERIE INTERNET (2)
Imagerie médicale, imagerie satellite, imagerie infrarouge, … et pourquoi pas imagerie Internet? Y auraitil un ensemble suffisamment grand de technologies, applications et problématiques de l’image essentiel à
Internet et qui justifieraient cette nomenclature?
Le mois dernier, nous avons présenté trois technologies qui font partie d’un domaine en émergence,
l’Imagerie Internet. Dans ce second article, nous nous attardons à la localisation de sources visuelles
spécifiques et aux normes de compression.
Recherche de sources visuelles
Internet donne accès à une énorme quantité de grandes bases de données visuelles, souvent non indexées,
au travers de sites à vocations variées : la distribution en ligne de photographies, le commerce électronique,
les encans, les portails, les ressources communautaires, les bases de données scientifiques, etc. La
complexité de la recherche d’un contenu visuel spécifique a mené à l’apparition, au début des années 1990,
d’un nouveau secteur d’activités en imagerie par ordinateur, celui de la recherche d’images par contenu
(RIC).
Le principe de la RIC est de localiser une image (ou un vidéo) dans une base de données, uniquement à
partir de l’extraction d’informations visuelles présentes dans l’image. La RIC peut se faire à plusieurs
niveaux, dépendamment du type d’information connue de l’usager au moment de la requête.
Sans
nécessairement proposer une taxonomie universelle, on pourrait catégoriser la RIC en trois types :
•
La recherche ciblée : l’image visée est connue de l’usager mais celui-ci peut ne pas avoir un souvenir
précis de son apparence (position et couleurs des objets).
•
La recherche par catégorie : l’image n’est pas connue mais doit avoir certaines caractéristiques
précises. Par exemple, une personne veut acheter une robe mais n’a pas une idée précise, si ce n’est de
la texture et des couleurs.
•
La recherche libre : le but peut être vague ou même inconnu. Par exemple, une personne cherche une
image de fond d’écran pour son ordinateur.
Le premier type est une recherche objective, les deux autres sont subjectives. Dans une recherche objective,
l’usager va fournir au système de RIC des caractéristiques précises pour guider la recherche. Dans les
1
autres cas, la RIC est moyennement ou faiblement guidée. Ces caractéristiques peuvent être plus ou moins
abstraites . On peut en distinguer trois niveaux de complexité croissante :
•
Primitives : qui donnent une information globale, par ex., couleurs, forme et texture.
•
D’identité : qui impliquent la reconnaissance des objets, par ex., voiture, maison.
•
D’interprétation : qui nécessitent un raisonnement de haut niveau sur la signification ou l’utilité des
objets dans l’image, par ex., jouer du piano, rire, pleurer.
Actuellement, les systèmes commerciaux ALISA, Convera (anciennement Excalibur Technologies), QBIC
et Virage utilisent l’extraction de caractéristiques primitives et fonctionnent principalement en mode
« requête par exemple », c’est-à-dire que la recherche est faite à partir d’une image type.
La recherche dans le domaine est encore très active et on peut actuellement recenser une bonne vingtaine
de prototypes plus ou moins sophistiqués qui pourraient déboucher sur des produits commerciaux. Les
développements futurs sont cependant de plus en plus tributaires de l’évolution des normes sur les formats
d’images et vidéos qui prévoient l’insertion d’information de contenu dans le fichier d’un document visuel.
Compression des sources visuelles
Quel utilisateur d’Internet n’a jamais croisé les acronymes GIF, JPG, MOV, FLC, AVI, MPG, SMIL et
autres, lors de la manipulation d’images ou de séquences vidéos ? Ces termes sont des indicateurs de
compression et trois d’entre eux, JPG, MPG et SMIL sont des normes internationales en pleine évolution;
le premier (JPG) s’adresse aux images et les deux autres au vidéos mais plus généralement à la construction
et la restitution de documents multimédias.
Le Joint Photography Experts Group (JPEG), un comité de plus de 320 membres provenant de 21 pays, a
adopté en Janvier 2001 les spécifications d’une nouvelle norme de compression d’images, JPEG-2000, qui
doit remplacer la norme JPEG développée à la fin des années 1980. Le cœur de la nouvelle norme est
l’utilisation de la transformée en ondelettes qui ordonne l’information présente dans l’image selon une
échelle de résolution. Les fichiers compressés sous JPEG-2000 auront l’extension JP2.
La nouvelle norme a de nombreux avantages par rapport à l’ancienne, dont :
•
une qualité d’image supérieure à JPEG pour une même dimension de fichier;
•
des dimensions de fichiers 40-60 % plus petits que JPEG pour une même qualité d’image;
2
•
un format de fichier incluant une architecture de données basée sur XML et des informations de droits
d’auteur.
•
Une reconstruction progressive permettant une visualisation à résolution croissante de l’image pendant
la transmission
•
Un encodage par régions d’intérêts permettant une compression variable de différentes portions de
l’image
Des puces électroniques fonctionnant avec la norme JPEG-2000 sont déjà disponibles sur le marché ; elles
peuvent compresser une image de 3 M pixels en environ 0,2 seconde. Le marché pour ces nouveaux
CODEC est estimé à 7 milliards de $ d’ici 2004. Les spécifications de la norme JPEG-2000 vont
certainement modifier la façon dont les usagers contrôlent les images capturées par les caméras numériques
et affichent les images reçues sur Internet, les téléphones cellulaires et les PDA.
Du côté vidéo et multimédia, les ambitions des normes à venir sont certainement à la mesure des besoins de
l’industrie du multimédia sur Internet.
Le Synchronized Multimedia Integration Language (SMIL), langage qui a été normalisé en 1998 par le
World Wide Web Consortium (W3C), vise les présentations multimédia en continu (streaming
multimedia ). SMIL est un langage utilisé par exemple pour la mise en page de présentations vidéos comme
celle que l’on retrouve dans RealPlayer et QuickTime. Il permet la réalisation de vidéo interactive, de vidéo
sur demande, de bannières multimédia, etc. Depuis août 2001, la version 2,0 de SMIL a franchi l’étape de
recommandation du W3C, ce qui signifie que les spécifications (issues en mars dernier) ont été revues par
les membres du W3C et sont maintenant stables.
Le Moving Picture Expert Group (MPEG), établi en 1988 et qui a produit les normes MPEG-1 (sur laquelle
des produits comme Video CD et MP3 sont basées), MPEG-2 (à la base des DVD) et MPEG-4 (spécifique
au multimédia Internet et la mobilité), travaille actuellement à l’établissement, pour cette année, de la
norme MPEG-7 qui vise la représentation du contenu multimédia d’une séquence vidéo. Plus précisément,
la norme MPEG-7
va normaliser
la description des différents types d’information multimédia. La
description sera associée au contenu, pour permettre une RIC rapide et efficace. Un fichier MPEG-7 inclura
par exemple
3
•
des descripteurs (caractéristiques) de bas niveau de chaque objet de la scène, tels que la forme, la
grosseur, la couleur, la position et le mouvement;
•
des descripteurs de haut niveau des événements en cours;
•
de l’information audio.
Une description d’une séquence MPEG-7 pourrait par exemple consister en un ensemble de codes
signifiant « …scène représentant un avion au décollage dans la partie supérieure gauche avec la lune dans
la supérieure droite et une voiture en mouvement dans la partie inférieure »! La norme ne comprend pas
l’extraction automatique des descripteurs ni la spécification de l’engin de recherche par contenu mais en
principe, elle devrait couvrir tous les aspect de la RIC. Les bénéfices et implications de son utilisation
seront donc considérables dans la mesure où on développera des outils robustes pour l’annotation quasiautomatique d’images ou séquences vidéos.
Conclusion
Les concepts d’imagerie présentés ne sont pas uniques à Internet mais ils sont certainement essentiels à son
développement. Les attentes croissantes de performance et de qualité visuelle sur Internet poussent le
développement de nouvelles technologies pour la diffusion et la manipulation efficace de contenus visuels.
---------------------Langis Gagnon est chercheur senior et responsable de l’équipe Vision et Imagerie au service de R-D du
CRIM.
4