Applications multiples

Transcription

Applications multiples
COMPRESSION AUDIO/VIDÉO
Jordi Ribas-Corbera
Microsoft Windows Digital Media Division
Microsoft® Windows Media ® 9 permet d’exploiter le multimédia numérique sur toute
une gamme de réseaux et de matériels: codeur, serveur, DRM, lecteurs pour PC, etc. Sa
plate-forme programmable et extensible permet de créer des applications et des
services spécifiques.
Windows Media 9 utilise les dernières
technologies de Microsoft dans le
domaine du multimédia numérique [1].
Si la vocation première de Windows
Media était la diffusion en continu, via
internet, de données audio et vidéo
compressées vers des PC, désormais il
s’agit de transmettre de manière efficace
un contenu multimédia numérique sur
n’importe quel réseau ET vers
n’importe quel dispositif électronique.
Applications multiples
La figure 1 illustre plusieurs utilisations
de la technologie Windows Media.
Outre les applications axées sur le Web
(services d’abonnement, vidéo à la
carte, radiodiffusion sur le Web, etc.),
les contenus compressés avec les codecs
Windows Media sont utilisés avec toute
une série de dispositifs électroniques
avec ou sans fil (téléphones portables,
lecteurs DVD, baladeurs et autoradios)
UER–REVUETECHNIQUE –SÉLECTION2003
Figure 1 – Quelques applications Windows Media actuelles
[2]. Le contenu peut aussi être délivré
au consommateur sur des supports physiques – par exemple, une cartemémoire SD (Secure Digital) [3], ou un
cédérom ou un DVD grâce au format
HighMAT™ de plus en plus utilisé [4].
Dans le domaine de la radiodiffusion
terrestre et par satellite, un récent projet
présenté à l’IBC a démontré qu’il était
possible de distribuer des contenus Windows Media 9 selon les normes DBV-T
et DVB-S. Autre exemple: la technologie Windows Media est aussi utilisée
pour compresser des films au format
haute définition avec son multicanal.
Ces films sont projetés aux États-Unis
dans des salles de cinéma numérique.
1
COMPRESSION AUDIO/ VIDÉO
Solution globale
Toutes les applications citées jusqu’à
présent requièrent l’utilisation d’un
ensemble de composants de base qui
permettent de déployer des systèmes
complets. La figure2 illustre les principaux composants de Windows Media 9
qui peuvent être classés sous trois
rubriques: création, distribution et
lecture.
Création
La création, ou authoring en anglais,
désigne la procédure consistant à concevoir et à coder un contenu multimédia
numérique. Microsoft utilise principalement à cette fin le logiciel appelé Windows Media Encoder 9 Series. Ce
codeur, particulièrement souple, permet
de compresser des sources vidéo et
audio qui seront diffusées en continu,
soit en direct, soit à la demande, en utilisant les codecs de Windows Media.
les kits de développement de logiciels
(SDK) de Windows Media (ex.:
codeurs logiciels de Accom, Adobe,
Avid, Discreet et Sonic Foundry).
Distribution
Le contenu compressé avec les codecs
de Windows Media est en général distribué sur internet via un serveur Windows Media Services. Windows Media
Services version 4.1 est un composant
facultatif de Windows 2000 Server et
Windows Media Services 9 Series sera
vraisemblablement un composant facultatif de Windows Server 2003. Le nouveau serveur prend en charge un
nombre plus élevé de fonctionnalités
pour la publicité et les présentations
multimédias. Le nombre de clients pouvant recevoir simultanément un clip
multimédia est multiplié par deux.
Un serveur peut soit assurer la diffusion
en continu du contenu (opération réalisée avec un décalage minimum), soit
D’autres sociétés proposent par ailleurs télécharger ce contenu (transmettre et
différentes solutions basées sur les kits stocker) sur le dispositif de lecture de
de portage de Windows Media (ex.: l’utilisateur. La transmission du clip
codeurs matériels de Optibase, Tand- peut avoir lieu en direct (actualités,
berg Television, Texas Instruments) ou sports, concerts et autres manifestations
de ce type) ou à la demande (clips
vidéo, films, etc.). Lors de la diffusion
d’un clip multimédia, le serveur adapte
son débit et retransmet les paquets perdus en fonction des indicateurs de qualité retournés. Pour la diffusion en
continu à la demande, cette génération
de serveur a recours à la largeur de
bande supplémentaire disponible (supérieure au débit binaire moyen du clip)
pour réduire le décalage inhérent au
démarrage. En outre, ce type de serveur
réduit les risques de déconnexion inopinée (entraînant des perturbations de la
lecture et une reconstitution de la
mémoire tampon) en envoyant une
quantité plus importante de données en
sorte que la lecture puisse se poursuivre
en cas d’engorgement du réseau.
Si un serveur puissant et modulable est
indispensable pour les transmissions
internet, une connexion réseau fiable
l’est tout autant. Les réseaux CDN tels
Akamai, Digital Fountain et SMC
garantissent précisément ce type de connexion. La combinaison de serveurs
performants et de puissants réseaux permet d’obtenir une qualité comparable à
celle d’un téléviseur classique, de loin
supérieure à celle de la diffusion en continu à laquelle nous avait habitués le
réseau internet.
Figure 2 – Distribution de contenu Windows Media: droits, distribution et reproduction.
Le système DRM protège le contenu en fonction de règles établies par le détenteur des droits
2
UER–REVUETECHNIQUE –SÉLECTION2003
COMPRESSION AUDIO/VIDÉO
Tout le contenu Windows Media peut
aussi être livré sur des supports physiques tels un cédérom ou un DVD, ou
par d’autres réseaux, notamment ceux
compatibles avec la norme DVB.
Lecture
Dernière étape, la lecture consiste à
décoder et à restituer les données compressées sur le dispositif de lecture de
l’utilisateur. Sur un PC, Windows
Media Player ainsi qu’une série de lecteurs fabriqués par d’autres sociétés
(MusicMatch Jukebox ou RealOne
Player) peuvent décoder et lire les flux
de données en continu et les fichiers
Windows Media. Comme l’illustre la
figure2, toute une gamme de dispositifs
peuvent être utilisés pour lire un contenu Windows Media. Comme pour les
codeurs, des sociétés indépendantes
peuvent fabriquer ces lecteurs, quelle
que soit la plate-forme, en utilisant les
kits de portage de Windows Media.
Digital Rights Management
La technologie DRM (Digital Rights
Management – gestion des droits sur
les données numériques) est un composant fondamental du système représenté par le serveur de licence sur la
figure2. Elle intervient aux trois stades
de l’acheminement.
La technologie DRM utilisée par Windows Media permet aux détenteurs de
contenu de chiffrer leurs produits ou
leurs services et d’en définir les termes
et les modalités d’utilisation. Par exemple, un détenteur peut décider que son
contenu multimédia doit être impérativement utilisé avant une certaine date
ou un nombre maximum de fois. Il peut
tout aussi bien autoriser l’utilisateur à
ne copier les données que sur un certain
nombre et certains types de lecteurs.
Dans le contexte classique du réseau
internet, le détenteur du contenu chiffre
le flux de données (compressé) en continu à l’aide de la gestion DRM.
Lorsqu’un utilisateur sélectionne ce
flux, le lecteur se connecte au serveur
de licence qui propose une licence spécifique au contenu. L’utilisateur décide
UER–REVUETECHNIQUE –SÉLECTION2003
alors s’il accepte ou non les termes et le
prix de la licence et, dans l’affirmative,
télécharge la licence. Il a ensuite la possibilité de déchiffrer et d’afficher le contenu conformément aux termes de la
licence.
l’aide du kit spécifique de Windows
Media Player. De nombreuses sociétés
ont obtenu les droits de un ou plusieurs
de ces kits et les ont utilisés pour concevoir leurs propres systèmes de gestion
de contenus multimédias numériques.
La conception d’un système DRM complet est complexe. En effet, ce système
doit être sûr (et mis à niveau rapidement), souple (compatible avec les aspirations des détenteurs de contenus et
des concepteurs de lecteurs) et convivial. Le système DRM de Windows
Media se caractérise par sa grande compatibilité. Il est un des leaders incontestés du marché.
En outre, elles peuvent fabriquer des
matériels et des logiciels basés sur Windows Media en utilisant les kits de portage décrits plus loin.
Plate-forme
Outre des composants de création, de
distribution et de lecture de contenus
multimédias numériques, Windows
Media fournit aussi une plate-forme de
développement. Windows Media Encoder, Media Services et Media Player
répondent aux critères de bon nombre
d’applications, mais sont avant tout
représentatifs des capacités de la plateforme. Ces composants reposent sur des
kits SDK qui peuvent être utilisés par
d’autres sociétés désireuses de développer leurs propres codeurs, serveurs et
lecteurs, en fonction d’applications spécifiques. Grâce à sa plate-forme issue
des dernières technologies en matière
de compression et d’acheminement,
Windows Media permet à des sociétés
indépendantes de concevoir des systèmes pointus qui leur sont propres.
La figure 3 présente les kits Windows
Media 9. Windows Media Player et
MusicMatch Jukebox sont développés à
Codecs audio et vidéo
Les codecs audio et vidéo de Windows
Media sont des composants fondamentaux pour le conception et la lecture des
contenus multimédias. Le tableau indique les codecs audio et vidéo livrés avec
Windows Media 9. Comme les codecs
utilisent une technologie et une syntaxe
de flux binaire différentes, leur compatibilité n’est pas assurée. Par exemple,
les flux de Windows Media Audio 9
Professional ne peuvent pas être décodés par un décodeur Windows Media
Audio 9 et vice-versa. Des codecs plus
anciens, tels Windows Media Video 8 et
MPEG-4 (ISO) Video, sont également
rétrocompatibles, mais ils sortent du
cadre de cet article uniquement consacré aux nouveaux codecs de la série 9.
Windows Media Audio 9
Le codec Windows Media Audio 9 est le
codec audio le plus populaire de Windows Media. Il est souvent désigné par
ses initiales WMA. Le décodeur (syntaxe du flux binaire) a été gelé il y a
quatre ans déjà et seul le codeur a été
perfectionné depuis. WMA 9 est déjà
Figure 3 – La série de kits SDK Windows Media 9
3
COMPRESSION AUDIO/ VIDÉO
Tableau 1 – Les codecs audio et vidéo Windows Media Series 9
Codecs WM Audio 9
Codecs WM Video 9
Windows Media Audio 9
Windows Media Video 9
Windows Media Audio 9 Professional
Windows Media Video 9 Screen
Windows Media Audio 9 Lossless
Windows Media Video 9 Image
Windows Media Audio 9 Voice
passé par trois phases d’amélioration
sans compromettre sa compatibilité
avec les versions antérieures. Cette
rétrocompatibilité a été capitale pour
aider les fabricants de dispositifs de lecture WMA grand public.
Le nouveau codeur WMA consolide le
mode de codage à débit binaire constant
(CBR) en une passe (seul mode pris en
charge par WMA dans les versions précédentes) en utilisant un système de gestion de débit et des algorithmes de
masquage améliorés. Il inclut les modes
de codage à débit binaire variable (VBR)
et deux passes qui permet d’obtenir une
qualité nettement supérieure à celle du
mode une passe.
Quel que soit le codec, le mode CBR est
indispensable pour le codage et la transmission en direct, le mode VBR en deux
passes étant recommandé pour le
codage hors ligne appliqué à la diffusion en continu à la demande. Les
modes VBR sont notamment indiqués
lorsque des clips compressés sont téléchargés et diffusés par l’utilisateur
(application download-and-play). Bien
que les clips codés suivant le mode VBR
puissent également être diffusés en continu (avec le nouveau serveur), les fluctuations du débit dans les clips sont en
général élevées et la transmission des
données requiert une mise en mémoire
tampon assez longue. Un codage VBR à
contrôle de crête est également disponible pour créer des flux binaires destinés
à être lus sur des périphériques dont la
vitesse de lecture est limitée. Le codec
WMA9 prend en charge la totalité de
ces modes de codage.
WMA9 prend également en charge une
série de paramètres de configuration du
codage pour les contenus audio mono
et stéréo, avec des débits allant de 5 à
320kb/s et des fréquences d’échantillonnage comprises entre 8 et 48kHz.
4
En prenant comme critère une fréquence d’échantillonnage type de
44,1kHz pour un cédérom, nous constatons que la plupart des utilisateurs
sélectionnent des débits allant de
48à128kb/s pour obtenir une qualité
semblable à celle d’un cédérom, en
fonction de leur sensibilité aux artefacts
de la compression et à la largeur de
bande disponible. Un faible pourcentage d’utilisateurs à l’oreille plus affinée
peuvent exiger une qualité supérieure
pour être totalement satisfaits. C’est la
raison pour laquelle des débits plus élevés sont proposés.
Quelle technologie de codage audio
permet
d’obtenir
les
meilleurs
résultats? Cette question a fait couler
beaucoup d’encre. Il existe quelques
bons codecs sur le marché et les opinions divergent. Nous constatons que
les experts n’ont pas tous le même avis
sur la notion de «qualité optimale d’un
son compressé». Certains préfèrent les
codecs qui préservent une bande plus
large et produisent dès lors un son plus
riche avec certaines distorsions dans les
hautes fréquences. D’autres privilégient
les codecs qui génèrent un son plus
étouffé mais s’accompagnent de distorsions minimales dans les hautes fréquences.
La qualité audio du dernier codec
WMA9 n’a pas encore fait l’objet
d’études indépendantes. Des versions
antérieures ont été minutieusement examinées et classées au premier rang dans
certaines études. Par exemple, WMA8
a été récemment choisi, face à MP3 et à
RealAudio 8, à l’occasion d’une étude
réalisée par les «golden ears» du magazine Sound & Vision. D’autres études
ont abouti à d’autres conclusions pour
diverses raisons 1, parce que les contenus et les conditions d’évaluation
étaient différents, ou simplement parce
que la personne chargée des essais
avaient ses propres préférences. Ainsi,
les experts audio au sein d’un organisme basent souvent leurs décisions sur
des tests subjectifs qui leur sont propres.
Un des grands objectifs des développeurs de Windows Media 9 a été
d’intégrer une technologie de compression allant au-delà de la qualité d’un
cédérom. Le premier pas dans cette
direction a donné naissance au codec
Windows Media Audio 9 Professional.
WMA 9 Professional
Le codec WMA 9 Professional est le premier codec audio Windows Media qui
prend en charge la haute résolution
(jusqu’à 24bits par échantillon audio et
une fréquence d’échantillonnage pouvant aller jusqu’à 96kHz) et des canaux
multiples (jusqu’à huit canaux) pour les
configurations classiques 5.1 ou 7.1
d’enceintes acoustiques haut de gamme
ou les salles de cinéma numérique.
Une application importante de ce codec
est le codage de bandes son ou musique
multicanal aux débits d’une connexion
internet large bande, pour laquelle
aucun codec n’est actuellement disponible à grande échelle sur le marché. Par
exemple, le débit minimum du codec
AC-3 de Dolby est de 384kb/s (configuration 5.1), ce qui fournit un débit
très faible pour la vidéo sur les connexions DSL ou câblées. WMA 9 Professional peut coder des canaux 5.1 à
des débits aussi faibles que 128kb/s;
192kb/s semble être le «débit idéal»
pour cette technologie. Par conséquent,
la largeur de bande est suffisante pour la
transmission vidéo large bande.
1. Plusieurs Membres de l’UER ont récemment mené une des études les plus approfondies sur les codecs audio (incluant le
codec WMA8) [8]. Cependant, le codec
WMA 8 a été comparé à d’autres codecs
avec des paramètres de configuration différents – dans certains cas, la largeur de bande et la fréquence d’échantillonnage (en
Hz) pour le codec WMA 8 étaient fixés à un
niveau deux fois supérieur. Nous espérons
collaborer plus étroitement avec les Membres de l’UER pour éviter ce type d’inconvénients. Nous pensons que les tests
ultérieurs incluront le dernier codec WMA
9.
UER–REVUETECHNIQUE –SÉLECTION2003
COMPRESSION AUDIO/VIDÉO
Comme dans le cas du codec WMA9,
WMA 9 Professional propose cinq
modes de codage: CBR une passe, CBR
deux passes, VBR une passe, VBR deux
passes et VBR à contrôle de crête. En
outre, WMA Professional9 permet une
compression quasi sans perte lorsque le
paramètre de configuration VBR est
réglé sur la qualité maximale.
WMA 9 Voice
WMA 9 Voice est un autre codec de
Windows Media 9. Il permet de comprimer des contenus audio mono uniquement à très faibles débits, lorsqu’un
contenu multimédia doit être transmis
via une connexion modem à faible débit
ou une connexion RNIS. Les débits se
situent entre 4 et 20kb/s et les fréquences d’échantillonnage varient entre 8 et
22kHz. A ce stade, WMA9 Voice
prend uniquement en charge le codage
CBR une passe.
En utilisant de très faibles débits pour
compresser des données audio, les
codecs classiques axés sur des transformées donnent en général un meilleur
résultat lorsqu’il s’agit de musique, mais
les codecs CELP offrent une qualité
supérieure lorsqu’il s’agit de voix.
WMA 9 Voice est un codec hybride unique en son genre qui a recours à un classificateur pour détecter la voix ou la
musique et appliquer le mode de codage
approprié à chaque segment. Lorsque le
contenu multimédia est composé d’éléments vocaux et musicaux, le mode
sélectionné dépend du type audio prédominant. Le codeur propose également un mode manuel pour permettre à
l’utilisateur de sélectionner le mode de
son choix pour un segment donné.
Le mode de codage vocal repose sur un
nouvel algorithme très élaboré. Le
mode de codage musical a essentiellement recours aux transformées de
WMA. Ce codec fournira une qualité
optimale pour les deux types de contenu audio, tandis que les codecs décrits
précédemment garantissent en général
des résultats satisfaisants pour l’un ou
l’autre type.
WMA 9 Lossless
Le dernier codec audio de Windows
Media 9 est, d’un point de vue mathématique, un codec sans perte. Il rivalise
avec d’autres codecs audio de ce niveau,
comme Monkey Audio, et peut compresser toute sorte de sources audio,
allant de la résolution et la fréquence
d’échantillonnage d’un cédérom à des
sources 7.1, 24bits et 96kHz.
WMA 9 Lossless est intégré à Windows
Media Player 9 (dans la fonctionnalité
Figure 4 – Courbe rapport S/B de crête en fonction du débit binaire
UER–REVUETECHNIQUE –SÉLECTION2003
de copie de cédéroms) et peut atteindre
des ratios de compression d’environ 2:1
pour les contenus stéréo. Un clip audio
multicanal haute résolution peut souvent être compressé sans perte avec des
ratios plus élevés.
Sélection des codecs audio
Pour la radiodiffusion stéréo classique
et les applications internet large bande,
il est recommandé d’utiliser le codec
WMA 9 standard. Si l’audio ou le film
contient une piste haute résolution ou
multicanal, il convient d’envisager l’utilisation de WMA 9 Professional.
Les autres codecs audio sont également
utiles, mais pour des applications plus
spécifiques. Ainsi, WMA9 Voice est
surtout indiqué pour les applications
audio à faible débit (comme les modems
et les connexions RNIS), et WMA9
Lossless est la solution pour l’archivage
audio.
WMV 9
Le codec Windows Media Video 9 est le
codec le plus populaire de Windows
Media9. Il repose sur une technologie
permettant d’obtenir une vidéo compressée de qualité absolument remarquable, qu’il s’agisse de débits très
faibles (160x120 à 10kb/s pour les
applications utilisant un modem) ou
très élevés (1920x1080 à 6-20Mb/s
pour une vidéo haute définition). Ce
codec prend en charge les cinq modes
de codage CBR et VBR.
WMV 9 garantit une amélioration de
15 à 50% de la compression par rapport
à la version 8. Le résultat est en général
meilleur lorsque le débit est plus élevé.
Par exemple, la figure4 indique la corrélation entre la qualité, en termes de
rapport S/B de crête, et le débit pour les
codecs vidéo WMV9, WMV8 et
MPEG-4 (ISO) de Microsoft (profil
simple). La source était composée de 13
clips MPEG classiques (Stefan, Akiyo,
Coastguard, News, Mobile & Calendar,
etc.). Nous avons affecté une taille fixe
au pas de quantification pour tous les
codecs et appliqué la même stratégie
5
COMPRESSION AUDIO/ VIDÉO
quant à la sélection du mode, comme
c’est habituellement le cas pour les tests
en rapport avec les normes MPEG et
UIT. Bien que le rapport S/B de crête ne
soit en aucun cas une mesure exacte de
la qualité vidéo, on voit que les gains
obtenus au niveau de la compression
vidéo se traduisent également par des
gains du rapport S/B de crête.
L’efficacité de la compression de
WMV9 permet d’obtenir une vidéo
BT.601 de qualité radiodiffusion à environ 2Mb/s, et une vidéo haute définition d’excellente qualité (ex.: 720p)
dans le cas de débits type DVD ou
radiodiffusion élevés (ex.: 4 à 6Mb/s).
Tous les formats de radiodiffusion sont
pris en charge, y compris les variantes
720p et 1080i haute définition. Le
codec inclut les outils de compression
pour les formats entrelacés natifs.
Ilprend en charge la structure d’échantillonnage 4:1:1, en plus de la 4:2:0,
pour maintenir la séparation entre les
champs pair et impair de la composante
chroma dans le cas de vidéos entrelacées
(la structure 4:2:0 mélange les valeurs
de la chroma dans le deux champs).
Comme différentes applications exigent des niveaux de complexité différents pour WMV, nous avons défini
plusieurs profils et niveaux d’interopérabilité. Par exemple, le «profil simple
au niveau inférieur» assure, au maximum, la prise en charge d’une résolution QCIF, 96kb/s et 15trames/s, et
vise avant tout les dispositifs portables
bas de gamme. Le «profil principal
(MP) au niveau principal (ML)» est
prévu pour les radiodiffusions à définition standard (équivalent fonctionnel
du MP@ML de MPEG-2). Le «profil
principal (MP) au niveau supérieur
(HL)» est recommandé pour les applications haute définition (équivalent
fonctionnel du MP@HL de MPEG-2).
Les flux binaires de WMV9visant des
applications plus pointues (ex.: radiodiffusions standard et haute définition)
sont repris sous l’appellation «flux
binaires de WMV 9 Professional».
La qualité vidéo du dernier codec
WMV9 n’a pas encore fait l’objet
d’études indépendantes. Toutefois, des
études de ce type ont démontré que des
versions antérieures de ce codec étaient
dotées de fonctionnalités de compression particulièrement efficaces. Par
6
exemple, WMV8 a été désigné meilleur
codec vidéo par le magazine DV en raison de la qualité des résultats obtenus.
En outre, les conclusions préliminaires
des essais menés récemment par l’UER
ont confirmé cette première place de
WMV8. Comme pour les codecs audio,
les avis en la matière sont aussi nombreux que les études réalisées. Il convient donc que les experts procèdent à
leurs propres essais et tirent leurs propres conclusions.
WMV 9 et compression vidéo
Une question récurrente consiste à
savoir si la compression WMV9 est
plus efficace que celle régie par les normes MPEG-2 et MPEG-4, ou même la
norme H.264 de plus en plus répandue.
La réponse à cette question n’est guère
facile, car les normes définissent uniquement la syntaxe des flux et la sémantique du décodeur. Parconséquent,
différentes applications peuvent donner des résultats de qualité différente.
Le même commentaire s’applique parfaitement à WM9 puisque nous pensons que les prochaines versions
(rétrocompatibles) de l’encodeur, fabriquées par les fournisseurs de matériels,
amélioreront sans doute l’efficacité de
la compression de notre version
actuelle.
Cependant, afin d’établir certains critères comparatifs concernant la qualité,
nous avons procédé à des essais internes
en utilisant le codec vidéo d’un système
bien connu, à savoir le Minerva C250
basé sur la norme MPEG-2, et le codec
du tout récent QuickTime6 reposant
sur la norme MPEG-4 (niveau de compatibilité le plus avancé correspondant
au profil 1 de l’ISMA). Au cours de ces
essais basés sur une seule et même configuration de codage, WMV9 a permis
d’obtenir une qualité semblable à celle
de MPEG-2 et MPEG-4 au tiers et à la
moitié du débit respectivement2 .
2. Pour obtenir un disque DVD des données
contenant le code source non compressé,
les résultats du flux binaire et les instructions nécessaires à la reproduction de ces
tests de manière indépendante, veuillez envoyer un message à [email protected].
Bien que les normes MPEG-2 et MPEG-4
puissent trouver de meilleures applications, ces gains de compression considérables indiquent que WMV9 présente un
avantage qualitatif significatif (économie
de largeur de bande) sur les codecs compatibles. En effet, des études indépendantes récentes ont conclu que l’efficacité de
la compression d’une des premières versions (pré-bêta) de WMV9 et même de
WMV8 était supérieure à celle obtenue à
l’aide d’outils basés sur les normes
MPEG-2 ou MPEG-4.
H.264 est une norme de compression
vidéo de l’UIT et de l’ISO qui devrait être
finalisée au mois de mai 2003. Comme le
processus d’interopérabilité se poursuit
pendant des mois une fois la norme adoptée, un certain temps sera encore nécessaire avant que des produits compétitifs,
compatibles avec cette norme, fassent leur
apparition sur le marché. Il est donc prématuré de tirer des conclusions définitives
sur les différences de qualité entre les normes H.264 et WMV9. Comme le codec
de référence, axé sur l’optimisation débitdistorsion et mis au point par la Joint
Video Team de l’UIT/ISO est censé fournir une excellente qualité, certaines sociétés ont déjà effectué leurs premiers tests.
Ainsi, une étude assez complète, réalisée il
y a plusieurs mois, a conclu que la qualité
vidéo basée sur les normes H.264 et
WMV9 était similaire, mais chacun des
codecs a depuis lors fait l’objet d’améliorations.
La norme H.264 présente le désavantage
de la complexité de calcul du codage et
du décodage. Certaines études indiquent
par exemple que pour bénéficier des
avantages de la compression, la complexité du calcul doit être supérieure d’un
ordre de grandeur à celle du profil simple
de MPEG-4. En outre, elles montrent que
la complexité du décodeur H.264 (profil
principal) est trois fois supérieure à celle
de MPEG-4 (profil simple).
Par ailleurs, la complexité du décodage du
profil principal de WMV9 est assez semblable à celle de notre codec (profil simple) MPEG-4 (optimisé MMX). Plus
concrètement, le décodage avec WMV9
n’est que 1,4 fois plus lent, processus aisément vérifiable en utilisant les deux
codecs dans Windows Media Player (ou
d’autres décodeurs MPEG-4 au niveau du
profil simple). Bien qu’il convienne d’éviter toute comparaison hâtive sur des ques-
UER–REVUETECHNIQUE –SÉLECTION2003
COMPRESSION AUDIO/VIDÉO
tions aussi complexes, cette information
indique que la complexité du décodage
H.264 pourrait être deux fois supérieure
à celle du codec WMV9, ou à tout le
moins que WMV9 présente, par rapport
à H.264, un avantage certain au niveau
du calcul du décodage.
Lissage vidéo
Une nouvelle fonctionnalité de WMV
permet d’interpoler les trames manquantes après le décodage. Cette fonctionnalité de lissage (video smoothing)
de Windows Media 9 Series, est communément appelée interpolation de trames dans le document. L’algorithme
d’interpolation utilise une technique
très poussée d’évaluation du flux optique (au niveau du pixel) et de projection pour synthétiser de nouvelles
trames. La figure5 illustre ce processus.
Cette fonctionnalité requiert un usage
intensif de l’unité centrale et s’amorce
uniquement lorsque les cycles de l’unité
centrale sont suffisants. Par exemple, un
utilisateur doit en général disposer d’un
système équipé d’un processeur d’une
puissance supérieure ou égale à
733MHz pour interpoler un clip vidéo
sur la base d’une résolution de 320 x
240 pixels, de 10 à 30t/s.
Cette fonctionnalité s’avère particulièrement utile à de très faibles débits,
lorsque la fréquence pleine trame est
difficile à obtenir lors du codage et que
les artefacts de la compression à faible
débit masquent les erreurs d’interpolation occasionnelles. Le lissage supprime
les effets de saccade inhérents à la vidéo
à faible débit et, par conséquent, améliore la qualité vidéo. Autre possibilité:
un fournisseur de contenu peut sciemment coder un clip vidéo en utilisant
une fréquence de trames (ex.: 12,5t/s)
et un débit binaire plus faibles, de
manière à laisser à la fonction de lissage
le soin de rééchantillonner au niveau du
décodeur (ex.: jusqu’à 25t/s).
efficace pour la compression vidéo
d’écrans d’ordinateur. Ce codec est utilisé pour capturer des applications affichées sur le bureau d’un ordinateur afin
de créer du matériel de démonstration.
La totalité du bureau peut être codée et
transmise à de très faibles débits pouvant atteindre 28kb/s, sauf si la capture
porte sur des images naturelles incorporées à l’application de bureau, auquel
cas le débit binaire requis se situe en
général aux environs de 100kb/s.
Cette nouvelle version du codec améliore à la fois la qualité de l’image et
l’utilisation de l’unité centrale, par rapport aux précédentes, lorsqu’il y a du
mouvement et des images naturelles.
Elle prend en charge le mode de codage
à débit binaire constant (CBR) en une
passe et le mode de codage à débit
binaire variable (VBR) en une passe.
Une version ultérieure prendra en
charge une fonctionnalité de compensation du mouvement pour gérer les
vidéos incorporées sur le bureau.
WMV 9 Image
Windows Media Video 9 Image est le
dernier des nouveaux codec de Windows Media 9 Series. Ce codec permet
à un utilisateur de combiner un ensemble d’images fixes pour créer un clip
vidéo en utilisant l’affaiblissement, le
panoramique, le zoom ainsi que
d’autres effets. Cette technique de compression est en quelque sorte un codec
vidéo dans lequel les trames I du flux
binaire sont suivies d’un ensemble d’instructions relatives aux mouvements et
aux transitions pour chaque trame (au
lieu de données sur les trames P).
Sélection des codecs vidéo
Dans la grande majorité des cas, y compris les applications en radiodiffusion,
le codec WMV9 est le meilleur choix.
Les codecs WMV9 Screen et WMV9
Image sont utilisés dans des situations
plus spécifiques (mais non moins intéressantes) lorsque, par exemple, l’utilisateur souhaite compresser la vidéo
d’un écran d’ordinateur ou créer un clip
vidéo à partir d’un ensemble d’images
fixes.
L’univers WM
Windows Media a occupé des créneaux
sur le marché des dispositifs électroniques personnels lorsque le flux WMA a
été gelé il y a plus de quatre ans. Cette
syntaxe figée a incité de nombreuses
sociétés à intégrer WMA à leurs produits. Il existe actuellement plus de 170
types de dispositifs électroniques personnels (lecteurs DVD, lecteurs de cédérom, assistants personnels comme
PocketPC, baladeurs, autoradios, etc.)
qui prennent en charge WMA.
La technologie des codecs vidéo a fait
l’objet d’améliorations considérables au
cours des dernières années. Bien que de
nouveaux
algorithmes
permettent
d’envisager un accroissement des performances actuelles, le coût sera très
élevé sur le plan de la puissance de calcul. Par conséquent, nous pensons que
cette évolution ne trouvera aucune
application commerciale viable au cours
des cinq prochaines années, voire plus.
Le flux binaire de WMV sera donc gelé
pour la première fois dans la version9
WMV 9 Screen
Le codec Windows Media Video
(WMV) 9 Screen annonce la prochaine
génération d’un moteur extrêmement
UER–REVUETECHNIQUE –SÉLECTION2003
Figure 5 – Le lissage vidéo fait appel à une interpolation de trames
7
COMPRESSION AUDIO/ VIDÉO
et les versions ultérieures de WMV
seront rétrocompatibles.
La procédure consistant à geler le
flux binaire de WMV 9 a été gérée
avec un soin tout particulier, en
tenant compte des informations fournies par les fabricants de processeurs.
L’objectif consistait à obtenir la
meilleure qualité possible avec une
configuration matérielle minimale.
Les algorithmes qui permettaient des
améliorations négligeables, mais exigeaient un effort considérable du système, ont été revus ou abandonnés.
Par conséquent, l’équilibre obtenu
entre la qualité et les exigences de la
configuration dans le cas de WMV 9
est tout à fait remarquable. Au niveau
logiciel pur, WMV 9 permet de décoder et de restituer en temps réel un
contenu à 1080p sur un système performant (ex.: processeur à 2,8GHz)
sans recourir à un accélérateur. Toutefois, nous travaillons en étroite collaboration avec ATO et NVIDIA pour
intégrer le décodage WMV à leurs
cartes graphiques par le biais de
Microsoft DirectX® Video Acceleration, qui devrait garantir une lecture
fiable de tous les contenus, quel que
soit le débit et le type de système.
Quiconque connaît mal les dispositifs
de lecture Windows Media est en
général convaincu que ces technologies doivent être impérativement
mises en œuvre sur les systèmes tournant sous Microsoft Windows® . En
réalité, Windows Media est un format
multimédia numérique à vocation
générique, c’est-à-dire compatible
avec n’importe quels plate-forme ou
système d’exploitation. L’exploitation sous licence des différents composants de Windows Media est très
répandue. Ces derniers peuvent être
adaptés, grâce aux Windows Media
Porting Kits (qui fournissent les spécifications et le code source ANSIC), à
des dispositifs non-OS, à des cartes
graphiques, à Linux, à Mac, etc. En
outre, la spécification et la licence
pour le conteneur ASF (Advanced
System Format) de Windows Media,
sont libres et à la disposition de tous,
et des organisations telles que le consortium Secure Digital (SD) ont
adopté les composants Windows
Media (dans ce cas ASF et WMA)
dans leurs spécifications.
8
Par conséquent, beaucoup de sociétés
et détenteurs de licences se font concurrence pour proposer au public des
processeurs et des solutions OEM de
meilleure qualité et à un meilleur prix,
solutions qui prennent en charge Windows Media sur une variété de platesformes. Par exemple, plus de 60 sociétés titulaires de licences ont adapté
WMA à leurs processeurs et leurs dispositifs électroniques au cours des dernières années. Plus récemment, plus de
40 sociétés ont acquis une licence sur
les kits de portage WMV, et certains
prototypes de processeurs et boîtiers
de décodage utilisant le codec WMV 9
ont déjà été présentés. Parmi les sociétés qui exploitent WMA et WMV sous
licence et l’ont publiquement annoncé,
citons ARM, ATI, Cirrus Logic, Equator, ESS Technology, LSI Logic, MEI,
Tandberg Television, Texas Instruments, ST Microelectronics et Zoran.
Certains des systèmes ont été présentés
à l’IBC de 2002, y compris un circuit
d’Equator lisant un WMV 720p haute
définition. Le circuit d’Equator sera
utilisée dans des boîtiers de décodage
fabriqués par Pace Micro Technology
et d’autres sociétés.
Applications broadcast
Certaines normes, comme la norme
DVB, permettent d’intégrer de nouvelles technologies, de fournir de nouveaux services et d’accroître les revenus.
Dans la section des données privées du
flux de transport de MPEG-2, il est
facile d’encapsuler les données IP (par
exemple, les données audio et vidéo
compressées avec les codecs de Windows Media) comme l’illustre la
figure6. Ces données peuvent alors être
transmises par le signal DVB standard.
Windows Media commence à être utilisé pour des applications en radiodiffusion par DVB. Nous aborderons ici
deux exemples récents.
La figure7 illustre le premier exemple.
NTL Broadcast and Tandberg Television
a développé un système DVB pour diffuser des informations des domaines
sportifs (Eurosport) et journalistiques
(ITN), compressés avec Windows
Media 9 Series. Plusieurs jours ont été
consacrés à la présentation de ce système à l’IBC de 2002.
Figure 6 – Séquences Windows Media 9 compressées par DVB
Figure 7 – Diffusion Windows Media DVB lors de l’IBC
UER–REVUETECHNIQUE –SÉLECTION2003
COMPRESSION AUDIO/VIDÉO
Jordi Ribas-Corbera est ingénieur en télécommunications de l’Escola d'Enginyeria La
Salle (Barcelone) et titulaire d’un M.Sc. en génie électrique de l’université de Californie
(Irvine). En 1996, il a été reçu docteur (Ph.D.) en génie électrique (option systèmes) à l’université du Michigan (Ann Arbor).
Depuis février 2000, il travaille chez Microsoft où il dirige l’équipe traitement du signal et
codec à la division médias numériques. L’équipe a mis au point de nombreux dispositifs de
compression et de traitement du signal pour Windows Media notamment les codecs Windows Media Audio (WMA) et Windows Media Video (WMV) qui font partie du lecteur
Windows Media et d’autres dispositifs électroniques commerciaux. A l’été 1994, il avait
travaillé au NTT Human Interface Labs de Yokosuka (Japon) dans le laboratoire traitement
vidéo évolué et, de 1996 à 2000 au Sharp Labs of America à Camas (État de Washington,
USA) où il a poursuivi des recherches sur la compression des données et l’optimisation des
performances du codage des produits Sharp.
Jordi Ribas-Corbera a participé au développement de normes, notamment ISO/MPEG-4, UIT-T/H.263+ et UIT-T/H.264.
Ses recherches portent sur le traitement des images et la théorie de l’information, particulièrement sur la compression
des données. Il a présenté de nombreuses communications sur les normes, dans des revues techniques sélectives, lors de
conférences et dans des revues académiques et s’est exprimé lors de nombreux séminaires et conférences notamment
aux Cable Labs, à l’UER, la NAB et la SMPTE
Jordi Ribas-Corbera est lauréat 1997 du Young Investigator Award de l’IS&T/SPIE International Conference on Visual
Communications and Image Processing, et lauréat 1999 du Sharp Labs President's Award. Il a déposé cinq brevets et
d’autres sont encore en route.
Les signaux de British Eurosport
étaient émis du Digital Media Centre
de NTL près de Londres et les contenus multimédias étaient codés en direct
à l’aide d’un prototype de l’encodeur
Windows Media 9 Series (prenant en
charge WMA 9 et WMV 9) conçu par
Tandberg Television.
Les données des services d’information
d’ITN étaient transmises, via un logiciel de détection de mise à jour de Gee
Broadcast, à un transcodeur Tandberg
Television Format qui compressait également les clips dans Windows Media.
Les fichiers codés étaient ensuite transmis au téléport satellitaire de Crawley
Court, situé au sud-ouest de Londres,
dans le système store and forward
(stockage et acheminement) de NTL
Broadcast.
Les deux types de flux de données
Windows Media ont été encapsulés IP
par un SMR (Source Media Router)
de SkyStream et transmis à un multiplexeur compatible avec la norme
DVB. Ils ont ensuite été transmis via
satellite (DVB-S) à Amsterdam et, de
là, par voie terrestre (DVB-T), à des
véhicules en mouvement dans la zone
géographique de l’IBC. Ces véhicules
assuraient le transport des participants
entre le site de la convention et le centre-ville, et étaient équipés d’ordinateurs utilisant des décodeurs Windows
Media connectés à un moniteur. Le
UER–REVUETECHNIQUE –SÉLECTION2003
système a été mis en place par NTL
Broadcast.
Ce projet a démontré la possibilité
d’utiliser l’infrastructure DVB standard
pour des transmissions télévisées mobiles avec Windows Media 9 Series.
Un autre exemple intéressant est le
système de films à la demande déployé
par LuxSat International dans plusieurs pays. Les films sont codés à
l’aide de Windows Media 9 Series et
diffusés par IP datacasting via DVB-S
sur un ordinateur personnel. L’utilisateur a le choix entre une centaine de
films qui sont rafraîchis une fois par
jour selon le principe du «premier
entré, premier sorti».
La vocation de Windows Media 9
Series consiste à transmettre des contenus multimédias numériques sur
n’importe quel réseau, à destination
de n’importe quel dispositif électronique. Les solutions et les services sont
proposés par une multitude de sociétés qui, soit utilisent les composants
de base de Windows Media 9 Series
(Windows Media Encoder pour la
création, Windows Media Services
pour la distribution, Windows Media
DRM pour la protection légale des
contenus et Windows Media Player
pour la lecture), soit fabriquent leurs
propres composants qu’ils intègrent
par la suite, avec les kits de portage de
Windows Media dans le cas de matériels ou par les SDK dans le cas de
logiciels.
Windows Media 9 Series propose,
pour des applications variées, un éventail de codecs audio et vidéo à la pointe
de la technologie. Les codecs WMA 9
et WMV 9 garantissent une bonne qualité pour les applications en radiodiffusion lorsque la largeur de bande est
relativement faible. Par exemple, il est
possible de parvenir à une qualité définition standard à un débit de 2 Mb/s et
haute définition à des débits de type
DVD ou largeur de bande élevée. Le
nouveau codec WMA9 Professional
permet de coder des pistes audio haute
résolution ou multicanal à un débit initial d’à peine 128kb/s.
Windows Media 9 Series gagne du terrain chez les fabricants de matériel électronique de consommation courante.
Les programmes de concession de licences, à la fois libres et massifs, ont incité
de nombreuses sociétés à intégrer la
technologie Windows Media à de nombreux dispositifs électroniques sur des
plates-formes multiples.
Enfin, de nouveaux créneaux voient le
jour dans l’industrie de la radiodiffusion compte tenu des nouveaux services qui peuvent être proposés grâce à
Windows Media 9 Series et aux normes DVB.
9
COMPRESSION AUDIO/ VIDÉO
Bibliographie
[1] Site officiel de Windows Media:
http://www.microsoft.com/windows/windowsmedia/default.asp
[2] Site de Windows Media pour l’électronique de loisir:
http://www.microsoft.com/windows/windowsmedia/conselec.asp
[3] Site officiel l’association SD:
http://www.sdcard.org/
[4] Site des formats HighMAT et
DVD :
http://www.microsoft.com/windows/windowsmedia/Consumelectronics/highmat.asp
[5] Video on the move, IBC Daily,
samedi 14 septembre 2002, p. 1
(version électronique sous IBC
Daily News, http://www.ibc.org).
[6] Site des partenaires de Windows
Media: http://www.microsoft.com/
windows/windowsmedia/partner.asp
[7] David Ranada: Facing the codec
challenge
Sound & Vision, pp. 98-100, juillet
2002.
[8] BPN 049: The EBU Subjective Listening Tests on Low Bit-rate Audio
Codecs
UER, septembre 2002.
[9] Ben Waggoner: Web video codecs
compared
DV Magazine, novembre 2001.
[10] Geir Ove Rapp: principaux résultats et conclusions du groupe de
l’UER B/VIM
EBU specialized meeting on Audio/
Video Coding Technologies, 5-6
septembre 2002.
[11] J. Bennet et A. Bock: Comparison
of MPEG and Windows Media
Video and Audio Encoding
White Paper, Tandberg Television,
10 septembre, 2002.
[12] R.Schäfer,
T.Wiegand
et
H.Schwarz: H.264/AVC – La
norme qui monte
UER–Revue technique, sélection
2003.
(disponible par ftp sur ftp://
ftp.imtc-files.org/jvt-experts/).
[14] DocumentJVT-D153 (M.Ravassi,
M.Mattavelli and C.Clerc): JVT/
H.26L decoder complexity analysis
Joint Video Team of ISO/IEC
MPEG & ITU-T VCEG, Klagenfurt, Autriche, 22-26 juillet 2002
(disponible par ftp sur ftp://
ftp.imtc-files.org/jvt-experts/).
[15] J.Ribas-Corbera et J.Sklansky:
Interframe interpolation of cinematic sequences
Journal of Visual Communication
and image representation, Vol.4,
No.4, Dec 1993, pp.392-406.
[16] Specification and licence for Windows Media file format (ASF):
http://www.microsoft.com/
windows/windowsmedia/WM7/format/asfspec11300e.asp
[13] DocumentJVT-D15: Joint Model
number 3
Joint Video Team of ISO/IEC,
MPEG and ITU-T VCEG, Klagenfurt, Autriche, 22-26 juillet 2002
L’auteur remercie ses collègues de la
Microsoft Windows Digital Media Division pour leurs contributions, leurs commentaires et leurs suggestions dans le
cadre de la rédaction de cet article. Il
adresse notamment ses remerciements à
Jon Billings, Jim Beveridge, Terrence
Dorsey, Tricia Gill, Pat Griffis, Paul
Johnson, Rich Lappenbusch, Dr Bruce
Lin, Dr Ming-Chieh Lee, Amir Majidimehr, Steve Sklepowich et Dr Wei-ge
Chen. En outre, l’auteur tient à témoigner sa gratitude à tous ceux qui, au sein
d’autres sociétés, ont contribué à la réalisation de ce document.
© UER Publié en anglais en janvier 2003
10
UER–REVUETECHNIQUE –SÉLECTION2003