Applications multiples
Transcription
Applications multiples
COMPRESSION AUDIO/VIDÉO Jordi Ribas-Corbera Microsoft Windows Digital Media Division Microsoft® Windows Media ® 9 permet d’exploiter le multimédia numérique sur toute une gamme de réseaux et de matériels: codeur, serveur, DRM, lecteurs pour PC, etc. Sa plate-forme programmable et extensible permet de créer des applications et des services spécifiques. Windows Media 9 utilise les dernières technologies de Microsoft dans le domaine du multimédia numérique [1]. Si la vocation première de Windows Media était la diffusion en continu, via internet, de données audio et vidéo compressées vers des PC, désormais il s’agit de transmettre de manière efficace un contenu multimédia numérique sur n’importe quel réseau ET vers n’importe quel dispositif électronique. Applications multiples La figure 1 illustre plusieurs utilisations de la technologie Windows Media. Outre les applications axées sur le Web (services d’abonnement, vidéo à la carte, radiodiffusion sur le Web, etc.), les contenus compressés avec les codecs Windows Media sont utilisés avec toute une série de dispositifs électroniques avec ou sans fil (téléphones portables, lecteurs DVD, baladeurs et autoradios) UER–REVUETECHNIQUE –SÉLECTION2003 Figure 1 – Quelques applications Windows Media actuelles [2]. Le contenu peut aussi être délivré au consommateur sur des supports physiques – par exemple, une cartemémoire SD (Secure Digital) [3], ou un cédérom ou un DVD grâce au format HighMAT™ de plus en plus utilisé [4]. Dans le domaine de la radiodiffusion terrestre et par satellite, un récent projet présenté à l’IBC a démontré qu’il était possible de distribuer des contenus Windows Media 9 selon les normes DBV-T et DVB-S. Autre exemple: la technologie Windows Media est aussi utilisée pour compresser des films au format haute définition avec son multicanal. Ces films sont projetés aux États-Unis dans des salles de cinéma numérique. 1 COMPRESSION AUDIO/ VIDÉO Solution globale Toutes les applications citées jusqu’à présent requièrent l’utilisation d’un ensemble de composants de base qui permettent de déployer des systèmes complets. La figure2 illustre les principaux composants de Windows Media 9 qui peuvent être classés sous trois rubriques: création, distribution et lecture. Création La création, ou authoring en anglais, désigne la procédure consistant à concevoir et à coder un contenu multimédia numérique. Microsoft utilise principalement à cette fin le logiciel appelé Windows Media Encoder 9 Series. Ce codeur, particulièrement souple, permet de compresser des sources vidéo et audio qui seront diffusées en continu, soit en direct, soit à la demande, en utilisant les codecs de Windows Media. les kits de développement de logiciels (SDK) de Windows Media (ex.: codeurs logiciels de Accom, Adobe, Avid, Discreet et Sonic Foundry). Distribution Le contenu compressé avec les codecs de Windows Media est en général distribué sur internet via un serveur Windows Media Services. Windows Media Services version 4.1 est un composant facultatif de Windows 2000 Server et Windows Media Services 9 Series sera vraisemblablement un composant facultatif de Windows Server 2003. Le nouveau serveur prend en charge un nombre plus élevé de fonctionnalités pour la publicité et les présentations multimédias. Le nombre de clients pouvant recevoir simultanément un clip multimédia est multiplié par deux. Un serveur peut soit assurer la diffusion en continu du contenu (opération réalisée avec un décalage minimum), soit D’autres sociétés proposent par ailleurs télécharger ce contenu (transmettre et différentes solutions basées sur les kits stocker) sur le dispositif de lecture de de portage de Windows Media (ex.: l’utilisateur. La transmission du clip codeurs matériels de Optibase, Tand- peut avoir lieu en direct (actualités, berg Television, Texas Instruments) ou sports, concerts et autres manifestations de ce type) ou à la demande (clips vidéo, films, etc.). Lors de la diffusion d’un clip multimédia, le serveur adapte son débit et retransmet les paquets perdus en fonction des indicateurs de qualité retournés. Pour la diffusion en continu à la demande, cette génération de serveur a recours à la largeur de bande supplémentaire disponible (supérieure au débit binaire moyen du clip) pour réduire le décalage inhérent au démarrage. En outre, ce type de serveur réduit les risques de déconnexion inopinée (entraînant des perturbations de la lecture et une reconstitution de la mémoire tampon) en envoyant une quantité plus importante de données en sorte que la lecture puisse se poursuivre en cas d’engorgement du réseau. Si un serveur puissant et modulable est indispensable pour les transmissions internet, une connexion réseau fiable l’est tout autant. Les réseaux CDN tels Akamai, Digital Fountain et SMC garantissent précisément ce type de connexion. La combinaison de serveurs performants et de puissants réseaux permet d’obtenir une qualité comparable à celle d’un téléviseur classique, de loin supérieure à celle de la diffusion en continu à laquelle nous avait habitués le réseau internet. Figure 2 – Distribution de contenu Windows Media: droits, distribution et reproduction. Le système DRM protège le contenu en fonction de règles établies par le détenteur des droits 2 UER–REVUETECHNIQUE –SÉLECTION2003 COMPRESSION AUDIO/VIDÉO Tout le contenu Windows Media peut aussi être livré sur des supports physiques tels un cédérom ou un DVD, ou par d’autres réseaux, notamment ceux compatibles avec la norme DVB. Lecture Dernière étape, la lecture consiste à décoder et à restituer les données compressées sur le dispositif de lecture de l’utilisateur. Sur un PC, Windows Media Player ainsi qu’une série de lecteurs fabriqués par d’autres sociétés (MusicMatch Jukebox ou RealOne Player) peuvent décoder et lire les flux de données en continu et les fichiers Windows Media. Comme l’illustre la figure2, toute une gamme de dispositifs peuvent être utilisés pour lire un contenu Windows Media. Comme pour les codeurs, des sociétés indépendantes peuvent fabriquer ces lecteurs, quelle que soit la plate-forme, en utilisant les kits de portage de Windows Media. Digital Rights Management La technologie DRM (Digital Rights Management – gestion des droits sur les données numériques) est un composant fondamental du système représenté par le serveur de licence sur la figure2. Elle intervient aux trois stades de l’acheminement. La technologie DRM utilisée par Windows Media permet aux détenteurs de contenu de chiffrer leurs produits ou leurs services et d’en définir les termes et les modalités d’utilisation. Par exemple, un détenteur peut décider que son contenu multimédia doit être impérativement utilisé avant une certaine date ou un nombre maximum de fois. Il peut tout aussi bien autoriser l’utilisateur à ne copier les données que sur un certain nombre et certains types de lecteurs. Dans le contexte classique du réseau internet, le détenteur du contenu chiffre le flux de données (compressé) en continu à l’aide de la gestion DRM. Lorsqu’un utilisateur sélectionne ce flux, le lecteur se connecte au serveur de licence qui propose une licence spécifique au contenu. L’utilisateur décide UER–REVUETECHNIQUE –SÉLECTION2003 alors s’il accepte ou non les termes et le prix de la licence et, dans l’affirmative, télécharge la licence. Il a ensuite la possibilité de déchiffrer et d’afficher le contenu conformément aux termes de la licence. l’aide du kit spécifique de Windows Media Player. De nombreuses sociétés ont obtenu les droits de un ou plusieurs de ces kits et les ont utilisés pour concevoir leurs propres systèmes de gestion de contenus multimédias numériques. La conception d’un système DRM complet est complexe. En effet, ce système doit être sûr (et mis à niveau rapidement), souple (compatible avec les aspirations des détenteurs de contenus et des concepteurs de lecteurs) et convivial. Le système DRM de Windows Media se caractérise par sa grande compatibilité. Il est un des leaders incontestés du marché. En outre, elles peuvent fabriquer des matériels et des logiciels basés sur Windows Media en utilisant les kits de portage décrits plus loin. Plate-forme Outre des composants de création, de distribution et de lecture de contenus multimédias numériques, Windows Media fournit aussi une plate-forme de développement. Windows Media Encoder, Media Services et Media Player répondent aux critères de bon nombre d’applications, mais sont avant tout représentatifs des capacités de la plateforme. Ces composants reposent sur des kits SDK qui peuvent être utilisés par d’autres sociétés désireuses de développer leurs propres codeurs, serveurs et lecteurs, en fonction d’applications spécifiques. Grâce à sa plate-forme issue des dernières technologies en matière de compression et d’acheminement, Windows Media permet à des sociétés indépendantes de concevoir des systèmes pointus qui leur sont propres. La figure 3 présente les kits Windows Media 9. Windows Media Player et MusicMatch Jukebox sont développés à Codecs audio et vidéo Les codecs audio et vidéo de Windows Media sont des composants fondamentaux pour le conception et la lecture des contenus multimédias. Le tableau indique les codecs audio et vidéo livrés avec Windows Media 9. Comme les codecs utilisent une technologie et une syntaxe de flux binaire différentes, leur compatibilité n’est pas assurée. Par exemple, les flux de Windows Media Audio 9 Professional ne peuvent pas être décodés par un décodeur Windows Media Audio 9 et vice-versa. Des codecs plus anciens, tels Windows Media Video 8 et MPEG-4 (ISO) Video, sont également rétrocompatibles, mais ils sortent du cadre de cet article uniquement consacré aux nouveaux codecs de la série 9. Windows Media Audio 9 Le codec Windows Media Audio 9 est le codec audio le plus populaire de Windows Media. Il est souvent désigné par ses initiales WMA. Le décodeur (syntaxe du flux binaire) a été gelé il y a quatre ans déjà et seul le codeur a été perfectionné depuis. WMA 9 est déjà Figure 3 – La série de kits SDK Windows Media 9 3 COMPRESSION AUDIO/ VIDÉO Tableau 1 – Les codecs audio et vidéo Windows Media Series 9 Codecs WM Audio 9 Codecs WM Video 9 Windows Media Audio 9 Windows Media Video 9 Windows Media Audio 9 Professional Windows Media Video 9 Screen Windows Media Audio 9 Lossless Windows Media Video 9 Image Windows Media Audio 9 Voice passé par trois phases d’amélioration sans compromettre sa compatibilité avec les versions antérieures. Cette rétrocompatibilité a été capitale pour aider les fabricants de dispositifs de lecture WMA grand public. Le nouveau codeur WMA consolide le mode de codage à débit binaire constant (CBR) en une passe (seul mode pris en charge par WMA dans les versions précédentes) en utilisant un système de gestion de débit et des algorithmes de masquage améliorés. Il inclut les modes de codage à débit binaire variable (VBR) et deux passes qui permet d’obtenir une qualité nettement supérieure à celle du mode une passe. Quel que soit le codec, le mode CBR est indispensable pour le codage et la transmission en direct, le mode VBR en deux passes étant recommandé pour le codage hors ligne appliqué à la diffusion en continu à la demande. Les modes VBR sont notamment indiqués lorsque des clips compressés sont téléchargés et diffusés par l’utilisateur (application download-and-play). Bien que les clips codés suivant le mode VBR puissent également être diffusés en continu (avec le nouveau serveur), les fluctuations du débit dans les clips sont en général élevées et la transmission des données requiert une mise en mémoire tampon assez longue. Un codage VBR à contrôle de crête est également disponible pour créer des flux binaires destinés à être lus sur des périphériques dont la vitesse de lecture est limitée. Le codec WMA9 prend en charge la totalité de ces modes de codage. WMA9 prend également en charge une série de paramètres de configuration du codage pour les contenus audio mono et stéréo, avec des débits allant de 5 à 320kb/s et des fréquences d’échantillonnage comprises entre 8 et 48kHz. 4 En prenant comme critère une fréquence d’échantillonnage type de 44,1kHz pour un cédérom, nous constatons que la plupart des utilisateurs sélectionnent des débits allant de 48à128kb/s pour obtenir une qualité semblable à celle d’un cédérom, en fonction de leur sensibilité aux artefacts de la compression et à la largeur de bande disponible. Un faible pourcentage d’utilisateurs à l’oreille plus affinée peuvent exiger une qualité supérieure pour être totalement satisfaits. C’est la raison pour laquelle des débits plus élevés sont proposés. Quelle technologie de codage audio permet d’obtenir les meilleurs résultats? Cette question a fait couler beaucoup d’encre. Il existe quelques bons codecs sur le marché et les opinions divergent. Nous constatons que les experts n’ont pas tous le même avis sur la notion de «qualité optimale d’un son compressé». Certains préfèrent les codecs qui préservent une bande plus large et produisent dès lors un son plus riche avec certaines distorsions dans les hautes fréquences. D’autres privilégient les codecs qui génèrent un son plus étouffé mais s’accompagnent de distorsions minimales dans les hautes fréquences. La qualité audio du dernier codec WMA9 n’a pas encore fait l’objet d’études indépendantes. Des versions antérieures ont été minutieusement examinées et classées au premier rang dans certaines études. Par exemple, WMA8 a été récemment choisi, face à MP3 et à RealAudio 8, à l’occasion d’une étude réalisée par les «golden ears» du magazine Sound & Vision. D’autres études ont abouti à d’autres conclusions pour diverses raisons 1, parce que les contenus et les conditions d’évaluation étaient différents, ou simplement parce que la personne chargée des essais avaient ses propres préférences. Ainsi, les experts audio au sein d’un organisme basent souvent leurs décisions sur des tests subjectifs qui leur sont propres. Un des grands objectifs des développeurs de Windows Media 9 a été d’intégrer une technologie de compression allant au-delà de la qualité d’un cédérom. Le premier pas dans cette direction a donné naissance au codec Windows Media Audio 9 Professional. WMA 9 Professional Le codec WMA 9 Professional est le premier codec audio Windows Media qui prend en charge la haute résolution (jusqu’à 24bits par échantillon audio et une fréquence d’échantillonnage pouvant aller jusqu’à 96kHz) et des canaux multiples (jusqu’à huit canaux) pour les configurations classiques 5.1 ou 7.1 d’enceintes acoustiques haut de gamme ou les salles de cinéma numérique. Une application importante de ce codec est le codage de bandes son ou musique multicanal aux débits d’une connexion internet large bande, pour laquelle aucun codec n’est actuellement disponible à grande échelle sur le marché. Par exemple, le débit minimum du codec AC-3 de Dolby est de 384kb/s (configuration 5.1), ce qui fournit un débit très faible pour la vidéo sur les connexions DSL ou câblées. WMA 9 Professional peut coder des canaux 5.1 à des débits aussi faibles que 128kb/s; 192kb/s semble être le «débit idéal» pour cette technologie. Par conséquent, la largeur de bande est suffisante pour la transmission vidéo large bande. 1. Plusieurs Membres de l’UER ont récemment mené une des études les plus approfondies sur les codecs audio (incluant le codec WMA8) [8]. Cependant, le codec WMA 8 a été comparé à d’autres codecs avec des paramètres de configuration différents – dans certains cas, la largeur de bande et la fréquence d’échantillonnage (en Hz) pour le codec WMA 8 étaient fixés à un niveau deux fois supérieur. Nous espérons collaborer plus étroitement avec les Membres de l’UER pour éviter ce type d’inconvénients. Nous pensons que les tests ultérieurs incluront le dernier codec WMA 9. UER–REVUETECHNIQUE –SÉLECTION2003 COMPRESSION AUDIO/VIDÉO Comme dans le cas du codec WMA9, WMA 9 Professional propose cinq modes de codage: CBR une passe, CBR deux passes, VBR une passe, VBR deux passes et VBR à contrôle de crête. En outre, WMA Professional9 permet une compression quasi sans perte lorsque le paramètre de configuration VBR est réglé sur la qualité maximale. WMA 9 Voice WMA 9 Voice est un autre codec de Windows Media 9. Il permet de comprimer des contenus audio mono uniquement à très faibles débits, lorsqu’un contenu multimédia doit être transmis via une connexion modem à faible débit ou une connexion RNIS. Les débits se situent entre 4 et 20kb/s et les fréquences d’échantillonnage varient entre 8 et 22kHz. A ce stade, WMA9 Voice prend uniquement en charge le codage CBR une passe. En utilisant de très faibles débits pour compresser des données audio, les codecs classiques axés sur des transformées donnent en général un meilleur résultat lorsqu’il s’agit de musique, mais les codecs CELP offrent une qualité supérieure lorsqu’il s’agit de voix. WMA 9 Voice est un codec hybride unique en son genre qui a recours à un classificateur pour détecter la voix ou la musique et appliquer le mode de codage approprié à chaque segment. Lorsque le contenu multimédia est composé d’éléments vocaux et musicaux, le mode sélectionné dépend du type audio prédominant. Le codeur propose également un mode manuel pour permettre à l’utilisateur de sélectionner le mode de son choix pour un segment donné. Le mode de codage vocal repose sur un nouvel algorithme très élaboré. Le mode de codage musical a essentiellement recours aux transformées de WMA. Ce codec fournira une qualité optimale pour les deux types de contenu audio, tandis que les codecs décrits précédemment garantissent en général des résultats satisfaisants pour l’un ou l’autre type. WMA 9 Lossless Le dernier codec audio de Windows Media 9 est, d’un point de vue mathématique, un codec sans perte. Il rivalise avec d’autres codecs audio de ce niveau, comme Monkey Audio, et peut compresser toute sorte de sources audio, allant de la résolution et la fréquence d’échantillonnage d’un cédérom à des sources 7.1, 24bits et 96kHz. WMA 9 Lossless est intégré à Windows Media Player 9 (dans la fonctionnalité Figure 4 – Courbe rapport S/B de crête en fonction du débit binaire UER–REVUETECHNIQUE –SÉLECTION2003 de copie de cédéroms) et peut atteindre des ratios de compression d’environ 2:1 pour les contenus stéréo. Un clip audio multicanal haute résolution peut souvent être compressé sans perte avec des ratios plus élevés. Sélection des codecs audio Pour la radiodiffusion stéréo classique et les applications internet large bande, il est recommandé d’utiliser le codec WMA 9 standard. Si l’audio ou le film contient une piste haute résolution ou multicanal, il convient d’envisager l’utilisation de WMA 9 Professional. Les autres codecs audio sont également utiles, mais pour des applications plus spécifiques. Ainsi, WMA9 Voice est surtout indiqué pour les applications audio à faible débit (comme les modems et les connexions RNIS), et WMA9 Lossless est la solution pour l’archivage audio. WMV 9 Le codec Windows Media Video 9 est le codec le plus populaire de Windows Media9. Il repose sur une technologie permettant d’obtenir une vidéo compressée de qualité absolument remarquable, qu’il s’agisse de débits très faibles (160x120 à 10kb/s pour les applications utilisant un modem) ou très élevés (1920x1080 à 6-20Mb/s pour une vidéo haute définition). Ce codec prend en charge les cinq modes de codage CBR et VBR. WMV 9 garantit une amélioration de 15 à 50% de la compression par rapport à la version 8. Le résultat est en général meilleur lorsque le débit est plus élevé. Par exemple, la figure4 indique la corrélation entre la qualité, en termes de rapport S/B de crête, et le débit pour les codecs vidéo WMV9, WMV8 et MPEG-4 (ISO) de Microsoft (profil simple). La source était composée de 13 clips MPEG classiques (Stefan, Akiyo, Coastguard, News, Mobile & Calendar, etc.). Nous avons affecté une taille fixe au pas de quantification pour tous les codecs et appliqué la même stratégie 5 COMPRESSION AUDIO/ VIDÉO quant à la sélection du mode, comme c’est habituellement le cas pour les tests en rapport avec les normes MPEG et UIT. Bien que le rapport S/B de crête ne soit en aucun cas une mesure exacte de la qualité vidéo, on voit que les gains obtenus au niveau de la compression vidéo se traduisent également par des gains du rapport S/B de crête. L’efficacité de la compression de WMV9 permet d’obtenir une vidéo BT.601 de qualité radiodiffusion à environ 2Mb/s, et une vidéo haute définition d’excellente qualité (ex.: 720p) dans le cas de débits type DVD ou radiodiffusion élevés (ex.: 4 à 6Mb/s). Tous les formats de radiodiffusion sont pris en charge, y compris les variantes 720p et 1080i haute définition. Le codec inclut les outils de compression pour les formats entrelacés natifs. Ilprend en charge la structure d’échantillonnage 4:1:1, en plus de la 4:2:0, pour maintenir la séparation entre les champs pair et impair de la composante chroma dans le cas de vidéos entrelacées (la structure 4:2:0 mélange les valeurs de la chroma dans le deux champs). Comme différentes applications exigent des niveaux de complexité différents pour WMV, nous avons défini plusieurs profils et niveaux d’interopérabilité. Par exemple, le «profil simple au niveau inférieur» assure, au maximum, la prise en charge d’une résolution QCIF, 96kb/s et 15trames/s, et vise avant tout les dispositifs portables bas de gamme. Le «profil principal (MP) au niveau principal (ML)» est prévu pour les radiodiffusions à définition standard (équivalent fonctionnel du MP@ML de MPEG-2). Le «profil principal (MP) au niveau supérieur (HL)» est recommandé pour les applications haute définition (équivalent fonctionnel du MP@HL de MPEG-2). Les flux binaires de WMV9visant des applications plus pointues (ex.: radiodiffusions standard et haute définition) sont repris sous l’appellation «flux binaires de WMV 9 Professional». La qualité vidéo du dernier codec WMV9 n’a pas encore fait l’objet d’études indépendantes. Toutefois, des études de ce type ont démontré que des versions antérieures de ce codec étaient dotées de fonctionnalités de compression particulièrement efficaces. Par 6 exemple, WMV8 a été désigné meilleur codec vidéo par le magazine DV en raison de la qualité des résultats obtenus. En outre, les conclusions préliminaires des essais menés récemment par l’UER ont confirmé cette première place de WMV8. Comme pour les codecs audio, les avis en la matière sont aussi nombreux que les études réalisées. Il convient donc que les experts procèdent à leurs propres essais et tirent leurs propres conclusions. WMV 9 et compression vidéo Une question récurrente consiste à savoir si la compression WMV9 est plus efficace que celle régie par les normes MPEG-2 et MPEG-4, ou même la norme H.264 de plus en plus répandue. La réponse à cette question n’est guère facile, car les normes définissent uniquement la syntaxe des flux et la sémantique du décodeur. Parconséquent, différentes applications peuvent donner des résultats de qualité différente. Le même commentaire s’applique parfaitement à WM9 puisque nous pensons que les prochaines versions (rétrocompatibles) de l’encodeur, fabriquées par les fournisseurs de matériels, amélioreront sans doute l’efficacité de la compression de notre version actuelle. Cependant, afin d’établir certains critères comparatifs concernant la qualité, nous avons procédé à des essais internes en utilisant le codec vidéo d’un système bien connu, à savoir le Minerva C250 basé sur la norme MPEG-2, et le codec du tout récent QuickTime6 reposant sur la norme MPEG-4 (niveau de compatibilité le plus avancé correspondant au profil 1 de l’ISMA). Au cours de ces essais basés sur une seule et même configuration de codage, WMV9 a permis d’obtenir une qualité semblable à celle de MPEG-2 et MPEG-4 au tiers et à la moitié du débit respectivement2 . 2. Pour obtenir un disque DVD des données contenant le code source non compressé, les résultats du flux binaire et les instructions nécessaires à la reproduction de ces tests de manière indépendante, veuillez envoyer un message à [email protected]. Bien que les normes MPEG-2 et MPEG-4 puissent trouver de meilleures applications, ces gains de compression considérables indiquent que WMV9 présente un avantage qualitatif significatif (économie de largeur de bande) sur les codecs compatibles. En effet, des études indépendantes récentes ont conclu que l’efficacité de la compression d’une des premières versions (pré-bêta) de WMV9 et même de WMV8 était supérieure à celle obtenue à l’aide d’outils basés sur les normes MPEG-2 ou MPEG-4. H.264 est une norme de compression vidéo de l’UIT et de l’ISO qui devrait être finalisée au mois de mai 2003. Comme le processus d’interopérabilité se poursuit pendant des mois une fois la norme adoptée, un certain temps sera encore nécessaire avant que des produits compétitifs, compatibles avec cette norme, fassent leur apparition sur le marché. Il est donc prématuré de tirer des conclusions définitives sur les différences de qualité entre les normes H.264 et WMV9. Comme le codec de référence, axé sur l’optimisation débitdistorsion et mis au point par la Joint Video Team de l’UIT/ISO est censé fournir une excellente qualité, certaines sociétés ont déjà effectué leurs premiers tests. Ainsi, une étude assez complète, réalisée il y a plusieurs mois, a conclu que la qualité vidéo basée sur les normes H.264 et WMV9 était similaire, mais chacun des codecs a depuis lors fait l’objet d’améliorations. La norme H.264 présente le désavantage de la complexité de calcul du codage et du décodage. Certaines études indiquent par exemple que pour bénéficier des avantages de la compression, la complexité du calcul doit être supérieure d’un ordre de grandeur à celle du profil simple de MPEG-4. En outre, elles montrent que la complexité du décodeur H.264 (profil principal) est trois fois supérieure à celle de MPEG-4 (profil simple). Par ailleurs, la complexité du décodage du profil principal de WMV9 est assez semblable à celle de notre codec (profil simple) MPEG-4 (optimisé MMX). Plus concrètement, le décodage avec WMV9 n’est que 1,4 fois plus lent, processus aisément vérifiable en utilisant les deux codecs dans Windows Media Player (ou d’autres décodeurs MPEG-4 au niveau du profil simple). Bien qu’il convienne d’éviter toute comparaison hâtive sur des ques- UER–REVUETECHNIQUE –SÉLECTION2003 COMPRESSION AUDIO/VIDÉO tions aussi complexes, cette information indique que la complexité du décodage H.264 pourrait être deux fois supérieure à celle du codec WMV9, ou à tout le moins que WMV9 présente, par rapport à H.264, un avantage certain au niveau du calcul du décodage. Lissage vidéo Une nouvelle fonctionnalité de WMV permet d’interpoler les trames manquantes après le décodage. Cette fonctionnalité de lissage (video smoothing) de Windows Media 9 Series, est communément appelée interpolation de trames dans le document. L’algorithme d’interpolation utilise une technique très poussée d’évaluation du flux optique (au niveau du pixel) et de projection pour synthétiser de nouvelles trames. La figure5 illustre ce processus. Cette fonctionnalité requiert un usage intensif de l’unité centrale et s’amorce uniquement lorsque les cycles de l’unité centrale sont suffisants. Par exemple, un utilisateur doit en général disposer d’un système équipé d’un processeur d’une puissance supérieure ou égale à 733MHz pour interpoler un clip vidéo sur la base d’une résolution de 320 x 240 pixels, de 10 à 30t/s. Cette fonctionnalité s’avère particulièrement utile à de très faibles débits, lorsque la fréquence pleine trame est difficile à obtenir lors du codage et que les artefacts de la compression à faible débit masquent les erreurs d’interpolation occasionnelles. Le lissage supprime les effets de saccade inhérents à la vidéo à faible débit et, par conséquent, améliore la qualité vidéo. Autre possibilité: un fournisseur de contenu peut sciemment coder un clip vidéo en utilisant une fréquence de trames (ex.: 12,5t/s) et un débit binaire plus faibles, de manière à laisser à la fonction de lissage le soin de rééchantillonner au niveau du décodeur (ex.: jusqu’à 25t/s). efficace pour la compression vidéo d’écrans d’ordinateur. Ce codec est utilisé pour capturer des applications affichées sur le bureau d’un ordinateur afin de créer du matériel de démonstration. La totalité du bureau peut être codée et transmise à de très faibles débits pouvant atteindre 28kb/s, sauf si la capture porte sur des images naturelles incorporées à l’application de bureau, auquel cas le débit binaire requis se situe en général aux environs de 100kb/s. Cette nouvelle version du codec améliore à la fois la qualité de l’image et l’utilisation de l’unité centrale, par rapport aux précédentes, lorsqu’il y a du mouvement et des images naturelles. Elle prend en charge le mode de codage à débit binaire constant (CBR) en une passe et le mode de codage à débit binaire variable (VBR) en une passe. Une version ultérieure prendra en charge une fonctionnalité de compensation du mouvement pour gérer les vidéos incorporées sur le bureau. WMV 9 Image Windows Media Video 9 Image est le dernier des nouveaux codec de Windows Media 9 Series. Ce codec permet à un utilisateur de combiner un ensemble d’images fixes pour créer un clip vidéo en utilisant l’affaiblissement, le panoramique, le zoom ainsi que d’autres effets. Cette technique de compression est en quelque sorte un codec vidéo dans lequel les trames I du flux binaire sont suivies d’un ensemble d’instructions relatives aux mouvements et aux transitions pour chaque trame (au lieu de données sur les trames P). Sélection des codecs vidéo Dans la grande majorité des cas, y compris les applications en radiodiffusion, le codec WMV9 est le meilleur choix. Les codecs WMV9 Screen et WMV9 Image sont utilisés dans des situations plus spécifiques (mais non moins intéressantes) lorsque, par exemple, l’utilisateur souhaite compresser la vidéo d’un écran d’ordinateur ou créer un clip vidéo à partir d’un ensemble d’images fixes. L’univers WM Windows Media a occupé des créneaux sur le marché des dispositifs électroniques personnels lorsque le flux WMA a été gelé il y a plus de quatre ans. Cette syntaxe figée a incité de nombreuses sociétés à intégrer WMA à leurs produits. Il existe actuellement plus de 170 types de dispositifs électroniques personnels (lecteurs DVD, lecteurs de cédérom, assistants personnels comme PocketPC, baladeurs, autoradios, etc.) qui prennent en charge WMA. La technologie des codecs vidéo a fait l’objet d’améliorations considérables au cours des dernières années. Bien que de nouveaux algorithmes permettent d’envisager un accroissement des performances actuelles, le coût sera très élevé sur le plan de la puissance de calcul. Par conséquent, nous pensons que cette évolution ne trouvera aucune application commerciale viable au cours des cinq prochaines années, voire plus. Le flux binaire de WMV sera donc gelé pour la première fois dans la version9 WMV 9 Screen Le codec Windows Media Video (WMV) 9 Screen annonce la prochaine génération d’un moteur extrêmement UER–REVUETECHNIQUE –SÉLECTION2003 Figure 5 – Le lissage vidéo fait appel à une interpolation de trames 7 COMPRESSION AUDIO/ VIDÉO et les versions ultérieures de WMV seront rétrocompatibles. La procédure consistant à geler le flux binaire de WMV 9 a été gérée avec un soin tout particulier, en tenant compte des informations fournies par les fabricants de processeurs. L’objectif consistait à obtenir la meilleure qualité possible avec une configuration matérielle minimale. Les algorithmes qui permettaient des améliorations négligeables, mais exigeaient un effort considérable du système, ont été revus ou abandonnés. Par conséquent, l’équilibre obtenu entre la qualité et les exigences de la configuration dans le cas de WMV 9 est tout à fait remarquable. Au niveau logiciel pur, WMV 9 permet de décoder et de restituer en temps réel un contenu à 1080p sur un système performant (ex.: processeur à 2,8GHz) sans recourir à un accélérateur. Toutefois, nous travaillons en étroite collaboration avec ATO et NVIDIA pour intégrer le décodage WMV à leurs cartes graphiques par le biais de Microsoft DirectX® Video Acceleration, qui devrait garantir une lecture fiable de tous les contenus, quel que soit le débit et le type de système. Quiconque connaît mal les dispositifs de lecture Windows Media est en général convaincu que ces technologies doivent être impérativement mises en œuvre sur les systèmes tournant sous Microsoft Windows® . En réalité, Windows Media est un format multimédia numérique à vocation générique, c’est-à-dire compatible avec n’importe quels plate-forme ou système d’exploitation. L’exploitation sous licence des différents composants de Windows Media est très répandue. Ces derniers peuvent être adaptés, grâce aux Windows Media Porting Kits (qui fournissent les spécifications et le code source ANSIC), à des dispositifs non-OS, à des cartes graphiques, à Linux, à Mac, etc. En outre, la spécification et la licence pour le conteneur ASF (Advanced System Format) de Windows Media, sont libres et à la disposition de tous, et des organisations telles que le consortium Secure Digital (SD) ont adopté les composants Windows Media (dans ce cas ASF et WMA) dans leurs spécifications. 8 Par conséquent, beaucoup de sociétés et détenteurs de licences se font concurrence pour proposer au public des processeurs et des solutions OEM de meilleure qualité et à un meilleur prix, solutions qui prennent en charge Windows Media sur une variété de platesformes. Par exemple, plus de 60 sociétés titulaires de licences ont adapté WMA à leurs processeurs et leurs dispositifs électroniques au cours des dernières années. Plus récemment, plus de 40 sociétés ont acquis une licence sur les kits de portage WMV, et certains prototypes de processeurs et boîtiers de décodage utilisant le codec WMV 9 ont déjà été présentés. Parmi les sociétés qui exploitent WMA et WMV sous licence et l’ont publiquement annoncé, citons ARM, ATI, Cirrus Logic, Equator, ESS Technology, LSI Logic, MEI, Tandberg Television, Texas Instruments, ST Microelectronics et Zoran. Certains des systèmes ont été présentés à l’IBC de 2002, y compris un circuit d’Equator lisant un WMV 720p haute définition. Le circuit d’Equator sera utilisée dans des boîtiers de décodage fabriqués par Pace Micro Technology et d’autres sociétés. Applications broadcast Certaines normes, comme la norme DVB, permettent d’intégrer de nouvelles technologies, de fournir de nouveaux services et d’accroître les revenus. Dans la section des données privées du flux de transport de MPEG-2, il est facile d’encapsuler les données IP (par exemple, les données audio et vidéo compressées avec les codecs de Windows Media) comme l’illustre la figure6. Ces données peuvent alors être transmises par le signal DVB standard. Windows Media commence à être utilisé pour des applications en radiodiffusion par DVB. Nous aborderons ici deux exemples récents. La figure7 illustre le premier exemple. NTL Broadcast and Tandberg Television a développé un système DVB pour diffuser des informations des domaines sportifs (Eurosport) et journalistiques (ITN), compressés avec Windows Media 9 Series. Plusieurs jours ont été consacrés à la présentation de ce système à l’IBC de 2002. Figure 6 – Séquences Windows Media 9 compressées par DVB Figure 7 – Diffusion Windows Media DVB lors de l’IBC UER–REVUETECHNIQUE –SÉLECTION2003 COMPRESSION AUDIO/VIDÉO Jordi Ribas-Corbera est ingénieur en télécommunications de l’Escola d'Enginyeria La Salle (Barcelone) et titulaire d’un M.Sc. en génie électrique de l’université de Californie (Irvine). En 1996, il a été reçu docteur (Ph.D.) en génie électrique (option systèmes) à l’université du Michigan (Ann Arbor). Depuis février 2000, il travaille chez Microsoft où il dirige l’équipe traitement du signal et codec à la division médias numériques. L’équipe a mis au point de nombreux dispositifs de compression et de traitement du signal pour Windows Media notamment les codecs Windows Media Audio (WMA) et Windows Media Video (WMV) qui font partie du lecteur Windows Media et d’autres dispositifs électroniques commerciaux. A l’été 1994, il avait travaillé au NTT Human Interface Labs de Yokosuka (Japon) dans le laboratoire traitement vidéo évolué et, de 1996 à 2000 au Sharp Labs of America à Camas (État de Washington, USA) où il a poursuivi des recherches sur la compression des données et l’optimisation des performances du codage des produits Sharp. Jordi Ribas-Corbera a participé au développement de normes, notamment ISO/MPEG-4, UIT-T/H.263+ et UIT-T/H.264. Ses recherches portent sur le traitement des images et la théorie de l’information, particulièrement sur la compression des données. Il a présenté de nombreuses communications sur les normes, dans des revues techniques sélectives, lors de conférences et dans des revues académiques et s’est exprimé lors de nombreux séminaires et conférences notamment aux Cable Labs, à l’UER, la NAB et la SMPTE Jordi Ribas-Corbera est lauréat 1997 du Young Investigator Award de l’IS&T/SPIE International Conference on Visual Communications and Image Processing, et lauréat 1999 du Sharp Labs President's Award. Il a déposé cinq brevets et d’autres sont encore en route. Les signaux de British Eurosport étaient émis du Digital Media Centre de NTL près de Londres et les contenus multimédias étaient codés en direct à l’aide d’un prototype de l’encodeur Windows Media 9 Series (prenant en charge WMA 9 et WMV 9) conçu par Tandberg Television. Les données des services d’information d’ITN étaient transmises, via un logiciel de détection de mise à jour de Gee Broadcast, à un transcodeur Tandberg Television Format qui compressait également les clips dans Windows Media. Les fichiers codés étaient ensuite transmis au téléport satellitaire de Crawley Court, situé au sud-ouest de Londres, dans le système store and forward (stockage et acheminement) de NTL Broadcast. Les deux types de flux de données Windows Media ont été encapsulés IP par un SMR (Source Media Router) de SkyStream et transmis à un multiplexeur compatible avec la norme DVB. Ils ont ensuite été transmis via satellite (DVB-S) à Amsterdam et, de là, par voie terrestre (DVB-T), à des véhicules en mouvement dans la zone géographique de l’IBC. Ces véhicules assuraient le transport des participants entre le site de la convention et le centre-ville, et étaient équipés d’ordinateurs utilisant des décodeurs Windows Media connectés à un moniteur. Le UER–REVUETECHNIQUE –SÉLECTION2003 système a été mis en place par NTL Broadcast. Ce projet a démontré la possibilité d’utiliser l’infrastructure DVB standard pour des transmissions télévisées mobiles avec Windows Media 9 Series. Un autre exemple intéressant est le système de films à la demande déployé par LuxSat International dans plusieurs pays. Les films sont codés à l’aide de Windows Media 9 Series et diffusés par IP datacasting via DVB-S sur un ordinateur personnel. L’utilisateur a le choix entre une centaine de films qui sont rafraîchis une fois par jour selon le principe du «premier entré, premier sorti». La vocation de Windows Media 9 Series consiste à transmettre des contenus multimédias numériques sur n’importe quel réseau, à destination de n’importe quel dispositif électronique. Les solutions et les services sont proposés par une multitude de sociétés qui, soit utilisent les composants de base de Windows Media 9 Series (Windows Media Encoder pour la création, Windows Media Services pour la distribution, Windows Media DRM pour la protection légale des contenus et Windows Media Player pour la lecture), soit fabriquent leurs propres composants qu’ils intègrent par la suite, avec les kits de portage de Windows Media dans le cas de matériels ou par les SDK dans le cas de logiciels. Windows Media 9 Series propose, pour des applications variées, un éventail de codecs audio et vidéo à la pointe de la technologie. Les codecs WMA 9 et WMV 9 garantissent une bonne qualité pour les applications en radiodiffusion lorsque la largeur de bande est relativement faible. Par exemple, il est possible de parvenir à une qualité définition standard à un débit de 2 Mb/s et haute définition à des débits de type DVD ou largeur de bande élevée. Le nouveau codec WMA9 Professional permet de coder des pistes audio haute résolution ou multicanal à un débit initial d’à peine 128kb/s. Windows Media 9 Series gagne du terrain chez les fabricants de matériel électronique de consommation courante. Les programmes de concession de licences, à la fois libres et massifs, ont incité de nombreuses sociétés à intégrer la technologie Windows Media à de nombreux dispositifs électroniques sur des plates-formes multiples. Enfin, de nouveaux créneaux voient le jour dans l’industrie de la radiodiffusion compte tenu des nouveaux services qui peuvent être proposés grâce à Windows Media 9 Series et aux normes DVB. 9 COMPRESSION AUDIO/ VIDÉO Bibliographie [1] Site officiel de Windows Media: http://www.microsoft.com/windows/windowsmedia/default.asp [2] Site de Windows Media pour l’électronique de loisir: http://www.microsoft.com/windows/windowsmedia/conselec.asp [3] Site officiel l’association SD: http://www.sdcard.org/ [4] Site des formats HighMAT et DVD : http://www.microsoft.com/windows/windowsmedia/Consumelectronics/highmat.asp [5] Video on the move, IBC Daily, samedi 14 septembre 2002, p. 1 (version électronique sous IBC Daily News, http://www.ibc.org). [6] Site des partenaires de Windows Media: http://www.microsoft.com/ windows/windowsmedia/partner.asp [7] David Ranada: Facing the codec challenge Sound & Vision, pp. 98-100, juillet 2002. [8] BPN 049: The EBU Subjective Listening Tests on Low Bit-rate Audio Codecs UER, septembre 2002. [9] Ben Waggoner: Web video codecs compared DV Magazine, novembre 2001. [10] Geir Ove Rapp: principaux résultats et conclusions du groupe de l’UER B/VIM EBU specialized meeting on Audio/ Video Coding Technologies, 5-6 septembre 2002. [11] J. Bennet et A. Bock: Comparison of MPEG and Windows Media Video and Audio Encoding White Paper, Tandberg Television, 10 septembre, 2002. [12] R.Schäfer, T.Wiegand et H.Schwarz: H.264/AVC – La norme qui monte UER–Revue technique, sélection 2003. (disponible par ftp sur ftp:// ftp.imtc-files.org/jvt-experts/). [14] DocumentJVT-D153 (M.Ravassi, M.Mattavelli and C.Clerc): JVT/ H.26L decoder complexity analysis Joint Video Team of ISO/IEC MPEG & ITU-T VCEG, Klagenfurt, Autriche, 22-26 juillet 2002 (disponible par ftp sur ftp:// ftp.imtc-files.org/jvt-experts/). [15] J.Ribas-Corbera et J.Sklansky: Interframe interpolation of cinematic sequences Journal of Visual Communication and image representation, Vol.4, No.4, Dec 1993, pp.392-406. [16] Specification and licence for Windows Media file format (ASF): http://www.microsoft.com/ windows/windowsmedia/WM7/format/asfspec11300e.asp [13] DocumentJVT-D15: Joint Model number 3 Joint Video Team of ISO/IEC, MPEG and ITU-T VCEG, Klagenfurt, Autriche, 22-26 juillet 2002 L’auteur remercie ses collègues de la Microsoft Windows Digital Media Division pour leurs contributions, leurs commentaires et leurs suggestions dans le cadre de la rédaction de cet article. Il adresse notamment ses remerciements à Jon Billings, Jim Beveridge, Terrence Dorsey, Tricia Gill, Pat Griffis, Paul Johnson, Rich Lappenbusch, Dr Bruce Lin, Dr Ming-Chieh Lee, Amir Majidimehr, Steve Sklepowich et Dr Wei-ge Chen. En outre, l’auteur tient à témoigner sa gratitude à tous ceux qui, au sein d’autres sociétés, ont contribué à la réalisation de ce document. © UER Publié en anglais en janvier 2003 10 UER–REVUETECHNIQUE –SÉLECTION2003