Les incontournables secrets de la fabrication du Dolby E …

Transcription

Les incontournables secrets de la fabrication du Dolby E …
Les incontournables secrets de la fabrication du Dolby E…
L’avènement de la TNT et surtout de la HD ont conduit le son à prendre le pas de l’image.
L’évolution à prévoir était le multicanal 5.1, déjà pratiqué au cinéma depuis une quinzaine
d’années, mais pas encore en télévision.
par Anaïs Libolt
Intro
En TV numérique, le format de diffusion sonore le plus utilisé est le Dolby Digital, mais il ne permet
ni la production ni la contribution. Dolby s’est donc penché sur le sujet et n’a pas manqué
d’inventer le fameux Dolby E, d’autant plus célèbre qu’il n’est pas aisément abordable ! Après une
brève présentation de la technologie et de ses non moins célèbres métadonnées, nous verrons
quelle utilisation en est faite actuellement en France et quels sont les problèmes qui se posent.
Nous aborderons également l’aspect pratique d’un encodage et verrons quelles précautions
doivent être prises pour éviter le scénario catastrophe.
Présentation
Le Dolby E permet de coder jusqu’à 8 canaux audio sur une paire AES-3 ou sur deux pistes audio
d’une cassette vidéo numérique. L’adjonction de métadonnées offre la possibilité de contrôler
l’encodage en Dolby Digital, autant que la reproduction du programme chez le spectateur.
L’ensemble présente un débit allant jusqu’à 2300 kbps. La postproduction reste possible sur le flux
codé, grâce à des fonctionnalités prévues à
cet effet. Ce format (utilisé uniquement
dans le domaine professionnel) est donc
destiné en majorité à véhiculer du son
multicanal (par exemple le 5.1 et la stéréo
associée). Cependant, la présence de
métadonnées alourdit le procédé tout en
permettant de maîtriser l’audio sur toute la
chaîne...
Figure 1 : Principe de l'encodage en Dolby E
Les 3D...
Le Dialogue Level repose sur la mesure de loudness qui n’est autre qu’une mesure du niveau
sonore perçu par un auditeur. Les appareils Dolby (LM100, DP570) utilisent la pondération Leq(A)
donc les mesures effectuées s’expriment en dBFS Leq(A) (pour le numérique). Plus
spécifiquement, le Dialogue Level correspond au niveau moyen du dialogue sur un programme.
C’est donc une mesure de loudness ciblée sur les éléments les plus porteurs de sens (la plupart
du temps le dialogue).
L’opération de normalisation de dialogue
consiste à appliquer une atténuation au
programme pour qu’il soit reproduit au niveau
normalisé de - 31 dBFS. [Cette valeur a été
déterminée par Dolby comme étant la valeur de
Dialogue Level pour les films à très grande
dynamique. Toute une gamme de programme
peut donc ainsi entrer dans ce gabarit.] Ainsi,
en changeant de chaîne le spectateur n’aura
pas besoin de saisir sa télécommande car la
normalisation du dialogue agit comme un
Figure 2 : Application du Dialogue Level
contrôle automatique du volume. Quelque soit son niveau de dialogue à l’entrée, un programme
ressortira avec un niveau de dialogue normalisé à -31 dBFS.
En TV numérique, la dynamique peut
être
très
grande
comparée
à
l’analogique, mais elle doit pouvoir être
restituée sur tous les systèmes
d’écoute. Pour cela, des informations
sont véhiculées dans les métadonnées
afin de pouvoir agir sur l’audio de façon
paramétrable à la fois par le producteur
du programme et par l’auditeur. Ce sont
les valeurs du Dynamic Range Control
(DRC) qui sont incluses dans le flux AC3 pour gérer tous les problèmes de
compression. Six profils de compression
prédéfinis permettent de traiter diverses
natures de programmes. Chacun
s’appuie sur la valeur de Dialogue Level
pour définir les zones de compression
de part et d’autre du dialogue.
Figure 3 : Structure des profils du Dynamic Range Control
Les décodeurs grand public fonctionnent suivant deux modes opératoires : le Line Mode et le RF
Mode. Le Line Mode alimente les sorties au niveau ligne par l’audio décodé en canaux discrets (2
à 6 canaux). Le spectateur peut choisir (suivant le décodeur dont il dispose) une compression plus
ou moins importante. Lorsqu’il n’y a que 2 sorties analogiques, la compression est obligatoire (cf
paragraphe suivant). Le RF Mode
alimente principalement la sortie RF
(antenne) qui peut être reliée à un
téléviseur. Le décodeur amplifie le
signal de 11 dB et donc la
compression est obligatoire pour
éviter l’écrêtage. Le RF Mode est
rarement disponible à ce jour sur les
terminaux en Europe. Cependant, il
ne faut pas le négliger car le
décodeur s’en sert pour effectuer les
réductions mono ou pour passer en
Midnight Mode (mode à dynamique
très restreinte).
Figure 4 : Niveaux de sortie et gestion
de la compression suivant le mode
opératoire dans les décodeurs Dolby
Digital
Le décodeur Dolby Digital doit être capable de fournir un mixage adapté à tous les systèmes
d’écoute. La fonctionnalité du Downmixing lui permet de générer deux réductions stéréo (Lt/Rt et
Lo/Ro) et une réduction mono. Il peut également simuler un système d’écoute particulier par des
Listening Modes (Surround (4 canaux), 3 HP frontaux, centre fantôme).
Figure 5 : Sélecteur d'écoute pour les Downmix sur la
télécommande du DP570 (Multichannel Audio Tool)
Plusieurs paramètres des métadonnées permettent
de régler les niveaux de mixage du centre et des
arrières dans les réductions stéréo Lo/Ro et Lt/Rt.
Soulignons que dans ces réductions, le canal LFE
n’est pas utilisé et que la compression s’applique
systématiquement pour éviter l’écrêtage. L’opérateur
pourra indiquer dans les métadonnées quel est le
Downmix préféré afin que le spectateur en bénéficie
en priorité. Pour les PAD, c’est le Lt/Rt qui est
demandé afin de permettre un décodage Surround.
Utilisation du Dolby E
A ce jour en Europe, le Dolby E est utilisé principalement en transmissions de contribution
(captation, postproduction). Il cohabite avec le PCM (son non compressé) sur les PAD-HD, soit sur
la deuxième paire AES, soit sur les paires AES 3 et 4 (suivant le nombre de version disponibles). Il
n’est pas systématiquement synonyme de 5.1 et transporte bien souvent du 2.0 en attendant une
plus ample expansion du multicanal ! Parfois, ce 2.0 subit un Upmix afin d’être encodé en 5.1 et de
nourrir les 6 enceintes des Home Theatre… Quoiqu’il en soit, la LED indiquant la présence de
Dolby Digital s’allumera chez le consommateur. Cette technologie « envahit » donc tous ceux qui
veulent produire ou diffuser en 5.1, imposant ses facilités comme ses difficultés… J’ai nommé : les
métadonnées.
La principale difficulté du Dolby E se situe donc au niveau de sa complexité. Son utilisation dès la
production pose des contraintes techniques qui s’apparentent au transport d’un signal vidéo et
requière des compétences particulières. Le renseignement des métadonnées nécessite de la
précision et ne peut pas relever de l’automatisme. Il n’y a pas de recette toute prête ou « Comment
réussir un bon encodage en un tour de main » ! Il y a donc un besoin de formation au niveau du
personnel autant chez les fournisseurs que chez les diffuseurs. Seulement, pour des personnes
qui ne sont pas habituées à ce genre de concept et qui doivent assimiler le fonctionnement du
Dolby E, quelques jours de formation ne sont pas du tout suffisants (pour personne d’ailleurs). Il en
résulte une grande incompréhension face à la technologie en elle-même, mais également entre les
différents intervenants.
L’aspect très technique et on peut même dire « rébarbatif » de la mise en œuvre du Dolby E le
place à mille lieues des préoccupations artistiques des ingénieurs du son. Réaliser que des
données informatiques correspondent à du son ne se fait pas de prime abord. De ce fait, tout le
monde conserve ses anciennes habitudes de mixage, ce qui ne facilite pas les mesures de
Dialogue Level. Il est à prévoir qu’après quelques expériences malheureuses, beaucoup prendront
conscience de l’effet des métadonnées et prendront en charge l’encodage afin d’assurer la bonne
restitution de leur travail ! En attendant, beaucoup d’erreurs se glissent dans les rangs, dues à une
mauvaise méthodologie de mesure ou à des incompréhensions. Cela ne simplifie pas la tâche des
vérificateurs qui peuvent parfois avoir des difficultés à trancher sur la validité d’un paramètre. Il est
donc très important de rédiger des recommandations claires et précises. De la même façon, tous
les fournisseurs devraient rédiger une fiche de bande comportant toutes les informations aidant à
la vérification des PAD. Cela éviterait de nombreux malentendus et de malencontreuses
négligences.
Sur un plan plus technique, le Dolby E pose des problèmes de synchronisation entre l’image et le
son. L’encodage et le décodage prennent tous deux le temps d’une image, et à la limite ce n’est
qu’une goutte d’eau dans l’océan de la HD. Ce que l’on appelle « phasing » est un problème
d’alignement des trames du Dolby E avec les images de la vidéo afin de permettre l’édition du flux
(entre autres). En effet, chaque trame doit correspondre à une image vidéo afin que l’on puisse
monter deux flux ensemble. Si une trame est coupée en deux, elle n’est plus décodable. Lors de
l’hébergement du Dolby E dans l’AES-3, il faut prendre soin de placer la trame à la bonne ligne du
signal vidéo (valeurs définies par Dolby selon le format utilisé). Sinon, lors d’un cut le flux Dolby E
sera corrompu. Il existe des outils permettant de contrôler ce paramètre (DM100…), mais il n’y en
a pas encore permettant de connaître la place du Dolby E dans un signal HD-SDI du fait du temps
de latence des démultiplexeurs. Et très peu de multiplexeurs le font correctement !
Figure 6 : La position idéale de la trame Dolby E dans le signal AES3
Cela peut donc rendre le Dolby E indécodable. Les problèmes de lypsync sont quantifiés en
images de décalage et sont liés à l’ensemble des retards induits par le codage, décodage et tous
les temps de traitement des appareils de plus en plus nombreux en amont de la diffusion. Il est
très difficile de compenser précisément tous ces retards qui s’accumulent sur l’image et le son.
Mais le cas le plus critique est celui du matériel non compatible Dolby E, c'est-à-dire le matériel qui
ne restitue pas à la sortie bit pour bit le même signal qu’en entrée. Tous les équipements
appliquant au signal un traitement (changement de gain, égalisation, effets…) qui se ferait sur de
l’audio en PCM modifient la valeur des échantillons et corrompent le flux Dolby E. Les
embedder/desembedder SD doivent être mis en mode DATA afin de ne pas endommager l’AES.
L’utilisation de cette technologie nécessite donc un renouvellement partiel du parc de matériel afin
de pouvoir transporter le signal sans risque. Dolby a mis en place des partenariats avec de
nombreux constructeurs qui s’engagent à proposer un matériel compatible, c’est le Dolby Partner.
Soulignons également que les écrans LCD induisent un retard supplémentaire à l’affichage de
l’image et ne facilitent pas la vérification de la synchro image / son !
Et pour le spectateur…
Sur la TNT, le 5.1 est loin d’être toujours au Rendez-vous. Sur les chaînes en HD, on a au moins
toujours un flux Dolby Digital, mais pas toujours en 5.1. Bien sûr, le multicanal en télévision est
assez jeune dans notre pays et devrait prendre rapidement de l’expansion. Cependant, les choses
se complexifient pour les terminaux (set top box) des particuliers qui doivent être compatibles
Dolby Digital, puis HD… Entre les petits adaptateurs TNT et les décodeurs fournis par les
opérateurs privés, il y a un monde de non-standardisation ! Il est difficile de prévoir de façon
précise ce que le spectateur va voir/entendre. Les options de compression et de downmixing sont
rarement les mêmes et ne portent pas le même nom selon les constructeurs. Les set top boxes qui
extraient le Dolby Digital ne proposent que rarement le RF Mode et on constate ainsi en France de
très gros décalages de niveaux sur la TNT, le satellite et la TV analogique, allant au-delà de 15
dBFS LeqA ! Vous l’avez d’ailleurs très certainement déjà remarqué… La première cause de ce
désagrément est l’alignement du Dialogue Level à -31 dBFS en sortie ligne des décodeurs Dolby
Digital. La seconde est que sur le câble, le satellite, l’ADSL et la TNT, l’audio est diffusé avec un
niveau de référence à - 12 dBFS au lieu de - 18 dBFS (particularité française due au Rapport
Signal à Bruit des prises Péritel) ! L’écart se creuse donc de façon très critique. Il devient
extrêmement urgent de remédier à ce problème, et c’est ce à quoi travaillent plusieurs groupes de
travail, notamment au sein du HD-Forum.
Le Dolby E en pratique
Importance d’une méthode commune
Tout d’abord, la métadonnée la plus célèbre (et pour cause !) est le Dialogue Level. Qui dit
Dialogue Level dit mesure de loudness et c’est là que se trouve la difficulté. Déjà, s’il est question
de mesure, il est aussi question de méthode de mesure et d’interprétation de ces mesures. Or,
avec un même programme et un matériel de mesure assez similaire on peut obtenir de telles
différences qu’il devient impossible de faire un compromis. Pour être certains d’obtenir ce qu’ils
souhaitent, les diffuseurs doivent donc établir des recommandations très précises. Et si ces
recommandations sont communes à tous les diffuseurs, c’est encore mieux car cela évite la
confusion dans les laboratoires. Plusieurs méthodes sont possibles pour mesurer un Dialogue
Level, mais celle qui est retenue par de nombreux diffuseurs est une mesure effectuée sur tous les
canaux et sur l’intégralité du programme utile. On entend par programme utile ce qui est utile à la
compréhension, donc en général le dialogue. Il faut alors sélectionner des passages de dialogue
représentatifs de l’ensemble des dialogues du film, afin d’en déterminer le niveau moyen. Dans un
mixage 5.1, les dialogues se trouvent dans le canal central. On pourrait donc penser à effectuer la
mesure uniquement sur le centre. Cependant, il est préférable de mesurer tous les canaux pour
harmoniser la pratique avec la mesure de la stéréo ou d’autres programmes qui ne sont pas
formatés cinéma.
Nous avons vu plus haut que la
compression se base sur la
mesure de Dialogue Level. Donc
si la valeur renseignée est
fausse, le profil de compression
ne s’applique pas aux bons
éléments
du
mixage.
La
première conséquence (surtout
pour
les
profils
dits
« standards »), est que les voix
sont
touchées
par
le
compresseur. De la même
façon, le bruit de fond et le
rumble sont remontés de façon
imprévue alors que les effets
sont
trop
retenus,
voire
censurés. Il en résulte un
déséquilibre du mixage qui peut
devenir très désagréable.
Figure 7 : La télécommande du Multichannel Audio Tool DP570 (version officielle en vigueur)
Figure 8 : L'application du DRC lors d'un renseignement erroné de la valeur de Dialogue Level
De plus, il est normal et même indispensable de réduire la dynamique pour adapter le mixage à un
environnement domestique, mais il également souhaitable de faciliter le travail du compresseur
Dolby qui rappelons-le, n’est pas un compresseur multi-bande mais la simple application de ratios
entre l’entrée et la sortie. Si on souhaite que le résultat soit correct, il ne faut pas encoder des
dynamiques trop importantes (typiquement mixage 5.1 pour la salle) car le DRC risque de ne pas
travailler très élégamment !
Le plus important dans le choix d’un Dialogue Level, est que le programme raccorde avec les
autres. Mais on constate alors que le Dialogue Level trouvé n’est pas toujours celui qui permet de
raccorder avec les autres (surtout en musique) ! Cela vient généralement de la dynamique et du
poids qui est donné au mixage. C’est pour cela que les chaînes demandent un Dialogue Level à
-27 dB +/- 4 (donc entre -31 et -23) car elles considèrent qu’un mixage effectué correctement pour
la TV se situe dans cette fourchette. Effectivement, si on veut que l’antenne reste homogène, il
faut maintenir une certaine normalisation dans les mixages. Il est donc dans l’intérêt de tous de
faire entrer la valeur de Dialogue Level dans cette fourchette.
Et en direct…
Le renseignement des métadonnées semblant découler d’une mûre réflexion, on peut se
demander comment cela se passe dans une situation de direct… S’il s’agit d’une contribution,
l’audio sera décodé, remanié et réencodé avec de nouvelles métadonnées. Comme le mixeur a
déjà certaines habitudes de mixage, il peut présumer d’une valeur de Dialogue Level et tout faire
pour s’y tenir. Il aura également fait des essais auparavant pour déterminer les autres paramètres.
Les plus délicats sont ceux qui concernent les Downmix car il est difficile pour l’ingénieur du son
d’écouter simultanément le Downmix et de modifier son mixage en 5.1 pour qu’il s’adapte aux
réglages du downmixing… Par conséquent, l’encodage Dolby E lors d’une diffusion en direct
relève de la haute voltige car il faut à la fois maîtriser les sources externes, les paramètres des
métadonnées et s’y tenir (peu de changement possible en cours de route). Cela demande donc
une certaine expérience avant de trouver les réglages adaptés. Comme tout le monde est en
phase d’apprentissage, on comprendra aisément qu’il y ait encore quelques ratés…
Quelques recommandations
Les choix des paramètres des métadonnées ne sont pas toujours compréhensibles de prime
abord. Par conséquent, si d’autres personnes sont amenées à vérifier ou à remanier les
métadonnées que vous avez encodées, pensez toujours à remplir une fiche de bande ou un
quelconque autre document leur permettant de comprendre et de valider vos choix. Parfois, on est
forcés de faire un compromis et toutes les raisons menant à cette décision ne seront pas d’emblée
perçues par les personnes en aval; afin d’éviter les refus ou une double charge de travail, il est
indispensable de les informer. De plus, cela peut également être utile pour soi, pour établir sa
propre méthodologie.
En choisissant une valeur de Dialogue Level, gardez présent à l’esprit qu’elle a pour mission de
faire raccorder le programme avec son entourage sonore. D’une part, avec les autres programmes
en Dolby Digital, donc elle sera la plus objective possible. D’autre part, avec les autres
programmes en MPEG stéréo. Bien sûr, tant que le problème n’aura pas été résolu par les
diffuseurs, l’écart de loudness continuera à persister. Cependant, en choisissant un Dialogue Level
qui entre dans la fourchette demandée (-27 +/- 4 dB), on a plus de chance de conserver un
loudness homogène sur l’ensemble des programmes. Afin que ces deux dernières
recommandations ne soient pas contradictoires, il faudra bien sûr ABSOLUMENT éviter d’encoder
des programmes ayant une dynamique trop importante. Déjà l’encodage sera bien plus aisé et
ensuite le décodage sera bien plus écoutable ! La maîtrise de la dynamique passe tout d’abord par
un re-mixage pour la télévision des mixages prévus pour la salle de cinéma. Ce mixage pourra
alors également servir au DVD, permettant ainsi à des millions de spectateurs d’économiser les
piles de leur télécommande ! Pour ce qui est de la stéréo, l’idéal serait d’élaborer un mixage à
partir des éléments du 5.1 plutôt que d’utiliser le Downmix. Sinon, il faut au moins prendre le temps
d’écouter les différentes réductions pour régler les paramètres des métadonnées. Rappelons tout
de même qu’actuellement, la majorité des spectateurs écoutent en stéréo… et profitent plus de la
sortie DVD que de la sortie salle ! Ce qui devrait justifier certains coûts de production !
Conclusion
L’ère de la HD vient de débuter, nous apportant conforts et complications supplémentaires. En ce
qui concerne le son, la première difficulté vient de la cohabitation entre l’ancien format toujours
d’actualité (stéréo) et le nouveau pas encore généralisé (5.1). Les exigences sont à redéfinir et les
pratiques doivent être harmonisées. Les outils évoluent sans cesse et il faut un certain temps
avant que chacun acquière une expérience solide. Le principal dysfonctionnement induit par les
métadonnées provient d’une dynamique non adaptée au média ciblé. Il faut donc toujours garder à
l’esprit que le programme est destiné à être entendu dans un environnement domestique, sur un
matériel grand public et inséré parmi d’autres programmes. Petit à petit, les écarts devraient se
combler et l’ensemble de l’offre en Dolby Digital deviendra plus homogène.
Anaïs Libolt