Guide Simplifié du signal vidéo Analogique NTSC - I. Cours
Transcription
Guide Simplifié du signal vidéo Analogique NTSC - I. Cours
Par : Jean DANIEL (Canada) http://pages.videotron.com/danjean/ Guide Simplifié du signal vidéo Analogique NTSC En Amérique du Nord, le standard pour les signaux vidéo analogique est appelé NTSC, qui n’est pas le même que pour les ordinateurs (VGA). Le vidéo étant un médium linéaire, tout comme l’audio, mais au contraire du film ou de la photographie, il a été créé à l’origine pour être transmis "via les airs". Les images doivent donc être séparées et transmises ou enregistrées en une série de lignes, une après l’autre. Ce qui fait qu’à n’importe quelle milliseconde, une image vidéo ne sera simplement qu’un point se "promenant" sur un moniteur. Le système analogique que nous utilisons présentement à été établi dans les années 30, la couleur y a été ajoutée au début des années 50. C’est à ce moment que le nom NTSC est apparu, représentant le National Television Systems Committee, qui est le comité qui à établi les standards utilisés en télévision analogique actuellement. Il est formé de 525 lignes, avec un taux de rafraîchissement de ±30 frames/secondes (29,97f/s). Avec la télévision numérique, le signal vidéo est représenté par des chiffres (0 & 1). Mais avec le signal analogique tout est représenté par des voltages, et les voltages sont affectés par les longueurs de câbles, les connecteurs, la chaleur, les rubans, etc & Idots; C’est pourquoi plusieurs ingénieurs vidéo affirment, à la blague (???), que NTSC veut plutôt dire "Never Twice The Same Color"(jamais deux fois la même couleur). Deux autres systèmes sont également utilisés comme standards de diffusion analogique, PAL (Phase Alteration Line), composé de 625 lignes, mais avec un taux de rafraîchissement de 25 frames/secondes et SECAM (Système Électronique pour Couleur Avec Mémoire), qui a la même composition que PAL, mais dont la couleur (Chrominance) est modulée en FM. PAL, comme NTSC, est aussi utilisé pour les enregistrements vidéo alors que SECAM est essentiellement un standard de transmission. Différents pays utilisent différents standards, c’est pourquoi un signal de test a finalement été développé, qu’on a appelé les "barres de couleur"(Color Bars) et qui sont utilisées comme standard pour assurer la consistance des images présentées. Les barres de couleurs "SMPTE" sont celles que nous rencontrons le plus souvent en Amérique du Nord. SMPTE est l’abréviation de Society of Motion Picture and Television Engineers , qui sont responsables d’établir la majorité des standards utilisés en télévision et au cinéma. Ce signal est généré par un générateur de barres ou par une caméra vidéo professionnelle. On les insère au début d’une cassette afin de permettre l'ajustement des couleurs et du niveau vidéo du document enregistré sur la cassette. Pour l’ajustement, on utilise essentiellement deux outils; Le Moniteur "Waveform": Le moniteur waveform est un oscilloscope qui a été configuré pour le signal vidéo. On l’utilise pour mesurer le voltage du signal et pour s’assurer que toutes les pulsations et tous les balayages du signal apparaissent au bon moment. L’utilisation première du waveform est de mesurer les différents niveaux de l’image. Ces niveaux ne doivent pas dépasser 100%(IRE), ni descendre sous la barre de 7.5%(IRE). Un signal qui serait trop haut sera surexposé, alors qu’un signal qui serait trop bas sera trop noir. En général, la couleur de la peau se situe autour de 70%, alors qu’un blanc avec peu de détails sera autour de 90-100% et des ombres seront en bas de 30% sur l’échelle. Le "Vectorscope" : Le vectorscope est un autre oscilloscope spécialisé. Sa fonction est de mesurer l’information relative aux couleurs. Dans le signal vidéo analogique, la couleur est encodée dans le signal principal à l’aide d’un "sous-transporteur"(SubCarrier). C’est l’information des couleurs inscrites sur ce "sous-transporteur" qui est mesurée par le vectorscope. Elle est présentée à l’intérieur d’un cercle. Au lieu de mesurer l’intensité des couleurs, elle mesure la saturation et la teinte (Hue). Le centre du cercle est neutre, donc plus une couleur est près du centre, moins elle est saturée ou plus près du blanc et plus elle est loin du centre, plus elle est saturée, ou foncée. Une couleur peut être foncée et très saturée ou claire et moins saturée. Un noir ou un blanc seront représenté par un point au centre du cercle. Le Correcteur de base de temps("Time Base Corrector ou TBC"): De lui-même, un magnétoscope est incapable de jouer un signal assez stable pour être transmis correctement ou même coupé à un autre signal (ex: en montage), sans "débarrer". Un TBC est donc utilisé pour synchroniser le magnétoscope avec les autres signaux à l’intérieur du système. Tous les équipements de diffusion (ou montage) sont synchronisés à partir d’un signal commun, généré par un générateur de synchronisation (master sync generator). Sinon il y aurait perte de synchronisation (l’image roule et se détériore) à chaque fois qu’on change de source et les fondues entre différentes sources seront impossibles. Les TBC ont également une autre fonction. Ils sont utilisés pour ajuster les niveaux vidéo et de couleurs sur les magnétoscopes. Quatre ajustements sont alors utilisés qui ressemblent assez à ceux d’un moniteur télé. Chrominance/Saturation, Teinte (Hue)/Phase, Luminosité (Brightness)/Black level et Contrast/Video level. On utilise les barres de couleurs, normalement enregistrées au début d’un document, et la combinaison Waveform/Vectorscope pour faire les ajustements nécessaires. Le niveau vidéo est ajusté grâce au Waveform, de façon à ce que la barre la plus haute soit à 100%(IRE) et le niveau de noir soit à 7.5%(ligne pointillée juste sous la barre des 10%). Ensuite, on ajuste les niveaux de Chroma et Hue/Phase, avec le Vectorscope, de façon à ce que les 6 points soient à l’intérieur des 6 petites boites étiquetées R, G, B et Y, C, M, les couleurs primaires et leur compléments (Red, Green, Blue, Yellow, Cyan et Magenta). Le Code Temporel("Time Code"): Le code temporel facilite l'assemblage des images lors du pré-montage et du montage en assurant le repérage précis des plans à monter par l'indication de la position en heure (HH :), minute(MM :), seconde(SS :) et numéro d'image(FF: F pour Frame). Le nombre d'images par seconde varie en fonction du support utilisé: 24 images par seconde pour le cinéma; 25 images par seconde pour la télévision européenne; 30 images par seconde pour la télévision noir et blanc américaine et pour les applications strictement musicales; 30 images drop frame* par seconde pour la télévision couleur nord-américaine. Ce code permet aussi la synchronisation entre l'image et le son lorsqu'ils se présentent sur deux supports différents, bande vidéo et bande audio, disquette, etc. Le code temporel longitudinal (LTC: Longitudinal Time Code) est destiné à être enregistré sur la piste audio d'un magnétoscope. Le code temporel vertical(VITC : Vertical Interval Time Code) est destiné à être enregistré dans l'image vidéo(pendant l'intervalle vertical, normalement sur les lignes 16 & 18) et peut être lu à des vitesses très lentes, même lors d'un arrêt sur image. Le code temporel MIDI (MTC: MIDI Time Code) est destiné à être lu par les appareils répondant à la norme MIDI et à la norme de synchronisme sur le code SMPTE. Il nécessite la présence d'un convertisseur SMPTE/MTC. Le code temporel SMPTE est un signal binaire de 80 bits, enregistré sous forme analogique où les valeurs des 0(zéro) correspondent à une tension faible et les valeurs des 1 à une tension élevée. On dit aussi chronocode. Le premier codage temporel date de 1967(société EECO). Deux ans plus tard, un code temporel normalisé est adopté aux États-Unis par la Society of Motion Picture and Television Engineers (SMPTE), et en Europe par l'Union européenne de radiodiffusion(UER, en anglais EBU: European Broadcasting Union). * Time code Drop Frame: Le signal vidéo comprend en réalité 29,97 frames/secondes, pour compenser ceci et arriver à une durée réelle précise, on laisse tomber des frames à chaque minute, pour un total de 4 secondes/heure. Le Signal Vidéo Numérique Le principe de la numérisation d'une image vidéo est assez simple. La première étape consiste à sous diviser chaque image vidéo selon une résolution donnée (normalement 720 x 576 pixels pour une image vidéo normale) et à associer une valeur numérique à chacun des éléments qui forment la couleur de ce pixel (YUV ou RGB) en utilisant une table de conversion de couleurs (normalement 24 bits par pixels pour 16 millions de couleurs possibles en chaque point). Ce procédé de conversion doit se faire très rapidement étant donné qu'une image vidéo traditionnelle contient plusieurs milliers de pixels et que la vidéo analogique PAL défile à 25 images par seconde. Heureusement, il existe actuellement sur le marché plusieurs puces permettant d'accomplir cette tâche en temps réel. L'image vidéo non compressée: Si un signal vidéo (en NTSC) de 720x486 pixels de résolution est numérisé en utilisant la norme YUV 4:2:2, le fichier résultant sera de 683.44 Ko par image ou 20.02 Mo/sec. C'est ce qu'on appelle le format non compressé de ratio 1:1. Ces valeurs sont calculées de la façon suivante: 720 pixels X 486 pixels X 16 bits/pixel= 699,840 octets/image. Conversion octets/image en Koctets/image, 699,840 octets/image x 1 Ko/1024 octets= 683.44 Ko. Conversion Koctets par image en Koctets par seconde, 683.4 Ko/image X 30 images/sec.= 20502 Ko/sec. Conversion Koctets par seconde en Moctets par seconde, 20503.2 Ko/sec. X 1 Mo/1024 Ko = 20.02 Mo/sec. Note: Ces calculs sont valides pour le format NTSC. Pour le PAL, les calculs donneront environ 19.78 Mo/sec. en se basant sur la résolution 720 x 576 pixels à 25 images/sec. Les limitations techniques: La capacité de stockage: Avec un débit d'environ 20 Mo/sec, la vidéo numérique non-compressée exigerait donc plus de 1.2 Go d'espace disque pour capter 1 seule minute de vidéo. La rapidité de transmission: L'autre problème auquel on doit actuellement faire face avec la vidéo numérique est le transfert de ces données en format numérique. Certaines technologies permettent actuellement le transfert des données vidéo numériques non-compressées sauf qu'elles ne sont pas toujours facilement accessibles. Pour les technologies plus accessibles il faut donc penser a réduire le débit des données. Les solutions pour réduire le débit: Le problème est donc de diminuer au maximum le nombre de bits ou d'octets utilisés pour représenter une image et, par là, de réduire le débit binaire nécessaire pour la transmettre. La première solution est de diminuer le nombre d'images par secondes, sauf qu'en dessous de 15 à 18 images par secondes notre oeil commencera à capter une saccade plutôt désagréable. La deuxième possibilité est de réduire le nombre de points de l'image par 2 ou par 4 sauf que la qualité visuelle de l'image résultante sera passablement réduite, voire même inacceptable. La troisième possibilité est de coder moins d'informations de couleur, sur 2 octets (16 bits) par pixel en 64 000 couleurs, par exemple, ou encore sur un seul octet par pixel en palette de 256 couleurs. Pour les applications multimédia, cette solution est acceptable et d'ailleurs très recommandée pour les présentations multimédia, mais pas pour le montage vidéo, même amateur. Toutes ces méthodes auront bel et bien pour effet de réduire le débit des données, mais la dégradation de l'image sera si importante que même un amateur la rejetterait. La seule vraie solution au problème de débit est apportée par la compression, aussi appelée Bit Rate Reduction (Réduction du débit binaire). Plusieurs méthodes ont été mises au point avec plus ou moins de succès. La compression des données: Tout d'abord, il est important de savoir que les techniques de compression du flux de données numériques sont principalement basées sur une constatation : une image contient énormément d'informations redondantes, redondance dont on peut distinguer deux types: La redondance spatiale: Lorsque des informations sont similaires ou se répètent dans des zones de l'image proches l'une de l'autre (dans une image, deux points voisins sont souvent similaires). La redondance temporelle: Lorsque des informations se ressemblent ou se répètent dans le temps, même si leur position dans l'image a changé (deux images successives sont souvent relativement similaires). La compression va donc consister à déterminer ces redondances et à les éliminer. La contrainte liée à la qualité de l'image nous oblige à être capables de reproduire l'image originale intacte ou, tout au moins, une image très proche de celle-ci. Cette définition nous amène à envisager deux types de techniques pour la compression. La compression avec perte d'information: Il existe différentes techniques permettant d'obtenir des facteurs de compression nettement plus élevés qu'avec les techniques réversibles. Mais, avec de telles méthodes, l'image reconstruite après décompression, bien qu'elle reste proche de l'image originale, n'est plus identique. On parlera alors de méthodes de compression irréversibles. Cependant, même si elles induisent des pertes d'informations dans les images, en choisissant judicieusement le type d'informations qui seront perdues ou dégradées, il est néanmoins possible de reconstruire des images d'une qualité telle que l'oeil humain ne pourra les distinguer des images originales. En effet, l'oeil est plus sensible à certaines notions qu'à d'autres. Ainsi, une dégradation des couleurs dans une scène remplie d'objets en mouvement rapide passera inaperçue alors qu'une faible perte de qualité dans une image fixe comportant un dégradé de couleurs sera immédiatement perçue. Ces particularités de l'oeil humain sont exploitées depuis le début de la vidéo. La vidéo numérique utilise également au maximum les particularités de l'oeil humain lorsqu'il s'agit de compression d'images. Nous obtenons ainsi une compression visuellement sans perte d'informations. De ces constatations sont nées plusieurs classes de méthodes de compression: Le Variable Length Coding(VLC): Il se base sur la constatation que certaines combinaisons de pixels sont plus fréquentes que d'autres. Dès lors, en recensant toutes les combinaisons possibles d'un nombre donné de pixels, il est possible d'en étudier leur fréquence d'apparition dans une image. On attribue alors à chaque combinaison un code dont la longueur(nombre de bits) est d'autant plus faible que la combinaison apparaît souvent dans l'image. La première application de cette méthode est bien antérieure à la vidéo. Le code morse rejoint la même idée. Le Differential Pulse Code Modulation(DPCM): Il se base sur la constatation que, dans la plupart des images, les différences entre deux pixels adjacents sont souvent faibles, les transitions franches (par exemple: un rectangle noir sur un fond blanc) étant assez rares. Il est donc envisageable, connaissant la valeur d'un pixel, de prédire la valeur de son voisin. La Discrete Cosine Transform(DCT): Elle se base sur la transformation d'une représentation spatiale d'un bloc de pixels, c'est-à-dire position horizontale, verticale ainsi que l'amplitude, en une représentation sous forme mathématique différente. Cette représentation plus compacte de l'image requiert de traiter moins d'informations. En effet, cette nouvelle représentation ne se base plus sur une analyse spatiale (positions horizontale, verticale et amplitude) mais sur une analyse fréquentielle savamment calculée. Cette technique est rendue possible grâce à l'utilisation d'une variante des séries de Fourier. Celles-ci permettent de reconstruire une fonction à partir d'une somme de sinusoïdes multipliées chacune par un certain coefficient dit "de Fourier". La DCT s'apparente à cette méthode. La DCT, en elle-même, ne comprime donc pas l'image. Elle la représente simplement sous une forme qui se prête beaucoup mieux à la compression. Il ne reste alors plus qu'à appliquer un codage intelligent des différents coefficients. La compression sans perte d'informations(Lossless): Pour plusieurs personnes, rien ne peut rivaliser avec un original. En fait, la compression "Lossless" est supérieure à la vidéo non-compressé dans le sens que la qualité est identique et qu'en plus on sauve de l'espace disque étant donné que le signal est compressé. Le problème est qu'étant donné qu'il y a très peu de redondance dans une image vidéo, le gain n'est seulement que de 50% en moyenne. Les standards actuels de compression: Plusieurs standards de compression ont déjà été développés. Voici une liste non exhaustive des méthodes de compression rencontrées le plus fréquemment ainsi que leurs champs d'application. Le JPEG(Joint Photographic Experts Group): Il s'agit d'un standard international pour la compression d'images couleurs fixes stockées sous forme digitale. À la base, ce standard fut conçu pour le monde de l'impression et de la photocomposition. Il accepte n'importe quelle définition, tant verticale qu'horizontale et autorise un nombre de bits par pixel compris entre 1 et 32. La technique de compression utilisée est basée sur la Discrete Cosine Transform (DCT). Cependant, conçu pour les images fixes, il ne convient pas à la compression de séquences vidéo. Le Motion JPEG: Il s'agit d'une extension du JPEG qui permet de traiter des séquences d'images. En réalité, il se contente de considérer une séquence vidéo comme une succession d'images fixes, chacune d'elles compressée séparément en utilisant le standard JPEG. Puisque chaque image est compressée indépendamment des autres, le Motion JPEG permet le montage à l'image près. Tant que l'on se contente de facteurs de compression relativement faibles (de 2:1 à 4:1) il peut s'appliquer à du travail de production ou de postproduction de qualité et, optimisé, il est quasi transparent. Toutefois, lorsque le facteur de compression devient plus important (au delà de 10:1), la dégradation des images devient telle qu'elle est aisément perceptible par l'oeil humain. En outre, ces dégradations s'additionnent d'une génération à l'autre, jusqu'à devenir rapidement inacceptables. Le MPEG(Moving Pictures Experts Group): Comme nous venons de le voir, tant que l'on se contente de compresser des séquences vidéo en considérant chaque image séparément, le facteur de compression peut difficilement dépasser 4:1 si l'on souhaite conserver un niveau de qualité compatible avec un usage professionnel. Pour atteindre des facteurs de compression supérieurs, il faut se baser sur les similitudes existant entre plusieurs images successives. Cette constatation a donné naissance au standard MPEG. À l'origine, le standard MPEG prévoyait 4 niveaux (d'autres s'y sont ajoutés depuis): MPEG-1: destiné aux applications multimédia. MPEG-2: extension de MPEG-1 permettant d'obtenir une qualité d'image supérieure. MPEG-3: destiné à la télévision haute définition. Cependant, MPEG-2 s'est révélé tellement performant qu'il a rendu inutile le développement de MPEG-3. MPEG-4: Originalement destiné aux communications mobiles, sa forme originale n'a rien à voir avec le monde de la vidéo broadcast. D'autres développements futurs seront à surveiller. Le but du MPEG-1 était de produire des images de qualité équivalente au VHS tout en parvenant à descendre à un débit binaire de l'ordre de 1.2 Mbits/seconde(1.5 Mbits/seconde en incluant le son). Le MPEG-2 fut conçu pour traiter des séquences d'images entrelacées. Le but était de produire des images de la qualité d'un système vidéo composite avec un débit binaire de l'ordre de 4 à 8 Mbits/seconde ou des images de haute qualité avec un débit de 10 à 15 Mbits/seconde. Les domaines d'application principaux de MPEG-2 sont liés à la distribution de programmes vidéo: diffusion par satellite, télédistribution, Digital Video Disc. Comme on peut le voir, le MPEG offre un vaste éventail de possibilités, semble flexible et permet d'atteindre une bonne qualité d'image. Dès lors, pourquoi ne pas l'utiliser tout au long d'une chaîne de production vidéo professionnelle? Les raisons sont multiples: MPEG conduit à des systèmes fortement asymétriques; le processus de compression est beaucoup plus complexe que le processus de décompression. Il faut donc une puissance de calcul de loin supérieure pour la compression que pour la décompression. Ceci ne pose pas de problème lorsqu'il s'agit de distribuer des images car, par définition, on compresse à un seul endroit, lors de l'émission, puis l'on diffuse les images qui sont décompressées sur de multiples récepteurs. Dans le cas d'une chaîne de postproduction, il en va tout autrement; il faut pouvoir compresser et décompresser à chaque maillon de la chaîne. De plus, le système MPEG n'a pas été conçu pour faire du montage à l'image près, ce qui est un des pré-requis majeurs pour faire de la postproduction. Des générations successives, entrecoupées de traitements (effets), peuvent induire une perte de qualité qui s'avérera rapidement inacceptable. MPEG n'a pas été conçu pour permettre des opérations telles que le "chroma key". Parallèlement aux travaux de MPEG, le secteur informatique a développé ses propres solutions pour amener la vidéo sur les écrans des micro-ordinateurs. Les possibilités d'affichage et de traitement permettaient, dès la fin des années quatre-vingt, d'afficher des images (fixes) de haute qualité, et de créer des animations élémentaires. Quicktime: Apparu en 1991, Quicktime a été intégré au Système 7 des Macintosh. Il s'agit d'un environnement de développement et d'exécution qui permet d'associer à des données classiques des fichiers représentant des séquences sonores ou vidéo. Quicktime comprend essentiellement des formats de données standardisés, des procédés de compression/décompression, et une interface utilisateur spécifique. L'extension système utilisée est fondée sur le principe du maintien de l'isochronie des données, et introduit donc le temps comme élément principal du système d'exploitation. Quicktime est surtout conçu comme un ensemble de spécifications très ouvert, capable d'intégrer facilement un grand nombre d'évolutions matérielles et logicielles, sans remettre en cause les applications existantes. Vidéo pour Windows: Vidéo pour Windows est un ensemble logiciel commercialisé par Microsoft permettant la captation et la restitution de vidéo animée sur PC. L'exécution de séquences vidéo est possible sans matériel spécifique, alors que la captation doit être faite au moyen d'une carte de numérisation. Une large compatibilité est permise grâce à la définition de spécifications permettant d'intégrer des matériels aux fonctionnalités différentes. Ainsi, à travers un ensemble de pilotes, Vidéo pour Windows sera capable de supporter des périphériques aux fonctionnalités diverses tout en assurant, autant que possible, les fonctions manquantes au niveau logiciel. Pas plus que Quicktime, Vidéo pour Windows n'est pas un algorithme de compression. Il s'agit plutôt d'une interface standardisée entre le matériel et les procédés de codage et de compression, qui offre des API (interfaces de programmation) relativement indépendantes du matériel. Cependant, comme Apple, Microsoft a également défini des algorithmes de compression adaptés à différentes situations (Microsoft Vidéo 1, Microsoft RLE compressor), et intègre ceux proposés par des sociétés tierces, comme Indeo d'Intel. Plus qu'une technique de compression, Vidéo pour Windows fournit en fait une plate-forme commune sur laquelle pourront s'articuler divers procédés de codage. Le Digital BETACAM: Proposé par Sony, il est dérivé de techniques JPEG qui ont été soigneusement adaptées aux travaux de post-production de haute qualité. Il utilise des signaux vidéo 4:2:2 et leur applique un facteur de compression faible de 2:1. Chaque trame étant compressée séparément, il offre toutes les possibilités de montage requises pour un usage professionnel. Son principal inconvénient est son faible facteur de compression. Il est principalement utilisé pour les applications de type Broadcast. La Digital Video Cassette (DVC): Il s'agit d'un nouveau format de cassette vidéo digitale développé par le HD Digital VCR Consortium formé à l'origine par Sony, Matsushita, Philips, Thomson, Toshiba, Hitachi, JVC, Sanyo, Sharp et Mitsubishi. Ces 10 sociétés ont uni leurs efforts pour proposer, en juillet 1993, la première spécification du format DV. Par la suite, de nombreuses autres sociétés se sont jointes au consortium qui compte aujourd'hui plus d'une soixantaine de membres. Ce nouveau format utilise certains éléments du standard JPEG pour le codage de la vidéo. La compression DV ne joue que sur les redondances spatiales à l'intérieur de l'image complète. Elle ne cherche pas à réduire les redondances temporelles comme le fait le MPEG. Elle utilise un facteur de compression de 5:1. Elle permet donc d'obtenir une excellente qualité d'image en première génération, ce qui est l'idéal pour un usage grand public. Une heure de vidéo numérique en format composante(Y, R-Y, B-Y) peut être sauvegardé sur une mini-cassette plus petite qu'une cassette audio DAT. La qualité est considérée comme supérieure au BetacamSP. Une autre cassette DV légèrement plus grosse qu'une cassette 8mm peut contenir jusqu'à 270 minutes d'enregistrement numérique! La technologie FireWire: La norme FireWire, aussi connue sous le nom de IEEE-1394, a été introduite comme une interface universelle pour la transmission des données séries à haute vitesse entre différentes composantes électroniques telles que les disque rigides, les lecteurs CD-ROM, les scanners et les cartes de capture vidéo. La technologie FireWire supporte trois vitesses de transfert; 100, 200 et 400Mbits/sec. 16 périphériques peuvent s'interconnecter avec une distance pouvant aller jusqu'à 4 mètres entre chaque périphérique. Le branchement se fait grâce à un fil à 6 conducteurs regroupés en paires. Deux paires transmettent les données et les caractères de contrôle tandis que l'autre paire se charge de transporter l'alimentation (max. 60 W). Il existe aussi des connecteurs à quatre conducteurs dépourvus d'alimentation. Il est important de faire la distinction entre la technologie FireWire et le DV. Les termes sont souvent interchangeables, mais ont une fonction bien différente. En gros on peut dire que la technologie Firewire est une affaire de plomberie. C'est un standard de transmission. C'est une nouvelle manière de transmettre des informations numériques à travers un câble et une prise spéciaux entre des périphériques et un ordinateur. Le DV, quant à lui, est un nouveau standard d'enregistrement. C'est une nouvelle manière d'écrire un signal vidéo compressé sur la bande magnétique. La télévision numérique: La télévision numérique n'est plus dans le domaine du futur, elle est maintenant une réalité dans le monde. Aux États-Unis d'abord, où des satellites offrent depuis quelques années plusieurs dizaines de chaînes de télévision en numérique; en Europe ensuite, où on assiste à une véritable mobilisation depuis les premières semaines de l'année 1996. Ce qui a permis la révolution numérique, ce sont les progrès réalisés dans la compression des données et plus particulièrement les travaux du groupe de normalisation MPEG (Moving Pictures Experts Group) dont furent issues entre autres les normes MPEG-1 et MPEG-2. Les avantages du numérique en matière de télévision par satellite: Grâce à la technologie du numérique, il est aujourd'hui possible de faire transiter simultanément plusieurs programmes dans un même canal satellite, là où on ne pouvait en loger, en analogique, qu'un seul et unique. Cette possibilité d'acheminer plusieurs chaînes de télévision numériques sur un même répétiteur de satellite permet de diffuser non plus quelques dizaines, mais quelques centaines de programmes sur chaque satellite. Parmi les autres avantages du numérique, on peut également noter: - La qualité constante des images et des sons en terme de transmission: Le numérique est moins sujet aux perturbations extérieures que l'analogique et offre une meilleure résistance au bruit, au brouillage ou aux phénomènes d'écho. - La facilitation de la compatibilité entre tous les pays: Plus de standards disparates (NTSC, PAL, SECAM...) et une compatibilité accrue avec les équipements de production qui sont déjà numériques depuis longtemps. - La réduction des coûts: Cette multiplicité des canaux va de pair avec une réduction du coût de la retransmission des programmes puisque, en toute théorie, on devrait pouvoir diviser le prix actuel de la location de chacun des transpondeurs des satellites par le nombre de programmes qui pourront y transiter. Le codage Audio Numérique L'Audio Engineering Society (AES) et l'European Broadcasting Union (EBU) ont établi conjointement une norme audio numérique connue sous le terme d'interface AES/EBU. Cette norme propose des formats pour l'échange d'informations audionumériques entre appareils audio professionnels, tout en garantissant la souplesse nécessaire aux applications spéciales. L'International Electrotechnical Commission (IEC) a également adopté un format basé sur la norme AES/EBU pour les appareils audio grand public. En bref, la norme de format AES/EBU définit comment deux canaux d'informations audio sont périodiquement échantillonnés et transmis sur une paire de fils torsadés. Les canaux audio Gauche et Droit sont multiplexés et sont auto-cadencés et autosynchronisés. Le format de mesure est indépendant de la fréquence d'échantillonnage recommandée par l'AES et supporte, sur 24 bits, 32 kHz, 44,1 kHz et 48 kHz. "Ne jamais transmettre ce que l'on ne peut pas entendre." Cette compression audio, qui est entièrement basée sur les caractéristiques de l'audition humaine, s'accompagne de pertes et ne peut être abordée sans une étude préalable de ce sens. Il est surprenant de constater que l'audition humaine, et particulièrement en stéréo, a un pouvoir discriminatoire bien supérieur à celui de la vision et c'est pourquoi la compression audio doit être envisagée avec encore plus de précautions. Comme la compression vidéo, la compression audio nécessite plusieurs niveaux de complexité en fonction du facteur de compression souhaité. Une autre considération importante dans l'enregistrement et la diffusion numériques d'aujourd'hui est le monitoring du "point de crash" ou point d'atteinte du "niveau d'entrée maximum" admissible par un système ou un équipement. Le format d'enregistrement numérique est quelque peu plus tolérant, dans le sens où quelques pointes "hors tolérance" tombent simplement hors de la gamme de l'appareil numérique et ne sont pas échantillonnées. Une série de "pops" ou de "sifflements" qui pourraient sérieusement compromettre un enregistrement analogique peuvent être automatiquement "atténués". Ce phénomène a entraîné quelques personnes vers la fausse notion que les niveaux audio numériques pouvaient être appréhendés de manière plus simpliste. Les appareils de mesure rudimentaires intégrés dans la plupart des appareils numériques reflètent cette attitude. Il est aussi nécessaire de produire un volume plus consistant dans les enregistrements numériques que dans les enregistrements analogiques. Avoir quelques prises "plus fortes" que d'autres est plus acceptable dans le nouveau monde numérique que cela n'était dans l'environnement analogique. Il y a également la même nécessité de protéger les CRÊTES. L'idée qu'un "certain nombre" de crashs soit tolérable est simplement fausse. Obtenir le volume au détriment des crêtes résulte en une perte de dimension et de clarté. Le mécanisme de l'audition: L'audition se compose d'un processus physique à l'intérieur de l'oreille et d'un processus nerveux et mental qui se combinent pour donner une impression sonore. L'impression que nous recevons n'est pas exactement similaire à la forme d'onde acoustique présente dans le conduit auditif parce qu'une certaine entropie est perdue. Les systèmes de compression audio qui donneront de bons résultats seront donc ceux qui ne perdront que la partie de l'entropie qui est perdue dans le mécanisme de l'audition. Le mécanisme physique de l'audition se répartit en trois parties: l'oreille externe, l'oreille moyenne et l'oreille interne. En plus du pavillon, l'oreille externe comprend le conduit auditif et le tympan. Le tympan transforme les sons incidents en une vibration comme le fait un diaphragme de microphone. L'oreille interne opère en utilisant ces vibrations transmises à travers un fluide. L'impédance du fluide est bien supérieure à celle de l'air et l'oreille moyenne agit comme un transformateur d'impédance qui effectue le transfert d'énergie. On voit ci-dessus que les vibrations sont transférées à l'oreille interne par l'étrier, qui agit sur la fenêtre ovale. Les vibrations du fluide de l'oreille interne parviennent au limaçon, une cavité du crâne en forme de spirale (présentée déroulée sur la figure, pour plus de clarté). La membrane basilaire est étirée sur toute la longueur du limaçon. Le poids et la consistance de cette membrane varient d'un bout à l'autre. Près de la fenêtre ovale, la membrane est rigide et légère et sa fréquence de résonance est élevée. À l'autre extrémité, la membrane est lourde et souple, ce qui fait qu'elle résonne aux fréquences basses. La gamme de fréquences disponibles détermine la plage de l'audition humaine qui, pour la plupart des gens, s'étend de 60 Hz à 15 Khz. Les différentes fréquences du son incident provoquent la vibration de différentes parties de la membrane. Toutes les zones de la membrane sont reliées à différentes terminaisons nerveuses qui permettent une discrimination très fine. La membrane basilaire est également munie de fins muscles commandés par les nerfs et qui agissent ensemble dans une sorte de contre-réaction positive qui aurait tendance à augmenter le facteur de résonance Q. Le comportement résonnant de la membrane basilaire constitue une réplique exacte d'un analyseur de transformées. En raison de la théorie de l'incertitude, plus le domaine de fréquences d'un signal est connu, moins son domaine temporel est connu. En conséquence, plus un système est apte à déterminer la différence entre deux fréquences, moins il est capable de séparer le temps qui les sépare. L'audition humaine a développé un certain compromis entre la discrimination incertitude temporelle et la discrimination de fréquence; ce compromis impliquant qu'aucune perfection n'est atteinte. La discrimination imparfaite de fréquences résulte du fait de l'incapacité de séparer deux fréquences proches. Cette incapacité est connue comme un effet de masquage auditif qui réduit la sensibilité d'un son en présence d'un autre. La figure 3.2a montre que le seuil d'audition est fonction de la fréquence. La plus grande sensibilité se situe naturellement dans la gamme de fréquences de la parole. En présence d'une note pure, le seuil est modifié, tel qu’indiqué sur la figure 3.2b. Le seuil est relevé non seulement pour des fréquences hautes, mais aussi pour quelques fréquences basses. En présence d'une source sonore au spectre plus complexe, comme de la musique, le seuil est relevé à presque toutes les fréquences. Une conséquence de ce comportement est que le sifflement d'une cassette audio n'est audible que pendant les passages très doux de la musique. La compression utilise ce principe en amplifiant les fréquences basses avant l'enregistrement ou la transmission et en les ramenant ultérieurement à leur niveau convenable. La discrimination imparfaite de temps montrée par l'oreille est due à sa réponse résonante. Le facteur de résonance Q est tel qu'il faut qu'un son donné soit présent au moins 1 milliseconde avant qu'il ne devienne audible. À cause de cette réponse lente, le masquage peut se produire même si les deux signaux concernés ne sont pas simultanés. Les masquages avant et arrière peuvent se produire quand le son de masquage continue à agir à des niveaux plus faibles avant et après la durée courante du son de masquage. La figure 3.3 démontre ce concept. Le masquage relève le seuil d'audition et les systèmes de compression tirent parti de cet effet en rehaussant le niveau "plancher" de bruit, permettant ainsi au signal audio d'être exprimé avec moins de bits. Le plancher de bruit ne peut être relevé que pour les fréquences auxquelles le masquage agit. Pour maximaliser le masquage actif, il faut découper le spectre audio en différentes bandes de fréquence pour permettre l'introduction des différentes quantités de compression et de bruit dans chacune d'elles. Codage en sous-bandes: La figure suivante montre un compresseur à bandes séparées. Le filtre séparateur de bandes est un jeu de filtres à phase linéaire, ayant tous la même largeur de bande et qui se recouvrent. La sortie de chaque bande consiste en des échantillons représentatifs de la forme d'onde. Dans chaque bande de fréquence, l'entrée audio est amplifiée au maximum avant la transmission. Chaque niveau est ensuite ramené à sa valeur initiale. Le bruit introduit par la transmission est ainsi réduit dans chaque bande. Si l'on compare la réduction de bruit au seuil d'audition, on s'aperçoit qu'un bruit plus important peut être toléré dans certaines bandes du fait de l'action du masquage. Par conséquent, il est possible, dans chaque bande, de réduire la longueur des mots d'échantillons après la compression. Cette technique réalise une compression parce que le bruit introduit par la perte de résolution est masqué. La figure ci-dessous présente un codeur simple à bandes séparées, comme ceux utilisés dans la Couche 1 du MPEG. L'entrée audio-numérique alimente un filtre de séparation de bandes qui divise le spectre du signal en un certain nombre de bandes. En MPEG, ce nombre est de 32. L'axe des temps est divisé en blocs d'égale longueur. Dans la couche 1 de MPEG, il y a donc 384 échantillons du signal d'entrée, ce qui se traduira, en sortie du filtre, par 12 échantillons dans chacune des 32 bandes. A l'intérieur de chaque bande, le niveau est amplifié par multiplication jusqu'à sa valeur maximale. Le gain nécessaire est constant pour la durée du bloc et un seul facteur d'échelle est transmis avec chaque bloc, pour chaque bande, de façon à pouvoir renverser le processus au décodage. La sortie du groupe de filtres est également analysée afin de déterminer le spectre du signal d'entrée. Cette analyse permet de réaliser un modèle de masquage permettant de déterminer le degré de masquage que l'on peut attendre dans chaque bande. Dans chaque bande, plus le masquage est agissant, moins l'échantillon doit être précis. La précision d'échantillon est alors réduite par re-quantification en vue de diminuer la longueur des mots. Cette réduction est aussi constante pour chaque mot dans la bande, mais les différentes bandes peuvent utiliser des longueurs de mots différentes. La longueur de mots doit être transmise comme un code d'affectation de bits afin de permettre au décodeur de dé-sérialiser convenablement le flux de bits. Couche 1 du MPEG: La figure suivante montre un flux de bits audio MPEG Niveau 1. Après le mot de synchronisation et l'en-tête, il y a 32 codes d'affectation de bits de 4 bits chacun. Ces codes décrivent la longueur des mots des échantillons dans chaque sous-bande. Viennent ensuite les 32 facteurs d'échelle utilisés par la compression dans chaque bande. Ces facteurs d'échelle sont indispensables pour rétablir le bon niveau au décodage. Les facteurs d'échelle sont suivis des données audio de chaque bande. Voici un décodeur du type Couche 1. Le mot de synchronisation est détecté par le générateur de temps qui dé-sérialise les bits d'affectation et les données de facteur d'échelle. L'affectation de bits permet ensuite la dé-sérialisation des échantillons à longueurs variables. La re-quantification inverse et la multiplication par l'inverse du facteur de compression sont appliquées de façon à ramener le niveau de chaque bande à sa bonne valeur. Les 32 bandes sont ensuite rassemblées dans un filtre de recombinaison pour rétablir la sortie audio. Couche 2 du MPEG: Cette figure montre que, lorsque le filtre de séparation de bandes est utilisé pour créer le modèle de masquage, l'analyse de spectre n'est pas très précise dans la mesure où il n'y a que 32 sous-bandes et que l'énergie est répartie dans la totalité de la bande. On ne peut pas trop augmenter le plancher de bruit car, dans le pire des cas, le masquage n'agirait pas. Une analyse spectrale plus précise autoriserait un facteur de compression plus élevé. Dans la couche 2 du MPEG, l'analyse spectrale est effectuée à l'aide d'un processus séparé. Une FFT à 512 points est effectuée directement à partir du signal d'entrée pour le modèle de masquage. Pour améliorer la précision de la résolution de fréquence, il faut augmenter l'excursion temporelle de la transformée, ce qui est effectué en portant la taille du bloc à 1152 échantillons. Bien que le synoptique de la compression de bloc soit identique à celui de la couche 1 du MPEG, tous les facteurs d'échelle ne sont pas transmis dans la mesure où, dans les images de programme, ils présentent un degré de redondance non négligeable. Le facteur d'échelle de blocs successifs excède 2dB dans moins de 10 % des cas et on a avantage à tirer parti de cette caractéristique en analysant les groupes de 3 facteurs d'échelle successifs. Sur les programmes fixes, seul un facteur d'échelle sur trois est transmis. À mesure de l'augmentation de la variation dans une bande donnée, deux ou trois facteurs d'échelle sont transmis. Un code de sélection est également transmis pour permettre au décodeur de déterminer ce qui a été émis dans chaque bande. Cette technique permet de diviser par deux le débit du facteur d'échelle. Codage de transformée: Les couches 1 et 2 du MPEG sont basées sur les filtres séparateurs de bandes dans lesquels le signal est toujours représenté comme une forme d'onde. La couche 3 utilise de son côté un codage de transformée comme celui utilisé en vidéo. Comme indiqué plus haut, l'oreille effectue une espèce de transformée sur le son incident et, du fait du facteur de résonance Q de la membrane basilaire, la réponse ne peut augmenter ou diminuer rapidement. Par conséquent, si un signal audio est transformé dans le domaine fréquentiel, il n'est plus nécessaire de transmettre les coefficients trop souvent. Ce principe constitue la base du codage de transformée. Pour des facteurs de compression plus élevés, les coefficients peuvent être requantifiés, ce qui les rend moins précis. Ce processus génère du bruit qui pourra être placé à des fréquences où le masquage est le plus fort. Une caractéristique secondaire d'un codeur de transformée est donc que le spectre d'entrée est connu très précisément, ce qui permet de créer un modèle de masquage très fidèle. Couche 3 du MPEG: Ce niveau complexe de codage n'est en réalité utilisé que lorsque les facteurs de compression les plus élevés sont nécessaires. Il comporte quelques points communs avec la couche 2. Une transformée cosinus discrète à 384 coefficients de sortie par bloc est utilisée. On peut obtenir ce résultat par un traitement direct des échantillons d'entrée mais, dans un codeur multi-niveaux, il est possible d'utiliser une transformée hybride incorporant le filtrage 32 bandes des couches 1 et 2. Dans ce cas, les 32 sous-bandes du filtre QMF (Quadrature Mirror Filter) sont ensuite traitées par une Transformée Cosinus Discrète Modifiée(Modified Discrete Cosine Transform) à 32 bandes pour obtenir les 384 coefficients. Deux tailles de fenêtres sont utilisées pour éviter les pré-oscillations à la transmission. La commutation de fenêtres est commandée par le modèle psycho-acoustique. On a trouvé que le pré-écho n'apparaissait dans l'entropie que lorsqu’elle était supérieure au niveau moyen. Pour obtenir le facteur de compression le plus élevé, une quantification non-uniforme des coefficients est effectuée selon le codage de Huffman. Cette technique attribue les mots les plus courts aux valeurs de code les plus fréquentes. Le codage AC-3: La technique de codage audio AC-3 est utilisée avec le système ATSC à la place d'un des systèmes de codage audio MPEG. DVB a aussi dû l'adopter sous la pression des industriels. Le système AC-3 est basé sur une transformée et obtient le gain de codage en re-quantifiant les coefficients de fréquence. L'entrée PCM d'un codeur AC-3 est divisée en blocs par des fenêtres qui se chevauchent comme indiqué ci dessous. Ces blocs contiennent chacun 512 échantillons mais, du fait du chevauchement total, il existe une redondance de 100%. Après la transformée, il existe donc 512 coefficients qui peuvent, du fait de la redondance, être ramenés à 256 à l'aide d'une technique appelée Suppression par aliasing dans le domaine temporel (TDAC, Time Domain Aliasing Cancelation). La forme du signal d'entrée est analysée et, s'il existe une évolution significative dans la seconde moitié du bloc, le signal sera séparé en deux pour éviter les pré-échos. Dans ce cas, le nombre de coefficients reste le même mais la résolution de fréquence sera divisée par deux et la résolution temporelle doublée. Un indicateur (flag) est placé dans le flux de bits pour signaler que cette opération a été effectuée. Les coefficients sont émis sous un format à virgule flottante avec une mantisse et un exposant. La représentation est l'équivalent binaire de la notation scientifique. Les exposants constituent en fait les facteurs d'échelle. Le jeu d'exposants d'un bloc produit l'analyse spectrale d'un signal d'entrée avec une précision finie sur une échelle logarithmique appelée enveloppe spectrale. Cette analyse spectrale est le signal d'entrée du modèle de masquage définissant, pour chaque fréquence, le niveau jusqu'où le bruit peut être augmenté. Le modèle de masquage pilote le processus de re-quantification qui diminue la précision de chaque coefficient en arrondissant la mantisse. Cette mantisse constitue une partie significative de la donnée transmise. Les exposants sont également transmis mais pas intégralement dans la mesure où la redondance qu'ils comportent peut être ultérieurement exploitée. A l'intérieur d'un bloc, seul le premier exposant (celui de la fréquence la plus base) est transmis dans sa forme absolue. Les autres sont transmis de façon différentielle et le décodeur ajoute la différence avec l'exposant précédent. Quand le signal audio présente un spectre assez aplati, les exposants peuvent être identiques pour plusieurs bandes de fréquences. Les exposants peuvent alors être assemblés en groupes de deux à quatre avec un indicateur décrivant leur mode de groupement. Des jeux de six blocs sont assemblés dans une trame de synchro AC-3. Le premier bloc de la trame comporte la donnée complète pour l'exposant mais, dans le cas de signaux constants, les blocs suivants de la trame peuvent utiliser le même exposant. Voici un schéma du fonctionnement de l'encodeur AC-3: Alors que celui-ci démontre le fonctionnement du Décodeur AC-3: Le schéma suivant montre comment le signal AC-3 est transmis et reçu en DVB: La Compression Vidéo MPEG-2 (Codage générique de films, vidéo et informations audio associées): MPEG (Motion Picture Expert Group), formé en 1988 d'un groupe d'experts en vidéo, a eu la tâche de définir les standards de compression des signaux audio-visuels. Le grand principe du MPEG vidéo étant de "Ne jamais transmettre un élément d'image déjà transmis", son premier projet, MPEG-1, à été publié en 1993. MPEG-1 supporte principalement l'encodage vidéo allant jusqu'à environ 1.5 Mbits/s, donnant une qualité similaire au VHS et de l'audio stéréo à 192 bits/s. Il est utilisé pour les systèmes CD-i (compact disc interactive) et Vidéo-CD pour enregistrer le vidéo et l'audio sur CD-ROM. MPEG-2 est une extension du standard MPEG-1. Il est principalement un format "broadcast" à des taux de données ("data rate") supérieurs. Il propose des outils algorithmiques pour encoder efficacement le vidéo entrelacé, supporte une grande échelle de "bits rate" et permet l'encodage "surround sound" à multiples canaux. Le format vidéo de postproduction numérique utilise 270 Mbit/s de débit pour coder les images. Sachant qu'un canal satellite accepte autour de 45 Mbit/s(valeur la plus courante), on voit rapidement qu'il va falloir faire suivre un sérieux régime à nos images. Le standard MPEG-2 est capable d'encoder un signal télévision standard à un "bit rate" allant de 3-15 Mbits/s(audio multi-canaux + vidéo + données auxiliaires) et un signal télévision haute définition de 15-30 Mbits/s. Les décodeurs MPEG-2 sont également capables de décoder les signaux MPEG-1. Principes de la diffusion vidéo: Les stations de télévision européennes diffusent présentement à un "frame rate" de 25Hz. Chaque frame (cadre) est formé de deux champs "entrelacés", donnant un taux de champs ("field rate") de 50Hz. Le premier champ de chaque "frame" contient seulement les lignes impaires du "frame"(la première du haut sera la #1). Le second champ contient quant à lui les lignes paires (environ 20 ms après le premier champ). Le signal télévision nord-américain est lui aussi "entrelacé", mais avec un "frame rate" d’un peu moins de 30 Hz (29,97 Hz). Pour les systèmes vidéo autres que la télévision, on retrouve souvent un signal vidéo "non-entrelacé"(par exemple pour la majorité des ordinateurs). En vidéo "nonentrelacé", toutes les lignes d'un "frame" sont lues au même instant. Le vidéo "nonentrelacé" est également appelé "progressively scanned video" ou "sequentially scanned video". Le signal RGB (red, green and blue) peut être exprimé en composantes de luminance(Y) et de chrominance (UV). La largeur de la bande passante de la chrominance peut être réduite en fonction de la luminance sans affecter de manière significative la qualité de l'image. En vidéo standard, le signal vidéo component (YUV) sera échantillonné et numérisé pour former des "pixels" (voir CCIR recommandation 601). Les termes 4:2:2 et 4:2:0 sont souvent utilisés pour décrire la structure d'une image numérique. 4:2:2 signifie que la chrominance est sous-échantillonnée horizontalement par un facteur de deux relatif à la luminance. 4:2:0 signifie que la chrominance est sous-échantillonnée horizontalement et verticalement par un facteur de deux relatif à la luminance. La région active d'une image vidéo numérique standard est de 720 pixels X 576 lignes, pour un "frame rate" de 25 Hz. En utilisant 8 bits pour chaque pixels Y, U ou V, le "bit rate" non compressé pour les signaux 4:2:2 et 4:2:0 sera donc: 4:2:2 - 720x576x25x8 + 360x576x25x(8+8) = 166 Mbits/s 4:2:0 - 720x576x25x8 + 360x288x25x(8+8) = 124 Mbits/s MPEG-2 est capable de compresser le "bit rate" d'un signal vidéo standard 4:2:0 jusqu'à un taux de 3 Mbits/s. Plus le "bit rate" est bas, plus la qualité du signal encodé devient compromise. Pour un signal de diffusion numérique terrestre standard, un "bit rate" d'environ 6 Mbits/s est généralement accepté comme un bon compromis entre la qualité d'image et les impératifs de bande passante du transmetteur (Câbles, Satellites). Principes de réduction du "bit rate": Le système de réduction du "bit rate" fonctionne en enlevant l'information redondante du signal avant la transmission, grâce au codeur et en la réinsérant grâce au décodeur. Deux types de redondances ont été ciblés pour y arriver: La redondance spatiale et temporelle où un élément commun à plusieurs images consécutives n'est transmis qu'avec la première image. Pour les autres images, on ne transporte que sa position dans l'image. C'est le cas d'un plan fixe, où l'on voit une voiture qui va de gauche à droite. On transmet une fois le décor et la voiture et, pour les images suivantes, on indique seulement la position de la voiture. L'autre redondance exploitée est la redondance spatiale. Si, dans la même image, il y a trois voitures identiques, elle n'est codée qu'une seule fois. En y ajoutant la position de chacune dans l'image, on peut reconstituer la scène. La valeur de chaque pixel n'est donc pas indépendante, mais reliée à ses voisins, autant à l'intérieur de la même image que par rapport aux images voisines. Jusqu'à un certain point, la valeur d'un pixel est prédictible en tenant compte de ses voisins. La redondance psycho-visuelle: L'oeil humain à une réponse limitée aux détails spatiaux fins et est moins sensible aux détails près du bord des objets ou des changements de plans. En conséquence, une réduction contrôlée, à l'intérieur d'une image décodée par le procédé de réduction du "bit rate" ne devrait pas être visible par un observateur humain. La figure ci-dessous montre que la perception humaine du bruit n’est pas uniforme mais est une fonction de la fréquence spatiale. Un niveau de bruit supérieur est acceptable pour des fréquences spatiales élevées. Il s’ensuit que le bruit vidéo est effectivement masqué par un fin détail d’image alors qu’il sera plus apparent pour les vastes zones unicolores. Sachant que les mesures de bruit sont toujours pondérées, on comprendra que cette méthode de mesure se rapporte à ce résultat subjectif. Codage spatial ou temporel: Comme nous l’avons dit, la compression vidéo utilise les avantages des deux redondances (spatiale et temporelle). En MPEG-2, la redondance temporelle est d’abord réduite en utilisant les similitudes entre deux images successives. La plus grande partie possible de l’image courante est créée (ou prédite) en utilisant l’information de l’image déjà émise. Quand on utilise cette technique, il suffit de transmettre une image de différence qui élimine les différences entre l’image actuelle et l’image de prédiction. L’image de différence est ensuite soumise à une compression spatiale. Pour des raisons pratiques, il est plus facile d’expliquer la compression spatiale avant d’aborder la compression temporelle. La compression spatiale utilise la similarité entre des pixels adjacents sur une surface unie et tient compte des fréquences spatiales dominantes existant dans les zones en amont. Le JPEG utilise uniquement la compression spatiale dans la mesure où ce système est conçu pour la transmission des images fixes. Le JPEG peut cependant être employé pour la transmission de séquences d’images fixes. Dans cette application, appelée Motion JPEG, le facteur de compression n’est pas aussi bon que si l’on utilisait le codage temporel, mais il sera cependant possible d’effectuer un montage du flux de bits pour effectuer un montage image par image. Codage spatial: En codage spatial, la première étape consiste à effectuer une analyse de fréquence spatiale à l’aide d’une transformée. Une transformée est un outil mathématique permettant de traduire une forme d’onde en différents domaines et, dans notre cas, dans le domaine fréquentiel. Le résultat d’une transformée est une suite de coefficients décrivant l’amplitude de chaque composante fréquentielle présente dans le signal. Une transformée inverse reproduit le signal initial. Si les coefficients sont gérés avec une précision suffisante, la sortie de la transformée inverse doit être identique à la forme d’onde originale. La transformée la plus répandue est la transformée de Fourrier. Cette transformée cherche chaque fréquence comprise dans le signal d’entrée. Elle caractérise chaque fréquence en multipliant le signal d’entrée par un exemple de la fréquence cible appelée fonction de base et en intégrant le produit obtenu. La figure ci-dessous montre que, lorsque la forme de signal d’entrée ne contient pas de composante à la fréquence cible, l’intégrale sera nulle, mais s’il en comporte une, l’intégrale constituera un coefficient caractérisant l’amplitude de cette composante. La transformée de Fourrier présente l’inconvénient de nécessiter des coefficients pour les composantes sinus et cosinus de chaque fréquence. Dans la transformée cosinus, la forme de signal d’entrée est complétée avec son image temporelle avant multiplication par la fonction de base. L'illustration ci-dessus montre que cette opération de «miroir» élimine toutes les composantes sinus et double les composantes cosinus. La fonction de base sinus ne se révèle donc plus utile et un seul coefficient reste alors nécessaire pour chaque fréquence. "Intra-Frame DCT coding": La Transformée Cosinus Discrète (DCT, Discrete Cosine Transform) est la version échantillonnée de la transformée cosinus, elle est utilisée sous forme bidimensionnelle en MPEG-2. Le bloc de 8x8 pixels est changé en bloc de 8x8 coefficients. Comme la transformation réside en une multiplication par une fraction, il se produit un allongement du mot provenant du fait que les coefficients ont une longueur supérieure à celle des valeurs de pixels. Un bloc de pixels 8 bits devient alors un bloc de coefficients 11 bits. Une DCT ne constitue pas alors une compression, mais elle obtient, en fait, le résultat inverse. Cependant, la DCT convertit la source de pixels en une forme facilitant la compression. La figure suivante montre le résultat d’une transformée inverse des coefficients individuels d’une DCT pour un bloc 8x8. Dans les images réelles, diverses fréquences spatiales verticales et horizontales peuvent se produire simultanément et un coefficient en un certain point en représente toutes les combinaisons possibles. La figure montre également les coefficients sous une forme d’onde horizontale unidimensionnelle. La combinaison de ces formes d’onde avec diverses amplitudes et une polarité quelconque doit permettre de reproduire toutes combinaisons des 8 pixels. La combinaison des 64 coefficients de la DCT-2D permettra de reconstituer le bloc initial de 8x8 pixels. En ce qui concerne les images couleurs, il est clair que les signaux de différence de couleur devront également être traités. Les signaux Y, Cr et Cb seront donc assemblés en réseaux séparés de 8x8 pixels et traités séparément. Dans la plupart des signaux correspondant aux images de programme, la majorité des coefficients a une valeur nulle ou proche de zéro. Il ne sera donc pas nécessaire de les transmettre. Il en résulte une compression non négligeable sans perte véritablement conséquente. Motion-compensated inter-frame prediction: Cette technique exploite la redondance temporelle en essayant de prédire le "frame" à être codé à partir d'un "frame" de référence. La prédiction ne peut être basée sur une image "source" car la prédiction doit pouvoir être répétée dans le décodeur, là où les images "sources" n'existent pas( L'image décodée n'est pas identique à l'image source car le procédé de réduction du "bit rate" introduit des petites distorsions dans l'image décodée). En conséquence, l'encodeur contient lui-même un décodeur qui reconstruit l'image exactement comme elle sera dans le décodeur, ce qui permet de faire des prédictions. La prédiction la plus simple du bloc à encoder est celle qui utilise le bloc le plus près de l'image de référence. Ceci permet de réaliser une bonne prédiction pour les régions stationnaires de l'image, mais réussissent moins bien dans les régions où il y a mouvement. Quand un objet se déplace sur l’écran TV, il apparaît à un endroit différent, mais il ne change pas beaucoup d’aspect. On introduit donc une méthode plus sophistiquée, appelée motion-compensated inter-frame prediction, qui consiste à copier(offset) tout mouvement translationnel qui existe entre le bloc qui est encodé et le "frame" de référence et à utiliser le bloc ainsi créé comme prédiction. La différence d’image peut être réduite en mesurant le déplacement au codeur. Ce déplacement est transmis au décodeur sous la forme d’un vecteur. Le décodeur utilise ce vecteur pour décaler une partie de l’image précédente vers l’emplacement approprié dans la nouvelle image. Un vecteur concerne le déplacement d’une zone entière de l’image appelée «macrobloc». La taille d’un macrobloc est déterminée par le codage DCT et la structure de sous-échantillonnage couleur. Les blocs de prédiction sont créés de plusieurs manières différentes. Par exemple, un bloc pourra être prédit à partir d'une image précédente (forward predicted), d'une image suivante (backward predicted) ou bi-directionnellement(bidirectionnally predicted) en faisant une moyenne des prédictions précédentes et suivantes. La méthode utilisée peut changer d'un bloc à l'autre. Le codage bidirectionnel réduit considérablement la quantité de données de différence nécessaire à l’amélioration du degré possible de prédiction. Pour chaque bloc à coder, l'encodeur choisit la meilleure méthode pour maximiser la qualité de l'image selon les contraintes du "bit rate". La méthode choisie est ensuite transmise au décodeur pour reconstituer l'image correctement. Dans les images caractéristiques de programme, les coefficients les plus significatifs de la DCT se trouvent généralement dans le coin supérieur gauche de la matrice. Après pondération, les coefficients de faible valeur seront tronqués à zéro. On obtiendra une transmission plus efficace si on émet d’abord tous les coefficients nonnuls et qu’un code indique ensuite que tous les autres sont à zéro. La scrutation constitue une technique qui augmente la probabilité d’obtenir ce résultat car elle émet les coefficients dans l’ordre probable d’amplitude décroissante. La figure ci-dessus montre que, dans un système non entrelacé, la probabilité d’avoir un coefficient de forte valeur est très élevée dans le coin supérieur gauche et très faible dans le coin inférieur droit. Une scrutation à 45 degrés constitue, dans ce cas, la meilleure solution. Dans la figure de droite, on peut voir la scrutation adaptée à une source entrelacée. Dans une image entrelacée, un bloc de 8x8 pixels d’une trame couvre deux fois sa surface sur l’écran, ce qui fait que, pour une définition donnée de l’image, les fréquences verticales paraîtront le double de leurs homologues horizontales. C’est pourquoi le balayage idéal, pour une source entrelacée, sera effectué en diagonale à pente doublée. La figure de droite montre qu’une fréquence spatiale verticale est balayée avant la fréquence spatiale horizontale identique. Codage de l’entropie: Dans une image vidéo animée, toutes les fréquences spatiales ne sont pas présentes simultanément, la matrice de coefficients de la DCT comportera donc des termes nuls. Malgré la scrutation, des termes nuls apparaîtront encore au milieu des coefficients non-nuls. Le codage RLC (Run Length Coding) permet de gérer plus efficacement ces coefficients. Quand une suite de valeurs identiques, comme des zéros, existe, le codage RLC émet simplement le nombre de zéros plutôt que toute la suite de bits nuls. On peut étudier la probabilité de répétition de certaines valeurs particulières de coefficients dans la vidéo réelle. En pratique, certaines valeurs se rencontrent fréquemment et d’autres moins souvent. Cette information statistique peut être utilisée pour effectuer ultérieurement une compression à longueur variable (VLC). Les valeurs les plus fréquentes sont codées en mots de code courts et les autres en mots plus longs. Pour faciliter la dé-sérialisation on peut utiliser un mot de code comme préfixe pour les autres. Un codeur spatial: La figure suivante regroupe l’ensemble des concepts de codage précédemment évoqués. Le signal d’entrée est supposé être à la norme 4:2:2 série en 8 ou 10 bits(SDI). Le MPEG n’utilise cependant qu’une résolution de 8 bits; aussi, un étage de traitement sera nécessaire pour arrondir les valeurs si le signal entrant est à 10 bits. Les profils MPEG effectuent un échantillonnage du type 4:2:0; un étage d’interpolation verticale/filtre passe-bas sera alors nécessaire. L’arrondi et le sous-échantillonnage couleur introduisent une légère mais irréversible perte d’informations, mais aussi une réduction du débit. Le format d’entrée de la scrutation d’écran doit être tel qu’il puisse être converti en blocs de 8x8 pixels. L’étage DCT transforme l’information d’image dans le domaine fréquentiel. La DCT n’effectue pas de compression par elle même. Après la DCT, les coefficients sont tronqués et pondérés, ce qui correspond à une première compression. Les coefficients sont ensuite scrutés en zigzag pour accroître la probabilité de commencer par les coefficients les plus significatifs. Après le dernier coefficient non-nul, un code de fin de bloc (EOB, End of Block) est généré. Les données afférentes aux coefficients sont ensuite compressées à l’aide de codages RLC et VLC. Dans les systèmes à débit variable, la quantification est fixe mais, dans un système à débit constant, une mémoire tampon est utilisée pour absorber les variations intervenant au cours du codage. À la suite de la transformée inverse, le bloc de 8x8 pixels est recréé. Pour obtenir un signal de sortie d’écran balayé, les blocs sont stockés dans une RAM qui est lue ligne par ligne. Pour avoir une sortie 4:2:2 à partir de données 4:2:0, il faudra utiliser une interpolation verticale comme indiqué sur la figure suivante: Dans un système 4:2:0, les échantillons de chrominance sont intercalés verticalement entre les échantillons de luminance de façon à ce qu’ils soient régulièrement espacés quand un système entrelacé est utilisé. Images I, P et B(I-Frames, P-Frames, B-Frames): En MPEG-2, trois différents types d’images sont nécessaires pour effectuer le codage différentiel et le codage bidirectionnel avec un minimum d’erreurs de propagation: Les images I(I-Frames): Sont intra-codées et ne nécessitent pas d’informations supplémentaires pour être décodées. Elles nécessitent beaucoup de données comparativement aux autres types d’images et c’est pourquoi elles ne sont transmises que lorsque cela est nécessaire. Elles consistent essentiellement en coefficients de transformées et n’ont pas de vecteur de mouvement. Elles autorisent la commutation de voies et bloquent la propagation des erreurs. Les images P(P-Frames): Sont celles qui sont déduites d’une image antérieure qui peut être de type I ou P. Les données d’une image P sont constituées de vecteurs décrivant où chaque macrobloc doit être pris dans l’image précédente et des coefficients non transformés décrivant la correction ou les données de différence à ajouter à ce macrobloc. Les images P comportent pratiquement la moitié des données d’une image I. Les images B(B-Frames): Sont prédites bi-directionnellement à partir d’images antérieures ou postérieures et de type I ou P. Les données des images de type B consistent en vecteurs décrivant l’endroit où les données doivent être prises dans les images antérieures ou postérieures. Elles contiennent également les coefficients de transformées fournissant la correction. La prédiction bidirectionnelle est si efficace que les données de correction sont minimes et que l’image de type P utilise pratiquement le quart des données par rapport à une image de type I. À partir de ces frames a été introduit le concept de Groupe d’Images(GOP, Group Of Pictures). Le GOP commence par une image I, suivie de quelques images P espacées et entre lesquelles se placent les images restantes qui sont de type B. La fin du GOP se situe à la dernière image précédant immédiatement une nouvelle image I. La longueur d’un GOP est variable, mais la valeur la plus courante se situe entre 12 et 15. En fait, si les données d’une image B doivent être utilisées pour construire une image ultérieure, ces données doivent rester disponibles dans le décodeur. Par conséquent, le codage bidirectionnel implique que les données soient extraites de la séquence et provisoirement sauvegardées. La figure ci-dessus montre également que les données de l’image P sont émises avant celles de l’image B. Notez également que les dernières images B du GOP ne peuvent être transmises qu’après la première image I du GOP suivant, dans la mesure où elles ont besoin de son contenu pour être décodées bi-directionnellement. Afin de replacer convenablement les images dans leur ordre, une référence temporelle est incluse dans chaque image. Comme des en-têtes sont régulièrement insérés dans le flux de données, un fichier MPEG-2 peut être affiché dans l’ordre chronologique sur un ordinateur, par exemple. L’extraction des données d’images d’une séquence, non seulement nécessite un supplément de mémoire dans le codeur et le décodeur mais aussi génère du retard. Le nombre d’images bidirectionnelles insérées entre des images d’autres types doit être réduit pour diminuer le coût des équipements et limiter le retard si celui-ci doit répondre à des contingences. Un compromis doit être fait entre le facteur de compression et le retard de codage. Pour une qualité donnée, l’émission d’images I uniquement double pratiquement le débit par rapport à une séquence IBBP. Quand les facilités de montage sont essentielles, une séquence IB constitue un compromis pratique. Pré-traitement: Un compresseur essaie d’éliminer la redondance à l’intérieur de l’image et entre les images. Tout phénomène diminuant la redondance est indésirable. Le bruit et le grain du film sont particulièrement pénalisants car ils concernent la totalité de l’image. Après le processus de DCT, le bruit induit la présence de plus de coefficients nonnuls, coefficients que le codeur ne peut pas distinguer des véritables données de l’image. Une quantification plus sévère sera alors nécessaire pour coder tous les coefficients, réduisant alors la qualité de l’image. Le bruit réduit également la similitude entre des images successives, accroissant par ce phénomène les données de différence nécessaires. Tout artefact composite de décodage, visible à l’entrée d’un codeur MPEG-2, se retrouve naturellement reproduit par le décodeur. Toute pratique génératrice de mouvement indésirable doit être évitée. L’instabilité d’un support de caméra pourra créer, en plus de tremblements de l’image, une augmentation des différences d’images et des nécessités de transmission de vecteurs. Ceci se produit également sur des signaux provenant d’un télécinéma dont les images tremblent si, par exemple, les perforations du film sont endommagées. En général, il est important que la vidéo qui est susceptible d’être compressée soit de la meilleure qualité possible. Si cette qualité ne peut pas être atteinte, il est souhaitable d’utiliser une réduction de bruit ou tout autre procédé de stabilisation. Si un facteur de compression élevé est nécessaire, le niveau d’artefacts peut augmenter, particulièrement si la qualité du signal est faible. Dans ce cas, il est souhaitable de réduire l’entropie en effectuant un pré-filtrage avant l’entrée dans le codeur. Le signal est donc soumis à un filtrage passe-bas (low pass filter) bidimensionnel qui réduit le nombre de coefficients et diminue le niveau des artefacts. L’image sera moins fine mais une perte de finesse est préférable à un niveau élevé d’artefacts. Dans la plupart des applications en MPEG-2, on utilise l’échantillonnage 4:2:0 qui nécessite un sous-échantillonnage du chroma si le signal d’origine est en 4:2:2. En MPEG-1, un sous-échantillonnage supplémentaire est appliqué afin de produire un signal d’entrée ou SIF (Source Input Format) comprenant seulement 532 pixels. Cette technique divise encore l’entropie par un facteur supplémentaire. Pour des facteurs de compression plus élevés, on utilise un signal à 176 pixels appelé QSIF (Quarter Source Input Format). Le sous-échantillonnage est un processus combinant un filtre spatial passe-bas et un interpolateur. En vidéo 50 Hz, deux trames successives représentent la même image de film et il n’existe pas de mouvement entre elles. Le mouvement alterne donc entre zéro(entre deux trames) et sa valeur de mouvement(entre deux images). Comme le mouvement est transmis différentiellement, ceci se traduit par une sérieuse augmentation des données de vecteurs. En vidéo 60 Hz, un défilement intermittent 3:2 est utilisé pour obtenir du 60 Hz à partir de film à 24 images par seconde: une image est constituée de 2 trames, la suivante de 3, et ainsi de suite. Par conséquent, une trame sur 5 est complètement redondante. Le MPEG gère mieux les images de télécinéma en supprimant la troisième du système 3:2. Un code spécifique au 24 Hz alerte le décodeur qui recrée la séquence 3:2 en relisant une mémoire de trame. Profils et niveaux: À l’aide des outils de codage définis dans MPEG-2, il existe des milliers de combinaisons possibles. Dans un but de simplification, le MPEG-2 est divisé en Profils, chaque profil étant lui-même subdivisé en Niveaux.Un profil constitue à la base la palette des caractéristiques d’un codage d’une certaine complexité. Un niveau est en fait un paramètre définissant par exemple la taille de l’image ou le débit du flux de bits. Il existe en principe 24 combinaisons possibles mais toutes n’ont pas été définies. Un décodeur MPEG possédant un profil et un niveau donnés doit pouvoir décoder les signaux émanant d’un profil et d’un niveau inférieurs. Le Profil Simple(Simple Profile) ne comporte pas de codage bidirectionnel, c’est pourquoi seules les images de type I et P pourront être générées par le codeur. Les délais de codage et de décodage sont ici réduits et le matériel correspondant est plus simple. Le profil simple n’a été seulement défini qu’au niveau Principal (Simple Profile at Main Level, SP@ML). Le Profil Principal (Main Profile) est conçu pour une vaste gamme d’utilisations. Le niveau Bas utilise un signal d’entrée à faible résolution ne possédant que 352 pixels par ligne. La plupart des applications de diffusion nécessite le Profil principal au Niveau Principal (Main Profile at Main Level, MP@ML), appellation du MPEG utilisé en télévision standard. Le niveau Haut-1440 est un système à haute définition qui double la définition par rapport au niveau principal. Le niveau Haut double non seulement la définition horizontale, mais maintient cette résolution pour le format 16:9 en portant à 1920 le nombre d’échantillons horizontaux. Dans les systèmes de compression utilisant les transformées spatiales et la re-quantification, il est possible de produire des signaux adaptables. Un processus d’adaptabilité est celui où le signal d’entrée résulte d’un signal principal et d’un signal complémentaire. Le signal principal peut être décodé seul pour donner une image d’une certaine qualité mais, si l’information du signal complémentaire est ajoutée, un certain aspect de la qualité peut être amélioré. Un codeur MPEG conventionnel peut, en re-quantifiant fortement les coefficients par exemple, coder une image avec un rapport signal/bruit modéré. Si cette image est localement décodée et soustraite pixel par pixel de l’image originale, le résultat constituera l’image de bruit de quantification. Cette image peut être compressée et transmise en tant que signal complémentaire. Un décodeur simple utilisera seulement le flux principal avec son niveau de bruit mais un décodeur plus élaboré peut décoder les deux flux de bits et produire une image moins bruitée. Ceci constitue le principe de l’adaptabilité SNR. D’autre part, le codage des fréquences spatiales les plus basses d’une image HDTV(High Definition Television) peut produire un flux principal qu’un récepteur ordinaire SDTV(Standard Definition television) peut décoder. Si l’image à faible définition est décodée localement et soustraite de l’image originale, une image d’amélioration de la définition est obtenue. Cette image peut être codée comme signal complémentaire. Un décodeur adéquat sera capable de restituer l’image haute définition. Ceci constitue le principe de l’adaptabilité Spatiale. Le profil Haut est compatible avec les adaptabilités SNR et Spatiale et accepte l’échantillonnage 4:2:2. Le profil 4:2:2 a été développé dans le sens d’une plus grande compatibilité avec le matériel de production numérique. Ce profil permet l’exploitation en 4:2:2 sans exiger la complexité supplémentaire du profil Haut. Un décodeur HP@ML peut accepter une adaptabilité SNR qui ne constitue pas en soi un impératif de production. Le niveau 4:2:2 a la même liberté de structure de GOP que les autres profils mais, en pratique, il est plus souvent utilisé avec des GOPs courts pour faciliter les opérations de montage. Le 4.2.2 nécessite un flux de bits supérieur au 4.2.0 et l'utilisation de GOP impose quand même un débit supérieur pour une qualité donnée. La Compression Vidéo MPEG-4 (Codage d’objets audio-visuels) MPEG-4 est un standard ISO/IEC développé par MPEG (Moving Picture Experts Group), comité développant aussi les normes MPEG-1 et MPEG-2. C'est notamment grâce à ces standards que la vidéo sur CD-ROM et la télévision numérique sont aujourd'hui possibles. L'objectif premier de la norme MPEG-4 était de succéder aux normes MPEG-1 pour la compression et le transfert audio/vidéo et MPEG-2 pour la télévision numérique. Mais lors de l'élaboration de la norme, il a été défini un champ d'applications et de fonctionnalités dépassant largement le cadre d'une simple évolution, la norme devient alors une véritable révolution tant au niveau même de son concept qu'au nombre d'applications qu'elle touche. MPEG-4 devient la fusion de trois mondes: l'informatique, les télécommunications et la télévision. Elle sera le résultat d'un effort international regroupant des centaines d'ingénieurs et de chercheurs du monde entier et de divers milieux: universités, centres de recherche, grands groupes informatiques (IBM, Microsoft, Sun, ...) et de télécommunications (AT&T, France Telecom, ...) et autres grands groupes industriels (Phillips, Sony, ...). MPEG-4 a été finalisé en octobre 1998. Cette norme est bâtie sur le succès futur de la télévision numérique, des applications graphiques interactives et du multimédia (WWW), son but étant d'assurer une standardisation technologique à tous les niveaux; production, distribution et diffusion. Voici une vue d'ensemble du standard MPEG-4, expliquant sur quelles technologies il se base, et quelles applications supportent cette technologie. Nous ne développerons pas la partie audio de MPEG-4 pour nous concentrer uniquement sur la partie vidéo. Objectifs de la norme, cahier des charges et fonctionnalités: Les objectifs de la norme sont assez vastes du fait du nombre important d'applications touchées. Le cahier des charges n'en est que plus précis et complet: Il décrit de manière précise tout ce qui touche au codage de la norme suivant une nouvelle approche orientée objet. Une scène devient alors une composition d'objets média hiérarchisés, chaque objet étant décomposé en paramètres. Suit l'interactivité de la norme. Le codage objet simplifiant l'accès aux objets, la manipulation et l'organisation ainsi que l'intégration harmonieuse d'objets naturels et synthétiques. Puis l'adaptabilité, qui est un des points forts de la norme qui se veut universelle (toutes les applications, pour tout le monde). L'Adaptabilité (scalability) permet la multi-résolution basée sur le contenu, la prise en compte des échelles spatiales, temporelles, qualitatives, et de complexité. L'adaptabilité du codage, du décodage, du transfert. Il définit également tout ce qui concerne les problèmes plus techniques comme la compression, la robustesse aux erreurs, notamment pour les transferts et les environnements peu fiables, le transfert (synchronisation des données, audio et vidéo) et la sécurité. Ce cahier des charges très complet a pour but de satisfaire un grand nombre d'applications qui vont maintenant être développées. Les applications: Le standard MPEG-4 fourni un ensemble de technologies satisfaisant le besoin des auteurs, des fournisseurs et, finalement, des utilisateurs. Pour les auteurs, MPEG-4 permettra la production de séquences réutilisables. Il leur permettra une grande flexibilité, autorisant l'amalgame de la télévision numérique, des animations graphiques et des pages web. En outre, ils auront la possibilité de protéger leurs œuvres. Pour les fournisseurs d'accès Internet, MPEG-4 offrira des informations transparentes, qu'ils pourront aisément adapter à la demande de l'utilisateur (par exemple: l'adaptation en fonction de la langue de l'utilisateur), ainsi que le contrôle des transferts(gestion des pertes de données). Pour les utilisateurs, MPEG-4 aura de nombreuses possibilités qui pourront être accessibles à partir d'un simple terminal. Voici un large éventail de toutes les applications concernées par les apports d’une telle standardisation: 1. La communication temps réel (vidéophone, ...) 2. La surveillance. 3. Le multimédia mobile (mini portable faisant office de téléphone, fax, agenda, ... par liaison GSM ou satellite). 4. Le stockage et la recherche d’informations basés sur le contenu. 5. La lecture de vidéo sur Internet/Intranet sans avoir à télécharger toute la source. 6. La visualisation de scènes simultanément à plusieurs endroits (téléconférence ...). 7. La transmission (tout types de données : vidéo, audio, ...). 8. La postproduction (cinéma et télé). 9. Le DVD. 10. Les applications de l’animation de visages: réunions virtuelles, ... 11. La hiérarchisation et la gestion des objets audio dans une scène. Buts de la standardisation: Pour toutes ces applications, les buts de la standardisation MPEG-4 sont: • Empêcher la non-portabilité par l'harmonisation des moyens de codage et de décodage. • Représenter des "objets médias"(unités sonore, visuelle et audiovisuelle), ces unités peuvent être enregistrées par un appareil photo, un microphone ou générées par un ordinateur. • Décrire la composition des objets formant une scène audiovisuelle. • Synchroniser les différents objets média pour qu'ils puissent être transportables. • Permettre l'interaction entre l'utilisateur et le diffuseur. Description Technique (essentiellement, l'aspect visuel de la norme.): Structure générale, description: La norme MPEG-4 propose une solution radicalement différente pour le codage des vidéos afin de satisfaire à tous ses besoins dans les différentes applications qu’elle propose. Les scènes audiovisuelles sont ainsi composées de plusieurs objets médias hiérarchisés. Ainsi, dans l'arborescence de cette hiérarchie, on trouve: • Des images fixes (background). • Des objets vidéo (objets en mouvement sans background). • Des objets audio (la voix associée à l'objet en mouvement). MPEG-4 définit donc précisément la manière de décrire une scène. La description d'une scène codée par MPEG-4 peut être comparée au langage VRML dans sa structure et ses fonctionnalités. Description d’une scène: Une scène audiovisuelle, codée par MPEG-4, est décrite comme un ensemble d'éléments individualisés. Elle contient des composants "média" simples regroupés par type. Ces groupes correspondent aux branches d’un arbre de découpage où chaque feuille représente un élément simple. Par exemple, si cette branche correspondait à une personne qui parle, elle serait divisée en feuilles contenant le fond, la parole et les divers composants graphiques représentant la personne en train de parler. Une telle construction permet ainsi la construction de scènes complexes tout en autorisant l'utilisateur à ne manipuler qu'une partie des objets. Un objet média peut donc être associé à une information. MPEG-4 fournit des méthodes de codage pour les objets individuels. La norme permet également d’optimiser le codage de plusieurs objets dans une scène. L’information nécessaire à la composition d’une scène est contenue dans la description de la scène. Celle-ci est codée et transmise avec les objets média. Ainsi, pour faciliter l’interactivité, la description de la scène est codée indépendamment des "Objets média" primitifs. Une grande attention est portée sur l’identification des paramètres relatifs à la scène. Ces paramètres sont donnés par différents algorithmes qui codent de façon optimale les objets. MPEG-4 autorise la modification de ces paramètres sans avoir à décoder les objets média. Pour cela, ils sont placés dans la partie description de la scène et non avec les objets média. Plus généralement, MPEG-4 standardise la façon de décrire une scène, en permettant par exemple: • de placer un objet n'importe où dans un système de coordonnées. • d'effectuer des transformations géométriques ou acoustiques sur un objet. • de grouper des éléments "média" simples pour former un composant "média" complexe. • de modifier les attributs d'un objet en transformant ses données. • de changer, interactivement, la vue et l'écoute d'une scène. Mais quelles sont exactement les informations données dans la description d’une scène? La première information donne la façon de coder un groupement d’objets. Une scène MPEG-4 suit une structure hiérarchique qui peut être représentée comme un graphe acyclique. Chaque feuille du graphe représente un objet média. La structure de l’arborescence n’est pas nécessairement statique; les "feuilles"(avec leurs paramètres de positionnement) peuvent être changées. On peut aussi envisager d’en supprimer, d’en remplacer ou même d’en ajouter. La deuxième information donne le positionnement spatial et temporel des objets. Dans le modèle MPEG-4, les objets audiovisuels sont à la fois spatiaux et temporels. Chaque objet média a un système de coordonnées locales. Par ce système il est possible d’attribuer un "état" spatio-temporel et une échelle à chaque objet. Les objets média sont disposés dans la scène après avoir subi une transformation du repère local au repère global, transformation définie par un de ses parents. La troisième information donne la valeur qui est attribuée à la sélection. Chaque nœud et feuille de l’arbre contient un panel d’informations. Certaines sont accessibles et d’autres restent fixes. Il est donc possible de les paramétrer à loisir suivant les informations données par l’acteur et des contraintes définies par l’auteur. Enfin, la dernière information autorise une autre transformation pour les objets média. La structure d’une scène MPEG-4 est fortement influencée par le concept de VRML et ses possibilités d’interaction. Ceci représente l’ambition majeure de MPEG-4. Interaction avec les objets "média" dans une scène MPEG-4: L'utilisateur visualise en général des scènes respectant le dessein de leur auteur. Mais, suivant la liberté que ce dernier autorise, l'utilisateur a la possibilité d'interagir avec la scène, ce qui lui permet entre autres: • de changer le point de vue ou d'écoute d'une scène(par la navigation au travers de la scène). • de déplacer un objet dans une scène. • de cliquer sur un objet pour obtenir des informations complémentaires sur l'objet ou lui faire effectuer des actions spécifiques. • de sélectionner une langue parmi celles qui sont proposées. • d'effectuer beaucoup d'autres actions complexes comme établir une communication entre deux personnes par un simple clic de souris .... Codage des objets vidéo (VOP): Vidéo naturelle, des outils standard: Les outils servant à représenter les objets visuels naturels avec MPEG-4 doivent provenir d'une technologie standardisée permettant le stockage, la transmission et la manipulation de toutes les données de manière simple et efficace. Ces outils doivent permettre également de décoder et représenter les images ou les vidéos contenues dans des VO (Vidéo Objects) et de les associer à d'autres AVO (Audio-Video Objects) pour créer une scène. Pour atteindre ce but et éviter d'avoir une multitude d'applications non conventionnées qui effectueraient quelques-unes de ces fonctions, MPEG-4 propose des solutions et des algorithmes, regroupant la plupart des fonctionnalités demandées par MPEG-4 comme pour: • La compression des images et des vidéos. • La compression des textures mapping pour les maillages 2D et 3D. • La compression des maillages 2D implicites. • La compression des champs d'animation géométrique des maillages. • L'accès aléatoire de tous types de VO. • L'extension des fonctionnalités de manipulation des images et des séquences vidéo. • Le codage des vidéos et des images basé sur le contenu. • Le re-dimensionnement des objets basé sur le contenu. • Le re-dimensionnement spatial, temporel et qualitatif. • La robustesse et la résistance aux erreurs quel que soit l'environnement. Toutes ces solutions seront fournies dans la partie visuelle de la norme MPEG-4. Structure des outils de représentation des vidéos "naturelles": Les algorithmes de codage des images et des vidéos MPEG-4 donneront une représentation rationnelle des objets vidéo, avec pour but de respecter les fonctionnalités basées sur le contenu. Mais MPEG-4 devra également supporter les fonctionnalités déjà fournies par MPEG-1 et MPEG-2, soit la compression efficace des images traditionnelles rectangulaires de différents formats, la fréquence des images, la profondeur des pixels, le taux de transfert, et les possibilités de redimensionnements spatial, temporel et qualitatif. MPEG-4 veut supporter les algorithmes permettant un transfert efficace à très faible taux de transmission (VLBV: Very Low Bit-rate Video, entre 5 et 64kBit/s) avec un taux de compression satisfaisant, une grande résistance aux erreurs et une faible complexité pour les applications multimédia temps réel. Toutes ces applications, prévues pour de faible débit, devront être aussi efficaces à haut débit de transfert (jusqu'à 4MBit/s). L'idée d'un codage basé sur le contenu implique que MPEG-4 puisse coder et décoder séparément les différents "objets vidéo"(VO) d'une scène, afin de permettre une gestion simplifiée de l'interactivité, la manipulation et la représentation des objets vidéo, ainsi que le mélange entre objets naturels et objets synthétiques (comme par exemple une scène avec un fond virtuel et des personnages réels). Mais les algorithmes supplémentaires nécessaires à la gestion du codage basé sur le contenu ne devront être qu'un ensemble additionnel d'outils aux VLBV et HBV déjà utilisés dans MPEG-1 et MPEG-2. Codage des textures et des images fixes: MPEG-4 utilise les algorithmes basés sur la méthode des ondelettes (wavelet) pour compresser ce type d'images. En effet, cette compression est très efficace quel que soit le taux de transfert, tout en conservant ses capacités d'adaptabilité spatiale et qualitative, ce qui est non négligeable pour résoudre les problèmes d'interactivités (notamment pour les changement de vue) et de texture des objets 2D et 3D dans les images virtuelles. Objets synthétiques: Les objets synthétiques englobent une importante partie de l'imagerie par ordinateur. Ces objets sont décrits de façon paramétrique, suivant un modèle que l'on peut diviser en 4 parties: • La description synthétique du visage et du corps humain. • L'animation des champs du visage et du corps. • Le codage dynamique et statique du maillage avec les textures. • Le codage des textures suivant les vues. Animation du visage: L'animation d'un visage se fait à partir d'un modèle ayant une expression neutre (FDP: Facial Definition Parameter) contrôlé par une série de paramètres contenus dans le FAP (Facial Animation Parameter). Pour animer un visage, il suffira donc de télécharger le modèle, et d'envoyer les paramètres contrôlant le mouvement du visage qui se traduiront alors sur le visage neutre à l'aide d'un système prévu à cet effet par MPEG-4 (FIT: Face Interpolation Technique). Ce système possède l'avantage de n'avoir besoin que d'un visage neutre permettant d'une part d'accélérer la formation des mouvements et, d'autre part, de pouvoir en créer de nouveau sans avoir de modèle d'expression prédéfini. La partie du standard relative à l'animation des visages permet d'envoyer des paramètres de calibrage et d'animation des visages synthétiques. Ces modèles ne sont pas standardisés par la norme MPEG-4, seuls les paramètres le sont: • Définition et codage des paramètres d'animation. • Positions et orientations des points caractéristiques (points-clefs) pour l'animation du maillage (modélisation "fil de fer") du visage. • Configuration des lèvres correspondant aux phonèmes de la parole. • Positions 3D des points caractéristiques. • Calibration du maillage 3D pour l'animation. • Carte des textures du visage. • Caractéristiques personnelles. • Codage des textures du visage. Animation du corps: La technologie d'animation du corps proviendra directement de celle du visage, afin de garder l'esprit de standardisation de la norme MPEG-4. Animation des maillages 2D: Le maillage 2D est une partition d'un espace 2D par des polygones eux-mêmes référencés par une liste de nœuds. La norme MPEG-4 utilise uniquement le type de maillage triangulaire, longtemps utilisé pour la représentation d'objets 3D. Ainsi, la modélisation par maillage triangulaire peut être considérée comme la projection d'un maillage 3D sur une image plane. MPEG-4 a voulu utiliser un maillage dynamique triangulaire pour conserver la facilité de manipulation et les multiples fonctionnalités qu'offre cette solution pour les objets 3D, comme pour la manipulation d'objet vidéo: • Améliorer le réalisme des scènes. • Modifier ou remplacer des objets. • Rendre plus robuste l'interpolation spatio-temporelle lors de la reconstruction des images (en cas de pertes d'informations). Pour la compression: • le maillage permet d'augmenter le taux de compression avec un faible taux d'erreur. Pour le codage des maillages 2D à structure implicite: • Prédiction basée sur le maillage et transfiguration de texture animée. • Modélisation 2D de Delaunay ou maillage régulier avec suivi de mouvement pour les objets animés. • Prédiction de mouvement et suspension de transmission des textures avec les maillages dynamiques. • Compression géométrique pour les vecteurs de déplacement. • Compression de maillage 2D à reconstruction implicite de la structure et du décodeur. Échelonnage en fonction des vues: En fonction de la façon dont on regarde une scène, toutes les informations ne sont pas nécessaires. L'échelonnage permet de sélectionner uniquement la partie utile de l'information, et donc de transférer une masse d'informations considérablement réduite entre la base de données et l'utilisateur, données qui seront traitées sous cette forme réduite au codage et au décodage(compression). Cette méthode est de plus applicable aussi bien avec les ondelettes qu'avec le codeur DCT (Discrete Cosine transform). Codage des formes et de la transparence: Le codage des formes sera supporté dans l'assistance à la description et à la composition des images et des vidéos conventionnelles aussi bien qu'à celles des objets vidéo. Les applications bénéficiant des cartes binaires de formes sont surtout les représentations d'images basées sur le contenu pour les images des bases de données, des jeux interactifs, la surveillance et l'animation. Des techniques sont fournies pour permettre un codage efficace des formes binaires. Une carte de transparence binaire définit si un pixel appartient ou non à un objet. Le codage des formes en "niveaux de gris" ou en "transparence". Une carte "alpha" définit la transparence d'un objet, qui n'est pas nécessairement uniforme. Des cartes de transparence multi-niveaux sont fréquemment utilisées pour superposer les différents "calques" des séquences d'images. D'autres applications bénéficiant des cartes binaires de transparence sont les représentations d'images basées sur le contenu pour les images des bases de données, des jeux interactifs, la surveillance et l'animation. Des techniques efficaces sont prévues, permettant un codage efficace aussi bien en niveaux de gris qu'en transparence. Une carte de transparence binaire définit si un pixel appartient ou non à un objet. Une carte des niveaux de gris définit la transparence exacte de chaque pixel. Les outils de MPEG-4: Le standard visuel de la norme MPEG-4 permettra de coder des images et des vidéos avec des scènes synthétiques créées par ordinateur. A cette fin, le standard visuel contiendra aussi bien des outils et des algorithmes supportant le codage d'images réelles et de vidéos que des outils supportant la compression de paramètres synthétiques 2D et 3D(maillages, textes, ...). Voici un aperçu des fonctionnalités qui seront supportées par les différents outils et algorithmes du standard visuel de la norme MPEG-4. Fonctionnalités supportées par les outils de MPEG-4: Fonctionnalités conventionnelles et basées sur le contenu: La différence entre un codeur VLBV, et un codeur MPEG-4 tient compte de l'aspect basé sur le contenu. Les deux codeurs présentent de nombreuses similitudes, mais le codeur basé sur le contenu possède une extension pour la gestion des formes(shape) et de la transparence. Les avantages des fonctionnalités basées sur le contenu sont: • Codage des images et de la vidéo basé sur le contenu pour permettre un décodage et une reconstruction adaptés à chaque type d'objet vidéo. • Accès aléatoire au contenu des séquences vidéos pour permettre des fonctionnalités telles que la pause, l'avance et le retour rapides. • Accroissement des possibilités de manipulation du contenu des séquences vidéos pour permettre des fonctionnalités telles que les déformations de textes, textures, images et séquences vidéos synthétiques ou naturelles lors de la reconstruction du contenu de la vidéo. Adaptabilité du codage des "objets vidéo": MPEG-4 code tous les types d'images (images naturelles rectangulaires ou objets à contours complexes). L'adaptabilité de ce codage vient des préférences qu'on peut lui donner en fonction des besoins, comme par exemple: • Réduction de la complexité du décodeur, et donc réduction de la qualité pour des images dont la qualité n'est pas primordiale. • Réduction de la résolution pour une utilisation en petite taille de grands objets. • Réduction de la résolution temporelle: séquence vidéo lue avec moins d'images par secondes. • Réduction de la qualité sans perte de taille ou de cadence. • Etc ... Le but du codage MPEG-4 étant de donner à n’importe quel utilisateur les mêmes possibilités d’utilisation, quelles que soient ses capacités matérielles, la norme est donc faite de manière à pouvoir s’adapter aux besoins et aux exigences de l’utilisateur. Ainsi, l’adaptabilité de la norme se fait sur différents champs: • Adaptabilité de la complexité au niveau de l'encodeur pour permettre aux encodeurs de complexité plus ou moins élevée de générer un flux de données valide pour une texture, image ou vidéo donnée. • Adaptabilité de la complexité au niveau du décodeur pour permettre à un flux de données représentant une texture, image ou vidéo, d'être décodé par des décodeurs de niveaux de complexité différents. La qualité de la reconstruction est, en général, relative à la complexité du décodeur utilisé. Ceci pourrait entraîner le fait que des décodeurs moins puissants ne puissent décoder qu'une partie du flux de données. • Adaptabilité spatiale qui permet aux décodeurs de décoder un sous-ensemble du flux de données global généré par l'encodeur pour reconstruire et afficher les textures, images et vidéos, à une résolution spatiale plus faible. Pour les textures et images fixes, un maximum de 11 niveaux d'échelonnage spatial sera supporté. Pour les séquences vidéo, un maximum de trois niveaux sera supporté. • Adaptabilité temporelle pour permettre aux décodeurs de décoder un sousensemble du flux de données global généré par l'encodeur pour reconstruire et afficher une séquence vidéo à une résolution temporelle plus faible. Un maximum de trois niveaux sera supporté. • Adaptabilité qualitative qui permet de séparer un flux de données en un certain nombre de couches de façon à ce que la combinaison d'un sousensemble de ces couches puisse être décodée en un signal significatif. Cette division au sein du flux de données peut s'effectuer aussi bien au cours de la transmission que dans le décodeur. La qualité de reconstruction est, en général, relative au nombre de couches utilisées pour le décodage et la reconstruction. Cette adaptabilité permettra à tous les utilisateurs du réseau d'avoir accès aux applications temps-réel quelle que soit la configuration de leur machine (surtout si celle-ci est limitée). L’interaction: MPEG-4 permet à l’utilisateur de ne plus être passif. L’utilisateur gère les informations qu’il désire. Il y a deux types d’interactions : • Celle du client. • Celle du serveur. Le but est de permettre au client de pouvoir supprimer des informations qu’il ne désire pas ou bien d’accéder à une surcharge d’information (ex : changement de langage ...). En outre, l’utilisateur peut modifier les attributs de la scène en changeant la position des objets, les rendant visibles ou invisibles, en changeant la police des caractères, la couleur ou encore le volume sonore d’un acteur de la scène (par exemple un acteur peut être isolé dans une scène, il sera possible d’isoler également ses dires et de supprimer toute autre source sonore). Du côté du serveur, son action peut permettre par exemple de changer de publicité au cours d’un match de hockey automatiquement, il peut accéder aux mêmes données que le client, mais peut se réserver le droit d’empêcher certaines interactions. Les droits de propriétés intellectuelles: MPEG-4 traite le problème des droits de propriétés intellectuelles par insertion dans les objets d'un code d'identification(IPI) donnant des informations sur le contenu, le type du contenu et les droits attenant à l'objet en question. Les données contenues dans l'IPI et associées à chaque objet peuvent différer, même pour des objets appartenant à une même image (par ex: droits libres sur le fond, mais restreints sur le personnage). L'insertion de l'IPI au moment du codage implique également l'insertion des mécanismes de protection équivalent aux droits sur l'image (protection contre les copies, facturation). Pour réaliser une protection efficace, les mécanismes utilisés sont très complexes et sont développés sous le titre de "IPMP" ... Informations contenues dans les objets: MPEG-4 permettra aussi d'attacher aux objets des informations complémentaires sur eux et leur contenu. Ces informations (OCI) pourront être envoyées textuellement en même temps que les objets, et pourront être classifiées suivant des tables prédéfinies même en dehors de la norme. Les formats supportés: • Taux de transfert: entre 5 kbits/s et 4 Mbits/s • Formats: vidéo progressive et entrelacée • Résolutions: du format sub-QCIF au format TV Efficacité de la compression: • Compression efficace de la vidéo quel que soit le taux de transfert. • Compression efficace des textures pour le plaquage de textures sur les maillages 2D et 3D. Les outils de MPEG-4 version 1: MPEG-4 fournit un large et riche éventail d'outils pour le codage des objets audiovisuels. Dans le but de permettre une implantation effective du standard, des sous-ensembles des outils Système, Vidéo et Audio de MPEG-4 ont été identifiés afin de n'être utilisés que pour des applications spécifiques. Ces sous-ensembles, appelés "profils", limitent l'ensemble d'outils qu'un codeur aura à implanter. Pour chacun de ces profils, un ou deux "niveaux" ont été mis en place pour restreindre la complexité de calcul. L'approche est similaire à celle de MPEG-2, alors que la plus connue des combinaisons Profil/Niveaux est: "Profil principal @ Niveau principal". Une combinaison "Profil@Niveau" permet à un programmeur de codeur de n'implanter que les sous-ensembles du standard dont il a besoin, tant qu'il maintient la compatibilité avec d'autres outils MPEG-4 construit sur la même combinaison. De tester si ce module MPEG-4 respecte le standard (test de la conformité). Les profils existent pour différents types de médias (audio, vidéo et graphiques) et pour la description de scènes. MPEG ne conseille pas de procéder à des combinaisons de ces profils mais toutes les précautions ont été prises pour que les différents types de médias se complètent aisément. Profils visuels: La partie visuelle du standard fournit des profils pour le codage des contenus visuels naturels, synthétiques et hybrides naturel/synthétique. Il y a en tout cinq profils pour le visuel naturel: • Le profil visuel simple fournit un codeur, efficace et résistant aux erreurs, d'objets vidéo • rectangulaires, adapté pour les applications de réseaux mobiles, tels que PCS et IMT2000. • Le profil visuel simple adaptable ajoute au précédent un support pour coder des objets adaptables aux niveaux temporel et spatial. Il est très utile pour les applications qui fournissent des services sur plus d'un niveau de qualité à cause du débit ou des possibilités limitées du décodeur, par exemple une application Internet. • Le profil visuel 'noyau' ajoute au profil visuel simple un support pour coder des objets adaptables de formes arbitraires et temporaires. Il est très utile pour les applications telle que celles qui fournissent une interactivité avec le contenu relativement simple (applications multimédias sur Internet). • Le profil visuel principal ajoute au profil précédent un support de codage pour les sprites entrelacés et semi-transparents. Il est utile pour les applications ludiques et interactives de grande qualité comme sur DVD par exemple. • Le profil visuel N-Bit ajoute un support pour coder les objets qui ont des profondeurs pixelliques de 4 à 12 bits. Il est adapté à l'utilisation en vidéo surveillance. Les profils pour les contenus visuels synthétiques et hybrides naturel/synthétique sont: • Le profil visuel d'animation faciale simple fournit un moyen simple d'animer un modèle de visage, adapté aux applications telles qu'une présentation audio/vidéo pour les malentendants. • Le profil visuel adaptable dédié aux textures fournit des outils pour coder des objets images fixes(texturés) aux dimensions adaptables utilisés pour les applications ayant besoin de multiple niveau d'adaptation, tel que le plaquage de texture sur un objet dans un jeu ou bien les caméras numériques haute résolution fixes. • Le profil visuel basique d'animation 2D fournit une adaptabilité de l'espace, du SNR et l'animation d'objets fil de fer pour des objets images fixes, ainsi que l'animation simple d'objets visage. • Le profil visuel hybride combine les possibilités du profil visuel 'noyau' vu précédemment et décode également plusieurs objets synthétiques et hybrides, objets image fixe à face simple et animés inclus. Profils audio: Quatre profils audio ont été définis: • Le profil parole fournit le HVXC qui est un codeur paramétrique de la parole à très faible débit, un codeur CELP bande étroite/bande large et une interface Text-To-Speech. • Le profil synthèse fournit une synthèse par partition utilisant le SAOL et des tables de sons ainsi qu'une interface Text-To-Speech pour produire des sons et de la parole à de très faibles débits. • Le profil adaptable est un super ensemble du profil parole. Il est adapté pour le codage adaptable de la musique et de la parole pour les réseaux tels que Internet et le Narrow band Audio Digital Broadcasting (NADIB). Le débit est compris entre 6 kBits/s et 24 kBits/s avec des bandes larges entre 3.5 et 9 kHz. • Le profil principal est un super ensemble très riche de tous les autres profils, contenant des outils pour l'audio naturelle et synthétique. Profils graphiques: Les profils graphiques définissent quels éléments graphiques et textuels peuvent être utilisés dans une scène. Ces profils sont définis dans la partie Système du standard: • Le profil simple graphique 2D fournit seulement les outils du BIFS (Binary Format for Scene Description) nécessaires pour placer un ou plusieurs objets dans une scène. • Le profil graphique 2D complet fournit toutes les fonctionnalités graphiques 2D et supporte quelques fonctions comme les graphiques et les textes arbitraires, qui peuvent être en conjonction avec des objets visuels. • Le profil graphique complet fournit des éléments graphiques avancés tels que les extrusions et permet de créer une scène avec des lumières sophistiquées. Le profil graphique complet permet des applications telles que des mondes virtuels complexes d'un très haut réalisme. Les profils de description de scène: Les profils de description de scène, définis dans la partie système du standard, permettent de créer des scènes audiovisuelles avec seulement de l'audio, du 2D, du 3D ou du 2D/3D mixés: • Le profil 3D est appelé VRML car il optimise l'interaction avec le langage VRML. • Le profil de scène audio prévoit un ensemble d'outils du BIFS (Binary Format for Scene Description) pour l'audio seulement. Ce profil supporte des applications de type radio diffusion. • Le profil de scène 2D simple fournit seulement les outils du BIFS pour placer un ou plusieurs éléments audiovisuels dans une scène. Ce profil permet de créer des présentations audiovisuelles mais sans possibilité d'interactions. Il peut être utilisé pour des applications type télédiffusion. • Le profil de scène 2D complet fournit tous les outils du BIFS nécessaires à la réalisation d'une scène 2D. Ce profil est utilisé pour des applications 2D qui nécessitent une interactivité grande et spécifique. • Le profil de scène complet fournit le jeu complet d'outils du BIFS. Ce profil sert à réaliser des applications telles que des mondes 3D virtuels dynamiques et des jeux. Les profils de description d'objets: Ils comprennent les outils suivants: • Outil descripteur d'objet (OD). • Outil de synchronisation (SL). • Outil d'information sur les objets (OCI). • Outil de propriété intellectuelle et de protection (IPMP). Actuellement, seul un profil est défini et inclut tous ces outils. La raison principale de la création de ce profil n'est pas de créer des sous-ensembles d'outils mais plutôt de leur définir des niveaux. Ceci s'applique spécialement à l'outil de synchronisation des couches, MPEG-4 utilisant différentes bases de temps. En introduisant des niveaux, il est alors possible, par exemple, de n'autoriser qu'une seule base de temps. Problèmes ouverts: MPEG-4 est une révolution, tant du point de vue de sa structure physique, que de l'idéologie qui en découle. C'est la base de tout ce qui touchera la communication et le multimédia dans les années à venir, et quand on voit l'explosion de toutes ces technologies, on imagine l'importance d'une telle norme. MPEG-4 n'en est qu'à ses débuts, mais ses applications sont vastes et beaucoup de choses ont déjà été réalisées. Malgré tout, le travail à effectuer est encore long avant d’obtenir des résultats convainquant pour tous les compartiments de la norme. En particulier, il reste deux problèmes majeurs à résoudre pour le codage des vidéos naturelles, à savoir, l'estimation de mouvement et la segmentation de la vidéo en objets. La Compression Vidéo MPEG-7 De plus en plus d'informations audiovisuelles sont accessibles sous forme numérique, en tout endroit de part le monde et de plus en plus de gens souhaitent les exploiter. Mais avant que quiconque ne puisse utiliser de telles informations, il sera nécessaire de commencer par les localiser. Au même moment, l'augmentation du nombre d'informations potentiellement intéressantes rend la recherche de plus en plus difficile. Des solutions sont dors et déjà proposées pour faciliter la recherche d'information de type texte. En effet, de nombreux moteur de recherche sont accessibles sur le Web et font même partie des sites les plus visités, ce qui montre une réelle demande pour ce type de produit. Il n'est cependant pas pour autant possible de chercher des informations sur un contenu audiovisuel, puisqu'il n'existe en général pas de descriptions reconnaissable de ce type d'information. En règle générale, il n'est pas possible de trouver de façon efficace une image de "la moto de Terminator II" sur le Web, pour prendre un exemple. Dans certain cas particuliers, des solutions existent cependant. Des bases de donnée multimédias permettent aujourd'hui de chercher sur le marché des images à partir de certaines caractéristiques comme la couleur, la texture ou la forme d'objet dans l'image. Objectifs de MPEG-7 MPEG a commencé à mettre au point un nouvel outil de travail pour répondre au problème décrit précédemment. Ce nouveau membre de la famille MPEG, appelé "Multimédia Content Description Interface"(MPEG-7) étendra les capacités de recherche limitées d'aujourd'hui pour inclure d'autres types d'informations. En d'autres termes, MPEG-7 va spécifier une description standard de différents types d'informations multimédia. Cette description devra être associée au contenu luimême pour permettre la recherche rapide et efficace des informations qui intéressent l'utilisateur. Ces "matériaux" incluent; images, graphiques, audio, vidéo et de l'information sur comment ces éléments sont combinés dans une présentation multimédia (scénario). La description peut être attachée à n'importe quel matériau multimédia, quel que soit le format de la représentation. Même si la description de MPEG-7 ne dépend pas de la représentation du matériau, le standard s'appuie en un certain sens sur le standard MPEG-4 qui fourni quand à lui les moyens de coder des matériaux audiovisuel. La description standardisée des différents types d'information peut résider en un certain nombre de niveaux sémantiques. Pour prendre l'exemple d'un matériau visuel, un niveau d'abstraction bas pourrait être la description de la forme, taille, texture, couleur et composition. Les plus hauts niveaux donneraient des informations sémantiques comme; "il s'agit d'une scène avec une voiture rouge à gauche et un oiseau qui vole (dans le ciel)", codées sous une forme efficace. Des niveaux intermédiaires pourraient aussi exister. En plus de la description du contenu, il peut être également nécessaire d'inclure d'autres informations, comme Le format (par exemple le type de compression utilisée) ou la taille. Cette information aide à déterminer si le matériau peut être lu par l'utilisateur. On peut aussi penser aux conditions d'accès aux matériaux, qui pourrait inclure des informations concernant le copyright et le prix, ou des liens vers d'autres matériaux intéressant. Contrairement aux précédentes versions du MPEG, MPEG-7 n'est pas un format de compression. Ou en tout cas, pas seulement. Destiné au multimédia au sens large du terme, il vise à encoder toute forme de données audiovisuelles, du texte à la vidéo, du modèle 3D aux présentations interactives. Mais surtout, le standard propose de compléter les données par leur description. MPEG-7 c'est, en résumé, "des bits à propos des bits". Autrement dit, un ensemble de données supplémentaires décrivant le contenu, son auteur, sa structure, ou même les éléments sémantiques qu'il représente. Le principe est à la fois ambitieux et novateur et on imagine bien la puissance d'un tel standard, notamment en matière de recherche sur le Web. C'est d'ailleurs ce qui semble motiver ses concepteurs: "La principale ambition de MPEG-7 est de rendre les informations multimédias aussi faciles à trouver sur le Web que le texte l'est aujourd'hui." Par exemple, on pourrait imaginer un moteur qui parcourt le Web à la recherche d'une phrase musicale précise: tapez quelques notes de musique au clavier, et vous obtiendrez tous les morceaux comportant les mêmes notes. Même chose avec les images, il sera possible d'identifier les fichiers comprenant un objet d'une couleur donnée, même s'il ne s'agit que d'une partie de l'image. Du reste, l'intérêt n'est pas négligeable en matière d'intégrité des données, et donc de respect des droits d'auteur. Mais, bien qu'intellectuellement plaisant, MPEG-7 soulève quelques interrogations. D'abord, le poids final des fichiers encodés avec ce format, dont on peut supposer qu'il sera, par essence, plus important que celui de la description des données en elle-même. Ensuite la base existante, si l'on considère les milliards d'informations numériques (fichiers image, audio et vidéo) déjà encodées à d'autres formats, on peut s'inquiéter de la vitesse à laquelle se répandrait un nouveau standard, encore en cours de conception aujourd'hui. Enfin, et surtout, on peut se poser la question de l'utilité réelle d'une telle solution. La recherche d'une succession de notes dans l'océan de la musique mondiale peut s'avérer intéressante, mais sûrement pas pour le commun des mortels, qui se satisfait très bien d'une recherche plus classique par auteur ou par titre. En plus, il existe d'autres solutions pour indexer, au besoin, des données multimédias. Qui ne se souvient pas de l'affaire Clinton/Lewinsky. Peu après l'audition du Président, les enregistrements vidéo des témoignages étaient disponibles sur AltaVista. Tronçonnés en courtes séquences, ils étaient indexés à la fois automatiquement (à l'aide d'un outil spécifique) et manuellement. Le résultat était probant; la saisie d'un texte permettait d'identifier rapidement tous les extraits vidéo dans lesquels la phrase correspondante avait été prononcée (souvent, curieusement, le dispositif était utilisé pour trouver le mot "cigare"). Il n'est donc pas certain qu'il soit légitime de chercher à imposer(et généraliser) un standard surpuissant, là où d'autres solutions "sur mesure" peuvent suffire. Décrire les données tout en les compressant est pourtant une tentative logique d'organisation et de structuration du contenu numérique. Mais il est bien dommage que l'on s'en préoccupe si tard. Car finalement, le vrai problème de MPEG-7, c'est sans doute le "7". Présentation du standard MPEG-7 Les données multimédia sont dispersées dans de nombreuses bases de données. Dans ce contexte, MPEG-7 se propose de standardiser la représentation de leur contenu pour la recherche et le filtrage d'information. Beaucoup d'applications peuvent bénéficier de MPEG-7, telles que la recherche dans les bases de données audiovisuelles (pour le médical, l'éducatif, les loisirs, la surveillance, &Idots;), ou la sélection de programmes diffusés. Qu'est ce que la norme MPEG-7? - Un standard de description: Le format MPEG-7 est complètement indépendant de la technique de codage ou de stockage du contenu du document multimédia. On peut établir une description MPEG7 d'un fichier MPEG-2 ou MPEG-4 bien sûr, mais on peut faire de même avec un film analogique ou un journal papier. Il s'agit uniquement d'un standard de représentation du contenu des documents. L'utilisation principale de MPEG-7 concernera évidemment les documents multimédia (contenant à la fois vidéo et audio). Les informations qui apparaîtront dans un document MPEG-7 seront de 5 natures différentes, résumées dans le tableau suivant: Ensemble des Fonctionnalité éléments Création et production Des méta-informations qui décrivent la création et la production du contenu, elles décrivent le titre, le créateur, le but de la création. Utilisation Des méta-informations reliées à l'utilisation du contenu: Elles comportent les droits d'accès, des informations financières, des droits de publication. Ces informations peuvent faire l'objet de changement durant la durée de vie du contenu audio-visuel. Média Ces informations décrivent les caractéristiques de stockage: Format, éléments pour identifier le média&Idots; Aspects structurels Des descriptions d'un point de vue contenu: Ces informations décrivent les segments qui peuvent représenter des composantes spatiales, temporelles ou spatio-temporelles du contenu audio-visuel. Chaque segment peut être décrit par les caractéristiques suivantes(la couleur, la texture, la forme, la motion, d'autres caractéristiques audio&Idots;) et quelques informations sémantiques élémentaires. Aspect Conceptuels Des descriptions du contenu audio-visuel d'un point de vue conceptuel. Ces informations ne sont pas indiquées dans les documents techniques du standard MPEG, car elles sont en cours de standardisation. - Les Limites: Le standard MPEG-7 ne concerne absolument pas les aspects production et utilisation des descriptions. C'est d'ailleurs dans cette optique que l'exemple suivant à été créé, il s'agit de produire et utiliser une description MPEG-7 sommaire(à partir d'un ou deux descripteurs). Principe de description MPEG-7 - La philosophie: Toute description MPEG-7, étant basée sur le langage XML, est constituée d'objets imbriqués. Cette imbrication se fait selon un certain schéma descripteur, lui-même établi à partir d'un langage de définition de descriptions comprenant les éléments suivants; Les descripteurs (D): Ce sont des présentations de caractéristiques des éléments. Ils définissent la syntaxe et les sémantiques de chaque représentation de ces caractéristiques. Les schémas descripteurs (SD): Ils spécifient la structure et les sémantiques des relations entre leurs composantes, qui peuvent être soit des descripteurs soit des schémas descripteurs. Un langage de définition des descriptions (LDD): Il permet la création de nouveaux descripteurs ou schémas descripteurs. Il permet également d'étendre et de modifier les descripteurs et les schémas descripteurs existants. Les outils et les systèmes qui permettent de générer les descripteurs et les schémas descripteurs du standard MPEG-7, qui permettent de les gérer, les manipuler&Idots; Valeur d'un descripteur: Instance d'un descripteur pour un ensemble de données Rq, les valeurs sont combinées avec les schémas de descriptions pour former une description. Description: Consiste en un SD et en un ensemble de valeurs de descripteurs décrivant la donnée. - Hiérarchie: Les objets imbriqués formant une description MPEG-7 peuvent aussi bien être des descripteurs que des schémas descripteur(eux-mêmes à l'origine d'autres descripteurs). Le diagramme suivant traduit cette hiérarchie tout en nous rappelant que le langage de définition des description permet une totale extensibilité du standard. De MPEG-1 à MPEG-21 Création d'une infrastructure Multimédia Inter-opérable Le débat au sujet du MPEG-4 se continue, ses spécifications sont disponibles depuis quelques temps déjà et le Internet Streaming Media Alliance (ISMA) à publié ses spécification sur le "streaming" Internet en se basant sur le MPEG-4. MPEG-4 est le premier standard de contenu multimédia ouvert et compréhensible qui supporte plusieurs industries du multimédia, comme MPEG-2 supporte l'industrie du DVD et de la télévision. Le standard basé objet qu'est MPEG-4 est à la fois à fine pointe de la technologie et prêt pour le futur; il pourras aisément incorporer les améliorations technologiques si et quand elles se matérialises. En fait, une équipe conjointe du MPEG/ ITU-T est à incorporer un nouveau codec vidéo d'ici peu, demeurant ainsi à la fine pointe de la technologie du codec vidéo. Cette partie sera également un standard du International Telecommunication Union (ITU-T). Le but demeure l'interopérabilité: Pendant ce temps, le Moving Picture Experts Group n'est pas resté assis sur ses lauriers. Il a récemment finalisé la première version du standard international MPEG7 pour la description du contenu, qui sera publié par ISO sous peu. MPEG-7 complémentera MPEG-4 et ne tentera pas de le supplanter. MPEG-4 défini comment représenter un contenu; MPEG-7 spécifie comment le décrire. Et à l'horizon pointe un autre standard ISO/MPEG, MPEG-21, qui visera à apporter un cadre multimédia réellement inter-opérable. L'essentiel de tous les efforts du MPEG est l'interopérabilité, inter-opérabilité pour le consommateur. De façon à s'assurer que celui-ci sera capable d'utiliser le contenu et ne pas avoir à s'en faire avec la compatibilité des formats, codecs, metadata, etc... MPEG-1 et MPEG-2 proposent des manières inter-opérables de représenter un contenu audio-visuel, communément utilisés avec les médias digitaux et en diffusion. MPEG-4 étends ceci à beaucoup plus d'applications à travers des fonctions comme un champ étendu du taux de transfert, son adaptabilité, sa résistance aux erreurs, son intégration homogène de différents types d'objets dans la même scène, son interface de gestion des systèmes de droits digitaux et ses puissantes possibilités d'intégration de l'interactivité à l'intérieur du contenu. MPEG-7 défini un cadre d'inter-opérabilité bien au-dessus du "metadata" traditionnel. MPEG-7 possède des éléments descriptifs qui vont des caractéristiques de base comme les caractéristiques des couleurs, des formes et des sons, jusqu'aux structures d'information de contenu de haut niveau. Il est aussi unique pour ses outils pour structurer l'information de contenu. MPEG-7 et MPEG4 forment un excellent couple, spécialement lorsque sont utilisés les objets de MPEG-4. Avec MPEG-7 il est désormais possible d'échanger de l'information au sujet de contenus multimédias d'une manière inter-opérable, rendant plus aisée la recherche de contenu et l'identification de seulement ce que vous voulez utiliser. L'information contenu dans MPEG-7 sera ajouté aux signaux "broadcast"; les VCR et les engins de recherches pourrons l'utiliser, et il facilitera grandement l'administration des contenus multimédias dans ce qui est souvent un large "entreposage". Les archives audio-visuelles seront accessible beaucoup plus aisément grâce à MPEG-7. Faire face aux problèmes: Dès le début, MPEG à compris que plus d'inter-opérabilité dans les DRM(Digital rights managements) est crucial à une infrastructure multimédia ouverte. Il y a quelques années, MPEG à pensé intégrer, profondément l'intérieur des systèmes de MPEG-4, une série de "plug-ins", appelés "Interfaces to proprietary Intellectual Property Management and Protection (IPMP)". Ceux-ci permettent, lorsque l'on veut jouer un contenu particulier, d'utiliser le "plug-in" IPMP approprié. Où l'obtenir pourra être signalé à l'intérieur du flux de données. Mais ce n'est pas toujours assez, un lecteur de musique portable ne peut pas télécharger le bon système IPMP, donc perte d'inter-opérabilité. Le problème réside dans la standardisation des permissions. Chaque propriétaire de contenu doit, par exemple, pouvoir faire confiance à tous les utilisateurs du contenu. Ce genre de confiance est très difficile à standardiser, MPEG continu de travailler à standardiser le tout. 6 Milliards de producteurs de contenu: Ceci nous amène au cadre multimédia MPEG-21. Pour arriver à une réelle interopérabilité, on aura besoin de plus que l’architecture IPMP dont nous parlions plus haut. Selon son rapport technique, le but de MPEG-21 est de décrire une image générale de comment les différents éléments servant à construire une infrastructure destiné à transmettre et "consommer" les contenus multimédia (existants et en développement) sont en relation l’un avec l’autre. En présentant cette vision et en commençant à y travailler, MPEG-21 à amené beaucoup de sang neuf au MPEG, incluant des représentants de l’industrie du film, les géants de la musique et les fournisseurs en technologie. Le monde du MPEG-21 consiste en des utilisateurs qui interagissent avec des items numérique (Digital Items). Un item numérique peut être n’importe quoi, d’une partie de contenu élémentaire (une simple photo, une piste audio) jusqu’à une collection complète d’oeuvres audio-visuelles. Un utilisateur peut être qui que ce soit qui utilise un item numérique, du producteur au vendeur au consommateur. Avec MPEG-21, tous les utilisateurs sont égaux en ce sens qu’ils ont tous leurs droits et intérêts dans les items numériques, et qu’ils ont tous le besoins d’être capable de les exprimer. La force motrice derrière MPEG-21 est la notion que la révolution numérique donne à chacun des consommateurs la chance de jouer un nouveau rôle dans la "chaîne alimentaire" du multimédia. Il y a donc potentiellement 6 milliards d’utilisateurs du MPEG-21. MPEG-21 cherche à utiliser les standards existants lorsque c’est possible, en faciliter leur intégration et remplir les vides. MPEG est présentement à préparer une série de "parties" du standard MPEG-21. En contant le rapport technique comme la partie #1, la seconde partie sera la "Digital Item Declaration", un schéma concis et puissant, basé sur le XML, pour démontrer les items numériques. Un peu plus ambitieux est la troisième partie de MPEG-21, la "Digital Item Identification and Description". Celle-ci réglera le problème d’identification unique des contenu numérique, d’une manière globale, et de donner un mécanisme de résolution en même temps que l’identification unique. Imaginez que vous avez trouvé une pièce de contenu (trouvé sur le web, reçu d’un ami, trouvé sur un CD, etc...) et que vous voulez le "consommer". Le contenu est protégé, mais une "digital item identification" vous indiquera où trouver l’information sur ses droits. L’information sur les droits est codée en utilisant les deux parties suivantes du MPEG-21, le "the Rights Expression Language, REL (part 5)" et le "Rights Data Dictionary, RDD (part 6)". Ces deux parties ensemble permettent l’expression des droits dans une forme interchangeable, en utilisant une syntaxe standardisée (REL) et des termes standardisés (RDD). Ces standards devraient être prêt au début de 2003. Il est probable que le "Right expression language" sera basé sur le XML, mais il tout aussi probable qu’il possède également une représentation binaire compacte, qui pourra être utilisé avec les contraintes de bande passante, en condition de traitement en temps réel. Entre les parties 3 et 5, vues plus haut, le travail sur un IPMP plus inter-opérable à l’intérieur de MPEG-4 à été récemment inclus dans MPEG-21 comme la partie #4, parce qu’il s’applique tout aussi bien à MPEG-7, MPEG-2 et MPEG-1. Un contenu qui s’adapte à l’environnement: Le 7ème élément du cadre d’application sera une description unifiée de l’environnement dans lequel le contenu sera utilisé. Ceci couvre les conditions d’accès, de terminaux et de réseaux. Le but étant d’arriver à un accès multimédia universel (Universal Multimedia Access), ou le contenu s’adaptera de lui-même, d’une manière transparente et dynamique, aux circonstances. MPEG-21 est développé en utilisant une approche par vagues, les différentes parties se suivant l’une l’autres dans le temps. Les travaux futurs sur le MPEG-21 devrait vraisemblablement inclure: "Content Representation"(comment les ressources médias sont représentés au delà des standards MPEG éxistants), "Content Handling and Usage"(Interfaces pour gérer le contenu), et "Event reporting"(rapport d’évènements). Tous les utilisateurs bénéficieront: MPEG-4 prouve sa viabilité dans le marché comme un standard multimédia ouvert. L’"écosystème" prends vie: serveurs, joueurs, "hardware" et "software", systèmes de test, noyau IP et outils d’auteurs sont mis en oeuvre. Ceci représentera un pas de géant vers une plus grande inter-opérabilité dans le monde du multimédia. MPEG-7 aidera à gérer l’abondance sans cesse grandissante de contenu et MPEG-21 rendra l’interaction protégée avec le contenu de plus en plus transparent, égalisant ainsi les chances pour tous les participants dans la "chaîne alimentaire" multimédia. Les différents utilisateurs ne peuvent qu’en retirer les bénéfices. Le Flux Elémentaire (Elementary Stream): Première couche syntaxique du MPEG, l'ES (Elementary Stream) est le signal brut en sortie de compression. Dans la réalité, on ne travaille jamais directement avec ce type de signal. Il reste caché au coeur des codeurs. Un flux élémentaire ne contient rien de plus que ce qui est nécessaire au décodeur pour s'approcher au mieux de l'image. En MPEG, la syntaxe du signal compressé est strictement définie de façon à s'assurer que les décodeurs puissent l'interpréter. Le codeur n'a pas d'autre définition que l'obligation d'émettre selon la syntaxe convenable. L'avantage de ce concept est qu'il s'approche du monde réel dans lequel il y a vraisemblablement plus de décodeurs que de codeurs. En standardisant le décodeur, on peut diminuer sensiblement le coût de sa fabrication. Inversement, le codeur peut être bien plus compliqué et plus onéreux et il peut procurer une forte amélioration de l'image sans être pénalisé par un coût excessif. Quand le codeur et le décodeur présentent des degrés de complexité différents, le système est dit "asymétrique". L'approche MPEG donne également la possibilité d'améliorer la qualité de l'image en redéfinissant les algorithmes tout en conservant des flux de bits susceptibles d'être interprétés par des décodeurs de fabrication plus ancienne. Cette approche permet également d'utiliser des algorithmes privés de codage qui n'ont pas à entrer dans le domaine public. Flux élémentaire vidéo: L'illustration ci-dessous montre la structure du flux élémentaire vidéo. L'unité fondamentale de l'information d'image est le bloc DCT qui représente un réseau de 8 x 8 pixels pouvant être Y, Cr ou Cb. La composante continue est d'abord émise avec une précision supérieure à celle des autres coefficients. Viennent ensuite les autres coefficients et le code de fin de bloc (EOB, end of bloc). Les blocs sont groupés en macroblocs qui constituent l'unité fondamentale d'une image et qui peuvent faire l'objet de la compensation de mouvement. Chaque macrobloc comporte, dans son en-tête, un vecteur de mouvement bi-dimensionnel. Dans les images B, les vecteurs peuvent être vers l'avant ou l'arrière. La compensation de mouvement peut être basée sur l'image ou la trame et cela est indiqué, ainsi que l'échelle utilisée pour la re-quantification des coefficients. Le décodeur se sert des vecteurs pour prendre les informations des images précédente et suivante pour bâtir une image prédite. Les blocs subissent la transformée inverse pour produire l'image de correction qui est ajoutée à l'image prédite afin d'obtenir le signal de sortie du décodeur. En codage 4:2:0, chaque macrobloc comporte quatre blocs Y et deux blocs de différence de couleurs. Pour rendre possible l'identification de leur contenu(Y, Cr ou Cb), les blocs sont émis dans un ordre particulier. Les macroblocs sont assemblés en tranches représentant toujours des bandes horizontales balayant l'image de la gauche vers la droite. En MPEG, les tranches peuvent commencer n'importe où et être d'une taille quelconque. En ATSC, elles doivent commencer du côté gauche de l'image. Plusieurs tranches peuvent se placer sur la largeur de l'écran. La tranche est l'unité fondamentale de synchronisation pour les longueurs variables et le codage différentiel. Les premiers vecteurs d'une tranche sont émis intégralement tandis que les autres sont transmis en mode différentiel. Dans les images I, les premiers coefficients de composante continue de la tranche sont transmis intégralement et les coefficients de composante continue suivants le sont différentiellement. Dans les images de différence, cette technique ne se justifie pas. Si une erreur de bits se produit dans un flux élémentaire, cela créera soit une rupture dans la dé-sérialisation des symboles à longueur variable, soit une erreur des coefficients ou des vecteurs émis ultérieurement en mode différentiel. La structure en tranches permet de retrouver rapidement le bon décodage en fournissant un point de re-synchronisation dans le flux de bits. Plusieurs tranches sont groupées pour constituer une image qui est la part active d'une trame. L'entête de l'image précise si le codage de l'image est de type I, P ou B et comporte une référence temporelle de façon que l'image soit présentée à la bonne place. Dans le cas de panoramiques ou de travellings verticaux, les vecteurs seront identiques dans tous les macroblocs. Un vecteur global peut alors être émis pour l'ensemble de l'image et les vecteurs individuels deviennent des différences de cette valeur globale. Les images peuvent être combinées pour constituer un groupe d'images (GOP, Group Of Pictures) qui commencera par une image I. Le GOP est l'unité fondamentale d'un codage temporel. En standard MPEG, l'utilisation de GOPs est optionnelle mais elle est pratiquement nécessaire. Entre les images I peuvent être placées diverses images de type P et B. Un GOP peut être ouvert ou fermé. Dans un GOP fermé, la dernière image B n'a pas besoin de l'image I du groupe suivant pour être décodée et le flux de bits peut être coupé à la fin de ce GOP. Si on utilise des GOPs, plusieurs GOPs peuvent être combinés pour produire une séquence vidéo. La séquence commence par un code de début de séquence, suivi par un en-tête et se termine par un code de fin de séquence. Des en-têtes supplémentaires peuvent être placés au cours de la séquence. Cette disposition permet de commencer un décodage n'importe où dans la séquence comme cela peut se produire dans la lecture de disques vidéo numériques ou de cassettes. L'en-tête de séquence définit les tailles horizontale et verticale de l'image, le rapport d'image, le format de souséchantillonage de chroma, la fréquence d'image, le type de balayage (progressif ou entrelacé), le profil, le niveau et le débit de bits ainsi que les matrices de quantification utilisées dans les images intra-codées et inter-codées. Sans la donnée d'en-tête de séquence, un décodeur ne peut interpréter le flux de bits et c'est pourquoi les en-têtes de séquence deviennent des points d'entrée où les décodeurs peuvent démarrer correctement leur opération. L'espacement entre les points d'entrée influence directement le temps que met le décodeur à opérer convenablement après une commutation d'un canal à l'autre. Flux élémentaires audio: Plusieurs sortes d'audio peuvent être insérées dans un multiplex MPEG-2. Ces catégories comprennent l'audio codée selon les normes des couches 1, 2 ou 3 du MPEG ou l'ATSC. Le type de codage doit être inclus dans un indicateur que le décodeur lira de façon à faire appel au type de décodage approprié. Le processus de compression audio est sensiblement différent de celui de la vidéo. Il ne comporte rien d'équivalent aux différents types d'image I, P ou B et les trames audio contiennent toujours la même quantité de données audio. Il n'y a également pas d'équivalence au codage bi-directionnel et les trames audio ne sont pas transmises autrement qu'en séquence naturelle. En MPEG-2 audio, l'indicateur de l'en-tête de séquence contient le numéro de la couche utilisée pour la compression audio et le type de compression employé (stéréo par exemple), ainsi que la fréquence d'échantillonnage initiale. La séquence audio est organisée en unités d'accès (AU, Access Units) qui constitueront les trames audio codées. Si le codage AC-3 est utilisé, cette disposition est répétée dans l'en-tête de séquence. L'unité d'accès audio est une trame synchronisée en AC-3. La trame AC-3 représente une excursion de temps équivalente à 1536 échantillons audio, ce qui fait 32 ms pour un échantillonnage à 48 KHz et 48 ms en 32 KHz. Le Packet Elementary Stream: Pour des raisons de commodité, les flux élémentaires continus transportant de l'audio ou de la vidéo en provenance de compresseurs doivent être divisés en paquets. Ces paquets sont identifiés par des en-têtes contenant des marqueurs temporels pour la synchronisation. A partir des PES, on peut créer des Flux de Programme et des Flux de Transport. Paquets PES: Dans le flux élémentaire en paquets (PES), un flux élémentaire continu est divisé en paquets d'une taille adaptée à l'application. La taille peut atteindre plusieurs centaines de kilo-octets et varie en fonction de l'application. Chaque paquet est précédé par un en-tête PES. Le paquet commence par un préfixe de 24 bits (préfixe de départ) et un identificateur de flux caractérisant le contenu du paquet(audio ou vidéo), et si nécessaire, le type de codage audio. Ces deux paramètres (préfixe de départ et identificateur de flux) constituent le code de départ identifiant le code de début du paquet. Il est important de ne pas confondre le paquet d'un PES et le paquet plus petit utilisé dans les flux de transport, ces deux éléments portant malheureusement le même nom. Comme le MPEG ne définit que le flux de transport, et non le codeur, un concepteur peut décider de fabriquer un multiplexeur convertissant les flux élémentaires en flux de transport en une seule étape. Dans ce cas, les paquets PES ne peuvent exister sous une forme identifiable, mais ils font logiquement partie intégrante de la charge du flux de transport. C'est d'ailleurs majoritairement le cas. Marqueurs temporels: Après la compression, les images sont extraites de la séquence à cause du codage bidirectionnel. Elles nécessitent une quantité variable de données et sont sujettes à un retard variable en raison du multiplexage et de la transmission. Des marqueurs temporels sont périodiquement incorporés dans chaque image afin de verrouiller la synchronisation entre l'audio et la vidéo. Un marqueur temporel est un nombre de 33 bits constitué par la valeur d'un compteur piloté par une horloge à 90 KHz. Cette horloge est le résultat de la division par 300 de l'horloge de programme à 27 MHz. Comme les temps sont régulièrement espacés à la présentation, il n'est pas indispensable d'inclure un marqueur temporel à chaque unité de présentation en sortie. Les marqueurs de temps peuvent, au lieu de cela, être interpolés par le décodeur mais ils ne doivent jamais être séparés de plus de 700 ms, que ce soit dans le flux de programme ou le flux de transport. Les marqueurs de temps indiquent à quelle référence temporelle une unité d'accès particulière appartient. La synchronisation des mouvements de lèvres est obtenue en incorporant des marqueurs de temps simultanément dans les paquets PES vidéo et audio. Quand un décodeur reçoit un paquet PES sélectionné, il décode chaque unité d'accès et la sauvegarde dans une mémoire tampon en RAM. Quand la valeur du code temporel de ligne atteint celle du marqueur temporel, la RAM est lue. Cette opération a deux résultats attendus. Primo, une correction de base de temps est effectivement réalisée dans chaque flux élémentaire. Secundo, les flux élémentaires vidéo et audio peuvent être synchronisés pour constituer un programme. PTS/DTS: Quand on utilise un code bidirectionnel, une image doit avoir été décodée quelque temps avant d'être présentée de façon à pouvoir être utilisée comme source de données pour une image B. Bien que, par exemple, l'on puisse présenter les images dans l'ordre IBBP, elles seront transmises dans l'ordre IPBB. Il existera donc deux types de marqueurs temporels. Le marqueur temporel de décodage (DTS, Decode Time Stamp) indique quand une image doit être décodée, tandis que le marqueur temporel de présentation (PTS, Presentation Time Stamp) indique quand l'image doit être présentée à la sortie du décodeur. Les images B sont décodées et présentées simultanément, c'est pourquoi ils ne comportent qu'un PTS. Quand une séquence IPBB est reçue, les images I et P doivent être décodées avant la première image B. Pendant que l'image P est en cours de décodage, l'image I est présentée en sortie de façon à pouvoir être suivie des images B. La figure précédente démontre que, quand une unité d'accès contenant une image I est reçue, les deux marqueurs DTS et PTS doivent exister dans l'en-tête et qu'ils doivent être séparés d'au moins une période d'images. Si le codage bidirectionnel est utilisé, une image P doit venir ensuite et cette image est également dotée d'un PTS et d'un DTS, mais la séparation entre les deux marqueurs doit être de trois périodes d'images pour permettre l'intervention des images B. Ainsi, si une séquence IPBB est reçue, l'image I est retardée d'une image, l'image P de trois images et les deux images B n'ont aucun retard. La présentation devient alors IBBP. En clair, si la structure de GOP est changée de façon à ce qu'il y ait plus d'images B insérées entre les images I et P, la différence entre le DTS et le PTS des images P sera augmentée. Les indicateurs PTS/DTS de l'en-tête du paquet sont placés de façon à indiquer la présence d'un PTS seul ou des deux marqueurs PTS et DTS. Les paquets audio peuvent contenir plusieurs unités d'accès et l'en-tête de paquet contient un PTS. Comme les paquets audio ne sont pas transmis autrement qu'en séquence naturelle, il n'y a pas de DTS dans un paquet audio. Le Flux de Programme et le Flux de Transport: Les flux de programme et de transport constituent deux façons d'assembler plusieurs flux de paquets PES. Enregistrement contre transmission: Pour une qualité d'image donnée, le débit de données variera selon le contenu de l'image. Un canal à débit variable donnera donc un meilleur résultat. Dans le domaine des transmissions, la plupart des canaux sont fixes et le débit global de bits est maintenu constant par l'addition d'un bourrage (données sans signification). Dans le cas du DVD, l'utilisation de ce bourrage constitue un gaspillage d'espace de stockage. Cependant, on peut accélérer ou ralentir la vitesse d'un moyen de stockage soit physiquement soit, dans le cas d'une unité de disque, en changeant les demandes de transfert de données. Cette approche permet d'avoir un canal à débit variable sans perte de capacité. Quand un support est relu, on peut ajuster la vitesse de façon à conserver le tampon à moitié plein quel que soit le débit dynamique qui peut être dynamiquement ajusté. Si le décodeur lit dans le tampon à une vitesse croissante, cela a tendance à le vider et le système de l'unité de disque augmentera simplement le débit d'accès pour rétablir l'équilibre. Cette technique ne peut s'utiliser que si l'audio et la vidéo ont été codés à partir de la même horloge, sinon elles se décaleront dans le temps au cours de l'enregistrement. Pour répondre à ces impératifs conflictuels, les Flux de Transport et les Flux de Programme ont été imaginés comme deux possibilités. Un flux de programme est bien adapté à un unique programme à débit variable dans un contexte d'enregistrement (DVD); un flux de transport conviendra mieux à la transmission de programmes multiples à débit constant (Bouquet satellite et câble). Dans le cas de la transmission, le décodeur doit recréer la base de temps sous peine de devoir supporter un défaut ou un excès de charge. C'est pourquoi un flux de transport utilise comme référence une Horloge de Programme (PCR, Program Clock Reference) tandis que flux de programme n'a pas besoin d'horloge de programme. Introduction aux flux de programme: Un flux de programme est un multiplex de paquets PES qui véhicule plusieurs flux élémentaires préalablement codés à partir de la même horloge-mère ou de la même référence. Le flux peut être constitué d'un flux vidéo et de ses flux audio associés ou seulement un canal de multi-programmes audio. Le flux élémentaire vidéo est divisé en unités d'accès contenant chacune des données compressées décrivant une image. Ces images sont du type I, P ou B et chacune comporte un numéro d'unité d'accès qui indique la séquence d'affichage convenable. Une unité d'accès vidéo devient un paquet de flux de programme. En vidéo, la taille de ces paquets varie. Un paquet d'images I sera, par exemple, plus grand que celui d'une image B. Les unités d'accès de l'audionumérique sont généralement de la même taille et plusieurs d'entre elles constituent un paquet de flux de programme. Ces paquets ne doivent pas être confondus avec les paquets de flux de transport qui sont de taille inférieure et fixes. Les limites des unités d'accès vidéo et audio coïncident rarement sur l'axe des temps mais cette absence de coïncidence n'est pas un problème car chaque limite possède sa propre structure de marqueur temporel. Flux de transport: Un flux de transport est bien plus qu'un simple multiplexage de plusieurs paquets PES. Dans les flux de programme, les marqueurs temporels sont suffisants pour recréer l'axe des temps parce que l'audio et la vidéo sont verrouillés sur une référence commune. Pour télécharger des données dans un réseau éloigné, un impératif supplémentaire est nécessaire dans le décodeur pour recréer l'horloge de chaque programme. Cela impose un élément supplémentaire dans la syntaxe afin de fournir la référence d'horloge de programme (PCR, Program Clock Reference). Le flux de transport véhicule plusieurs programmes différents utilisant chacun un débit et un facteur de compression susceptibles de varier dynamiquement, même si le débit global reste constant. Cette propriété est appelée multiplexage statistique et permet à un programme supportant des images difficiles de prendre de la bande à un programme supportant des images plus statiques. A chaque PES vidéo peut être associé un certain nombre de PES audio et de PES de données. En dépit de cette souplesse, un décodeur doit être capable de passer d'un programme à l'autre et sélectionner convenablement les canaux de l'audio et des données. Certains programmes sont protégés et ne doivent être accessibles qu'aux personnes ayant souscrit un abonnement ou acquitté une redevance. Le flux de transport doit donc comporter l'information d'accés conditionnel (Conditional access table) pour gérer cette protection. Le flux de transport contient des informations spécifiques de programme (PSI, Program Specific Information) pour s'acquitter de ces tâches. La couche de transport convertit les PES de données en petits paquets autonomes de longueur constante de 188 octets. Quand ces paquets parviennent au décodeur, il se peut qu'ils soient affectés d'une certaine jigue. Le multiplexage temporel est aussi une cause de retard mais son amplitude n'est pas fixe car l'allocation de bits n'est pas fixe pour chaque programme. Les marqueurs temporels constituent une partie de la solution mais à la seule condition qu'une horloge disponible soit stable. Le flux de transport doit donc comporter d'autres données permettant la reconstitution d'une horloge stable. L'exploitation d'un équipement vidéo numérique dépend grandement de la distribution d'un système d'horloge stable pour la synchronisation. En production vidéo, le genlock est utilisé mais, sur des grandes distances, la distribution d'une horloge séparée n'est pas commode. Dans un flux de transport, les programmes peuvent provenir de différentes origines qui ne sont pas nécessairement synchrones. Par conséquent, le flux de transport doit être capable de fournir des moyens de synchro pour chacun des programmes. Cette synchro supplémentaire est appelée Référence d'Horloge de Programme(PCR, Program Clock Reference) et permet de reconstituer une référence d'horloge stable à partir de laquelle, par division, on recrée une fréquence ligne dans le décodeur de façon à pouvoir utiliser convenablement les marqueurs temporels dans chaque flux élémentaire. On définit par conséquent un programme comme un jeu de flux élémentaires partageant la même référence temporelle. Dans un flux de transport de programme simple (SPTS, Single Program Transport Stream), il y aura un canal PCR qui recrée une horloge de programme pour l'audio et la vidéo. Les Paquets: La figure suivante montre la structure d'un paquet de flux de transport. La longueur constante est de 188 octets répartis entre un en-tête et une charge utile. La figure A montre l'en-tête minimal de 4 octets. Les informations les plus importantes de cet en-tête sont: L'octet de synchro: Cet octet est reconnu par le décodeur de façon à pouvoir dé-sérialiser l'en-tête et la charge utile. L'indicateur d'erreur de transport: Cet indicateur est validé si le système de correction d'erreur gérant la fonction de transport détecte un taux d'erreurs de bits trop élevé pour être corrigé. Il indique que le paquet est susceptible de contenir des erreurs. L'identification de paquet (PID): Ce code de 13 bits sert à faire la distinction entre les différents types de paquet. Il sera détaillé ultérieurement. Le compteur de continuité: Sa valeur sur 4 bits est incrémentée par le codeur chaque fois qu'un nouveau paquet ayant le même PID est émis. Il sert à déterminer si un paquet particulier est perdu, répété ou hors séquence. L'en-tête a parfois besoin de plus d'informations et, si c'est le cas, les bits de contrôle du champ d'adaptation sont placés pour indiquer que la taille de l'en-tête est supérieure à la normale. La longueur supplémentaire de l'entête est alors définie par la longueur du champ d'adaptation. Quand l'en-tête est allongé, la charge utile est diminuée pour conserver une longueur constante au paquet. Référence d'horloge de programme: Le codeur utilisé pour un programme particulier sera piloté par une horloge de programme à 27 Mhz. Si l'entrée provient d'une interface numérique série (SDI, Serial Digital Interface), la fréquence d'horloge est divisée par 10 pour générer l'horloge de programme. Quand plusieurs programmes parviennent à la même unité de production, il est possible qu'ils aient tous la même référence. Si l'entrée vidéo est analogique, la fréquence ligne sera multipliée par une constante dans une boucle de phase verrouillée (PLL, Phase Locked Loop) pour obtenir du 27 MHz. Dans l'en-tête du paquet, le champ d'adaptation sert périodiquement à introduire le code PCR qui permet la génération d'une horloge verrouillée dans le décodeur. Si le codeur ou un multiplexeur change de source, il peut se produire une discontinuité dans la référence PCR. Le compteur de continuité peut également être perturbé. Cette situation est gérée par l'indicateur de discontinuité qui avertit le décodeur de la possibilité d'une perturbation. Sinon, la discontinuité créera une condition d'erreur. La figure suivante montre comment le décodeur utilise la PCR pour recréer une version déportée de l'horloge 27 MHz pour chaque programme. L'horloge du codeur pilote un compteur binaire permanent dont les valeurs sont périodiquement lues et placées dans le champ d'adaptation de l'en-tête en tant que PCR. Comme le marqueur de temps de présentation (PTS, Presentation Time Stamp), le PCR comporte 33 bits et représente une valeur du compteur piloté par une horloge à 90 Khz. Chaque codeur génère des paquets ayant une identification de paquet (PID) différente. Le décodeur reconnaît les paquets associés à l'identification correspondant au programme sélectionné et ignore les autres. Dans le décodeur, un oscillateur local (VCO) génère une horloge nominale à 27 Mhz qui pilote le compteur PCR. La valeur du PCR local est comparée au PCR de l'en-tête du paquet et la différence constitue l'erreur de phase PCR. Cette erreur est filtrée pour piloter le VCO afin que le PCR local se verrouille sur le PCR de l'en-tête. Un puissant filtrage du VCO évite au VCO d'être modulé par une jigue éventuelle dans la transmission du PCR. L'indicateur de discontinuité réinitialise le compteur local et peut être éventuellement utilisé pour atténuer le filtrage afin d'accélérer le verrouillage du compteur local sur la nouvelle valeur temporelle. Le MPEG implique que le PCR soit émis au moins 10 fois par seconde tandis que la Diffusion Vidéo Numérique (DVB, Digital Video Broadcasting) spécifie une cadence minimale de 25 PCR par seconde. Identification de paquet (PID): Dans l'en-tête du paquet de transport, un champ de 13 bits contient le code d'identification de paquet (PID). Le PID est utilisé par le décodeur pour faire la distinction entre les paquets contenant divers types d'information. Le débit de bits du flux de transport doit être constant, bien que la somme des débits de tous les différents flux puisse varier. Cet impératif est réalisé par l'adjonction de bits nuls (contenant des " 0 ") dans la partie utile. Si le débit utile diminue, plus de paquets nuls sont ajoutés. Les paquets nuls ont toujours la même identification qui est 8191, soit 13 " 1 ". Dans un flux de transport donné, tous les paquets appartenant à un flux élémentaire donné comportent la même identification. Les paquets appartenant à un autre flux élémentaire auront une identification différente. Le dé-multiplexeur peut aisément sélectionner toutes les données d'un flux élémentaire donné en acceptant seulement les paquets porteurs de l'identification convenable. On peut sélectionner les données d'un programme complet grâce aux PIDs de l'audio, la vidéo et les données de télétexte. Le dé-multiplexeur ne peut convenablement sélectionner les paquets que s'il peut les associer au flux de transport auquel ils appartiennent. Il ne peut exécuter cette tâche que s'il connaît les PIDs. C'est le rôle de l'information spécifique de programme (PSI, Program Specific Information). La Transmission en DVB Une des principales caractéristiques des canaux de diffusion numérique tient au fait qu'ils peuvent subir des grandes dégradations sans que cela ne soit visible. Mais lorsque l'on dépasse un certain seuil, la rupture de service est brutale et totale. C'est tout ou rien. Le BER (Bite Error Rate): Trois voies de transmission sont possibles; le satellite, le câble et le réseau de diffusion hertzien. Il faut aussi garder à l'esprit deux impératifs; premièrement, on doit employer les canaux déjà existant (la largeur du canal est imposée) et deuxièmement, la télévision numérique demande une transmission qualifiée de QEF(Quasi Error Free, quasiment sans erreur). Pour réaliser cette deuxième contrainte, il convient d'introduire une nouvelle notion; le BER(Bite Error Rate ou TEB Taux Erreur Binaire). C'est tout simple. On va compter, à la réception, le nombre de bit erroné reçus sur le nombre total de bit reçus. Si sur 1000 bits reçus, il y en a un de faux, on a un BER de 1/1000. Les modulations employées seront donc choisies de manière très attentive en fonction du type du canal de transmission et un arsenal de technique de correction d'erreur sera également mis en place. Caractéristiques des canaux: Satellite: Largeur de canal fréquemment égale à 36 MHz. Un signal provenant d'un satellite subit une atténuation de plus de 200dB. On reçoit donc un signal très faible et bruité. Câble: Largeur de canal très réduite, 8 MHz(rappelons que le débit en sortie de multiplexeur est d'environ 40MBit/s). Par contre c'est un milieu très protégé. Réseau terrestre: Largeur de canal très réduite, 8 MHz. Le système choisi doit être insensible aux phénomènes d'échos. Solutions: Pour chacune des voies de transmission, DVB a défini une chaîne de traitement et de codes de correction d'erreurs suivi d'un type de modulation adaptées. Modulation: QPSK pour le DVB S, QAM pour le DVB C et COFDM pour le DVB T. Traitement: Brassage, entrelacement et filtre de Nyquist. Correction d'erreur: Code Reed Solomon et code convolutif associé à un décodeur de Viterbi. C'est une combinaison de ces différentes techniques qui formera notre canal de transmission. Voyons les étapes préliminaires indispensables qui vont permettre de sécuriser notre train TS et cela quelque soit notre canal de transmission. Le brassage: Ici on veut répartir l'énergie sur l'ensemble du canal de transmission. En clair, éviter les longues suites de 1 ou de 0 qui créeraient une raie à forte énergie dans le spectre.Un signal connu qui possède cette caractéristique est le bruit qui par nature est aléatoire et donc une énergie uniformément répartie. Nous allons rendre notre signal TS semblable à du bruit en le multipliant par la sortie d'un générateur Pseudo aléatoire. C'est un dispositif simple formé de 15 registres à décalage et d'un OU exclusif. Pour pouvoir faire le traitement inverse en réception, nous allons employer deux mécanismes de synchronisation. Au premier paquet TS qui se présente, on charge le générateur avec un mot connu (le mot d'initialisation) et l'octet de synchro du paquet (0x47) est complété pour devenir 0xB8. Huit paquets d'affilés sont ainsi brassés. Au neuvième paquet, le mot d'initialisation est de nouveau chargé et l'octet de synchro complété. La porte AND est activée à chaque octet de synchro pour ne pas les brasser et ainsi conserver ces points de repère. L'énergie de notre signal est maintenant répartie sur tout le spectre et ceci même si il n'y a pas de signal en entrée. En réception c'est le même circuit qui est employé, on attend un octet ayant le mot de synchro 0xB8 pour charger le mot d'initialisation et dé-brasser les huit paquets. Codage Reed Solomon: Ce code est noté RS(188,204,t=8), ce qui veut dire 188 octets en entrée, 204 en sortie du codeur et 8 octets sur 188 peuvent être corrigés. C'est un code en bloc qui va ajouter 16 octets de redondance derrière chaque paquet TS. Si plus de 8 octets sont détectés comme erronés, le paquet est marqué comme défectueux. Pour comprendre l'esprit de ce code, on va l'illustrer avec un exemple très simple. Imaginons que nos paquets TS fassent 3 octets de long et que l'on transmette le paquet suivant: 03 10 15 on va rajouté deux octets de redondance. Le premier est la somme de nos trois données soit 28, le deuxième est la somme pondérée des 3 octets. Chaque octet est multiplié par son rang : 3*1 + 10*2 + 15*3 soit 68. Notre paquet à la sortie du codeur devient donc : 03 10 15 28 68 Après transmission et perturbation, le récepteur reçoit le paquet : 03 12 15 28 68 On refait la somme simple 03+12+15=30 et la somme pondérée 8*1 + 12*2 + 15*3=72.La différence des sommes simples(28-30) nous donne la valeur de l'erreur et la différence des sommes pondérées divisé par l'erreur est égale à au rang de l'erreur(7268)/2=2). On peut corriger notre paquet. L'entrelacement: Une des choses les plus difficiles à corriger est une longue suite de bit ou d'octet consécutifs erronés. On va donc répartir, à l'émission, les octets d'un paquet dans d'autres paquets. Imaginons la suite de paquet de 5 octets suivante: niche chien poule tasse fours balles video audio petit porte Chaque paquet est mis en mémoire horizontalement et relu verticalement. Ainsi si on relit les paquets depuis le e de niche, cela donne les paquets suivants: eeuaf nlsob esuav erlia sldup eedep soito A la suite de la transmission, on reçoit la séquence suivante affectée d'erreur: eeuaf nlsob esuav **lia s***p eedep soito Aprés désentrelacement, on retrouve les mots suivants : e ---- tass* fou*s bal*es vi*eo ---On voit nettement que l'entrelacement a permis de répartir les erreurs sur plusieurs paquets. Seul un octet par paquet est affecté et le code Reed Solomon, vu avant, peut facilement corriger ces erreurs. Sans entrelacement, ce sont les mots complets qui auraient été affectés sans espoir de pouvoir les récupérer. Dans la pratique on utilise un jeu de registre à décalage et de commutateur pour placer chacun des octets d'un paquet dans des 12 paquets différents. A gauche l'entrelaceur et à droite le desentrelaceur. Ce qui d'un point de vue paquet se traduit par: A: avant entrelacement, B: après entrelacement, C: après désentrelacement. Code convolutif: Lorsque l'on affronte des milieux très bruités comme dans le cas des liaisons satellites ou terrestres, il convient de renforcer encore les mesures de protection des données à transmettre. Nous allons mettre en oeuvre maintenant un code convolutif. Si l'on regarde bit à bit le signal, aucun lien ne les relie. Chaque bit est rigoureusement indépendant. L'idée du code convolutif est de lier un bit à un ou plusieurs bits précédents de sorte à pouvoir retrouver sa valeur en cas de problème. Voici le codeur utilisé par DVB. On voit que chaque bit incident va générer deux bits sortants et qu'il sera lié aux 6 bit précédents. Le bit 1 de sortie est un "OU exclusif" entre les bits 1,2,3,4 et 7 tandis que le bit 2 de sortie est un "OU exclusif" des bits 1,3,4,6 et 7. Avantage: Ce code dit "en treillis" va permettre de retrouver la valeur la plus probable d'un bit en observant les bits précédemment reçus. C'est pas très évident à expliquer mais c'est très efficace dans la réalité. Inconvénient: On vient de doubler le débit du train TS. Quand on connaît le prix du bit transmis, on se doute que l'on va trouver une astuce pour améliorer le rendement. L'opération de décodage est réalisé en réception par le décodeur de Viterbi. Le poinçonnage: Le rendement du codeur vu ci-dessus est de 1/2, 1 bit d'entrée, 2 bits de sortie. Le poinçonnage consiste à améliorer ce rendement en ne transmettant pas certains bits sortant du codeur convolutif. Si trois bits se présente en entrée de codeur, on va en retrouver 6 en sortie mais on en transmettra que 4. Le rendement sera alors de 3/4. On parle aussi de FEC 3/4 (FEC = Forward Error Correction). Bien sur, ce poinçonnage crée des erreurs puisque l'on ne transmet pas tous les bits. En réception, dans le décodeur de Viterbi, on remplace ces bits par des zéros. De part la robustesse et la nature du code convolutif choisi, on retrouve leurs valeurs la plus probable. On est maintenant presque prêt à attaquer un modulateur numérique. Un problème subsiste cependant. Le signal numérique est de forme rectangulaire et si on le module ainsi, on obtient un spectre en fréquence infini (un sin x/x). On va résoudre le problème en filtrant le signal de façon à réduire la bande occupée. Le filtre choisit est le filtre de Nyquist. Attention, dans le cas de la transmission par câble, qui est considéré comme un milieu protégé, il n'y a pas d'application du code convolutif et donc du poinçonnage. Filtre de Nyquist: Une explication plus complète viendra en son temps. Pour le moment, on dira juste que ce filtrage va diminuer le débit utile de notre signal en fonction d'un coefficient appelé Roll Off. La largeur de bande occupée sera égale à: W= Débit utile x(1+Roll Off) Les exemples de calcul de débit, vu plus loin, illustrerons son emploi. Le QPSK: La transmission satellite demande des codes de corrections puissants et une modulation la moins sensible possible aux distorsions de phase et d'amplitude. En effet la transmission est énormément bruitée, et les tubes des transpondeurs travaillant en saturation, il est hors de question de travailler avec une information modulée en amplitude. Principe: Le choix s'est donc porté sur une modulation QPSK(Quaternary Phase Shift Keying ou modulation à déplacement de phase à 4 états). C'est en fait une combinaison de deux modulations d'amplitude à porteuse supprimée. Les deux porteuses, appelé I et Q, sont, bien sûr, déphasées de 90°. x valant +X pour un bit à 0 et -X pour un bit à 1 et y valant +Y pour un bit à 0 et -Y pour un bit à 1. Un symbole transmis contient deux bits d'informations. On voit également, sur ce diagramme des constellations, que même si les points deviennent des tâches, à cause du bruit, ce n'est pas très grave. Il suffit de savoir dans quel quadrant se situe le point pour retrouver l'information. Calcul du débit utile: Pour revenir à des considérations pratiques, nous allons calculer le débit utile en sortie de multiplexeur, en fonction de la largeur du canal satellite. La largeur d'un canal satellite à -3 dB est de 36 MHz. On a vu que, de part le filtrage de Niquyst, le débit du signal binaire que l'on va pouvoir transporter est égale à : En satellite, le Roll Off a été choisi égale à 0.35 (valeur qui est compromis entre une bonne efficacité du filtre et un bon rendement). Donc pour une largeur de canal de 36MHz, on obtient un débit utile de 26,6 Mbit/s. En pratique, on prend une largeur de canal un peu plus importante, ce qui permet d'obtenir un débit binaire de 27.5 Mbit/s. Cette valeur étant le débit en sortie du modulateur, elle est égale au Débit Symbole (Symbol Rate) du transpondeur. Pour un transpondeur de 36 MHz de largeur de bande, le Symbol Rate est de 27,5 MSymbol/s. On a employé une modulation de type QPSK, un symbole transporte deux bits donc le débit binaire brut est de 55 Mbit/s. Dans cette valeur sont compris les bits de redondance apportés par le codage Reed Solomon et le code convolutif. Le débit utile, en sortie de multiplexeur, est égale à: Débit utile= débit brute x rendement du code Reed Solomon x rendement du code convolutif. Le rendement du code Reed Solomon est égale à 188/204 Le rendement du code convolutif est égale au FEC. D'où le tableau suivant; Pour un Débit Symbole de 27.5 MSymbol/s sur un transpondeur de 36MHz de largeur de bande Le FEC sera choisi par l'opérateur, en fonction de critère technique et économique. Technique, car il faut un FEC adapté à la puissance du transpondeur vu du sol, et à la taille des paraboles de réception. Un transpondeur en Wide Beam aura un FEC de l'ordre de 2/3, 3/4 alors qu'un transpondeur en Super Beam pourra avoir un FEC de 3/4 ou 5/6. Un feed peut travailler en 7/8, les paraboles de réception professionnelle faisant souvent plus de 2 mètres de diamètre. Economique, car au prix de location d'un transpondeur, il vaut mieux passer le plus grand débit utile. Le QAM: Sur le câble, la problématique est différente. C'est un milieu bien protégé mais à bande réduite. On va donc choisir une modulation à efficacité maximale, c'est à dire transportant un maximum de bit par symbole. Modulation QAM: On va utiliser une modulation QAM (Quadrature Amplitude Modulation) composée de deux modulations d'amplitude à porteuse supprimée en quadrature comme pour le QPSK. L'équation reste donc: La différence tient dans le fait que l'on va augmenter le rendement du code en augmentant les valeurs que peuvent prendre x et y. Si chaque axe code maintenant deux bits, on va transporter 4 bits par symbole et définir une QAM 16: Si on veut 5 bits par symbole, on obtient une QAM 32: Et si l'on code 6 bits par symbole, une QAM 64: On pourrait aller loin comme ça, mais l'on voit que plus on code de bit par symbole, plus les symboles sont rapprochés et donc plus on est sensible au bruit. Un symbole très bruité et donc éloigné de son emplacement d'origine, peut être confondu avec le symbole adjacent (d'ou l'utilité des opérations d'entrelacement et de correction d'erreurs). En pratique, la plupart des réseaux câblés travaillent en QAM 64. Calcul du débit utile: Ici la largeur du canal de transmission est de 8MHz (largeur des anciens canaux analogique). On a vu que, de part le filtrage de Nyquist, le débit du signal binaire que l'on va pouvoir transporter est égale à: Le Roll Off choisi est de 0.15 (milieu protégé et bande faible). Donc pour une largeur de 8 MHz, le débit binaire est au maximum de 6,96. Ce débit est égale au Débit Symbole en sortie du modulateur QAM. Si nous travaillons en QAM 64, un symbole représente 6 bits et donc le débit brut, en sortie du multiplexeur est égal à 6 x 6.96 soit 41.76 Mbit/s, codage Reed Solomon compris. Ici, je vous le rappelle, il n'y a pas de codage convolutif. Le débit utile est donc: débit binaire utile = débit binaire brute x rendement du code Reed Solomon, soit dans notre exemple 41.76 x (188/204) ou 38.48Mbit/s. Sur un réseau câblé, le débit binaire utile sera au maximum de 38.5 Mbit/s. Transmodulation: Pour un opérateur câble, il est très intéressant de diffuser à ses abonnés des transpondeurs complets provenant d'opérateur satellite. Il démodule le signal QPSK et re-module le train MPEG en QAM 64 en effectuant un transnitage (changement dans les tables SI). Seule contrainte, le débit utile du transpondeur doit être inférieur à 38.5 Mbit/s. Ce qui revient à dire que pour les transpondeurs courants, le FEC doit être inférieur ou égal à 3/4(Voir Modulation QPSK). Prenons le cas d'un transpondeur classique de FEC 2/3. Son débit utile est de 33.79 Mbit/s. On passe à la moulinette de Reed Solomon. Le débit devient 33.79 x (204/188)= 36.66 Mbit/s. La modulation QAM 64 transporte 6 bits par symbole donc le Symbol Rate est de 36.66/6 = 6.11 MSymbol/s. La bande passante occupée sur le câble sera égale à 6.11 x (1+Roll Off), c'est à dire 6.11 x 1.15=7.03 MHz. On est bien dans le gabarit des 8MHz. Transnitage: C'est l'opération qui consiste à remplacer la NIT d'un flux DVB par une autre pour changer le réseau d'appartenance d'un flux. En clair le câblo remplace la NIT incidente de l'opérateur satellitaire par la sienne. Le COFDM: Transmettre un train numérique par voie hertzienne n'est pas une mince affaire et c'est pourquoi c'est la technologie qui a demandée le plus de temps pour émerger. C'est celle du DAB (Digital Audio Broadcasting) qui a été adaptée à la télévision numérique. Voici quelques éléments et avantages utilisés par le DVBT. Aperçu du COFDM (Coded Orthogonal Frequency Division Multiplex): Le challenge relevé est qu'à la réception on puisse retrouver les symboles transmis indépendamment des chemins multiples(réflexions, échos , antenne recevant deux émetteurs différents, effet doppler dans le cas de la réception mobile) empruntés depuis le ou les émetteurs. Par définition, les caractéristiques d'un canal de transmission ne sont pas constantes dans le temps. Mais durant un court laps de temps, les caractéristiques d'un canal hertzien sont stables. Le COFDM découpe le canal en cellule selon les axes du temps et des fréquences. Le canal est alors constitué d'une suite de sous bandes de fréquence et d'une suite de segments temporels. À chaque cellule fréquence/temps est attribuée une porteuse dédiée qui représente un symbole COFDM. On va donc répartir l'information à transporter sur un ensemble de ces porteuses, modulée chacune à faible débit par une modulation du type QPSK ou QAM. Deux choix existent, le mode dit 8K(6817 porteuses dans le canal) ou le mode dit 2k(1705 porteuses dans le canal). Chacune des porteuses est orthogonale à la précédente. Une même suite de symbole arrivant à un récepteur par deux chemins différents se présente comme la même information arrivant à deux instants différents et qui s'additionnent. Ces échos provoquent deux types de défauts: L'interférence intra symbole: Addition d'un symbole avec lui-même légèrement déphasé. L'interférence inter symbole: Addition d'un symbole avec le suivant plus le précédent légèrement déphasé. Entre chaque symbole transmis, on insère une zone "morte" appelée intervalle de garde. De plus la durée utile d'un symbole sera choisie suffisamment grande par rapport à l'étalement des échos. Ces deux précautions vont limiter l'interférence inter symbole (celle ci se produisant au début des symboles, c'est l'intervalle de garde qui est affecté). Synoptique d'un modulateur DVBT: Un signal arrivant d'un multiplexeur subit les étapes suivantes: Un brassage, Un codage Reed Solomon(204,188, t=8) Un entrelacement, Un code convolutif, Un poinçonnage Un filtrage, une modulation QAM ou QPSK, une modulation COFDM. Quelques chiffres: DVB a défini les paramètres suivants: L'intervalle de garde Delta peut être égale à: 7, 14, 28, 56, 112 ou 224 µs. Plus l'intervalle est grand plus le symbole est protégé. La durée utile d'un symbole est égale à: 4, 8, 16, 32 fois Delta. La modulation des porteuses peut être: QPSK, QAM 16 ou QAM 64. Avantages: Le DVBT est compatible avec les installations de réception analogique déjà en place (antenne, distribution collectives) Le système est insensible aux échos, il n'y a plus de canaux interdits. Avec 25 Mbit/s utiles dans un canal, on diffuse 5 à 6 programmes où passe aujourd'hui un seul programme analogique. Possibilité de gérer des décrochages locaux pour des chaînes ou des programmes locaux. Possibilité de réception hertzienne mobile de qualité. Introduction de réseaux dit SFN (Single Frequency Network).Un programme est disponible sur une seule et même fréquence sur tout le territoire. Possibilité d'une réception mobile parfaite. Inconvénients: Moins de canaux disponibles que sur le satellite. Coût de l'infrastructure des émetteurs terrestres. Complexité des démodulateurs. Les réseaux mono-fréquence: Les avantages de la modulation COFDM sont nombreux, mais un de ses intérêts principaux est sa capacité à faire face aux échos, produits par des réflexions dues à l'environnement ou à plusieurs émetteurs fonctionnant sur le même canal RF. En fait, le COFDM peut employer des échos constructifs (c.-à-d.: ceux qui augmentent la puissance reçue) et négliger les effets négatifs des autres. La modulation de COFDM offre aux radio-diffuseurs une nouvelle manière d'utiliser leurs réseaux terrestres, soit la multiplication d'émetteur sur le même canal pour augmenter la zone de couverture et transmettre plus de canaux. Pour réaliser un réseau mono fréquence, il faut que les émetteurs qui opèrent sur la même fréquence, en même temps, transportent les mêmes bits d'informations. Tous les émetteurs du réseau doivent être synchronisés dans le domaine fréquentiel aussi bien que dans le domaine temporel. C'est par l'emploi du système GPS que l'on résout le problème. Synchronisation temporelle: La valeur d'intervalle de garde choisie pour le réseau a une grande importante sur la topologie du réseau même, sa durée régit le temps maximum d'échos admissible par le système et, donc, détermine la distance maximum entre les émetteurs de cocanal. La fenêtre de temps, pendant laquelle les récepteurs échantillonnent le signal utile exclue la période d'intervalle de garde, où le signal est fait d'un mélange de deux symboles consécutifs de COFDM. L'intervalle de garde doit être considéré globalement comme "budget de temps". Ce sera sur cet intervalle non utilisé que l'on pourra compenser une mauvaise synchronisation temporelle d'un émetteur du réseau. En pratique, l'opérateur de réseau utilise 1 impulsion par seconde(1PPS, Pulse Per Second) issue d'un récepteur GPS. Cette référence de temps autorise à insérer un marqueur de temps dans le multiplex à l'entrée du réseau de distribution primaire pour permettre, dans chaque émetteur, au processeur de COFDM de retarder le multiplex entrant jusqu'à ce qu'un instant commun de temps de diffusion se produise. Synchronisation fréquentielle: La fréquence de chaque sous porteuse du canal sera étroitement contrôlée et surveillée pour chaque émetteur du réseau. Voici quelques petits schémas pour résumer les choses: A: Dispersion d'énergie B: Code Reed Solomon C: Entrelacement D: Code convolutif et poinçonnage E: Filtrage de Nyquist F: Modulation QPSK ou QAM Les Tables SI/PSI(Service Information/Program Specific Information): En analogique, un canal de transmission transporte un programme de télévision. Votre récepteur, c'est-à-dire votre téléviseur, se cale sur la fréquence (qu'il a en mémoire) de la chaîne et décode le service qui est toujours de même type, soit un service de télévision. Le cas du numérique est très différent. Un canal de transmission transporte plusieurs services de natures différentes. Décoder un service de télévision ne fait pas appel aux mêmes ressources du terminal que décoder un service interactif. On transportera donc dans le signal des informations qui permettront au terminal de connaître la nature et la composition des services présents dans un TS(transport stream). Par extension, on inclura aussi des informations sur les autres TS de l'offre. Et, comme on l'aura deviné, ces informations seront transportées dans les tables. Les tables sont diffusées régulièrement, chacune avec une récurrence jugée suffisante par l'opérateur pour rafraîchir les informations au niveau du terminal en fonction du type de table, cela va de 100ms à 30s. Structure des tables La structure est simple et générique, DVB a réservé une plage de PID pour les transporter: 0 à 20. Une table est composée de sous-tables, qui peuvent ellesmêmes être composées de section. Chaque section est composée d'un en-tête puis de boucles contenant des descripteurs, ou Tag. Ces tags sont l'élément unitaire d'information. Comme à son habitude, DVB définit des tables et tags publics et laisse la possibilité de transporter des tables et tags privés définis pour les besoins particuliers de l'opérateur. Enfin la taille d'une section est limitée à 1024 octets pour la plupart des tables et à 4096 pour les autres. Voyons tout de suite la composition d'un en-tête de section. En principe, une table est lue une fois puis le terminal se contente de surveiller son numéro de section. Si celui-ci change, il lit de nouveau la table. La description des boucles sera abordée lors de la description de chaque table. Les Tables PSI PAT(Programme Association Table): Elle porte le PID 0 et son table id est de 0. Pour chaque service physiquement présent sur le TS, elle associe le service, repéré par son Program Number, à un Pid de PMT. PMT (Program Map Table): Son Pid est choisi par l'opérateur et son table id est égal à 2. Il y en a une pour chaque service physiquement présent sur le TS. Elle décrira les caractéristiques du service et de ses composantes. CAT (Control Access Table): A pour PID et table id 1. Elle permet au terminal de connaître les PID des voies EMM qui sont présentes sur le TS. On se rappellera que les EMMs transportent le renouvellement des droits pour chaque carte d'abonnés. Les Tables SI (Service Information) Pour ses besoins, DVB a ajouté de nouvelles tables dites SI(Service Information) qui peuvent être utilisées par le terminal et l'utilisateur pour naviguer à travers les services reçus. Certaines sont obligatoires dans un flux DVB, d'autre sont optionnelles. Tables Obligatoires NIT (Network Information Table): A pour PID 16 et pour table id 64 ou 65. Cette table regroupe l'ensemble des transpondeurs et des services rendus accessibles à l'abonné par un opérateur. Toutes les informations nécessaires au calage du terminal sont contenues dans cette table (fréquence, polarisation, FEC, SR, position). La table id est égale à 64 si la table décrit le réseau de l'opérateur qui émet cette table (NIT Actual )et égale à 65 si la table décrit le réseau d'un autre opérateur(NIT Other). SDT (Service Description Table): A pour PID 17 et pour table id 66 et 70. Renseigne sur les services présents sur un multiplex; La table id est égale à 66 si la section décrit un service présent sur le TS (SDT Actual) et égale à 70 si la section décrit un service présent sur un autre transpondeur (SDT Other). EIT present/following (Event Information table): A pour PID 18 et table id 78 et 79. Donne des informations sur les événements en cours ou à venir juste après l'événement en cours (nom de l'émission, nom des invités, heure de début, durée...) sur les services du multiplex ou des multiplex d'un opérateur. La table id est égale à 78 si la section décrit les événements d'un programme du TS (EIT Actual) et égale à 79 si la section décrit les événements d'un programme d'un autre transpondeur. TDT (Time and Date Table): A pour PID 20 et table id 112. Donne la date et l'heure Universelles. Tables optionnelles BAT (Bouquet Association Table): A pour PID 17 et table id 74. Cette table permet de grouper les services autrement que par la notion de réseau (NIT). Un service peut appartenir à plusieurs bouquets. On peut faire, par exemple, des bouquets pour regrouper les chaînes par thèmes ou encore faire des bouquets par zone géographique de réceptions. EIT schedule (Event Information table) : A pour PID 18 et table id de 80 à 95 et 96 à 111. Donne des informations concernant les événements à venir sur une semaine, sur les services du multiplex ou des multiplex d'un opérateur. Cela doit permettre de constituer un EPG (Electronic Program Guide) c'est à dire un guide électronique des programmes. RST (Running Status Table): A pour PID 19 et table id 113. Permet de modifier le statut d'un événement rapidement. Un événement est un élément de programme (une émission par exemple). L'événement peut être stoppé, démarré dans quelques secondes, en pause ou en cours. ST (Stuffing Table): A pour PID 19 et table id 114. Cette table dite de bourrage permet de venir remplacer n'importe quelle section d'autres tables pour l'invalider. TOT (Time Offset Table): A pour PID 20 et table id 115. Transporte la date et l'heure Universelles, plus le décalage horaire pour le fuseau horaire de diffusion. Les tables privées Toutes sections de tables ayant un PID supérieur à 20 et un table id compris entre 128 et 255 sont des tables privées dont le contenu a été défini par l'opérateur. C'est dans ce type de structure que sont transportées les informations des applications interactives type Open TV ou MediaHighway. Introduction à la télévision haute définition(HDTV) Lorsqu'on entend parler de télévision numérique (DTV, Digital Television), on parle généralement de transmission de signaux de télévision purement numérique, ainsi que la réception et la présentation de ces signaux sur un téléviseur numérique. Plusieurs des nouveaux systèmes satellite, ainsi que le câble numérique et les DVD utilisent un schéma d'encodage numérique qui permet de présenter une image de meilleure qualité par rapport aux images analogiques. Par contre, l'information numérique est convertie en format analogique pour pouvoir être présentée sur un téléviseur analogique (les plus répandus actuellement). L'image ainsi présentée représente une grande amélioration, si on la compare au VHS ou au câble analogique, mais elle serait encore meilleure si on éliminait la conversion à l'analogique. Les signaux numériques pouvant être diffusés soit par des moyens terrestres, par câble ou par satellites avant d'être captés chez vous. Après réception, un décodeur transforme le signal numérique et en alimente directement votre téléviseur numérique. Une nouvelle classe de signaux numérique commence à prendre sa place dans l'échiquier de la télévision numérique, il s'agit du format de Télévision Haute définition (HDTV, High Definition Television). HDTV est un signal vidéo numérique (DTV, Digital Television) haute résolution, combiné avec un son numérique ambiophonique (Dolby Digital Surround Sound, AC3). Il représente le standard de résolution vidéo numérique le plus élevé présentement sur le marché. Cette combinaison crée une expérience audio-visuelle extrêmement enrichissante. Cependant, le HDTV requière de la part des stations de télévision qu'ils s'équipent de tout nouveaux équipements de production et de diffusion, et les consommateurs devront faire de même pour recevoir le signal. Il s'agit d'ailleurs là d'une des principale raisons pour laquelle l'implantation de ce standard est plus lente que prévue initialement. HDTV offre une résolution d'image beaucoup plus élevée que ce qui se fait pour le moment, c'est d'ailleurs son principal avantage par rapport aux signaux numériques standard. On parle ici de 720 ou 1080 lignes de résolution, comparé aux 525 lignes auxquels les gens sont habitués en format NTSC, la différence est énorme. Des 18 formats DTV, 6 sont des formats HDTV et 5 de ceux-ci sont basés sur une "analyse"(scanning) progressive et 1 autre sur une analyse "entrelacée"(Interlaced). Les 12 formats restants comprennent 1 format SDTV (Standard Digital Television) et les 11 autres sont des formats EDTV (Enhance Digital Television(4 avec un ration de 16:9 et 7 formats conventionnels avec un ratio de 4:3). Les réseaux et stations de télévision ont le choix d'utiliser l'un ou l'autre de ces formats. Les principaux formats susceptibles d'êtres utilisés en HDTV sont: 720p – 1280 X 720 pixels progressifs 1080i – 1920 X 1080 pixels entrelacés(Interlaced) 1080p – 1920 X 1080 pixels progressifs Voici un tableau comparatif des différents standards existants: SDTV (Standard Digital Television) consiste en un format digital standard de 480i/30Hz. Ce format est principalement utilisé lorsque la largeur de bande passante est une préoccupation importante. SDTV utilise un taux de transfert d'environ 47Mbps. EDTV (Enhance Digital Television) représente une amélioration par rapport au SDTV, mais pas tout à fait aussi bon que le HDTV. La résolution verticale est limitée à 480 lignes, mais la résolution horizontale varie de 640 à 704 lignes. Le standard comprends des rapports de dimension de 4:3 et 16:9 et des taux de rafraîchissement de 24-30 et 60Hz, en plus de comprendre des signaux progressifs et entrelacés. EDTV sera utilisé lorsqu'une meilleure qualité d'image est désiré, mais sans utiliser la même largeur de bande que le HDTV. HDTV (High Definition Television) utilise une bande passante d'environ 19 à 27Mbps* pour assurer une image de la meilleure qualité possible. Tous les formats HDTV ont un rapport de dimension de 16:9, à des taux de rafraîchissement variant également de 24-30 et 60Hz. "Entrelacé (Interlaced)" et "progressif (progressive)" réfèrent au système d'analyse(scanning) de l'image. En format entrelacé, le système présente d'abord les lignes impaires puis, dans une deuxième analyse (scan), les lignes paires. Lorsqu'il y a 30 images par secondes, le moniteur montrera donc un demi frame chaque soixantième de secondes. Pour des moniteurs plus petit, cela est moins visible, mais lorsque les moniteurs deviennent plus gros, un problème peut apparaître dans l'image, qui est appelé "papillottement(flicker)". Le format progressif montre une image entière à chaque soixantième de seconde. Ce qui permet une image beaucoup plus douce, mais utilise plus de bande passante. Tous les formats DTV utilisent présentement MPEG2 comme leur standard de compression vidéo, tout comme les DVD-Vidéo. MPEG2 est un algorithme de compression flexible qui s'adapte aisément aux hautes résolutions du DTV. En format de télévision NTSC analogique (Amérique du Nord), l'image vidéo a 525 lignes, mais 480 seulement sont effectivement visibles. Un téléviseur normal aura donc une résolution effective d'environ 210,000 pixels. La résolution maximum des formats numériques (HDTV) permet une résolution d'environ 2 000 000 de pixels, ce qui représente environ 10 fois plus de détails pour une image en Haute définition. On peut utiliser des ratios de 4:3 ou 16:9, tel que montré dans la figure suivante: Une émission de télévision typique est enregistré directement en vidéo NTSC, ou utilise un format film 35mm. Dans le cas du film, le signal est converti en signaux analogues pour la diffusion. Le format d'image film (35mm) est de 1.37:1, ce qui veut dire qu'il est 1.37 fois plus large qu'il est haut. Un téléviseur standard a un format de 4:3(1.33:1), alors la conversion est assez facilement réalisable. La télévision haute définition, quand à elle, offre une image contenant beaucoup plus de détails, ce qui permet un résultat plus "propre". Les images que nous voyons dans nos téléviseurs sont composées de petit éléments appelés "pixels". Chacun de ces pixels est composé de trois "points de couleur" très rapprochés (rouge, bleu et vert). Avec les signaux NTSC analogiques traditionnel, 256 degrés d'intensité sont possible pour chacune de ces 3 couleurs. Le résultat donne une possibilité de 16,8 millions de couleurs pour chaque pixel. Dans un système analogique, les pixels sont un peu plus haut que large. Par contre, avec un signal en HDTV, les pixels sont carrés et sont également plus petits et plus rapprochés entre eux. 1920 pixels horizontaux en luminance Y (noir et blanc) et 960 pixels pour chacune des deux couleurs Pb et Pr (soit la luminance moins le rouge, et la luminance moins le bleu). La définition verticale est donc de 1080 lignes utiles. Cette définition permet d'obtenir des pixels carrés, pour une image au format 16/9, puisque 1920/16 = 120 et 1080/9 = 120. Le rapport étant identique si les points sont carrés, ce qui facilite toutes les opérations numériques qui pourraient être réalisées à partir de ces images. On pourra ainsi mettre 4.5 pixels HDTV dans le même espace qu'aurait occupé un pixel NTSC. Il en résulte qu'un téléviseur HD peut présenter 4.5 fois plus de détails qu'un téléviseur analogique NTSC. Pour opérer avec les nouveaux standards HDTV, les diffuseurs devront se ré-équiper de a à z, car les formats digitaux HDTV ont: - Une image plus large. - Une image beaucoup plus détaillée. - Une qualité audio supérieure (5.1 canaux Dolby Digital, AC-3). - La possibilité d'envoyer de l'information directement à votre moniteur ou PC (la transmission HDTV est basée sur un flux de données digitale de 19.3 Mbps*). En HDTV, le ratio utilisé est de 16:9(1.78:1), ce qui est plus près de celui utilisé dans les salles de cinéma (1.85:1 ou 2.35:1). Présentement les diffuseurs doivent utiliser une méthode appelée "pan and scan"(découper l'image complète à un ratio de 4:3, en éliminant une partie de l'image), ou "letterbox" (présenter l'image complète seulement dans la partie centrale de l'image). Avec le format 16:9, utiliser le "pan and scan" n'élimine qu'une infime partie de l'image et le "letterbox" ne bloque que très peu de l'image. Le ATSC (Advanced Television Systems Committee) à adopté le ratio 16:9 "wide-screen" comme standard pour la télévision haute définition numérique car cela permet de présenter beaucoup plus d'information dans votre téléviseur. De plus, comme de plus en plus de films sont présentés à la télévision et/ou en vidéo (DVD, VHS, etc...), cela permet de présenter l'information au complet. Au préalable on devait faire un "pan and scan" du document et, donc, couper une partie de l'image. L'"association" cinéma et vidéo/télévision est donc plus facilement réalisable. Il est important de souligner que la diffusion des deux ratios(16:9 et 4:3) de signaux numériques est possible, même s'il est présumé que tous les signaux DTV seront diffusés en ratio 16:9 dans un avenir peut-être pas si lointain. Votre téléviseur numérique pourra décoder les deux ratios sans égard a son ratio "natif". Lorsqu'un programme est transmit en 4:3, sur un téléviseur 16:9, l'image sera présentée en "window-box", centrée dans l'image, avec des barres noires verticales de chaque côté. Lorsque vous regarderez un programme 16:9 sur un téléviseur 4:3, l'image sera présentée en "letter-box", avec des bandes noires horizontales au dessus et en dessous de l'image. Non seulement l'arrivée du DTV nous offre une qualité d'image presque parfaite, mais le format inclus également l'encodage audio numérique, qui améliore grandement la qualité. Le standard audio numérique pour tous les formats DTV est le "Dolby Digital". Ce qui permet au standard une vaste gamme d'algorithmes, selon les besoins. "Dolby Digital" est un format beaucoup plus flexible que simplement le format 5.1 canaux surround sound, il offre la possibilité d'encoder en formats 1.0 canaux (mono), 2.0 canaux (stéréo, incluant les option Dolby Pro-Logic et Pro-Logic II). Les fans du cinéma maison pourrons également profiter du format 6.1 Extended Surround Sound et le Dolby Digital EX. Dolby Digital utilisera seulement la quantité de data nécessaire, selon les paramètres choisis. Il est également à noter que le câble numérique, tel qu'offert présentement, n'est pas un signal DTV (à quelques exceptions près). Il s'agit d'un signal analogique, transformé en numérique pour sa transmission et retransformé en format analogique de façon à ce que votre téléviseur puisse le présenter. *- La largeur de bande passante utilisée pour diffuser les signaux numériques n'est pas fixe. Elle évoluera en fonction de différents facteurs, dont les plus importants sont le prix de la bande passante versus la qualité d'image et l'évolution des algorithmes d'encodage qui permettrons de réduire la taille du signal sans affecter la qualité. Présentement on prévoit utiliser entre 12 et 19 Mbps, mais ce chiffre pourrait encore baisser. Glossaire des termes et abréviations: 4:1:1 : Méthode d'échantillonnage de vidéo numérique par composante qui utilise un échantillon luminance/Bleu Cb(composante bleue) et un échantillon luminance/Rouge Cr (composante rouge) pour 4 échantillons de luminance(Y). 4:2:0 : Méthode d'échantillonnage de vidéo numérique par composante qui utilise un seul échantillon Cb (composante bleue) et Cr(composante rouge), soit 1 ligne sur deux, pour 4 échantillons de luminance. 4:2:2 : Méthode professionnelle d'échantillonnage de vidéo numérique par composante. Tous les pixels sont échantillonnés sur leur valeur de luminance(Y). Un pixel sur deux est échantillonné pour la différence luminance/Bleu Cb(composante bleue) et luminance/rouge Cr(composante rouge). 4:3 : Format de télévision écran large dont le rapport d'écran largeur sur hauteur d'image est 4 / 3 soit 1.33 fois plus large que haut. 5.1 : Configuration de haut-parleurs la plus classique du "Cinéma maison" sur 4 enceintes plus 1 caisson spécial pour les effets de type explosion et effets spéciaux (sub-woofer). 16:9 : Format de télévision écran large dont le rapport d'écran largeur sur hauteur d'image est 16/9 soit 1.78 fois plus large que haut. 525/60 : Système de diffusion TV de 525 lignes par image et 60 trames entrelacées (30 images) par seconde. Correspond au standard de télévision NTSC. 625/50 : Système de diffusion TV de 625 lignes par image et 50 trames entrelacées (25 images) par seconde. Correspond aux standards de télévision PAL et SECAM. 1/2 D1 : Une des résolutions d'image MPEG-2 de 352 x 576 (PAL/SECAM) ou 352 x 480(NTSC) utilisée dans le format DVD-Video. 2/3 D1 : Résolution d'image MPEG-2 de 480 x 576 (PAL/SECAM) ou 480 x 480(NTSC) exploitée dans le format SVCD. 2-2 pulldown : Le processus de transfert d'un film cinéma 24 images par seconde en vidéo PAL/SECAM 25 images par seconde. Le film est enregistré avec une augmentation de sa vitesse de lecture de 4 %. 2-3 pulldown : Le processus de transfert d'un film cinéma 24 images par seconde en vidéo NTSC 30 images par seconde en diffusant une des images en deux trames puis la suivante en trois trames. 3-2 pulldown : Variation du 2-3 pulldown. La première image est diffusée sur 3 trames au lieu de deux. 8/16 modulation : Une des étapes de la transformation de données brutes en données stockées sur un DVD, aussi appelée EFM+. 8-VSB : Acronyme pour la méthode de transmission utilisée pour la télédiffusion numérique terrestre au Canada et aux états-Unis. Huit niveaux d'amplitude séparés. La technologie de diffusion "vestigial side-band" ou par bande latérale résiduelle est une technique de modulation analogique utilisée pour réduire la largeur de spectre requise pour la diffusion d'informations par câble ou terrestre. AAU(Audio Access Unit/Unité d'Accès Audio) : Voir Access Unit. A/B Roll Editing(Montage A/B RoLL) : Montage effectué en utilisant deux sources vidéo, A & B, et un "mixeur" qui permet une variété de transitions entre elles. A/B Switch : Équipement qui accepte les signaux (Optiques ou électriques) de deux sources (A & B) et qui permet d'aiguiller de un à l'autre, automatiquement ou manuellement. AC-3 : Standard audio pour 5.1 canaux approuvé pour la télévision numérique au Canada. AC-3 offre une qualité audio numérique similaire au CD et fournit cinq canaux de pleine largeur de bande: Gauche, Droite, Centre, Arrière (ou côté) gauche, Arrière (ou côté) droit, plus un caisson d'extrèmes graves, LFE, (effets de basse fréquence), pour un total de 5.1 canaux. AC-3 est un membre de la famille de systèmes de son développés par Dolby Labs. ACATS : Advisory Committee on Advanced Television Service. Access Unit: Dans le cas de l'audio, un "access unit" est la représentation codée d'un "frame" audio. Dans le cas du vidéo, un "access unit" inclut toute l'information codée pour une image et tous les "bits" de remplissage qui suivent, jusqu'au prochain "access unit"(non inclus). ACL (écran d'affichage à cristaux liquides) : Cette technologie offre un format d'écran plat et utilise une couche de cristaux liquides très mince. Elle offre une brillance d'image très élevée et une bonne reproduction des couleurs. La taille des écrans HD ACL peut atteindre jusqu'à 96 cm (38 po). La technologie ACL est également utilisée dans plusieurs télé-projecteurs. A/D : Convertisseur Analogue à numérique (Analogue/Digital). ADPCM (Adaptive differential pulse code modulation) : Technique de compression d'un fichier audio qui encode la différence entre un échantillon sonore et le suivant par prédiction, de manière non destructive ou destructive selon ses déclinaisons. AES/EBU (Audio Engineering Society /European Broadcasting union) : Standard professionnel régissant la vitesse de transfert d'information audionumérique, et ce, à travers deux canaux. Afterburner : Dispositif permettant d'extraire l'information incorporée dans le signal vidéo et de le transformer en format texte. Ce "texte" est alors "brûlé" sur l'écran vidéo à l'intérieur d'une fenêtre. Surtout utilisé pour brûler le "time code", mais aussi pour d'autres informations pouvant servir à la post-production, par exemple. AIF (Audio Interchange File) : Un format de fichier audio développé par Apple. Les fichiers .AIF sont populaires pour transférer entre les ordinateurs Macintosh et les PC. Aliasing : Défauts ou distorsion de l'image télé ou de l'audio. Les défauts apparaissent souvent comme des lignes diagonales en escalier et des sautillements ou points brillants. En vidéo numérique, l'aliasing est causé par un échantillonnage insuffisant ou un mauvais filtrage du signal numérique. Alpha channel : Information attachée à chaque pixel qui représente comment ce pixel doit être "mixé" avec le background et/ou vidéo (transparence). Analogique (signal)[Analogue Signal] : Méthode de transmission d'un signal vidéo par la variation continue d'un signal électrique. Anamorphique (Anamorphic) : La compression horizontale d'une image 16:9 dans un plein écran 4:3 qui entraine la distorsion verticale de l'image. Anchor Frame : Un frame vidéo utilisé pour les prédictions. Les "I-Frames" et les "PFrames" sont généralement utilisés comme "anchor frames", mais jamais les "BFrames". Ancillary Time Code (ATC) : Cette information de contrôle de temps et d'adressage (SMPTE RP188) est encodée dans l'espace réservé au métadata d'un signal vidéo numérique. Elle contient le même type d'information que le LTC et remplace le VITC dans les système de télévision haute définition. ANSI : American National Standards Institute. API (Application Program Interface) : Une interface entre le système d'opération et les applications incluant la manière utilisée par les applications pour communiquer avec le système d'opération et les services que celui-ci met à la disposition des applications. Par exemple un API pourrais rendre possible a un programme qui l'utilise d'ouvrir des fenêtres sous Windows. Artefact : Terme générique pour définir les éléments indésirables et/ou défectueux dans une image vidéo (effets de blocs, bruits vidéo, etc.) et indépendant des réglages du téléviseur. Les plus communs en vidéo analogue ont trait à la couleur et/ou la luminance. En numérique, ils consistent en macroblocks, qui ressemblent à de la pixellisation de l'image vidéo. ASCII (American Standard Code for Information Interchange) : Un code standard pour la transmission d'information consistant en 128 lettres, nombres, symboles et codes spéciaux qui sont chacun représentés par un nombre binaire unique. Aspect Ratio (Format de l'image) : Rapport entre la largeur et la hauteur d'un écran de télévision ou de visualisation. Asynchrone (Asynchronous) : Qui manque de synchronisation. En vidéo, un signal est dit asynchrone lorsqu'il n'est pas en synchronisation avec le signal de référence du système. Asynchronous Transfer Mode (ATM) : Protocole de transport de signaux numériques permettant de transporter efficacement, à l'intérieur d'un réseau à large bande, autant l'information à flux constant que par vagues (constant rate and bursty information). ATEL : Advanced Television Evaluation Laboratory. ATSC (Advanced Television Standard[Systems] Commitee) : Organisme américain chargé des normes de diffusion numériques en télévision. ATSC est devenu le terme désignant toute la nomenclature sur les standards de diffusion en numérique. ATTC : Advanced Television Technology Center. AU(aussi SND) : Format de fichiers audio interchangeable utilisé dans les ordinateurs Sun Sparcstation, Nest et Silicon Graphics(SGI). Authoring : Terme général employé pour désigner la création d'un titre vidéo (DVD, Video-CD, SVCD, etc...), cela comprend l'encodage de la vidéo et des images, le dessin des interfaces, l'organisation de l'interactivité, etc... Les logiciels qui réalisent ce type d'opération sont appelés des systèmes auteurs. AVI (Audio-Video Interleave) : Format de fichier utilisé par Windows pour le stockage des images vidéo et du son, dans lequel les données vidéo alternent avec les données audio, accélérant ainsi la vitesse de restitution. Axis : Le centre d'un câble de fibre optique. Balanced Audio (signal Audio balancé) : Méthode de transmission d'un signal audio résistant aux interférences qui consiste à transmettre un signal et sa contrepartie électrique inverse. L'accumulation de bruit durant la transmission est alors cancellée alors que les deux signaux sont re-combinés à la réception. Cette méthode de transmission est surtout utilisé pour dans le cas de câbles long et/ou exposés. Balayage entrelacé : Certains téléviseurs HD et la plupart des téléviseurs traditionnels utilisent la méthode de balayage "entrelacé". Chaque cadre ou image est affiché en deux champs. L'image est affichée 30 fois par seconde en deux étapes. Dans la première étape, les lignes impaires sont affichées, et dans la deuxième, les lignes paires. Chaque champ affiche la moitié de l'image avec les lignes de balayage paires dans l'un et impaires dans l'autre. Le téléviseur n'affiche en réalité que la moitié de l'image mais en raison du défilement des cadres à une vitesse de 30 cadres/s, l'oeil humain ne détecte pas la moitié manquante. Balayage Progressif : Le cadre où l'image apparaît en entier immédiatement (un seul champ, par rapport au balayage entrelacé). Chaque ligne est balayée progressivement en ordre. Certains téléviseurs HD utilisent la méthode de balayage progressif. Cette méthode transmet et affiche l'image 60 fois par seconde en une seule étape. L'image qui en résulte est ainsi sans scintillements et sans artefacts, ce qui lui confère plus de réalisme. Certains types d'écrans, tels que ACL, plasma et DLP, utilisent le balayage progressif, tandis que les écrans CRT peuvent utiliser ce type de balayage (ex. : écrans d'ordinateurs) ou le balayage entrelacé. Bandwith (largeur de Bande) : L'intervalle complet de fréquences requises pour le fonctionnement d'un système électronique. Six megaHertz ont été alloués aux signaux de télévision analogiques. Cependant, à l'aide de la compression numérique, beaucoup plus de données numériques peuvent être transmises dans la même largeur de bande passante. Baud : Unité de vitesse de transmission équivalent au nombre "d'éléments de signaux" par secondes. Baud est équivalent a "bits per second" dans le cas ou chaque "élément de signaux" est égal à exactement 1 bit. Le terme "baud rate" est utilisé en référence à la vitesse de transfert utilisée dans un transfert entre deux ordinateurs. Normalement, le taux de transfert doit être identique entre les deux ordinateurs si on veut avoir une communication réussie. BER (Bit Error Rate) : Portion de bits transmise dans un signal qui est reçu incorrectement. Bi-directional pictures ou B-pictures ou B-frames : Images (frames) qui utilisent un frame futur et passé comme référence. Utilisés en compression numérique pour augmenter le taux de compression. Bitmap : Rangée de pixels bi-dimensionnels représentant la vidéo et les illustrations graphiques. Bit : La plus petite unité d'information selon laquelle la communication numérique est basée. Aussi l'impulsion (électrique ou optique) qui transporte cette information. Bit rate : La vitesse à laquelle le flux d'information compressé est envoyé dans le canal de transmission. Blanking level : Dans un signal vidéo composite, indique le niveau séparant l'image proprement dite de l'information de synchronisation. Block : Un block est un ensemble de 8X8 pixels ou un coefficient DCT représentant la luminance et la chrominance. BNC : Connecteur coaxial utilisé principalement en vidéo. Bouquet : Ensemble de programmes composant une offre commerciale. Bps : Bits per second. Brightness (Brillance) : [Réglage de]Luminosité d'une image. Broadband (Bande passante large) : Services de transmission en mesure de maîtriser plus de fréquences que celles requises pour la transmission de qualité de la voix. Brouillage : Codage d'un signal destiné à empêcher sa réception sans un dispositif spécifique assurant la fonction inverse. Bytes (Octet) : Un groupe de bits de données traités ensemble. Un octet est composé de 8 bits. Il y a les kilo-octets, les Méga-octets, les Giga-octets, les Téraoctets, etc... 1 octet= 8 bits, 1 Kilo-octet (Ko)= 1000 octets, 1 Méga-octet (Mo)= 1 000 000 octets (1 million), 1 Giga-octet (Go)= 1 000 000 000 octets (1 milliard), etc... Byte-aligned : Un bit, à l'intérieur d'un flux de bits codés (bit stream), est aligné si sa position est un multiple de 8 bits à partir du premier bit du flux. C : Abréviation pour chrominance. Cadre : Voir Frame. Canal : Un segment du spectre de 6MHz(largeur de bande) utilisé pour la transmission terrestre (chaînes 2-69) ou par câble, qui transmet un programme analogique NTSC ou encore un ou plusieurs programmes numériques. CEA (Consumer Electronics Association): Association américaine regroupant les fabricants de produits électroniques. CAT (Conditionnal Access Table) : Table d'Accès Conditionnel. Indique au terminal les pids transportant les EMM (les droits de chaque abonné). CATV (Community Antenna Television, Câble TV) : Dans sa forme initiale, la télévision par câble était un système d'antennes desservant une communauté spécifique. Cb, Cr : Signaux de différence de couleur entre la luminance et la couleur bleue (Cb) ainsi que la luminance et la couleur rouge (Cr). CCD (Charged coupled device) : Capteur qui, à l'intérieur une caméra, transforme les signaux lumineux et de couleurs en signaux électriques susceptibles d'être enregistrés ou numérisés. CCIR (Comite Consultatif International des Radiocommunications) A été transformé en ITU (International Telecommunication Union). CCIR 601 : paramètres de codage en studio de la télévision numérique pour des formats standards d'image 4:3(normalisé) et 16:9(écran panoramique). Traitement de la vidéo en composante 4:2:2. Ce standard est maintenant nommé ITU-R BT.601. CD (compact Disc) : Un moyen de stockage optique inventé par Philips et Sony. CD-DA (Compact Disc Digital Audio) : Le format original de musique numérique sur CD définis par le RED BOOK (stockage de l'information sous forme PCM) et à l'origine de tous les autres formats de CD. CD+G (Compact disc plus Graphics) : Une variation du format CD qui incorpore des informations graphiques dans les données audio ce qui permet l'affichage sur lecteurs compatibles (CD-i par exemple) d'images ou de textes simplifiés. Utilisé principalement pour des applications karaokés. CD-i (Compact Disc interactif) : Standard de disques et de lecteurs multimédias définis par le Green book en 1987 premiers lecteurs en 1991. Le CD-i supporte un ensemble d'applications; films, jeux, éducatifs, culturels et bornes interactives et est également compatibles avec les disques Video-CD (avec carte FMV), Photo-CD, CD+G et CD-Audio. A été principalement soutenu par Philips jusqu'à son arrêt en 1999. CD-R : Disque CD enregistrable une fois. Défini par le Orange Book. CD-ROM (Compact disc read-only memory): Disque CD qui permet le stockage de données informatiques. CD-ROM XA (CD-ROM extended architecture) : Version hybride du CD-ROM, avec un formatage de secteurs différents facilitant l'utilisation de données audio et vidéo. Utilisé pour les CD-i, Video-CD, Photo-CD. CDTV : Canadian Digital television Inc. CEMA (Consumer Electronics Manufacturers Association) : Association américaine regroupant les fabricants de produits électroniques. Channel : Un médium numérique qui stock où transporte un flux (stream) de signaux de télévision numérique. Character Generator (Générateur de Caractères) : Appareil utilisé pour générer des mots et/ou nombres en format vidéo. Les caractères seront subséquemment surimposés sur le signal vidéo ou le "background". Checksum : Une valeur simple de vérification de l'information, calculée en additionnant tous les bytes d'un bloc. Peu fiable car elle ne vérifie que le total de bits et non la validité de l'information. Chroma : Caractéristique de l'information couleur, indépendante de l'intensité de luminance. Le "hue" et la saturation sont des qualités du chroma. Les objets noirs, gris et blanc n'ont pas de caractéristiques de chroma. Chroma Key : Filtre qui permet à une couleur spécifique déterminée dans une séquence d'être rendue transparente. Chrominance(C) : La composante couleur de la lumière, indépendante de la luminance (Y). La chrominance est ajoutée à un signal noir et blanc pour produire une image couleur, ce qui est le principe de diffusion des systèmes de télévision PAL, SECAM et NTSC. CIF (Common image/Interchange format) : Utilisé pour l'échange de contenu mondialement. 1- Pour les ordinateurs, en 352x240 pixels. 2- Pour la haute définition numérique, la structure d'échantillonnage numérique 1920x1080 est le format établi mondialement. Tous les paramètres techniques relatifs au "scanning", la colorimétrie, les caractéristiques de transfert, etc... sont universels. Le standard est identifié comme ITU-R BT 709-3. Cinch : Voir RCA. Cliff effect (ou Digital cliff) : Réfère à un phénomène que l'on retrouve dans les systèmes vidéo numérique décrivant la détérioration soudaine de la qualité du signal due à des erreurs de bit excessives, souvent causé par une longueur de câble excessive, ou un problème de transmission. Le signal restera parfait même si un de ses paramètres approche sa capacité limite d'erreur. Par contre, à un certain moment, ces paramètres arrivent au point ou ils ne peuvent plus interpréter l'information de manière correcte et l'image devient totalement perdue. Closed GOP (GOP fermé) : Groupe d'images fermées, c'est-à-dire dont la dernière image n'a pas besoin de la première image du groupe suivant pour être décodée. Un GOP fermé est destiné à permettre le placement d'un point de montage dans un flux MPEG. Closed Captioning : Voir Sous-titrage code. Coarse Wave Division Multiplexing (CWDM) : Permet de transporter jusqu'à 16 canaux d'information séparés sur un unique câble optique en utilisant des longueurs d'ondes différentes. D’une manière générale les longueurs d'ondes sont séparées par un intervalle de 20 nanomètres. Coaxial : Câble composé d'un fil central isolé transportant l'information entouré d'une tresse métallique servant de fil de masse, immunisant par là le signal véhiculé contre les parasites. Codage statistique (Stat Mux): Procédé de codage permettant de faire varier le débit numérique représentant l'information à transmettre en fonction de la richesse de cette information. Le débit baisse lorsque l'information est peu riche (correspond à peu de mouvement ou à un contenu simple comme les dessins animés), et augmente lorsque l'information est riche (correspond à des mouvements rapides comme les émissions de sport ou à un contenu riche comme les films). Code Temporel ("Time Code"): Facilite l'assemblage des images lors du prémontage et du montage en assurant le repérage précis des plans à monter par l'indication de la position en heure (HH :), minute (MM :), seconde (SS :) et numéro d’image (FF: F pour Frame). Codec (Codeur-décodeur) : Un appareil ou logiciel qui convertit les signaux audio et vidéo analogiques en format numérique pour la transmission. Le codec reconvertit aussi le signal numérique reçu en format analogique. Coded representation: Un élément d'information tel que représenté dans sa forme encodée. Coefficient: Nombre caractérisant l'amplitude d'une fréquence particulière dans une transformée. COFDM (Coded Othogonal Frequency Division Multiplex) : Multiplex par division de fréquence orthogonale codée. COFDM peut transmettre simultanément plusieurs flux de données, chacun occupant seulement une petite portion de la largeur de bande totale disponible. Son principal avantage est de rendre les échos constructifs, offrant ainsi une réception sans interférences, même dans des conditions de propagation difficiles. C'est le standard TVN européen auquel on a préféré le 8-VSB en Amérique. Color Black : Signal vidéo analogique présentant une image noire. Ce signal est souvent utilisé en tant que signal de référence pour la synchronisation des équipements. Color Subcarrier (sous-porteuse couleur) : Fréquence qui transporte l'information sur la couleur dans un signal vidéo composite de base. Un signal de synchronisation de 3.58MHz est ajouté au début des lignes horizontales pour permettre de synchroniser les circuits de décodage des moniteurs de visionnement avec la source vidéo. Compensation de mouvement : Lors du décodage d'un fichier MPEG, action de reconstruire une image à partir de vecteurs de mouvements appliqués sur des blocs déjà décodés. Component Video (Composante): En produisant une image couleur, un système de télévision commence avec trois canaux d'informations; Rouge (Red), Vert (Green) et Bleu (Blue), que l'on appelle aussi RGB. Il s'agit d'une forme de vidéo component. Dans le procédé de transformer ces canaux pour la distribution, ils sont souvent convertis à Y, R-Y, et B-Y ou Y Pb Pr. Il s'agit là d'une autre forme de vidéo component. Le terme component représente un certain nombre d'éléments nécessaires à la formation d'une image. Composite Video : Un seul signal vidéo qui contient l'information sur la luminance, la couleur et la synchronisation. NTSC, PAL, et SECAM sont des exemples de systèmes vidéo composite. Compression : Méthode de réduction du nombre de bits requis pour enregistrer ou pour transmettre des programmes en enlevant les données redondantes et/ou les données jugées non essentielles de l'image et du son numérique. Le standard de transmission de TVN au Canada utilise la compression vidéo MPEG-2 et le code de compression audio AC-3. La compression permet la transmission de plus de programmes sur un seul canal. Compression à débit fixe : Techniques conçues pour produire un flux de données à débit constant. Compression des données : Procédé de réduction du débit des données numériques réalisé en enlevant les données redondantes et/ou les données jugées non essentielles. Les données étant les éléments d'information vidéo, audio et autres. Conditionnal Access (Accès conditionnel) : Technique alliant des opérations de brouillage et de gestion d'abonnement limitant l'accès aux programmes en diffusion grâce à une carte à puces assurant le débrouillage dans le terminal de l'abonné. Connecteur DB (Data Bus): Connecteurs situés à l'arrière d'un ordinateur et caractérisé par son nombre de broches (DB 9 ou DB 25, 15, 50 etc.). Connexion vidéo à composantes (Component Video Connections) : Maintenant commune sur la plupart des téléviseurs de meilleure qualité, la vidéo à composantes n'entraîne qu'une très légère compression. Les connexions vidéo à composantes possèdent un câble pour la luminance (noir et blanc) et deux pour les signaux de différentes couleurs. Connexion vidéo composite (Composite Video Connections) : Méthode utilisée pour interconnecter appareils et périphériques vidéo (décodeur numérique et téléviseur analogique par exemple) qui transmettent le signal sur un seul câble. Cette méthode n'est appropriée que pour transmettre des signaux analogiques NTSC. Connection S-Vidéo : Méthode d'interconnexion des équipements de vidéo (tels que le DVD et le téléviseur analogique) par l'envoi d'un signal à deux composants séparés, luminance (Y) et chrominance ou couleur encodée (C). La connexion S-Vidéo utilise un câble qui se termine en un connecteur miniature à 4 voies (parfois un connecteur à 7 voies utilisé pour les ordinateurs afin de permettre la transmission d'un signal composite NTSC). La connexion S-Vidéo améliore de beaucoup la qualité de l'image. Constant bit rate (CBR) : Mode d'encodage vidéo du MPEG ou le flux de données est compressé à un débit constant. Un même débit d'information est affecté pour traiter les scènes simples et complexes à encoder, ce qui limite la qualité de certaines scènes. Constant angular velocity (CAV): Système de rotation de disque dans lequel la vitesse de rotation du disque est constante. Les autres systèmes sont le CLV et ZCLV. Constant linear velocity (CLV): Système de rotation de disque dans lequel la vitesse linéaire parcourue sur le disque est maintenue constante en augmentant ou réduisant la vitesse de rotation du disque. Content Protection for Prerecorded Media (CPPM) : Système de protection du DVD-Audio. Content Protection for Recordable Media (CPRM) : Système de protection des DVD enregistrables. Contraste : Différence de luminance entre les parties les plus claires et les plus sombres d'une image. Conventional definition television (CDTV) : Terme utilisé pour décrire le système de télévision analogue NTSC. Voir aussi Standard definition television. Conversion du format (Format Conversion) : Procédé de codage/décodage et de ré-échantillonnage de l'image permettant de changer le format des données numériques. Conversion vers le bas (downconversion) : Procédé qui consiste à réduire le nombre de pixels et/ou format d'affichage (Voir conversion vers le haut). Conversion vers le haut (Upconverting) : Procédé qui accroît le nombre de pixels ou le débit d'images ou le format de balayage pour afficher une image. On y arrive par interpolation des pixels existants pour en créer de nouveaux plus rapprochés. Le procédé n'accroît pas la résolution de l'image. Utilisé pour la conversion de la définition standard en haute définition. Convertisseur numérique : Appareil assurant la réception, le décodage et l'envoi au téléviseur (NTSC) désigné de l'image et du son de la transmission TVN sélectionnée. Convertisseur (set-top box) : Boîtier non intégré au téléviseur permettant au téléspectateur de recevoir sur son téléviseur analogique les signaux numériques. Convertisseur numérique/analogique (D/A, digital to analog) : Boîtier non intégré au téléviseur permettant au téléspectateur de recevoir sur son téléviseur analogique les signaux numériques. Couche (Layer) : En MPEG-1 Audio, le numéro de couche (1, 2, 3) correspond à l'utilisation d'algorithmes de compression différents. CRC (Cyclic Redundancy Check) : Cycle redondant de vérification de la correction de l'information. Cross-interleaved Reed Solomon code (CIRC) : Méthode de correction d'erreur utilisée sur les CD. CSA (Common Scrambling Algorithm): Algorithme d'embrouillage spécifié par le standard DVB. CTL (Control Track) : Piste de contrôle permettant au magnétoscope de retrouver plus facilement la piste vidéo et lui fournissant également des indications sur le time code lorsque le VITC ou le LTC n'est plus lisible. Si le time code fait défaut, le CTL fonctionne au moins comme un compteur image relatif. DARS (Digital Audio Reference Signal) : Signal de référence audio utilisé pour la synchronisation des studios audio numériques. DAT (Digital Audio Tape) : Système d'enregistrement numérique (32, 44.1 ou 48 KhZ, 16 bits, 2 canaux) sur bande magnétiques (débit 273.1Kbs, vitesse 8.15 mm/s) initialement prévu pour l'enregistrement audio/son numérique (pro) mais aussi souvent détourné de sa fonction première pour de l'enregistrement de données "informatiques". Les lecteurs/enregistreurs DAT informatiques/audio sont bien sûr incompatibles entre eux. Data element : Un élément d'information tel que représenté avant l'encodage et après le décodage. dB (Decibel) : L'unité standard utilisée pour indiquer les gains et/ou perte de courant le long d'un signal. Elle indique le ratio logarithmique du courant "sortant"(output) divisé par le courant "entrant"(input). Cette méthode d'échelonnage des niveaux est importante étant donné que la sensitivité visuelle et sonore de l'homme est logarithmique, ce qui représente une large gamme dynamique. DBS (Direct Broadcast Satellite ou DTH, Direct to Home): Transmission directe par satellite. Transmission faisant habituellement appel au codage MPEG-2 et à la transmission QPSK. DCT (Discrete Cosine Transform) : Transformée Cosinus Discrète. Débit (taux) de transfert des données : Vitesse de transmission des données exprimée en "bits" par seconde (bps). Plus grande est la vitesse, plus de données sont transmises, ce qui se traduit généralement par une meilleure qualité d'image et de son. La vitesse de transmission des données vidéo est exprimée en mégabits par seconde (Mbps, 106) et celle des données audio en kilobits par seconde (kbps, 103). Decoded stream : La reconstruction d'un flux de bits compressés. Decoder (décodeur): Outils de décodage d'un signal compressé. Decoding (process) : Procédé défini par le standard de télévision numérique consistant à lire un flux de bits encodés et à recréer une image ou un signal audio. De-embedding : Procédé permettant d'extraire un signal d'un autre et de générer deux signaux séparés. Les deux peuvent être des standards différents. Ce terme est souvent utilisé pour décrire le procédé d'extraction d'un signal AES audio qui est intégré dans un signal vidéo numérique. Degauss (démagnétisation) : Procédé de démagnétisation d'un moniteur. Des champs magnétiques sont utilisés pour bouger le flux d'électrons sur la surface du tube écran. Un champ Magnétique défectueux peut parfois causer le flux d'électron d'aller là où il n'est pas supposé. Pour corriger cela, la plupart des moniteurs ont une fonction de démagnétisation automatique lorsque le moniteur est ouvert. Les plus sophistiqués ont la capacité additionnelle de le faire manuellement. Delay (délai) : Retard du signal. Le traitement de l'image au moyen des générateurs d'effet vidéo, de convertisseurs analogique/numérique et du TBC entraîne un retard d'une à plusieurs images. Les systèmes de montage doivent tenir compte de ce retard pour garantir le montage image à l'image près et de manière synchrone. Demux : Abréviation de "De-multiplexing", qui est la séparation de flux de data "multiplexés" en signal distincts. Peut aussi référer à la séparation de signaux AES audio d'un signal vidéo numérique (voir de-embedding). D-frame : "Frame" code selon le mode MPEG-1 en utilisant les coefficients DC seulement. Diffusion de données parallèles (Datacasting): Transmission de données ou d'informations supplémentaires reliées ou non au programme. Diffusion terrestre : Distribution des signaux de télévision et de radio sur les ondes de fréquences UHF/VHF. Les diffusions peuvent être analogiques ou numériques. Digital Betacam (Beta numérique) : Format numérique en composantes. Son faible taux de compression (2:1) garantit une image de haute qualité (4:2:2 pour 10 bits). Les caméras peuvent enregistrer en 4:3 et 16:9. Digital S : Format numérique en composantes de JVC. Basé sur la cassette VHS. Taux de compression relativement faible (2.3:1). DIN : Format de connecteur 5 broches. Dispersion d'énergie (brassage) : Combinaison logique d'un signal numérique avec une séquence pseudo-aléatoire pour rendre son spectre uniforme après modulation. DLP (Digital Light Processing/Traitement numérique de la lumière) : Technique où l'image affichée est produite par un ensemble de micro miroirs dynamiques formé sur une plaquette, chacun pouvant refléter la lumière source pour former un pixel sur l'écran. Chaque micro miroir contrôle le niveau de lumière transmis à l'écran pour le pixel. La résolution est définie par la taille de la plaquette de micro miroirs. Cette technique est utilisée par certains téléviseurs et projecteurs HD de haute gamme. Dolby Digital (auparavant Dolby AC-3) : Standard audio 5.1 canaux approuvé pour la télévision numérique ATSC utilisant un rapport de compression approximatif de 13:1. Fait appel à six canaux audio séparés: Gauche, Centre, Droite, Arrière (ou côté) gauche, arrière (ou côté) droit et caisson d'extrêmes graves-LFE "effets de basse fréquence"(considéré comme le .1 en raison de sa largeur de bande limitée). Dans bon nombre de téléviseurs, les 5.1 canaux sont convertis en deux canaux stéréo et ne fournissent pas le son complet ambiophonique des 5.1 canaux. Downconverter : Convertisseur qui prends un signal Haute définition (HDTV) et le converti en signal vidéo numérique standard (SDTV). (Voir: Conversion vers le bas). Downstream : Terme utilisé en diffusion indiquant un point (équipement ou autre) plus prêt du point final de transmission. Dpi (Dot per Inch, point par pouce [ppp]) : C'est le nombre de pixels créés sur une surface d'un pouce. Plus ce nombre est grand, meilleure sera la résolution et la définition de l'image. Drop Out : Défaut d'enregistrement ou de lecture de la cassette vidéo. Sur les bandes analogiques, il se manifeste par une ligne horizontale blanche, qui peut être partiellement corrigée par le TBC. Sur les bandes numériques, un correcteur d'erreur masque les drop outs. De plus, les informations de l'image étant réparties sur l'ensemble de la piste vidéo, un drop out ne fait qu'élever légèrement le niveau du bruit de l'image. S'il y a trop de drop outs, le correcteur d'erreur ne suit plus et des blocs de mosaïques apparaissent. DSL (Digital Subscriber Line ou Digital Subscriber Loop) : Une manière de transmettre de l'information par lignes téléphoniques ordinaires de cuivre, également appelé High-speed DSL (HDSL, DSL haute vitesse). DSM : Digital storage media. DTH (auparavant DBS) : Service de télévision livré directement à la maison par satellite. DTS (Digital Theatre Sound System) : Standard audio ambiophonique multicanal 5.1 similaire à Dolby Digital (Dolby AC-3) qui est le standard reconnu de la TVN. DTS est utilisé dans les cinémas et est présent sur plusieurs DVD. DTS (Decoding Time Stamp) : Marqueur Temporel de Décodage en compression MPEG-2. Indique quand une unité d'accès doit être décodée. DVB (Digital Video Broadcasting) : Diffusion vidéo numérique. DVC (Digital Video Cassette) : Cassette vidéo numérique. DVCR : Digital video cassette recorder. DVD (Digital Versatile Disk) : Disque de même format que le DC mais possédant une capacité de stockage 7 fois supérieure sur un seul côté. Peut contenir des longs métrages et prises complémentaires en plus d'une bande audio plurilingue de haute qualité. DVE (Digital Video effects, Effets Vidéo Numérique) : Un DVE est créé en prenant n'importe quelle source vidéo et en la manipulant à l'intérieur d'un cadre vidéo. DVI (Digital Video Interactive, Vidéo Numérique Interactive) : Système interactif d'information multimédia où la vidéo numérique offre une image animée plein écran avec la fréquence d'images de la télévision actuelle (jusqu'à une heure de vidéo). Les systèmes CD-I et DVI proposent, outre le texte, son et graphique, des images de qualité photographique et le moyen de se déplacer à l'intérieur de cet ensemble d'informations. EBU : European Broadcasting Union. ECM (Entitlement Control Message) : Composante de contrôle d'accès permettant de désembrouiller une composante cryptée. Transporte le mot de contrôle et les conditions commerciales du programme. Écran 4:3 : Format d'écran traditionnel d'un téléviseur NTSC de 4x de largeur sur 3x de hauteur. Écran 16:9 : Format grand écran des téléviseurs numériques en Haute Définition et de certains en définition standard, de 16x de largeur sur 9x de hauteur. Écran à plasma (PDP): Cette technique construit une image d'après un grand nombre de pixels formés dans un panneau en verre. Les pixels sont contrôlés individuellement, offrant une image sans scintillements de brillance élevée. L'écran à plasma s'installe au mur. Les écrans PDP sont disponibles en tailles jusqu'à 160 cm et conviennent ainsi au home cinéma. Écran de télévision à tube Cathodique (CRC/Cathode Ray Tube) : Téléviseur utilisant le tube cathodique pour l'affichage, une technologie utilisée depuis des années. L'image s'affiche sur un écran luminescent à couche de phosphore balayé par un faisceau d'électrons. Il peut produire des images lumineuses d'une excellente résolution. EDH (Error Detection and Handling) : Méthode permettant de déterminer quand une error de bit s'est produite dans un réseau vidéo numérique (SMPTE RP-165). On inclus dans le "anciliary data" des bit de références permettant de vérifier la qualité de la transmission du signal. Editing : Procédé par lequel un ou plusieurs signaux vidéo (numériques ou analogues) sont manipulés et/ou mélangés pour donner un nouveau signal à la sortie. EIT (Event Information Table): Table d'Information d'évènement. Renseigne le téléspectateur sur les programmes en cours et à venir. Electromagnetic Spectrum (Spectre électromagnétique) : Gamme des fréquences des radiations électromagnétiques, de zéro à l'infini. Elementary Stream (Flux élémentaire) : Flux élémentaire de sortie d'un compresseur et véhiculant un seul signal vidéo ou audio. Elementary stream clock reference (ESCR) : Référence temporelle servant à synchroniser les décodeurs du flux d'information. Embedding : Procédé permettant de combiner un type de signal avec un autre de manière à ce que les deux puissent être transportés en utilisant le standard d'un seul des deux. Souvent utilisé pour décrire le procédé permettant d'inséré un signal audio AES à l'intérieur d'un signal vidéo numérique. EMM (Entitlement Management Message) : Information d'accès conditionnel déterminant les niveaux d'autorisation des services pour un décodeur particulier. On peut adresser un décodeur ou un groupe de décodeurs. Encoder : Outils d'encodage d'un signal compressé. Encoding (process) : Procédé défini par le standard de télévision numérique consistant à lire une image ou un signal audio et recréer un flux de bits encodés. Encryptage : Procédé de codage des signaux qui requiert un code ou une clé particulière pour la pleine représentation de la programmation et du contenu disponible à l'abonné du service de télévision interactive ou téléspectateur qui possède un téléviseur numérique. ENG (Electronic News Gathering) : Terme utilisé pour décrire les moyens électroniques de reportage. Entropie : Quantité d'information contenue dans un symbole de communication. C'est aussi la limite inférieure de la compression sans pertes. Si une image est compressée davantage que son entropie, il y a perte d'information. En théorie de l'information, mesure de la perte d'information causée par les erreurs dues au hasard, qui peuvent se produire pendant la transmission de signaux ou de messages. Entropy coding : Encodage à moindre perte, de longueur variable, d'une représentation numérique d'un signal pour réduire la redondance. Entry point : Réfère à un point, dans un flux de données, après lequel un décodeur s'initialise et peut commencer le décodage. EPG (Electronic Program Guide/Guide de programmation électronique) : Affichage à l'écran des canaux et des horaires des programmes. ETSI (European Telecommunications Standards Institute) : Organisme établissant les normes européennes de télécommunications. Ethernet : Protocole standardisé (IEEE 802.3) pour un LAN à 10Mb/s. Ethernet est utilisé comme standard pour la transmission de média tel le câble coaxial et la fibre optique. Event (événement) : Un "évènement" est défini comme une collection de flux élémentaires ayant une base de temps commune, étant associés à la même heure de départ et de fin. FEC (Forward Error Correction) : Système dans lequel une redondance est ajoutée au message, à l'émission, de façon à ce que les erreurs soient corrigées dynamiquement à la réception dans le décodeur. FFT (Fast Fourier Transform) : Transformée de Fourier Rapide. Fibre Channel (Fiber Channel) : Lien data haute vitesse capable de soutenir un taux de transfert de 2 Giga bytes/sec en utilisant un câble de fibre optique. Le standard supporte la transmission d'information pour les canaux les plus populaires et les réseaux standard, incluant SCSI, HIPPI, Ethernet, Internet Protocol, et ATM. Fiber-optic Cable (Câble de fibre optique) : Un câble transportant un faisceau de lumière laser, encodé de signaux numériques, plutôt que de l'énergie électrique. Fait de fibre de verre léger, les câbles de fibre optique peuvent transmettre de grande quantité d'information par secondes. Field (champ) : Dans le signal vidéo entrelacé, un champ est l'assemblage des lignes alternatives dans un "frame". Un frame "entrelacé" est donc composé de deux champs: pair et impair. FireWire : Interface de transmission série à haut débit à la norme IEEE1394, développée au départ par la société Apple. L'échange des données se fait à une vitesse de 12, 25 ou 100 Mo/seconde. Connectable "à chaud", c'est à dire sans éteindre l'ordinateur, l'interface accepte jusqu'à 63 périphériques connectés simultanément. Appelée plus communément en vidéo, entrée ou sortie DV, cette interface a été également renommée iLink par Sony. Flux (Stream) : Envoi de données sur un réseau, tel que l'Internet, de façon à procurer ou simuler la transmission en temps réel de vidéo et/ou d'audio. FM (Frequency Modulation) : Méthode de transmission dans laquelle la fréquence du transporteur varie selon le signal. Format d'écran : Le rapport de la largeur d'écran sur la hauteur. Le terme s'applique aussi à l'image ou à sa présentation (Voir 16:9, 4:3, etc...). Les écrans et l'affichage traditionnels possèdent un rapport de 4 sur 3. La TVSD autorise l'affichage en 16:9, un format requis pour la TVHD. FPLL : Frequency and phase locked loop. Frame : Un frame contient des lignes d'information "spatiale" d'un signal vidéo. En vidéo NTSC, il est composé de deux champs: pair et impair. Frame Synchronizer : Équipement qui re-synchronise un signal vidéo à un signal de référence, tel qu'un "genlock", bi-level ou tri-level sync. Gamma : Le "niveau vidéo de sortie"(light output) d'un CRT(cathode ray tube/tube à rayons cathodique) est non linéaire par rapport au voltage entrant. Cette "nonlinéarité" représente une fonction exponentielle appelée Gamma. Plus simplement, plus les couleurs deviennent pâles, plus l'oeil humain à de la difficulté à les discerner. Un ajustement Gamma est alors utilisé pour compenser ce problème, de façon à ce que les gammes de couleurs d'un objet, tel les ombres, puissent être discernés correctement. Un ajustement incorrect du Gamma peut causer les couleurs d'avoir l'air trop sombre ou trop claire, causant une perte des détails. Génération : L'enregistrement original d'une image sera appelé la première génération. Une copie de cet original sera la deuxième génération, etc... Genlock : La synchronisation d'une pièce d'équipement avec une autre en utilisant un signal vidéo (ou autre) externe. Dans les systèmes de diffusion et de vidéoconférence, toutes les sources doivent être synchronisés entres elles. GIF (Graphics interchange format) : Fichiers d'information graphique, utilisés par les ordinateurs et développé par Compuserve pour la compression graphique d'images. Maintenant communément utilisé en Internet, la compression GIF est sans pertes et supporte la transparence, mais ne permet qu'un maximum de 256 couleurs. GOP (Group Of Pictures, Groupe d'images): Consiste en une ou plusieurs images en séquences. Un GOP commence par une image I et se termine par la dernière image précédant l'image I suivante. GUI (Graphic User Interface): Interface de commande et contrôle numérique pour les usagés d'un système donné. Mac OS (Apple) et Windows (Microsoft) sont des exemples de GUI, ainsi que les menus interactifs d'un lecteur DVD. Half-Duplex transmission: Lien bidirectionnel dont le transfert de données est limité à un sens à la fois. Aussi nommé "simplex transmission". HDMI (High-Definition Multimedia Interface) : HDMI est une technologie utilisée pour le transport des signaux numériques TVHD (décompressés), TVSD, audio et contrôle entre les appareils à la maison comme le convertisseur et l'écran. Le protocole est compatible avec celui de DVI mais les connecteurs sont plus petits. Les donnés sont encryptées sous le protocole HDCP afin de les protéger. High definition television (HDTV) : La télévision haute définition à une résolution d'approximativement le double de la télévision conventionnelle autant dans les dimensions horizontales (H) et verticales (V) et un ratio (HxV) de 16:9. High level : L'échelle des paramètres d'encodage de l'image, tel que définis en MPEG-2, qui correspondent à la télévision haute définition. Hot Swap : Action ou procédé d'enlever une composante électronique d'un équipement sans avoir au préalable fermé l'équipement. HTML (HyperText Markup Language) : Langage de programmation communément utilisé pour la création de pages Web sur Internet. http (HyperText Transport Protocol) : Méthode utilisé pour l'adressage de domaines sur Internet. Hue (teinte): Rouge, jaune, bleu, etc... représentent des "teintes" de couleur, ou types de couleur. Hue est un paramètre de couleurs qui nous permet de distinguer les couleurs entre elles. IEC : International Electrotechnical Commission. Input (Entrée) : L'introduction d'un signal dans un appareil. ISO (International Standard Organisation) : Organisme de normalisation mondial. Inter-coding (Intercodage) : Compression utilisant la redondance entre images successives, également appelée codage temporel. Interleaving (Entrelacement) : Technique associée à la correction d'erreurs et qui répartit les paquets d'erreurs en plusieurs paquets plus petits. Aussi; réfèrent au système d'analyse (scanning) de l'image. En format entrelacé, le système présente d'abord les lignes impaires puis, dans une deuxième analyse (scan), les lignes paires. Lorsqu'il y a 30 images par secondes, le moniteur montrera donc un demi frame chaque soixantième de secondes. Intra-coding (Intracodage): Compression travaillant entièrement à l'intérieur d'une image, également appelée codage spatial. Intra-coded pictures ou I-pictures ou I-frames : Images qui sont codées en utilisant exclusivement l'information présente seulement dans l'image elle-même et ne dépendant pas de l'information des autres images. IRD (Integrated Receiver Decoder) : Décodeur Récepteur Intégré. Appareil combinant le récepteur HF et le décodeur MPEG. IRE (Institute of Radio Engineers): Unité de mesure vidéo de 1 Volt (Peak), le Peak Vidéo est divisé en 140 unités IRE. Ceci a été fait pour rendre plus efficace la communication des niveaux de luminance. L'amplitude du signal vidéo, du noir (blanking, zéro volts) au peak des blancs est de 0.714286 volts ou 100 unités IRE. Le signal de synchronisation s'étend du noir (blanking) à -0.285714 volts, ou -40 unités IRE. Picture Black Level : 7.5 IRE (au dessus de zéro volts) Picture White Level : 100.0 IRE (au dessus de zéro volts) Blanking Level : 0.0 IRE (niveau zéro volt) Burst Pedestal : 0.0 IRE (niveau zéro volt) Synchronization : - 40.0 IRE (sous zéro volts) Le niveau des noirs a été élevé au-dessus de 0 IRE dans les premiers temps de la télévision couleur pour palier à certains problèmes de transmission. La pratique se continue toujours de nos jours. Le signal vidéo SMPTE component utilise également le système IRE. Il est basé sur un système de 700mVolt, par rapport à 714mVolt en vidéo composite. ISDN (Integrated Services Digital Network) : Permet aux données d'être transmises à haute vitesse sur le réseau téléphonique publique. ISDN opère à partir d'un taux de transfert de base de 64 Kbits/sec, jusqu'à un taux de 2 Mbps (communément appelé ISDN-30, car il comprend 30 canaux de transfert de base). La plupart du monde occidental à présentement la capacité d'installer le ISDN-2, avec 128 Kbps et une croissance très rapide est prévue en général pour ISDN. ITU : International Telecommunication Union. Jack : Connecteur audio faisant transiter un signal mono ou stéréo, utilisé principalement pour les micros et les casques, les prises jacks existent en plusieurs diamètres: 6.35, mais aussi 3.5mm pour les appareils Hi-Fi de salon et 2.5mm pour les Walkman, les magnétoscopes ou les cartes son informatiques (appelé aussi MiniPhone ou Mini-Jack). Java : Un langage de programmation d'usage général développé par Sun Microsystems plus connu pour son utilisation sur l'internet. Contrairement à d'autre logiciels, les programmes écrit en langage Java peuvent fonctionner sur n'importe laquelle plate-forme (incluant les set-top box), en autant qu'elles contiennent un "java virtual machine" (java.sun.com). JEC : Joint Engineering Committee. Jitter : Variation de synchronisation d'un signal causé par la perte du signal de référence de temps. Jog : Fonction de montage permettant de se positionner précisément sur une bande vidéo (à l'image prés) grâce, généralement, à une molette shuttle. JPEG (Joint Photographic[Picture] Expert Group) : Groupe ayant développé la norme de compression d'images fixes. Algorithme de compression d'images fixes stockées sous forme numérique. C'est le format d'image le plus couramment utilisé. Keyframe : Suite de paramètres qui définissent un point dans une transition, tel un DVE. Par exemple, un Keyframe pourrais définir la grandeur de l'image, sa position ou sa rotation. Tout effets DVE doit avoir un minimum de deux keyframes, début et fin, bien que la majorité en utilisera plus que cela. Khz (Kilohertz) : Mille cycles par secondes. LAN (Local Area Network) : Un réseau qui connecte physiquement chaque ordinateur ensemble, de façon à permettre à chaque utilisateur connecté le partage de fichier et/ou d'information. layer : Un des niveaux dans la hiérarchie des spécifications de systèmes et de la vidéo. Level (Niveau) : Taille de l'image d'entrée utilisée avec un profil déterminé. Letterbox (Boite aux lettres) : Lorsqu'une image en format 16:9 est affichée sur un écran de format 4:3, deux barres noires s'affichent, l'une au-dessus de l'image et l'autre au-dessous. Cet effet ou format d'affichage est désigné par boîte aux lettres et il apparaît souvent lors de la transmission de films. LTC (Longitudinal Time Code) : Manière de coder le time code (enregistrement en horizontal le long de la bande). Luminance : Partie Noir & Blanc d'un signal vidéo, transporte les informations sur la brillance, le contraste, les qualités de lumière (et d'ombres) de l'image vidéo mais pas les informations de couleur. Lux : Unité de mesure de l'intensité de la lumière. Macroblock : Zone de l'image représentée par plusieurs blocs DCT de luminance ou de différence de couleurs, blocs qui sont tous déplacés par un vecteur de mouvement. Main level : Paramètres de compressions numériques MPEG-2 correspondant à une résolution maximum. Main profile : Profile de spécifications d'encodage MPEG-2 qui devrait supporter un large éventail d'applications. Masking (Masquage) : Phénomène psycho-acoustique dans lequel certains sons ne peuvent être entendus en la présence d'autres sons. Mbps : 1 000 000 bits par secondes. MCPC (Multiple Channel Per Carrier) : Plusieurs canaux par porteuse. Se dit lorsqu'un transpondeur contient un ensemble de programmes multiplexés transporté sur une seule fréquence. Métadonnées : Données complémentaires à celles comprises dans un signal vidéo mais non-visibles à l'écran. MHz (Megahertz) : Un million de cycles par secondes. Microsoft DirectX : API de bas niveau qui permet une interface média utilisateur pour les jeux et autres applications multimédias nécessitant de haute performance. DirectX procure un accès aux services matériels (hardware), et utilise les accélérateurs matériels ou les émules si les accélérateurs ne sont pas présents. MIDI (Musical Instrument Digital Interface) : Standard de connexion professionnel pour le contrôle informatique des instruments et périphériques de musique. La plupart des références n'invoquent que le standard â«donnée", qui est un flux de donnée utilisé pour contrôler les instruments de musique et conserver la "sortie"(output) de ces instruments. M-JPEG (Abréviation de Motion Jpeg) : Norme de compression dérivée du Jpeg et du Mpeg complètement adaptée à la vidéo. Chaque image est comprimée, comme une photo, ce qui autorise le montage image par image. MMDS : Système de distribution multipoints, multivoies. Système de "Câblodistribution" sans fil pouvant être codé pour les services de télévision à la carte. Modem câble : Modem de données qui utilise la largeur de bande d'un système de câble. L'accès Internet par modem câble est beaucoup plus rapide qu'avec un modem relié à une ligne téléphonique régulière. Moniteur : Désigne un écran dépourvu de démodulateur (tuner). Il existe des moniteurs de type vidéo ou informatiques. Par dérivation, on emploie également le terme moniteur pour désigner un téléviseur de diagonale réduite qu'on utilise essentiellement à des fins de contrôle de l'image. Monochrome : Signal de télévision noir et blanc. Montage off line (Off-line editing) : Première étape du montage vidéo au cours duquel on détermine la structure du montage; elle s'achève par la confection d'une liste de montage. Elle s'effectue souvent sur un format vidéo plus avantageux ou dans une résolution plus basse. Montage on line (On-line editing) : Montage du matériel original effectué en haute qualité sur un système de montage linéaire ou non linéaire d'après une liste de décision de montage provenant du montage off line. A ce stade s'effectuent également l'étalonnage, les effets et les titres. Motion vector : Une paire de nombres qui représentent les déplacements horizontaux et verticaux d'une région d'une image de référence pour prédiction. MP3 (MPEG-1, Layer 3) : Format de compression qui utilise la couche audio de MPEG-1. La technologie MP3 compresse les fichiers audio jusqu'à environ 1/10 de sa taille originale, tout en offrant une bonne qualité sonore. MP3 est devenu un CODEC très populaire pour la musique échangée sur Internet. MP@HL(Main Profile at High Level) : Format vidéo principal du standard haute définition. MP@ML(Main Profile at Main Level) : Format vidéo principal du standard DVB. MPEG (Motion Pictures Expert Group) : Groupe ayant défini les standards de compression d'images animées. MPEG-1 : Réfère au standard ISO/IEC 11172-1 (Systèmes), 11172-2 (Vidéo), 11172-3 (Audio), 11172-4 (Compliance Testing) et 11172-5 (Technical Report). MPEG-2 : Réfère au standard ISO/IEC 13818-1 (Systèmes), 13818-2 (Vidéo), 13818-3 (Audio), 13818-4 (Compliance). Multidiffusion : Terme désignant la diffusion sur un canal numérique de 2, 3 ou 4 programmes et/ou services de données à l'intérieur de la bande de 6 mégaHertz de base allouée. Multiplexage statistique (Statistical multiplexing ou StatMux) : Multiplexage de débits de plusieurs programmes soumis au codage statistique précédent, visant à exploiter les variations en sens opposé des débits des programmes pour optimiser(minimiser) le débit global. Multiplex de programmes (Multiplexing ou Mux) : Technique permettant de transporter plusieurs programmes dans un seul canal de télévision au lieu d'un seul programme diffusé, dans le cas de la télévision analogique. Network (Réseau): Interconnexion de deux ou plus entités de communication et habituellement un ou plus nodes de communication. NIT (Network Information Table) : Table d'Information de Réseau. Information véhiculée par un flux de transport et décrivant plusieurs flux de transport. Noise reduction (réduction du bruit): Le bruit constitue la part non signifiante de l'information; il provient de l'enregistrement, de la compression (dans les systèmes analogiques, de l'enregistrement et du transfert). Une réduction ciblée du bruit facilite la compression de l'image et améliore aussi la représentation de l'image vidéo. Nonlinear editing (montage Non linéaire) : Non linéaire réfère à ce qu'on a pas besoin de faire le montage d'une séquence dans l'ordre final et ne demande pas de copier les parties à mesure. Permet d'accéder à n'importe quelle partie du montage sans avoir à re-copier ou recommencer le montage. C'est une méthode dite "non destructive" en ce sens que ce n'est pas la vidéo que l'on change pour le montage mais seulement la liste de montage. NTSC (North America Systems[Standards] Committee) : Responsable de la création des normes de production et de diffusion de la programmation analogique au Canada et aux États-Unis, normes qui seront bientôt remplacées par les normes de diffusion numérique ATSC. Null paquets (Paquets nuls) : Paquets de bourrage ne transportant aucune donnée et qui sont nécessaires au maintien d'un débit constant quand la partie utile varie. Les paquets nuls ont toujours un PID égale à 8191. NVOD (Near video on demand) : Accès rapide à un programme (film, sports, etc) réalisé en répétant le dit programme sur plusieurs canaux avec un décalage entre chaque présentations. Le tout réalisé grâce à un serveur vidéo numérique. Octet : Voir Bytes. Omnidirectionnel : Pour un micro; capte le son venant de toutes les directions. Output (Sortie) : Processus qui permet à un système d'exploitation ou à un programme d'application de transférer des données vers un périphérique de sortie tel que l'écran ou l'imprimante, ou de les stocker sur disque ou dans un fichier, ou encore de les envoyer vers un autre ordinateur par un réseau. Pack : Un pack consiste en un en-tête suivi de zéro ou plus paquets. C'est une couche dans le système d'encodage de la syntaxe. Packet (Paquets) : Terme utilisé dans deux contextes. Dans les flux de programmes, un paquet est une unité contenant une ou plusieurs unités de présentation. Dans les flux de transports, un paquet est une quantité faible et de taille fixe de données (188 ou 204 octets). Packet data : Bits d'information contigus à un flux d'information élémentaire présent dans un paquet. Padding : Méthode consistant à ajuster la longueur moyenne, en temps, d'un frame audio avec la durée de l'échantillonnage PCM correspondant. PAL (Phase Alteration Line) : Format vidéo analogique comportant 625 lignes par cadres(frames), utilisé comme standard par la plupart des diffuseurs européens et dans d'autres partie du globe, sauf en Amérique du Nord et au Japon. Parity (Parité) : Méthode pour la vérification de l'exactitude de l'information transmise et/ou enregistrée. Un bit de donnée est ajouté à un ensemble de données en tant qu'élément de vérification de la transmission. La parité peut être paire ou impaire. Pour la parité impaire, si le nombre de "1" de l'ensemble de données est pair, un "1" est ajouté au total pour le rendre impair. La même chose est faite pour un total pair afin de le rendre impair. L'ordinateur qui réceptionne le signal vérifie le nombre de "1" et indique une erreur si le total est incorrect. Pas de Pixel : Le pas de pixel est le nombre de pixels ou points de l'image dans un tube écran. Plus il y a de pixels, plus l'image est nette. Les écrans de télévision HD à tube présentent un pas de pixel variant généralement entre 0.25 et 0.3 mm. PAT (Program Association Table) : Table d'Association de Programme. Table qui indique quels sont les PID de PMT des programmes du TS. Payload : Réfère aux bytes qui suivent immédiatement le bit d'en-tête dans un packet (paquet). PCM (Pulse Code Modulation) : Système de numérisation d'une source analogique audio ou vidéo. PCM est un signal numérique non compressé. PCR (Program Clock Reference) : Valeur instantanée de l'horloge du codeur qui est placée dans l'en-tête des paquets TS afin de synchroniser l'horloge du décodeur. PDF (Portable Document Format) : Format de fichiers utilisé par Adobe Acrobat. Les fichiers PDF contiennent une représentation très compacte de texte et de graphiques, et permettent aux documents avec du texte et des graphiques complexes d'être lus et imprimés sur les systèmes d'opération DOS, MacIntosh, Windows et UNIX(SGI, Sun Solaris et Linux). Pedestal (décollement du niveau du noir) : Différence entre le niveau du noir et le niveau de suppression, que l'on observe dans un signal vidéo composite transmis à un récepteur de télévision. PES (Packetized Elementary Stream) : Flux élémentaire MPEG sous forme de paquets. Picture (Image): Image source, codée ou reconstruite, consiste en trois matrices rectangulaires qui représentent la luminance et deux signaux de chrominance. PID (Program/packet Identifier) : Identification de programme. Codé sur 13 bits et placé dans l'en-tête du paquet de transport pour pouvoir l'identifier. PING (Packet InterNet Gopher) : Protocole, faisant parti du standard TCP/IP, permettant de vérifier votre connectivité avec un autre équipement, ou de vérifier si votre connexion TCP/IP fonctionne correctement. Très utile pour "troubleshooter" des problèmes à l'intérieur d'un réseau. Normalement, on "tape" quelque chose comme; "ping 203.110.225.01", et on obtiens une réponse de cette adresse IP ... ou non. Pixel (PEL, Picture Element) : Un pixel est un échantillonnage numérique d'une image à un point fixe. Pixels : Points de lumière individuels rouges, verts et bleus qui constituent une image. PMT(Program Map Table) : Table de répartition de programmes. Table qui indique quels PID transportent les composantes d'un service (un PID par composante, bien sûr). Point-to-point transmission : Transmission entre deux stations désignées. Port Série (Com/serial Port) : Prise sur un appareil (ordinateur) permettant de le relier à un autre appareil via une ligne série. Predicted pictures ou P-pictures ou P-frames : Images codées par prédiction, en fonction de l'image "I" ou "P" précédente. La technique est appelée "forward prediction". Elles permettent une meilleure compression et servent de références aux images "P" et "B" à suivre. Pre-processing (Pré-traitement) : Traitement du signal vidéo précédent le codage MPEG. La réduction de bruit, le sous échantillonnage sont des exemples de prétraitement. Presentation time-stamp (PTS) : Un champ qui peut être présent à l'intérieur d'un Paquet PES et qui indique le temps de présentation au décodeur. Profile (Profil) : Spécifie le niveau de syntaxe utilisé. Program Stream : Flux contenant des informations temporelles, vidéo et audio compressées (DVD par exemple). PSI (Program Specific Information) : Information spécifique de programme. Information gardant la trace des différents programmes dans un flux de transport MPEG. PSI/SI : Terme générique pour les informations spécifiques MPEG PSI et DVB SI. PSIP (Prononcer P-SIP, Program and system information protocol) : Une spécification TVN de l'ATSC qui permet à un récepteur vidéo numérique de reconnaître les informations des programmes des éditeurs de contenu et de créer des guides de programmation électroniques à l'écran. PU (Presentation Unit) : Unité de présentation. Image ou bloc audio compressé. Pulse (Impulsion) : Courant ou voltage qui change abruptement d'une valeur à une autre, et reviens à la valeur originelle dans un laps de temps défini. Utilisé pour décrire une variation dans une série d'ondes. Les parties de l'impulsion sont la durée de montée, la durée de descente ainsi que la largeur et l'amplitude de l'impulsion. La période de l'impulsion se réfère à la durée entre les impulsions. QAM (Quadrature Amplitude Modulation, Modulation d'amplitude en quadrature) : Technique de modulation qui modifie l'amplitude de deux porteuses de même fréquence, déphasées de 90 degrés ou en quart de cycle, en deux signaux distincts qui emprunteront deux voies différentes. QCIF (Quarter-resolution Common Interchange Format) : Format commun d'échange au quart de résolution (176 x 144 pixels). Voir CIF. QPSK (Quadrature Phase Shift Keying) : Modulation de phase à quatre états. QSIF (Quarter-resolution Source Input Format): Format d'entrée de source à quart de résolution. Voir SIF. Quantizer : Une étape de la compression qui, intentionnellement, réduit la précision des coefficients DCT. QuickTime : Développé par Apple, QuickTime est un standard d'enregistrement du son, des images fixes ou animées. Les fichiers QuickTime se distinguent par leur suffixe MOV, lorsqu'ils sont diffusés par Internet ou sur un CD-Rom. RAID (Redundant Array of Inexpensive/Independent Disks) : Système qui organise les données parmi plusieurs disques durs afin d'assurer une plus grande zone de stockage, une meilleure sécurité des données et une meilleure performance (temps d'accès et duplication des données plus rapides. Les données sont protégées grâce à la redondance des données, permettant de les extraire malgré une perte de disques. Voici quelques exemples de Raids: RAID 0: Pas de redondance ni de parité dans les disques. Si un disque est endommagé, toute l'information contenue sur la totalité des disques est perdue. Par contre, comme la méthode n'a pas de système de redondance, elle est généralement plus rapide que les autres méthodes. RAID 3: Utilise un entrelacement des données similaire à Raid 0, excepté que la méthode utilise un système de parité pour entreposer les données redondantes. Cette méthode est plus efficacement utilisée pour les images et graphiques. RAID 5: Cette méthode utilise une approche différente pour la segmentation et la parité par rapport à RAID 0 et RAID 3. La mémoire complète est séparée en plusieurs ensembles de disques et on assigne un disque de parité à un certain ensemble de disques. Cette méthode est excellente pour le traitement transactionnel. RAM (Random access memory) : Mémoire temporaire et volatile sur laquelle de l'information peut être écrite, ou de laquelle l'information peut être accédée en spécifiant une adresse. Random access : Procédé consistant à commencer à lire et à décoder un flux de bits en un point arbitraire. Rapport d'écran : Le rapport largeur/hauteur d'une image. Les téléviseurs standard ont un rapport d'écran de 4:3. Ils sont 1.33 fois plus larges que hauts (4/3). Les écrans 16:9 ont un rapport d'écran de 1.78:1 environ. Le cinéma généralement 1.85:1. Le passage d'un format à l'autre s'effectue par des traitements de type Letterbox ou Pan and Scan. RCA (Cinch) : Connecteur utilisé en audio et en vidéo pour faire transiter un signal entre deux appareils, via un câble coaxial. Présent sur tous les caméscopes ou magnétoscopes grand public ainsi que sur les chaînes Hi-Fi. Réémetteur isofréquence : émetteur numérique de faible ou très faible puissance, reprenant le signal reçu d'un autre émetteur numérique en service (dit émetteur pilote) et rediffusant le même signal sur la même fréquence que l'émetteur pilote. Rendering (rendu d'architecture) : Procédé de rendu d'une image, ou séquence d'image en temps non réel, dépendant de la vitesse du processeur de l'ordinateur pour les rendus graphique et de composition. Résolution : Le nombre total de pixels disponibles pour l'affichage d'une image. Les résolutions plus élevées autorisent un affichage plus détaillé résultant en une qualité d'image supérieure. Résolution maximale : Signal à la résolution la plus élevée qu'un téléviseur ou un écran peut accepter à l'entrée. Certains appareils d'affichage ne sont pas en mesure d'afficher une telle résolution et, en conséquence, doivent convertir les signaux à une résolution inférieure avant l'affichage. Réseau SFN (Single Frequency Network, réseau à fréquence unique) : Ensemble organisé d'émetteurs numériques utilisant la même fréquence et diffusant obligatoirement le même contenu de programmes, avec synchronisation des signaux diffusés. Réseau MFN(Multiple Frequency Network, Réseau à fréquence multiple) : Ensemble organisé d'émetteurs, analogiques ou numériques, utilisant des fréquences différentes, diffusant ou non le même contenu de programmes. Réseau primaire : Partie d'un réseau de diffusion utilisant principalement des sites points hauts et conçu de manière à assurer le maximum de couverture avec un nombre minimal de sites. Réseau secondaire : Partie complémentaire du réseau primaire dans un réseau de diffusion destinée à couvrir les zones non couvertes par le réseau primaire en raison du relief du terrain ou à renforcer localement le signal. Router : Équipement comportant plusieurs entrées et sorties permettant de changer de sources vidéo rapidement sans avoir à re-câbler. RLC (Run Length Coding) : Système de codage comptant le nombre de bits similaires plutôt que de les émettre individuellement. RS : Notation abrégée du codage de Reed-Solomon. RS-232 : Standard de définition de ligne série le plus répandu. RS-232 spécifie les signaux électriques et la manière de les connecter. RS-422 : En principe, standard pour la transmission sérielle des données. Est utilisé comme synonyme pour le protocole de pilotage des magnétoscopes Sony. Tous les magnétoscopes et les systèmes de montage professionnels travaillent avec RS-422. Il existe en différentes versions, les plus répandu étant le format Betacam. RU (Rack Unit) : Unité de mesurement standard équivalent à 1.75 pouces, ou 45mm, utilisé pour les bâti d'équipements audio-visuels. Safe Title Area : Standard d'ajustement des titres et génériques pour un moniteur. Correspond à environ 80% de l'image totale. Les titres et le texte sont généralement gardés à l'intérieur de cette région pour s'assurer qu'ils puissent être vu en entier. SAP (Secondary Audio Programming) : Signal audio secondaire qui est transmit en même temps que le signal primaire. Activé à même le téléviseur, il permet notamment de transmettre la portion audio d'une émission dans un autre langage, ou d'inclure une piste descriptive. Scalability (Adaptabilité) : Caractéristique du MPEG-2 proposant différents niveaux de qualité par la répartition en plusieurs niveaux des données vidéo. Un décodeur complexe pourra alors produire une image de qualité à partir de tous les niveaux de données tandis qu'un décodeur plus simple produira quand même une image en utilisant seulement le premier niveau de données. Scanner : Appareil permettant de numériser/digitaliser des images ou des textes écrits. SCPC (Simple Channel Per Carrier) : Un seul programme par porteuse. Se dit lorsqu'un transpondeur contient un ensemble de programmes transportés chacun sur une fréquence différente. Scrambling : Opération consistant à brouiller les caractéristiques d'un flux vidéo, audio ou d'information, de façon à prévenir la réception non autorisée de l'information en clair. La gestion du procédé est effectuée sous le contrôle du système d'accès conditionnel (conditional access system). SCSI (Small Computer System Interface) : Technologie d'interface pour la transmission de données informatiques à haut débit. Se prononce également "Skozy". Le haut de gamme, l'ultra 160 SCSI, garantit un taux de transfert de 160 Mo/seconde et permet de connecter de 7 à 15 périphériques. Un port SCSI se reconnaît à son connecteur 50 broches (un port IDE est doté d'un connecteur 40 broches). SDI (Serial Digital Interface) : Norme d'interface pour la transmission série par câble coaxial pour les signaux vidéo numériques en production, basée sur un taux de transfert de 270 Mbps. SDT (Service Description Table) : Table décrivant chaque service dans un flux de transport. SECAM (Système électronique pour Couleur Avec Mémoire): Standard Européen qui a la même composition que PAL, mais dont la couleur (Chrominance) est modulée en FM. Serial Interface (Interface série): Interface de communication numérique dans laquelle l'information est transmise et reçue séquentiellement à l'intérieur d'un seul câble, ou une paire de câbles. Les standards â«serial interface" les plus communs sont RS-422 et RS-232. Server (vidéo) : Ordinateur ayant une grande capacité de mémoire et de traitement, qui est destiné à distribuer de la vidéo à la demande sur un réseau à un moment spécifié par l'usager. Set-Top-Box : Voir Convertisseur. Shuttle : Fonction de montage vidéo généralement implantée sur une molette en face avant de magnétoscope et permettant de se positionner très rapidement et précisément sur une bande que ce soit vers l'avant ou vers l'arrière. SI (Service Information) : Information de Service. Informations incluses dans un multiplex et décrivant les contenus des différents services. SIF (Source Input Format) : Format d'entrée de source. Signal d'entrée à demirésolution utilisé en MPEG-1. Simulcast : Diffusion simultanée en analogique et numérique d'un même programme, sur les mêmes zones de couverture et sur deux fréquences distinctes, afin d'assurer une continuité de service en cas de remplacement par le téléspectateur du récepteur analogique par un récepteur numérique. Les règlements de la CRTC exigent que les diffuseurs transmettent la plupart de leurs programmes en simultcast au fur et à mesure qu'ils lancent les services TVHD. Site point haut : Site de diffusion implanté sur un point géographique élevé par rapport à l'ensemble des points dans une région donnée ou disposant d'un pylône de grande hauteur, et utilisé pour diffuser un signal sur une zone étendue. Slot (Encoche) : Entaille pratiquée dans une carte de circuit imprimé. SMPTE : Society of Motion Picture and Television Engineers. SNMP (Simple Network Management Protocol) : Protocole d'administration de réseau définissant les interactions entre le gestionnaire et les agents. SNR (Signal-To-Noise Ratio, Rapport signal/bruit) : Rapport établi entre la puissance du signal d'origine et la puissance du bruit, à un point donné du système. SONET (Synchronous Optical NETwork, Réseau Optique Synchrone) : Mode de transmission de données sur fibre optique, normalisé aux États-Unis, dans lequel des canaux de transmission sont intégrés progressivement, par multiplexage temporel, à des canaux plus grands, au sein d'une hiérarchie de niveaux basée sur un codage à 51,84 Mbit/s, dont tous les éléments sont parfaitement synchronisés. Le réseau optique synchrone, qui est d'origine américaine, a été adapté pour l'Europe et a pris, sur ce continent, le nom de hiérarchie numérique synchrone. Le sigle anglais SDH, mis pour synchronous digital hierarchy, est souvent employé. Dans le réseau optique synchrone, le débit de base, utilisé pour déterminer les niveaux, est de 51,84 Mbit/s. La hiérarchie des principaux débits est la suivante: 155,52 Mbit/s, 622,08 Mbit/s, 2,488 Gbit/s, 9,953 Gbit/s et 13,271 Gbit/s. Ces débits correspondent respectivement aux niveaux OC-3, OC-12, OC-48, OC-192 et OC-256. Dans ce mode de transmission synchronisée, il est possible d'extraire une seule unité de l'ensemble des flux de données multiplexés, sans qu'il soit nécessaire de les séparer. Source stream : Flux unique, non-multiplexé, d'informations avant compression. Sous-titrage codé : Flux des données compris dans le signal de diffusion qui procure une description narrative textuelle du dialogue, des sons et des autres éléments de l'image dans le but d'aider les téléspectateurs avec des problèmes auditifs. Peut aussi servir dans d'autres applications audio secondaires. Spectre de fréquences : Le spectre de fréquences est défini par l'ensemble des fréquences utilisées ou utilisables par les ondes radioélectriques. Suivant leur fréquence, les ondes radioélectriques présentent des propriétés particulières. C'est pourquoi le spectre de fréquences a été découpé en bandes dans lesquelles on peut considérer que les propriétés restent relativement homogènes. Les fréquences utilisées pour la diffusion TV sont situées dans les bandes métriques (VHF, longueur d'onde de 10 m à 1 m, fréquences de 30 Mhz à 300 MHz) et surtout décimétriques (UHF, longueur d'onde de 1 m à 10 cm, fréquences de 300 MHz à 3 000 MHz). Splicing : L'enchaînement effectué au niveau du système de deux différents flux élémentaires. Le flux résultant devra être conforme aux standards de télévision numérique. ST (Stuffing Table) : Table de bourrage. Remplissage des espaces libres, dans un flux de données, avec de l'information autre (ex: réseau Internet ou données sans signification). Standard definition television (SDTV) : Terme utilisé pour designer un système de télévision dont la qualité est équivalente au NTSC. Aussi appelé Standard Digital Television, ou également Conventional definition television. Start codes : Codes de 32 bits insérés à l'intérieur d'un flux encodé qui sont uniques à ce flux. Ils sont utilisés pour différents usages, notamment pour identifier les couches dans la syntaxe du codage. Ils consistent en un préfixe de 24 bits (0x000001) et un identificateur de flux (stream ID) de 8 bits. STC (System Time Clock) : Horloge commune utilisée pour coder la vidéo et l'audio dans un même programme. STD input buffer : Mémoire tampon, à l'entrée d'un décodeur cible, utilisé pour stocker l'information compressée avant le décodage. Streaming (lecture en transit) : Technique de lecture de fichier multimédia permettant à un internaute de lire le fichier en temps réel, sans avoir à attendre son téléchargement complet. Lors de la lecture en transit, une mémoire tampon emmagasine suffisamment de paquets de données pour permettre leur lecture en continu au moyen d'un plugiciel (plug-in) de décompression (le lecteur de contenu multimédia) situé sur le poste client. RealAudio de Real Networks, Vivo Software, NetShow de Microsoft et VDONet sont des appellations commerciales associées à la lecture en transit. Imaginée au départ par Netscape pour afficher le texte d'une page Web sans que l'internaute ait à attendre la fin de l'affichage des images, l'idée du streaming a ensuite été reprise et popularisée par Real Networks pour la transmission et la lecture de fichiers en transit. Aujourd'hui, cependant, la notion de "streaming" en anglais a évolué vers le concept de "streaming media" et ne désigne plus seulement la lecture de fichiers lors de leur téléchargement, mais la diffusion sans téléchargement de contenus multimédias compressés et leur lecture en temps réel, ce qui restreint l'utilisation du terme français lecture en transit aux seuls fichiers téléchargés. Stuffing (Bourrage) : Addition de données sans signification pour maintenir un débit constant. Still picture : Une image fixe codée consiste en une séquence vidéo contenant une seule image intra codée. Surround Sound : Implique normalement un système audio comprenant plus de deux canaux d'information. Les canaux additionnels fournissent l'ambiance, ou l'information sonore ayant lieu ailleurs que dans les canaux droit et gauche. S-Video : Type de signal qui transmet la luminance (Y) et la chrominance (C) par des fils séparés évitant par là le codage NTSC, PAL ou SECAM et l'inévitable perte de qualité en résultant. Symbol Rate (Débit Symbole) : Débit du signal en sortie de modulateur. Sync (Synchronization Signals) : Le taux a lequel l'image est tracée sur le moniteur doit être synchronise avec la source vidéo. Il y a 3 types de signal de synchronisation en vidéo composite; salve de couleur (color burst), synchronisation horizontale et verticale. Synchronous (Synchrone) : Procédé de transmission selon lequel les bits et le flux de caractères sont réglés sur des horloges parfaitement synchronisées, tant au point de départ qu'à l'arrivée. System clock reference (SCR) : Code temporel à l'intérieur du flux de données permettant aux décodeurs de se synchroniser. System header : "L'en-tête système" est une structure de données contenant l'information qui résume les caractéristiques du flux DTS multiplexé. System target decoder (STD) : Un modèle de référence hypothétique d'un procédé de décodage utilisé pour décrire la sémantique d'un flux DTS multiplexé. TCP/IP (Transmission Control Protocol/Internet Protocol) : Un ensemble de protocoles qui assurent les transferts de données entre deux ordinateurs développé par le département de la défense US dans les années 1970. TCP gouverne l'échange d'information séquentielle, alors que IP dirige les messages sortant et reconnaît les messages entrants. TDAC (Time Domain Aliasing Cancellation) : Technique de codage utilisé dans le système de compression AC-3. TDT (Time and Date Table) : Information temporelle utilisée en DVB-SI. Télévision à la carte : Lorsque des émissions peuvent être commandées en tout temps à la seule discrétion du téléspectateur. Télévision interactive : Programmation télévisée au contenu interactif qui ajoute à la télévision traditionnelle l'interactivité qu'offre l'ordinateur. TIFF (Tagged Image File Format) : Un format graphique largement utilisé. Il permet en effet un échange facile des images entre différentes plates-formes (Mac, PC, Unix). Les fichiers, relativement volumineux, peuvent toutefois être compressés sans aucune perte d'informations (compression LZW). Time-stamp : Terme qui indique le temps d'une action spécifique telle l'arrivée d'un byte ou la présentation d'une image de référence. Throughput : Mesure indiquant quel flux de média peut être transmit par un serveur donné. Time Base Corrector (TBC/Correcteur de Base de temps) : De lui-même, un magnétoscope est incapable de jouer un signal assez stable pour être transmis correctement ou même coupé à un autre signal (ex: en montage), sans "débarrer". Un TBC est donc utilisé pour synchroniser le magnétoscope avec les autres signaux à l'intérieur du système. Ils sont également utilisés pour ajuster les niveaux vidéo et de couleurs sur les magnétoscopes. Time Code : voir Code temporel. TOV (Threshold of visibility) : Point limite de ce qui est visible. Traitement cinéma progressif (Inversion 3:2) : Technique utilisée afin d'améliorer la qualité de l'image affichée lorsqu'il s'agit d'un film à l'origine. Transnitage : Opération qui consiste à remplacer la NIT d'un flux DVB par une autre pour changer le réseau d'appartenance du flux. Transport stream (TS) : Signal multiplexé composé de plusieurs programmes véhiculés par paquets. Le dé-multiplexage est effectué par l'identification des paquets (PIDs). Transport Stream packet header : Le premier champ d'un flux de transport. Tri-level Sync : Signal de synchronisation utilisé en HDTV. Truncation (Troncature) : Raccourcissement de la longueur des mots par suppression des bits les moins significatifs. TSTD (Transport Stream Target Decoder) : Modèle théorique de décodeur de flux de transport. Décodeur censé avoir suffisamment de mémoire tampon de façon à être compatible avec tous les codeurs. TVED: Télévision à définition élevée ou rehaussée par rapport à la télévision numérique de définition standard. Ne s'applique que lorsque l'on parle d'affichage de formats à définition standard suivant la norme ATSC. Offre une image de 480 lignes en balayage progressif ou plus, au format 4:3 ou 16:9 et un son Dolby Digital. TVHD (Télévision Haute Définition/High Definition Television) : Le signal de télévision numérique qui utilise 720 lignes en balayage progressif ou 1,080 en balayage entrelacé pour l'affichage de l'image. L'image doit être au format 16:9 et posséder une résolution minimale d'environ 1 million de pixels. Doit pouvoir recevoir, reproduire et/ou offrir le format audio numérique Dolby Digital 5+1. Le syntoniseur est en mesure de recevoir tous les formats ATSC 3 et de les afficher dans leur format d'origine. TVN (Télévision Numérique) : Englobe toutes les composantes de la télévision numérique dont TVHD, TVSD, diffusion parallèle de données et multidiffusion répondant aux normes établies par l'ATSC. TVNC (Télévision Numérique Canadienne) : Société à but non-lucratif reconnue par le gouvernement et composée de membres des différents secteurs de l'industrie ayant pour mandat de conseiller Industrie Canada sur le déploiement de la télévision numérique au Canada. TVSD (Standard Definition Television/Télévision à définition standard): Se caractérise par une image de format 4:3 ou 16:9 et un son ambiophonique. Des variations dans le nombre de cadres/s, les lignes de résolution et le type de balayage (progressif ou entrelacé) distinguent les 12 formats TVSD dans la norme ATSC. UBR (Unspecified Bit rate, Débit binaire non spécifié) : Dans un réseau ATM, classe de service réservée aux communications non stratégiques, dans laquelle la quantité de données pouvant être transmises par unité de temps ne peut être déterminée à l'avance et varie en fonction des possibilités du réseau. UHF (Ultra High Frequency, Ultra haute fréquence) : Bande d'ondes décimétriques dont la longueur d'ondes varie de 1 m à 10 cm et la fréquence de 300 Mhz à 3000 Mhz. Cette bande comprend les bandes IV et V (470 Mhz - 830 Mhz : canaux 21 à 65) utilisées pour la télévision. UMTS (Universal Mobile Telecommunications System) : Terme désignant la troisième génération de systèmes de radiocommunications mobiles (la deuxième comportait les systèmes numériques comme le GSM, et la première les anciens systèmes analogiques). L'UMTS est spécifié de manière à offrir des services de communication bidirectionnelle étendus allant des messages courts jusqu'aux images mobiles en passant par la voix. Unbalanced Audio (audio non balancé) : Méthode de transmission d'un signal audio en utilisant un câble coaxial normal de 75Ohms d'impédance. Unidirectionnel : Pour un micro; ne capte que le son ne venant que d'une seule direction. Upconverter : Convertisseur qui prends un signal vidéo numérique standard (SDTV) et le converti en signal vidéo Haute définition (HDTV). (voir: Conversion vers le haut). Upconversion (Conversion vers le haut) : Procédé qui accroît le nombre de pixels ou le débit d'images ou le format de balayage pour afficher une image. (Voir conversion vers le haut). URL (Uniformed Resource Locator) : Manière standard de donner l'adresse de n'importe quelle ressource qui est sur Internet et fait partie du World Wide Web. User Name : Un nom court et unique servant à vous identifier chez votre distributeur de services Internet ou tout autre réseau protégé. Variable bit rate (VBR) : Opération par laquelle le flux de bits varie en temps durant le décodage d'un flux compressé. VAU (Video Access Unit) : Unité d'accès vidéo. Une image compressée dans un flux de programme. VBI (Vertical Blanking Interval) : Période de temps entre les images télévisées, que l'on peut voir comme une ligne noire lorsque l'image roule. Le VBI contient les signaux qui permettent aux syntonisateurs de conserver la stabilité de l'image (synchro). Ils sont également utilisés pour transporter d'autres informations tel que le sous-titrage, v-chip, signaux de tests ou de contrôle, etc... V-Chip : Information sur le classement du programme encodé à l'intérieur d'un signal vidéo diffusé(ligne 21, champs 2) sous la forme d'un paquet XDS. Grâce à un décodeur (Set-top-box ou intégré), le téléviseur pourra empêcher certaines émissions d'être vue en empêchant certain classements. Vector (Vecteur) : paramètre de compensation de mouvement qui indique au décodeur le sens et l'amplitude du déplacement d'une partie de l'image précédente (macrobloc) pour prédire au mieux l'image courante. VGA (Video Graphics Array) : Mode d'affichage graphique des moniteurs d'ordinateurs avec une résolution d'au moins 640 X 480 pixels. VHF (Very High Frequency, Très haute fréquence) : Bande d'ondes métriques dont la longueur d'ondes varie de 10 m à 1 m et la fréquence de 30 Mhz à 300 Mhz. Cette bande comprend la bande III (174Mhz - 223Mhz: canaux 5 à 10) utilisée pour la télévision. VITC (Vertical Interval Time Code) : Manière de coder le time code (enregistrement en vertical sur la bande, entre deux images). VLC (Variable Length Coding) : Codage à longueur variable. Technique de compression affectant un code court aux valeurs les plus fréquentes et un code long aux valeurs les plus rares. VOD (Video On Demand) : Télévision à la carte. Mode de diffusion de programmes vidéo où chaque téléspectateur peut recevoir le programme qu'il souhaite au moment où il le souhaite. VRML (Virtual reality modeling language) : Standard ISO pour le Multimédia 3D et les mondes virtuels sur Internet. VSB (vestigial side-band, Bande latérale résiduelle) : Technique de modulation analogique visant à réduire la largeur de bande du spectre requise pour la transmission d'informations par câblodistribution ou par voie terrestre. WAV (se prononce wave) : Format de fichiers audio compatible avec Windows. Un fichier WAV peut être enregistré à 11KHz, 22 kHz, et 44 kHz, et en 8-bit ou 16-bit mono et stéréo. Wavelet (Vaguelette) : Type de transformée où la longueur de la fonction base n'est pas fixe mais augmente quand la fréquence décroît. Weighting (Pondération) : Méthode consistant à changer la distribution du bruit par la troncature amenée par la multiplication de valeurs. WYSIWYG (What you see is what you get) : Abréviation, "ce que vous voyez est ce que vous avez". X-Band : Fréquences comprises entre 8.0 et 8.4 GHz. XDS (Extended Data Service) : Utilise un système de paquets d'information incluent dans le signal vidéo diffusé et pouvant comprendre l'heure, l'information de classement de l'émission, un rapport météo, un site web, etc... XLR : Format de connecteur audio 3 broches. Y : Abréviation pour luminance. Y/C-Video : alias S-Video. YUV : Modèle de couleurs utilisés principalement en vidéo dans lequel les couleurs sont spécifiés en fonction de leur luminance(Y) et leur degré de saturation des teintes (composantes U et V). Jean DANIEL http://pages.videotron.com/danjean/