Le son numérique
Transcription
Le son numérique
Le son numérique 1. Notions de base concernant le son Le son est une manifestation physique liée à la présence d'air. Il consiste en une vibration de l'air, qui se manifeste par une succession de dépressions et surpressions. L'oreille est un organe sensoriel qui permet de percevoir ces vibrations et de les transformer par l'intermédiaire du tympan, en signaux neuronaux directement compréhensibles par le cerveau. Ainsi de manière simple, un son sera produit pour schématiser à l'extrême, par un objet qui entrera en vibration. C'est le cas par exemple pour un verre en cristal qui émettra un son lorsqu'on le fera vibrer en faisant des cercles régulier au niveau du bord, ou d'un tambour sur lequel on frappera avec une baguette. La reproduction d'un son nécessite donc un dispositif qui soit capable de faire vibrer l'air à l'identique par rapport au son d'origine. On utilise pour ça un haut-parleur qui est constitué d'une membrane vibrant grâce à un électro-aimant, lui-même recevant un signal électrique correspondant au son à reproduire. Concrètement si la membrane est tirée vers l'arrière elle produit une dépression, si elle est poussée vers l'avant elle produit une surpression. Ces variations de pression peuvent être reproduites sur un graphique dont l'axe des x sera le temps, et l'axe des y la pression de l'air. On appelle cette représentation « spectre de variation d'amplitude » Le spectre fourni par le logiciel Audacity, représentant ici quelques centièmes de secondes 2. Numériser un son 2.1. Echantillonnage du son Pour transformer un son en fichier informatique, il va être nécessaire de convertir les données physiques de pression en données numériques, c'est à dire littéralement en nombres. Pour cela, on va simplement découper en tranche le signal sonore et affecter une valeur à chaque tranche. On appelle cela « l'échantillonnage », l'intervalle de temps entre deux valeurs étant nommé « taux d'échantillonnage ». Le nombre d'échantillons par seconde est exprimé en Hertz (Hz), 1 Hz correspondant à 1 échantillon par seconde (à ne pas confondre avec la fréquence correspondant à la hauteur d'un son perçu, elle aussi exprimée en Hz). Exemple d'échantillonnage d'une onde sonore Dans l'exemple ci-dessus, on se rend compte que plus le taux d'échantillonnage sera élevé (∆t petit) plus la valeur de la pression V sera précise. Plus le découpage sera grossier, plus les valeurs V correspondront à des moyennes par rapport aux valeurs réelles. Le son sera donc d'autant mieux restitué que le découpage sera précis. Echantillonage 48 000 Hz 44 100 Hz en 16 bits 22 000 Hz 8 000 Hz Qualité Prise de son professionnelle CD audio Radio FM Téléphone 2.2. Codage du son Mais la précision est aussi nécessaire en ce qui concerne la valeur de la pression (l’axe des y) En informatique un nombre est codé en binaire sur un certain nombre de bits pouvant prendre comme valeur 1 ou 0. Un nombre codé sur 8 bits pourra prendre 256 valeurs, alors qu'un nombre codé sur 16 bits pourra en prendre 65536. Ainsi, si la description du son se fait sur 8 bits, chaque échantillon pourra prendre une valeur comprise entre -128 et +128, alors que ces valeurs seront comprises entre -32768 et +32768 en 16 bits. Encore une fois le son sera d’autant mieux décrit que le nombre de bits par échantillon sera élevé. 2.3. Les canaux La restitution d’un enregistrement est également basée sur une diffusion simultanée d’un ou plusieurs son. Chaque son est « joué » sur un canal, lui-même diffusé sur un haut-parleur. Ainsi un son diffusé sur un seul canal sera dit « mono ». Dans une diffusion en « stéréo », chaque haut-parleur droit et gauche reçoit un canal différent. On parle également de « quadriphonie » pour 4 canaux. Aujourd’hui, avec le développement du home-cinéma on rencontre très souvent des dénominations de type « 5.1 » ou même « 7.1 ». Cela signifie que le son est restitué sur 5 ou 7 canaux, plus un canal spécialisé dans les basses. La conséquence de la multiplication des sources sonores de restitution est double : le son peut être spatialisé (stéréo = gauche / droite, 5.1 = gauche/droite/avant/arrière) mais la taille des données nécessaire augmente en conséquence. 2.4. Stockage du son Ces données doivent donc être stockées sous forme de fichiers informatiques. La taille des fichiers varie donc en fonction des paramètres énoncés au dessus : Taille en bits = Freq. d’échantillonnage (Hz) x Nb. de bits par échant. x Temps (s) x Nb de canaux Taille en octets = Taille en bits / 8 Ainsi pour un fragment musical de 1 mn, en stéréo et de qualité CD : Taille = (44100 x 16 x 60 x 2) / 8 = 10584000 octets Soit environ 10 Mo / mn. Un CD classique ayant une capacité de stockage d’environ 700 Mo, il est donc possible de stocker près de 70 mn de son au format CD-Audio. 3. Les formats de fichiers Ils sont multiples et leur utilisation est très variable en fonction de la destination du son à restituer et de la tolérance de l’utilisateur. Pour schématiser, soit le son restitué est identique à celui enregistré, soit il est altéré. 3.1. Les formats de fichiers sans perte ou « lossless » Il s’agit de formats de fichiers qui permettent une restitution parfaitement identique à l’enregistrement initial. Ils peuvent être de deux types : compressés ou non. Le format de fichier le plus basique est le format PCM (souvent incorrectement nommé WAV), qui contient des données brutes. C’est à dire une valeur par échantillon quelle que soit cette valeur. Il n’est donc pas compressé. C’est le format des CD-audio, encodés en 44,1 KHz, 16 bits et deux canaux stéréo. Il a été calibré selon les limites de l’oreille humaine. C’est un format sans aucune perte mais il est très lourd. En effet, imaginons un morceau de musique « complexe » d’une minute, il pèsera donc autant qu’un silence d’une minute, dont la valeur de chaque échantillon sera toujours égale à 0. D’autres formats sans perte mais compressés ont fait peu à peu leur apparition. Comme un fichier ZIP qui restitue à l’identique les fichiers qu’il a compressés, ces formats de fichiers audio restituent un signal parfaitement identique à l’original. Ils permettent de diviser par deux ou trois la taille des fichiers mais restent peu utilisés du fait du faible gain engendré. Citons les formats ATRAC lossless de SONY, ou le format libre FLAC. 3.2. Les formats de fichiers avec perte Depuis plusieurs années, avec l’explosion de la musique numérique, des formats nouveaux sont apparus, beaucoup plus pratiques, à la fois légers et performants en terme de qualité. Ce sont des formats qui ne garantissent pas la conservation des données, c'est-àdire que le son restitué a subi des modifications (pertes) par rapport à l’enregistrement d’origine. Toutefois, les algorithmes de compression ont beaucoup évolué avec le temps, de telle sorte qu’aujourd’hui le son restitué n’offre pour une oreille normale quasiment aucune différence avec le son original. La qualité d’un fichier compressé est déterminée notamment par le débit de données (bitrate) dans lequel il a été encodé. La taille du fichier se calculera donc comme ceci : taille (Ko) = temps (s) x débit (Kbit/s) / 8 Toutefois comme les débit peuvent être variables dans un même fichier, il est très difficile de prédire précisément la taille d’un fichier avant son encodage. Le plus connu des ces formats est le MP3. Il permet de diviser par 10 la taille d’un fichier par rapport à son équivalent en PCM, tout en gardant un maximum de qualité sonore. Un fichier MP3 de qualité proche du CD devra avoir un bitrate minimum de 128 kbits/s. Le format OGG Vorbis est l’équivalent libre du MP3. Le format WMA est le format propriétaire de Microsoft. Il permet, outre la compression, de gérer finement les droits d’auteur par l’intermédiaire des DRM (Cf. 3.3) On peut également citer le format AAC d’Apple, largement popularisé par les IPod, IPhone et autre IPad, ou le format ATRAC de Sony. 3.3. Formats de fichiers et décodage A partir du moment ou un fichier est « encodé », c'est-à-dire que son contenu a été mis en forme en utilisant des règles (algorithmes) très précises, il adopte un format lié à cet encodage. Nécessairement, l’opération inverse, la lecture, doit donc être liée à un algorithme inverse. Les algorithmes d’enCODage / DECodage sont appelés des CODEC. Leur présence est nécessaire et obligatoire sur l’appareil sur lequel le format de fichier va être lu (baladeur, ordinateur, platine de salon,…). Par exemple un fichier téléchargé sur le site d’Apple, parfaitement lu sur un IPod, ne sera pas lisible sur un baladeur qui ne possèdera pas le Codec AAC. Ceci pose le problème de la compatibilité des fichiers entre différents appareils. 3.4. Les DRM (Digital Right Management) ou gestion des droits numériques Les DRM sont apparus comme une « solution » au problème du piratage subi par l’industrie du disque. Ce sont des moyens de protection numérique capables de déterminer des paramètres très précis et contraignants, comme la date d’expiration d’un fichier, les droits de gravure ou de copie, le nombre de lectures autorisées, etc… Ils sont directement codés dans le fichier lui-même. Grâce à [à cause d’] eux, il est souvent difficile voire impossible de copier un fichier pourtant acquis légalement sur une clé USB à partir d’un baladeur, de le prêter ou de le modifier. Ils sont aussi la cause fréquente de problèmes d’incompatibilité avec les appareils de lecture qui peuvent refuser purement et simplement de les lire. Devant la somme des problèmes engendrés et afin de ne pas freiner une économie balbutiante encore en difficulté, les éditeurs de musique en ligne ont décidé les uns après les autres d’abandonner l’utilisation des DRM. Attention toutefois, tous ne les ont pas encore bannis.