Le son numérique

Transcription

Le son numérique
Le son numérique
1. Notions de base concernant le son
Le son est une manifestation physique liée à la présence d'air.
Il consiste en une vibration de l'air, qui se manifeste par une succession de
dépressions et surpressions.
L'oreille est un organe sensoriel qui permet de percevoir ces vibrations et de les
transformer par l'intermédiaire du tympan, en signaux neuronaux directement
compréhensibles par le cerveau.
Ainsi de manière simple, un son sera produit pour schématiser à l'extrême, par un objet
qui entrera en vibration.
C'est le cas par exemple pour un verre en cristal qui émettra un son lorsqu'on le fera
vibrer en faisant des cercles régulier au niveau du bord, ou d'un tambour sur lequel on
frappera avec une baguette.
La reproduction d'un son nécessite donc un dispositif qui soit capable de faire vibrer
l'air à l'identique par rapport au son d'origine.
On utilise pour ça un haut-parleur qui est constitué d'une membrane vibrant grâce à un
électro-aimant, lui-même recevant un signal électrique correspondant au son à
reproduire.
Concrètement si la membrane est tirée vers l'arrière elle produit une dépression, si elle
est poussée vers l'avant elle produit une surpression.
Ces variations de pression peuvent être reproduites sur un graphique dont l'axe des x
sera le temps, et l'axe des y la pression de l'air.
On appelle cette représentation « spectre de variation d'amplitude »
Le spectre fourni par le logiciel Audacity, représentant ici quelques centièmes de secondes
2. Numériser un son
2.1. Echantillonnage du son
Pour transformer un son en fichier informatique, il va être nécessaire de convertir
les données physiques de pression en données numériques, c'est à dire
littéralement en nombres.
Pour cela, on va simplement découper en tranche le signal sonore et affecter une
valeur à chaque tranche. On appelle cela « l'échantillonnage », l'intervalle de
temps entre deux valeurs étant nommé « taux d'échantillonnage ».
Le nombre d'échantillons par seconde est exprimé en Hertz (Hz), 1 Hz
correspondant à 1 échantillon par seconde (à ne pas confondre avec la fréquence
correspondant à la hauteur d'un son perçu, elle aussi exprimée en Hz).
Exemple d'échantillonnage d'une onde sonore
Dans l'exemple ci-dessus, on se rend compte que plus le taux d'échantillonnage
sera élevé (∆t petit) plus la valeur de la pression V sera précise. Plus le découpage
sera grossier, plus les valeurs V correspondront à des moyennes par rapport aux
valeurs réelles.
Le son sera donc d'autant mieux restitué que le découpage sera précis.
Echantillonage
48 000 Hz
44 100 Hz en 16 bits
22 000 Hz
8 000 Hz
Qualité
Prise de son professionnelle
CD audio
Radio FM
Téléphone
2.2. Codage du son
Mais la précision est aussi nécessaire en ce qui concerne la valeur de la pression
(l’axe des y)
En informatique un nombre est codé en binaire sur un certain nombre de bits
pouvant prendre comme valeur 1 ou 0.
Un nombre codé sur 8 bits pourra prendre 256 valeurs, alors qu'un nombre codé
sur 16 bits pourra en prendre 65536.
Ainsi, si la description du son se fait sur 8 bits, chaque échantillon pourra prendre
une valeur comprise entre -128 et +128, alors que ces valeurs seront comprises
entre -32768 et +32768 en 16 bits.
Encore une fois le son sera d’autant mieux décrit que le nombre de bits par
échantillon sera élevé.
2.3. Les canaux
La restitution d’un enregistrement est également basée sur une diffusion
simultanée d’un ou plusieurs son.
Chaque son est « joué » sur un canal, lui-même diffusé sur un haut-parleur.
Ainsi un son diffusé sur un seul canal sera dit « mono ».
Dans une diffusion en « stéréo », chaque haut-parleur droit et gauche reçoit un
canal différent.
On parle également de « quadriphonie » pour 4 canaux.
Aujourd’hui, avec le développement du home-cinéma on rencontre très souvent
des dénominations de type « 5.1 » ou même « 7.1 ».
Cela signifie que le son est restitué sur 5 ou 7 canaux, plus un canal spécialisé
dans les basses.
La conséquence de la multiplication des sources sonores de restitution est double :
le son peut être spatialisé (stéréo = gauche / droite, 5.1 =
gauche/droite/avant/arrière) mais la taille des données nécessaire augmente en
conséquence.
2.4. Stockage du son
Ces données doivent donc être stockées sous forme de fichiers informatiques.
La taille des fichiers varie donc en fonction des paramètres énoncés au dessus :
Taille en bits = Freq. d’échantillonnage (Hz) x Nb. de bits par échant. x Temps (s) x Nb de canaux
Taille en octets = Taille en bits / 8
Ainsi pour un fragment musical de 1 mn, en stéréo et de qualité CD :
Taille = (44100 x 16 x 60 x 2) / 8 = 10584000 octets
Soit environ 10 Mo / mn.
Un CD classique ayant une capacité de stockage d’environ 700 Mo, il est donc
possible de stocker près de 70 mn de son au format CD-Audio.
3. Les formats de fichiers
Ils sont multiples et leur utilisation est très variable en fonction de la destination du son
à restituer et de la tolérance de l’utilisateur.
Pour schématiser, soit le son restitué est identique à celui enregistré, soit il est altéré.
3.1. Les formats de fichiers sans perte ou « lossless »
Il s’agit de formats de fichiers qui permettent une restitution parfaitement identique
à l’enregistrement initial.
Ils peuvent être de deux types : compressés ou non.
Le format de fichier le plus basique est le format PCM (souvent incorrectement
nommé WAV), qui contient des données brutes. C’est à dire une valeur par
échantillon quelle que soit cette valeur. Il n’est donc pas compressé.
C’est le format des CD-audio, encodés en 44,1 KHz, 16 bits et deux canaux stéréo.
Il a été calibré selon les limites de l’oreille humaine.
C’est un format sans aucune perte mais il est très lourd.
En effet, imaginons un morceau de musique « complexe » d’une minute, il pèsera
donc autant qu’un silence d’une minute, dont la valeur de chaque échantillon sera
toujours égale à 0.
D’autres formats sans perte mais compressés ont fait peu à peu leur apparition.
Comme un fichier ZIP qui restitue à l’identique les fichiers qu’il a compressés, ces
formats de fichiers audio restituent un signal parfaitement identique à l’original.
Ils permettent de diviser par deux ou trois la taille des fichiers mais restent peu
utilisés du fait du faible gain engendré.
Citons les formats ATRAC lossless de SONY, ou le format libre FLAC.
3.2. Les formats de fichiers avec perte
Depuis plusieurs années, avec l’explosion de la musique numérique, des formats
nouveaux sont apparus, beaucoup plus pratiques, à la fois légers et performants
en terme de qualité.
Ce sont des formats qui ne garantissent pas la conservation des données, c'est-àdire que le son restitué a subi des modifications (pertes) par rapport à
l’enregistrement d’origine.
Toutefois, les algorithmes de compression ont beaucoup évolué avec le temps, de
telle sorte qu’aujourd’hui le son restitué n’offre pour une oreille normale quasiment
aucune différence avec le son original.
La qualité d’un fichier compressé est déterminée notamment par le débit de
données (bitrate) dans lequel il a été encodé.
La taille du fichier se calculera donc comme ceci :
taille (Ko) = temps (s) x débit (Kbit/s) / 8
Toutefois comme les débit peuvent être variables dans un même fichier, il est très
difficile de prédire précisément la taille d’un fichier avant son encodage.
Le plus connu des ces formats est le MP3.
Il permet de diviser par 10 la taille d’un fichier par rapport à son équivalent en
PCM, tout en gardant un maximum de qualité sonore.
Un fichier MP3 de qualité proche du CD devra avoir un bitrate minimum de 128
kbits/s.
Le format OGG Vorbis est l’équivalent libre du MP3.
Le format WMA est le format propriétaire de Microsoft.
Il permet, outre la compression, de gérer finement les droits d’auteur par
l’intermédiaire des DRM (Cf. 3.3)
On peut également citer le format AAC d’Apple, largement popularisé par les IPod,
IPhone et autre IPad, ou le format ATRAC de Sony.
3.3. Formats de fichiers et décodage
A partir du moment ou un fichier est « encodé », c'est-à-dire que son contenu a été
mis en forme en utilisant des règles (algorithmes) très précises, il adopte un format
lié à cet encodage.
Nécessairement, l’opération inverse, la lecture, doit donc être liée à un algorithme
inverse.
Les algorithmes d’enCODage / DECodage sont appelés des CODEC.
Leur présence est nécessaire et obligatoire sur l’appareil sur lequel le format de
fichier va être lu (baladeur, ordinateur, platine de salon,…).
Par exemple un fichier téléchargé sur le site d’Apple, parfaitement lu sur un IPod,
ne sera pas lisible sur un baladeur qui ne possèdera pas le Codec AAC.
Ceci pose le problème de la compatibilité des fichiers entre différents appareils.
3.4. Les DRM (Digital Right Management) ou gestion des droits numériques
Les DRM sont apparus comme une « solution » au problème du piratage subi par
l’industrie du disque.
Ce sont des moyens de protection numérique capables de déterminer des
paramètres très précis et contraignants, comme la date d’expiration d’un fichier, les
droits de gravure ou de copie, le nombre de lectures autorisées, etc…
Ils sont directement codés dans le fichier lui-même.
Grâce à [à cause d’] eux, il est souvent difficile voire impossible de copier un fichier
pourtant acquis légalement sur une clé USB à partir d’un baladeur, de le prêter ou
de le modifier.
Ils sont aussi la cause fréquente de problèmes d’incompatibilité avec les appareils
de lecture qui peuvent refuser purement et simplement de les lire.
Devant la somme des problèmes engendrés et afin de ne pas freiner une
économie balbutiante encore en difficulté, les éditeurs de musique en ligne ont
décidé les uns après les autres d’abandonner l’utilisation des DRM.
Attention toutefois, tous ne les ont pas encore bannis.