I LA NUMERISATION DU SON

Transcription

I LA NUMERISATION DU SON
COURS N°2
LA REPRESENTATION NUMERIQUE DU SON
I LA NUMERISATION DU SON
La numérisation est le procédé permettant la construction d’une représentation discrète d’un objet du monde
réel. Dans son sens le plus répandu, la numérisation est la conversion d’un signal (vidéo, image, audio,
caractère d’imprimerie, impulsion) en une suite de nombres permettant de représenter cet objet en
informatique ou en électronique numérique. On utilise parfois le terme franglais digitalisation (digit
signifiant chiffre en anglais).
Lorsqu’un son est enregistré à l’aide d’un microphone, les variations de pression acoustique sont
transformées en une tension mesurable. Il s’agit d’une grandeur analogique continue représentée par une
courbe variant en fonction du temps. Un ordinateur ne sait gérer que des valeurs numériques discrètes. Il faut
donc échantillonner le signal analogique pour convertir la tension en une suite de nombres qui seront traités
par l’ordinateur. C’est le rôle du convertisseur analogique/numérique Ainsi, la numérisation permet de
transformer un signal sonore en fichier enregistré sur le disque dur de l’ordinateur.
La numérisation se réalise en deux étapes, l’échantillonnage et la quantification. Elle va permettre de
transformer un signal continu en une suite de valeurs discrètes (distinctes) qui seront traduites dans le
langage des ordinateurs, en 0 et 1.
Lorsqu'on capte un son à partir d'un microphone, ce dernier
son
t
Tension proportionnelle image du son(V)
4
3
2
1
t
Echantillonnage
4
3
2
1
transforme l'énergie mécanique (la pression de l'air exercée sur sa
membrane), en une variation de tension électrique continue.
Ce signal électrique dit « analogique » pourra ensuite être amplifié,
et envoyé vers un hautparleur dont la fonction est inverse:
transformer à nouveau le signal électrique en une énergie
mécanique (on peut observer le déplacement de la membrane d'un
haut parleur en marche).
Echantillonnage :
Lorsqu'un son est numérisé, le signal analogique (continu) qui entre
dans l'ordinateur est mesuré, un certain nombre de fois par seconde
(d'ou la discontinuité). Le son est donc découpé en "tranches", ou
échantillons (en anglais « samples »). Le nombre d'échantillons
disponibles dans une seconde d'audio s'appel la fréquence
d'échantillonnage exprimée en hertz.
Pour traduire le plus fidèlement possible le signal analogique de
notre micro, il faudra prendre le plus grand nombre de mesures
possible par seconde. Autrement dit, plus la fréquence
d’échantillonnage sera élevée, plus la traduction numérique du
signal sera proche de l’original analogique.
Attention tout de même à la taille des fichiers.
t
Information numérique (codée sur 8 bits)
11001100
10011001
110011
0
11001
1
t
Résolution et quantification (bit):
Une autre caractéristique importante est la résolution numérique du son,
soit le nombre de « niveaux » ou de « paliers » qu'il est possible
d'enregistrer pour reproduire l'amplitude du signal.
Avec une résolution de 16bit, on dispose de 216, soit 65535 valeurs
possibles pour traduire l'amplitude du son. Ainsi, plus la résolution est
élevée, meilleur sera la dynamique (l'écart entre le son le plus faible et le
plus fort qu'il est possible de reproduire).
Quelques exemples de résolutions fréquemment utilisées:
Son qualité téléphone: 8000 Hz 8bit - Son qualité radio FM: 22050 Hz 16bit - Son qualité CD: 44100 Hz 16bit
Son qualité DVD: 48000 Hz 24bit - Son audio professionnel: 96000 et 192000 Hz 24 et 32bit
Mémoire requise pour stocker un son:
Il est simple de calculer la taille d'une séquence sonore non compressée en connaissant le nombre d'échantillons par
seconde (fréquence d'échantillonnage), la résolution (nombre de bits sur lequel est codé un échantillon) , le temps de la
séquence (en seconde) et le nombre de voies utilisées :
poids (octet) = Fréquence d'échantillonnage (Hz) x Résolution (octet) x Durée (seconde) x Nombre de voies
Exemple: Calcul d'une seconde d'audio qualité CD
Rappel: 1octet = 8bit et 1kilo-octet (ko) = 1024 octet
=> Calculer le poids d'1 minute audio en 44100Hz, 16bit, stéréo. On souhaite une réponse en Mega Octet (Mo).
44100(hz) x 16 (bit) x 60 (sec) x 2 (voies) On sait que:1octet = 8 bit, donc 16bit = 2 octets
44100 x 2 x 60 x 2 = 10584000 octet
Conversion de octet vers Kilo-octet (Ko): 10584000 / 1024 = 10335 Ko
Conversion de octet vers Mega-octet (Mo): 10335 / 1024 = 10 Mo
SPECIALITE ISN
JANETTI
Page 1/3
COURS N°2
LA REPRESENTATION NUMERIQUE DU SON
II LE FORMAT DE FICHIER WAVE
Le format WAVE (Waveform) est un dérivé de la spécification RIFF (Resource Interchange File Format) de
Microsoft dédiée au stockage de données multimédias. Ce format est libre d'utilisation et est sûrement le plus
répandu parmi les nombreux formats de fichiers sons. Ce format est lisible sur la plupart des systèmes
d'exploitation et par n'importe quel logiciel de traitement de son digne de ce nom. Le seul problème avec ce
format est qu'il est évolutif et peut connaître de nombreuses formes (compressions audio, etc.). Nous allons
donc nous limiter au format PCM (Pulse Code Modulation) dans lequel les échantillons sont codés de
manière "brute" (aucune compression).
Le fichier WAVE pris en exemple (voir page suivante) représente un message vocal d'une durée d'environ 2
secondes, numérisé avec les paramètres d'échantillonnage suivants :
- fréquence d'échantillonnage : 11025Hz,
- taille de l'échantillon : 8 bits,
- nombre de canaux : 1 (mono).
Tous les octets sont codés en hexadécimal. Lorsqu'une donnée est codée sur plusieurs octets, l'octet de poids
faible est donné en premier. Exemple : 10.00.00.00 devient 00000010h = 16 en décimal.
Structure du fichier :
00h
Taille
en
octet
4
52.49.46.46
04h
4
8E.4B.00.00
08h
0Ch
4
4
57.41.56.45
66.6D.74.20
10h
4
12.00.00.00
14h
2
01.00
16h
2
01.00
18h
4
11.2B.00.00
1Ch
4
11.2B.00.00
20h
2
01.00
22h
2
08.00
26h
4
66.61.63.74
2Ah
4
04.00.00.00
2Eh
4
5C.4B.00.00
32h
4
64.61.74.61
"data"
36h
4
5C.4B.00.00
3Ah
4B96h
(exemple)
X
XXXXXXXXXX
Blocs
optionnels
X
XXXXXXXXXX
Bloc
"fichier"
Offset
Contenu
(exemple)
"format"
"fact"
SPECIALITE ISN
JANETTI
Signification
"RIFF" = ID du format de fichier
Taille du fichier en octets après entête :
00004B8Eh = 19342 octets
"WAVE" = type de fichier RIFF
"fmt " = ID du bloc
Taille du bloc en octets après entête :
00000012h = 18 octets
Format de fichier Wave : 0001h = 1 = pas
de compression, format PCM
Nombre de canaux (1=mono, 2=stéréo, …) :
0001h = 1 = mono
Fréquence d'échantillonnage : 00002B11h =
11025 (Hz)
Nombre d'octets/seconde (pour prévoir le
buffer de lecture) : 00002B11h = 11025
octets/s
nombre de canaux × nombre d'octets par
échantillon : 00.01h = 1 octet (8 bits mono)
Commentaire
entête
entête
18 octets
Nombre de bits par échantillon (valeurs
possibles : 8, 12 ou 16) : 0008h = 8 bits par
échantillon
"fact" = ID du bloc
Informations sur la compression (non utile
ici car format PCM = pas de compression)
Taille du bloc "data" en octets après entête :
00004B5Ch = 19292 octets (= nombre
d'échantillons)
"data" = ID du bloc
Taille du bloc en octets après entête :
00004B5Ch = 19292 octets (= nombre
d'échantillons)
Echantillons
Exemple : signature du logiciel de création
de fichier Wave
bloc optionnel
souvent
absent
entête
19292 octets
X octets
Page 2/3
COURS N°2
LA REPRESENTATION NUMERIQUE DU SON
Remarques :
ID = code d'identification du bloc
Les échantillons 8 bits sont codés en binaire non signé. Les valeurs possibles vont de 00h (0) à FFh (255),
avec le zéro situé à 80h (128).
Les échantillons 16 bits sont codés en binaire signé (complément à deux). Les valeurs possibles vont de
0000h (0) à 7FFFh (+32767) pour un signal positif, et de 8000h (-32768) à FFFFh (-1) pour un signal
négatif.
Dans le cas de la stéréo, la voie de gauche est d'abord disponible puis suit la voie de droite.
Exemple de fichier WAVE :
III LE FORMAT DE FICHIER MP3
Les deux types de fichier sont du type audio, c'est-à-dire des fichiers sonores (musique, bruitages,
etc.). La principale différence est que le format MP3 est un format compressé, c'est à dire
moyennant une petite perte en qualité, la taille du fichier diminue considérablement.
Alors, c'est quoi le MP3 ?
Le MPEG 1 Audio Layer, très vite baptisé MP3, a été créé en 1993 par l'institut Fraunhofer. A
l'écoute, la différence entre le son d'un CD et le son de ce même CD compressé en MP3 est - selon
la compression choisie - pratiquement imperceptible. En effet le MP3 filtre toutes les
données non-audibles du fichier : tout ce qui se trouve en dessous de 20Hz ou au-dessus de
20000Hz est effacé mais aussi les sons qui sont couverts par d'autres. Le résultat : un fichier bien
plus léger
un exemple :
o
o
Une chanson quelconque en MP3: 1543 KO
Une chanson quelconque en WAV: 17643 KO
SPECIALITE ISN
JANETTI
Page 3/3