I LA NUMERISATION DU SON
Transcription
I LA NUMERISATION DU SON
COURS N°2 LA REPRESENTATION NUMERIQUE DU SON I LA NUMERISATION DU SON La numérisation est le procédé permettant la construction d’une représentation discrète d’un objet du monde réel. Dans son sens le plus répandu, la numérisation est la conversion d’un signal (vidéo, image, audio, caractère d’imprimerie, impulsion) en une suite de nombres permettant de représenter cet objet en informatique ou en électronique numérique. On utilise parfois le terme franglais digitalisation (digit signifiant chiffre en anglais). Lorsqu’un son est enregistré à l’aide d’un microphone, les variations de pression acoustique sont transformées en une tension mesurable. Il s’agit d’une grandeur analogique continue représentée par une courbe variant en fonction du temps. Un ordinateur ne sait gérer que des valeurs numériques discrètes. Il faut donc échantillonner le signal analogique pour convertir la tension en une suite de nombres qui seront traités par l’ordinateur. C’est le rôle du convertisseur analogique/numérique Ainsi, la numérisation permet de transformer un signal sonore en fichier enregistré sur le disque dur de l’ordinateur. La numérisation se réalise en deux étapes, l’échantillonnage et la quantification. Elle va permettre de transformer un signal continu en une suite de valeurs discrètes (distinctes) qui seront traduites dans le langage des ordinateurs, en 0 et 1. Lorsqu'on capte un son à partir d'un microphone, ce dernier son t Tension proportionnelle image du son(V) 4 3 2 1 t Echantillonnage 4 3 2 1 transforme l'énergie mécanique (la pression de l'air exercée sur sa membrane), en une variation de tension électrique continue. Ce signal électrique dit « analogique » pourra ensuite être amplifié, et envoyé vers un hautparleur dont la fonction est inverse: transformer à nouveau le signal électrique en une énergie mécanique (on peut observer le déplacement de la membrane d'un haut parleur en marche). Echantillonnage : Lorsqu'un son est numérisé, le signal analogique (continu) qui entre dans l'ordinateur est mesuré, un certain nombre de fois par seconde (d'ou la discontinuité). Le son est donc découpé en "tranches", ou échantillons (en anglais « samples »). Le nombre d'échantillons disponibles dans une seconde d'audio s'appel la fréquence d'échantillonnage exprimée en hertz. Pour traduire le plus fidèlement possible le signal analogique de notre micro, il faudra prendre le plus grand nombre de mesures possible par seconde. Autrement dit, plus la fréquence d’échantillonnage sera élevée, plus la traduction numérique du signal sera proche de l’original analogique. Attention tout de même à la taille des fichiers. t Information numérique (codée sur 8 bits) 11001100 10011001 110011 0 11001 1 t Résolution et quantification (bit): Une autre caractéristique importante est la résolution numérique du son, soit le nombre de « niveaux » ou de « paliers » qu'il est possible d'enregistrer pour reproduire l'amplitude du signal. Avec une résolution de 16bit, on dispose de 216, soit 65535 valeurs possibles pour traduire l'amplitude du son. Ainsi, plus la résolution est élevée, meilleur sera la dynamique (l'écart entre le son le plus faible et le plus fort qu'il est possible de reproduire). Quelques exemples de résolutions fréquemment utilisées: Son qualité téléphone: 8000 Hz 8bit - Son qualité radio FM: 22050 Hz 16bit - Son qualité CD: 44100 Hz 16bit Son qualité DVD: 48000 Hz 24bit - Son audio professionnel: 96000 et 192000 Hz 24 et 32bit Mémoire requise pour stocker un son: Il est simple de calculer la taille d'une séquence sonore non compressée en connaissant le nombre d'échantillons par seconde (fréquence d'échantillonnage), la résolution (nombre de bits sur lequel est codé un échantillon) , le temps de la séquence (en seconde) et le nombre de voies utilisées : poids (octet) = Fréquence d'échantillonnage (Hz) x Résolution (octet) x Durée (seconde) x Nombre de voies Exemple: Calcul d'une seconde d'audio qualité CD Rappel: 1octet = 8bit et 1kilo-octet (ko) = 1024 octet => Calculer le poids d'1 minute audio en 44100Hz, 16bit, stéréo. On souhaite une réponse en Mega Octet (Mo). 44100(hz) x 16 (bit) x 60 (sec) x 2 (voies) On sait que:1octet = 8 bit, donc 16bit = 2 octets 44100 x 2 x 60 x 2 = 10584000 octet Conversion de octet vers Kilo-octet (Ko): 10584000 / 1024 = 10335 Ko Conversion de octet vers Mega-octet (Mo): 10335 / 1024 = 10 Mo SPECIALITE ISN JANETTI Page 1/3 COURS N°2 LA REPRESENTATION NUMERIQUE DU SON II LE FORMAT DE FICHIER WAVE Le format WAVE (Waveform) est un dérivé de la spécification RIFF (Resource Interchange File Format) de Microsoft dédiée au stockage de données multimédias. Ce format est libre d'utilisation et est sûrement le plus répandu parmi les nombreux formats de fichiers sons. Ce format est lisible sur la plupart des systèmes d'exploitation et par n'importe quel logiciel de traitement de son digne de ce nom. Le seul problème avec ce format est qu'il est évolutif et peut connaître de nombreuses formes (compressions audio, etc.). Nous allons donc nous limiter au format PCM (Pulse Code Modulation) dans lequel les échantillons sont codés de manière "brute" (aucune compression). Le fichier WAVE pris en exemple (voir page suivante) représente un message vocal d'une durée d'environ 2 secondes, numérisé avec les paramètres d'échantillonnage suivants : - fréquence d'échantillonnage : 11025Hz, - taille de l'échantillon : 8 bits, - nombre de canaux : 1 (mono). Tous les octets sont codés en hexadécimal. Lorsqu'une donnée est codée sur plusieurs octets, l'octet de poids faible est donné en premier. Exemple : 10.00.00.00 devient 00000010h = 16 en décimal. Structure du fichier : 00h Taille en octet 4 52.49.46.46 04h 4 8E.4B.00.00 08h 0Ch 4 4 57.41.56.45 66.6D.74.20 10h 4 12.00.00.00 14h 2 01.00 16h 2 01.00 18h 4 11.2B.00.00 1Ch 4 11.2B.00.00 20h 2 01.00 22h 2 08.00 26h 4 66.61.63.74 2Ah 4 04.00.00.00 2Eh 4 5C.4B.00.00 32h 4 64.61.74.61 "data" 36h 4 5C.4B.00.00 3Ah 4B96h (exemple) X XXXXXXXXXX Blocs optionnels X XXXXXXXXXX Bloc "fichier" Offset Contenu (exemple) "format" "fact" SPECIALITE ISN JANETTI Signification "RIFF" = ID du format de fichier Taille du fichier en octets après entête : 00004B8Eh = 19342 octets "WAVE" = type de fichier RIFF "fmt " = ID du bloc Taille du bloc en octets après entête : 00000012h = 18 octets Format de fichier Wave : 0001h = 1 = pas de compression, format PCM Nombre de canaux (1=mono, 2=stéréo, …) : 0001h = 1 = mono Fréquence d'échantillonnage : 00002B11h = 11025 (Hz) Nombre d'octets/seconde (pour prévoir le buffer de lecture) : 00002B11h = 11025 octets/s nombre de canaux × nombre d'octets par échantillon : 00.01h = 1 octet (8 bits mono) Commentaire entête entête 18 octets Nombre de bits par échantillon (valeurs possibles : 8, 12 ou 16) : 0008h = 8 bits par échantillon "fact" = ID du bloc Informations sur la compression (non utile ici car format PCM = pas de compression) Taille du bloc "data" en octets après entête : 00004B5Ch = 19292 octets (= nombre d'échantillons) "data" = ID du bloc Taille du bloc en octets après entête : 00004B5Ch = 19292 octets (= nombre d'échantillons) Echantillons Exemple : signature du logiciel de création de fichier Wave bloc optionnel souvent absent entête 19292 octets X octets Page 2/3 COURS N°2 LA REPRESENTATION NUMERIQUE DU SON Remarques : ID = code d'identification du bloc Les échantillons 8 bits sont codés en binaire non signé. Les valeurs possibles vont de 00h (0) à FFh (255), avec le zéro situé à 80h (128). Les échantillons 16 bits sont codés en binaire signé (complément à deux). Les valeurs possibles vont de 0000h (0) à 7FFFh (+32767) pour un signal positif, et de 8000h (-32768) à FFFFh (-1) pour un signal négatif. Dans le cas de la stéréo, la voie de gauche est d'abord disponible puis suit la voie de droite. Exemple de fichier WAVE : III LE FORMAT DE FICHIER MP3 Les deux types de fichier sont du type audio, c'est-à-dire des fichiers sonores (musique, bruitages, etc.). La principale différence est que le format MP3 est un format compressé, c'est à dire moyennant une petite perte en qualité, la taille du fichier diminue considérablement. Alors, c'est quoi le MP3 ? Le MPEG 1 Audio Layer, très vite baptisé MP3, a été créé en 1993 par l'institut Fraunhofer. A l'écoute, la différence entre le son d'un CD et le son de ce même CD compressé en MP3 est - selon la compression choisie - pratiquement imperceptible. En effet le MP3 filtre toutes les données non-audibles du fichier : tout ce qui se trouve en dessous de 20Hz ou au-dessus de 20000Hz est effacé mais aussi les sons qui sont couverts par d'autres. Le résultat : un fichier bien plus léger un exemple : o o Une chanson quelconque en MP3: 1543 KO Une chanson quelconque en WAV: 17643 KO SPECIALITE ISN JANETTI Page 3/3