1. Les codecs 2. Synoptique

Transcription

1. Les codecs 2. Synoptique
SYNTHESE
CODAGE ET TRANSPORT DE LA VOIX SUR IP
CODAGE ET TRANSPORT DE LA VOIX SUR IP
1. Les codecs
Pour pouvoir utiliser les mêmes liaisons que les autres données, sur le réseau du FAI,
la voix est multiplexée :
Pour être ainsi transportée, sous forme de paquets, la voix doit être numérisée :
Les Codecs (COdeur/DECodeur) permettent la conversion analogique/numérique à
l’émission puis la conversion numérique/analogique à la réception de la parole
téléphonique.
2. Synoptique
La transformation d’une onde sonore en « paquets » de données comporte plusieurs
étapes :
-
Conversion énergie mécanique / énergie électrique
-
Conversion analogique/numérique
-
Codage-Compression
-
Paquétisation-Ajout des en-têtes
auteur : L.Burri 1
SYNTHESE
CODAGE ET TRANSPORT DE LA VOIX SUR IP
onde sonore
1
conversion
signal analogique
2
3
échantillonnage
conversion
signal discret
analogique
/
numérique
quantification
signal quantifié
4
Compression-codage
Éventuellement :
suppression des silences
signal codé
5
Paquétisation ajout des en-têtes
paquet
auteur : L.Burri 2
SYNTHESE
CODAGE ET TRANSPORT DE LA VOIX SUR IP
2.1 Conversion onde sonore/signal électrique
Cette première étape est réalisée à l’aide d’un microphone.
Le microphone est un transducteur d'énergie, qui transforme de l'énergie acoustique
en énergie électrique.
2.2 Echantillonnage et quantification
La conversion analogique/numérique (CAN) permet de représenter le signal analogique,
image de la parole, sous forme d’un ensemble fini de nombres à une fréquence
d’échantillonnage fixée.
Cette CAN se caractérise par :
 La fréquence d’échantillonnage, c’est-à-dire la période avec laquelle le signal
analogique est mesuré au cours du temps.
 La méthode de quantification, c’est-à-dire le nombre et la distribution des
valeurs discrètes qui sont utilisées pour la mesure.
2.2.1 Echantillonnage
Mathématiquement, le processus d’échantillonnage est le résultat de la multiplication
d’une série d’impulsions d’amplitude 1 par le signal analogique. On obtient des
impulsions à amplitude modulée (PAM =Pulse Amplitude Modulation) :
1
t
X
t
=
Te = 1/fe
Théorème de Shannon
La fréquence minimale d’échantillonnage d’un signal doit être au moins le double
de la fréquence maximale contenue dans le signal à échantillonner :
Fech  2 * Fmax_signal
On considère alors que les échantillons contiennent toutes les informations du signal
original.
auteur : L.Burri 3
t
SYNTHESE
CODAGE ET TRANSPORT DE LA VOIX SUR IP
Comme la parole
téléphonique a une bande
passante de 3200Hz, ce
sont au moins 6400
échantillons qui doivent être
acheminés au récepteur.
La normalisation a optée
pour un échantillonnage
8000 fois par seconde
2.2.2 Quantification
La quantification permet de représenter chaque échantillon par une valeur numérique
au moyen d’une loi de correspondance.
2.2.2.1
Quantification linéaire
La loi la plus simple consiste à diviser l’ordonnée en segments égaux, le nombre de
segments dépendant du nombre de bits choisis pour la numérisation. C’est la
quantification linéaire.
o Exemple : quantification sur 4 bits :
1111
1110
La valeur de l’échantillon est
égale à la valeur numérique la
plus proche
1100
1011
1010
1001
1000
0111
0110
0100
t
0011
0010
0001
0000
auteur : L.Burri 4
SYNTHESE
CODAGE ET TRANSPORT DE LA VOIX SUR IP
On obtient un signal MIC (Modulation par Impulsion Codée) :
1111
1110
1100
1011
1010
1001
1000
0111
0110
t
0100
0011
0010
0001
0000
Les erreurs introduites par le processus de quantification, induisent un « bruit de
quantification ». Ce bruit est la différence entre la valeur du signal analogique à
l'entrée du CAN, et la valeur du signal quantifié à la sortie. Plus l’échelle de
quantification est fine, moins le bruit est important.
o Remarque : le bruit total, dans le signal qui arrive au récepteur est la somme
de plusieurs bruits introduits par : les erreurs de quantification, la qualité de
la ligne de transmission, les ondes électromagnétiques…
SNR = Signal to Noise Ratio
SNR =
Le SNR est le rapport de l’énergie du signal transmis (S) sur l’énergie du bruit (B).
2.2.2.2
Quantification non linéaire
La loi de correspondance, pour la quantification doit être choisie de façon à ce que la
valeur des signaux ait le plus de signification possible.
Ainsi, si tous les échantillons ont une valeur à peu près égale et se trouvent donc tous
rassemblés dans une zone de codage, il faut essayer d’y obtenir plus de possibilités de
codage que dans les zones où il y a peu d’échantillons, de façon à pouvoir distinguer la
valeur de ces échantillons très proches (plutôt que d’avoir que des valeurs égales).
auteur : L.Burri 5
SYNTHESE
CODAGE ET TRANSPORT DE LA VOIX SUR IP
On utilise essentiellement 2 lois de correspondance :
 La loi  en Amérique du Nord : 128 valeurs d’échantillons positives
 La loi A en Europe : 128 valeurs d’échantillons positives + 128 négatives, soit
256 valeurs
Ces deux lois sont de type semi-logarithmique, garantissant ainsi une précision à peu
près constante :
auteur : L.Burri 6
SYNTHESE
CODAGE ET TRANSPORT DE LA VOIX SUR IP
2.3 Compression - codage
Dans le but de transporter les données numériques précédentes, on réalise un
traitement du signal, par de purs algorithmes mathématiques.
La compression/codage permet de coder des échantillons, issus de la quantification de
N1 bits en échantillons de N2 bits, avec N2 < N1, afin de réduire le débit en ligne.
Il existe des codages :
 HBR ( Hight Bit Rate Codec ) = codecs haut débit
 LBR ( Low Bit Rate Codec ) = codecs bas débits.
o Remarque : Si les codecs LBR permettent de réduire la bande passante allouée
au trafic de la voix, ils induisent aussi une distorsion du signal et des
problèmes d’écho.
o Débit de différents codecs :
codec
G.711
G.726
G.728
G.729
G.729a
G.723.1
Débit(Kbits/s)
64
32
16/24/32/40
8
8
5,3/6,3
2.4 Suppression des silences
Pour optimiser la bande passante, il ne faut pas transmettre les silences.
Par contre, les utilisateurs doivent toujours avoir l’impression d’être en conversation.
La VAD (Voice Activity Detection) permet, en cas de silence de ne pas les
transmettre, mais de générer à leur place, côté réception, un bruit de confort.
2.5 Paquétisation - ajout des en-têtes
La voix est transporté au dessus d’IP, en mode non connecté (plus rapide) via UDP(
User Data Protocol).
Le protocole utilisé pour transporter les échantillons de voix téléphonique est RTP
(Real-time Transport Protocol)
RTP
UDP
IP
Data link
Physical
auteur : L.Burri 7
SYNTHESE
CODAGE ET TRANSPORT DE LA VOIX SUR IP
Par défaut, le segment RTP contenu dans le paquet IP contient un nombre
d’échantillons équivalents à 20 ms de voix, mais cette valeur peut être modifiée
jusqu’à 200ms au maximum.
en-tête
charge utile
L’en-tête contient :
 Les adresses IP (source et destination)
 Le n° de port UDP afin d’identifier les applications émettrice et réceptrice
 Dans le champ RTP, les informations nécessaires à la restitution du signal voix.
3. Transport de la voix
Deux protocoles sont utilisés pour le transport des flux en temps réel : RTP et
RTCP.
Les connexions RTP et RTCP sont établies par un protocole supplémentaire de
signalisation : H245, SIP…
3.1 RTP
RTP = Real-time Transport Protocol
RTP fournit les services suivants :
 Distingue les différentes sources, lors d’envoi de trames de multidiffusion
 Maintient la distribution en temps réel des paquets
 Assure la synchronisation des flux voix
 Séquence les paquets afin d’identifier, à la réception, une perte éventuelle
 Identifie les types de codecs
 Contrôle le multipoint (conversation à plusieurs)
auteur : L.Burri 8
SYNTHESE
CODAGE ET TRANSPORT DE LA VOIX SUR IP
RTP ne fournit pas la QoS (Qualité de Service)
3.2 RTCP
RTP = Real-time Transport Control Protocol
RTCP fournit les services suivants :
 Transmet les paquets de contrôle aux participants à un appel.
 Rend compte de la qualité du service fourni par le RTP en fournissant des
informations de supervision relatives à la gigue et au taux de perte des
paquets.
 Contrôle la session. RTCP permet aux participants d'indiquer, par exemple, leur
départ d'une conférence téléphonique (paquet Bye)
4. Qualité de réception de la parole téléphonique
Plusieurs paramètres influent sur la qualité de la voix :
 Le traitement de la voix (qualité de codage)
 Le délai de transmission
 La gigue
 Le phénomène d’écho
 La perte des paquets
4.1 Qualité du codec
Souvent, les techniques de codage offrant de faibles débits (codec LBR), augmentent
le délai de transmission.
Pour caractériser la qualité du codeur, il existe le critère de notation MOS ( Mean
Opinion Score – note moyenne d’opinion), qui classe les codecs en 5 classes :
1 = Mauvais
2 = Médiocre
3 = Moyen, assez bon
4 = Bon
5 = Excellent
4.1.1 Le MOS de différents codecs
codec
G.711
G.726
G.728
G.729
G.729a
G.723.1
MOS
4.1
3.85
3.61
3.92
3.9
3.9
4.1.2 Taille des paquets
La bande passante utilisée sur le réseau, pour le transport de la parole téléphonique,
ne dépend pas uniquement du choix du codec, mais aussi de la taille des paquets de
voix.
auteur : L.Burri 9
SYNTHESE
CODAGE ET TRANSPORT DE LA VOIX SUR IP
Ainsi, pour un même temps de parole à transmettre, si l’on utilise :
 des petits paquets de voix :
 Il ya un plus grand nombre de paquets à transmettre
 donc plus d’en-tête à transmettre
 donc la BP utilisée est plus importante
 par contre le temps d’acheminement de chaque paquet est plus court.
 de




grands paquets de voix :
Il ya un plus petit nombre de paquets à transmettre
donc moins d’en-tête à transmettre
donc la BP utilisée est moins importante
par contre le temps d’acheminement de chaque paquet est plus long.
Donc, il faut un bon compromis entre la taille des paquets à transmettre et le
délai nécessaire pour cette transmission.
4.1.3 Bande passante utilisée par différents codecs
auteur : L.Burri 10
SYNTHESE
CODAGE ET TRANSPORT DE LA VOIX SUR IP
4.2 Délai de transmission
Le délai de transmission est le temps écoulé entre l’émission de la parole et sa
restitution à l’arrivée.
Dans le cas de la VOIP, par exemple, il est donc la somme des opérations suivantes :
o
o
o
o
o
o
o
Codage/Paquétisation de la voix
Traversée
du
terminal
(téléphone ou PC)
Traversée du modem et de la
passerelle
Traversée du réseau IP
Traversée du modem et de la
passerelle
Traversée
du
terminal
(téléphone ou PC)
Décodage/Dépaquétisation de
la voix
Pour permettre un échange interactif, la voix doit être transmise avec des
contraintes de délai.
L’UIT-T, indique qu’un délai de transmission des paquets de voix :


de 0 à 150 ms = est acceptable pour la plupart des conversations
de 150 à 300 ms = est acceptable pour des conversations faiblement
interactives

de 300 à 700ms = devient pratiquement une conversation half-duplex (talkiewalkie)

au-delà de 700ms = inutilisable sans une bonne pratique de la conversation halfduplex.
4.3 Gigue (jitter)
La gigue est la variation du délai de transmission.
Comme les différents paquets de voix n’empruntent pas forcément le même chemin,
ils subissent inévitablement des délais de transmission variables, le récepteur ne peut
pas simplement reproduire le signal, au moment de l’arrivée du paquet. Pour égaliser
les variations de la gigue, on utilise un tampon de lissage (jitter buffer). La
reproduction de la voix se fait par lecture, à partir du tampon de lissage, et non plus à
partir du réseau, en temps réel :
auteur : L.Burri 11
SYNTHESE
CODAGE ET TRANSPORT DE LA VOIX SUR IP
L’inconvénient est que l’utilisation de ce tampon de lissage introduit un délai
supplémentaire et augmente donc le délai de transmission.
4.4 Phénomène d’écho
o Echo côté locuteur : perception par le locuteur de sa propre voix, décalée dans
le temps.
o Echo côté auditeur : lorsque la parole du locuteur est réfléchie deux fois,
l’auditeur entend la voix du locuteur deux fois : un signal fort et clair, suivi d’un
signal très atténué et fortement décalé.
4.5 Perte des paquets
Pour combattre les effets des pertes de paquets, les terminaux peuvent utiliser des
techniques de
 Redondance = au départ, on envoie périodiquement de paquets contenant un
« résumé » des N paquets précédents  cela augmente le délai de
transmission.
 Masquage : à l’arrivée, on remplace le paquet manquant avec les données des
paquets qui précèdent et qui suivent le paquet perdu.
Pour avoir une qualité de parole acceptable, le taux de parte de paquets doit être
inférieur à 5%.
5. Sources
 « Cours réseaux et télécoms » de Guy Pujolle, aux éditions Eyrolles
 Diaporama « voix et téléphonie sur IP » de Learneo (Avril 2005)
auteur : L.Burri 12

Documents pareils