Evaluation des Performances d`un Système de Tatouage Audio

Transcription

Evaluation des Performances d`un Système de Tatouage Audio
SETIT 2009
5th International Conference: Sciences of Electronic,
Technologies of Information and Telecommunications
March 22-26, 2009 – TUNISIA
Evaluation des Performances d’un Système de
Tatouage Audio
Wahid BARKOUTI*et Adnen CHERIF**
*
Laboratoire du Traitement du Signal, Faculté des Sciences de Tunis, El Manar, Tunis
[email protected]
[email protected]
Résumé: Il s’agit de concevoir un système de tatouage audio qui consiste à insérer une information inaudible dans
un signal audio. Ce système de tatouage doit assurer la transmission d’une information inaudible, fiable et robuste à un
ensemble de perturbations. Dans ce but, nous proposons dans ce papier une stratégie d’insertion basée sur la technique
de modulation CDMA dont les performances seront présentées puis comparées par rapport à celle de la modulation de
symbole.
Mots clés: tatouage audio, CDMA, propriété intellectuelle, modulation de symbole.
après conversion sous format analogique).
INTRODUCTION
L’information binaire insérée se caractérise par un
débit et une fiabilité de détection, que l’on souhaite les
plus élevés possible. L’information associée à une
signature ou une marque est liée au contenu même du
document et elle régit la Propriété, l’authenticité et les
droits d’utilisation du document [KM 01].
Au cours de ces dernières années, le tatouage des
signaux numériques s’est beaucoup répandu face à la
forte demande industrielle en matière de la protection
de la propriété intellectuelle. Le tatouage des signaux
audio numériques révèle la possibilité d'utiliser le
signal audio comme un support de communication.
Par ailleurs, les développements croissants des
échanges de fichiers audio sous format numérique tout
en préservant sa qualité sonore ont donné naissance à
l’action des pirates. De ce fait, le tatouage audio a été
proposé comme solution aux problèmes de piratage.
Le tatouage s’est depuis étendu à de nouveaux
domaines d’application, pour lesquels un système de
tatouage est vu comme une chaîne de communication :
le signal audio (signal de musique pour une qualité
CD) est susceptible de porter une information binaire,
inaudible et indélébile. Par ailleurs, l’insertion d’une
information dans un signal audio trouve son intérêt
dans toutes les applications [MMGL 96] pour
lesquelles on ne dispose pas de bande passante
supplémentaire (les transmissions analogiques par
exemple) et on ne peut pas garantir le format du signal
(l’information si elle est insérée dans l’en-tête du
fichier audio, par exemple, ne sera pas conservée
Un système de tatouage doit satisfaire à des
objectifs de performances, définies en termes de débit
et de taux d’erreur binaire (TEB) et de robustesse aux
distorsions classiques, telles que des opérations de
compression-reconstruction ou de conversions
analogique/numérique [BDM 03]. Une telle chaîne de
communication bénéficie également à l’émetteur de la
connaissance du signal support, dans lequel est
"noyée" l’information tatouée [CMM 99].Pour
atteindre des performances optimales, l’émetteur doit
s’adapter au signal support plutôt que le récepteur
d’en annuler les effets.
Notre attention s’est donc portée sur la stratégie
d’insertion[MCB 00], visant à choisir un tatouage
adapté, conciliant distorsion perceptuelle et fiabilité de
détection.
-1-
SETIT2009
M vecteurs blancs. Le débit de transmission R en
communication est défini comme étant le nombre de
bits d’information transmis par unité de temps Tb
[L05]. Le temps bit Tb est lié à la fréquence
1. Système de tatouage audio
Le système de tatouage peut être vu comme une
chaîne de communication bruitée. En effet, le tatouage
est le signal à transmettre et le signal audio est
considéré comme un bruit [G 99]. A partir du système
de tatouage représenté par la figure1, trois étapes de la
chaine de communication peuvent être dédiées :
l’émetteur qui est le siège de l’insertion de
l’information, le canal et le récepteur qui est le siège
de la détection.
d’échantillonnage
fe =
1
Te
du signal audio par
relation suivante :
Tb = N bTe
Où
Nb
(1)
est le nombre d’échantillons du signal x(n)
durant lesquels on transmet un bit d’informations.
Ainsi, le débit de transmission est défini par:
R=
f
1
= e
Tb N b
(2)
Le signal modulé v(n) est ensuite mis en forme
par un filtre autorégressif de réponse en fréquence
H(f). Cette opération a pour but d’augmenter la
puissance du signal modulé par rapport `a celle du
signal audio x(n) tout en respectant la contrainte d’in
audibilité imposée au tatouage. Cette contrainte peut
être caractérisée par un seuil de masquage Sm(f),
homogène à une densité spectrale de puissance (DSP),
issu d’une analyse psycho acoustique du signal audio.
Ce seuil établit la limite fréquentielle à satisfaire par la
DSP d’un signal qu’on souhaiterait ajouter au signal
audio sans induire de dégradation auditive. Le filtre de
mise en forme H(f) est donc conçu de sorte que la DSP
du signal de tatouage t(n), résultant du filtrage de v(n)
par H(f) coïncide avec le seuil de masquage. Son
implémentation requière un signal modulé v(n) de
puissance unité.
Figure 1 : Système de tatouage audio [BDM 03]
Le signal modulé v est obtenu par concaténation
d’une suite de vecteurs Sm, la suite des indices m étant
caractéristique des symboles transmis (Nbs-uplets
binaires). Chaque vecteur Sm est choisi parmi un
dictionnaire d’émission S. Le signal modulé est mis en
forme spectralement par un filtre H(f), ce filtrage a
pour objectif d’adapter la densité spectrale de
puissance de v à un seuil de masquage (issu d’un
modèle
psychoacoustisque
(MPA)),
limite
fréquentielle caractérisant la contrainte d’in audibilité.
Le signal tatoué y est finalement obtenu par
sommation temporelle entre le signal audio x et le
signal mis en forme t [BDM 03].Le signal audio subit
deux formes de perturbation, la première est une
opération de compression-reconstruction, réalisée par
un codeur MPEG (Motion Picture Expert Group). La
deuxième est une opération désynchronisante réalisée
par la transmission via une ligne analogique de y entre
deux PCs. Le signal reçu = y + b est soumis à un
filtrage de Wiener qui blanchit le signal audio et
estime le signal modulé . Finalement la détection de
l’information est réalisée par calcul des inter
corrélations entre le signal
et les vecteurs d’un
dictionnaire de réception, identique au dictionnaire
d’émission.
Le signal audio tatoué y(n) est ensuite obtenu par
simple addition entre le signal audio x(n) et le signal
de tatouage t(n).
y ( n) = x( n ) + t ( n)
(3)
1.2. Canal
Le canal est le siège des perturbations apportées au
signal audio tatoué y(n). Il conduit au signal audio
tatoué détérioré (n). Dans le cas particulier d’une
compression MPEG ou d’opération de filtrage (passehaut ou passe-bas), il entraine la suppression des
basses et des hautes fréquences de y(n).
1.3. Recepteur
La récupération du signal de tatouage vˆ ( n ) à
partir du signal audio tatoué yˆ ( n ) exploite un filtrage
de Wiener. Ce filtre réalise donc l’égalisation du canal
et le blanchiment du bruit, i.e. du signal de musique
[B97].L’inversion du canal s’effectue en recalculant le
filtre H à partir du signal audio tatoué. De ce fait, il
réexploite le modèle psycho acoustique et doit donc
être déterminé sur des fenêtres d’analyse identique à
1.1. Emetteur
L’information à émettre est supposée être une
séquence de L M-uplet binaire noté sous forme
vectorielle, L’´etape de modulation vise à construire le
signal modulé v(n) porteur de l’information binaire en
utilisant une technique de modulation CDMA ou MS.
Elle requière un dictionnaire d’émission S, contenant
celles de H ( f ) donc de taille N HG . En faisant
-2-
SETIT2009
la chaine de tatouage étudiée. En effet,
l’implémentation
numérique sous Matlab d’une
interface de tatouage donne lieu aux étapes suivantes :
l’hypothèse que y ( n) n’ait pas été trop perturbé par
l’opération de compression-décompression i.e.
que yˆ ( n ) ≅ y ( n ) , on a :
yˆ(n) = x(n) +t(n) = x(n) +∑h(i)v(n−i)
•
(4)
•
i∈H
v (n ) et x (n ) étant non colorés et v (n ) est blanc.
•
Le signal audio x(n) n´étant pas connu lors de la
phase de réception, on estime les filtres G(f) et H(f)
respectivement par (f), filtre blanchissant du signal
yˆ ( n ) et (f) construit à partir du seuil de masquage
•
associé à yˆ ( n ) .
Calcul du seuil de masquage pour déterminer
la courbe du masquage du signal à tatouer.
La modulation du signal qui sera utilisée par
la suite dans le système de tatouage.
Le calcul des coefficients du filtre de mise en
forme et .
La dernière étape qui consiste à la mise en
forme pour avoir un signal tatoué.
3.1 Modèle psycho acoustique
Nous nous sommes plus particulièrement
intéressés à deux modèles psycho acoustiques : le
premier est décrit par Léandro D.C.T Gomes et le
deuxième par Ricardo. A. Garcia.
2. Techniques de tatouage
Les techniques de tatouage, ont connu un
développement très important ces dernières années
dans le but de protéger la propriété intellectuelle des
documents. Deux techniques de modulations ont été
envisagées : les techniques CDMA (Code Division
Multiple Access) et la modulation de symboles(MS) à
étalement du spectre.
3.1.1
Modèle de Garcia
Généralement le modèle psycho acoustique de
Garcia est une version du modèle psycho acoustique
n°2 de MPEG (Motion Picture Expert Group). Garcia
a proposé de calculer le seuil de masquage sur
l’échelle des bandes critiques pour respecter au mieux
la physiologie de la perception auditive. La DSP du
signal audio est transposée dans l’échelle de Bark par
intégration de la puissance dans chaque sous bande.
La fonction d’étalement unique est appliquée pour la
modélisation des effets de masquage de la membrane
basilaire.
La technique de modulation CDMA permet à
plusieurs utilisateurs de partager le même canal de
transmission, de façon simultanée. Les techniques de
modulation CDMA seront les techniques les plus
adaptées au système de tatouage [B 02]. Elles
permettent d’améliorer les performances du système
pour des débits variables. Cette technique est propre
aux communications numériques. La deuxième
modulation pour l’étalement du spectre est la
modulation de symboles, elle consiste à associer de
manière bijective un m-uplets à un unique élément du
dictionnaire. Ce dictionnaire est alors constitué de
M=2m forme d’ondes choisies orthogonalement les
unes aux autres pour optimiser la détection par calcul
de la corrélation. Pour satisfaire la mise en œuvre du
filtrage de mise en forme, ces formes d’onde seront de
puissance unité.
Une translation vers le bas du seuil trouvé doit
être faite avec un paramètre α G .Ainsi, le choix
optimal de ce paramètre de translation nous donnera le
modèle le plus performant. Pour
αG
fixé à -45 dB,
nous obtenons le seuil de masquage présenté dans la
figure2.
L’appel de la psycho acoustique est nécessaire
dans un système de tatouage
pour établir les
conditions d’in audibilité de la transmission et le choix
de l’allure à partir des quelles est construit le signal
modulé. La psycho acoustique s’attache à modéliser le
système auditif humain et la perception du son [B 05].
Cette propriété consiste à modifier la DSP (Densité
Spectrale de Puissance) du code originalement blanc
afin de la faire correspondre à l’allure du modèle
psycho acoustique choisi pour garantir l’in audibilité.
L’objectif de cette idée est de présenter les propriétés
de masquage inhérentes à l’oreille humaine ce qui sera
utilisé pour la réalisation de la mise en forme.
3. Résultats
La conception numérique
d’un système de
tatouage audio en temps réel sous MATLAB, permet
d’avoir une meilleure analyse et développement pour
Figure 2. Seuil de masquage calculé par le modèle
Garcia
-3-
SETIT2009
3.1.2
Modèle de Léandro
Le modèle de Léandro est une version simplifiée
du modèle n°1 de MPEG alors que la DSP du signal
audio est décomposée en 4 sous bandes. En effet, dans
chacune de ces sous bandes, la DSP subit une
compression dynamique, une opération de convolution
par unique fonction d’étalement (sans distinction de
tonalité des composantes) puis un lissage. Le seuil
obtenu est translaté par la suite pour obtenir un rapport
de puissance entre le seuil de masquage et le signal
audio (RMS) acceptable. Ce RMS influe sur les
conditions d’in audibilité.
Cette translation (dans le domaine fréquentiel) est
paramétrable, elle prend un facteur de gain α dans le
domaine temporel. Ainsi, ce seuil offre l’avantage
d’une très faible complexité de calcul (par rapport
notamment au modèle MPEG).
La courbe du seuil de masquage est déplacée vers
le bas d'un paramètre fixé a priori à -10 dB. Ce
paramètre peut être réglé selon la puissance de
tatouage souhaitée. Un choix optimal de ce paramètre
nous garantira un modèle psycho acoustique plus
performant.
Figure 4. Seuil de masquage calculé par les deux
modèles
3.2 Modulation
Nous avons étudié deux techniques de
modulations qui sont utilisées dans la chaîne de
tatouage à savoir la CDMA et la MS.
3.2.1
Modulation de symbole (MS)
On rappelle que le message numérique à insérer
dans le signal audio est une suite de Lk-uplets
binaire
{{b
0, 0
,...,b0,k −1},....{bL−1,0 ,...,bL−1,K −1}}
{{
}
K
}
à
L
valeur dans 0,1
. La construction du
dictionnaire dépend alors de la valeur k fixée. En effet,
il est construit par M vecteur de taille NS, la création
de ce dictionnaire se faisait en Matlab de façon
aléatoire puis on doit générer une séquence de
symboles à partir de la séquence de données binaires
et du nombre du symbole contenu dans le dictionnaire.
Par suite, le signal modulé s’obtient à partir du
dictionnaire et de la séquence de symboles générée
précédemment.
Figure 3. Seuil de masquage calculé par le
modèle Léandro
L’observation des différents seuils présentés dans
la figure 3 montre que pour le modèle Léandro nous
obtenons une courbe qui suit les variations de la DSP
du signal, mais sa dynamique et sa puissance sont
moins importantes.
Quand au modèle de Garcia, nous avons obtenu
une courbe continue par morceaux. C'est la mise en
évidence que sur la membrane basilaire l'excitation
varie d'une bande critique à une autre. Finalement,
pour les deux modèles, le seuil de masquage est
calculé à un paramètre de translation près.
Figure5.Modulation de symbole
-4-
SETIT2009
3.2.2
Modulation CDMA
L’étude du coût en termes de temps de calcul
montre que la modulation CDMA est la meilleure, les
techniques de modulation CDMA sont les techniques
les plus adaptées au système de tatouage. Elles
permettent d’améliorer les performances du système
pour des débits de transmission. La technique de
modulation CDMA série permet la récupération des
bits au niveau de la détection et assure une meilleure
distinction des bits représentant toutes les
informations mais au contraire elle provoque un
maximum d’erreur au niveau de la transmission. On
en déduit que la technique de modulation CDMA
simultané présenté dans la table1 est plus fiable lors de
la transmission de l’information sur la chaîne de
tatouage audio.
Figure 7. Modulation CDMA : bits envoyés
Simultanément
En introduisant le signal modulé CDMA envoyé
simultanément et le signal de masquage dans un filtre
de mise en forme, on obtient le signal tatouage t(n)
visualisé dans la figure 8.
Table1.Comparaison entre les techniques de
modulation CDMA
CDMA
CDMA
Simultanées
Séries
-garantir un minimum
Avantages
d’erreurs.
-Plus rapide
Inconvenients
-La distinction des bits
(informations)
sera
plus difficile.
-assure
une
meilleure
distinction des
bits
-Provoque
maximum
d’erreur
un
Figure 8.Évaluation temporelle des signaux x (n ) et
t(n) en temps réel
La sommation du signal tatouage t(n) et de signal
original x (n ) , donne le signal tatoué figure9.
Figure 6. Modulation CDMA : bits envoyés en
série
-5-
SETIT2009
Figure 9.Évaluation temporelle des signaux x(n) et
t(n) et y(n) en temps réel
En examinant tous ces résultats, on peut conclure
que le système de tatouage audio implémenté suivant
les différentes sections de modulation est plus robuste
et fiable.
4. Conclusion
Afin d’améliorer la chaîne de tatouage nous avons
implémenté deux modèles psycho acoustique
(Léandro et de Garcia) et deux techniques de
modulation pour en étudier les performances (CDMA
et la MS). Les résultats de simulations ont montré que
la modulation CDMA est la plus fiable lors de la
transmission de l’information.
Quatre contraintes pour la conception du
système du tatouage, qui définissent aussi la notion de
performance du système : la transparence d’insertion
du tatouage, la fiabilité de transmission, le débit de
transmission et le temps de calcul pour assurer
l’implémentation en temps réel. L’étude du système de
tatouage pourrait être poursuivie sur plusieurs points
pour l’amélioration des modèles traités.
REFERENCES
[BMG 96]
Walter Bender, Norishige Morimoto,
Daniel Gruhl et Anthony Lu: Techniques
for data hiding. IBM System Journal,
25:313–335, 1996.
[B 97]
Brossier (J-M) : Signal et Communication
numérique Egalisation et synchronisation.
Collection traitement du signal. Janvier
1997.
[B 02]
Cléo Baras : Etude de la mise en forme de
l’information binaire dans un système de
tatouage audio. Mémoire de DEA, INPG,
Septembre 2002.
[BDM 03]
C.Baras .P.DyMarski N.Moreau.Système
de tatouage en boucle fermée. GRETSI’03.
Paris, Septembre 2003.
-6-
[B 05]
Cléo Baras : Tatouage informé de signaux
audio numériques. Thèse de Doctorat,
Telecom Paris, Décembre 2005.
[CM 99]
I. Cox, M. Miller et A. McKellips.
Watermarking as communications with
side information. Proceedings of the IEEE,
(USA), 87:1127–1141, July 1999.
[G 99]
R. A. Garcia: Digital watermarking of
audio signals using a psychoacoustic
auditory model and spread spectrum.
Theory 107 The AES convention New
York Septembre 1999.
[KM 01]
Darko Kirovski et Henrique Malvar:
Spread-spectrum audio watermarking:
Requirements, applications, limitations.
IEEE
International
Workshop
on
Multimedia Signal Processing, 51(4):219–
224, may 2001.
[L 05]
Sonia Djaziri Larbi:Structure d’égalisation
en tatouage audio numérique .Thèse de
Doctorat, Télécom Paris, ENST, Mars
2005.
[MCB 00]
M. Miller, I. Cox et J. Bloom. Informed
embedding: exploiting image and detected
information during watermark insertion,
International Conference on Image
Processing, ICIP2000, Canada, September
2000.