Evaluation des Performances d`un Système de Tatouage Audio
Transcription
Evaluation des Performances d`un Système de Tatouage Audio
SETIT 2009 5th International Conference: Sciences of Electronic, Technologies of Information and Telecommunications March 22-26, 2009 – TUNISIA Evaluation des Performances d’un Système de Tatouage Audio Wahid BARKOUTI*et Adnen CHERIF** * Laboratoire du Traitement du Signal, Faculté des Sciences de Tunis, El Manar, Tunis [email protected] [email protected] Résumé: Il s’agit de concevoir un système de tatouage audio qui consiste à insérer une information inaudible dans un signal audio. Ce système de tatouage doit assurer la transmission d’une information inaudible, fiable et robuste à un ensemble de perturbations. Dans ce but, nous proposons dans ce papier une stratégie d’insertion basée sur la technique de modulation CDMA dont les performances seront présentées puis comparées par rapport à celle de la modulation de symbole. Mots clés: tatouage audio, CDMA, propriété intellectuelle, modulation de symbole. après conversion sous format analogique). INTRODUCTION L’information binaire insérée se caractérise par un débit et une fiabilité de détection, que l’on souhaite les plus élevés possible. L’information associée à une signature ou une marque est liée au contenu même du document et elle régit la Propriété, l’authenticité et les droits d’utilisation du document [KM 01]. Au cours de ces dernières années, le tatouage des signaux numériques s’est beaucoup répandu face à la forte demande industrielle en matière de la protection de la propriété intellectuelle. Le tatouage des signaux audio numériques révèle la possibilité d'utiliser le signal audio comme un support de communication. Par ailleurs, les développements croissants des échanges de fichiers audio sous format numérique tout en préservant sa qualité sonore ont donné naissance à l’action des pirates. De ce fait, le tatouage audio a été proposé comme solution aux problèmes de piratage. Le tatouage s’est depuis étendu à de nouveaux domaines d’application, pour lesquels un système de tatouage est vu comme une chaîne de communication : le signal audio (signal de musique pour une qualité CD) est susceptible de porter une information binaire, inaudible et indélébile. Par ailleurs, l’insertion d’une information dans un signal audio trouve son intérêt dans toutes les applications [MMGL 96] pour lesquelles on ne dispose pas de bande passante supplémentaire (les transmissions analogiques par exemple) et on ne peut pas garantir le format du signal (l’information si elle est insérée dans l’en-tête du fichier audio, par exemple, ne sera pas conservée Un système de tatouage doit satisfaire à des objectifs de performances, définies en termes de débit et de taux d’erreur binaire (TEB) et de robustesse aux distorsions classiques, telles que des opérations de compression-reconstruction ou de conversions analogique/numérique [BDM 03]. Une telle chaîne de communication bénéficie également à l’émetteur de la connaissance du signal support, dans lequel est "noyée" l’information tatouée [CMM 99].Pour atteindre des performances optimales, l’émetteur doit s’adapter au signal support plutôt que le récepteur d’en annuler les effets. Notre attention s’est donc portée sur la stratégie d’insertion[MCB 00], visant à choisir un tatouage adapté, conciliant distorsion perceptuelle et fiabilité de détection. -1- SETIT2009 M vecteurs blancs. Le débit de transmission R en communication est défini comme étant le nombre de bits d’information transmis par unité de temps Tb [L05]. Le temps bit Tb est lié à la fréquence 1. Système de tatouage audio Le système de tatouage peut être vu comme une chaîne de communication bruitée. En effet, le tatouage est le signal à transmettre et le signal audio est considéré comme un bruit [G 99]. A partir du système de tatouage représenté par la figure1, trois étapes de la chaine de communication peuvent être dédiées : l’émetteur qui est le siège de l’insertion de l’information, le canal et le récepteur qui est le siège de la détection. d’échantillonnage fe = 1 Te du signal audio par relation suivante : Tb = N bTe Où Nb (1) est le nombre d’échantillons du signal x(n) durant lesquels on transmet un bit d’informations. Ainsi, le débit de transmission est défini par: R= f 1 = e Tb N b (2) Le signal modulé v(n) est ensuite mis en forme par un filtre autorégressif de réponse en fréquence H(f). Cette opération a pour but d’augmenter la puissance du signal modulé par rapport `a celle du signal audio x(n) tout en respectant la contrainte d’in audibilité imposée au tatouage. Cette contrainte peut être caractérisée par un seuil de masquage Sm(f), homogène à une densité spectrale de puissance (DSP), issu d’une analyse psycho acoustique du signal audio. Ce seuil établit la limite fréquentielle à satisfaire par la DSP d’un signal qu’on souhaiterait ajouter au signal audio sans induire de dégradation auditive. Le filtre de mise en forme H(f) est donc conçu de sorte que la DSP du signal de tatouage t(n), résultant du filtrage de v(n) par H(f) coïncide avec le seuil de masquage. Son implémentation requière un signal modulé v(n) de puissance unité. Figure 1 : Système de tatouage audio [BDM 03] Le signal modulé v est obtenu par concaténation d’une suite de vecteurs Sm, la suite des indices m étant caractéristique des symboles transmis (Nbs-uplets binaires). Chaque vecteur Sm est choisi parmi un dictionnaire d’émission S. Le signal modulé est mis en forme spectralement par un filtre H(f), ce filtrage a pour objectif d’adapter la densité spectrale de puissance de v à un seuil de masquage (issu d’un modèle psychoacoustisque (MPA)), limite fréquentielle caractérisant la contrainte d’in audibilité. Le signal tatoué y est finalement obtenu par sommation temporelle entre le signal audio x et le signal mis en forme t [BDM 03].Le signal audio subit deux formes de perturbation, la première est une opération de compression-reconstruction, réalisée par un codeur MPEG (Motion Picture Expert Group). La deuxième est une opération désynchronisante réalisée par la transmission via une ligne analogique de y entre deux PCs. Le signal reçu = y + b est soumis à un filtrage de Wiener qui blanchit le signal audio et estime le signal modulé . Finalement la détection de l’information est réalisée par calcul des inter corrélations entre le signal et les vecteurs d’un dictionnaire de réception, identique au dictionnaire d’émission. Le signal audio tatoué y(n) est ensuite obtenu par simple addition entre le signal audio x(n) et le signal de tatouage t(n). y ( n) = x( n ) + t ( n) (3) 1.2. Canal Le canal est le siège des perturbations apportées au signal audio tatoué y(n). Il conduit au signal audio tatoué détérioré (n). Dans le cas particulier d’une compression MPEG ou d’opération de filtrage (passehaut ou passe-bas), il entraine la suppression des basses et des hautes fréquences de y(n). 1.3. Recepteur La récupération du signal de tatouage vˆ ( n ) à partir du signal audio tatoué yˆ ( n ) exploite un filtrage de Wiener. Ce filtre réalise donc l’égalisation du canal et le blanchiment du bruit, i.e. du signal de musique [B97].L’inversion du canal s’effectue en recalculant le filtre H à partir du signal audio tatoué. De ce fait, il réexploite le modèle psycho acoustique et doit donc être déterminé sur des fenêtres d’analyse identique à 1.1. Emetteur L’information à émettre est supposée être une séquence de L M-uplet binaire noté sous forme vectorielle, L’´etape de modulation vise à construire le signal modulé v(n) porteur de l’information binaire en utilisant une technique de modulation CDMA ou MS. Elle requière un dictionnaire d’émission S, contenant celles de H ( f ) donc de taille N HG . En faisant -2- SETIT2009 la chaine de tatouage étudiée. En effet, l’implémentation numérique sous Matlab d’une interface de tatouage donne lieu aux étapes suivantes : l’hypothèse que y ( n) n’ait pas été trop perturbé par l’opération de compression-décompression i.e. que yˆ ( n ) ≅ y ( n ) , on a : yˆ(n) = x(n) +t(n) = x(n) +∑h(i)v(n−i) • (4) • i∈H v (n ) et x (n ) étant non colorés et v (n ) est blanc. • Le signal audio x(n) n´étant pas connu lors de la phase de réception, on estime les filtres G(f) et H(f) respectivement par (f), filtre blanchissant du signal yˆ ( n ) et (f) construit à partir du seuil de masquage • associé à yˆ ( n ) . Calcul du seuil de masquage pour déterminer la courbe du masquage du signal à tatouer. La modulation du signal qui sera utilisée par la suite dans le système de tatouage. Le calcul des coefficients du filtre de mise en forme et . La dernière étape qui consiste à la mise en forme pour avoir un signal tatoué. 3.1 Modèle psycho acoustique Nous nous sommes plus particulièrement intéressés à deux modèles psycho acoustiques : le premier est décrit par Léandro D.C.T Gomes et le deuxième par Ricardo. A. Garcia. 2. Techniques de tatouage Les techniques de tatouage, ont connu un développement très important ces dernières années dans le but de protéger la propriété intellectuelle des documents. Deux techniques de modulations ont été envisagées : les techniques CDMA (Code Division Multiple Access) et la modulation de symboles(MS) à étalement du spectre. 3.1.1 Modèle de Garcia Généralement le modèle psycho acoustique de Garcia est une version du modèle psycho acoustique n°2 de MPEG (Motion Picture Expert Group). Garcia a proposé de calculer le seuil de masquage sur l’échelle des bandes critiques pour respecter au mieux la physiologie de la perception auditive. La DSP du signal audio est transposée dans l’échelle de Bark par intégration de la puissance dans chaque sous bande. La fonction d’étalement unique est appliquée pour la modélisation des effets de masquage de la membrane basilaire. La technique de modulation CDMA permet à plusieurs utilisateurs de partager le même canal de transmission, de façon simultanée. Les techniques de modulation CDMA seront les techniques les plus adaptées au système de tatouage [B 02]. Elles permettent d’améliorer les performances du système pour des débits variables. Cette technique est propre aux communications numériques. La deuxième modulation pour l’étalement du spectre est la modulation de symboles, elle consiste à associer de manière bijective un m-uplets à un unique élément du dictionnaire. Ce dictionnaire est alors constitué de M=2m forme d’ondes choisies orthogonalement les unes aux autres pour optimiser la détection par calcul de la corrélation. Pour satisfaire la mise en œuvre du filtrage de mise en forme, ces formes d’onde seront de puissance unité. Une translation vers le bas du seuil trouvé doit être faite avec un paramètre α G .Ainsi, le choix optimal de ce paramètre de translation nous donnera le modèle le plus performant. Pour αG fixé à -45 dB, nous obtenons le seuil de masquage présenté dans la figure2. L’appel de la psycho acoustique est nécessaire dans un système de tatouage pour établir les conditions d’in audibilité de la transmission et le choix de l’allure à partir des quelles est construit le signal modulé. La psycho acoustique s’attache à modéliser le système auditif humain et la perception du son [B 05]. Cette propriété consiste à modifier la DSP (Densité Spectrale de Puissance) du code originalement blanc afin de la faire correspondre à l’allure du modèle psycho acoustique choisi pour garantir l’in audibilité. L’objectif de cette idée est de présenter les propriétés de masquage inhérentes à l’oreille humaine ce qui sera utilisé pour la réalisation de la mise en forme. 3. Résultats La conception numérique d’un système de tatouage audio en temps réel sous MATLAB, permet d’avoir une meilleure analyse et développement pour Figure 2. Seuil de masquage calculé par le modèle Garcia -3- SETIT2009 3.1.2 Modèle de Léandro Le modèle de Léandro est une version simplifiée du modèle n°1 de MPEG alors que la DSP du signal audio est décomposée en 4 sous bandes. En effet, dans chacune de ces sous bandes, la DSP subit une compression dynamique, une opération de convolution par unique fonction d’étalement (sans distinction de tonalité des composantes) puis un lissage. Le seuil obtenu est translaté par la suite pour obtenir un rapport de puissance entre le seuil de masquage et le signal audio (RMS) acceptable. Ce RMS influe sur les conditions d’in audibilité. Cette translation (dans le domaine fréquentiel) est paramétrable, elle prend un facteur de gain α dans le domaine temporel. Ainsi, ce seuil offre l’avantage d’une très faible complexité de calcul (par rapport notamment au modèle MPEG). La courbe du seuil de masquage est déplacée vers le bas d'un paramètre fixé a priori à -10 dB. Ce paramètre peut être réglé selon la puissance de tatouage souhaitée. Un choix optimal de ce paramètre nous garantira un modèle psycho acoustique plus performant. Figure 4. Seuil de masquage calculé par les deux modèles 3.2 Modulation Nous avons étudié deux techniques de modulations qui sont utilisées dans la chaîne de tatouage à savoir la CDMA et la MS. 3.2.1 Modulation de symbole (MS) On rappelle que le message numérique à insérer dans le signal audio est une suite de Lk-uplets binaire {{b 0, 0 ,...,b0,k −1},....{bL−1,0 ,...,bL−1,K −1}} {{ } K } à L valeur dans 0,1 . La construction du dictionnaire dépend alors de la valeur k fixée. En effet, il est construit par M vecteur de taille NS, la création de ce dictionnaire se faisait en Matlab de façon aléatoire puis on doit générer une séquence de symboles à partir de la séquence de données binaires et du nombre du symbole contenu dans le dictionnaire. Par suite, le signal modulé s’obtient à partir du dictionnaire et de la séquence de symboles générée précédemment. Figure 3. Seuil de masquage calculé par le modèle Léandro L’observation des différents seuils présentés dans la figure 3 montre que pour le modèle Léandro nous obtenons une courbe qui suit les variations de la DSP du signal, mais sa dynamique et sa puissance sont moins importantes. Quand au modèle de Garcia, nous avons obtenu une courbe continue par morceaux. C'est la mise en évidence que sur la membrane basilaire l'excitation varie d'une bande critique à une autre. Finalement, pour les deux modèles, le seuil de masquage est calculé à un paramètre de translation près. Figure5.Modulation de symbole -4- SETIT2009 3.2.2 Modulation CDMA L’étude du coût en termes de temps de calcul montre que la modulation CDMA est la meilleure, les techniques de modulation CDMA sont les techniques les plus adaptées au système de tatouage. Elles permettent d’améliorer les performances du système pour des débits de transmission. La technique de modulation CDMA série permet la récupération des bits au niveau de la détection et assure une meilleure distinction des bits représentant toutes les informations mais au contraire elle provoque un maximum d’erreur au niveau de la transmission. On en déduit que la technique de modulation CDMA simultané présenté dans la table1 est plus fiable lors de la transmission de l’information sur la chaîne de tatouage audio. Figure 7. Modulation CDMA : bits envoyés Simultanément En introduisant le signal modulé CDMA envoyé simultanément et le signal de masquage dans un filtre de mise en forme, on obtient le signal tatouage t(n) visualisé dans la figure 8. Table1.Comparaison entre les techniques de modulation CDMA CDMA CDMA Simultanées Séries -garantir un minimum Avantages d’erreurs. -Plus rapide Inconvenients -La distinction des bits (informations) sera plus difficile. -assure une meilleure distinction des bits -Provoque maximum d’erreur un Figure 8.Évaluation temporelle des signaux x (n ) et t(n) en temps réel La sommation du signal tatouage t(n) et de signal original x (n ) , donne le signal tatoué figure9. Figure 6. Modulation CDMA : bits envoyés en série -5- SETIT2009 Figure 9.Évaluation temporelle des signaux x(n) et t(n) et y(n) en temps réel En examinant tous ces résultats, on peut conclure que le système de tatouage audio implémenté suivant les différentes sections de modulation est plus robuste et fiable. 4. Conclusion Afin d’améliorer la chaîne de tatouage nous avons implémenté deux modèles psycho acoustique (Léandro et de Garcia) et deux techniques de modulation pour en étudier les performances (CDMA et la MS). Les résultats de simulations ont montré que la modulation CDMA est la plus fiable lors de la transmission de l’information. Quatre contraintes pour la conception du système du tatouage, qui définissent aussi la notion de performance du système : la transparence d’insertion du tatouage, la fiabilité de transmission, le débit de transmission et le temps de calcul pour assurer l’implémentation en temps réel. L’étude du système de tatouage pourrait être poursuivie sur plusieurs points pour l’amélioration des modèles traités. REFERENCES [BMG 96] Walter Bender, Norishige Morimoto, Daniel Gruhl et Anthony Lu: Techniques for data hiding. IBM System Journal, 25:313–335, 1996. [B 97] Brossier (J-M) : Signal et Communication numérique Egalisation et synchronisation. Collection traitement du signal. Janvier 1997. [B 02] Cléo Baras : Etude de la mise en forme de l’information binaire dans un système de tatouage audio. Mémoire de DEA, INPG, Septembre 2002. [BDM 03] C.Baras .P.DyMarski N.Moreau.Système de tatouage en boucle fermée. GRETSI’03. Paris, Septembre 2003. -6- [B 05] Cléo Baras : Tatouage informé de signaux audio numériques. Thèse de Doctorat, Telecom Paris, Décembre 2005. [CM 99] I. Cox, M. Miller et A. McKellips. Watermarking as communications with side information. Proceedings of the IEEE, (USA), 87:1127–1141, July 1999. [G 99] R. A. Garcia: Digital watermarking of audio signals using a psychoacoustic auditory model and spread spectrum. Theory 107 The AES convention New York Septembre 1999. [KM 01] Darko Kirovski et Henrique Malvar: Spread-spectrum audio watermarking: Requirements, applications, limitations. IEEE International Workshop on Multimedia Signal Processing, 51(4):219– 224, may 2001. [L 05] Sonia Djaziri Larbi:Structure d’égalisation en tatouage audio numérique .Thèse de Doctorat, Télécom Paris, ENST, Mars 2005. [MCB 00] M. Miller, I. Cox et J. Bloom. Informed embedding: exploiting image and detected information during watermark insertion, International Conference on Image Processing, ICIP2000, Canada, September 2000.