ENGLISH VERSION : Title : Classification of acoustic signatures for

Transcription

ENGLISH VERSION : Title : Classification of acoustic signatures for
ENGLISH VERSION :
Title: Classification of acoustic signatures
for the retrieval of environmental characteristics
This PhD will take place at GIPSA-Lab, team SIGMAPHY with a contract with CNRS.
PhD supervisor: J.I. Mars, GIPSA-LAB,
PhD co-supervisor: M. Dalla Mura, GIPSA-LAB,
Scientific team: C. Gervaise Chaire Chorus, A. Larue CEA LIST.
The required candidate for this PhD must have a solid background in signal processing, good
programming skills (e.g., Matlab) and being able to work in team. A good English proficiency
both written and spoken is a prerequisite.
In order to apply, interested candidates should send their application (CV, transcript of notes,
motivation letter and recommendations letters) to
• Jerome Mars: [email protected] (PhD supervisor)
• Mauro Dalla Mura: [email protected] (PhD co-supervisor)
• Start of the PhD: 1 Sep. 2015
• Duration: 3 years
Context, motivations and objectives
The increasing number of civil and military operations in coastal environment requires a
careful control of the SONAR emissions, due to their effects on the living conditions of
marine mammals. Thus, this study aims at developing new methodologies that can ensure
the protection of the underwater environment while preserving the effectiveness of the
operations.
To this end, the DGA and, more in general, the scientific community is particularly interested
in developing innovative methods of detection, classification and localization of marine
mammals. Indeed, by adequate data processing it is possible to extract multiple information
on the coastal zones (e.g., estimation of the parameters of the underwater environment) and
on the animals populating those areas (e.g., monitoring animals’ behavior - migration, habitat
occupation, ethology, analysis of the movements’ trajectories, environmental sonar).
A first study currently in progress [Dadouchi et al 2012] has shown the capability to
automatically recognize signatures of marine mammals with a good accuracy from acoustic
signals. The method relies on the detection by statistical estimation of the signals timefrequency characteristics. Once detected, it is then possible to retrieve the characteristics
waveforms by using two different approaches: i) time warping [Bonnel 2010] and ii)
reconstruction time-frequency – phase [Ioana 2010].
The core of this PhD is devoted to develop a classification method based on sparse
representations (which is a booming approach in Machine Learning) [Barthelemy et al 2013]
for the discrimination of acoustic signals. One of the challenges in processing acoustic
signals is to extract the useful information (e.g., the acoustic signature of the mammals). The
informative components of the signals often live in subspaces of smaller dimensions
(manifolds) and they can be represented parsimoniously, i.e., with little informative
components selected from a set of components (i.e., a "dictionary") learned ad hoc. Such
parsimonious representation can be subsequently exploited for classification [Song et al
2014].
http://www.gipsa-lab.grenoble-inp.fr/offres/offres_de_theses.php
1
VERSION FRANCAISE
Titre : Classification de signature
acoustique pour la restitution de paramètres environnementaux.
Le travail de thèse se déroulera au GIPSA-LAB, Département Image et Signal dans l’équipe
SIGMAPHY, en contrat de thèse avec le CNRS.
Directeur de Thèse : J.I. Mars,
Co-direction: M. Dalla Mura, GIPSA-LAB,
Equipe Scientifique associée: C. Gervaise Chaire Chorus, A. Larue CEA LIST.
Pour mener à bien ce projet, il est nécessaire de bénéficier d’une solide formation en
traitement du signal et de maitriser la programmation en Matlab, et de montrer de bonnes
capacités au travail en équipe. Une bonne connaissance de l’anglais écrit et parlé est un prérequis.
Merci de vérifier que les conditions d’accès (paragraphe 4 ci-dessous) sont bien remplies,
d’adresser votre dossier de candidature (CV, notes de master, lettre de motivation et
courriers de recommandation) à :
• Jerome Mars : [email protected] (directeur de thèse)
• Mauro Dalla Mura : [email protected]
Cette thèse est à pourvoir au 1er septembre 2014.
Durée du financement : 3 ans.
I.
Problématique générale : Contexte, Intérêts et Objectifs
Lors des nombreuses études concernant les mammifères marins, les scientifiques ont pu
observer les hautes performances des vocalises de mammifères en terme de précision de
localisation, portée, robustesse aux perturbations de tout genre (bruit, interférences, Doppler,
…), et de langage de communication, etc. Ainsi, Les 130 espèces de cétacés utilisent les
sons pour communiquer et percevoir leur environnement, leurs signaux bioacoustiques sont
adaptés à leurs évolutions et couvrent une vaste gamme de fréquences (qq Hz à 200 kHz)
ainsi qu’une large gamme de formes d’onde. Il est donc naturel de penser que l’étude
approfondie de ces vocalises permettrait d’obtenir d’excellente performance de détection,
estimation et localisation.
Par ailleurs, le nombre de plus en plus important d'opérations militaires en environnement
côtier implique une prise en compte judicieuse de l'impact d'émissions SONAR sur la vie des
mammifères marins. En conséquence, l'analyse des signaux de mammifères marins
permettrait d'obtenir des informations riches en ce qui concerne l'impact des activités
militaires sur le comportement des animaux marins. Ainsi, une autre motivation pour cette
étude reposerait sur la protection de l’environnement sous-marin tout en préservant
l’efficacité des opérations militaires. Et comme nous l’avons annoncé, l’étude des vocalises
permettrait également d'avoir une connaissance fine, des environnements côtiers et littoraux.
Ainsi la communauté scientifique au sens large est tout particulièrement intéressée à
suivre et participer à des méthodes innovantes de détection, classification et localisation de
2
mammifères marins. Les informations extraites, via des traitements et analyses adéquats,
souvent très multiples peuvent conduire à des concepts opérationnels très divers (analyse
des trajectoires de mammifères, estimation des paramètres du milieu sous-marin,
comportement (migrations, occupations des habitats, éthologie, sonar environnemental) etc.
Une première étude en cours [Dadouchi et al 2012] a montré la capacité à extraire les
signatures des mammifères marins de façon extrêmement satisfaisante et automatique
grâce à une étape de détection par estimation statistique du support temps-fréquence des
signaux. Cette étape validée, nous permet d’extraire des formes d’onde par deux classes de
méthodes (warping temporel [Bonnel 2010], reconstruction temps-fréquence-phase [Ioana
2010]. L’objectif majeur de cette thèse sera de proposer une méthode de classification basée
sur les techniques de Machine Learning actuellement en plein essor base sur des
représentations parcimonieuses [Song et al 2014]. Un des enjeux est de trouver l'information
utile (signature acoustique) au sein d'une masse de données. Cette information utile enfouie
dans ces données existant souvent dans des sous-espaces de petites dimensions (variétés)
pourra être représentées avec parcimonie, i.e. à l'aide de peu composantes informatives
sélectionnées parmi un ensemble de composantes (constituent un « dictionnaire ») apprises
ad hoc.
II.
Programme de Recherche
Afin d’aboutir aux objectifs opérationnels présentés dans le paragraphe précèdent, des
méthodologies avancées de traitement du signal ont éré mises en place. Nous présentons,
dans ce paragraphe, les contraintes traitement du signal à considérer (ou qui doivent être
prises en compte) et qui conduiront sans doute à des nouvelles approches dans le domaine
du traitement du signal :
-
En raison du caractère inconnu de la forme d’onde de la vocalise ainsi que de la position
inconnue de la source (ie mammifère marin), la méthodologie de traitement sera conçue en
contexte entièrement passif. Ceci constitue une contrainte forte car aucune hypothèse n’est
autorisée
-
Etant donnée la diversité de types de signaux (les vocalises peuvent avoir des formes
temps-fréquence très variées, généralement transitoires et non-linéaires) la méthodologie
d’analyse devra être capable à gérer, via des modèles temps-fréquence généraux, une large
gamme des vocalises. La mise en place de ces modèles généraux ainsi que des méthodes
de détection, caractérisation et extraction associées sera validé sur des bases de données
réelles (thèse de Mr Dadouchi en cours et de Mr Le Bot en cours);
-
Un effet particulièrement important est celui du mouvement sachant que les mammifères
sont des sources mobiles et que ceci se traduit par un mélange entre la modulation source
(que nous cherchons à estimer) et l’effet Doppler généralisé. Compte tenu de ce contexte, la
méthodologie d’analyse du signal devra être capable de prendre en compte ces effets. Une
piste envisageable serait la prise en compte lors de l’étape de conception, des modèles
physiques associés aux phénomènes mentionnés ci-dessus (comme préconisé dans la
thèse de Mr Josso).
Ainsi l’objectif majeur de cette thèse sera de proposer une méthode de classification
basée sur les techniques de Machine Learning actuellement en plein essor. Un des enjeux
est de d’une part de trouver l'information utile au sein d'une masse de données. Cette
information utile enfouie dans ces données existant souvent dans des sous-espaces de
3
petites dimensions (variétés) pourra être représentées avec parcimonie, i.e. à l'aide de peu
composantes informatives sélectionnées parmi un ensemble de composantes (constituent un
« dictionnaire ») apprises ad hoc.
La première étape consistera à extraire sans a priori de la base de données les
structures informatives, répétitives et énergétiques par les techniques mises au point au
Gispa-lab [Dadouchi et al 2012]. Dans un deuxième temps, le modèle de représentations
parcimonieuses appliquées aux signaux multivariés étant plus général que le modèle
multicanal, permettra de prendre en compte des interactions entre les composantes, comme
la rotation. Dans les travaux d’une thèse que j’ai récemment encadré [Barthelemy 2013]
nous avons intégrer des invariances dans la représentation : invariance par translation
temporelle et invariance par rotation (pour les signaux de mouvement). L’invariance est une
caractéristique essentielle d’une bonne représentation, notamment pour des tâches plus
hauts niveau comme la classification (cf travaux de S. Mallat sur la Scattering Transform).
En ajoutant des degrés de liberté supplémentaire, nous avons montré que chaque noyau est
potentiellement démultiplié en une famille d'atomes, translatés à tous les échantillons,
tournés dans toutes les orientations, etc. pour engendrer un dictionnaire d'atomes très
redondant. Les méthodes de décomposition et d'apprentissage de dictionnaire proposés sont
adaptées à ces modèles. Dans le cas de l'invariance par rotation 2D et 3D, nous avons
constaté l'efficacité de l'approche non-orientée sur celle orientée, même dans le cas où les
données ne sont pas tournées. En effet, le modèle non-orienté permet de détecter les
invariants des données et assure la robustesse à la rotation quand les données
tournent.Nous avons constaté également aussi la reproductibilité des décompositions
parcimonieuses sur un dictionnaire appris. Dans le cas de l'invariance par translation, des
vecteurs de caractéristiques sont extraits des décompositions grâce à des fonctions de
groupement consistantes par translation. La classification résultante fut prouvée robuste à la
translation des signaux. Cette thèse a ouvert de multiples perspectives et a donné lieu à de
multiples validations scientifiques en revues et conférences [Barthelemy 2014, 2013a, b,c]
Nous allons donc dans le contexte « mammifères marins » utiliser les composantes
apprises dans la première étape pour représenter chaque signal de la base de données. La
représentation parcimonieuse résultante aura plusieurs avantages [Barthelemy 2013]:
Représenter optimale et adaptative chaque signal ; notamment, elle permet de réduire la
taille des données, en ne gardant que l'information utile et ce, de manière condensée ; elle
permet d’améliorer l’interprétation du données étudiées vu que chaque signal est représenté
par un composition adapte des l’éléments du dictionnaire (évidemment cette aspect porte a
une présentation plus informative du donnes pour un utilisateur), [Barthelemy et al 2013,
2012]. Pour cela on souhaite développer une méthodologie basée conjointement sur la
représentation parcimonieuse du données (avec contraints de régularisation en norme L0 et
L1 pour assurer la parcimonie) et d'apprentissage de dictionnaire adapte à ce contexte. Dans
ce dernier aspect, le cas d'invariance par translation et par rotation des signaux, proposé
dans [Barthelemy2013, Barthelemy et al. 2014], devra être adapté aux données et au
contexte [Barthelemy2013].
Une piste supplémentaire envisagée sera de développer la méthode proposée pour un
dictionnaire qui sera variable dans le temps comme dans le cas d’acquisitions continues en
un contexte opérative. Cette méthodologie basée sur les derniers algorithmes de machine
Learning pourrait être aussi adaptée à la détection, classification et représentation des autres
sources d’opportunités dans le milieu marine (e.g. bateau).
4
III.
Références
[Barthelemy et al. 2014] BARTHELEMY Q., LARUE A. and MARS J.I., 2014, About QLMS
Derivations, IEEE Signal Processing Letters, Vol. 21, 2, pp 240-243
[Barthelemy et al. 2013a] BARTHELEMY Q., LARUE A. and MARS J.I., 2013,
Decomposition and Dictionary Learning for 3D Trajectories, Signal Processing, Vol.
98, pp 423-437.
[Barthelemy2013b], BARTHELEMY Q., 2013, Représentations parcimonieuses pour les
signaux multivariés, Thèse de l’Université de Grenoble, Mai 2013.
[Barthelemy et al 2013c], BARTHELEMY Q., GOUY-PAILLER C., ISAAC Y., SOULOUMIAC
A., LARUE A. and MARS J.I., 2013, Multivariate temporal dictionary learning for EEG,
Journal of Neurosciences Methods, Vol. 215, Issue 1, pp 19-28.
[Barthelemy et al 2012], BARTHELEMY Q., LARUE A., MAYOUE A., MERCIER D. and
MARS J.I., 2012, Shift & 2D Rotation Invariant Sparse coding for multivariate signals,
IEEE Trans. Signal Processing, 60 ( 2012), 4, 1597-1611.
[Bonnel 2010], BONNEL J., Analyse de la dispersion acoustique UBF (0-150 Hz) pour la
surveillance et la caractérisation du milieu marin. Thèse de l’INP-Grenoble, Oct
2010.
[Dadouchi et al 2013], DADOUCHI F., GERVAISE C., IOANA C., HUILLERY J. and MARS
J.I., 2013, Automated segmentation of linear time-frequency representation of marine
mammal sounds, The Journal of the Acoustical Society of America, Vol. 134 (1), pp
77-87.
[Ioana et al 2010] C. IOANA, A. JARROT, C. GERVAISE, Y. STÉPHAN, A. QUINQUIS,
"Localization in underwater dispersive channels using the time-frequency-phase
continuity of signals". IEEE Trans. Signal Processing, 58 (2010) 4093-4107.
[Song et al 2014] B. SONG, J. LI, M. DALLA MURA, P. LI, A. PLAZA, J. BIOUCAS-DIAS, J.
A. BENEDIKTSSON, and J. CHANUSSOT, “Remotely sensed image classification
using sparse representations of morphological attribute profiles,” Geoscience and
Remote Sensing, IEEE Transactions on, accepted.
5