ENGLISH VERSION : Title : Classification of acoustic signatures for
Transcription
ENGLISH VERSION : Title : Classification of acoustic signatures for
ENGLISH VERSION : Title: Classification of acoustic signatures for the retrieval of environmental characteristics This PhD will take place at GIPSA-Lab, team SIGMAPHY with a contract with CNRS. PhD supervisor: J.I. Mars, GIPSA-LAB, PhD co-supervisor: M. Dalla Mura, GIPSA-LAB, Scientific team: C. Gervaise Chaire Chorus, A. Larue CEA LIST. The required candidate for this PhD must have a solid background in signal processing, good programming skills (e.g., Matlab) and being able to work in team. A good English proficiency both written and spoken is a prerequisite. In order to apply, interested candidates should send their application (CV, transcript of notes, motivation letter and recommendations letters) to • Jerome Mars: [email protected] (PhD supervisor) • Mauro Dalla Mura: [email protected] (PhD co-supervisor) • Start of the PhD: 1 Sep. 2015 • Duration: 3 years Context, motivations and objectives The increasing number of civil and military operations in coastal environment requires a careful control of the SONAR emissions, due to their effects on the living conditions of marine mammals. Thus, this study aims at developing new methodologies that can ensure the protection of the underwater environment while preserving the effectiveness of the operations. To this end, the DGA and, more in general, the scientific community is particularly interested in developing innovative methods of detection, classification and localization of marine mammals. Indeed, by adequate data processing it is possible to extract multiple information on the coastal zones (e.g., estimation of the parameters of the underwater environment) and on the animals populating those areas (e.g., monitoring animals’ behavior - migration, habitat occupation, ethology, analysis of the movements’ trajectories, environmental sonar). A first study currently in progress [Dadouchi et al 2012] has shown the capability to automatically recognize signatures of marine mammals with a good accuracy from acoustic signals. The method relies on the detection by statistical estimation of the signals timefrequency characteristics. Once detected, it is then possible to retrieve the characteristics waveforms by using two different approaches: i) time warping [Bonnel 2010] and ii) reconstruction time-frequency – phase [Ioana 2010]. The core of this PhD is devoted to develop a classification method based on sparse representations (which is a booming approach in Machine Learning) [Barthelemy et al 2013] for the discrimination of acoustic signals. One of the challenges in processing acoustic signals is to extract the useful information (e.g., the acoustic signature of the mammals). The informative components of the signals often live in subspaces of smaller dimensions (manifolds) and they can be represented parsimoniously, i.e., with little informative components selected from a set of components (i.e., a "dictionary") learned ad hoc. Such parsimonious representation can be subsequently exploited for classification [Song et al 2014]. http://www.gipsa-lab.grenoble-inp.fr/offres/offres_de_theses.php 1 VERSION FRANCAISE Titre : Classification de signature acoustique pour la restitution de paramètres environnementaux. Le travail de thèse se déroulera au GIPSA-LAB, Département Image et Signal dans l’équipe SIGMAPHY, en contrat de thèse avec le CNRS. Directeur de Thèse : J.I. Mars, Co-direction: M. Dalla Mura, GIPSA-LAB, Equipe Scientifique associée: C. Gervaise Chaire Chorus, A. Larue CEA LIST. Pour mener à bien ce projet, il est nécessaire de bénéficier d’une solide formation en traitement du signal et de maitriser la programmation en Matlab, et de montrer de bonnes capacités au travail en équipe. Une bonne connaissance de l’anglais écrit et parlé est un prérequis. Merci de vérifier que les conditions d’accès (paragraphe 4 ci-dessous) sont bien remplies, d’adresser votre dossier de candidature (CV, notes de master, lettre de motivation et courriers de recommandation) à : • Jerome Mars : [email protected] (directeur de thèse) • Mauro Dalla Mura : [email protected] Cette thèse est à pourvoir au 1er septembre 2014. Durée du financement : 3 ans. I. Problématique générale : Contexte, Intérêts et Objectifs Lors des nombreuses études concernant les mammifères marins, les scientifiques ont pu observer les hautes performances des vocalises de mammifères en terme de précision de localisation, portée, robustesse aux perturbations de tout genre (bruit, interférences, Doppler, …), et de langage de communication, etc. Ainsi, Les 130 espèces de cétacés utilisent les sons pour communiquer et percevoir leur environnement, leurs signaux bioacoustiques sont adaptés à leurs évolutions et couvrent une vaste gamme de fréquences (qq Hz à 200 kHz) ainsi qu’une large gamme de formes d’onde. Il est donc naturel de penser que l’étude approfondie de ces vocalises permettrait d’obtenir d’excellente performance de détection, estimation et localisation. Par ailleurs, le nombre de plus en plus important d'opérations militaires en environnement côtier implique une prise en compte judicieuse de l'impact d'émissions SONAR sur la vie des mammifères marins. En conséquence, l'analyse des signaux de mammifères marins permettrait d'obtenir des informations riches en ce qui concerne l'impact des activités militaires sur le comportement des animaux marins. Ainsi, une autre motivation pour cette étude reposerait sur la protection de l’environnement sous-marin tout en préservant l’efficacité des opérations militaires. Et comme nous l’avons annoncé, l’étude des vocalises permettrait également d'avoir une connaissance fine, des environnements côtiers et littoraux. Ainsi la communauté scientifique au sens large est tout particulièrement intéressée à suivre et participer à des méthodes innovantes de détection, classification et localisation de 2 mammifères marins. Les informations extraites, via des traitements et analyses adéquats, souvent très multiples peuvent conduire à des concepts opérationnels très divers (analyse des trajectoires de mammifères, estimation des paramètres du milieu sous-marin, comportement (migrations, occupations des habitats, éthologie, sonar environnemental) etc. Une première étude en cours [Dadouchi et al 2012] a montré la capacité à extraire les signatures des mammifères marins de façon extrêmement satisfaisante et automatique grâce à une étape de détection par estimation statistique du support temps-fréquence des signaux. Cette étape validée, nous permet d’extraire des formes d’onde par deux classes de méthodes (warping temporel [Bonnel 2010], reconstruction temps-fréquence-phase [Ioana 2010]. L’objectif majeur de cette thèse sera de proposer une méthode de classification basée sur les techniques de Machine Learning actuellement en plein essor base sur des représentations parcimonieuses [Song et al 2014]. Un des enjeux est de trouver l'information utile (signature acoustique) au sein d'une masse de données. Cette information utile enfouie dans ces données existant souvent dans des sous-espaces de petites dimensions (variétés) pourra être représentées avec parcimonie, i.e. à l'aide de peu composantes informatives sélectionnées parmi un ensemble de composantes (constituent un « dictionnaire ») apprises ad hoc. II. Programme de Recherche Afin d’aboutir aux objectifs opérationnels présentés dans le paragraphe précèdent, des méthodologies avancées de traitement du signal ont éré mises en place. Nous présentons, dans ce paragraphe, les contraintes traitement du signal à considérer (ou qui doivent être prises en compte) et qui conduiront sans doute à des nouvelles approches dans le domaine du traitement du signal : - En raison du caractère inconnu de la forme d’onde de la vocalise ainsi que de la position inconnue de la source (ie mammifère marin), la méthodologie de traitement sera conçue en contexte entièrement passif. Ceci constitue une contrainte forte car aucune hypothèse n’est autorisée - Etant donnée la diversité de types de signaux (les vocalises peuvent avoir des formes temps-fréquence très variées, généralement transitoires et non-linéaires) la méthodologie d’analyse devra être capable à gérer, via des modèles temps-fréquence généraux, une large gamme des vocalises. La mise en place de ces modèles généraux ainsi que des méthodes de détection, caractérisation et extraction associées sera validé sur des bases de données réelles (thèse de Mr Dadouchi en cours et de Mr Le Bot en cours); - Un effet particulièrement important est celui du mouvement sachant que les mammifères sont des sources mobiles et que ceci se traduit par un mélange entre la modulation source (que nous cherchons à estimer) et l’effet Doppler généralisé. Compte tenu de ce contexte, la méthodologie d’analyse du signal devra être capable de prendre en compte ces effets. Une piste envisageable serait la prise en compte lors de l’étape de conception, des modèles physiques associés aux phénomènes mentionnés ci-dessus (comme préconisé dans la thèse de Mr Josso). Ainsi l’objectif majeur de cette thèse sera de proposer une méthode de classification basée sur les techniques de Machine Learning actuellement en plein essor. Un des enjeux est de d’une part de trouver l'information utile au sein d'une masse de données. Cette information utile enfouie dans ces données existant souvent dans des sous-espaces de 3 petites dimensions (variétés) pourra être représentées avec parcimonie, i.e. à l'aide de peu composantes informatives sélectionnées parmi un ensemble de composantes (constituent un « dictionnaire ») apprises ad hoc. La première étape consistera à extraire sans a priori de la base de données les structures informatives, répétitives et énergétiques par les techniques mises au point au Gispa-lab [Dadouchi et al 2012]. Dans un deuxième temps, le modèle de représentations parcimonieuses appliquées aux signaux multivariés étant plus général que le modèle multicanal, permettra de prendre en compte des interactions entre les composantes, comme la rotation. Dans les travaux d’une thèse que j’ai récemment encadré [Barthelemy 2013] nous avons intégrer des invariances dans la représentation : invariance par translation temporelle et invariance par rotation (pour les signaux de mouvement). L’invariance est une caractéristique essentielle d’une bonne représentation, notamment pour des tâches plus hauts niveau comme la classification (cf travaux de S. Mallat sur la Scattering Transform). En ajoutant des degrés de liberté supplémentaire, nous avons montré que chaque noyau est potentiellement démultiplié en une famille d'atomes, translatés à tous les échantillons, tournés dans toutes les orientations, etc. pour engendrer un dictionnaire d'atomes très redondant. Les méthodes de décomposition et d'apprentissage de dictionnaire proposés sont adaptées à ces modèles. Dans le cas de l'invariance par rotation 2D et 3D, nous avons constaté l'efficacité de l'approche non-orientée sur celle orientée, même dans le cas où les données ne sont pas tournées. En effet, le modèle non-orienté permet de détecter les invariants des données et assure la robustesse à la rotation quand les données tournent.Nous avons constaté également aussi la reproductibilité des décompositions parcimonieuses sur un dictionnaire appris. Dans le cas de l'invariance par translation, des vecteurs de caractéristiques sont extraits des décompositions grâce à des fonctions de groupement consistantes par translation. La classification résultante fut prouvée robuste à la translation des signaux. Cette thèse a ouvert de multiples perspectives et a donné lieu à de multiples validations scientifiques en revues et conférences [Barthelemy 2014, 2013a, b,c] Nous allons donc dans le contexte « mammifères marins » utiliser les composantes apprises dans la première étape pour représenter chaque signal de la base de données. La représentation parcimonieuse résultante aura plusieurs avantages [Barthelemy 2013]: Représenter optimale et adaptative chaque signal ; notamment, elle permet de réduire la taille des données, en ne gardant que l'information utile et ce, de manière condensée ; elle permet d’améliorer l’interprétation du données étudiées vu que chaque signal est représenté par un composition adapte des l’éléments du dictionnaire (évidemment cette aspect porte a une présentation plus informative du donnes pour un utilisateur), [Barthelemy et al 2013, 2012]. Pour cela on souhaite développer une méthodologie basée conjointement sur la représentation parcimonieuse du données (avec contraints de régularisation en norme L0 et L1 pour assurer la parcimonie) et d'apprentissage de dictionnaire adapte à ce contexte. Dans ce dernier aspect, le cas d'invariance par translation et par rotation des signaux, proposé dans [Barthelemy2013, Barthelemy et al. 2014], devra être adapté aux données et au contexte [Barthelemy2013]. Une piste supplémentaire envisagée sera de développer la méthode proposée pour un dictionnaire qui sera variable dans le temps comme dans le cas d’acquisitions continues en un contexte opérative. Cette méthodologie basée sur les derniers algorithmes de machine Learning pourrait être aussi adaptée à la détection, classification et représentation des autres sources d’opportunités dans le milieu marine (e.g. bateau). 4 III. Références [Barthelemy et al. 2014] BARTHELEMY Q., LARUE A. and MARS J.I., 2014, About QLMS Derivations, IEEE Signal Processing Letters, Vol. 21, 2, pp 240-243 [Barthelemy et al. 2013a] BARTHELEMY Q., LARUE A. and MARS J.I., 2013, Decomposition and Dictionary Learning for 3D Trajectories, Signal Processing, Vol. 98, pp 423-437. [Barthelemy2013b], BARTHELEMY Q., 2013, Représentations parcimonieuses pour les signaux multivariés, Thèse de l’Université de Grenoble, Mai 2013. [Barthelemy et al 2013c], BARTHELEMY Q., GOUY-PAILLER C., ISAAC Y., SOULOUMIAC A., LARUE A. and MARS J.I., 2013, Multivariate temporal dictionary learning for EEG, Journal of Neurosciences Methods, Vol. 215, Issue 1, pp 19-28. [Barthelemy et al 2012], BARTHELEMY Q., LARUE A., MAYOUE A., MERCIER D. and MARS J.I., 2012, Shift & 2D Rotation Invariant Sparse coding for multivariate signals, IEEE Trans. Signal Processing, 60 ( 2012), 4, 1597-1611. [Bonnel 2010], BONNEL J., Analyse de la dispersion acoustique UBF (0-150 Hz) pour la surveillance et la caractérisation du milieu marin. Thèse de l’INP-Grenoble, Oct 2010. [Dadouchi et al 2013], DADOUCHI F., GERVAISE C., IOANA C., HUILLERY J. and MARS J.I., 2013, Automated segmentation of linear time-frequency representation of marine mammal sounds, The Journal of the Acoustical Society of America, Vol. 134 (1), pp 77-87. [Ioana et al 2010] C. IOANA, A. JARROT, C. GERVAISE, Y. STÉPHAN, A. QUINQUIS, "Localization in underwater dispersive channels using the time-frequency-phase continuity of signals". IEEE Trans. Signal Processing, 58 (2010) 4093-4107. [Song et al 2014] B. SONG, J. LI, M. DALLA MURA, P. LI, A. PLAZA, J. BIOUCAS-DIAS, J. A. BENEDIKTSSON, and J. CHANUSSOT, “Remotely sensed image classification using sparse representations of morphological attribute profiles,” Geoscience and Remote Sensing, IEEE Transactions on, accepted. 5