Approches `Deep Learning`

Transcription

Approches `Deep Learning`
Proposition de Stage de Recherche
Master 2e année - 2014-2015
Titre du sujet de stage : Approches “Deep Learning” appliquées aux représentations mentales de la
musique
Domaine : Apprentissage Automatique ; réseaux de neurones profonds
Thématique : nouveau champs du MIIR : Music Imagery Information Retrieval
Mots clés : deep learning ; électro-encéphalogrammes ; neural decoding
Lieu du stage : IRIT, Université Toulouse III - Paul Sabatier, 118 Route de Narbonne, 31062
Toulouse
Contact :
Thomas Pellegrini, [email protected],
François Malgouyres, [email protected]
Description
Le domaine du décodage de l’activité cérébrale (“neural decoding”) est en plein essor. Des études
récentes ont montré qu’il est possible de reconstituer un stimulus de parole ou un stimulus visuel
(une vidéo) à partir d’enregistrements de l’activité cérébrale obtenus par résonance magnétique
nucléaire ou par électro-encéphalographie ou similaire [1,2]. En ce qui concerne la musique, peu
d’études existent. Il s’agit d’un champ de recherche émergent appelé Music Imagery Information
Retrieval [3]. Dans [4], Schaefer et al. ont réussi à identifier un stimulus musical parmi un total de
7 stimuli avec 70% de réussite à partir d’un électro-encéphalogramme (EEG). Dans [5], Stober et al.
ont identifié des rythmes africains et occidentaux imaginés par des sujets, à l’aide de techniques de
deep learning appliquées aux EEGs.
Dans ce stage, nous proposons plusieurs pistes de recherche, qu’il faudra choisir au cours du stage,
en fonction des préférences de l’étudiant (profil plus traitement du signal ou plus apprentissage) :
1) Le système d'enregistrement des EEGs comporte plus d'une dizaine d'électrodes et chaque
électrode capte un signal forme d'onde (waveform). Se pose la question de quelle
représentation de ces formes d'onde choisir (spectrogramme, paramètres, etc.)
2) Comme les approches de deep learning consistent à ce qu’un réseau de neurones génère ses
propres représentations des données de manière non-linéaire, il devient difficile de savoir ce
qu’un réseau profond apprend vraiment des données. Une piste de travail serait de trouver
une représentation pertinente de ce qui est appris dans le cas des EEGs, à la manière de ce
qui est fait en vision par ordinateur en visualisant les poids associés à chaque neurone caché
sous forme d’image élémentaire.
3) Une approche récente très prometteuse [6] consiste à mettre en compétition deux réseaux, un
modèle “faussaire” qui génère des données aussi proches que possible des données réelles
pour tromper un modèle discriminant qui classifie les données fournies par l’usurpateur
comme étant réelles ou provenant d’un modèle. Un cycle itératif permet d’obtenir in fine à la
fois un modèle générateur et un classifieur de très bonne qualité. Cette approche pourra être
appliquée à nos tâches de MIIR.
L’une ou l’autre de ces pistes sera mise en pratique sur des EEGs obtenus à partir de 12 stimuli
musicaux (musique de Star Wars, de Harry Potter, chansons avec parole ou sans, etc). Des tâches de
classification seront envisagées : détecter la présence de chant dans les stimulis (le chant active des
aires neuronales du langage et donc il est attendu que des différences soient observées en termes
d’activité neuronale selon la présence ou non de paroles dans la musique), détecter les émotions
ressenties associées à une musique, ou encore tenter d’identifier la mesure d’une musique (mesure à
quatre temps, trois temps, etc).
Les données EEGs seront gracieusement fournies par Sebastian Stober, de l’institut Brain and Mind
de l’Université Western Ontario.
Si le stage avance bien, nous visons la soumission d’un article à une conférence du domaine
(ISMIR ou Audio Mostly par exemple).
Détails techniques
Un fort intérêt pour les techniques d’apprentissage automatique et les réseaux de neurones en
particulier est nécessaire pour ce stage. Un intérêt pour la musique est aussi un plus. Beaucoup de
ressources sont déjà disponibles en Python, qui sera vraisemblablement le langage privilégié pour
ce stage.
Bibliographie générale
[1] B. N. Pasley, S. V. David, N. Mesgarani, A. Flinker, S. A. Shamma, N. E. Crone, R. T. Knight,
and E. F. Chang. Reconstructing speech from human auditory cortex. PLoS Biol, 10(1):e1001251,
01 2012
[2] S. Nishimoto, A.T. Vu, T. Naselaris, Y. Benjamini, B. Yu, and J.L. Gallant, Reconstructing
Visual Experiences from Brain Activity Evoked by Natural Movies, in Current Biology, 21(19),
2011
[3] S. Stober and J. Thompson, Music imagery information retrieval: Bringing the song on your
mind back to your ears, in Proc. of the 13th International Conference on Music Information
Retrieval (ISMIR), 2012, Porto
[4] R. S. Schaefer, Y. Blokland, J. Farquhar, and P. Desain. Single trial classification of perceived
and imagined music from EEG. In Berlin BCI Workshop, 2009
[5] S. Stober, D.J. Cameron, J.A. Grahn, Does the beat go on?: identifying rhythms from brain
waves recorded after their auditory presentation, in Proc. Audio Mostly, 2014, Aalborg
[6] I.J. Goodfellow et al,
http://arxiv.org/abs/1406.2661
Generative
Adversarial
Networks,
(submitted)
URL:
[English version]
Master thesis title: “Deep Learning” approaches applied to mental representations of Music
Related fields: Machine Learning; (Deep) Neural networks
Topic: Music Imagery Information Retrieval
Keywords: deep learning ; electroencephalograms ; neural decoding
Lieu du stage : IRIT, Université Toulouse III - Paul Sabatier, 118 Route de Narbonne, 31062
Toulouse
Contact : Thomas Pellegrini, [email protected]
Description
The field of decoding brain activity ("neural decoding") is gaining momentum these years. Recent
studies have shown that it is possible to reconstruct an audio stimulus (speech) or a visual stimulus
(video) from recordings of the brain activity obtained by nuclear magnetic resonance or by
electroencephalography or similar [1, 2]. Regarding music applications, only a few studies exist.
This is an emerging field of research called by S. Stober et al. “Music Imagery Information
Retrieval” [3]. In [4], Schaefer et al. were able to discriminate between musical stimuli with 70%
success from electroencephalograms (EEGs). In [5], Stober et al. identified African and Western
rhythms as imaginated by subjects just after listening to them, by using deep learning techniques
feeded with EEGs as input data.
In this Master thesis, we propose to further explore deep learning approaches (deep neural
networks) for MIIR applications. We would like to work on two main research directions, one of
them to be choosen at the beginning of the thesis, depending on the student preferences:
1) In deep learning approaches, a neural network generates its own data representations in a
non-linear manner. Thus, it becomes difficult to know what a network really learns from the
data. Work to do would be to find appropriate representations of what is learned in the case
of EEGs, in the manner of what is done in computer vision, where the weights associated
with each hidden neuron are plotted to obtain elementary pattern figures.
2) A recent and very promising approach [6] consists in building two competing networks, a
"forger" that generates data as close as real data as possible, and a discriminant model,
which classifies the data provided by the forger as real data or falsified data. An iterative
cycle allows to ultimately obtain both a generative and a classifier models of good quality.
This approach could be applied to MIIR tasks.
One of these research directions will be put into practice on EEGs obtained from 12 musical stimuli
(including tunes from Star Wars, Harry Potter, songs with and without lyrics, etc). The following
classification tasks could be considered: detection of singing in the tunes (singing activates neural
areas of language), discrimination of emotions associated with music perception, identification
music meters (four time or three time measures for instance). EEG data will be courtesy of
Sebastian Stober, from the Brain and Mind Institute, University of Western Ontario.
If possible, we will aim to submit an article to a conference of the domain (ISMIR or Audio Mostly
for example).