1 - Département informatique de l`ENS Cachan

Transcription

1 - Département informatique de l`ENS Cachan
Projet SIMBALS
musical SIMilarity Between Audio signaLS
http://simbals.labri.fr
[email protected]
Pierre HANNA
LaBRI
Université de Bordeaux 1
France
Simbals – p.1/22
Bases de données audio/musicales
De plus en plus de documents audio/musicaux disponibles:
mobiles, internet, . . .
sortie de 10000 albums chaque année
100000 demandes de copyright chaque année
distribution de la musique en ligne : marché en pleine croissance
la musique est le type de demande la plus populaire sur le web
différents formats : audio, partition, vidéo, etc. . .
Communautés liées à la musique (myspace, . . . )
Simbals – p.2/22
Problématiques
Actuellement:
Recherche par le nom de l’interprète ou du morceau
Besoin de proposer de nouvelles méthodes de navigation
Communauté de recherche Music Information Retrieval
Existant
Shazam/IPhone
Recommandations par goûts communs (lastfm)
Reposent sur le développement de méthodes d’estimation de la similarité
musicale
Simbals – p.3/22
Similarité musicale
Problème complexe
interprète
compositeur
morceau (reprise)
style, genre (rock, blues)
humeur (gai, triste)
rythme
mélodie
harmonie
timbre
Simbals – p.4/22
Évaluation de la similarité musicale
Problème transdisciplinaire
Musique (Conservatoire)
Traitement du Signal
Informatique (algorithmique du texte)
Compétences au LaBRI : projet inter-équipe
Comparaison basée sur le contenu
Description du son musical
Comparaison d’informations musicales
Simbals – p.5/22
Analyse du son numérique
Son numérique
Transformée de Fourier discrète à court terme
4
x 10
30
2
20
10
0
1.5
Frequency
−10
−20
1
−30
−40
−50
0.5
−60
−70
0
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
Time
Simbals – p.6/22
Description musicale
Représentation temporelle ou spectrale d’un son
Beaucoup d’information
mais peu informative
Réduction du signal
sur un seul réel (par ex. volume)
sur quelques réels (par ex. histogrammes)
Descripteurs (features) haut/bas niveau
Simbals – p.7/22
Descripteurs sonores
Classification d’un morceau de musique en rock
Présence de certains instruments
Batterie
Guitare électrique
Présence de voix chantée (hurlée ?)
Harmonie simple
Paroles sur la drogue, la révolution, la jeunesse, . . .
Production : compression, effets type chorus/flanger, . . .
Descripteurs haut-niveau
Simbals – p.8/22
Descripteurs sonores
haut-niveau
ont du sens
sont présents dans le signal
très durs à analyser automatiquement
recherche de descripteurs pour estimer des descripteurs. . .
bas-niveau
simples à claculer
plus difficiles à faire le lien avec le sens musical
peut être utilisé par moteurs statistiques
Simbals – p.9/22
Estimation d’informations musicales
Contexte tonal local
Energy
1
0
C
C#
D
D#
E
F
F#
Notes
G
G#
A
A#
B
1/4
1/6
1/8
Descripteur de la métrique
Meter Class Profile
amplitude
0.4
0.3
0.2
0.1
0
11
9
7
5
4
3
2
1/2
1/3
1/12
beat multiple/subdivision
Descripteur du timbre
MFCC, rugosité, centroïde spectral, . . .
Simbals – p.10/22
Structuration d’informations musicales
Séquences de descripteurs
Séquences d’ensembles de descripteurs
Structures arborescentes de descripteurs
Simbals – p.11/22
Comparaison de données structurées
Simbals – p.12/22
Alignement de séquences
Descripteur musicaux symboliques and ADN : vocabulaire limité
Algorithmes d’édition : [Needleman & Wunsch 70] (protéines), [Wagner &
Fisher 74] (texte), [Mongeau & Sankoff 90] (musique)
Idée principale:
instrumentiste peut jouer des fausses notes
prendre en compte toutes les erreurs
Calcul du coût nécessaire pour transformer un morceau en un autre
Le coût minimal correspond à la plus forte similarité
Simbals – p.13/22
Distance d’édition : exemple
distance(APPLIED,PRINCE) ?
chaîne 1 s
A
P
P
L
I
_
_
E
D
chaîne 2 t
_
P
R
_
I
N
C
E
_
opération
D
M
S
D
M
I
I
M
D
9 opérations d’édition
Insertion (I)
Deletion (D)
Matching (M)
Substitution (S)
Simbals – p.14/22
Alignement local
Programmation dynamique
Détermine la région de meilleure correspondance entre deux séquences
Sorties:
qualité de l’alignement =⇒ score
positions correspondantes
Un score associé à chaque opération
Par exemple:
Deletion/Insertion: −2
Substitution: −1
Matching: 1
Pas de score négatif
Simbals – p.15/22
Traceback
_
P
R
I
N
C
E
S
S
_
R
I
C
E
Simbals – p.16/22
Traceback
_
P
R
I
N
C
E
S
S
_
0
0
0
0
0
0
0
0
0
R
0
I
0
C
0
E
0
Suppression/Insertion: −2
Pas de score négatif
Simbals – p.16/22
Traceback
M[i, j]
_
P
R
I
N
C
E
S
S
_
0
0
0
0
0
0
0
0
0
R
0
0
1
0
0
0
0
0
0
I
0
0
0
2
0
0
0
0
0
C
0
0
0
0
1
1
0
0
0
E
0
0
0
0
0
0
2
0
0
= max
0
M[i − 1, j] − 2
M[i, j − 1] − 2
M[i − 1, j − 1] + match(string1[i], string2[ j])
Simbals – p.16/22
Traceback
_
P
R
I
N
C
E
S
S
_
0
0
0
0
0
0
0
0
0
R
0
0
1
0
0
0
0
0
0
I
0
0
0
2
0
0
0
0
0
C
0
0
0
0
1
1
0
0
0
E
0
0
0
0
0
0
2
0
0
=⇒ scores maximum : 2
=⇒ 2 alignements avec ce score
Simbals – p.16/22
Traceback
_
P
R
I
N
C
E
S
S
_
0
0
0
0
0
0
0
0
0
R
0
0
1
0
0
0
0
0
0
I
0
0
0
2
0
0
0
0
0
C
0
0
0
0
1
1
0
0
0
E
0
0
0
0
0
0
2
0
0
Retrouver le meilleur alignement local correspondant au score maximum:
P
R
I
R
I
N
C
E
S
S
Simbals – p.16/22
Traceback
_
P
R
I
N
C
E
S
S
_
0
0
0
0
0
0
0
0
0
R
0
0
1
0
0
0
0
0
0
I
0
0
0
2
0
0
0
0
0
C
0
0
0
0
1
1
0
0
0
E
0
0
0
0
0
0
2
0
0
Dans le cas de plusieurs alignements, considérer l’alignement local
correspondant à la plus longue séquence:
P
R
I
N
C
E
R
I
_
C
E
S
S
Simbals – p.16/22
Similarité mélodique
Exemples de difficultés de la similarité mélodique
Réglages des scores de substitution par rapport à la théorie musicale
Erreurs d’analyse
Variations musicales
Transpositions locales
Notes plus importantes que d’autres (notes tonales, temps forts, . . . )
Problèmes de l’évaluation (MIREX)
Simbals – p.17/22
Application : détection de reprises
Similarité harmonique : application à la recherche de reprises/versions
Morceau original
Version différente
Reprise 1
Reprise 2
Reprise 3
Reprise 4
Détection de plagiats
Exemple : Bright Tunes Music v. Harrisongs Music (1976)
He’s So Fine (Ronald Mack) / My Sweet Lord (George Harrison)
Simbals – p.18/22
Application : QBH/QBT
Requête audio
Chantonnement (original)
motif rythmique
Extraction données musicales (onset, pitch)
Estimation de la similarité (base de données)
Évaluation MIREX
Évaluation méthodes de détection/estimation audio
Simbals – p.19/22
Application : visualisation
notes →
A
50
100
150
B
200
A’
250
300
a
1
a
1
50
a
1
a
2
100
a
2
b
← notes
1
150
b
1
b2
200
b
2
250
a
1
a 300
2
Matrice d’auto-similarité de la partie Menuet de Water Music Suite No.1 in F (Haendel).
Simbals – p.20/22
Application : structure musicale
Inférence de structures, Recherche de répétitions
approximatives/exactes
chevauchantes/non
critères : plus longues, plus nombreuses, . . .
Application à la détection de couplets/refrains
Comparaison basée sur les propriétés structurelles (alignement motifs 2D)
Simbals – p.21/22
Perspectives
Indexation, compression de données structurées
Résumés automatiques
Passage à l’échelle (par exemple implémentation GPU)
Applications :
Moteurs de recherche audio/musique
Systèmes de recommandation
Alignement audio/symbolique
Pédagogie instrumentale, jeux musicaux
Synthèse
Écoute active
Écoute augmentée
Simbals – p.22/22