1 - Département informatique de l`ENS Cachan
Transcription
1 - Département informatique de l`ENS Cachan
Projet SIMBALS musical SIMilarity Between Audio signaLS http://simbals.labri.fr [email protected] Pierre HANNA LaBRI Université de Bordeaux 1 France Simbals – p.1/22 Bases de données audio/musicales De plus en plus de documents audio/musicaux disponibles: mobiles, internet, . . . sortie de 10000 albums chaque année 100000 demandes de copyright chaque année distribution de la musique en ligne : marché en pleine croissance la musique est le type de demande la plus populaire sur le web différents formats : audio, partition, vidéo, etc. . . Communautés liées à la musique (myspace, . . . ) Simbals – p.2/22 Problématiques Actuellement: Recherche par le nom de l’interprète ou du morceau Besoin de proposer de nouvelles méthodes de navigation Communauté de recherche Music Information Retrieval Existant Shazam/IPhone Recommandations par goûts communs (lastfm) Reposent sur le développement de méthodes d’estimation de la similarité musicale Simbals – p.3/22 Similarité musicale Problème complexe interprète compositeur morceau (reprise) style, genre (rock, blues) humeur (gai, triste) rythme mélodie harmonie timbre Simbals – p.4/22 Évaluation de la similarité musicale Problème transdisciplinaire Musique (Conservatoire) Traitement du Signal Informatique (algorithmique du texte) Compétences au LaBRI : projet inter-équipe Comparaison basée sur le contenu Description du son musical Comparaison d’informations musicales Simbals – p.5/22 Analyse du son numérique Son numérique Transformée de Fourier discrète à court terme 4 x 10 30 2 20 10 0 1.5 Frequency −10 −20 1 −30 −40 −50 0.5 −60 −70 0 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 Time Simbals – p.6/22 Description musicale Représentation temporelle ou spectrale d’un son Beaucoup d’information mais peu informative Réduction du signal sur un seul réel (par ex. volume) sur quelques réels (par ex. histogrammes) Descripteurs (features) haut/bas niveau Simbals – p.7/22 Descripteurs sonores Classification d’un morceau de musique en rock Présence de certains instruments Batterie Guitare électrique Présence de voix chantée (hurlée ?) Harmonie simple Paroles sur la drogue, la révolution, la jeunesse, . . . Production : compression, effets type chorus/flanger, . . . Descripteurs haut-niveau Simbals – p.8/22 Descripteurs sonores haut-niveau ont du sens sont présents dans le signal très durs à analyser automatiquement recherche de descripteurs pour estimer des descripteurs. . . bas-niveau simples à claculer plus difficiles à faire le lien avec le sens musical peut être utilisé par moteurs statistiques Simbals – p.9/22 Estimation d’informations musicales Contexte tonal local Energy 1 0 C C# D D# E F F# Notes G G# A A# B 1/4 1/6 1/8 Descripteur de la métrique Meter Class Profile amplitude 0.4 0.3 0.2 0.1 0 11 9 7 5 4 3 2 1/2 1/3 1/12 beat multiple/subdivision Descripteur du timbre MFCC, rugosité, centroïde spectral, . . . Simbals – p.10/22 Structuration d’informations musicales Séquences de descripteurs Séquences d’ensembles de descripteurs Structures arborescentes de descripteurs Simbals – p.11/22 Comparaison de données structurées Simbals – p.12/22 Alignement de séquences Descripteur musicaux symboliques and ADN : vocabulaire limité Algorithmes d’édition : [Needleman & Wunsch 70] (protéines), [Wagner & Fisher 74] (texte), [Mongeau & Sankoff 90] (musique) Idée principale: instrumentiste peut jouer des fausses notes prendre en compte toutes les erreurs Calcul du coût nécessaire pour transformer un morceau en un autre Le coût minimal correspond à la plus forte similarité Simbals – p.13/22 Distance d’édition : exemple distance(APPLIED,PRINCE) ? chaîne 1 s A P P L I _ _ E D chaîne 2 t _ P R _ I N C E _ opération D M S D M I I M D 9 opérations d’édition Insertion (I) Deletion (D) Matching (M) Substitution (S) Simbals – p.14/22 Alignement local Programmation dynamique Détermine la région de meilleure correspondance entre deux séquences Sorties: qualité de l’alignement =⇒ score positions correspondantes Un score associé à chaque opération Par exemple: Deletion/Insertion: −2 Substitution: −1 Matching: 1 Pas de score négatif Simbals – p.15/22 Traceback _ P R I N C E S S _ R I C E Simbals – p.16/22 Traceback _ P R I N C E S S _ 0 0 0 0 0 0 0 0 0 R 0 I 0 C 0 E 0 Suppression/Insertion: −2 Pas de score négatif Simbals – p.16/22 Traceback M[i, j] _ P R I N C E S S _ 0 0 0 0 0 0 0 0 0 R 0 0 1 0 0 0 0 0 0 I 0 0 0 2 0 0 0 0 0 C 0 0 0 0 1 1 0 0 0 E 0 0 0 0 0 0 2 0 0 = max 0 M[i − 1, j] − 2 M[i, j − 1] − 2 M[i − 1, j − 1] + match(string1[i], string2[ j]) Simbals – p.16/22 Traceback _ P R I N C E S S _ 0 0 0 0 0 0 0 0 0 R 0 0 1 0 0 0 0 0 0 I 0 0 0 2 0 0 0 0 0 C 0 0 0 0 1 1 0 0 0 E 0 0 0 0 0 0 2 0 0 =⇒ scores maximum : 2 =⇒ 2 alignements avec ce score Simbals – p.16/22 Traceback _ P R I N C E S S _ 0 0 0 0 0 0 0 0 0 R 0 0 1 0 0 0 0 0 0 I 0 0 0 2 0 0 0 0 0 C 0 0 0 0 1 1 0 0 0 E 0 0 0 0 0 0 2 0 0 Retrouver le meilleur alignement local correspondant au score maximum: P R I R I N C E S S Simbals – p.16/22 Traceback _ P R I N C E S S _ 0 0 0 0 0 0 0 0 0 R 0 0 1 0 0 0 0 0 0 I 0 0 0 2 0 0 0 0 0 C 0 0 0 0 1 1 0 0 0 E 0 0 0 0 0 0 2 0 0 Dans le cas de plusieurs alignements, considérer l’alignement local correspondant à la plus longue séquence: P R I N C E R I _ C E S S Simbals – p.16/22 Similarité mélodique Exemples de difficultés de la similarité mélodique Réglages des scores de substitution par rapport à la théorie musicale Erreurs d’analyse Variations musicales Transpositions locales Notes plus importantes que d’autres (notes tonales, temps forts, . . . ) Problèmes de l’évaluation (MIREX) Simbals – p.17/22 Application : détection de reprises Similarité harmonique : application à la recherche de reprises/versions Morceau original Version différente Reprise 1 Reprise 2 Reprise 3 Reprise 4 Détection de plagiats Exemple : Bright Tunes Music v. Harrisongs Music (1976) He’s So Fine (Ronald Mack) / My Sweet Lord (George Harrison) Simbals – p.18/22 Application : QBH/QBT Requête audio Chantonnement (original) motif rythmique Extraction données musicales (onset, pitch) Estimation de la similarité (base de données) Évaluation MIREX Évaluation méthodes de détection/estimation audio Simbals – p.19/22 Application : visualisation notes → A 50 100 150 B 200 A’ 250 300 a 1 a 1 50 a 1 a 2 100 a 2 b ← notes 1 150 b 1 b2 200 b 2 250 a 1 a 300 2 Matrice d’auto-similarité de la partie Menuet de Water Music Suite No.1 in F (Haendel). Simbals – p.20/22 Application : structure musicale Inférence de structures, Recherche de répétitions approximatives/exactes chevauchantes/non critères : plus longues, plus nombreuses, . . . Application à la détection de couplets/refrains Comparaison basée sur les propriétés structurelles (alignement motifs 2D) Simbals – p.21/22 Perspectives Indexation, compression de données structurées Résumés automatiques Passage à l’échelle (par exemple implémentation GPU) Applications : Moteurs de recherche audio/musique Systèmes de recommandation Alignement audio/symbolique Pédagogie instrumentale, jeux musicaux Synthèse Écoute active Écoute augmentée Simbals – p.22/22