annotation de partitions musicales dynamiques
Transcription
annotation de partitions musicales dynamiques
ANNOTATION DE PARTITIONS MUSICALES DYNAMIQUES Y. Chapuis, D. Fober, S. Letz, Y. Orlarey, C. Daudin {chapuis,fober,letz,orlarey,daudin}@grame.fr Grame - Centre national de création musicale Ŕ́ Cet article traite de l’annotation visuelle à main levée de partitions musicales dynamiques : par dynamique, nous entendons la possibilité de recomposer, à la volée, les différents objets graphiques à l’intérieur de la page, ce qui nécessite de représenter les différentes annotations en conséquence. Nous décrivons ici les difficultés rencontrées et les solutions apportées au fil du développement de cet outil dans le cadre du projet européen V 1 . 1. INTRODUCTION Le terme d’annotation renvoie étymologiquement et historiquement à l’acte d’accompagner un texte (que l’on peut comprendre au sens large) de remarques diverses, généralement manuscrites ; plus précisément, ces remarques sont habituellement d’ordre critique, destinées à commenter ou interpréter les passages douteux ou obscurs. Le terme a acquis en musique, à une époque où la pratique et l’analyse musicales étaient essentiellement centrées sur une partition qui ne se voulait — par ailleurs — pas aussi exhaustive qu’aujourd’hui, le sens plus spécifique d’indication complémentaire sur le mouvement, le tempo, les inflexions, etc. L’annotation de partitions musicales papier constitue, de nos jours, une activité encore très répandue aussi bien en situation pédagogique, pour la pratique musicale individuelle ou en ensemble, qu’en situation de composition ou à des fins d’analyse. En outre, on assiste depuis peu à un développement important des possibilités d’annotation électronique de documents dans le domaine informatique, y compris dans le cadre des applications musicales. 1.1. L’annotation de la musique 1.1.1. Annotation de la musique imprimée Parmi les rares études relatives aux situations d’annotation de la partition musicale, les travaux de Megan Winget [6] sur l’observation du comportement des musiciens dans le cadre de leur pratique instrumentale individuelle ou en ensemble ont permis de 1 IST-27952 caractériser chaque annotation reportée sur une partition imprimée par la conjonction d’une première information temporelle (un numéro de mesure), d’une information concernant la nature de l’annotation (symbolique, numérique ou textuelle) et enfin d’une information relative au rôle (général puis particulier) dévolu à l’annotation. L’étude de ces relevés nous enseigne que les pratiques d’annotation dépendent d’un certain nombre de paramètres liés à l’annotateur (son âge, sa formation, son expérience, son instrument) et à la situation d’annotation (travail individuel, petit ensemble, orchestre). Malgré tout, il ressort nettement de ce recensement que : 1. la nature des annotations réalisées est majoritairement symbolique, puis dans une moindre mesure numérique et enfin textuelle ; en outre, dans l’immense majorité des cas, ces annotations peuvent être considérées comme homogènes (ou comme une extension homogène) à la notation musicale ; 2. le rôle assigné à l’annotation est principalement technique/physique (c’est-à-dire représentant des instructions fiables, liées à la physique de l’instrument et permettant de jouer la pièce de façon correcte : respirations, doigtés, etc.), puis contextuel (c’est-à-dire spécifique au contexte de la performance, aux intentions de l’interprète, sa compréhension de la situation et sa formation : on trouve dans cette catégorie les indications de dynamique, de tempo, les phrasés, les mises en évidence de passages difficiles, etc.). En complément, les travaux de Nicolas Donin [2] en situation de préparation à une exécution musicale confirment en grande partie ces observations : les annotations manuelles ont essentiellement pour rôle de prolonger, renforcer ou préciser des éléments de la partition ; elles agissent majoritairement de manière symbolique et à un niveau élémentaire (note, phrase, mesure, etc.) dans le sens du déroulement temporel de la musique : elles possèdent, de fait, une double dimension temporelle, la première s’exprimant dans le temps de la partition, la seconde en tant que témoignage des lectures passées. Ces observations introduisent cependant un type d’annotation, très fréquent en analyse musicologique, opérant non plus uniquement à ce niveau atomique mais de façon transversale entre les différentes voix de la partition, de manière à indiquer des correspondances entre divers groupes d’éléments appartenant au même registre temporel (marquage vertical des relations harmoniques et/ou contrapuntiques, parcours mélodique, etc.). En dépit de la vaste liberté graphique offerte par le dessin manuscrit, l’annotation de partitions musicales imprimées semble donc relever, comme le souligne Megan Winget, d’une forme d’écriture hautement structurée et standardisée ; anticipant les développements actuels liés à l’annotation électronique, elle encourage d’ailleurs les concepteurs d’applications musicales à proposer des fonctionnalités permettant, en priorité, l’annotation des notes et éléments musicaux par le biais du langage musical luimême mais aussi, et par extension, de manipuler les annotations sous une forme essentiellement logique 2 . 1.1.2. Annotation électronique Certains outils pédagogiques ou dédiées à l’analyse musicale offrent la possibilité d’annoter dynamiquement une partition de taille fixe (dont la lecture peut être synchronisée avec un flux audio) par le biais d’un ensemble de formes géométriques prédéfinies, de texte, d’images fixes et de figures à main levée, dont on peut modifier certaines qualités (coordonnées, taille, proportions, couleur, etc.) : citons le module ML-Annotation du logiciel Musique Lab 2 3 développé à l’Ircam ou la plateforme Variations2 4 de l’université de l’Indiana : cette dernière propose, outre un nombre relativement important d’outils graphiques, d’ajouter des labels musicaux sur certaines portions de la partition, la possibilité de connecter les annotations entre elles et des modalités de saisie assez pertinentes. En comparaison, dans le domaine pourtant vaste de la pratique musicale assistée par ordinateur, on ne trouve à l’heure actuelle que quelques exemples de logiciels proposant un assortiment très réduit des fonctionnalités d’annotation décrites ci-dessus, le plus souvent sur une image statique. 1.2. La partition dynamique 1.2.1. Présentation Le contexte qui nous intéresse dans le cadre de cet article est celui d’un système ouvert d’apprentis2 « Music annotation, like musical notation, is highly structured and standardized. Instead of providing stylus functionality where the musician simply "writes" on a screen whatever they want to write, it might be interesting to develop a system architecture that would preserve the annotations in a structured and standardized way for future use » 3 http ://www.ircam.fr/324.html 4 http ://variations2.indiana.edu/ sage instrumental opérant par le biais d’une partition annotée, interactive mais surtout dynamique, c’est-àdire dont certaines caractéristiques de représentation visuelle sont susceptibles d’être modifiées à la volée. 1.2.2. Réalisation d’un outil d’annotation dynamique Dans ce contexte, la réalisation d’un outil d’annotation dynamique nécessite, à la fois, de permettre à l’utilisateur d’écrire sur le contenu de la page avec une souplesse au moins égale à celle dont il disposerait s’il s’agissait de musique imprimée, mais aussi d’être en mesure de pouvoir reproduire les diverses annotations réalisées quelles que soient les options de représentation choisies. D’une part, cette situation originale nous amène à identifier deux difficultés, résultant de la possibilité offerte à l’utilisateur de modifier : 1. la mise en page, c’est-à-dire la distribution des divers éléments du contenu musical dans l’espace de la page tout en conservant leur ordre et leur hiérarchie (cela résulte généralement d’un changement de taille, de zoom, ou d’un ré-agencement manuel) ; 2. le contenu musical lui-même, en procédant par exemple à l’ajout ou à l’extraction de voix de la partition, ou encore en lui adjoignant un certain nombre de représentations visuelles partageant la même métaphore temporelle (figure 1) ; notons que, dans bien des cas, cette modification de contenu peut elle-même entraîner un changement de mise en page. D’autre part, l’étude de ces problèmes fait apparaître la nécessité de dépasser le statut d’objet purement graphique réservé à l’annotation dans l’ensemble des exemples logiciels mentionnés ci-dessus afin de dégager de son information géométrique un ensemble minimal de données logiques de plus haut niveau permettant d’en conserver les qualités sémantiques et, autant que possible, visuelles ou, à défaut, d’en assurer une reproduction satisfaisante. 1.2.3. Problématique Cet article décrit les solutions apportées aux difficultés résultant de la liberté de mise en page et de redéfinition du contenu musical offerte par la partition dynamique, lors du développement d’un outil d’annotation dynamique au sein d’une application pédagogique : il tente de répondre à la nécessité de fournir, pour chaque annotation et sur la base d’une information graphique plus ou moins complexe, la description d’un contexte logique (décrivant le ou les objets annotés), d’un registre d’application temporel et des relations éventuelles avec d’autres objets d’annotation. Figure 1. Deux exemples de dimensionnement et composition d’une même page musicale. Par conséquent on examinera, dans un premier temps, un moyen de catégoriser de façon exhaustive les annotations réalisables sur la page et on proposera, par la suite et pour chacune de ces catégories, une stratégie permettant de résoudre les problèmes soulevés par ce double aspect dynamique ; on tentera enfin d’en déduire un format général de représentation symbolique de l’annotation dynamique. 2. DESCRIPTION DU CONTEXTE 2.1. Composition d’une page dynamique Du point de vue de la composition visuelle, on peut considérer qu’un nombre fini de critères extramusicaux (taille et proportions de la page, lisibilité, etc.) suffit à déterminer l’organisation hiérarchique du contenu musical à l’intérieur de la page (figure 2) : celui-ci se présente comme un ensemble de systèmes constituant un premier niveau logique ; chaque système peut lui-même être subdivisé en un certain nombre, identique d’un système à l’autre, de portées (second niveau logique) ; chaque portée contient une partie de l’information musicale élémentaire (troisième niveau logique : notes, silences, clefs, etc.) regroupée dans le sens de la métaphore temporelle (l’orientation de gauche à droite symbolise le déroulement du temps). Dans notre situation, on propose de restreindre cette situation traditionnelle à l’examen de contenus monodiques (à une seule portée par système) en considérant la possibilité d’attacher à chaque portée un ensemble de représentations graphiques (comme, par exemple, des visualisations objectives du signal sonore) partageant la même métaphore temporelle et représentées dans des proportions visuelles constantes 5 : dans ce cas, chaque représentation peut 5 Dans notre cas, la largeur de chaque représentation est la même que celle de la portée correspondante. Figure 2. Organisation hiérarchique et graphique de la page et registres temporels concernés. donc être vue, en première approximation, comme une portée du même système 6 Nous disposons en outre d’un outil permettant d’identifier chaque élément de cette hiérarchie (qu’il appartienne, encore une fois, à la partition musicale ou aux représentations graphiques annexes) par une information à la fois logique (un type particulier et un registre temporel) et graphique (les coordonnées de son rectangle englobant). 2.2. Contexte technologique Le projet européen V, qui encadre notre étude, propose de tirer partie des fonctionnalités matérielles et logicielles offertes par les interfaces de saisie gestuelle (de type « Tablet PC ») qui permettent toutes, au minimum, le dessin dans un environnement adéquat de figures géométriques par le biais d’un dispo6 Dans ce qui suit, le mot « portée » désignera un objet logique de niveau 2, soit aussi bien une portée de la partition musicale qu’une représentation visuelle ; on utilisera l’appellation « portée musicale » lorsque la distinction est nécessaire. sitif de pointage (souris, stylet) ainsi que leur manipulation. Les solutions développées pour les diverses plateformes reconnaissent généralement comme élément graphique de base toute figure géométrique composée d’un seul trait, c’est-à-dire résultant par exemple d’un geste réalisé sans relever le stylet : ce tracé (ou stroke) est le plus souvent représenté par une structure opaque représentant les données graphiques (sans que celles-ci soient directement accessibles, le type de ces données variant suivant la plate-forme) et d’autre part les coordonnées de son rectangle englobant. On nommera R ce rectangle englobant, repéré par ses coordonnées gauche, haute, droite et basse et notamment les points A(gauche,haut) et C(droite,bas). 3. DESCRIPTION DES CAS D’ANNOTATION Définir une annotation c’est être en mesure d’en décrire la forme et, d’autre part, d’identifier sa signification : dans notre situation, la manipulation d’annotations dynamiques implique donc de pouvoir définir, sur la base de l’information graphique simple exposée ci-dessus, une structure de représentation logique minimale. Or, on peut d’emblée remarquer qu’un grand nombre de symboles couramment utilisés (certains symboles musicaux, les flèches, lettres, chiffres et, a fortiori les mots ou les phrases) nécessitent l’association permanente de plusieurs tracés afin de pouvoir être considérés comme « cohérents » et sont donc, de fait, exclus de cette catégorie de symboles élémentaires. Suivant la complexité des différents systèmes, ce besoin de groupage peut être comblé soit de façon explicite par l’utilisateur (qui précise alors l’ensemble des symboles devant être associés), soit de manière automatique en utilisant des algorithmes de reconnaissance des formes graphiques ou de séquences gestuelles 7 . On sera donc amené, dans un premier temps, à distinguer deux catégories d’annotations : 1. les annotations unitaires, associées à un seul tracé collecté par le dispositif ; 2. les annotations composées, constituées d’un ensemble fini de tracés liés entre eux par une relation logique définie explicitement par l’utilisateur ou de façon automatique. D’autre part, si on se concentre sur la possibilité d’associer à chacune de ces annotations un contexte d’application ainsi qu’un registre temporel, il apparaît nécessaire de préciser cette première catégorisation d’ordre graphique par un examen du recouvrement logique associé aux différents tracés qui les composent ; on distinguera donc par ailleurs : 7 Nous ne décrirons pas ici ces mécanismes de couplage qui dépassent le cadre de notre étude : nous nous bornerons à proposer un format d’annotation qui autorise leur prise en charge. Figure 3. Recouvrements simples et complexes. 1. le recouvrement simple : il associe l’ensemble des événements temporels compris entre deux éléments appartenant à une seule et unique « portée » (portée musicale ou représentation objective) d’un même système et correspond, à la fois, à un seul type d’objet logique et au registre temporel attaché à un seul système ; 2. le recouvrement complexe, c’est-à-dire dont on peut affirmer qu’il concerne (a) au moins deux événements appartenant à des portées différentes à l’exclusion des événements intermédiaires, ou encore (b) l’ensemble des événements représentés sur plusieurs portées ou systèmes consécutifs (figure 3). On verra, qu’au final, toutes les catégories d’annotations envisageables peuvent être abordées sous l’angle de la composition logique d’annotations unitaires correspondant chacune à un recouvrement simple (AUS) : on s’attachera donc, dans un premier temps, à proposer un format unique d’annotation décrivant de façon précise : 1. son contexte, c’est-à-dire la portée (objet de niveau 2) unique associée à l’annotation ; 2. son registre temporel, c’est-à-dire les dates de début et fin entre lesquelles l’annotation s’applique au sein de ce contexte ; 3. les données graphiques (correspondant à un recouvrement simple) associées. Nous nous intéresserons ensuite à la manière de composer ces annotations (de façon manuelle ou au- tomatique) en définissant la notion de groupe d’annotations (GA) sous la forme : 1. d’une liste ordonnée d’AUS ; 2. de la description de la relation logique que ces AUS entretiennent entre elles. 4. EXAMEN DES DONNÉES GRAPHIQUES Figure 4. Exemples de tracés pour lesquels la portée la plus proche n’est pas celle qui correspond aux événements manifestement concernés (encadrés). 4.1. Description des problèmes Dans un premier temps, la description de l’annotation se heurte à la difficulté d’associer chaque tracé collecté à l’une des catégories de recouvrement établies ci-dessus, de façon automatique et satisfaisante, en se basant sur la seule information fournie par les coordonnées de son rectangle englobant. Une fois déterminée cette catégorie, il faut être en mesure d’identifier de façon précise d’une part les objets, puis les événements temporels concernés par ce recouvrement et enfin les liaisons logiques entre ces différents objets. Enfin, il faut décider d’une stratégie de représentation visuelle des données graphiques par rapport à chacun des problèmes résultant de la modification dynamique de la mise en page (mise en page et modification du contenu) exposés plus haut. 4.2. Discrimination des catégories de tracés Nous décrivons ici trois approches, réalisées empiriquement, ayant pour but d’identifier de manière systématique et non-ambiguë la nature du recouvrement mis en oeuvre par une annotation et, d’autre part, les éléments concernés, grâce à l’analyse du tracé. ces cas d’ambiguïté : dans ce cas, on postulera donc, grossièrement, que le système n’est pas en mesure d’analyser des situations de ce type de façon correcte en raison de la mauvaise qualité de l’environnement d’annotation offert à l’utilisateur 8 et que, par conséquent il n’est opérant qu’à la condition d’offrir à l’utilisateur la latitude d’annoter avec précision un élément particulier du contenu musical dans l’espace de la page, de manière lisible et sans « déborder » sur des éléments qui, manifestement, ne sont pas concernés ; on remarquera que cette précision (qui, en soit, est difficilement quantifiable) dépend en grande partie de l’agencement des objets entre eux, de leur espacement, de leur taille, de leur lisibilité, c’est-à-dire de la mise en page. En première approximation, on pourra considérer que cet environnement est « acceptable » lorsqu’il offre un espacement « suffisant » (de l’ordre de la hauteur d’une portée) entre les divers éléments logiques de niveau 2. Dans ces conditions, l’examen des positions respectives des points A et C (définis en 2.2) permet d’établir une séparation acceptable des différents situations en deux sous-ensembles de cas apparemment triviaux : 1. la portée la plus proche de A et de C est la même : on peut considérer sans trop d’ambiguïté 9 que ce tracé correspond à un recouvrement simple concernant un couple d’événements appartenant à celle-ci ; 4.2.1. Approche graphique On rappelle que le tracé considéré ainsi que les différentes portées de la page sont identifiés par leur rectangle englobant respectif. L’approche suivante se fonde sur l’hypothèse qu’il est possible de déterminer la nature du recouvrement associé à un tracé par une étude de la proximité relative de ces différents rectangles (calcul de distances, intersections, etc.) : notamment, la portée concernée par un recouvrement simple pourra être identifiée par le fait que son rectangle englobant est « le plus proche » de celui du tracé. L’examen pratique de cette hypothèse suscite une première remarque : dans certaines situations de mise en page courantes, on peut rapidement aboutir à des cas d’annotation simples qui, quelle que soit la méthode de calcul, contredisent objectivement cette hypothèse (figure 4). On peut alors être tenté, soit d’infirmer purement et simplement cette hypothèse, soit de la compléter par une seconde condition permettant d’éviter 2. A et C sont respectivement proches des rectangles englobants de deux portées différentes (pas forcément consécutives temporellement) et R possède au moins une intersection avec l’un des rectangles considérés : il semble s’agir d’un cas de recouvrement complexe (figure 5) ; En contrepartie, cette démarche met aussi en lumière un dernier sous-ensemble de cas qui restent ambigus et difficilement décidables sur la base de cette information : 3. A et C sont respectivement proches des rectangles englobant deux portées différentes mais R ne possède aucune intersection avec l’un de ces rectangles : A et C sont localisés « entre » 8 9 Ici, un espacement trop faible entre les diverses portées. En raison de l’hypothèse sur la qualité exprimée ci-dessus. Figure 5. Détection de recouvrements simples (1), complexes (2) et des cas ambigus (3) par l’approche graphique. Pour l’étude des cas-limite, observer respectivement les situations a et b, c et d, puis d et e. deux portées correspondant ou non à des registres temporels différents, c’est-à-dire situés respectivement de part et d’autre de la ligne médiane aux rectangles englobants considérés (figure 6). Cette catégorisation entraîne deux remarques : a) l’examen intuitif des cas-limite (entre ces catégories) conduit le plus souvent à considérer ceux-ci comme similaires voire globalement équivalents, au contraire de la discrimination sur des critères purement arithmétiques proposée ici, qui se révèle, elle, un peu trop rigoureuse, voire arbitraire ; b) en raison de la liberté graphique concédée à l’utilisateur par le dispositif d’annotation et malgré l’hypothèse contextuelle énoncée ci-dessus, on constate encore empiriquement que cette catégorisation conduit dans certains cas à des résultats manifestement faux ou, en tous cas, contraires à l’intention avouée de l’utilisateur. On peut tenter de pallier cette première difficulté en choisissant de compléter le processus de décision par une définition plus précise de l’indicateur de proximité, c’est-à-dire en opérant une comparaison quantitative plus fine des distances calculées : si on pose, par exemple, a et c ces distances, h la demihauteur entre les portées, la comparaison respective des rapports a/h et c/h avec des seuils quantitatifs de proximité (établis par ailleurs) permet d’opérer une analyse plus détaillée des diverses situations qui peuvent se présenter et, de fait, de proposer une stratégie de décision systématique permettant de lever certains des cas d’ambiguïté (figure 7). Dans la pratique, on constate cependant que le désir — légitime — de mettre en oeuvre une stratégie de ce type de façon toujours plus efficace conduit à définir des seuils de plus en plus nombreux et aboutit, par conséquent, à la multiplication des cas d’étude, à un accroissement de la difficulté liée à leur résolution et surtout à une prolifération des cas-limite et des situations indécidables ; plus grave, cette stratégie, aussi Figure 7. Tentative de détection graphique détaillée. précise soit-elle, ne permet jamais réellement ni de remédier au caractère arbitraire de la discrimination arithmétique, ni surtout d’empêcher la production de résultats, certes marginaux, mais erronés du point de vue du jugement de l’utilisateur. On peut par conséquent en déduire qu’il s’agit là d’une approche modérément fiable du fait qu’elle repose sur une hypothèse pouvant éventuellement être considérée comme nécessaire (suivant l’information mise à disposition) mais manifestement non suffisante. 4.2.2. Approche sémantique Une seconde approche envisage plutôt de raisonner non plus sur les qualités géographiques du tracé ramené à son rectangle englobant mais sur son caractère sémantique : cette approche fait la double hypothèse que l’ensemble des tracés associés à un recouvrement simple correspond à un ou plusieurs alphabets connus (par exemple celui de la notation musicale) et, qu’en outre, il est possible de déterminer automatiquement l’objet logique associé en fonction de cette sémantique prédéfinie. Cette solution, qui peut éventuellement être combinée à la précédente afin de délimiter plus finement le champ d’investigation, suppose concrètement la définition précise de ces différents alphabets (c’est-à-dire le recensement et la catégorisation exhaustifs des différents symboles en sous-ensembles sémantiques cohérents) puis la mise en oeuvre de mécanismes de reconnaissance graphique relativement complexes[4][3][5][1] ; elle nécessite avant tout d’éprouver la validité de ces deux hypothèses, ce que pour l’heure nous ne somme pas en mesure de faire faute de données expérimentales. Notons simplement qu’il semble s’agir là d’une approche probablement complexe à concrétiser et basée sur une hypothèse, a priori, un peu hasardeuse et pas forcément suffisante. 4.2.3. Approche interactive L’approche que nous proposons résulte du constat suivant : Figure 6. Exemples de cas ambigus de recouvrements par détection graphique : les trois tracés possèdent le même rectangle englobant. 1. l’utilisateur n’annote pas un contenu musical de manière purement géographique mais en associant cette information (géo-)graphique à un message essentiellement sémantique, c’est-àdire en adaptant un certain nombre de conventions syntaxiques (explicites ou implicites, éventuellement connues de lui-seul) à l’appréciation d’un environnement recouvrant un ensemble de paramètres de mise en page ; 2. l’efficacité du mécanisme d’analyse a posteriori du tracé (suivant sa forme ou sa position) dépend fortement de ce que l’on a nommé plus haut la « qualité de l’environnement d’annotation » et qui correspond, en réalité, non pas à la prise en compte par le dispositif des paramètres graphiques décrits ci-dessus, mais plutôt à la capacité de l’utilisateur à adapter son tracé, sa technique d’annotation, aux critères posés par le dispositif d’analyse lui-même. Par conséquent, il peut être intéressant de considérer globalement le processus d’annotation sous la forme d’une boucle d’interaction entre le geste opéré par l’utilisateur et l’analyse sommaire réalisée par le moteur de calcul. On pourra mesurer l’efficacité d’un tel dispositif par sa capacité de produire, statistiquement, des résultats le plus souvent corrects à la première itération, de fonctionner en requérant un minimum d’apprentissage de la part de l’utilisateur tout en consommant le moins de ressources possible, et enfin d’autoriser l’annotateur à opérer une correction rapide et intuitive des détections erronées. Dans cette optique, le calcul géographique élémentaire décrit au début du paragraphe 4.2.1 peut permettre de proposer une approximation satisfaisante des différentes situations : – dans les cas 1 et 2 en désignant de manière explicite (par un artifice visuel : clignotement, surlignage, etc.) les portées les plus proches des points A et C ; – dans le 3e cas en procédant à une petite étude sur la forme globale du rectangle englobant le tracé : on considérera que les rectangles de forme « horizontale » correspondent plus volontiers à des recouvrements simples, dont l’objet associé peut être choisi en opérant un calcul de proximité sur le barycentre de A et C, les rectangles « ver- Figure 8. Résolution des cas d’ambiguïté dans l’approche interactive. ticaux » correspondant plus généralement à des recouvrements complexes (figure 8). 5. EXTRACTION DU CONTENU LOGIQUE DE L’ANNOTATION 5.1. Calcul du contexte et du registre temporel Dans le cas d’un tracé associé à un recouvrement simple par la méthode précédente, la désignation de l’objet annoté est tout à fait triviale puisqu’il s’agit de la portée à laquelle le tracé est désormais (après interaction avec l’utilisateur) géographiquement associé. Le calcul du registre temporel s’effectue en opérant, dans le cas d’une portée musicale, une localisation hiérarchique 10 des éléments logiques de niveau 3 (notes, silences) à l’intérieur de cette portée, par le biais d’une stratégie basée sur la proximité géographique des rectangles englobants similaire à celle exposée précédemment : le registre temporel complet est alors déduit de la date de début du premier événement et de la date de fin du dernier ; le même mécanisme est utilisé dans le cas des représentations annexes à ceci près que la déduction des dates musicales peut se faire de façon immédiate par simple calcul de proportionnalité. En ce qui concerne un recouvrement complexe, on peut considérer que le tracé correspondant annote non plus un seul objet, mais un ensemble d’objets dans la page (qui peuvent éventuellement être de 10 cf. 2.1. Figure 9. Ambiguïté sur la détermination des événements associés à deux tracés complexes partageant le même rectangle englobant. même nature), dont la liste peut être déduite des intersections entre le rectangle englobant le tracé et ceux des diverses portées de la page. Le calcul du registre temporel se heurte, lui, à la difficulté graphique d’identifier chacun des événements (ou registres temporels) individuels concernés par celui-ci. Pour ce faire, la connaissance des coordonnées de son rectangle englobant se révèle en effet insuffisante (figure 9) : il faut être en mesure de procéder à une analyse automatique, aussi peu coûteuse que possible, de la forme générale du tracé. La méthode la plus simple consiste à déterminer les points de « départ » et de « fin » du tracé, ainsi que les coordonnées de ses intersections avec chacun des rectangles englobant les différentes portées de la page ; de cette information graphique, il est possible de déduire, par la méthode précédente et pour chacune des portées, un couple de valeurs temporelles donnant une bonne approximation des données musicales associées par le recouvrement en question. A ce niveau, nous sommes donc en mesure de déduire — sur la base de l’information graphique d’un tracé collecté — un recouvrement (que l’on pourra qualifier « d’ordre n ») correspondant à une liste de n registres temporels associés à n objets logiques de niveau 2 identifiés de manière non ambiguë (avec n=1 dans le cas d’un recouvrement simple). Par conséquent, on peut considérer chaque tracé correspondant à un recouvrement complexe (ou d’ordre supérieur à 1) comme un objet dont l’aspect graphique répond à une double fonction : 1. la désignation (relative à un type de visualisation particulier) de n fragments temporels plus ou moins indépendants ; 2. la description de la relation logique qui existe entre ces n fragments — et qu’il reste à identifier. 5.2. Identification des liaisons logiques Nous tentons ici d’expliciter le type de relation sémantique qui existe entre les différents objets associé à un recouvrement complexe. L’hypothèse que nous proposons est la suivante : on peut classer l’ensemble des cas de liaison envisageables en deux catégories Figure 10. Description schématique des liaisons logiques : point-à-point (1) et d’ensemble (2) simples de relations, en se basant sur la dimension topologique de la figure géométrique symbolisée par le tracé associé : 1. la figure est de dimension unité (ligne, courbe, etc.) : on peut décrire la relation associée comme une correspondance point à point entre deux éléments : le plus proche du point de départ de la figure et celui désigné par la fin ; 2. la figure est de dimension deux (ou plus) : il s’agit à proprement parler d’une forme au sens euclidien, c’est-à-dire d’une figure plane que l’on peut globalement considérer comme fermée sur elle-même : la relation est une liaison d’ensemble qui associe sans distinction l’ensemble des éléments (généralement indépendants du point de vue temporel) contenus à l’intérieur de la forme (figure 10). A ces deux catégories de liaisons issues de l’analyse morphologique on peut en ajouter une troisième permettant de résoudre le cas des symboles composés (lettres, mots, phrases, etc.) présentés au début du chapitre 3 : on définit une liaison implicite dont le rôle est de réaliser un couplage constant entre des annotations correspondant à des recouvrements simples et qui, au contraire de la liaison d’ensemble définie ci-dessus, doivent toutes être associées au même registre temporel et au même objet logique. Par conséquent, il apparaît donc possible d’affirmer ici que : 1. tout tracé peut, par décomposition semi-automatique, être associé à un recouvrement d’ordre n décrivant un ensemble fini et ordonné de n annotations unitaires ; 2. chacune de ces annotations unitaires correspond à un recouvrement simple (ou d’ordre 1), c’est-àdire qu’elle agit dans un registre temporel donné, au sein d’un contexte (objet logique de niveau 2) unique ; 3. lorsque n>1, on peut créer, de manière automatique, un groupe logique composé de 2 ou Figure 11. Calcul des déviations d’un tracé simple. n annotations unitaires, en fonction de la liaison logique déduite du tracé, celle-ci pouvant être point-à-point ou d’ensemble. En outre, il est envisageable de créer manuellement un groupe d’annotations en spécifiant simplement une liste ordonnée d’annotations unitaires, le type de liaison logique étant déduit automatiquement du nombre et des registres temporels des éléments de la liste : deux éléments formant une liaison point-à-point, un ensemble d’éléments associés à la même portée impliquant une liaison implicite, les autres cas engendrant une liaison d’ensemble. Nous allons vérifier la validité de cette affirmation dans la partie suivante en définissant le comportement visuel d’une annotation, face aux problèmes posés par la modification dynamique de la mise en page et du contenu musical. 6. STRATÉGIES DE REPRÉSENTATION 6.1. Traitement de la mise en page En ce qui concerne les AUS, on peut utiliser une stratégie de reproduction visuelle très simple et efficace : à l’information temporelle décrite ci-dessus, on associe une information de position décrivant les déviations gauche, droite et basse entre le rectangle englobant du tracé et ceux des événements en question (figure 11) ; on utilise pour cela une unité qui n’est pas absolue (comme le pixel) mais relative à la mise en page 11 . Les tracés peuvent alors, en vertu de ces informations, être étirés/compressés ou bien découpés verticalement en fonction de la mise en page (figure 12). Intuitivement on pourrait imaginer appliquer de semblables transformations élémentaires (rotation, déformation) lorsqu’il s’agit de représenter graphiquement l’ensemble des données graphiques associées à un groupe d’annotations, c’est-à-dire résultant d’un tracé correspondant à un recouvrement complexe. Or dans la plupart des cas, on constate que ces manipulations graphiques aboutissent à des représentations visuelles peu satisfaisantes, voire incohérentes : un tracé complexe pouvant, après transformation, ap11 Il s’agit dans notre cas de la dent, c’est-à-dire l’espace compris entre deux lignes d’une portée de la partition Figure 12. Stratégies de représentations d’une annotation unitaire simple. Figure 13. Tentative de transformation géométrique d’un tracé correspondant à un recouvrement complexe. paraître comme relatif à un recouvrement simple (figure 13). La solution d’utiliser, par analogie, un découpage horizontal du tracé de manière à le reproduire par segments (attachés chacun à une portée) peut séduire : dans bien des cas cependant, utilisée seule, elle ne constitue qu’un artifice de visualisation relativement médiocre (schéma) : il faut, au minimum, lui adjoindre une représentation graphique supplémentaire, mais pas trop envahissante, permettant de symboliser sa ou ses liaisons avec les autres annotations du même groupe (figure 14). Figure 14. Propositions de représentation d’annotation résultant d’un tracé complexe. 6.2. Traitement de la modification du contenu Comme il a été dit plus haut, on peut considérer les représentations objectives associées à la partition sous la forme de portées additionnelles d’un même système, c’est-à-dire comme des représentations partageant la même métaphore temporelle. Cette définition mérite d’être corrigée si on tient compte de la possibilité de recomposer la page, c’està-dire de modifier dynamiquement à la fois l’ordre des représentations, mais aussi, et par extension, de décider de leur présence ou non à l’intérieur de ce système étendu : de fait, tout comme il paraîtrait aberrant de reproduire une annotation liée à une portée si d’aventure celle-ci se retrouvait masquée ou déplacée, il apparaît nécessaire de pouvoir définir une stratégie de représentation cohérente lorsque le contexte, tel que défini précédemment, se voit modifié. Pour les AUS, il est évidemment envisageable de ne simplement pas reproduire l’annotation lorsque le contexte associé n’est pas représenté ; il peut toutefois être intéressant, surtout en situation pédagogique, de signaler à l’utilisateur qu’une telle annotation, produite par ailleurs, n’est pas affichée en raison de la composition choisie. La question de la représentation des groupes d’annotations dans cette situation nous permet de compléter la conclusion établie précédemment : il faut non seulement définir un artifice de représentation de l’ordre et des relations des annotations entre elles mais, au préalable, pouvoir établir une stratégie logique de représentation du groupe lorsque l’un des contextes est masqué : nous proposerons de masquer purement et simplement les annotations mises en relation par liaisons point-à-point et implicite et de représenter (partiellement, donc) les annotations associées par une liaison d’ensemble, tout en proposant à l’utilisateur un « signal » tel que décrit ci-dessus. 7. CONCLUSION L’aspect dynamique d’une partition musicale informatique, c’est-à-dire la possibilité offerte à l’utilisateur de modifier à la volée sa composition visuelle comme son contenu, soulève des questions intéressantes lorsqu’on souhaite la doter de fonctionnalités d’annotations à main levée : de cette situation a priori triviale émerge un certain nombre de difficultés, notamment de représentation, en raison de la nécessité originale de concilier le respect des qualités graphiques de l’annotation et sa fonction sémantique, parfois mal connue ; par conséquent, l’enjeu de la réalisation d’un tel outil est de proposer un environnement offrant à la fois la souplesse rencontrée en situation traditionnelle et la rigueur généralement associée à la notation de la musique. Nous avons privilégié et présenté ici une approche de ces problèmes permettant de proposer un for- mat de représentation symbolique des annotations de ce type. Cette formalisation met en lumière la nécessité de disposer, dans l’environnement de développement, d’une méthode de localisation hiérarchique, temporelle et géographique des divers objets logiques présents dans la page, d’un outil sommaire d’analyse des tracés rencontrés (calcul des intersections et des directions) et au choix, d’outils d’interaction avec l’utilisateur (retour visuel en temps-réel, saisie contextuelle, etc.) ou de mécanismes automatiques de reconnaissance de formes ou de gestes. La démarche globalement graphique exposée ici mériterait d’être développée et complétée afin de définir plus précisément puis d’exploiter les caractéristiques sémantiques des annotations réalisées dans un environnement de ce type. 8. REFERENCES [1] J. Anstice, T. Bell, A. Cockburn, and M. Setchell. The design of a penbased musical input system. In Proceedings of the Sixth Australian Conference on Computer-Human Interaction, pages 260–267, Nov. 1996. [2] Nicolas Donin. Manières d’écouter des sons. quelques aspects du projet écoutes signées (IRCAM). DEMéter, page 13, aout 2004. [3] Susan E. George. Online pen-based recognition of music notation with artificial neural networks. Computer Music Journal, 27(2) :10, 2003. [4] Annick Leroy, Giovanni Müller, and Guy E. Garnett. The design of a pen-based music notation system. In Proceedings of the ICMC94, pages 286– 292. DIEM/ICMA, September 1994. [5] Sébastien Macé, Éric Anquetil, and Bertrand Coüasnon. A generic method to design penbased systems for structured document composition : Development of a musical score editor. In WORKSHOP ON IMPROVING AND ASSESSING PEN-BASED INPUT TECHNIQUES at HCI 2005, Aug. 2005. [6] Megan Winget. Heroic frogs save the bow : Performing musician’s annotation and interaction behavior with written music. In Proceedings of the 7th International Conference on Music Information Retrieval - ISMIR 2006, October 2006.