LE SON ET LA MUSIQUE DANS LE JEU VIDEO
Transcription
LE SON ET LA MUSIQUE DANS LE JEU VIDEO
LE SON ET LA MUSIQUE DANS LE JEU VIDEO Maîtrise rédigée par Nicolas BREDIN Sous la direction d’Anne SEDES Université Paris 8 Département Musique 2004 Je remercie ma directrice de maîtrise, Anne SEDES, pour le temps qu’elle m’a consacré au cours de cette année et pour ses conseils précieux. 1 SOMMAIRE Introduction. ........................................................................................................ 4 I. Le son et la musique comme média interactif dans le jeu vidéo. ............................. 6 A. L’interactivité sonore et musicale dans le processus d’interactivité du jeu vidéo. ........ 6 1) Les concepts d’interactivité et d’adaptabilité pour le son et la musique dans le jeu vidéo. .............................................................................................................................. 6 a. Deux concepts utilisés de façon plus ou moins confuse. ....................................... 6 b. Une définition de l’interactivité et de l’adaptabilité sonore et musicale dans le jeu vidéo. ..................................................................................................................... 8 2) Le processus d’interaction entre l’utilisateur, le système de représentation et les éléments sonores. ......................................................................................................... 11 a. La capacité de représentation du jeu vidéo : « faire des mondes ». ..................... 11 b. Le réalisme et l’immersion dans le jeu vidéo....................................................... 12 c. Le rôle du son et de la musique dans le processus d’interaction entre l’utilisateur et le système de représentation............................................................................ 14 3) « Un vocabulaire d’objets audio » spécifique et immersif........................................... 16 a. Communication directe. ....................................................................................... 16 b. Communication indirecte. .................................................................................... 16 c. Communication environnementale. ..................................................................... 17 d. Sons indigènes...................................................................................................... 17 4) Les différents degré d’interactivité du son suivant la nature du gameplay. ................. 18 5) Le rapport entre l’image et le son : la complexité liée à l’interactivité....................... 22 a. La musique comme élément de continuité spatio-temporelle. ............................. 22 b. Fonction des bruitages.......................................................................................... 24 c. Traitement de la voix............................................................................................ 25 d. Points de vue et mouvements de caméra.............................................................. 25 B. Les technologies utilisées pour faire du son et de la musique un média interactif. ..... 28 1) Historique des progrès des technologies dédiées aux sons pour le jeu vidéo. ............. 28 a. Les consoles. ........................................................................................................ 28 b. Les ordinateurs. .................................................................................................... 30 2) Le MIDI........................................................................................................................ 33 a. Le MIDI, technologie et spécifications de base. .................................................. 33 b. L’assignement standardisé des voix, le General MIDI (ou GM)......................... 34 c. Le DLS (Downloadable Sounds) et le XMF (eXtensible Music Format), deux spécifications qui permettent l’interactivité de l’audio. ...................................... 34 3) L’audionumérique. ....................................................................................................... 36 a. L’échantillonnage................................................................................................. 36 b. Les techniques de compression. ........................................................................... 37 c. Les formats de fichiers audio les mieux adaptés aux jeux vidéo. ........................ 37 4) Des outils qui permettent l’intégration et l’interactivité de l’audio dans le jeu. ......... 40 Conclusion de la première partie.......................................................................................... 42 2 II. A. Procédés de composition et analyses sonores et musicales. .................................... 45 Procédés de composition.............................................................................................. 45 1) Quelles questions se poser avant d’aborder la composition d’une musique de jeux vidéo ? .......................................................................................................................... 45 2) Comment aborder la composition d’une musique interactive dans le jeu vidéo? ........ 46 a. Construire un « squelette » musical. .................................................................... 46 b. L’étude nécessaire des transitions musicales. ...................................................... 47 c. Définir l’opportunité des changements musicaux. ............................................... 48 d. Le problème de la répétition................................................................................. 48 3) Le choix de l’instrumentation et du style musical........................................................ 50 a. L’utilisation de plus en plus fréquente de l’orchestre. ......................................... 51 b. Exemples d’instrumentation et conclusion. ......................................................... 51 4) L’hybridation entre le jeu vidéo et le cinéma............................................................... 54 a. Le phénomène de « remédiation ». ...................................................................... 55 b. Conséquences du point de vue musical pour le jeu.............................................. 56 5) Un exemple de « remédiation » jeu vidéo – œuvre littéraire. ...................................... 58 a. Une approche musicale innovante........................................................................ 58 b. Le choix de l’instrumentation. ............................................................................. 60 B. Analyse sonore et musicale du jeu Myst III : The Exile. ............................................. 62 1) Les formes de « remédiation ». .................................................................................... 62 a. Un scénario inspiré par la littérature fantastique.................................................. 62 b. La participation de véritables acteurs de cinéma. ................................................ 63 2) Le thème musical et sa répétition................................................................................. 64 a. La notion du thème musical comme unité signifiante.......................................... 64 b. La notion de logique thématique.......................................................................... 65 3) Analyse des thèmes et des séquences musicales attribués aux personnages................ 68 a. Le choix de l’instrumentation. ............................................................................. 68 b. Thème d’ouverture et thème attribué au personnage d’Atrus. ............................. 68 c. Thème de Saavedro et séquences musicales attribuées au personnage................ 71 4) L’environnement audio dans Myst III : The Exile. ...................................................... 74 a. Les outils utilisés.................................................................................................. 74 b. La recherche du réalisme...................................................................................... 76 c. Extraits de sons indigènes et d’activation. ........................................................... 77 5) La musique aléatoire en cours de jeu. .......................................................................... 79 a. Approche musicale............................................................................................... 79 b. Procédés de composition et exemples.................................................................. 80 Conclusion des analyses. ........................................................................................................ 87 Conclusion. ......................................................................................................... 90 Bibliographie...................................................................................................... 93 Liste des jeux vidéo utilisés............................................................................... 97 Liste des extraits musicaux............................................................................... 99 Annexe : programme sur le concept de l’adaptabilité musicale................. 101 3 INTRODUCTION. Depuis l’apparition du jeu vidéo dans les années 1970, la recherche a essentiellement porté sur l’amélioration de la qualité graphique, des animations vidéo et des possibilités offertes au joueur pendant l’expérience, au détriment d’une évolution de la qualité du média sonore considéré comme secondaire. Toutefois, depuis la fin des années 1990, une industrie émerge aux Etats-Unis où la qualité et l’interactivité du son et de la musique deviennent des critères également essentiels au succès commercial d’un jeu. Ainsi trois organismes américains se sont constitués pour récompenser chaque année la recherche et la qualité du son des jeux vidéo : l’Academy of Interactive Arts and Sciences (AIAS) créée en 1998, le National Academy of Recording Arts and Sciences (NARAS), qui permet depuis 2000 aux jeux de concourir aux Grammy Awards et le Game Audio Network Guild (GANG), fondé en 2002. Les pièces admises présentent une complexité musicale et artistique semblable à celle d’une bande originale de film ; du reste, il existe une réelle demande des consommateurs américains pour la commercialisation des bandes son originales de jeux. Le jeu vidéo utilise un ensemble de médias, tels le graphisme ou la vidéo, pour véhiculer l’information dans un cadre non linéaire et interactif. Aussi, appliquer au média sonore le concept d’interactivité implique de l’intégrer dans un rapport avec l’ensemble des autres médias utilisé par le jeu, c'est-à-dire qu’il participe au processus d’interaction entre le joueur et le programme informatique. Au-delà, faire du média sonore un critère de qualité pour le jeu signifie également que le son et la musique doivent se conformer à des principes de composition. Or ces principes se fondent sur des procédés cinématographiques qui sont donc surtout adaptés à un cadre linéaire, ce qui ajoute, en plus des contraintes techniques de réalisation, de nouvelles contraintes d’écriture pour le compositeur de jeu vidéo. Si la démarche de l’industrie du jeu semble de prime abord essentiellement répondre à une logique commerciale, cela ne doit pas faire oublier la possibilité du développement, de la recherche et de la création pour le son et le musical dans le jeu vidéo. Ainsi qu’apporte l’interactivité sonore et musicale en plus de l’interactivité visuelle pour le joueur? De quelles manières le jeu vidéo peut-il proposer une approche du son et 4 de la musique inédite tout en répondant aux critères imposés par l’industrie du jeu? Qu’elles sont les voies pouvant être explorées pour le son et la musique concernant la relation entre le média sonore et le joueur? Dans une première partie nous étudierons le son comme média interactif dans le jeu vidéo à travers les caractéristiques de l’interactivité sonore et musicale pour le jeu et ce qu’elles apportent au processus d’interactivité entre le joueur et le programme informatique, mais aussi la complexité qu’implique l’interactivité du jeu dans le rapport entre l’image et le son ; puis nous aborderons les technologies utilisées, en tant qu’elles offrent des possibilités d’interaction et de qualité pour le son et la musique. Dans une seconde partie, nous étudierons les procédés de composition pour le son et la musique dans le jeu vidéo : nous évoquerons les problèmes liés à la non linéarité du jeu vidéo, notamment la répétition et les procédés afin de la rendre moins évidente, le choix de l’instrumentation et les conséquences de l’influence du cinéma sur l’approche musicale du jeu vidéo. Enfin l’analyse du jeu Myst III : The Exile, nous servira d’illustration et d’approfondissement ; elle nous permettra de mettre en évidence en quoi les diverses inspirations du jeu vidéo pour d’autres médias, et la recherche pour le son et le musique peuvent conduire à une approche sonore et musicale inédite. 5 I. Le son et la musique comme média interactif dans le jeu vidéo. A. L’interactivité sonore et musicale dans le processus d’interactivité du jeu vidéo. 1) Les concepts d’interactivité et d’adaptabilité pour le son et la musique dans le jeu vidéo. Il nous semble important d’introduire le concept d’adaptabilité musicale, non seulement parce qu’il est souvent confondu par les professionnels du jeu vidéo avec celui de l’interactivité, mais aussi parce que ce concept très peu utilisé pour le jeu nous paraît comme une voie d’exploration intéressante sur laquelle nous reviendrons au cours de notre sujet. a. Deux concepts utilisés de façon plus ou moins confuse. Nous citerons plusieurs professionnels de la musique du jeu vidéo concernant ces deux concepts : Le compositeur R. Ross donne une définition de l’interactivité musicale comme elle est le plus souvent vue par les développeurs de jeux vidéo : « L’audio1 interactif est une technologie conçue afin de permettre à l’audio créé [et] placé dans une application donnée, de réagir spécifiquement aux actions de l’utilisateur ou aux changements dans l’environnement de l’application »2. Cette définition ne prend en compte que l’action du joueur sur les éléments sonores ; pour R. Ross l’audio interactif est l’audio capable de «non seulement réagir à une situation donnée ou de s’adapter aux changements dans l’environnement, mais aussi de prévoir les choses à venir »3. 1 Le terme « audio » est utilisé ici pour désigner de façon générale l’ensemble des fréquences d’ondes acoustiques audibles, ce qui concerne autant la musique que les bruitages ou la voix par exemple. 2 « Interactive audio is a technology designed to allow specifically created audio, placed in a given application, to react to user input and or changes in the application environment », in R. ROSS, « Interactive Music…er Audio », < www.gamasutra.com >, 15 mai 2001. 3 « the audio to not only react to a given situation or adapt to the changes in the environment but to also to give a portent of things to come », R. ROSS, op. cit. 6 Le compositeur G. Whitmore préfère le terme d’ « audio adaptatif, terme qui décrit l’audio et la musique qui réagissent – voire anticipent - de façon appropriée au gameplay »4. Le game play ou gameplay est l’ensemble des règles qui définit les possibilités d’actions pour le joueur ; ce terme fait référence aux expériences vécues par le joueur pendant l’interaction avec le système mais aussi à ce que le joueur fait. Pour M. Miller, ancien président de l’IA-SIG (Interactive Audio Special Interest Group), « si l’on décrit l’audio comme étant interactif, on implique de parler d’une écoute qui ne serait pas simplement linéaire. L’audio interactif doit être construit d’une façon que l’utilisateur puisse affecter la réalisation musicale en temps réel pendant l’écoute »5. M. Miller utilise le terme d’audio « réactif ou sensible, venant de drivers audio attentifs à ce qui se passe et pouvant répondre d’une manière appropriée par un changement de musique »6. L’audio interactif dépend du comportement imprévisible du joueur. M. Miller utilise le concept d’interactivité pour décrire la capacité de réaction du son et de la musique uniquement par rapport à l’action du joueur, donc pour une relation unidirectionnelle entre le joueur et les éléments sonores. Le compositeur K. Harland entend par musique interactive « une musique qui répond à l’état des choses, des évènements que l’utilisateur est en train de vivre […] Au delà d’un simple remplacement d’une séquence musicale par rapport à une autre, une véritable interactivité implique plus une interaction entre la musique et l’état de jeu, plutôt qu’une interaction directe entre la musique et le joueur »7. Au cours de la réunion de l’IA-SIG en février 1997, le compositeur T. Robertson, donne une définition de ce qu’est un système audio adaptatif : « Les systèmes audio 4 « "Adaptive audio" is a term used to describe audio and music that reacts appropriately to - and even anticipates – gameplay », in G. WHITMORE, Design With Music In Mind: A guide to Adaptive Audio for Game Designers, < www.gamasutra.com >, 29 mai 2003. 5 « If you're describing audio as "interactive," you're implying more than just linear playback. Interactive audio should be constructed in such a way that that the user can affect its performance in real time during playback » in M. MILLER, Producing Interactive Audio: Thoughts, Tools, and Techniques, < www.gamasutra.com >, 15 octobre 1997. 6 « reactive, responsive audio, coming from audio drivers that are "aware" of what's happening and can respond by changing the music appropriately », MILLER, op. cit. 7 « "interactive music" […] music that responds to the state of affairs the user is experiencing […] Beyond mere switching from one song to another, true interactivity implies more of an interaction between the music and the gamestate, rather than a direct interaction between the music and the player », in K. HARLAND, Composing for Interactive Music, < www.gamasutra.com >, 17 février 2000. 7 adaptatifs permettent à l’utilisateur une expérience plus élevée à travers une bande sonore audio dynamique qui s’adapte aux variations d’états émotionnels et dramatiques résultants éventuellement des choix faits par l’utilisateur »8. De cette approche, le compositeur G. A. Sanger9 distingue l’audio interactif de l’audio adaptatif. Selon lui, l’audio interactif est l’audio qui est produit lorsqu’un utilisateur exécute la moindre action tandis que l’audio adaptatif fait référence à quelque chose qui se produit lorsque l’utilisateur influence l’audio et l’audio influence l’utilisateur. G. A. Sanger attribue à l’interactivité les caractéristiques de la réactivité et attribue à l’adaptabilité celles de l’interactivité. Il ressort de ces différentes définitions une certaine ambiguïté quant à l’utilisation des termes « interactif » et « adaptatif » pour le son et la musique dans un jeu vidéo, qui tient en grande partie au lien entre ces deux concepts, que nous allons détaillé ci-après. b. Une définition de l’interactivité et de l’adaptabilité sonore et musicale dans le jeu vidéo. Nous définirons les concepts de interactivité et de l’adaptabilité du son et de la musique, dans le contexte de notre sujet, respectivement de la manière suivante : L’interactivité sonore et musicale désigne une relation causale et bidirectionnelle entre le déclenchement d’éléments sonores10 particuliers et une action spécifique du joueur. L’interactivité est une réaction par rapport à une action, la bidirectionnalité implique ainsi un déclenchement d’éléments sonores en réponse à une action particulière du joueur et inversement, le joueur réagi d’une façon spécifique en fonction d’éléments sonores particuliers ; l’audio interactif revêt ainsi un rôle informationnel qui incite le joueur à réagir. 8 « Adaptive audio systems provide a heightened user experience through a dynamic audio soundtrack which adapts to a variety of emotional and dramatic states resulting, perhaps, from choices the user makes », in G. A. SANGER, The Fat Man on Game Audio: Tasty Morsels of Sonic Goodness, New Riders Publishing, 2004, p. 202. 9 SANGER, op. cit., p. 203. 10 Nous utiliserons l’expression « éléments sonores » au pluriel pour désigner un ensemble de sons organisés ou non de façon musicale. 8 Dans ce contexte, l’adaptabilité est un élément de l’interactivité ; elle ne concerne seulement que la musique dans le jeu vidéo. Le concept d’adaptabilité renvoie au principe de générativité11, où le programme prend en charge les effets de l’action. « L’algorithme de programmation se concentre sur la captation d’évènements repérés chez l’utilisateur […] [et] se contente de suivre le parcours afin d’en enregistrer certains paramètres pour alimenter des données préalablement programmées12 » : l’action génère la musique, celle-ci ne dépend que du joueur, et bien qu’il existe une relation entre la musique et les actions de celui-ci, le son ne reste qu’un accompagnement ; elle s’inscrit de plus dans un cadre de communication très restreint avec le joueur lorsqu’elle n’est pas utilisée pour le processus d’interactivité sonore. En effet, dans ce cas, l’adaptabilité musicale consiste en un résultat sonore adapté à la capacité de progression du joueur pouvant certes l’inciter à être plus performant - et non en un élément d’information sur ce qui va se passer par rapport à son parcours dans l’environnement de jeu. Le caractère adaptatif d’une musique pour un jeu implique ainsi une relation causale et le plus souvent unidirectionnelle, dans le sens « joueur vers ordinateur ». La musique seule s’adapte, est ajustée, par rapport à un original, suivant un enchaînement d’évènements particuliers que le joueur provoque. Ces deux concepts peuvent chacun s’illustrer à travers deux exemples. Le jeu vidéo Beyond Good and Evil (2003)13 est nominé en mars 2004 en tant que finaliste pour la meilleure musique interactive à l’AIAS et au GANG Awards dans la catégorie « Meilleure Partition Interactive ». Il s’agit d’un jeu à « genre multiple » contenant des éléments du jeu de combat, de simulation et d’aventure (c.f. 4). Lors des phases de combat la musique s’agence en diverses séquences musicales qui se juxtaposent suivant une trame dramatique ; par exemple, dès le début de son exploration dans l’environnement de jeu, le joueur doit combattre l’assaut des ennemis : une séquence musicale se déclenche alors qui représente « le thème du combat » et consiste en une 11 LORET Christian, L’interactivité et la générativité du point de vue sonore, < www.jm.u-psud.fr/~adis/rubriques/p/jdoctic/loret.pdf >, 1er octobre 2002. 12 LORET, op. cit. 13 Il sera donné en fin de mémoire et pour chaque jeu cité sa date de parution et les sociétés de développement et de distribution. L’année correspond à la première parution du jeu, elle peut différer de plusieurs années suivant l’adaptation du jeu pour une autre plateforme. Par exemple le jeu Resident Evil, distribué par Capcom, est sorti à l’origine en 2000 pour la console PS2, puis adapté en 2002 pour la console GameCube. 9 musique électronique au tempo élevé accompagnée d’un chœur, exhortant le joueur à se livrer au combat ; une fois la plupart des ennemis éliminés, lui succède un choral lent et dramatique, lui-même suivi du « thème de la victoire » lorsque le héros finalement triomphe. Dès que le joueur résout une énigme, le thème qui introduit le jeu, composé de quelques notes au piano, réapparaît et, pour chaque solution trouvée au cours du jeu, ce thème s’enrichit puis s’étend suivant le principe de la variation, avec l’entrée croissante des cordes et des vents. L’arrivée d’ennemis est toujours précédée d’éléments sonores spécifiques qui se déclenchent différemment dans le temps, soit de façon simultanée lorsque l’ennemi arrive derrière le joueur, le prévenant ainsi du danger ; soit de façon anticipée, lorsque le joueur se rapproche d’un danger imminent, l’invitant alors à être davantage sur ses gardes. Le jeu Rez (2000) illustre plus particulièrement le concept d’adaptabilité ; c’est un jeu de tir qui se déroule dans un environnement représentant un gigantesque réseau informatique que le joueur doit pirater. Chaque niveau se divise en dix ramifications qu’il faut analyser en décodant la sécurité, c'est-à-dire en détruisant un petit cube de lumière. A chaque niveau correspond une musique techno qui se développe au fur et à mesure que le joueur réussi à pirater ces ramifications ; à chaque fois qu’un ennemi est éliminé un échantillon musical est joué qui diffère suivant le nombre de cibles détruites par le joueur auparavant, et qui vient s’insérer dans la musique en cours. La musique s’ajuste ainsi suivant la performance du joueur, c'est-à-dire à ses actions : elle s’inscrit dans une relation causale et unidirectionnelle, « joueur vers musique ». Le jeu vidéo utilise un ensemble de médias interactifs tel le graphisme, les animations ou la vidéo par le biais de l’interface de représentations qu’est l’écran. Les éléments sonores interviennent au cours de l’expérience du joueur, sa participation, c'est-à-dire pendant le processus d’interaction entre lui et le système de représentation : il faut donc alors s’interroger sur la nature de cette interaction et le rôle du son et de la musique dans celle-ci. 10 2) Le processus d’interaction entre l’utilisateur, le système de représentation et les éléments sonores. a. La capacité de représentation du jeu vidéo : « faire des mondes ». La capacité de représentation dans un jeu vidéo illustre la notion de « Worldmaking » ou « ce qui fait un monde » utilisée par N. Goodman, philosophe de l’art ; « Faire un monde, c’est élaborer une version pertinente et correcte du monde, par l’application et la projection d’un schéma symbolique sur un domaine de référence »14. N. Goodman porte en particulier son attention sur les notions de vérité, de représentation et le statut des symboles dans le travail artistique. Il évoque la notion de « correction » (rightness), comme étape pour faire un monde, « la correction d’un symbole se [manifestant] dans le caractère ajusté de son fonctionnement »15 ; « l’ajustement d’un symbole est non seulement ajustement à ce à quoi il fait référence […] mais aussi ajustement avec un contexte, un discours, ou un complexe donné d’autres symboles […] ; sous ces deux modes, l’ajustement n’est ni passif ni à sens unique, mais actif et réciproque ; par rapport au matériau expérimental, une hypothèse implique des opérations de supplémentation (interpolation et extrapolation à partir de certaines données) et d’effacement (élimination de certaines données considérées comme non pertinentes) ; de même, dire qu’une image ressemble à la nature signifie souvent qu’elle correspond à un certain standard dans la représentation habituelle de la nature »16. La notion de « correction » est l’expression de la pertinence et de ce qui donne accès à la version, c'est-à-dire la manière d’interpréter un fait. « Faire un monde c’est [ainsi], par l’application d’un schéma symbolique à un domaine de référence, y déterminer des genres et des espèces pertinentes (par la dénotation, [application référentielle d’une étiquette ;] l’exemplification, [la possession plus la référence ;] ou l’expression), y établir des relations d’ordre en fonction d’un cadre de référence, y opérer des effacements et des supplémentations pour accéder à une certaine correction du système »17. 14 HUGLO Pierre André, Le Vocabulaire de Goodman, Ellipses Edition Maketing S.A., 2002, p. 29. HUGLO, p. 14. 16 HUGLO, op. cit., pp. 14-15. 17 HUGLO, op. cit., p. 30. 15 11 Ainsi N. Goodman établi ce que l’on pourrait appeler une généalogie de mise en contexte de versions, qui renvoie à différentes relations d’ordre de manière d’interprétations. La capacité de représentation du jeu vidéo consiste en la délimitation d’un ensemble d’éléments qui produisent, communiquent, et codifient un ensemble de significations pour le joueur par rapport à un domaine de référence établi par l’intrigue. Cette action de mise en contexte correspond à l’élaboration d’un « modèle mental » nécessaire afin que le joueur, projeté dans un environnement non réel, puisse accepter ce qui lui est proposé ; elle permet d’orienter l’interprétation et d’organiser l’action. Ainsi la capacité de représentation du jeu vidéo correspond à la construction d’un cadre correct, c’est-à-dire conforme aux indications exprimées dans la proposition (l’intrigue), pour que se produise l’expérience. Par exemple dans le jeu Hitman 2 : The Silent Assassin (2002), le joueur incarne un tueur à gage qui doit accomplir des missions dans différentes régions du monde. Ainsi une fois arrivé en Inde, l’environnement de jeu représente un ensemble de symboles qui se référent à ce pays : un immense marché, des personnages en habits traditionnels, des bangalas (petites maisons typiques) et un temple sikh où le joueur doit s’infiltrer ; à chaque entrée de ce temple sont représentés les membres d’une milice reconnaissables par leur uniforme et leur arme ; ils effectuent une ronde incitant le joueur à agir avec d’autant plus de discrétion pour ne pas se faire repérer. La capacité de représentation du jeu vidéo est directement liée aux notions de réalisme et d’immersion. b. Le réalisme et l’immersion dans le jeu vidéo. Le réalisme dans le jeu vidéo. N. Goodman définit la notion de réalisme comme une conséquence de la notion de « correction de représentation » qui recouvre deux significations, l’habitude et la révélation : d’une part « selon l’usage le plus fréquent, une image est réaliste [pour celui 12 qui la regarde] dans la mesure où elle est correcte dans le système habituel de représentation »18. D’autre part une représentation qui n’est pas réaliste suivant un standard habituel peut être tout à fait correcte dans un système différent : « quand un peintre ou un photographe produit, ou nous révèle, des aspects d’un monde non vus jusqu’à lors, on dit parfois qu’il atteint un nouveau degré de réalisme en découvrant et présentant de nouveaux aspects de la réalité. Ce que nous avons ici, avec une représentation dans un système correct mais étrange pour nous, c’est un réalisme au sens, non de l’habitude, mais de la révélation »19. Cependant il existe une troisième sorte de réalisme, où la correction n’est pas déterminée par la comparaison d’une version avec un monde ; il se présente « non pas en fonction de ce que dénotent les images et les histoires, mais de ce qui les dénote, non pas en fonction de la façon dont elles classent les choses, mais de la façon dont elles sont classées »20 ; ainsi « une description ou une représentation sont correctes, pour un monde auquel ils s’ajustent »21. Le jeu vidéo peut proposer autant un réalisme de la troisième sorte qu’un « réalisme par révélation » ; pour le premier puisqu’il représente généralement un environnement et des personnages qui n’existent pas mais qui sont corrects par rapport à l’intrigue. Par exemple dans le jeu Morrowind : The Elder Scrolls III, les « échassiers des marais », les « netchs », les « dévoreurs », « les braillards des falaises » de même que les « mages guérisseurs » n’existent pas mais ils sont rendus corrects par rapport à la proposition de départ où le joueur doit évoluer dans un environnement touché par le « Fléau », phénomène météorologique étrange qui enveloppe et empoissonne la nature, la population et les animaux créant ainsi des monstres et des paysages désolés. Si il y a des monstres générés par ce mal, alors d’autres créatures peuvent également exister par supplémentation, si il existe un mal fictif, il est correct qu’il y ait des personnages fictifs pour le guérir, et que ceux-ci puissent posséder des habitations toutes aussi fictives – les mages font pousser démesurément des champignons pour s’en servir comme habitation-. 18 GOODMAN Nelson, Manières de Faire des Mondes, 1992, Edition Jacqueline Chambon., p. 165 (Ways of Worldmaking, Hackette Publishing Company, 1978). 19 GOODMAN Nelson, op. cit., p. 165. 20 GOODMAN , l’Art en Théorie et en Action, Editions de l’Eclat, 1996, p. 36 (Of Mind and Other Matters, Harvard Univ. Press, Cambridge Mass. 1984). 21 GOODMAN, Manières de Faire des Mondes, 1992, Edition Jacqueline Chambon, p. 167 (Ways of Worldmaking, Hackette Publishing Company, 1978). 13 Le jeu vidéo peut également proposer un réalisme par révélation car il contient souvent des éléments qui se réfèrent à un système de symboles qui nous semblent réels par habitude mais intégrés dans un environnement spécifique (c. f. exemple donné précédemment pour le jeu Hitman 2 : The Silent Assassin). La recherche du réalisme dans un cadre interactif, qui implique donc une nature participative du joueur, est liée à celle de l’immersion. L’immersion. La chercheuse et designer interactif J. Murray, défini l’immersion comme « une sensation d’être entouré par une autre réalité toute entière […] qui s’empare de notre attention et de notre système de perception »22. L’immersion est l’engagement mental de l’utilisateur pour ce qui lui est proposé, c’est le « passage à la crédulité » (B. Laurel), c'est-à-dire l’état d’esprit atteint par l’utilisateur qui lui permet d’apprécier, et d’être en accord avec, un système de représentation. L’immersion est un autre aspect du gameplay, elle représente l’ensemble des expériences vécues par le joueur pendant la phase de jeu. L’immersion fait partie d’un processus d’interaction constant entre l’ordinateur et l’utilisateur : elle correspond à un retour entre l’esprit et l’interface de représentation (l’écran) c'est-à-dire avec ce qui se passe visuellement, au niveau psychologique et émotionnel ; elle est liée à l’expérience et à la participation active du joueur. c. Le rôle du son et de la musique dans le processus d’interaction entre l’utilisateur et le système de représentation. L’interaction entre le système de représentation et l’utilisateur consiste en un retour constant entre l’esprit et ce qui est vu. Selon N.Goodman, « la musique […] participe […] à la production d’une version visuelle quelque peu mélangée […] que nous sommes enclins à prendre à un moment donné, comme notre image du monde » 23. De nombreux motifs et émotions sont communs à l’auditif et au visuel ; ainsi une musique et une représentation peuvent métaphoriquement faire référence à des propriétés communes mais 22 23 MURRAY Janet H., Hamlet on the Holodeck, Cambridge : MIT Press, 2000, p. 98. GOODMAN, op. cit., p. 137. 14 chacune d’entre elles possèdent des effets qui transcendent son propre médium : dans le cadre d’une combinaison de médias « rien n’est plus clair que la musique affecte la vision, que les images affectent l’ouïe, que les deux affectent et sont affectés par le mouvement […] Tous s’interpénètrent pour faire un monde »24. Les éléments sonores insérés dans un cadre interactif sont des éléments de mise en contexte qui permettent d’orienter l’interprétation du visuel et d’organiser l’action ; ils contribuent aux impressions du joueur pour un environnement de jeu spécifique, mais aussi pour les évènements qui prennent place visuellement. Ils sont en corrélation avec l’image et le mouvement et constituent un élément d’acceptation du joueur pour un ensemble de signes référentiels établis ; les éléments sonores s’inscrivent dans un ensemble de systèmes de production, de communications et de codification de signes en adéquation avec ceux du système de représentations. En reprenant toujours notre exemple du jeu Hitman 2 : The Silent Assassin, lorsque le joueur évolue à travers les ruelles indiennes, la sonorité et le rythme des tablas contribuent à renforcer son impression pour le lieu représenté. De plus l’interactivité des éléments sonores revêt un rôle informationnel qui incite le joueur à agir ; elle est un outil de communication avec le joueur pendant le processus d’interaction entre lui et ce qui est représenté visuellement : elle permet de communiquer la nature d’une situation autrement que par le visuel et ainsi de renforcer le réalisme de l’environnement représenté, des évènements qui se déroulent. Elle accroît de même l’immersion puisqu’elle répond à la nature des évènements que le joueur est en train de vivre. Afin de renforcer la sensation d’immersion, il existe un « vocabulaire d’objets audio » propre au jeu vidéo qui s’insère dans un rapport de l’image avec le son et qui permet d’élever le niveau d’interactivité. Il consiste en un ensemble de types de communication entre les éléments présents dans l’environnement et le joueur. 24 GOODMAN, op. cit. p. 137. 15 3) « Un vocabulaire d’objets audio » spécifique et immersif. a. Communication directe. « Un objet communique directement en conséquence d’une action directe exercée sur lui » 25; c'est-à-dire que le joueur, en agissant directement sur un objet, entraîne le déclenchement d’un ensemble de sons qui correspond aux caractéristiques sonores attribuées à cet objet, comme par exemple le craquement d’un fauteuil en bois lorsque que l’on s’appuie dessus. Ce type de communication renforce ainsi le réalisme des objets représentés mais aussi la sensation d’immersion pour le joueur puisqu’elle est une réponse à sa participation active. L’interaction peut consister également en un retour d’informations sous forme sonore pour le joueur qui vont l’inciter ensuite à réagir : par exemple dans le jeu Thief, Dark Project 2 : The Metal Age (2000), lorsque le joueur assène un coup d’épée sur un objet, il peut reconnaître au son déclenché en réponse si celui-ci est creux ou non et ainsi si l’objet peut contenir lui-même d’autres objets de valeurs. b. Communication indirecte. Une méthode indirecte d’interaction d’objets est une communication qui « en provoquant quelque chose à se passer dans le jeu, entraîne une réponse d’un autre élément d’une manière sonore »26. Un exemple typique est l’ « état d’aperçu » pour un ennemi : lorsque celui-ci voit le joueur, et que cela provoque un changement dans son comportement, un élément sonore approprié à cette situation est utilisé. Par exemple dans le jeu Blood 2 : The Chosen (1999), les ennemis hurlent dans une langue étrangère lorsqu’ils aperçoivent le joueur, dans Morrowind : the Elder Scrolls 3 (2002) les ennemis menacent le joueur avant de vouloir l’affronter. Ainsi le type de communication indirecte renforce l’existence du personnage incarné par le joueur vis-à-vis des autres éléments représentés dans l’environnement de jeu. 25 « An audio object communicates directly as a cause of direct action on its part », in D. BERNSTEIN, Creating an Interactive Audio Environment, < www.gamasutra.com >, 14 novembre 1997. 26 « That is, by causing something to happen in the game, something else responds sonically » BERNSTEIN, op. cit. 16 D’autres éléments peuvent communiquer d’une façon indirecte ; le personnage peut respirer plus difficilement et plus fortement lorsqu’il est fatigué par exemple. c. Communication environnementale. Un personnage, ou un objet dans le jeu, génère un système d’éléments audio pour luimême, sans un rapport de communication avec le joueur. Il s’agit simplement d’affirmer l’existence du personnage dans son environnement - par exemple un personnage qui se parle à lui-même ou aux autres. La communication environnementale est primordiale pour renforcer l’existence d’un personnage ou d’un objet dans l’environnement de jeu et qu’il devienne une entité personnelle ou physique. La communication environnementale renforce ainsi le réalisme des personnages ou des objets représentés ; de plus, elle peut être une source d’indice pour le joueur : ainsi, dans le jeu Thief, Dark Project 2 : The Metal Age, le joueur doit déjouer la surveillance des gardes postés devant les bâtiments du shérif et arriver à temps pour surprendre sa conversation avec le représentant des forces qui ont envahi la région. Les gardes évoquent cette réunion entre eux ; leur conversation rappelle ainsi au joueur son objectif et renforce le réalisme de la situation. d. Sons indigènes. Les sons indigènes, ou ambiants, font référence au monde sonore qui est généré par la localisation du joueur dans l’espace de jeu. C’est une collection d’éléments qui s’insère dans une relation non causale avec le joueur, c'est-à-dire que l’espace sonore n’est pas modifié par une action directe du joueur, le son réagit aux aspects environnementaux que la scène est en train de communiquer. Il s’agit donc d’un système indirect et environnemental, qui permet l’immersion du joueur dans un lieu spécifique. Un paysage sonore peut être aussi simple qu’une piste en boucle de sons de forêt ou un système d’objets produisant des sons liés entre eux par leur position à l’intérieur d’un environnement de jeu donné. 17 *** Le rôle des éléments sonores peut, cependant, varier sensiblement pour un jeu vidéo, suivant le degré d’interactivité voulu et d’immersion. Chaque typologie de jeu possède ses propres contraintes, ses procédés et niveaux d’interactions avec le joueur et requiert ainsi autant de réflexion sur le design sonore. La partie suivante résume de façon générale le rôle des éléments sonores, leur organisation, pour les types de jeux les plus courants ; il est à noter qu’un jeu n’appartient rarement qu’à une seule catégorie, mais intègre plutôt des éléments caractéristiques de plusieurs types de jeu. 4) Les différents degré d’interactivité du son suivant la nature du gameplay. Les « Tireurs à la première personne » ou FPS (« First Person Shooters »). L’action des FPS prend place dans la perspective du joueur en simulant le mouvement de celui-ci et en le faisant interagir dans un espace en trois dimensions (le positionnement du joueur est représenté par les objets qu’il tient en main) ; le gameplay place l’emphase dans la capacité du joueur à utiliser ses armes et à éliminer l’ennemi. La musique dans ces jeux varie suivant les évènements ; elle a un rôle informationnel et de mise en contexte important : elle renseigne le joueur sur l’environnement, lui donne des indices sur ce qui se passe ou va se passer (un changement d’une musique calme à une musique plus menaçante lorsque un ennemi est proche, par exemple). Les sons ambiants et les bruitages ont une place prépondérante, ils ont pour fonction le plus souvent de permettre au joueur de se repérer dans l’espace et de localiser l’ennemi. Exemples : Counter Strike : Condition Zero (2002), Doom 3 (2004) et Thief, Dark Project 2 : The Metal Age ou Hitman 2 : The Silent Assassin. Les « Tireurs à la troisième personne » ou TPS (« Third Person Shooters »). Les TPS ressemblent au FPS mais avec une perspective très spécifique pour le joueur ; il est vu de dos ou bien quelque fois dans une perspective isométrique (par un mouvement 18 de la souris la perspective peut être de haut, de bas, de côté, de mi-haut...).par exemple le jeu Freedom Fighters (2003). Les jeux d’aventures ou Graphic Adventure. Ces jeux mettent l’accent sur des énigmes à résoudre et sur l’exploration d’un environnement. En général le scénario est très riche et le joueur est placé à l’intérieur du gameplay comme le protagoniste d’une histoire à laquelle il participe. Ces jeux sont directement issus des Text Adventure des années 80, le texte étant à l’époque le meilleur moyen de décrire un environnement ou des personnages (Zork Grand Inquisitor (1996) ou Planetfall (1996) notamment). Dans les Graphic Adventures la musique est au service d’une ambiance, il s’agit le plus souvent de boucles qui évoluent lentement suivant le principe de variation. Le compositeur doit éviter la lassitude, le joueur étant susceptible de rester longtemps dans un même tableau de jeu ; la musique doit être composée également de telle sorte à ne pas distraire le joueur dans sa réflexion. Par exemple pour le jeu The Black Mirror (2003), une grande importance est donnée aux sons environnementaux, la musique, orchestrale, n’intervient que ponctuellement pour des évènements spécifiques. Les jeux de rôle ou Role Playing Game (RPG). Ces jeux proposent le plus souvent une vue subjective ; ils sont proches des jeux d’aventure au niveau de l’importance du scénario et de l’accent mis sur l’exploration ; mais l’objet est moins de résoudre des énigmes que de combattre des ennemis et de partir en quête, le but final étant le plus souvent « de sauver le monde » dans lequel est projeté le joueur (les jeux Morrowind : The Elder Scrolls III et Diablo 2 (2000) par exemple). Dans les RPG, le joueur crée des personnages et en défie d’autres ; ces derniers sont représentés par des statistiques variables telles l’origine, l’occupation ou « métier » (magicien, guerrier…) qui impliquent des habilités diverses elles aussi, tels l’intelligence, le savoir ou la force, par exemple. Les RPG mettent l’accent sur l’évolution du personnage. Le plus souvent la musique se présente sous forme de thèmes associés à des phases de jeu spécifiques ; le joueur a une totale liberté et donc la possibilité de revenir en tant de 19 fois qu’il le veut sur ses pas : le risque est donc que la musique peut devenir répétitive et ennuyante. Les jeux de stratégie. Ces jeux font appel à l’habilité, au sens stratégique du joueur afin d’arriver à la victoire. Ce sont des jeux où la qualité musicale est essentielle car le joueur peut rester longtemps sur une même phase de jeux. La musique est le plus souvent préenregistrée et orchestrale, elle est organisée de façon thématique et géographique. Exemple : la série des jeux Heroes, Heroes of Might and Magic III (1999). Les jeux de simulation. Ces jeux ont pour objectif de simuler une activité spécifique aussi pratique que réaliste, prenant en compte les limitations du monde réel, notamment les limitations physiques - par exemple les jeux de simulation de vol, tel Lock On (2004), jeu de combat aérien. La musique est généralement absente pendant la phase de jeu et l’environnement sonore se constitue essentiellement de bruitages qui ont pour fonction de renforcer le réalisme. Les jeux de courses. Le joueur est placé à l’intérieur d’un véhicule et doit se mesurer à d’autres conducteurs ou à un chronomètre. La musique est rythmée et est le plus souvent linéaire ; certains effets affectent toutefois la musique lorsque sont actionnées des commandes spécifiques : par exemple, pour le jeu Need for Speed 3 (2001) le fait d’utiliser le « turbo » engendre une accélération de la musique en cours. Les bruitages et leur réalisme ont une grande importance, ils contribuent à l’immersion du joueur : bruit du moteur, des roues pendant le freinage, lors des collisions ou des sorties de routes ; ils s’inscrivent le plus souvent dans un type de communication directe avec le joueur (par exemple le jeu Total Immersion Racing (2002)). 20 Les jeux de sport. Ces jeux imitent la façon de jouer des sports physiques traditionnels. Pour une certaine catégorie telle le football ou le tennis, la musique est absente en cours de jeux : les éléments sonores correspondent aux sons ambiants (le son de la foule) et au traitement de la voix pour les commentaires ; la communication entre l’audio et le joueur est du type directe (action du joueur sur le ballon par exemple) ou indirecte (arbitrage). Une grande importance est accordée, pour renforcer l’immersion, à l’interactivité des commentaires avec les actions de jeux. Pour les jeux de glisse comme le surf ou le ski, la musique est très énergique et linéaire ; la recherche est plus au niveau du réalisme des bruitages. Exemples : le jeu de snowboard Supreme Snowboarding (1999) et le jeu de football Winning Eleven 6 (2002). Les séquences cinématiques ou cutscene. C’est une section dans le jeu où le joueur n’a aucun contrôle, il n’est plus acteur, il est exclusivement spectateur ce qui interdit d’en faire une utilisation importante car par essence même du jeu vidéo, le joueur doit être libre et actif. Les scènes cinématiques apparaissent le plus souvent au début, pour clore un niveau et à la fin ; ce sont en pratique des courts métrages réalisés le plus souvent en image de synthèse. Le potentiel émotionnel de la musique est le même que pour un film ; la musique est au service uniquement de l’image et de l’affect que le visuel véhicule, elle est préenregistrée et totalement linéaire. *** Il vient de ces descriptions que les types de jeux présentant un gameplay fortement interactif (les FPS, les TPS, les RPG et les jeux d’aventure essentiellement) impliquent d’utiliser des éléments sonores présentant également un degré d’interactivité élevé. La difficulté qu’implique un niveau d’interactivité élevé réside dans l’impossibilité de pouvoir prévoir constamment les actions du joueur. Dans un jeu vidéo, le joueur est, par analogie avec le cinéma, à la fois le monteur puisqu’il déclenche quand il le décide, par son action dans l’environnement de jeu, des évènements sonores ; mais il est aussi le 21 mixeur par sa position dans l’espace de jeu. Alors qu’au cinéma l’audio a modifié le montage des plans en introduisant la continuité, comment faire de l’audio, un élément de continuité spatio-temporel qui assurerait la cohérence du rapport entre l’image et le son dans un jeu où l’interactivité rompt constamment cette continuité? Il est intéressant d’étudier le parallèle entre cinéma et jeu vidéo à propos du rapport entre l’image et le son, afin d’éclairer les procédés utilisés par le jeu vidéo en les rapprochant des procédés conventionnels utilisés au cinéma, et d’illustrer la complexité qu’implique l’interactivité dans la cohérence de ce rapport. 5) Le rapport entre l’image et le son : la complexité liée à l’interactivité. a. La musique comme élément de continuité spatio-temporelle. Au cinéma, la musique a pour but de faire ressentir des sentiments, d’interpréter la scène vue. L’utilisation traditionnelle de la musique est d’unifier les diverses images, d’offrir une continuité : la structure dramatique d’un film est souvent directement articulée par une structure musicale appropriée, elle permet la fluidité dans les raccords de plan et de séquences « cut ». L’effet de la musique est supposé être apprécié de façon subliminale, elle oriente les sentiments par rapport à l’affect de l’image, elle concourt aussi à créer l’ambiance du film. A. Fischetti illustre bien l’importance de l’intervention musicale dans le montage d’un film ; il évoque les expériences d’homologues américains27 sur la mémorisation du spectateur suivant les techniques de raccord de plan : « Deux types de « cuts » sont considérés : Les cuts reliés sémantiquement qui assurent le passage entre deux scènes ayant une relation soit visuelle (changement de point de vue par exemple), soit auditive (anticipation sonore d’une scène à une autre). Les cuts « non reliés », qui séparent deux scènes n’ayant rien en commun ».28 27 A. LANG, S. GEIGER, M. STRICKWERDA, & J. SUMNER, The effects of related and unrelated cuts on viewers' memory for television: A limited capacity theory of television viewing. Communication Research, volume 20, 1993, pp. 4 -29 28 FISCHETTI Antonio, Interaction image/son dans les conceptions du montage, CinémAction n°72, Corlet Telerama, p. 172, 1994. 22 Lorsque le « cut » n’est pas relié, l’information auditive est moins mémorisée car le spectateur se concentre déjà sur le changement de plan, à l’inverse lorsque le « cut » est relié sémantiquement la tâche de connexion entre les plans étant plus aisée, les capacités de perception du spectateur ne sont pas saturées. Ainsi « Les effets d’anticipation consistant à déclencher le son (dialogues, bruitages, musique) de la scène suivante avant le changement de plan semblent […] trouver une double justification : outre qu’ils assurent une certaine fluidité au montage des images, ils permettent d’éviter la chute de mémorisation consécutive au « cut »29. Pour un jeu il est beaucoup plus difficile d’assurer constamment la continuité musicale entre les changements visuels puisque tout dépend des actions imprévisibles du joueur. Selon le compositeur Simon Burgess : « Lorsque l’on écrit une musique pour un film, on peut l’écrire pour la faire concorder pour chaque seconde, chaque moment, avec des évènements qui prennent place visuellement. Avec un jeu, on a généralement pas d’autre choix que d’écrire avec un certain ton qui s’insère pour une certaine partie du jeu, un niveau par exemple »30. Un jeu n’a pas de durée fixe, ce qui entraîne un problème de synchronisation entre la partie musicale et l’action. La musique scénarisée essaie d’appliquer au jeu les mêmes effets qu’au cinéma, c'est-à-dire de donner à la musique cette fonction d’interprétation de la scène vue, de l’évènement qui prend place. On procède par thèmes musicaux : pendant une phase de recherche, on jouera une musique exprimant le mystère, lors d’une phase d’action violente, une musique très rythmée par exemple : le déclenchement de la musique est programmée pour des phases de jeu spécifiques. L’avantage d’une musique scénarisée est qu’elle permet d’intégrer des phases de silences, contrairement aux boucles musicales, car leur interruption a un sens : le thème musical attribué à un évènement spécifique n’est plus joué lorsque celui-ci est terminé. La musique scénarisée est une approche musicale classique adaptée à la non linéarité du jeu, mais la musique interactive en évoluant avec l’état de jeu suivant le déplacement du joueur peut assurer d’autant plus la continuité entre les évènements et donc les 29 FISCHETTI, op. cit., p 172. « When scoring a film you can write the music to match every second, every moment, of the events that take place to enhance the visual. With a game you generally have no choice but to write a tune that fits a certain part of the game, a level for example », in Eric PIDKAMENY, Levels of sound, < www.vgmusic.com/information/vgpaper2.html >, 15 mai 2002. 30 23 changements dans le système de représentation ; cependant, il se pose alors le problème des transitions musicales, de passer d’un ton musical à un autre alors qu’on ne peut prévoir à l’avance quand aura lieu ce changement. b. Fonction des bruitages Il existe deux types de bruitages : les bruitages d’ambiance qui habillent le décor, et les bruitages d’évènements qui sonorisent l’action. Il faut distinguer le « champ » qui évoque les sons dont la source est présente à l’écran, et le « hors champ » qui renvoie aux sons que l’on entend sans en voir la source. Le « hors champ » est tout ce qui se déroule en dehors du cadre, et qui a cependant de l’importance pour le déroulement de l’action ou en prolongeant le champ dans l'imaginaire du spectateur. Le bruitage « hors champ » est efficace pour accroître le réalisme ou la tension d’une scène. Pour un jeu la notion de hors champ est plus floue car la plupart des sons peuvent se retrouver tour à tour hors et à l’intérieur du champ. La gestion des bruitages «hors champ » revêt un intérêt pour le gameplay ; elle permet de signaler par exemple la présence d’ennemis mais aussi de se repérer dans un univers en 3D (par exemple pour les jeux en réseaux tels Counter Strike : Condition Zero ou Half Life). Au cinéma, on utilise le bruitage de façon créative pour renforcer l’aspect visuel, le spectateur a acquis une culture du son qui ne correspond en rien à la réalité ; la plupart de ces sons ne seraient reconnaissables sans l’image, c’est une écoute causale, on utilise le son pour s’informer sur sa cause, c’est le principe de la « sonification ». Dans le jeu on utilisait, au début, exclusivement des sons expressifs qui privilégiaient une écoute sémantique, c'est-à-dire que ces sons faisaient référence à un langage ou à un code d’interprétation, comme par exemple les sons pour « les bonus ». On utilise de plus en plus aujourd’hui les bruitages comme au cinéma, cependant l’interactivité du jeu engendre un problème qui n’existe pas dans le cadre linéaire du cinéma, celui de la répétition : en effet pour les types de jeux qui offrent au joueur une grande liberté d’action (FPS, TPS, RPG et jeux d’aventure) on ne peut prévoir à l’avance combien de fois un même bruitage sera déclenché ; de plus le joueur peut faire intervenir plusieurs bruitages 24 simultanément d’une manière qui n’est pas toujours prévisible par le concepteur sonore ; ce dernier doit en tenir compte lors de la réalisation des effets sonores, afin qu’ils puissent sonner correctement entre eux. c. Traitement de la voix. Au cinéma, l’histoire passe par la voix : soit la voix « off », quand la source est situé hors champ, soit la voix « in », lorsque la source apparaît à l’image, le point de vue concordant alors avec le point d’écoute, comme le plus souvent les dialogues entre les personnages. Dans un jeu, il est plus difficile de faire concorder le point de vue et le point d’écoute ; soit on traite la voix du héros incarné par le joueur et des personnages dans le jeu comme une voix « off » (réflexion introspective, comme Samuel le héros du jeu The Black Mirror), soit comme une voix « in » avec traitement sur le timbre et l’enveloppe. Il faut alors, pour ce dernier cas et pour une plus grande immersion du joueur, travailler sur l’enveloppe du son en temps réel. Par exemple, le jeu Thief : Dark Project 2 : The Metal Age a la particularité de proposer un environnement de jeu très sombre où il est souvent difficile de se repérer et de situer l’ennemi ; le joueur prend ses repères grâce aux variations d’amplitude des sons de pas ou de voix des personnages qui évoluent dans l’environnement et qu’il ne peut voir. d. Points de vue et mouvements de caméra. Le point de vue. Un autre élément très important appartenant au langage cinématographique est le point de vue, car il permet au cinéaste d’agencer la réalité, de la présenter suivant un aspect plutôt qu’un autre et ainsi d’orienter l’appréhension de ce qui est vu par le spectateur suivant ce qu’il veut lui suggérer. Le point de vue dépend du cadrage mais aussi de l’angle de point de vue. On distingue trois types d’angle de prise de vue : frontal, plongée (obtenu lorsque la caméra est placée au-dessus du sujet qui se trouve dans le champ), et contre-plongée. 25 L’angle de prise de vue peut, selon les cas, correspondre à la logique de la situation ou renforcer certains aspects dramatiques d’une scène : la puissance d’un personnage, par exemple, et l’angoisse qu’il suscite ou au contraire son humiliation, son écrasement. La caméra subjective présente la scène telle qu’elle est sensée être vue par un des personnages auquel le spectateur est, par conséquent, forcément identifié. Les mouvements de caméra. Il existe trois procédés au cinéma correspondant aux mouvements de caméra : Le panoramique (horizontal, vertical ou circulaire), réalisé lorsque la caméra fixée au sol pivote sur son axe. Il a, le plus souvent, le rôle d’accompagnement mais remplit parfois aussi une fonction descriptive et peut acquérir une valeur dramatique en introduisant dans le champ visuel un élément inattendu. Le travelling (avant, arrière, latéral ou vertical, subjectif, d’accompagnement) : il correspond au regard d’un homme en déplacement. Il permet, par exemple, de passer d’un plan d’ensemble à un gros plan, contraignant le spectateur à se concentrer sur un objet ou un visage. Le zoom : il rapproche ou éloigne très rapidement le sujet du spectateur sans que la caméra se déplace. On retrouve dans le jeu vidéo certaines de ces techniques ; outre l’angle de prise de vue qui tente de recréer la vue subjective du cinéma pour les FPS, les changements de point de vue et des mouvements de caméra correspondent, comme au cinéma, à une approche particulière du rapport entre l’image et le son ; le plus souvent ces techniques sont associées à des éléments sonores, des bruitages ou des séquences musicales, elles permettent de renforcer le sens dramatique des évènements qui prennent place. Ainsi dans le jeu Deus Ex (2001) - mais ceci est valable pour la plupart des FPS - lorsque le joueur est tué, la caméra qui était subjective, devient frontale puis se met en plongée, ces changements de point de vue accompagne le thème musical qui correspond à la défaite du personnage. Le changement de vue, associé à un thème spécifique contribue à dramatiser l’évènement. Dans le jeu The Black Mirror, un zoom actionné par le joueur sur un élément de l’environnement, amène une réflexion du personnage en voix « off » ; le zoom a cette même fonction qu’au cinéma d’attirer l’attention du joueur sur un élément bien précis (les 26 zooms ne sont possibles que pour certains éléments de l’environnement de jeu) et de lui permettre de comprendre la signification dramatique qui lui est attribué. Par exemple, dans ce même jeu, le fait de zoomer, au début, sur la photographie d’une femme s’accompagne d’une réflexion introspective du personnage et d’un thème musical particulier ; la voix « off » nous enseigne qu’il s’agit d’une femme que le personnage a aimé, la musique porte en elle le drame, on comprend par la suite qu’elle est décédée dans l’incendie du lieu même où le personnage évolue. Le zoom attire l’intention sur un élément particulier, le récit et la musique lui donnent son sens dramatique. *** Nous avons mis en évidence les difficultés qu’implique un jeu vidéo lorsqu’il propose un degré élevé d’interactivité car cela nécessite de pouvoir déclencher des éléments sonores en gardant une certaine cohérence avec les évènements qui prennent place visuellement, alors que tout dépend des actions imprévisibles du joueur. La recherche d’une solution adaptée aux problèmes de l’intégration du son dans le cadre interactif de l’hypermédia a abouti au développement de nouvelles spécificités pour les technologies dédiées aux sons mais aussi à la création d’outils destinés spécifiquement aux jeux vidéo. Nous allons donc étudier les techniques utilisées pour le son et la musique dans un jeu vidéo : la norme MIDI et l’avancée de ses spécifications permettant notamment l’interactivité musicale des éléments audio, la technologie audionumérique et les outils audio spécialisés développés pour le jeu. 27 B. Les technologies utilisées pour faire du son et de la musique un média interactif. 1) Historique des progrès des technologies dédiées aux sons pour le jeu vidéo. a. Les consoles. Les premiers jeux vidéo sont créés par l’ingénieur William Higinbotham au laboratoire National de Brookhaven en 1958 (jeu de tennis pour deux) et par Steve Russell en 1962 (spaceWar) mais la musique en est absente. En 1972, Pong - une simulation de ping-pong - est le premier jeu où le son apparaît sous forme de bips sonores, lorsque le rond qui représente la balle ricoche sur les barres matérialisant les raquettes. La même année apparaît la première console de salon, la Magnavox Odyssey. La première console permettant l’intégration d’éléments sonores dans le jeu vidéo est l’Atari 2600 - ou VCS, Video Computer System - conçue en 1977 ; elle comporte deux voies31 mono, et possède une capacité totale de RAM de 128 octets. La première bandeson de jeu vidéo est créée avec Space Invaders en 1978, en salle d’arcades puis adapté pour la VCS 2600 : on ne peut encore vraiment parler de musique, seulement de pulsations qui s’accélèrent avec l’arrivée d’ennemis ; ces changements de tempo suivant un évènement sont les prémices de la musique interactive. La musique apparaît réellement dans le jeu vidéo avec Pacman de Namco, en 1980 ; elle est jouée brièvement et de temps en temps au début du jeu et à entre deux niveaux ; elle n’est pas adaptée au gameplay. En 1981, Atari réalise Tempest, premier jeu d’arcade utilisant la « Pockey Chip », qui fonctionnait comme un processeur audio ; celui-ci utilisait quatre canaux séparés qui contrôlaient respectivement les hauteurs, le volume, une distorsion des valeurs pour chacun, permettant ainsi une bande virtuelle de quatre éléments de performance. 31 La voie (« channel ») est un canal par lequel circulent les données, ici l’audio. Par exemple si l’on souhaite créer une musique de fond pendant que des bruitages se font entendre, on peut utiliser un canal pour la musique et un autre pour chacun des bruitages à jouer ; la plupart des canaux sont indépendants, ce qui permet d’apporter des modifications pour l’un, comme baisser le volume, sans affecter l’autre. 28 Atari réalise la 5200 SuperSystem en 1982, console 8 bits proposant 4 voies mono dédiées aux sons. A partir de 1985 apparaissent les consoles pour particuliers, dont le hardware peut supporter des bandes sons variables ; une vraie interactivité devient possible. En 1985 apparaît la NES, Nintendo Entertainment System dont le système sonore comporte un générateur de sons programmables, le PSG (Programmable Sound Generator) et 5 voies dédiées aux sons : deux d’ondes carrées, une d’onde triangulaire, une autre pour le bruit et une voie pour les fichiers PCM (Pulse Code Modulation : « technique d’encodage de l’information. Il s’agit d’une représentation numérique d’un signal analogique où le signal est échantillonné régulièrement par intervalle uniforme de durée»32- vide infra). La mémoire RAM totale est de 2 Ko. 1986 est l’année de sortie de la Master System de SEGA ; elle possède un processeur audio PCM Texas Instruments avec 6 voies mono. Elle est suivie en 1989 de la Sega Genesis ou MegaDrive, composée d’un coprocesseur Zilog Z80 fonctionnant à 4 Mhz, de contrôleurs PSG et de processeurs FM (Frequency Modulation), elle propose six canaux stéréo et 8 Ko de mémoire RAM sont alloués au son pour une mémoire totale de 64 Ko. En 1991, Nintendo lance la Super Nintendo Entertainment System : elle comporte 8 canaux stéréo, peut utiliser des échantillons compressés, possède un PCM de 16 bits et 64 Ko de mémoire RAM pour le son, pour une mémoire RAM totale de 128 Ko. En 1995, Sony sort la Playstation 32 bits. Les puces dédiées au son ont 24 canaux et permettent une qualité CD stéréo avec une fréquence d’échantillonnage de 44,1 kHz, de plus elles sont capables de gérer des effets numériques tels la réverbération et les boucles. 512 Ko de mémoire RAM sont consacrés au son, pour une capacité totale de 2 Mo. La Playstation peut traiter les sources ADPCM, Adaptative Differential Pulse-Code Modulation (le DPCM ou Differential (ou Delta) pulse-code Modulation est une technique qui « encode les valeurs PCM comme les différences entre la valeur actuelle et la suivante »33 ; « L’ADPCM est une variante du DPCM qui varie la taille de pas de 32 « It is a digital representation of an analogue signal where the magnitude of the signal is sampled regularly at uniform intervals of duration », < www.wordiq.com. > 33 « Differential (or Delta) pulse code-modulation encodes the PCM values as differences between the current and the previous value », < www.thefreedictionnary.com. > 29 quantification afin d’obtenir davantage de réduction de la largeur de bande pour un rapport signal - bruit donné »34.) En 1996, Nintendo sort la Nintendo 64 N64 avec un système de 64 bits ; elle possède 24 canaux de son et une qualité sonore 16 bits pour une fréquence d’échantillonnage de 48 kHz (qualité DAT). En 2000, Sony sort la Playstation 2 avec un processeur de 128 bits, le Emotion Engine CPU ; le système comporte 48 canaux, avec la technologie 3D surround et 2 Mo de mémoire RAM pour le son ; elle propose une fréquence d’échantillonnage de 48 kHz. En 2001 sortent la Nintendo GameCube et la Xbox de Microsoft ; le DSP (Digital Signal Processor) de la GameCube supporte 64 voies simultanément et les formats ADPCM et PCM ; elle permet le positionnement en 3D du son. La Xbox possède un processeur de 64 canaux audio (jusqu’à 256 voies stéréo) supportant les librairies DLS2 et permettant l’encodage AC3 (Dolby Digital) en temps réel : ainsi, une fois les effets de positionnement audio calculés au sein de l’APU (audio processeur unit), celui-ci les encode au format AC3 pour offrir le meilleur positionnement possible. Dans le cas où seulement deux enceintes sont utilisées, un mixage stéréo est réalisé sur deux canaux. La Xbox possède de plus la possibilité d’une reproduction sonore en Dolby Digital Surround. b. Les ordinateurs. En 1982, Commodore Business Machines annonce le Commodore 64, un microordinateur principalement dédié aux jeux. Il s’agit du premier ordinateur personnel pourvu d’un circuit intégré permettant de produire du son, le SID Sound chip. Les Atari ST et Amiga 500 disposent dès 1985 de sons échantillonnés avec une résolution de 8 bits ; les ordinateurs Amiga pouvaient utiliser tout échantillon de format PCM, ils étaient plus destinés aux musiciens et au travail en studio. Ce n’est qu’en 1987 que sort le premier standard de sons pour les ordinateurs IBM PC, Adlib ; cette carte son, de résolution 8 bits, 34 « Adaptive PCM is a variant of DPCM that varies the size of the quantization step, to allow further reduction of the required bandwidth for a given signal-to-noise ratio », ibid. 30 permettait en standard une sortie son amplifiée à volume réglable et disposait d’une entrée « mic/line » ; elle ne pouvait utiliser, contrairement aux ordinateur Amiga, que le processeur OPL Yamaha pour synthétiser des sons. En 1989, le standard Adlib est remplacé par les cartes SoundBlaster35 ; la première SoundBlaster (novembre 1989) propose 11 voies de synthèse FM utilisant le processeur OPL2 de Yamaha ; elle possède un processeur de signal numérique permettant la restitution du signal numérique de sons échantillonnés en mono. En 1991 la SoundBlaster Pro présente une capacité stéréophonique. 1992 est l’année de sortie de la SoundBlaster 16, carte son 16 bits pour PC ; elle propose une extension (carte fille) permettant la synthèse de table d’onde36, compatible avec le standard General MIDI. La Soundblaster AWE 32 paraît en 1994 ; elle comprend deux processeurs pour le son, le Creative Controller et le processeur EMU8000 supportant 30 voies de synthèse de table d’onde. Elle permet le traitement analogique avec des filtres résonnants, possède 512 Ko de mémoires et deux slots SIMM 30 branches permettant de rajouter jusqu’à 16 Mo de mémoire additionnelle. En 1996, la SoundBlaster AWE64 succède à la carte AWE32, elle possède les mêmes spécificités mais utilise des composants ASIC, ce qui réduit le nombre total de composants nécessaires et son coût d’achat puisqu’un ASIC, Application Specific Integrated Cuircuit, comprend un circuit intégré fonctionnant pour une tâche particulière, ce qui le rend plus performant pour celle-ci qu’un circuit général. En 1998 la SoundBlaster PCI64 permet la quadriphonie. La SoundBlaster live ! lui succède en août 1998 ; elle utilise le nouveau processeur EMU10K1 qui comprend une sortie en 5.1, l’accélération DirectSound, le General MIDI, la technologie EAX (Environnemental Audio Extensions), un synthétiseur de table d’onde de 64 voix et le DSP FX8010 pour les effets audionumériques en temps réel : la fréquence d’échantillonnage est de 48 kHz. 35 Cet historique concernant l’évolution des capacités audio pour les ordinateurs ne prend en compte que l’évolution des cartes sons de Creative Labs, la technologie développée par cette entreprise étant une référence dans le domaine des cartes sons pour particulier. Il n’est pas notre sujet d’évoquer les cartes sons professionnelles (pour l’enregistrement), mais uniquement de développer l’avancée technologique pour l’audio concernant le jeu vidéo. 36 La synthèse de table d’onde est utilisée pour reproduire des sons naturels : le son d’un instrument existant est échantillonné puis stocké à l’intérieure de la table, qui s’apparente à une collection de petits échantillons. La table imite le son original en jouant de façon répété et en boucle ces échantillons. 31 En 2001, sort le SoundBlaster Audigy, carte son 24 bits, qui permet une lecture jusqu’à 96 kHz de fréquence d’échantillonnage et un enregistrement à 48 kHz ; elle supporte quatre environnements EAX simultanément et une sortie en 5.1. La SoundBlaster Audigy 2 (2002) permet la lecture jusqu’à une fréquence d’échantillonnage de 192 kHz et l’enregistrement jusqu’à 96 kHz. Elle supporte une sortie en 6.1. *** Cet historique montre une avancée technologique pour le son beaucoup plus nette à partir des années 1990 que cela soit au niveau des consoles ou des ordinateurs PC : l’augmentation des capacités de mémoires et de stockage, de la mémoire allouée au son, de même que l’apparition de la norme MIDI et de ses nouvelles spécificités (vide infra), de processeurs audio permettant la synthèse audio et la transformation en temps réels des fichiers sons, l’évolution des techniques d’échantillonnage et de la restitution sonore, l’apparition de nouveaux outils audio, ont abouti à une qualité du son enregistré mais aussi du son diffusé de plus en plus élevée, et des possibilités d’immersion sonore également accrues. La référence à plusieurs technologies dédiées au son (la norme MIDI, les technologies audionumériques et les outils audio spécialisés tel l’EAX) appelle d’autres développements notamment pour mettre en évidence en quoi ces technologies permettent l’interactivité de l’audio pour une qualité du son de plus en plus grande dans le jeu vidéo. 32 2) Le MIDI. a. Le MIDI, technologie et spécifications de base. Le MIDI, ou Musical Instrument Digital Interface, a été présenté en janvier 1982 par Dave Smith et Chet Wood (Sequential Circuit) comme une interface revue et corrigée de l’USI (Universal Synthesizer Interface) mise au point en 1981 et qui consistait à ne transmettre une information qu’à détection d’un évènement (note enfoncée, relâchée par exemple). Le MIDI a été développé pour créer un standard qui permettrait aux instruments tels les synthétiseurs, les échantillonneurs, les séquenceurs et les boîtes à rythmes de communiquer entre eux quelle que soit leur marque de fabrication. Il y a actuellement trois éléments qui caractérisent le MIDI : le Protocole de communication (le langage), la connectique ou l’interface matérielle (câble terminé par une fiche DIN à cinq broches, trois possibilités de ports : out, in, thru) et un format de distribution appelé le Standard Midi Files. Le protocole MIDI est un langage de description entièrement musical de forme binaire ; chaque mot décrivant une particularité musicale est assigné à un code binaire spécifique. On peut transmettre des notes (hauteur et vélocité, mais pas la durée), le choix des sons, des paramètres de contrôle du son (volume, pédale de maintien, panoramique, réverbération, filtre, vibrato par exemple) mais aussi des signaux de synchronisation entre instruments ou des messages « système » spécifiques (description de sons, données techniques, réinitialisation notamment). Le Standard MIDI File est un format de fichier utilisé pour stocker les données MIDI. Ce format emmagasine les messages MIDI avec un “time-stamp” pour chaque message (c'est-à-dire une série de bits qui représente le nombre de pulsations de synchronisation nécessaire avant d’entendre jouer l’évènement). Le Standard MIDI File permet trois formats de données 0, 1 et 2 : le format 0 est le plus simple, enregistrant toutes les données, respectant le temps de manière séquentielle sans prendre en compte l’assignement des pistes ; les données musicales sont sauvées globalement sur une seule piste. Le format 1 permet des pistes multiples utilisant le même canal MIDI et le format 2 permet aux fichiers multipistes d’être ordonnés séquentiellement. 33 Le fichier MIDI ne contient pas l’information concernant l’instrumentation, c’est-àdire que les sons d’instruments correspondent à des nombres particuliers de changements de programme (ou Program Change, message utilisé pour changer un son) ; ainsi le General MIDI est ce qui permet l’assignement standardisé des voix. b. L’assignement standardisé des voix, le General MIDI (ou GM). Le GM1 adopté en 1991 permet une spécification minimale : il définit notamment la liste des sons d’instruments (128 Program Change), la liste des sons de percussions sur le canal 10 (drum map), la gestion de quelques effets simples (comme la réverbération), la polyphonie minimale (24 notes jouées simultanément) et la multi-timbralité minimale (nombre de sons différents joués simultanément). Avec des ensembles standardisés de sons mélodiques et de percussions et divers contrôles (modulation, volume, panoramisation, par exemple), le GM permet d’assurer le compositeur que sa musique sonne comme il le souhaite sur n’importe quel équipement MIDI. Le GM2 (adopté en 1999) est un ensemble d’extensions du GM1 qui accroît le nombre de sons et le nombre de contrôles disponibles pour l’édition de sons et la représentation musicale. Une spécification appelée Sclable Polyphony MIDI (ou SP-MIDI) permet aux compositeurs d’indiquer aux données MIDI de quelle manière elles doivent être utilisées pour des matériels acceptant des polyphonies différentes ; par exemple, si nous prenons le cas d’une composition écrite pour une polyphonie de 32 notes avec le GM2 et jouée sur un matériel ne supportant que le GM1, le SP-MIDI permet d’éliminer certaines parties instrumentales choisies par le compositeur. c. Le DLS (Downloadable Sounds) et le XMF (eXtensible Music Format), deux spécifications qui permettent l’interactivité de l’audio. La spécificité DLS. Le Down-Loadable Sounds (DLS) est une spécification MIDI adoptée en mai 1996. Le DLS est un procédé par lequel des sons, sous forme de tables d’ondes d’instruments, peuvent être chargés dans une case spécifique de mémoire, correspondant à des nombres 34 spécifiques de changements de programmes, à l’intérieur d’un synthétiseur ou d’un autre matériel générateur de sons. La spécification du DLS accroît celle du General MIDI en offrant la possibilité aux développeurs de jeux et aux compositeurs d’apporter leurs propres sons aux cartes sons PC, plutôt que de dépendre de l’ensemble des sons fixes du GM ; les fichiers ainsi téléchargés (.WAV ou autre format PCM) sont stockés à l’intérieur d’une banque DLS et utilisés comme tout autres instruments du GM, ce qui permet une économie importante de mémoire utilisée ; au lieu, par exemple d’avoir deux minutes d’un solo de violon en .WAV, il suffit de prendre un court échantillon de l’instrument et de générer la partition en MIDI. Avec le DLS, des sons adaptés à un choix particulier peuvent être créés et des sons d’instruments déjà existant améliorés avec des effets spéciaux obtenus par simple chargement de nouvelles banques d’échantillons. Le DLS permet ainsi au compositeur de composer une musique interactive en utilisant des sonorités acoustiques, et non plus seulement synthétiques, et lui assure une restitution musicale fidèle à l’original quel que soit le matériel de l’utilisateur. Le DLS-2 (janvier 2000) est une amélioration du DLS ; il introduit une nouvelle fonctionnalité pour le contrôle logique appelée « Conditionnal Chunk », ou module conditionnel. Les « Conditionnal Chunks » peuvent être utilisés pour créer des librairies qui ont la capacité de recevoir et d’envoyer des informations, en d’autres termes d’être lues et éditées. Par exemple un instrument dans une librairie peut contenir les parties spécifiques du DLS-1, du DLS-2 et des parties propres à l’utilisateur ; l’analyseur de fichier sélectionnera alors les parties appropriées pour l’application spécifique en cours. La spécificité du XMF. Le XMF (eXtensible Music Format) est apparu en septembre 2001 ; c’est un nouveau format de fichier MIDI dont la spécificité est la distribution de contenus musicaux et audio pour des applications utilisant Internet. Le XMF permet aux compositeurs de combiner le MIDI avec d’autres formats audio dans un même ensemble, ou fichier, et d’appliquer des contrôles d’écoute appropriés pour la musique destinée au Web et aux jeux en réseaux notamment. Le XMF supporte les instruments du GM et les instruments du DLS dans un même fichier, ceux-ci pouvant être alors organisés pour un démarrage plus rapide ; les instruments du GM étant par spécification déjà stockés, le XMF permet de charger plus rapidement qu’un fichier DLS normal. Cette rapidité de stockage permet 35 que la musique soit réarrangée et éditée durant l’écoute, ce qui fait du XMF un format très adapté à une musique interactive. *** La spécificité DLS permet une économie importante de mémoire par rapport à l’utilisation d’un fichier audio qui contiendrait une séquence musicale entière, cependant l’avancée des techniques de compression permet également de réduire de plus en plus la taille d’un fichier audio pour une qualité audio convenable. Nous expliquerons les techniques d’échantillonnage et de compression afin de mettre en évidence les formats de fichiers audio les mieux adaptés aux jeux. 3) L’audionumérique. a. L’échantillonnage. Le concept essentiel de l’enregistrement audionumérique est l’échantillonnage, c'est-àdire la conversion de signaux analogiques continus en signaux discrets échantillonnés temporellement. Le théorème de l’échantillonnage ou théorème de Nyquist (1928), définit la relation entre le taux d’échantillonnage et la largeur de bande du signal transmis : « Pour toute déformation donnée du signal reçu, le domaine de fréquence transmis doit être augmenté en proportion directe avec la vitesse du signal (…) La conclusion est que la largeur de fréquence est directement proportionnelle à la vitesse […] Afin d’être capable de reconstruire un signal, la fréquence d’échantillonnage doit être le double de la fréquence du signal échantillonné »37. La fréquence d’échantillonnage influence donc de manière déterminante la précision du signal discret et donc du signal analogique qui sera restitué. Lors de l’échantillonnage, chaque valeur d’amplitude est convertie sur une échelle déterminée par le nombre de bits utilisés. Mais la donnée une fois codée sous forme numérique peut être le plus souvent codée de manière plus efficace, en utilisant moins de bits : c’est le principe de compression. 37 ROADS Curtis, L’audionumérique, Dunod, 1998 pour la version française, p. 31. 36 b. Les techniques de compression. La compression audio est une forme de compression de donnée désignée pour réduire la taille des fichiers de données audio. Les algorithmes de compression audio se réfèrent aux CODEC (COder/DECoder) audio ; il en existe deux catégories permettant l’effet de compression : les algorithmes dits « sans perte » (lossless) et ceux avec « perte légère » (lossly). Les pertes engendrées par la seconde catégorie d’algorithmes, sont souvent peu discernables, car ceux-ci utilisent des procédés psycho-acoustiques et les propriétés relatives à l’anatomie humaine. Le CODEC encode les informations audio et vidéo emmagasinées ensuite dans un format de fichier. Il existe plusieurs formats de fichier audio, les trois plus répandus étant le format AIFF (Audio Intercheangeable File Format), le format WAV. (WAVeform audio format) et le format MP3 (type de format MPEG Moving Picture Experts Group). c. Les formats de fichiers audio les mieux adaptés aux jeux vidéo. Le format de fichier audio AIFF. Le format AIFF se conforme au standard EA IFF 85 du format de fichier IFF Interchange Format File, créé par Electronic Arts en 1985. Tous les fichiers AIFF consistent en un groupe de données appelées « chunks » ou masses, un fichier se présentant comme un simple « chunk » qui en comprend plusieurs autres. Il stocke les données audio uniquement au format PCM, donc sans compression. Les fichiers AIFF tendent à être beaucoup plus gros que les autres formats audio, excepté le format PCM WAV.présentant une taille et des fonctionnalités équivalentes ; de plus, contrairement, notamment, au format MP3, ils ne peuvent être lus qu’une fois chargés intégralement. Le format de fichier audio WAV. Il s’agit d’un format de fichier audio créé par Microsoft et IBM en 1992 pour stocker l’audio dans les ordinateurs PC ; il est le principal format utilisé sous Windows pour 37 l’audio brut. Il est une variante de la spécification RIFF (RIFF bitstream Format), méthode pour stocker les données dans une « masse ». Un fichier WAV. est le plus souvent, seulement, un fichier RIFF avec une masse simple « WAV » qui consiste en deux sous masses : la masse « fmt » spécifiant le format de donnée, indiquant ainsi le type de compression, et la masse de « donnée » contenant l’actuel échantillon. La spécification WAV. supporte un nombre important d’algorithmes de compressions différentes. La qualité de restitution maximale est obtenue avec un encodage sans compression qui correspond au format PCM WAV. Le format de fichier audio MPEG/MP3. Le MPEG (Moving Picture Experts Group) s’est formé en 1988 afin de développer des standards pour l’encodage de la vidéo et de l’audio. Le format MPEG comprend 7 formats dont le MPEG-1, standard de compression pour la vidéo et l’audio et le format MPEG-4, qui étend les capacités du MPEG-1 pour le contenu 3D et les objets vidéo/audio. Il existe en outre plusieurs variantes du format MPEG-1, appelées layers, chacune de ces variantes correspond à un niveau de complexité et à un taux de compression sans perte perceptible : le MPEG-Layer 1 permet une compression de rapport 3 pour 1, le MPEGLayer 2 de 6 pour 1, le MPEG-Layer 3 de 11 pour 1. Chaque niveau nécessite plus de CPU. Le format le plus courant est le MPEG-Layer III, ou MP3, apparu en 1995 ; il possède des CODEC capables d’une compression à «faible perte » acceptable pour les fichiers musicaux. Afin de minimiser l’espace requis par un ensemble de fichiers sonores, l’encodeur MP3 compresse le son en supprimant des informations peu facilement discernables pour l’oreille ; ainsi suivant la courbe de réponse en fréquence de l’oreille humaine, le codeur MP3 supprime les extrêmes graves et aigus, auxquelles l’oreille est moins sensible ; il supprime de même les fréquences rendues inaudibles par les effets de masque (il supprime par exemple les sons faibles lorsqu’ils sont émis conjointement avec des sons beaucoup plus forts). Les formats de fichiers audio AIFF et PCM WAV. sont dits « format de données non compressées » ; ce sont de très bons formats pour le stockage et l’archivage 38 d’enregistrements originaux, cependant leur taille fait qu’ils sont très peu adaptés pour le jeu vidéo, contrairement au WAV. avec compression, et surtout au MP3. Cependant un nombre croissant de jeux utilise des formats de fichiers audio et des CODEC plus adaptés pour l’audio et la vidéo et qui ne nécessitent, par ailleurs, pas de licence, tel le format Ogg Vorbis. Le format de fichier Ogg Vorbis. Le format de fichier Ogg Vorbis, apparu en 2002, est un format complètement libre et non breveté ; ses spécifications sont du domaine public. Ogg est le nom du format Xiph.org’s contenant l’audio, la vidéo et les meta-données ; Vorbis se réfère aux algorithmes de compression spécifiques pour l’audio contenu dans le format Ogg. Le CODEC Vorbis se base sur un encodeur psycho-acoustique plus performant que celui du MP3 ; pour une taille donnée de fichier, le son Vorbis est d’une qualité meilleure que celle du MP3, ce qui signifie également que pour une même qualité du son, le fichier Ogg Vorbis prend moins de place. Le CODEC Vorbis peut encoder une haute qualité stéréo CD ou DAT à 48 Ko bits par seconde, sans re-échantillonner à un taux plus faible ; il est capable de taux d’échantillonnage pouvant aller de 8 kHz à 192 kHz et d’une étendue importante de représentation de voies (monaurale, polyphonique, stéréo, quadriphonique, 5.1, ambisonique, ou 255 voies discrètes). En raison de ses spécificités plus performantes que celles du MP3 et de son statut complètement libre de droit, de nombreux développeurs de jeux vidéo utilisent ce format pour compresser l’audio, notamment les sociétés de développement Epic GAME (série des Unreal Tournament, Unreal tournament 1 (1999)), Crystal Dynamics (Soul Reaver 2 (2001) et Blood Omen 2 (2002)) ou EA GAMES (Harry Potters and the Chamber of Secrets (2002)). *** Une fois la séquence musicale stockée dans un fichier son, des outils conçus spécifiquement pour les jeux vidéo permettent la phase d’intégration du fichier audio dans l’espace de jeu c'est-à-dire d’automatiser sa lecture pour une situation donnée. Ces outils donnent également la possibilité de transformer les fichiers audio en temps réel et de 39 contrôler la diffusion du son, ils permettent ainsi de rendre plus flexible le son et la musique stockés. 4) Des outils qui permettent l’intégration et l’interactivité de l’audio dans le jeu. o L’OpenAL est apparu en 1999, son principe est dérivé de l’OpenGl (Open graphic library) et il utilise des API38 semblables. L’OpenAl peut être décrit comme une interface logicielle au matériel audio ; cette interface consiste en un nombre de fonctions qui permettent au programmeur de spécifier les objets et diverses opérations pour la production d’une sortie audio en multicanaux ; l’OpenAl permet de décrire les principaux aspects au niveau sonore d’une scène virtuelle en trois dimensions (caractéristiques des sources sonores, acoustique de la pièce, positions de l’auditeur) et de programmer les évolutions de ces éléments par une codification du jeu. Il inclut des fonctions d’appel d’effets pouvant ainsi transformer en temps réel les fichiers audio, et contient des fonctions de mixage des échantillons audio, de n’importe quel format PCM, sans limite de nombre de canaux pouvant être mixés. o La technologie EAX est développée par la société Creative Labs depuis 1999 : c’est un ensemble de sons 3D et de fonctions de spatialisation. La caractéristique TM, multi-environnements, du EAX 4.0 API permet la production d’environnements audio multiples et simultanés et des effets en temps réel. Le sound designer utilise une interface graphique pour décrire l’acoustique de chaque pièce et la disposition de chacune d’elle par rapport aux autres. Cette description en génère une autre sous forme binaire inclue dans le programme du jeu ; le programmeur accède à ces données à travers une librairie. o Le DirectMusic Producer, développé par Microsoft, est un outil de DirectMusic, composant du DirectX dont les premières versions sont apparues sous Windows95. DirectMusic contient les fonctions du General MIDI et des fonctions générales destinées à la composition de musiques génératives. Il supporte la spécification DLS pour la synthèse de table d’ondes. DirectMusic Producer est une interface graphique, qui permet de définir des styles de compositions qui impliquent des évènements en temps 38 L’API, Application and Programming Interface, est une interface par laquelle une application d’un programme accède au système opérateur ou à d’autres services. 40 réels. Un style est composé suivant trois sortes d’éléments : les orchestrations (Band), les motifs et les styles. L’éditeur de Pattern (style) est une interface sous forme d’un séquenceur MIDI, il inclut tous les éléments d’un style de musique particulier (les principes fondamentaux d’harmonie) suivant la partition et les paramètres MIDI. Le compositeur a la possibilité de profiter, pour un style donné, d’un ensemble de variations qui peut être utilisé de façon aléatoire suivant les évènements. Les motifs correspondent aux éléments du contrepoint : les motifs et les pattern forment la partition musicale. La fonction d’orchestration permet de spécifier un ensemble d’orchestrations possibles. o L’ISACT ou « Interface Spatial Audio Composition Technology », est introduit par Creative Labs pendant l’été 2003. Il s’agit d’un outil audio qui permet de créer une musique interactive spatiale en trois dimensions et à multicanaux, et l’application d’effets sonores. L’ISACT permet de repositionner le son quelque soit le dispositif d’enceintes, la panoramisation de l’audio s’effectuant suivant des coordonnées spatiales. o Le FMOD est un système pour l’audio apparu en 2001 fonctionnant sous Windows, Linux, Mac OS, GameCube, PS2 et Xbox. Le moteur audio supporte le mixage en qualité 32 bits, les modifications imprévues de volume, avec une suppression des cliques pour des changements abruptes de volume ou de panoramisation, sans affecter le CPU, et comprend des algorithmes permettant l’atténuation de l’effet Doppler pour l’environnement 3D. Du point de vue de ses capacités de lecture, la technologie FMOD supporte notamment le MIDI, le format WAV., AIFF, le support ADPCM pour n’importe qu’elle plateforme sans que cela nécessite de CODEC, le MP2 et MP3, les formats WMA (Windows Media Audio) et ASF (Advanced Streaming ou Systems Format)39, et le format Ogg Vorbis ; il présente une variété de commandes capables de synchroniser les graphismes avec la musique, et un ensemble d’effets DSP. Il supporte la technologie EAX 2 et 3. 39 Le format ASF fait partie de la charpente de Windows Media. Le ASF est un « wrapper » audio/vidéo numérique spécialement conçu pour le « streaming », c'est-à-dire le flot de données (un « wrapper » est une partie de code combiné avec une autre partie de code afin de déterminer la façon dont ce code est exécuté). Les données audio contenues dans les fichiers ASF sont compressées par un CODEC WMA. 41 Conclusion de la première partie. Nous avons proposé une définition des concepts d’interactivité et d’adaptabilité pour les éléments sonores, dans le cadre du jeu vidéo : l’adaptation musicale se présente uniquement dans un jeu vidéo sous forme d’une traduction musicale des actions du joueur. Il convient de revenir, à ce point de notre étude, sur ce que devrait être une musique adaptative afin qu’elle s’insère dans une corrélation avec le système de représentation. Une véritable musique adaptative serait une musique qui s’adapte au comportement du joueur, à sa façon d’appréhender l’environnement dans lequel il évolue, et non uniquement une musique qui s’adapte à sa capacité à agir, notamment à atteindre un objectif (c.f l’exemple du jeu Rez). Pour les jeux vidéo sur ordinateur où souvent le nombre de commandes de jeu avoisine la vingtaine, à chacune d’elles correspond un état actif du joueur ; une analyse, par exemple, du nombre de fois où la commande de tir serait utilisée dans un intervalle donné de temps et par rapport aux évènements, permettrait à un programme de considérer un certain niveau d’agressivité du joueur et de déclencher les éléments musicaux en conséquence. A l’inverse une moyenne faite par rapport au nombre de fois où le joueur utiliserait le mode discret pour se déplacer (commande notamment disponible pour les jeux Thief, Dark Project 2 : The Metal Age, No One Lives forever 2 (2002) ou Beyond Good and the Evil) permettrait de déterminer le caractère prudent ou non du joueur et pour le programme d’amener les évènements musicaux adaptés aux sentiments, à l’état d’esprit du joueur pendant l’expérience. Il y aurait ainsi une mise en correspondance entre ce que le joueur ressent par rapport à l’environnement représenté et la musique qui est jouée. Il ne faut pas considérer bien sûr que cela devrait être le seul élément d’intervention des éléments musicaux, la musique perdrait alors son rôle fonctionnel, notamment de mise en contexte et informationnel. Cependant pour des phases de jeux précises dont il faudrait alors définir les particularités, cette correspondance entre le ressenti du joueur et la musique (dans le sens joueur vers la générativité musicale), pourrait être un élément important : l’adaptation musicale serait alors le résultat musical de l’interaction entre le système de représentation et les émotions du joueur pendant l’expérience ; elle renforcerait l’acceptation par le joueur de ce qui lui est proposé. 42 Nous avons vu que l’avancée de la norme MIDI, des algorithmes de compression, de même que l’apparition d’outils spécialisés pour l’audio développés exclusivement pour le jeu vidéo, permettent depuis le milieu des années 1990 une utilisation de plus en plus flexible des fichiers audio pouvant ainsi s’intégrer dans un cadre interactif, pour un degré d’interactivité également de plus en plus élevé : ainsi les sonorités acoustiques peuvent être utilisées non plus uniquement dans le cadre d’une musique linéaire privilégiant seulement l’émotion, comme dans le cas des scènes cinématiques, mais aussi en cours de jeu dans un cadre interactif ; il ne s’agirait plus en outre d’utiliser le MIDI ou les sons échantillonnés suivant le niveau d’interactivité choisi, mais de faire de ces deux techniques la meilleure combinaison possible. L’apparition de la norme DLS et XMF et des outils audio ont permis d’accroître également les possibilités concernant l’approche des procédés de composition ; l’interactivité devenant possible pour les sons échantillonnés, cela implique la possibilité de pouvoir composer une musique de qualité audio, instrumentale voire orchestrale et qui puisse répondre aux exigences d’interactivité du gameplay. Les outils et moteurs audio spécialisés donnent la possibilité au compositeur d’établir un scénario musical qui, malgré la part d’aléatoire, va permettre de respecter sa vision musicale, le sens qu’il a voulu donner aux sons en rapport avec les évènements et le visuel. Cependant, le problème inhérent à l’interactivité dans le jeu vidéo, reste la répétition des séquences musicales et des éléments sonores ; la non linéarité implique de ne pouvoir prévoir à l’avance les actions du joueur et donc de ne pouvoir rendre unique chaque son, contrairement au cinéma : il conviendra d’étudier les procédés, au niveau de l’approche musicale, permettant de rendre la répétition moins évidente. Le parallèle entre le jeu vidéo et le cinéma concernant le rapport entre l’image et le son a mis en évidence la difficulté qu’implique l’interactivité pour maintenir la cohérence de ce rapport : la norme DLS et les outils spécialisés apportent une solution pour les problèmes liés aux transitions musicales, cependant leur utilisation doit s’accompagner d’une approche particulière pour la composition, ce que nous allons détaillée ci-après. Cette comparaison a révélé également des similitudes entre le jeu vidéo et le cinéma concernant l’association du média visuel et du média sonore ; nous expliquerons la nature de l’influence du cinéma sur le jeu vidéo et les conséquences du point de vue de l’approche du son et de la musique pour le jeu. Notre analyse sonore et musicale du jeu Myst III : the Exile (2001) mettra notamment 43 en évidence une approche particulière de la composition du son et de la musique qui permet le déclenchement aléatoire des séquences musicales et ainsi d’éviter la répétition, tout en maintenant la cohérence musicale. 44 II. Procédés de composition et analyses sonores et musicales. A. Procédés de composition. 1) Quelles questions se poser avant d’aborder la composition d’une musique de jeux vidéo ? Pour G. Whitmore40, il est nécessaire qu’il y ait une collaboration entre le game designer41 et le compositeur, chaque individualité apportant des idées diverses sur la façon dont la partition peut au mieux accompagner le jeu, du point de vue du style musical et des techniques de dramatisation, et de convenir de la façon, du moment et de l’endroit où la musique doit être efficace et les raisons. Le game designer a le plus souvent une idée générale de la musique et le compositeur précise cette idée, trouve des solutions spécifiques sur les questions techniques et concernant la composition qui peuvent survenir. Cette collaboration entre le game designer et le compositeur pourrait se présenter sous la forme d’un document, dit de « design musical », suivant le modèle : o Quelle importance doit avoir la musique dans le jeu ? o Quel style de musique est le plus approprié ? o A quels moments la musique doit elle créer une ambiance ou au contraire être intense ? o A quoi doit ressembler la musique lors des phases de transition ? o Quels sont les thèmes musicaux appropriés ? o Quels aspects du gameplay bénéficient des accentuations musicales ? Les sections importantes de ce document contiennent donc les en- têtes suivantes : o La direction musicale : codification du style musical, échelle des modes musicaux, par exemple. o Les thèmes : choix des différents thèmes suivant les différents mondes représentés notamment. 40 G. WHITMORE, Design With Music in Mind : A Guide to Adaptative Audio for Game Designers, < www.gamasutra.com >, 29 mai 2003. 41 Le game designer est celui qui crée les règles du jeu, et parfois aussi le scénario, ou le monde représenté dans le jeu vidéo. 45 o Fonctionnalité et interactivité42 : décrire de quelles façons la musique se comporte dans le jeu et le degré d’interactivité que l’on veut. o Exigences techniques : les outils et la technologie utilisés. o Intégration et réalisation : de quelles façons le système musical va communiquer avec la machine, et quelle technique utilisée pour la réalisation musicale. o Le procédé de production. 2) Comment aborder la composition d’une musique interactive dans le jeu vidéo? a. Construire un « squelette » musical. Une musique figée, c'est-à-dire destinée seulement à l’écoute, est par essence non interactive. La difficulté rencontrée est, que la plupart du temps, ce que l’on veut apporter à une séquence pour la rendre interactive lui enlève une certaine qualité du point de vue de l’arrangement. Par exemple, si l’on veut qu’une séquence puisse à tout moment intervenir alors qu’une première est déjà jouée, il faut composer la première séquence de façon qu’elle soit consonante avec la seconde quel que soit le moment de départ de cette dernière (par exemple lorsque l’on compose une ligne mélodique ayant pour fonction d’avertir l’arrivée d’un ennemi, ce qui est un évènement aléatoire). Cela signifie que l’on va se limiter, le plus souvent, aux règles d’harmonisation classique, en choisissant des notes par rapport à une fondamentale qui puissent coïncider avec les notes de l’autre séquence. Le compositeur a une vision artistique claire de la façon suivant laquelle une musique doit sonner ; dans le cadre d’une musique interactive, il doit imaginer une musique qui puisse sonner de différentes façons. Le principe est donc de créer le squelette d’une musique, en lui apportant diverses ramifications ; chacune d’entre elles est entendue à un moment spécifique et représente musicalement un état de jeu ; elles doivent être construites de façon à sonner correctement entre elles dans le cas où plusieurs séquences sont jouées simultanément et ces ramifications doivent se fondre avec le squelette musical car leur intervention est aléatoire. 42 Guy WHITMORE utilise le terme « adaptabilité » d’une façon erronée ; il considère la notion d’adaptabilité musicale comme une musique qui pourrait réagir différemment et de manière efficace suivant les actions du joueur et les anticiper, ce qui correspond en réalité à notre définition de l’interactivité. 46 On voit dès lors que se pose le problème des transitions, donc de la continuité musicale. b. L’étude nécessaire des transitions musicales. De bons changements interactifs dans une musique ne devraient pas provoquer une interruption sonore lors du passage d’une séquence à une autre : changer progressivement un élément musical pour un autre dans un environnement de jeu non linéaire est nécessaire pour maintenir le fil du déroulement du gameplay ; les transitions permettent d’assurer la continuité de la partition musicale et donc du jeu lui-même. Il existe différents types de transitions dépendants des spécificités du scénario du jeu et permettant d’assurer une haute interactivité de la partition musicale. Une transition peut se présenter sous la forme d’un silence entre deux éléments musicaux, d’un dégradé sonore, d’une juxtaposition directe ou bien encore d’une superposition synchronisée. Le problème est que la coordination d’une transition n’est pas connue dans le temps puisque tout dépend des actions imprévisibles du joueur, il est ainsi pratiquement impossible, suivant le niveau d’interactivité du gameplay, d’imaginer de créer des séquences séparées pour chaque combinaison entre des états de jeu possibles. Ainsi la musique et le système musical doivent préparer les transitions d’un élément musical avec un autre à n’importe quel moment, et ceci d’une manière satisfaisante. Il existe plusieurs procédés techniques pour aborder la composition des transitions : o « Transition d’élément à élément » suivant un système de limites musicales : quand un élément est appelé, l’élément actuel - celui qui est utilisé - joue jusqu’à une certaine limite, comme par exemple la mesure suivante, et le nouvel élément, précédemment appelé, débute. o Technique du « coupé en dégradé » (Layering) : pour un évènement donné, des instruments vont disparaître, d’autres s’ajouter, d’autres encore continuer à jouer : ce qui permet la continuité ; toutefois il est difficile de passer rapidement à un élément musical complètement différent. o « Matrice de transition » : cela permet au programme de sélectionner la transition la mieux adaptée pour des situations de jeu qui ne sont pas prévues. 47 La difficulté de préparer la transition d’un élément musical avec un autre dans un cadre non linéaire implique de définir les évènements pour lesquels de nouveaux éléments musicaux vont intervenir. c. Définir l’opportunité des changements musicaux. La plupart des évènements auxquels sont associés un élément musical ou une séquence musicale spécifique, ne sont pas incompatibles : un tempo qui s’accélère à l’approche d’un ennemi, un rythme légèrement plus soutenu lorsque le personnage court, des ajouts d’effets sonores comme une réverbération lorsque le personnage est sous l’eau. Le problème est que ces évènements se répètent fréquemment, notamment dans les RPG où l’on retrouve des schémas musicaux types, comme par exemple l’utilisation d’un orchestre imposant pendant les phases de combat ; dans ce type de jeu le joueur a en pratique une totale liberté : il peut décider d’aller autant de fois qu’il veut dans l’eau, de rentrer dans une grotte, de courir, par exemple. Les changements musicaux qui se réfèrent à des évènements spécifiques doivent être travaillés, pour une meilleure cohésion, seulement lorsque ces derniers n’interviennent pas trop fréquemment. L’utilisation de changements musicaux renvoie à la question de la répétition dans un jeu vidéo : elle est inhérente au jeu vidéo car par nature la durée du jeu n’est pas fixe et de plus sa « durée de vie » (c'est-à-dire le temps moyen nécessaire pour le terminer) peut atteindre des dizaines d’heures. d. Le problème de la répétition. Si un sound designer43 qui travaille sur la bande son originale d’un film décide d’inclure des bruits de pas, de portes qui se ferment ou des bruits de détonations de revolver, et qu’il veut que chacun de ces sons soit unique à chaque fois, il lui suffit de créer, suivant ses besoins, le nombre de cas correspondant à chaque son et de les placer ensuite sur la bande sonore. Pour un jeu cela n’est pas envisageable, non seulement à cause évidemment de la mémoire que cela utiliserait, mais aussi parce qu’il est impossible de rendre unique 43 Pour le cinéma, comme pour le jeu vidéo, le sound designer est celui qui, d’une manière générale, met en valeur le son, décide de l’intégration des sons entre eux, et par rapport à l’image et aux évènements. 48 chaque son puisqu’on ne peut prévoir combien de fois chaque sons va intervenir ; si l’on prend l’exemple d’un jeu de tir, on ne peut prévoir des sons constamment différents pour une détonation de revolver car on ne sait pas à l’avance combien de fois le joueur va utiliser son arme. La répétition est donc inévitable, la solution est de la rendre moins reconnaissable donc moins lassante dans la durée. Par exemple pour le jeu Blood Wake (2002), jeu de combat nautique sur Xbox, le sound designer A. Boyd44 explique avoir été confronté au problème de créer des sons de détonation différents et de trouver une solution afin d’éviter la lassitude du joueur en raison d’une répétition importante des mêmes sons. Son travail consista à créer des sons de détonation individuels qui présentaient une certaine puissance puis à partir de ces sons de créer deux groupes l’un correspondant aux sons produits par les armes du joueur, l’autre par celles des ennemis, et pour chacun des groupes de faire neuf variations ; le programmeur audio a ensuite mit en place un système aléatoire pour reproduire ces sons en faisant en sorte qu’un même son soit cependant répété deux fois, au minimum d’affilé. Des ajustements ont été opérés pour rendre légèrement aléatoire la hauteur et le volume et faire varier la reproduction dans le temps de ces sons afin qu’elle soit presque - mais pas tout a fait - régulière. Enfin un système de dégradés a été ajouté : ainsi lorsque plusieurs armes sont en action, plutôt que d’appeler d’autres sons du même système, le système accroît la profondeur des tirs et augmente légèrement les variations de hauteur, de volume et de durée, ce qui permet d’éviter une impression de flanger provoquée en jouant un même son plusieurs fois à des durées et des hauteurs très légèrement différentes. Au-delà ce cas spécifique où les bruitages ont une place prépondérante, pour la généralité des jeux la difficulté se situe au niveau de la répétition des séquences musicales. Pour G. A. Sanger, le changement de ton pour un évènement ou un état de jeu spécifique, est une manière de contourner le phénomène de lassitude qui découle du phénomène de répétition : une musique répétitive entraîne inévitablement dans un premier temps un détachement par rapport à la musique - la musique ne tient plus son rôle émotionnel pour un état de jeu particulier, elle n’a de plus aucun rôle informationnel - puis 44 BOYD Andrew, When Worlds Collide : Sound and Music in Film and Games, < www.gamasutra.com >, 4 février 2003. 49 dans un second temps, provoque la lassitude du joueur. Cependant la répétition est inévitable ; la solution est donc que pour les séquences musicales vouées à se répéter, leur structure se détache des éléments familiers de composition. La musique dans un jeu n’est pas nécessaire en permanence ; par conséquent, lorsque par exemple il ne se passe rien, il serait possible de faire fondre la musique pour arriver à une plage de silence. Mais la solution la plus adaptée aujourd’hui est d’utiliser des outils, comme le DirectMusic Composer, qui permettent de générer des séquences musicales à partir d’une séquence prédéfinie, même si certains compositeurs, tel G. A. Sanger, voient dans l’utilisation de ces technologies une certaine uniformisation de la génération musicale puisque ces outils sont développés suivant la perspective artistique d’un nombre restreint de personnes. 3) Le choix de l’instrumentation et du style musical. Il y a encore dix ans le compositeur de musique de jeu vidéo était limité par les moyens technologiques et devait se contenter d’une dizaine de voix de polyphonie et des 127 banques du General MIDI. Depuis quelques années, seuls l’imagination et les outils dictent l’instrumentation. Alors qu’auparavant la limitation des moyens disponibles poussait le compositeur, pour compenser, à porter une attention particulière à la composition, aujourd’hui le compositeur de musique de jeu vidéo se retrouve pratiquement dans la même situation, au niveau de l’instrumentation, que tout autre compositeur ; il a à sa disposition une palette très large de possibilités de sons, par exemple des échantillons, des enregistrements en live ou des sons synthétiques, ce qui implique aussi la difficulté de choisir. Cependant la musique d’un jeu vidéo doit demeurer singulière, unique pour chaque jeu, puisque le jeu lui-même propose une nouvelle réalité, notamment par son système de représentation. Alors que la musique du jeu tend à s’uniformiser et se commercialiser (bande originale de jeu, catégorie de nominations pour les Grammy Awards aux EtatsUnis, participation d’artistes connus du grand public pour la bande son), quels sont les éléments de la composition et de l’instrumentation qui vont faire de la musique d’un jeu une musique unique ? 50 a. L’utilisation de plus en plus fréquente de l’orchestre. L’orchestre est de plus en plus utilisé pour la musique des jeux vidéo car il représente une immensité de sons et de richesses sonores. Pour J. Wall45, utiliser un orchestre pour une bande son apporte un avantage au niveau sonore et dynamique principalement ; il y a aussi la liberté de l’écriture ; si l’on prend l’exemple de générer une partition musicale en MIDI (DLS) à partir d’un son échantillonné, il est très difficile de traduire toutes les spécificités musicales, comme par exemple le jeu en legato. Cependant l’utilisation de fichiers audio pouvant contenir jusqu’à deux à trois minutes de musique rend plus difficile l’évolution musicale en cours de jeu ; le plus souvent, ces fichiers vont s’intégrer dans le cadre d’une musique scénarisée, c'est-à-dire être programmés pour des phases de jeu spécifiées par le programme. De plus l’instrumentation orchestrale, dans un jeu, comme dans un film d’ailleurs, utilise le plus souvent les techniques connues d’harmonicité, celle de la tonalité, parce que notre propre culture musicale fait que notre oreille y est plus sensible. C’est dans ce sens qu’il se crée une certaine uniformisation de la musique, puisqu’en utilisant un orchestre la musique va se construire par thème, et par progression harmonique auxquels le joueur est plus sensible et donc, dans un sens, s’attend. b. Exemples d’instrumentation et conclusion. La plage 1 correspond au thème qui intervient au début de mission dans le jeu Tomb Raider : The Angel of Darkness (2003), type RPG. La musique a été composée par P. Connelly et interprétée par l’orchestre Symphonique de Londres. Le thème présente de fortes similitudes avec les procédés cinématographiques utilisés pour exprimer la tension : jeu en trilles, cuivres imposants et percussions qui martèlent les temps. La plage 2 est un extrait de la musique du jeu Deus Ex : Invisible War (2004), type RPG, composée par A. Brandon. Ce thème correspond à une phase de jeu se déroulant en Egypte. La musique de ce thème mélange sonorités ethniques et électroniques avec l’utilisation d’instruments indiens comme le dumbek, sorte de darbouka, un sitar et des tablas. 45 Jack WALL, Using a Live Orchestra in Game Soundtracks, < www.gamasutra.com >, 20 mai 2002. 51 Pour la plage 3, il s’agit du thème principal du jeu Freedom Figthers, type TPS, musique composée par J. Kyd ; le thème présente une forme musicale « hybride » en combinant le Chœur de Hongrie et une musique orchestrale, rappelant fortement O Fortuna (Carmina Burana, 1937) de Carl Orff et son côté grandiloquent et héroïque, avec des sons électroniques. Plage 4. Dans le jeu Morrowind The Elder Scrolls III, type RPG, plusieurs éléments d’orchestration sont combinés avec des sons synthétiques. La musique a été composée par J. Soule. Le thème est simple et accompagne la phase de jeu (il s’agit d’un des thèmes dits d’ « exploration »), il commence par l’utilisation d’une simple flûte accompagnée d’instruments à vent synthétiques avec une nuance piano ; ce thème est ensuite répété avec des nuances qui s’accentuent de mezzo piano à forte avec des instruments qui s’ajoutent à l’harmonisation, notamment les cors, et des percussions de plus en plus présentes. Le principe de composition est connu, il se base sur le principe d’imitation du thème entre les différentes voix. Le jeu de stratégie Heroes of Might and Magic III, contient près d’une soixantaine de séquences musicales dont l’organisation est totalement inspirée par la musique classique dans son sens large ; certaines séquences sont plutôt baroques, d’autre classiques, romantiques voire plus contemporaines. Les musiques ont été composées par P. Romero, R. King et S. Baca. Dans cet extrait « LAVA » (plage 5), qui correspond au thème de la « lave », il faut comprendre quand le héros est proche d’un volcan, l’orchestration est une fois de plus simple : le thème se constitue d’un ostinato dans les graves inquiétant et s’enrichie harmoniquement par l’entrée successive des instruments. Plage 6 : il s’agit d’un extrait musical du jeu Hitman 2 : The Silent Assassin, type TPS. La musique a été composée par J. Kyd et interprétée par l’orchestre Symphonique de Budapest. Cette plage correspond à la première mission du tueur à gage, elle présente les caractéristiques d’une orchestration classique avec un ostinato sérieux voire inquiétant aux violoncelles qui inspire en fait à une certaine méfiance, comme pour introduire le joueur dans un univers propre au jeu dont le but est d’opérer avec discrétion ; cette ostinato est repris aux cors; cette première partie se termine par un motif imposant avec sa marche. 52 Autre exemple, le thème principal du jeu Deus ex : The Invisible War (plage 7) réalisé par un groupe dit de « new wave » américain, Kidney Thieves46. La participation de musiciens connus du grand public pour la réalisation d’une bande son de jeu vidéo, est un phénomène de plus en plus courant ; cela permet de rendre plus efficace la musique d’un jeu car un grand nombre de personnes connaît, voire apprécie, déjà le style de musique qu’ils vont entendre (autre exemple le jeu Wipeout XL (1996), jeu de courses futuriste, avec la participation du groupe de musique électronique Prodigy). Le jeu Grand Theft auto Vice City (2002) jeu de simulation et d’aventure, utilise ce procédé de manière exclusive pour l’ensemble des séquences musicales ; la musique se présente sous la forme d’émissions musicales de différentes radios locales, chacune d’entre elles correspondant à un style de musique spécifique. Chaque chanson programmée pour une station donnée est un succès commercial des groupes les plus connus dans le style musical choisi par le joueur (par exemple la radio « Emotion 98.1 » où l’on entend Toto et Roxy Music, la radio « Flash » avec Michael Jackson et Yes, ou encore « VRock » avec Iron Maiden, Slayer et Ozzy Osbourne). Le joueur a de plus la possibilité d’insérer ses propres fichiers MP3 ou .WAV accessibles ensuite sur « Radio MP3 ». L’avantage pour le joueur est de pouvoir choisir la musique qu’il souhaite écouter, cette approche a pour but de renforcer le réalisme, par le système de radio, plutôt que de permettre une interactivité entre la musique et les évènements qui prennent place, mais aussi d’éviter la lassitude du joueur à cause d’une musique qui ne correspondrait pas à ses goûts. *** Ces quelques exemples illustrent la diversité d’instrumentations possibles pour les séquences musicales d’un jeu vidéo, elle dépend du jeu en lui-même, du monde représenté, et de ce que le compositeur et le sound designer veulent apporter comme significations à la musique par rapport à l’image et aux évènements. Du point de vue du style et de l’instrumentation, certaines musiques utilisent des procédés d’harmonisation classique, une instrumentation classique avec des sons électroniques, une bande son totalement synthétisée, d’autres enfin font appel à des artistes de musique grand public. 46 Deux albums à leur actif : Zerospace (2002) et Trickstereprocess (1998). 53 Comme nous l’avons expliqué l’approche musicale est un facteur clé pour faire en sorte que le joueur s’attache ou non aux évènements du scénario puisque la musique est vouée à être répétée dans le jeu. Nous constatons qu’il existe une certaine uniformisation des procédés d’instrumentation orientés vers un résultat musical susceptible d’être davantage compris, accepté par le joueur (notamment le mélange des sonorités ethniques et électroniques qui sont des procédés connus dans la musique électronique, la musique dite « indépendante » ou la « World Music »). L’originalité se situe plus au niveau de la composition, par un agencement notamment différent des sonorités, mais aussi par l’utilisation de formes musicales « hybrides », comme par exemple le thème principal de Freedom Fighters. Cependant il ressort fortement de ces exemples que les procédés musicaux du jeu vidéo, tout particulièrement pour les RPG et les jeux d’aventures, s’orientent également vers ceux utilisés par le cinéma, et qu’autant dans la forme (le scénario, les mouvements de caméra, la narration par exemple) qu’au niveau des sons, des bruitages et du style musical, il existe une hybridation de plus en plus évidente entre le cinéma et le jeu vidéo. Le joueur est le personnage principal, il se déplace suivant ses propres choix dans un environnement spécifique qui interagit avec lui, entre autres, musicalement : le jeu vidéo devient une sorte de « film interactif ». Pour comprendre en quoi la musique d’un jeu est un facteur particulier d’hybridation avec la musique du cinéma, il est nécessaire de définir les influences du cinéma sur le jeu vidéo, l’inverse existe aussi, ces influences constituant une forme d’hybridation qu’est la « remédiation »47 (il existe en réalité quatre formes d’hybridation : le commentaire, la citation, l’adaptation et la remédiation, cependant les trois premières formes vont plutôt dans le sens d’une hybridation cinéma – jeu vidéo48 que l’inverse). 4) L’hybridation entre le jeu vidéo et le cinéma. L’avancée des technologies a permis au game designer d’améliorer considérablement les détails graphiques d’un jeu, de faire une meilleure utilisation des environnements en trois dimensions et d’apporter au joueur des moyens d’interaction de plus en plus 47 48 Terme d’origine anglo-saxone, qui vient de « media ». C'est-à-dire dans le sens que le cinéma reprend des procédés du jeu vidéo. 54 importants avec le jeu ; mais ce n’est pas seulement cette évolution des techniques qui détermine encore aujourd’hui les progrès du jeu vidéo : l’inspiration par d’autres médias, et l’utilisation de certains de leurs procédés, est un facteur des plus importants dans l’évolution du jeu vidéo ; il s’avère alors que le cinéma émerge comme une influence essentielle. a. Le phénomène de « remédiation ». La « remédiation » est une théorie sur les relations entre différents médias proposée par J. D Bolter, professeur au New Media Studies de Wesley, et R. Grusin49, directeur de la School of Literature, Communication and Culture au Georgia Institute of Technology. Selon eux, tous les médias, qu’ils soient anciens ou nouveaux, entrent en compétition les uns les autres, s’influencent et s’enrichissent mutuellement. La « remédiation » est la base de tous les nouveaux médias qui, plutôt que de remplacer les médias plus anciens, « remédient » à ceux-ci en s’appropriant leurs techniques de représentation. La « remédiation » est la représentation d’un média en un autre. Une raison pour laquelle un média « remédie » à un autre c’est la volonté de créer ce que l’on appelle une sensation d’immédiateté. Un média qui assure une telle faculté donne à l’utilisateur ou le spectateur le sentiment d’être présent dans ce qui lui est suggéré, de le vivre ; pour J.D Bolter et R.Grusin « le désir d’immédiateté amène les médias numériques à s’emprunter certains codes et conventions entre eux mais aussi aux médias plus anciens comme le cinéma et la télévision »50. Un jeu utilise la musique et d’autres éléments sonores, des informations visuelles et un ensemble de réactions possibles afin de permettre l’immersion du joueur, en d’autres termes un jeu génère de l’immédiateté. Selon G. King et T. Krzywinska51, professeurs sur l’étude des films et de la télévision à l’université de Brunel (Londres), un hypermédia se base sur les connaissances de 49 BOLTER Jay David & GRUSIN Richard, Remediation : Understanding New Media, MIT Press, 1999. « the desire for immediacy leads digital media to borrow avidly from each other as well as from their analogue predecessors such as film, television », BOLTER & GRUSIN, op. cit., p. 9. 51 KING Geoff & KRZYWINSKA Tanya, Screen Play: Cinema/Videogames/Interfaces, Wallflower Press, 2002. 50 55 l’utilisateur « souvent à travers la conscience d’un procédé dans lequel un média se sert des mécanismes d’un autre média 52». Le jeu vidéo cherche à apporter au joueur une sensation d’immersion et celle-ci peut être possible par l’immédiateté. Donnons quelques exemples pour illustrer le phénomène de « remédiation » qu’opère le jeu vidéo sur les autres médias. Le jeu Star Wars : Rogue Leader (2002, LucasArts Entertainment) propose un univers similaire aux films de la série Star Wars et engendre ainsi une sensation d’immédiateté en se référant aux connaissances du joueur sur la série ; dans le jeu de football Winning Eleven 6 (2002, Konami) le sentiment d’immédiateté est augmenté par l’emprunt des conventions utilisées lors de la retransmission d’un match à la télévision : intervention des commentateurs, angles de vue différents qui correspondent aux changements de caméra. Comme nous l’avons montré, les FPS et certains RPG proposent un environnement en trois dimensions avec une vue subjective, transposition de la vue subjective du cinéma, ce qui renforce l’identification du joueur pour le personnage qu’il contrôle. Autre exemple, le jeu vidéo The Lord of the Rings : The Return of the King (2003, Electronic Arts) présente une « remédiation » très poussée avec les deux films de la trilogie du Seigneur des Anneaux (réalisée par Peter Jackson), le Seigneur des Anneaux : les deux Tours (2002) et Le Seigneur des Anneaux : le Retour du Roi (2003). Le jeu propose des transitions très réalistes entre des extraits vidéo issus du film et les phases de jeu, les voix des acteurs sont reprises et attribuées aux personnages du jeu, enfin H. Shore, compositeur pour le film, a participé à l’élaboration de la musique pour le jeu. L’exemple le plus flagrant de l’influence du cinéma sur le jeu vidéo est celui des scènes cinématiques. b. Conséquences du point de vue musical pour le jeu. Le but de la recherche dans le jeu vidéo n’est pas de proposer un film, tous les jeux qui ont abusé des séquences cinématiques se sont avérés un échec du point de vue de 52 « often through a consciousness of the process in which one medium draws on devices associated with another », KING & KRZYWINSKA, op. cit., p. 4. 56 l’interactivité et de l’immersion, car le joueur perd alors son rôle de personnage principal actif pour devenir spectateur. La recherche des game designer est d’ « intégrer le gameplay avec la variété, l’intensité, et, parfois, la subtilité d’un film énergique changeant constamment et qui soit d’une nature émotionnelle riche53 ». La « remédiation » du jeu vidéo avec le cinéma est directement liée à la recherche de l’immersion dans le jeu, puisqu’elle permet l’effet d’immédiateté en proposant au joueur des points de référence par rapport aux procédés de représentation qu’il connaît déjà. La recherche de l’immédiateté dans le jeu vidéo, dans le but d’obtenir l’acceptation du joueur pour ce qui lui est proposé, inscrit la musique du jeu vidéo dans une hybridation particulière avec la musique du cinéma : elle se présente comme une conséquence directe de la « remédiation » du cinéma par le jeu vidéo au niveau du traitement de l’image et du scénario. Elle reprend ainsi les procédés cinématographiques utilisés pour la musique, pour le style et l’instrumentation, afin de renforcer l’affect suggéré par le visuel ; cependant elle doit les intégrer également dans un cadre interactif. Le jeu vidéo s’inspire de la réalité et d’autres médias, comme le cinéma, pour ensuite « construire un monde » qui lui est propre : ainsi si l’on veut que la musique d’un jeu soit acceptée par le joueur (par habitude) mais en même temps qu’elle remplisse son rôle dans le système de représentation réaliste utilisé par le jeu, l’approche musicale doit être similaire. Cela implique que la musique reprenne certes des procédés d’instrumentations et s’inspire de styles musicaux connus mais en les intégrant dans un processus de composition moins conventionnel, inédit en tout cas, dans le but de servir l’interactivité musicale. Toutefois le jeu vidéo ne s’inspire pas seulement du cinéma : la « remédiation » jeu – œuvre littéraire, forme d’hybridation rare pour le jeu, est aussi possible et bien qu’elle soit particulière, elle met en évidence ce que la « remédiation » peut amener comme procédé innovant du point de vue de l’approche musicale pour le jeu vidéo. 53 « We are trying to integrate the gameplay with the variety, the intensity, and, sometimes, the subtlety of a powerful film’s constantly changing, rich emotional nature », David FREEMAN, Creating emotion in games, New Riders Publishing, 2004, p. 33. 57 Cet exemple illustre la démarche du compositeur T. Chance qui consiste en l’élaboration d’ « un guide de style musical » qui permettrait une adaptation musicale précise de l’univers de J.R.R Tolkien pour une série de jeux vidéo de Vivendi Universal Games inspirée de l’œuvre littéraire du Seigneur des Anneaux. Cette série comprend les jeux The lord of the Rings : Middle-Earth Online (sortie en 2005), The lord of the Rings : War of the Ring (2003), The hobbit (2003) et Fellowship of the Ring (2002), auxquels s’ajoute le jeu The lord of the Rings : Treason of Isengard (projet annulé). 5) Un exemple de « remédiation » jeu vidéo – œuvre littéraire. a. Une approche musicale innovante. L’objectif54 de T. Chance était de créer une musique qui serait la plus proche possible des descriptions faites par Tolkien et qui sonnerait de façon juste (c'est-à-dire qui retranscrirait musicalement l’univers du Seigneur des Anneaux) pour n’importe qu’elle personne familière de ses écrits. Il créa ce qu’il appelle « un guide de style musical tolkienien », résultat d’une analyse très précise des ouvrages de J.R.R Tolkien, afin d’offrir des directions musicales aux compositeurs qui travailleraient avec lui sur la série des jeux. Ce guide de style défini une palette d’instruments et de type de voix spécifiques pour chaque « Race » (Les Elfes, les Nains, les Hommes, les Hobbits et les « Races » de l’Enfer incarnées par Sauron), mais aussi des lignes directrices musicales attribuées à chacune d’elle qui comprennent des indications concernant l’harmonie, la mélodie et le rythme, afin d’élaborer des schémas types de partitions musicales. Ce guide comprend d’autres sections telle la qualité de production, les matrices de design musical ou des implémentations spécifiques. La principale proposition de ce guide était qu’une série de thèmes principaux soit composée afin d’illustrer musicalement l’essence de chaque « Race ». Ces thèmes seraient regroupés en diverses pièces musicales, se référant à des éléments clés de l’histoire, puis utilisés pour l’ensemble des jeux de la série afin d’établir ce que T. Chance appelle « la sous œuvre thématique de chaque partition musicale ». Il propose d’écrire des pièces musicales référentielles organisées en différents thèmes, ces derniers sont soit utilisés 54 Thomas CHANCE, Riffing on Tolkien: The Conceptualization, Production, and Dissemination of Music in The Lord of the Rings, < www.gamasutra.com >, 12 novembre 2003. 58 séparément pour créer chacune des séquences musicales des différents jeux, soit servent de « squelette musical » pour l’élaboration de ces séquences. Ces thèmes seraient des points de repères musicaux entre ces jeux qui utiliseraient le même langage musical. Prenons l’exemple de l’organisation de la pièce musicale attribuée aux Elfes. Cette pièce expose les cinq thèmes principaux : les mouvements respectifs d’ouverture et de fin, « From Across the Sea » et « Return to the Sea » sont « la traduction musicale » de la nature à la fois immortelle, solennelle et triste des Elfes. Les trois mouvements du milieu reflètent musicalement les forteresses de la Terre du Milieu – Rivendell, Lothlorien et Mikwood -. « Le guide de style musical Tolkienien » définit la quinte augmentée comme signature harmonique pour les Elfes et la harpe classique comme instrument primaire. Cette pièce musicale est construite à partir de ces deux éléments auxquels s’ajoutent différentes variations afin d’exprimer une diversité musicale correspondant aux changements particuliers de comportements des Elfes (par exemple pour illustrer une phase de combat ou d’exploration). De plus, chacun des trois mouvements centraux présente deux variations, ce qui offre ainsi au « guide » des exemples supplémentaires sur la façon de composer divers thèmes par rapport à un thème référentiel. Ainsi cinq minutes d’une pièce musicale permettent huit exemples de partition musicale pour les Elfes, cinq éléments orchestraux pouvant être implémentés directement dans la partition musicale du jeu, diverses séquences musicales (d’instruments à vent ou à cordes, de voix par exemple) issues de la session d’enregistrement et pouvant être intégrées dans la partition des autres compositeurs, mais aussi des fichiers sources sous format MIDI afin d’accompagner les compositeurs dans leur propre approche musicale. La plage 8 est un extrait de la pièce musicale attribuée aux Elfes : elle se compose de deux paires, une première comprenant le thème principal dans sa totalité et une variation de ce thème lors d’une phase de combat ; la seconde paire comprend le thème de la région de Lothlorien suivi d’une variation de celui-ci (séquences musicales issues des jeux Middle-Earth Online et War of the Ring). 59 b. Le choix de l’instrumentation. Pour T. Chance l’utilisation de l’orchestre était une évidence ; dans son œuvre J.R.R Tolkien « évoque des instruments à la fabrication parfaite et au ton enchanteur, décrit les chanteurs comme des joyaux purs où se mélangent des mots et mélodies ; il fait référence au pouvoir des chansons anciennes et à la créativité musicale qui provient des Dieux »55. Il fallait de plus considérer la qualité des écrits de Tolkien ; son attention portée au détail, sa minutie, ces images verbales. Le choix de véritables instruments s’imposait pour traduire la richesse des mots par la richesse des sons. Il fallait de même trouver un orchestre et un chœur qui seraient expérimentés dans le domaine des films, des jeux vidéo ou de la télévision et habitués aux conditions d’enregistrement ; il fallait de plus trouver des instrumentistes capables de jouer des instruments anciens. T. Chance fit appel alors à l’ Utah Film Orchestra (comme meilleur compromis, selon lui, entre la qualité des interprètes et le coût d’enregistrement), et utilisa divers instruments anciens tels l’orgue de barbarie, la viole de Gambe, le psaltérion (instrument à cordes pincées), la mandoline, le rébec (instrument médiéval à trois cordes et archet), le tympanon (instrument à cordes frappées par des marteaux) ou le théorbe. La composition des parties chantées devaient illustrer le plus exactement possible la nature profonde des différentes « Races ». Par exemple, pour le thème Song of the Dwarves T. Chance voulait retranscrire musicalement l’atmosphère des cavernes, lieux d’habitation des Nains et leur travail laborieux. Il demanda aux hommes constituant une partie du chœur de marcher sur place et de parcourir le studio, pour qu’une fois essoufflés, l’altération de leur voix procure à la fois une sensation d’écho (comme pour recréer l’écho naturel d’une grotte) et d’effort intense (plage 9). La plage 10 illustre cette idée d’une musique référentielle écrite pour une série de jeux utilisant le même langage musical et qui aiderait les compositeurs dans leur approche musicale personnelle. Cette plage contient un extrait de la pièce musicale attribuée aux Hobbits avec différentes adaptations et variations ; apparaissent dans l’ordre, le thème composé comme « thème de référence » et ces variations respectives pour les jeux The Hobbit, Treason of Isengard et Middle-Earth Online. 55 « He talks of musical instruments "of perfect make and enchanting tones." He describes singing as "clear jewels of blended word and melody." He refers to "power" in old songs, and even ascribes the ultimate creative power to music from the gods », CHANCE, op. cit. 60 *** L’approche de T. Chance est innovante dans le sens qu’il a établi un langage musical suivant une certaine interprétation d’une œuvre littéraire, qui va permettre d’unifier musicalement une série de jeux vidéo ; cependant les procédés d’instrumentation et d’orchestration ne se détachent aucunement des procédés cinématographiques pour la composition ; de plus, en cours de jeux, le déclenchement des thèmes interviennent pour des phases de jeu particulières (phase de combat ou d’exploration par exemple), donc plus pour renforcer la dramatisation de l’évènement en cours que d’informer le joueur sur ce qui va se passer. L’analyse des thèmes musicaux du jeu Myst III : The Exile démontrera en quoi une utilisation particulière des thèmes musicaux dans le jeu peut élever le niveau d’interactivité, la répétition et l’altération des thèmes devenant des sources d’informations pour le joueur sur ce qui va se passer. De plus nous verrons qu’avec l’utilisation d’outils spécialisés et une approche de composition particulière, le thème musical peut s’inscrire dans le cadre d’une musique évoluant avec le jeu. 61 B. Analyse sonore et musicale du jeu Myst III : The Exile. 1) Les formes de « remédiation ». a. Un scénario inspiré par la littérature fantastique. Myst III : The Exile est le troisième volet de la série des Myst après Myst (1994) et Riven (1999). Le concept de cette série repose sur l’histoire de la civilisation des D’ni, peuple qui a trouvé le moyen de créer et de relier des mondes par l’écriture. Les livres deviennent alors des passerelles vers des mondes imaginaires, des « Ages » construits par la plume de Gehn. Tous les termes utilisé par les D’ni ont été créés par des linguistes ; ainsi le nom « Tomahna », maison construite par Atrus, fils de Gehn, signifie la maison de repos ou maison de passage. L’intrigue se situe une dizaine d’années après Riven, dernier « Age » écrit par Gehn. Les fils d’Atrus, Sirrus et Achenar, ont détruit de nombreux livres dans la bibliothèque de Myst, ce qui a entraîné un véritable chaos dans les « Ages » ; Atrus, qui n’a pas réussi à réparer ces livres et à rétablir le lien entre chaque « Age », décide de reprendre contact avec les survivants du peuple des D’ni qui se sont déchirés, et de créer un futur en évitant les erreurs du passé par l’écriture d’un nouveau livre des « Ages », Releeshan. La destruction des livres a entraîné la misère de Saavedro, qui décide de se venger des fils d’Atrus en s’emparant de Releeshan et de créer lui-même un « Age » qui entraînerait la perte de la civilisation des D’ni. Myst III est un jeu d’exploration où le joueur doit parcourir différent âge afin de percer le mystère de Saavedro et sauver la civilisation des D’ni. Les similitudes du point de vue de l’intrigue entre la série des Myst et Le Seigneur des Anneaux de J.R.R Tolkien sont frappantes ; l’anneau unique, qui gouverne tous les autres anneaux de pouvoir, devient le livre Releeshan qui relie l’ensemble des « Ages » ; de la préservation de celui-ci dépend le devenir de la civilisation. Chaque livre représente un « Age » et donne le pouvoir à celui qui le possède de le préserver ou de le changer. Les D’ni communiquent dans une langue imaginaire, de même que J.R.R Tolkien a crée le langage des Elfes. Mais l’univers de Myst va au delà d’une simple inspiration littéraire, l’écriture devient un élément essentiel : l’écriture d’un « Age » est assimilée à une science, une équation structurée des mots. La fondation de chacune de ces équations est un concept fondamental 62 qui peut permettre à un « Age » de se développer. Il ne s’agit plus simplement de « remédiation » du jeu vidéo avec la littérature, de ses procédés d’intrigue, mais d’un véritable travail littéraire qui a impliqué pour Myst III : The Exile l’écriture d’un livre dont le joueur découvre les pages suivant sa progression dans le jeu, mais aussi l’écriture de romans, pour chaque jeu de la série, afin de mieux appréhender cette intrigue proposée par le jeu. Ainsi Rand et Robyn Miller, les créateurs de la série, aidés par l’écrivain D. Wingrove, ont écrits trois romans sur l’intrigue de Myst et ses personnages : Le Livre d’Atrus, Le Livre de Ti’ana et Le Livre de D’ni56. La « remédiation » se situe au niveau de l’intrigue du jeu, et aboutit à une œuvre littéraire dans le jeu et existante par elle-même sous forme de roman. b. La participation de véritables acteurs de cinéma. La particularité de Myst III est d’avoir fait appel à de véritables acteurs filmés dans un studio de cinéma sous fond bleu puis incrustés ensuite dans l’environnement de jeu en trois dimensions. Le rôle du traître, Saavedro, est interprété par l’acteur Brad Dourif connu pour son rôle de Billy Bibbit, déséquilibré interné dans un hôpital psychiatrique, dans Vol au dessus d’un nid de coucou (1975, Milos Forman). B. Dourif est reconnu pour ses seconds rôles dans le domaine du fantastique et de l’horreur (l’Exorciste, la suite (1990), Critters 4 (1991)) et a participé à de grandes productions comme Trauma (1993) ou Alien, la résurrection (1997), et joué plus récemment dans les films Le Seigneur des Anneaux : les Deux Tours (2002) et Le Seigneur des Anneaux : le Retour du Roi (2003), où il incarne Grima, le conseiller du roi Theoden. Ce choix ne paraît pas anodin, en effet dans le domaine du cinéma faire appel à des acteurs reconnus peut être un gage de succès commercial ; pour un jeu faire appel à des acteurs, de plus connus par les amateurs de films fantastiques (ce que par essence le jeu vidéo propose comme univers) est un moyen d’immersion très intéressant créé par l’immédiateté, puisque le joueur a la sensation d’être projeté dans un univers dont il connaît les personnages. 56 Livres publiés par « Hyperion » aux Etats-Unis et « J’ai lu » en France. 63 L’influence de la littérature fantastique et celle du cinéma auquel le jeu Myst III : The Exile reprend ces personnages de même que l’importance donnée au détail des paysages construits à partir de véritables décors naturels photographiés, sont sources d’une immersion élevée pour le joueur. De cette recherche poussée du graphisme, du scénario et de ce désir d’inclure des éléments réels, découle une recherche sonore et musicale particulière où le son et la musique ont autant d’importance et de détails que le visuel et l’intrigue. L’importance du détail se retrouve dans l’approche musicale, par une utilisation particulière du thème musical non plus seulement attribué à un environnement de jeu spécifique ou à un évènement particulier, mais aussi aux personnages. 2) Le thème musical et sa répétition. a. La notion du thème musical comme unité signifiante. Le compositeur Jack Wall57 voulait composer une partition originale pour illustrer le fait que Myst III était un nouveau jeu avec six nouveaux « Ages » mais aussi que ce nouveau volet était une suite logique du point de vue de l’intrigue des deux précédents épisodes. Après une analyse approfondie de la musique de Myst et Riven, composée par R. Miller, il s’est aperçu que le seul personnage à qui était associée une mélodie était Atrus ; ainsi comme pour évoquer une continuité musicale entre les différents épisodes, il décida d’utiliser ce procédé comme fil thématique, un moyen de connecter musicalement les trois volets de la série et d’associer aux deux personnages principaux de Myst III, Atrus et Saavedro, un thème musical spécifique qui réapparaîtrait en cours de jeu de différentes manières suivant les évènements et la progression du joueur dans l’intrigue. L’attribution d’un thème spécifique pour chaque personnage et de son retour, altéré ou non, renvoie à la notion du thème musical comme unité signifiante, c'est-à-dire qui signifie quelque chose. 57 Jack WALL, Music from Myst III: The Exile–The Evolution of a Video game Soundtrack, < www.gamasutra.com >, 11 janvier 2002. 64 Pour comprendre cette notion, nous citerons Françoise Escal, directeur d’études à l’Ecole des Hautes Etudes en Sciences sociales : « Le thème en musique est une unité signifiante », « la musique occidentale connaît la tentation de rivaliser avec le langage verbal et d’établir une communication du même ordre, fondée sur l’échange des signes. Toutes les musiques descriptives […] prétendent faire sens, produire des significations par la peinture exacte et fidèle des référents (objet du monde, bruits…) ou l’expression juste des signifiés (sentiments, état d’âme…) »58. Selon F. Escal, ce désir de donner une signification particulière à la musique pour en faire un langage de communication provient des musiciens du XIXè siècle : « On peut rapprocher du thème, en musique, comme unité de contenu, le leitmotiv. Non pas le motif élément de syntaxe musicale, composant la forme, mais restrictivement le leitmotiv tel qu’il est défini par Wolzogen, un des premiers commentateurs de Wagner. Cela consiste à accoler à chaque personnage, à chaque objet important […], à chaque thème (l’amour, la mort), un thème [musical] qui réapparaît en même temps que ce qu’il indexe. Si le drame le demande il peut être modifié. En tout état de cause, il renseigne sur l’action (anticipations ou rétrospections) [et] sur les personnages ».59 Avant l’analyse des thèmes, et pour approfondir cette idée d’unité musicale signifiante, il convient d’éclairer une notion musicale inhérente à l’utilisation des thèmes en musique à savoir la variation, qui s’inscrit elle-même, selon le compositeur François Nicolas60, dans une « logique thématique ». b. La notion de logique thématique. Selon F. Nicolas, il existe trois types de variations : « la première, et la plus usuelle, [qui] est de développer un objet en sorte qu’il s’altère au fil du discours 61», une seconde qui consiste en la réitération d’une entité musicale inaltérée mais dont le contexte de présentation varie, en prenant un exemple cinématographique le thème de Perhan (Temps des Gitans d’Emir Kusturica, musique de Goran Bregovic, 1988) joué au violon réapparaît 58 Françoise ESCAL, revue de communications numéro 47 de L’EHESS, Variations sur le Thème, Seuil, 1988, pp. 95-102 59 ESCAL, op.cit., pp. 103-105. 60 François NICOLAS, conférence à l’IRCAM, forum Diderot, 03 décembre 1999. 61 NICOLAS, op.cit. 65 à l’identique pour des situations dramatiques différentes. Pour François Nicolas ces deux manières « partent de l’énonciation d’une identité (disons un thème) pour générer de l’altérité : dans le premier cas, en générant d’autres objets ; dans le second en faisant apparaître d’autres facettes ou profils du même objet »62. Le troisième type de variation est ce que F. Nicolas nomme « le dégagement d’un trait commun dans une diversité dispersée », « il s’agit […] de rapprocher ce qui est lointain et sans rapports apparents, pour reconnaître le travail souterrain […] d’une même figure au sein de la diversité de départ »63 . Ce troisième type est appelé reconnaissance, les deux premiers, altération. F. Nicolas tente de définir une logique musicale, ces observations l’amènent à la conclusion qu’elle est « ce qui dialectise, selon le nécessaire, une cohérence de la partition et une cohésion de l’audition », « l’auditeur ne doit pas se demander : comment comprendre une logique musicale […] mais plutôt : comment saisir logiquement ce que je comprends ? Soit abandonner le thème d’une compréhension de la logique musicale pour y substituer celui d’une logique de la compréhension musicale ». Cette notion de compréhension musicale abouti à une autre, celle du contexte en musique : « les propriétés intrinsèques d’un objet importent moins que ses propriétés extrinsèques, fonction de la situation dans laquelle il est inscrit »64 . F. Escal nous éclaire un peu plus sur cette notion de logique thématique et sur ce qu’elle implique au niveau de l’appréhension de la musique par l’auditeur : « l’attente d’une satisfaction s’accompagne d’émotion si cette attente se trouve momentanément interrompue ou inhibée. La variation, le développement, c’est cette tension qui provoque l’attention ; et la dialectique du thème et de ses transformations, c’est celle des attentes et des précisions d’une part, des crises et des solutions d’autre part […] Les variations sont autant de conséquences ou de métamorphoses inscrites dans l’idée musicale d’entrée »65 62 NICOLAS, op.cit. NICOLAS, op.cit. 64 NICOLAS, op.cit 65 ESCAL, op. cit, p. 116. 63 66 *** C’est en nous appuyant sur ces observations que nous allons organiser l’analyse des thèmes musicaux attribués aux personnages de Myst III, Atrus et Saavedro : ces thèmes sont en effet agencés de la même manière que pour une œuvre de musique classique utilisant une logique thématique. Il conviendra de mettre en évidence et de donner la signification des réitérations et altérations des thèmes, ainsi que le principe de reconnaissance pour certains éléments musicaux, toujours suivant le contexte dramatique de l’intrigue et d’expliquer en quoi cette logique du point de vue de la structure musicale sont des éléments d’interprétation, d’appréhension de l’intrigue pour le joueur qui vont alors l’amener à réagir. Les éléments musicaux dans Myst III s’organisent suivant trois catégories : des séquences musicales interprétées par l’orchestre philharmonique de Seattle et un chœur, des musiques dites de « récompense » qui correspondent au thème associé à chaque « Age » dont certaines séquences sont reprises « dans le jeu » de façon aléatoire ; et l’ensemble des éléments musicaux intervenant en cours de jeu, tels les bruitages et les sons ambiants. Ces considérations faites l’analyse se présente en trois étapes : une première concerne le choix de l’instrumentation et l’analyse des séquences et des thèmes musicaux attribués aux personnages d’Atrus et de Saavedro. La deuxième partie de l’analyse est consacrée aux sons dans Myst III déclenchés en cours de jeu, lorsque le joueur est actif : elle étudiera successivement les moyens technologiques utilisés pour le son et développés par Presto Studio, le rapport entre l’image et le son et des exemples pour illustrer notre propos ; la troisième et dernière partie concerne l’étude des séquences musicales jouées de façon aléatoire en cours de jeu, issues du thème associé à chaque « Age » et qui interviennent lors de l’exploration. Nous rendrons compte de l’approche musicale du compositeur J. Wall d’intégrer de la mélodie pour une musique d’ambiance en évitant la répétition, et de sa collaboration avec Roland Gustafsson, programmeur audio de Presto Studio. Nous donnerons également des exemples musicaux. 67 3) Analyse des thèmes et des séquences musicales attribués aux personnages. a. Le choix de l’instrumentation. La musique des deux épisodes précédents, Myst et Riven, avait été uniquement composée à partir de synthétiseur et était dépourvue de mélodie (à part le thème d’Atrus). La musique était ce que l’on peut qualifier d’ambiante : le choix d’utiliser de véritables instruments s’est imposé tout naturellement à Jack Wall afin de pouvoir accompagner la richesse des images par la richesse de timbre et la subtilité de jeu que permettent de véritables instruments, la recherche du réalisme aboutit en fait à ce choix d’instrumentation, utiliser de vrais instruments fait que « la musique est réelle et vivante »66. L’orchestre philharmonique se compose de 51 musiciens et le chœur de neuf chanteurs. Le travail en studio a notamment consisté à « grossir » le son afin de donner l’impression d’un orchestre et d’un chœur plus imposants. Les séquences instrumentales interviennent pendant les scènes cinématiques. b. Thème d’ouverture et thème attribué au personnage d’Atrus. Plage 11 : il s’agit du thème d’ouverture lorsque Atrus évoque les trahisons, les erreurs du passé et sa volonté d’établir un nouvel Age. Le thème débute par un mouvement mélodique au hautbois : Figure 1 Puis deux autres motifs prennent forme : 66 Wall, op. cit. 68 Un premier à 16’’ : Figure 2 Un second à 32’’ : Figure 3 Le rythme « suspendu » (rubato) et la couleur mineure particulière du mode phrygien instaurent une atmosphère teintée de mystère autour de la note sol (fondamentale du mode utilisé) vers laquelle on revient constamment ; puis à partir de 42’’, l’entrée du piano en arpèges impose la tonalité de Do mineur sans préparation, on passe soudainement du mystère au drame musical. Dès lors il existe une opposition entre la note sol autour de laquelle il existe une sorte d’interrogation musicale et la note Do par laquelle vient le drame. Progressivement la tension s’installe, le chœur après un mouvement descendant rappelant le motif introductif du hautbois, reprend la figure 2 à 1’07 ; alors que la fondamentale do devrait fonctionner comme détente, servir de repos, cette tension arrive à son comble avec un choral imposant qui reprend la figure 1 et les percussions qui accentuent les répétitions de la fondamentale. On reconnaît le mot Releeshan prononcé par le chœur et le thème d’ouverture se termine avec puissance sur un Do non tenu, ce qui procure une fin pleine de tensions. Ce thème introduit musicalement l’intrigue du jeu : la souffrance d’une population, celle des D’ni, et l’enjeu du livre Releeshan, seul moyen de rattraper les erreurs du passé et de reprendre contact avec les survivants d’une population décimée. On comprend avec la tension musicale introduite par l’arrivée soudaine d’une nouvelle tonalité, qu’il va se passer quelque chose en rapport avec ce nouveau livre : ce thème est une mise en contexte 69 musicale, la musique n’accompagne pas seulement le visuel, elle renseigne sur ce qui va se passer ou plutôt qu’il va se passer un évènement. Plage 12 : Il s’agit du thème musical attribué à Atrus, lorsque le joueur pénètre dans son bureau d’études. La séquence musicale débute par un sol grave et tenu à la basse et par une unique intervention du chœur dont le mouvement chromatique sib/la rappelle celui de l’ouverture, ce motif est repris en pizzicati et répété sous cette forme tout au long du thème. Trois motifs apparaissent sous une forme arpégée de l’accord de sol (à 36’’, 41’’ et 50’’), et un autre à 43’’ qui correspond au thème d’Atrus et qui rappelle la figure 1 attribuée au hautbois : Figure 4 Il apparaît clairement que le mode utilisé est sol (plus précisément éolien) et les répétitions de la fondamentale, à chaque fois longuement tenue, ont leur importance : on sait d’après notre analyse du thème d’ouverture que cette note apporte un drame que le joueur n’a pas encore découvert. D’après les types de variations évoqués précédemment il s’agit ici d’une reconnaissance : on retrouve des similitudes avec le thème d’ouverture, sans que celles-ci ne s’avèrent être le résultat d’une altération de ce thème. La structure musicale possède une logique évidente : rappeler le thème d’ouverture et imposer musicalement un son, une note, qui amène le drame musical et ainsi celui de l’intrigue. On ressent également une sorte de plénitude teintée de mystère avec la sonorité cristalline qui rappelle celle d’un carillon et à laquelle se mélangent le timbre des percussions (darbouka, xylophone), la sonorité ethnique d’une cithare et le motif répété au pizzicati, comme pour illustrer musicalement l’art singulier que possède Atrus de pouvoir construire des « Ages » par l’écriture. Cette séquence intervient avant que Saavedro n’apparaisse et subtilise le livre Releeshan. Elle est une mise en contexte musicale de l’endroit où l’on est, et des évènements qui vont se produire. 70 c. Thème de Saavedro et séquences musicales attribuées au personnage. Plage 13 et 14 : ces plages correspondent respectivement à l’irruption de Saavedro dans le bureau d’étude d’Atrus et à la séquence musicale qui lui est attribuée lorsque le joueur, après l’avoir poursuivi, le retrouve dans un observatoire. La séquence de la plage 13 se termine par un rythme imposant aux percussions de deux croches sur le premier temps des cinq dernières mesures, mesures à trois temps. La plage 14 présente le thème attribué à Saavedro. On retrouve les motifs mélodiques des figures 2 (11’’) et 3 (25’’) du thème d’ouverture. Le lien musical entre la séquence musicale attribuée à Saavedro et le thème d’ouverture s’avère être une information précieuse pour le joueur. La musique raconte elle-même l’intrigue : le thème d’ouverture signifiait musicalement une tension, un évènement qui allait se produire par rapport au livre que venait d’écrire Atrus ; le motif correspondant aux figures 2 et 3 révèle en fait le thème associé à Saavedro, dont on comprend alors le rôle primordial pour la suite du déroulement de l’intrigue. Le rythme imposant de deux croches et le thème correspondant aux figures 2 et 3 juxtaposées sont les éléments musicaux qui caractérisent le personnage de Saavedro et que l’on retrouve à chacune de ses apparitions dans le jeu. Ainsi plage 15 (extrait avec voix du personnage), la séquence musicale qui intervient lors de la confrontation entre Saavedro et le joueur, parvenu à Narayan, reprend ces deux éléments. On retrouve le thème associé à Saavedro à 7’’ et le rythme imposant aux percussions à 21’’ ; à 0’26’’ le chœur reprend le thème de Saavedro mais de manière ascendante pour un rythme de plus en plus rapide. Musicalement le mouvement devenu ascendant de ce motif et son accélération progressive illustrent la colère grandissante de Saavedro qui espérait se trouver face à Atrus afin d’assouvir sa vengeance. A 1’22 les mouvements chromatiques, sol/lab et do/si, clichés cinématographiques pour exprimer un danger imminent, précèdent deux motifs (1’39) qui correspondent à une variation du motif mélodique de la figure 1 : Figure 5 71 Figure 6 Ces motifs sont soutenus par les cors et trombones qui martèlent un do imposant et grave dont la répétition rappelle le rythme et la très forte accentuation des percussions associées à Saavedro. La variation du thème d’ouverture, à laquelle se mêlent des éléments associés spécifiquement au personnage de Saavedro, révèle un dénouement proche. En outre l’association de ce thème avec la séquence filmée révèle plusieurs techniques utilisées par le cinéma concernant l’intervention musicale par rapport à l’image et l’évènement mis en scène et qui permettent d’apporter une dimension dramatique particulière. Le thème débute et se termine respectivement par l’ouverture et la fermeture de la porte d’une salle où Saavedro a pris refuge : ceci correspond, au cinéma, à la justification de l’intervention musicale par un élément diégétique, c'est-à-dire qui se rapporte ou appartient à ce qui se passe visuellement, tels un claquement de porte, une bouteille brisée, des coups de feu ou un geste particulier des personnages. De la même façon, la variation du thème d’ouverture (1’40) débute par un do imposant dont l’exécution correspond à un geste, un saut d’agacement, de Saavedro pour désigner cette salle où il est prisonnier « Regarde autour de toi. Cette salle est le seul moyen d’entrer ». Du point de vue dramatique, les variations d’accentuations et de nuances musicales font aussi partie d’un procédé cinématographique, où suivant ce qui est dit par le personnage la parole prend le premier plan sonore afin de donner plus d’impact aux mots et renforcer leur portée dramatique. A 1’06 interruption abrupte de la musique qui se retrouve en fond sonore : la colère de Saavedro explose et parlant de lui-même « N’as-tu pas compris que tu ne signifies absolument rien pour lui » ; moment d’accalmie, la musique est presque inaudible ; Saavedro, devenu conscient qu’il pourrait faire appel au joueur, tente de le déstabiliser. De même à 2’10, la variation du thème s’interrompt de façon tout aussi abrupte par ce même élément musical caractéristique de Saavedro (percussion, durée brève et très accentuée), ce dernier revient sur ces pas et conseille le joueur « Si tu trouves le moyen de sortir d’ici, je te conseille de surtout bien réfléchir avant d’agir » ; les trilles, 72 autre cliché cinématographique, maintiennent la tension. Saavedro repart, le thème reprend (2’28) et se termine avec la fermeture de la porte. La plage 16 correspond à la séquence musicale qui intervient lorsque le joueur délivre Saavedro du bouclier de brume qui entoure sa forteresse. Saavedro découvre alors avec stupeur que Narayan est vivant et que peut être les siens sont encore en vie. On retrouve le thème de Saavedro mais transposé en do mineur. Ce motif est chanté par le chœur puis repris, suivant le principe de l’imitation, par les cordes. A partir de 23’’, le sol s’impose à nouveau et le thème module en sol mineur à partir de 53’’ ; les violons reprennent la mélodie des pizzicati associés à Atrus (1’08) de la figure 4, suivant le principe de variation : Figure 7 La transformation des thèmes associés respectivement à Saavedro et Atrus, qui consiste respectivement en une modulation et une variation, s’inscrit dans une logique thématique où l’altération des thèmes, unités signifiantes, apporte des précisions et éléments d’interprétation. La juxtaposition de ces éléments musicaux altérés informe sur le dénouement de l’intrigue : Saavedro se réjouit de pouvoir retrouver les siens, cependant il détient toujours le livre Releeshan et la musique le rappelle au joueur. Plage 17 : Saavedro, bloqué à cause du système d’aiguillage qui ouvre tour à tour le bouclier intérieur et le bouclier extérieur, vient de donner le livre Releeshan au joueur et le supplie de le laisser partir pour tenter de retrouver sa famille. On retrouve le thème associé à Saavedro (15’’) et des éléments du thème d’ouverture, notamment la descente du chœur ; puis intervient le rythme imposant des percussions associé à Saavedro (1’01) qui accompagne une série d’arpèges : 73 Figure 8 On reconnaît dans cette série les deux dernières mesures du motif mélodique de la figure 1, qui mène au thème de Saavedro en ouverture. Il s’agit d’une autre illustration de ce que la musique peut apporter comme information au-delà du visuel, le thème a ici pour but de prévenir un danger imminent, qui provient alors de Saavedro ; si en effet le joueur le délivre sans précaution, Saavedro furieux l’élimine. Plage 18 : La vengeance de Saavedro a échoué, il a été contraint de rendre Releeshan au joueur, mais après tant d’années d’emprisonnement à Narayan, il est enfin délivré et part à la recherche des siens dans l’espoir qu’ils aient survécu. Le thème musical est celui de Saavedro interprété par une voix féminine chantant dans la langue des D’ni, on retrouve le principe de l’imitation avec la mélodie chantée reprise par les cordes puis l’orchestre, le thème de Saavedro se résout sur un do, l’intrigue dramatique prend fin. 4) L’environnement audio dans Myst III : The Exile. a. Les outils utilisés. Pour la série des jeux Journeyman Project, Presto Studio a développé un moteur spécifique, le Sprint Engine dédié à l’image et au son. Pour Myst III, cette technologie permet notamment pour la première fois au joueur une vue panoramique complète de chaque scène, ce qui amène de nouveaux éléments du gameplay, comme les sons localisés qui incitent le joueur à regarder dans une direction particulière. Le concept du Sprint Engine pour l’audio consiste en un ensemble de boucles, de mélanges ou de textures sonores, appelés « stingers », pouvant être déclenché de façon aléatoire67. Afin d’intégrer les éléments sonores dans Myst III : The Exile, Presto Studio a collaboré avec les programmeurs du Miles Sound System et du format BINK. 67 Il est impossible d’avoir de plus amples informations techniques concernant ce type de moteur qui bénéficie d’une clause de confidentialité. 74 Le Miles Sound System (MLS) est une technologie apparue en 1998, créée par John Miles et Jeff Roberts. Le MLS fonctionne comme une librairie dans laquelle l’utilisateur écrirait lui-même. Ce système inclut le traitement des échantillons numériques, la lecture en continu des fichiers numériques, la technologie MIDI DLS et les technologie 3D audio. Il supporte tous les formats de compression audio : MP3, ADPCM et autres. Les API audio 3D de Miles Sound Système supportent de nombreuses technologies audio : Aureal 3D 1et 2, Creative’s EAX 1, 2, 3 et 4, DirectSound, DolbySurround, système de reproduction sonore à quatre canaux, et QSound’s QMixer, logiciel rapide de positionnement en trois dimensions de l’audio. Le Miles Sound System comporte 17 filtres permettant de manipuler l’échantillon pendant sa lecture : un filtre d’émulation de réverbération EAX, construit à l’intérieur du mixeur du MLS et permettant un meilleur rendu de la réverbération, un filtre passe-haut, passe-bas, un filtre passe-bande, un filtre de résonance, un autre de compression, un filtre d’écho mono, stéréo, un filtre de phase, un filtre d’égalisation paramétrique, un filtre d’égalisation des très basses fréquences, un filtre de panoramisation automatique, un filtre de modulation d’amplitude et en anneaux, un chorus, un flanger, un filtre d’interpolateur lagrangien (utilisé pour re-échantillonner la fréquence d’un échantillon de façon plus nette mais plus lente que le filtre inclus dans le re-échantillonneur du MLS), et un filtre de capture (filtre qui enregistre le mixage final de la sortie du système audio numérique du MLS en fichier son). Comme beaucoup de jeux vidéo, Myst III utilise des CODEC spécifiques, plus adaptés, permettant d’utiliser ainsi moins de mémoires et de CPU, et qui ne nécessitent pas de licence. Le format BINK a été conçu exclusivement pour les jeux et est assez répandu, plus de 2500 jeux l’ont utilisé depuis 1999, année de sa création. Il permet d’encoder la vidéo selon 16 techniques différentes de compression et possède un CODEC audio psycho-acoustique capable d’une compression de huit fois sans perte perceptible de qualité. Il supporte les consoles Sony Playstation 2, Xbox, Nintendo GameCube, Windows 95, 98, Me, NT, 2000, XP, MacOS et Linux. 75 b. La recherche du réalisme. Myst III utilise, et s’inspire, de véritables décors naturels, afin de les intégrer dans un système de représentation qui lui est propre : il propose ainsi un réalisme par révélation. Les effets sonores sont utilisés pour renforcer la signification de l’environnement en accord avec le contenu de l’image, c’est-à-dire ce qu’elle véhicule. Il y a ainsi dans Myst III une continuité logique dans les effets sonores : alors que le joueur se trouve à un endroit particulier, des sons indigènes persistent, comme par exemple le bruit des vagues sur l’îles de Amateria, ou les chants des oiseaux et le souffle du vent sur les feuilles de l’arbre gigantesque d’Edanna. On peut ainsi distinguer deux types d’animation chacun correspondant à une coordination entre le visuel et l’audio. D’une part et comme nous l’avons évoqué précédemment, des animations dites « complètes » qui correspondent à l’environnement où l’on se trouve avec des sons qui persistent tant que l’on demeure dans cet espace ; d’autre part, des éléments qui apparaissent lors d’un changement d’image en raison d’une activation quelconque (par exemple appuyer sur un interrupteur), qui produisent un effet visuel coordonné et un effet audio spécifique. Cette seconde catégorie de sons a pour fonction d’accroître la sensation de réalisme ; l’utilisation d’effets spéciaux sert de retour d’informations pour le joueur : le résultat d’appuyer sur un interrupteur ou d’ouvrir une porte s’accompagne des sons respectifs « de l’action d’appuyer sur un interrupteur » et de « l’action d’ouvrir une porte ». Ce langage que crée le jeu est un élément important de représentation et donc de l’immersion, il reprend l’écoute causale du cinéma, le son hors contexte n’existe pas, ne se réfère à rien, mais mis en contexte il informe sur ce que l’on voit. J. Scott, créateur d’effets sonores pour le jeu Myst III, évoque son rôle qui était « de créer un environnement sonore qui reflète de manière convaincante le monde dans lequel le joueur est plongé. Cet environnement n’existant pas dans la réalité, il fallait inventer un son qui traduise avec réalisme l’objet ou l’ambiance ressortant des images »68. Les sons environnementaux sont aussi un élément du réalisme dans Myst III puisqu’ils donnent une personnalité ou une entité physique à la source d’émission qui ne dépend en aucun cas du joueur (le cri du squeez, petit animal, dans le monde de J’nanin et d’Edanna, par exemple) ; ils ont le plus souvent le rôle de localisation permettant ainsi au joueur de se repérer. 68 SCOTT Jamey, www.myst3.com. 76 c. Extraits de sons indigènes et d’activation. Parlons tout d’abord de l’approche de J. Scott ; elle consiste à dresser une liste de sons potentiellement significatifs pour un environnement de jeu spécifique ou d’éléments d’activations. Sa source sonore provient à la base de sons pris dans la nature et d’une grande variété de sons réels tels des sons de percussions entre divers éléments par exemple, la prise de sons s’effectuant sur un magnétophone numérique. Une fois qu’il dispose des éléments nécessaires, ceux-ci sont échantillonnés, divisés en plusieurs groupes suivant les sons qui peuvent aller ensemble, puis transformés de différentes façons afin d’obtenir un son unique, qui ne devient ainsi plus réel mais qui doit être le plus réaliste possible, une approche donc similaire à la création des bruitages et sons ambiants au cinéma. Plage 19 : il s’agit d’un extrait des sons indigènes omniprésents pendant l’exploration de l’île d’Ametaria ; le son des vagues, le souffle du vent et le tonnerre ; suivant que l’on est sur les passerelles en bois faisant le tour de l’île au-dessus de l’eau, on peut également entendre de façon aléatoire des bruits de craquements. A 18’’, un levier actionné fait redescendre la console de commande sur laquelle le joueur est positionné, le son des vagues devient plus net ; à 50’’ le joueur ouvre une porte, lorsqu’il rentre à l’intérieur du cabanon, le son des vagues et du vent deviennent plus faibles ; le travail sur l’amplitude sonore renforce le réalisme : si l’on s’approche de la source qui émet le son, l’amplitude du son augmente et diminue inversement si un obstacle isole le joueur de cette source (les murs du cabanon). Plage 20 : On entend une séquence des sons indigènes du monde d’Edanna ; il s’agit d’un monde constitué uniquement d’un arbre gigantesque abritant tout un écosystème. On distingue nettement le son de l’eau et celui du vent, le bruissement des feuilles, divers craquement de bois, des sons d’insectes et des chants d’oiseaux. A 18’’, on entend un son d’activation : le fait de marcher sur une plante la fait se déployer permettant au joueur ainsi surélevé d’atteindre un passage en hauteur. A 31’’ la plante redescend. Plage 21 : le monde de Voltaic se compose d’un fort en pierres faisant face à une île de grès. L’énigme consiste à rétablir l’électricité afin que celle-ci parvienne jusqu’à la porte du fort et qu’il soit possible de l’ouvrir, la source d’alimentation en électricité est 77 hydraulique. Cette plage est un extrait des sons indigènes, une fois que l’on a ouvert le barrage et que l’on se déplace dans l’ensemble des canalisations du système hydraulique. Ces sons indigènes apparaissent à la suite de plusieurs sons d’activation (réglages des pistons permettant à la roue à aubes de tourner, ouverture du barrage laissant l’eau s’écouler, activation des circuits électriques afin de faire fonctionner l’électroaimant). On distingue suivant le déplacement du joueur dans l’environnement, le son créé par l’activité d’un l’électroaimant (17’’), celui de la roue du barrage (55’’), le son de l’eau qui s’écoule (1’25), le son du choc de l’eau contre des roues hydrauliques ou contre les parois en métal du système hydraulique. Plage 22 : le monde d’Ametaria est une île articulée autour d’une pagode centrale et composée d’un circuit complexe de rails tout autour. Ce circuit de rail possède une voie principale qui se divise en cinq circuits à partir d’une hutte constituée de cinq anneaux de résonance. En appuyant sur un levier la plateforme sur laquelle se trouve le joueur s’élève : l’objectif est de régler correctement les anneaux de résonances suivant le chemin que doit prendre une boule pour ne pas se briser sous la vibration des anneaux. Les sons que l’on entend dans cette plage sont les sons indigènes de l’île évoqués précédemment (souffle du vent et balancement des vagues), le son des anneaux, le son d’un levier qui est abaissé (43’’) et qui entraîne le déplacement d’une boule sur le circuit de rails, les sons créés en appuyant sur un interrupteur qui permet de couper la vibration de chaque anneau (7’’, 10’’, 13’’…) et des sons provenant des mécanismes de la console de commande (54’’). L’ensemble des sons indigènes et d’activation crée une polyrythmie : la superposition de plusieurs sonorités, leur organisation temporelle, aboutit à un élément qui est de l’ordre du musical. Ce procédé rappelle le principe utilisé dans le film Dancer in the Dark de Lars von Trier (2000) où chaque séquence musicale est introduite par l’agencement de divers bruitages et sons appartenant à l’environnement et qui évoluent vers une musicalité. Selma, incarnée par Björk, est une ouvrière d’une usine rurale d’Amériques qui voue une véritable passion à la comédie musicale : le fracas des machines de l'usine s’inscrit dans un imaginaire où les bruits se changent en musique ; ainsi par exemple à 38’ la superposition et la juxtaposition de chaque bruitage des machines activées contribuent à créer une polyrythmie qui devient le squelette musical d’une chanson. 78 5) La musique aléatoire en cours de jeu. Comme nous l’avons dit, la musique de récompense correspond au thème de l’ « Age » que le joueur découvre pendant les premières minutes de son exploration. Chacun de ces thèmes est une musique d’ambiance destinée à être également écoutée. L’approche de Jack Wall était de composer une musique qui ait pour fonction « une cassure ou une respiration dans la signification musicale »69 : lorsque le joueur arrive à destination, l’objectif principal est qu’il soit attentif à tout ce qui l’entoure. La musique dans le jeu consiste en des séquences musicales déclenchées de façon aléatoire, issues du thème de l’ « Age » dans lequel le joueur évolue. Il faut noter que, contrairement aux thèmes musicaux associés aux personnages mais aussi contrairement aux sons ambiants et aux bruitages, ces séquences musicales ne sont pas nécessaires à l’appréhension du lieu et des évènements : le joueur peut lui-même choisir, dans le menu des options, suivant quelle régularité il souhaite entendre ces boucles musicales ainsi que leur volume sonore. Ces boucles ont cependant un rôle géographique fonctionnant par thème lorsqu’elles sont activées, non pas dans un sens informationnel, mais comme unité musicale à laquelle va correspondre une ambiance musicale spécifique : le thème de chaque « Age » débute lorsque le joueur commence son exploration, les séquences provenant de ce thème reviennent de façon aléatoire jusqu’à ce qu’il quitte cet « Age ». a. Approche musicale. Une fois passée la musique de récompense à l’intérieur d’un nouvel « Age », prend place une musique d’ambiance. Le problème inhérent à la musique du jeu vidéo est la répétition, comme nous l’avons vu, à cause de la nature non linéaire du jeu, et donc la lassitude possible du joueur pour une musique qui ne soit pas adaptée. La volonté de Jack Wall était d’intégrer de la mélodie mais de façon à ne pas ennuyer le joueur, Myst III :The Exile étant un jeu d’exploration de difficulté reconnue, le joueur 69 « It's meant to be a break or respite in a musical sense at least » in Jack WALL, Music from Myst III: The Exile–The Evolution of a Video game Soundtrack, < www.gamasutra.com >, 11 janvier 2002. 79 peut donc évoluer de nombreuses heures dans l’environnement correspondant à un même « Age ». Son travail avec Presto Studio a consisté à reprendre leur moteur audio évoqué précédemment et en une étroite collaboration avec R. Gustafsson, programmeur audio de cette même entreprise. L’idée de base de J. Wall70 était de composer et de produire entièrement une pièce musicale linéaire de deux minutes sans aucune contrainte qui correspondrait au thème de l’ « Age » et à partir de celui-ci d’ajouter des mélodies, des rythmes, de la texture, des dynamiques et contrepoints afin de faire varier la musique d’ambiance à laquelle le joueur était déjà habitué, une fois resté depuis plusieurs minutes dans un même « Age ». Il enregistra le mixage en stéréo puis fit de multiples enregistrements correspondant à des passages différents de chacun des éléments constituant le mixage. Il importa ses fichiers sons sous Pro Tools et les édita séparément. La collaboration avec R. Gustafsson consista à intégrer ces éléments suivant un scénario mettant en évidence comment chaque fichier serait joué, le nombre de fois, quel fichier serait répété en boucle et de quelle façon interviendraient les plages de silences. b. Procédés de composition et exemples. Plage 23 : thème d’Amateria (2’10) ; plage 24 : thème d’Edanna ; plage 25 : thème de Voltaïc. Il existe des similitudes entre ces trois thèmes : du point de vue de l’instrumentation, chaque thème est construit sur l’agencement de motifs primaires ; un instrument soliste impose une mélodie simple, variée par la suite. Il existe en outre une ambiguïté tonale ou modale : chaque thème est en do, néanmoins on peut parler de l’existence de deux notes dites polaires, do et sol, autour desquelles la mélodie et l’harmonie sont construites. Le thème d’Amateria est do majeur, cependant, à partir de 1’, le mode utilisé s’apparente au mode myxolydien de do ; le thème d’Edanna est en do majeur, mais le lab (13ème diminuée) change sa couleur ; le thème de Voltaïc est en do mineur harmonique, alors que la résonance des harmoniques des sons électroniques laisse nettement ressortir un sib (notamment dans les vingt premières secondes) ce qui lui donne plutôt la couleur du mode éolien, totalement mineur. Il faut noter qu’il y a peu de résolution de la note sensible pour 70 Jack Wall, op.cit. 80 ces trois thèmes : elle s’inscrit le plus souvent dans un mouvement descendant. Les percussions sont jouées par des instruments ethniques (tabla et darbouka) et les sons électroniques occupent le registre grave, la basse étant composée le plus souvent de notes longuement tenues. Les tempos sont très proches et moyens : pour Amateria, la noire est à 72 environs, pour Edanna à 80 environs et pour Voltaïc à 76 environs. La difficulté d’établir un tempo pour chaque thème et un rythme précis pour chaque partie musicale vient du jeu en rubato de l’instrument soliste, de la masse importante d’harmoniques produites par les sons électroniques et de la tenue très longue de ces sons, ce qui donne un marquage des temps assez flou, notamment pour Voltaïc, avec des sons qui s’étendent sur deux à trois mesures. Le mélange des sonorités ethniques et électroniques inscrit ces thèmes dans une tendance musicale actuelle, proche de la « World Music » ; le thème d’Edanna en est la plus flagrante illustration. Ces thèmes et leurs motifs primaires joués de façon aléatoire forment la musique ambiante du jeu ; nous l’avons vu ce type de musique n’a pas le rôle d’informer le joueur, elle est une musique qui doit correspondre à l’environnement de jeu, à l’atmosphère ; sa signification véritable est d’accompagner l’ambiance du milieu qui entoure le joueur, créée par le visuel et les sons indigènes. Nous remarquons, une fois l’étude des sons indigènes et ambiants faite, que les sons électroniques, le plus souvent longuement tenus, notamment à la basse, présentent pour ces trois thèmes une sonorité similaire à celle des sons indigènes spécifiques à chaque « Age ». Prenons le thème d’Amateria, nous avons précédemment évoqué les anneaux de résonance dont la bonne configuration est primordiale pour trouver le symbole caché dans cet « Age ». Ce thème débute jusqu’à la première minute par un son très grave de do dont la forme d’onde et la résonance évoquent celles des anneaux. Tout au long du thème, le traitement des sons électroniques se base sur le principe de résonance (réinjection du signal et amplification de certaines fréquences, du début jusqu’à 1’20 notamment) mais aussi sur la modulation de fréquence (de 1’24 à 1’30 et de 1’55 à 2’02). Le monde d’Edanna a la particularité d’abriter tout un écosystème, nous avons pu constater l’importance de l’amplitude des sons indigènes correspondant aux divers sons 81 émis par des animaux. Les sons électroniques à la sonorité cristalline (filtre rappelant le fonctionnement du vocoder de phase) omniprésents tout au long du thème reprend la sonorité spécifique de ces sons indigènes. Pour le thème de Voltaïc, les sons très graves semblent être traités suivant la modulation de fréquence par un LFO, ce qui donne cet effet de vibrato lent. Ces nappes sonores ressemblent au son sourd et grave correspondant aux sons ambiants de la salle des machines (par exemple le passage de 46’’ à 1’03). Le vibrato mais aussi l’utilisation des effets de flanger et de phaser rappellent, par le son produit qui semble tourner (oscillation ou réinjection) ceux émis par les différents mécanismes dont la roue à aubes (les quinze premières secondes par exemple) ; le souffle du début évoque le son produit par la circulation de l’air chaud dans les valves. Il s’avère que les caractéristiques des sons indigènes correspondant à chaque « Age » sont utilisées auparavant dans une optique musicale à l’intérieur de chaque thème de récompense ; la partie électronique devient ainsi une présentation musicale des spécificités environnementales donc sonores de chaque « Age » ; il existe une corrélation entre ces parties musicales électroniques, réemployées en cours de jeu, et les sons indigènes. Nous avons constaté précédemment la liberté rythmique des parties instrumentales, un marquage des temps assez flou, et l’utilisation de motifs mélodiques primaires dont la construction (tonalités, modes) évite le problème des notes à résolution. Les parties instrumentales sont harmonisées suivant la basse occupée par les sons électroniques : la corrélation entre les sons indigènes et les sons électroniques s’étend aux motifs mélodiques et instrumentaux ; elle permet une adéquation musicale parfaite de la musique d’ambiance avec les sons présents dans l’environnement de jeu. Le lien musical logique entre les parties instrumentales, les sons électroniques et les sons indigènes, auquel s’ajoute l’ensemble des spécificités concernant la construction musicale de chaque thème de récompense sont les éléments qui vont permettre une intervention aléatoire des motifs primaires et des parties électroniques, une musique aléatoire qui sonnera alors toujours juste quelque soit la situation de jeu. Pour les extraits suivants nous donnerons les motifs primaires pour chaque « Age », puis leurs moments d’apparition afin de mettre en évidence le processus aléatoire de leur déclenchement. 82 Amateria. Motif A Motif B Motif C Motif D Sont toujours présents les motifs A, B, C et D du thème, la nappe sonore de do et les éléments percussifs. Plage 26 : musique d’ambiance et sons indigènes (son des vagues, tonnerre, craquement des passerelles, c.f. plage 9). Apparitions des motifs : A : 17’’ et 1’15. B : 43’’, 55’ et 1’07. C : 47’’ et 1’43. D : 1’05. 83 Plage 27 : même situation de jeu que la plage 22 : polyrythmie avec les résonances superposées de chaque anneaux. Motifs : A : 17’’ et 1’22. B : 26’’, 38’’ et 49’’. C : 43’’ D : 1’08. Edanna. Motif E Motif F Motif G Plage 28 : Le joueur est à J’nanin, il atteint un bâtiment en forme de corne où se trouve le livre de liaison vers Edanna. Avant même qu’il ne soit téléporté dans ce nouvel Age, interviennent deux motifs musicaux appartenant au thème d’Edanna, les motifs E et F. La musique dans le jeu sert ici de lien sémantique entre deux environnements visuels et sonores totalement différents. De 18’’ à 40’’, il s’agit d’une scène cinématique où le mouvement en plongée et en travelling de la caméra laisse découvrir au joueur le monde d’Edanna et le gigantesque arbre qui le constitue. 84 A partir de 41’’ commence le thème d’Edanna. Les sons indigènes correspondent au souffle du vent qui s’engouffre dans l’arbre, aux chants d’oiseaux et aux divers craquements de bois. Les passages de 1’02 à 1’16, de 1’52 à 2’06 et de 3’02 à 3’16 correspondent au même son d’activation, une plante en spirale qui se met en mouvement lorsque le joueur se positionne dessus. Plage 29 : même situation de jeu que la plage 20. On retrouve la basse électronique et les trois motifs du thème d’Edanna : E : 6’’ et 1’01. F : 36’’, variations de F : 1’10, et 2’22. G : 1’22. Voltaïc. Motif H Motif I Motif J Plage 30 : même situation de jeu que la plage 21. Cette plage assez longue met en évidence tout le processus aléatoire de déclenchement des motifs primaires. On retrouve les quatre motifs mélodiques qui constituent le thème musical de Voltaïc : 85 H : 23’’ (chant, mesures 1 et 2), 1’13 (chant, mesures 3 et 4) 2’44 (mesures 1et 2), 3’04 (son transformé, mesures 1 et 2), 3’29 (mesures 3 et 4), 5’30 (mesures 1 et 2) et 6’10 (mesures 3 et 4). I : 5’’, 37’’, 3’50 et 5’05. J : 4’07 (variation et troncature) et 4’46 (troncature). De 1’27 à 2’19, les sons ambiants ont une amplitude très élevée, ce passage correspond également à une pause musicale. Plage 31 : le joueur se déplace des valves, non loin de la porte du tunnel qui mène à la salle des machines, jusqu’à la petite forteresse où il est arrivé sur l’île. Motifs : H : 12’’ (son transformé, mesures 1 et 2), 31’’ (chant, mesures 1 et 2) et 1’14 (chant, mesures 3 et 4). I : 48’’ et 1’53. A 1’09, on entend les sons indigènes correspondant aux sons des vagues ; à 1’22, le joueur, en atteignant la forteresse, arrive de l’autre côté des mécanismes du barrage (les sons sont à gauche), dont la roue à aubes. 86 Conclusion des analyses. Il apparaît clairement de l’analyse des thèmes que les procédés cinématographiques concourant à la dramatisation de l’image et des évènements par la musique, sont repris et insérés dans un cadre interactif, celui du jeu vidéo. Au cinéma, ces procédés sont des éléments d’appréhension de ce qui est suggéré visuellement, mais aussi un lien temporel qui peut nous renseigner sur ce qui va se passer ; dans le jeu vidéo, ils permettent de plus d’orienter le joueur dans ses choix d’action. Cette analyse des thèmes musicaux montre à quel point le thème d’ouverture est chargé symboliquement, annonciation d’un drame avec un motif chargé de tension dont on découvre plus tard qu’il est associé au protagoniste et que l’on retrouve à chacune de ses interventions ; ce thème d’ouverture pourrait s’apparenter au résumé musical d’une tragédie amenée à se dévoiler au cours du jeu. Là encore, on retrouve un procédé cinématographique concernant la façon musicale de présenter un drame que l’on comprend plus tardivement au cours du film. Par exemple dans Pierrot le Fou de (JeanLuc GODARD, musique d’A. DUHAMEL, 1965). Le générique présente un thème lent et mineur de quatre accords répétés qui se résolvent imparfaitement sur un cinquième. On retrouve ce thème sous une forme variée, après que Ferdinand se soit exclamé « c’est comme dans un mauvais rêve », le thème altéré du générique s’inscrit sur les images d’un chassé-croisé entre Marianne, Ferdinand et Franck, et prendra fin lorsque Marianne assomme Franck en lui brisant une bouteille sur la nuque (cas de l’intervention musicale justifiée par un élément diégétique, confère analyse du thème de la plage 15). La symbolique musicale apparaît alors évidente, le thème du générique qui portait en lui le tragique, représente l’assassinat de Franck ; il interviendra à chaque fois, au cours de l’intrigue, pour symboliser la mort. L’utilisation des thèmes musicaux inscrits dans une logique thématique (variations porteuses de significations et qui traduit l’évolution du drame) est une réminiscence de la logique musicale classique fonctionnant par thème, notamment dans l’opéra. Pour l’opéra la répétition et la variation d’un thème associé à un personnage sont l’expression musicale des sentiments qu’il éprouve et des évènements qu’il rencontre : la réitération et l’altération du thème associé à Saavedro renseignent le joueur sur ce qui va se passer mais également sur le personnage, ses sentiments et ses intensions, et l’incitent à réagir. 87 Ces thèmes sont déclenchés suivant la progression du joueur donc en rapport avec sa participation, son action : le jeu vidéo reprend ainsi des procédés de composition de la musique classique pour les insérer dans un processus d’interactivité. Du point de vue du choix de l’instrumentation, outre celui de l’orchestre qui comme nous l’avons vu est de plus en plus fréquent dans ce but de recréer l’univers sonore d’un film, le choix de tel ou tel instrument reprend certains clichés liés à l’utilisation des timbres instrumentaux. Ainsi en reprenant quelques observations de Mario Litwin71, des observations plus symboliques que scientifiques : le violon seul exprime la nostalgie, en masse une certaine grandiloquence, le violoncelle la tristesse, la clarinette, dans le registre grave, le mystère, par exemple. On peut ajouter à cela l’utilisation de certaines techniques de jeu devenues elles aussi des partis pris conscients ou non : les trilles posent une scène, maintiennent le suspens, les pizzicati véhiculent une certaine légèreté, le jeu en legato, suivant le contexte, une complainte. Myst III reprend ainsi une dialectique propre au cinéma : on peut parler d’une « remédiation » du drame cinématographique. Cependant la différence fondamentale, c’est que cette « remédiation » aboutit à une fonction qui n’appartient qu’au jeu, celle de renseigner le joueur pour l’amener à réagir de telle ou telle façon. Pour les bruitages, on retrouve également des procédés propres au cinéma où ils ont cette fonction d’accroître le réalisme : les sons indigènes renforcent le réalisme du visuel et sont un élément d’acceptation de l’endroit où l’on est ; s’y ajoute la même volonté de rendre réel un objet ou une ambiance qui ressortent des images pour un environnement qui n’existe pas dans la réalité. La recherche de l’unité et de la diversité des sons pour un même principe d’activation (par exemple le fait de baisser un levier), de même que l’émission des sons d’ambiance contrôlés par des outils audio spécialisés permettant une part d’aléatoire, s’inscrivent dans une recherche sonore particulière au jeu vidéo : éviter la répétition. La diversité des sons pour une même action est un élément du réalisme, par le simple fait que dans la réalité il n’existe pas d’objet identique qui produise exactement le même son. Les sons indigènes et d’activation, de même que les sons environnementaux qui peuvent avoir une fonction de localisation, permettent l’immersion du joueur, la musique 71 Mario LITWIN, le Film et sa Musique : Création - Montage, Romillat, 1992. 88 dite « dans le jeu » devenant secondaire : les sons posent eux même l’ambiance sonore en adéquation avec l’image. Le souci d’éviter la répétition se retrouve au niveau des séquences musicales, déclenchées de façon aléatoire en cours de jeu, permettant ainsi de contourner le problème : la musique dans le jeu n’est, de plus, pas obligatoire. L’analyse des thèmes de récompense (de chaque « Age ») a mis en évidence une écriture musicale souple et composée de telle sorte qu’il y ait une corrélation entre la partie instrumentale, les sons électroniques et les sons indigènes. Chaque élément sonore s’incère dans un « ton » musical spécifique à chaque « Age », ce qui permet le déclenchement aléatoire des sons indigènes, électroniques et instrumentaux ; c’est cette corrélation qui assure aussi l’unité musicale (l’ambiance musicale) pour un même « Age ». La collaboration avec le programmeur audio permet au compositeur d’établir un scénario musical de ce qui lui paraît juste, de retranscrire, malgré la part d’aléatoire, sa vision musicale (notamment les plages de silences, comme le cas particulier de la plage 30, passage 1’27 à 2’19, où la présence de musique aurait pour conséquence une confusion sonore en raison de la forte amplitude des sons ambiants). 89 Conclusion. L’interactivité sonore et musicale dans le jeu vidéo consiste en une relation causale et bidirectionnelle entre le déclenchement d’éléments sonores spécifiques et une action particulière du joueur ; son degré dépend de la nature du gameplay, qui est elle-même liée au type de jeu. La capacité de représentation du jeu vidéo consiste en la délimitation d’un ensemble d’éléments qui produisent, communiquent, et codifient un ensemble de significations pour le joueur par rapport à un domaine de référence établi par l’intrigue ; elle correspond ainsi à la construction d’un cadre correct par rapport à la proposition de départ pour que se produise l’expérience. L’interactivité entre l’utilisateur et le média visuel réside dans un retour constant entre l’esprit et ce qui est vu ; le média sonore participe à ce processus d’interactivité et fonctionne comme une mise en contexte de l’environnement réaliste proposé par le jeu : les sons et la musique contribuent aux impressions du joueur pour le lieu représenté. L’interactivité du son et de la musique permet de communiquer la nature d’une situation autrement que par le visuel. Les évènements qui prennent place visuellement et leur enchaînement dans le temps dépendent des actions imprévisibles du joueur. Le son et la musique en interagissant avec ce dernier assurent la cohérence sonore et musicale avec les changements visuels que le joueur provoque. De plus l’interactivité du média sonore permet d’informer le joueur non seulement sur ce qui se passe mais aussi sur ce qui va se passer, l’incitant ainsi à réagir ; l’interactivité sonore apporte ainsi au jeu une dimension qui ne peut exister sans elle en communiquant au joueur ce qui ne peut l’être par le visuel. Concernant l’approche de la composition du son et de la musique, il apparaît que le véritable problème est la répétition, inhérente à la nature du jeu puisque sa durée n’est pas fixée : l’écriture d’un « scénario musical » est une approche intéressante dans le fait qu’elle permet de considérer suivant les évènements du gameplay la pertinence ou non d’une intervention musicale et sonore, et de prévoir ainsi des plages de silence. Les outils audio qui permettent le déclenchement aléatoire d’éléments musicaux, auquel s’ajoute une approche particulière au niveau de la composition, sont des éléments 90 de réponse. Ainsi l’analyse des thèmes de récompense du jeu Myst III : The Exile a mis en évidence une écriture musicale souple et composée de telle sorte qu’il y ait une corrélation entre la partie instrumentale, les sons électroniques et les sons indigènes. Chaque élément sonore s’incère dans un « ton » musical spécifique à chaque « Age », ce qui permet le déclenchement aléatoire des sons indigènes, électroniques et instrumentaux ; c’est cette corrélation qui assure également l’unité musicale pour un même « Age ». Cependant il nous apparaît qu’une musique adaptative qui serait le résultat d’une analyse du comportement du joueur pendant l’expérience et pour des phases de jeu où aucun évènement particulier n’interviendrait, viendrait suppléer une musique ambiante qui deviendrait redondante ; elle s’inscrirait en effet dans une évolution musicale naturelle tout en renforçant l’acceptation du joueur pour ce qui lui est proposé, puisque la musique serait la traduction musicale des sentiments qu’il ressent. L’avancée des technologies, à savoir l’apparition de la spécification DLS pour le MIDI et de CODEC plus adaptés pour le jeu vidéo, l’amélioration des techniques de compression, et la création d’outils spécialisés pour l’audio, donnent la possibilité de créer une partition musicale de qualité audio instrumentale voire orchestrale et qui soit interactive. Cependant cette recherche est en partie dictée suivant des critères plus ou moins imposés qui rentrent dans des considérations d’ordre commercial, ce qui implique une certaine uniformisation des procédés musicaux. La « remédiation » est une forme d’hybridation qu’opère le jeu vidéo sur le cinéma, afin de s’approprier ses techniques de représentation : elle permet l’effet d’immédiateté en faisant référence aux connaissances de l’utilisateur et accroît ainsi la sensation d’immersion pour le joueur. Cependant ce procédé s’inscrit également dans une logique artistique dictée par certains critères commerciaux ; en effet la « remédiation » tend vers une acceptation plus facile pour le joueur de ce qui lui est proposé, ce qui implique parfois une uniformisation dans les procédés de représentation où le jeu tend à reprendre intégralement l’univers d’un film à grand succès, c'est-à-dire son système entier de représentation (nous pouvons donner l’exemple de la multitude de jeux qui reprennent l’univers du Seigneur des Anneaux de façon réaliste par rapport aux films). L’intérêt de la « remédiation » se situe dans le fait que le jeu vidéo va s’inspirer en général d’autres médias, dont le cinéma, pour ensuite « construire un monde » qui lui est propre : la conséquence du point de vue sonore doit être nécessairement la même si l’on 91 veut que la musique d’un jeu soit acceptée par le joueur (par habitude) mais en même temps qu’elle remplisse son rôle dans le système de représentation spécifique utilisé par le jeu. Or il est un constat que la musique du jeu vidéo tend à reprendre par « remédiation » les procédés cinématographiques afin de renforcer l’affect suggéré visuellement par une qualité sonore (utilisation de l’orchestre) et de composition accrues, mais souvent au détriment de l’interactivité, et de la spécificité musicale qu’elle doit présenter en adéquation avec le système de représentation spécifique utilisé par le jeu vidéo. Les analyses du thème d’ouverture et des thèmes associés à Saavedro pour le jeu Myst III : the Exile a permis de mettre en évidence en quoi les diverses inspirations du jeu vidéo pour d’autres médias, et la recherche pour le son et la musique peuvent conduire à une approche sonore et musicale inédite, tout en se conformant aux critères d’interactivité et de qualité musicales imposés par l’industrie du jeu. En utilisant une structure musicale fonctionnant suivant une logique thématique, la réitération et l’altération du thème deviennent des éléments d’informations pour le joueur sur ce qui va se passer mais également sur les personnages, ses sentiments et ses intensions, et vont ainsi l’inciter à agir ; bien que la musique orchestrale n’intervienne qu’à des phases de jeu où le joueur n’a aucune action, elle s’inscrit ainsi dans un cadre interactif. Elle reprend de plus une dialectique propre à la musique de film, se référant ainsi à une culture inconsciente acquise par le joueur et qui vont l’aider dans l’interprétation des symboles utilisés par le média sonore. 92 Bibliographie. LIVRES. BOLTER Jay David & Richard GRUSIN, Remediation : Understanding New Media, MIT Press, Massachusetts,1999. FREEMAN David, Creating Emotion in Games, The Craft and Art of Emotioneering New Riders Publishing, Indianapolis, 2004. GOODMAN Nelson, l’Art en Théorie et en Action, Editions de l’Eclat, Paris, 1996 (Of Mind and Other Matters, Harvard Univ. Press, Cambridge Mass. 1984). GOODMAN Nelson, Manières de Faire des Mondes, 1992, Editions Jacqueline Chambon, Nîmes (Ways of Worldmaking, Hackette Publishing Company, Indianapolis/Cambridge 1978). GOODMAN Nelson & Z. Catherine ELGIN, Reconceptions en Philosophie, Presse Universitaire de France, Paris, 1994 (Reconceptions in Philosophy and Other Arts and Sciences, Hackett Publishing Company, Indianapolis/Cambridge, 1988). HUGLO Pierre André, Le Vocabulaire de Goodman, Ellipses Edition Maketing S.A., Paris, 2002. IUPPA Nicholas Interactive Design for New Media and the Web, Focal Press, Boston, 2001. KING Geoff & Tanya KRZYWINSKA, Screen Play: Cinema/Videogames/Interfaces, Wallflower Press, Londres, 2002. LITWIN Mario, le Film et sa Musique : Création - Montage, Romillat, 1992. MORIZOT Jacques, La Philosophie de l’Art de Nelson Goodman, Editions Jacqueline Chambon, Nîmes, 1996. ROADS Curtis, L’audionumérique, Dunod, Paris, 1998 (The Computer Music Tutorial, MIT Press, 1996) SANGER George Alistair, The Fat Man on Game Audio: Tasty Morsels of Sonic Goodness, New Riders Publishing, Indianapolis, 2004 WINKLER, Todd, Composing Interactive Music, Techniques and ideas using Max, Cambridge (Massachusetts), MIT Press, Londres, 1998. WOLF Mark J.P, The medium of the video game, Mark JP Wolf Publisher: University of 93 Texas Press, 2001. WOLF Mark J.P & PERRON Bernard, The Video Game Theory Reader, Routledge, 2003. ARTICLES. ESCAL Françoise, Variations sur le Thème, Revue de Communications n°47 de L’EHESS, Seuil, 1988. FISCHETTI Antonio, Interaction image/son dans les conceptions du montage, CinémAction n°72, Corlet Telerama, 1994. LANG A., GEIGER S., STRICKWERDA M., & SUMNER J., The effects of related and unrelated cuts on viewers' memory for television: A limited capacity theory of television viewing, Communication Research, volume 20, 1993. RESSOURCES INTERNET. BOYD Andrew, When Worlds Collide: Sound and Music in Film and Games, 4 février 2003. Disponible sur : http://www.gamasutra.com/features/20030204/boyd_01.shtml (Page consultée le 12/04/2004). BRUSA BASQUE Simona, Technology for building illusions, 2003. Disponible sur : http://people.interaction-ivrea.it/s.brusa/pdf/TechnologyforBuilding.pdf (Page consultée le 25/08/2004). CHANCE Thomas, Riffing on Tolkien: The Conceptualization, Production, and Dissemination of Music in the Lord of the Rings, 12 novembre 2003. Disponible sur : http://www.gamasutra.com/features/20031112/thomas_01shtml (Page consultée le 19/04/2004). ESKELINEN Markku, « The Gaming Situation », GameStudies, volume 1, issue 1, juillet 2001. Disponible sur : http://www.gamestudies.org/0101/eskelinen/ (Page consultée le 20/03/2004). GAULTIER Pierre, Le jeu vidéo, une culture influente et sous influence, in dossier Jeu vidéo et Cinéma, mars 2001. Disponible sur : http://polygonweb.online.fr/ (Page consultée le 13/11/2003). HARLAND Kurt, Composing for Interactive Music, 17 février, 2000. Disponible sur : http://www.gamasutra.com/features/20000217/harland_01.htm (Page consultée le 07/01/2004). 94 KOOPS Kim, Interactive Spatial Audio Composition Technology and EAX 4.0 API Demonstrated At Game Developers Conference. Disponible sur : http://www.gamespydaily.com/news/pressrelease.asp?id=1935 (Page consultée le 23/05/2004). LINDBORG PerMagnus, Le dialogue musicien - machine : Aspects des systèmes d'interactivité musicale, Mémoire de DEA de musique et musicologie du XXe siècle, Université de Paris IV Sorbonne 2003. Disponible sur : www.notam02.no/~perli/pm/writings/DEA/Lindborg-DEA.htm (Page consultée le 14/08/2004). LORET Christian, L’interactivité et la générativité du point de vue sonore, 1er octobre 2002. Disponible sur : www.jm.u-psud.fr/~adis/rubriques/p/jdoctic/loret.pdf (Page consultée le 07/01/2004). McGANN Neal, « Watching Games and Playing Movies : the Influence of Cinema on Computer Games », septembre 2003. Disponible sur : http://www.gamasutra.com/education/theses/20040515/mcgann_01.shtml (Page consultée le 23/05/2004). MILLER Mark, Producing Interactive Audio: Thoughts, Tools, and Techniques, 15 octobre 1997. Disponible sur : http://www.gamasutra.com/features/sound_and_music/111497/interaudio1.htm (Page consultée le 07/01/2004). MORTENSEN Torill, « Playing with Players: Potential methodologies for MUDs », volume 2, issue 1, juillet 2002. Disponible sur : http://www.gamestudies.org/0102/mortensen/ (Page consultée le 20/03/2004). NICOLAS François, « Qu’est ce qu’une logique musicale ? », Conférence à l’IRCAM, forum Diderot, 3 décembre 1999. Disponible sur : www.entretemps.asso.fr/Nicolas/TextesNic/Diderot/LogiqueDiderot.html (Page consultée le 15/06/2004) PIDKAMENY Eric, Levels of sound, 15 mai 2002. Disponible sur : www.vgmusic.com/information/vgpaper2.html (Page consulté le 15/11/2003) ROSS Rob, « Interactive Music…er Audio », 15 mai 2001. Disponible sur : http://www.gamasutra.com/resource_guide/20010515/ross_01.htm (Page consultée 02/03/2004). STARR Bob, WHITE Tom, BILLIAS Athan et al., MIDI Manufacturers Association. Disponible sur : www.midi.org (Page consultée le 15/02/2004). 95 WALL Jack, Music from Myst III: The Exile–The Evolution of a Video game Soundtrack, 11 janvier 2002. Disponible sur : http://www.gamasutra.com/features/20020110/wall_01.htm (Page consultée le 15/11/2003). WALL Jack, Using a Live Orchestra in Game Soundtracks, 20 mai 2002. Disponible sur : http://www.gamasutra.com/resource_guide/20020520/wall_01.htm (Page consultée le 08/05/2004). WHITMORE Guy, Design with Music in Mind: A guide to Adaptive Audio for Game Designers, 29 mai 2003. Disponible sur : http://www.gamasutra.com/resource_guide/20030528/whitmore_01.shtml (Page consultée le 14/12/2003). AUTRES SITES INTERNET. Farlex, Online Dictionary, Encyclopedia and thesaurus. Site disponible sur : www.thefreedictionary.com (Page consultée le 20/09/2004) Firelight Technologies. Site disponible sur: www.fmod.org/ (Page consultée le 24/02/2004). RAD Game Tools, Inc. Site disponible sur : http://www.radgametools.com (Page consultée le 17/05/2004). Xiph.org's Foundation. Site disponible sur : www.vorbis.com 24/02/2004). 96 (Page consultée le Liste des jeux vidéo utilisés. Beyond Good and Evil, Ubi Soft, 2003. The Black Mirror, Micro Application, 2003. Blood 2: The Chosen, Monolith Productions, GT Interactive, 1999. Blood Omen 2, Crystal Dynamics, Eidos Interactive, 2002. Blood Wake, Stormfront Studios, Microsoft, 2002. Counter Strike : Condition Zero, Ritual, Sierra Entertainment, 2002. Deus Ex, Ion Storm, Eidos Interactive, 2001 Deus Ex: Invisible War, Ion Storm, Eidos Interactive, 2004. Diablo 2, Blizzard Entertainment, 2000. Doom 3, id Software Genre, Activation, 2004. Fellowship of the Ring, Surreal Software, Vivendi Universal Game, 2002. Freedom Fighters, Io Interactive, Electronic Arts, 2003. Grand Theft auto Vice City, Rockstar, Take Two Interactive, 2002. Half Life, Valve Software, Sierra Entertainment, 2000. Harry Potters and the Chamber of Secrets, EA GAMES, Electronic Arts, 2002. Heroes of Might and Magic III, New World Computing, 3DO, 1999. Hitman 2: The Silent Assassin, Io Interactive, Eidos Interactive, 2002. The hobbit, Inevitable Entertainment, Vivendi Universal Game, 2003. Lock On Modern Air Combat, SSI, Ubi Soft, 2004. The lord of the Rings: Middle-Earth Online, Turbine, Vivendi Universal Game, sortie en 2005. The Lord of the Rings: The Return of the King, Electronic Arts, 2003. The lord of the Rings: War of the Ring, Liquid Entertainment, Vivendi universal game, 2003. The lord of the Rings: Treason of Isengard, Surreal Software, Vivendi Universal Game (annulé). Moonwalker, SEGA, 1989. Morrowind: the Elder Scrolls 3 Bethesda Softworks, Ubi Soft, 2002. Myst, Cyan World, Ubi Soft, 1994. Myst III: the Exile, Presto Studios, Ubisoft, 2001. Need for Speed 3, Electronic Arts, 2001. 97 No One Lives forever 2, Monolith Productions, Sierra, 2002. Pacman, Namco, 1980. Planetfall, Activation, 1996. Pong, Atari, 1972. Rez, United Game Artists, Sega, 2000. Riven, Cyan World, Ubi Soft, 1999. Soul Reaver 2, Crystal Dynamics, Eidos Interactive, 2001. Space Invaders, Atari, 1978. Star Wars: Rogue Leader, Factor 5, LucasArts Entertainment, 2002. Supreme Snowboarding, Housemarque, Infogrames, 1999. Thief, Dark Project 2: The Metal Age, Looking Glass, Eidos Interactive, 2000. Tomb Raider: The Angel of Darkness, Core Design, Eidos Interactive, 2003. Total Immersion Racing, Razorworks, Empire Interactive, 2002. Unreal tournament, Epic GAME, Atari, 1999. Warcraft 2, Cyberlore Studios, Blizzard Entairtainment, 1996. Winning Eleven 6, Konami, 2002. Wipeout XL, Psygnosis, 1996. Zelda 64, Nintendo, 1998. Zork Grand Inquisitor, Activation, 1996. 98 Liste des extraits musicaux. Exemples d'instrumentation. Plage 1 Plage 2 Plage 3 Plage 4 Plage 5 Plage 6 Plage 7 : « The Unseen Attack », Tomb Raider : The Angel of Darkness (2003). Issu du jeu. Musique : P. Connelly. : « Cairo », Deus Ex : Invisible War (2004). Issu du jeu. Musique : A. Brandon. : « Main Title », Freedom Figthers (2002), in « Freedom Fighters Original Soundtrack », publiée par Nano Studio NYC, 2003. Musique : J.Kyd. : « Morrowind Title » Morrowind The Elder Scrolls III. Issu du jeu. Musique : J. Soule. : « LAVA », Heroes of Might and Magic III (1999). Issu du jeu. Musique : P. Romero, R. King et S. Baca. : « Hitman 2 : The Silent Assassin » (2002), in « Hitman 2 Original Soundtrack », publiée par Eidos Interactive, 2002. Musique : J. Kyd. : « Main Theme », Deus ex : The Invisible War (2004). Issu du jeu. Musique : Kidney Thieves. Extraits du « guide de style musical ». Extraits disponibles sur < www.gamasutra.com>. Musique : T. Chance. Plage 8 : « Elves2 LOTRs 2 GameVersions », Middle-Earth Online et War of the Ring. Plage 9 : « Song of the Dwarves », Plage 10 : « Hobbits 3 Versions », The Hobbit, Treason of Isengard et Middle-Earth Online. Analyses sonores et musicales du jeu Myst III : The Exile. Extraits (plages 11 à 18 et 23 à 25) in « Myst III : the Soundtrack », publié par Ubisoft, 2001. Musique : J. Wall. Thème d'ouverture, thèmes et séquences musicales attribués aux personnages d'Atrus et de Saavedro. Plage 11 Plage 12 Plage 13 Plage 14 Plage 15 Plage 16 Plage 17 Plage 18 : « Opening Titles ». : « Atrus' Study ». : « Saavedro Enters ». : « Saavedro Theme ». : « The Confrontation ». : « He Sees Hope ». : « The Tide Has Turned ». : « Going Home ». 99 Exemples de sons indigènes et d'activation pour chaque « Age ». Plage 19 Plage 20 Plage 21 Plage 22 : extrait des sons indigènes et d'activation pour Amateria. : extrait des sons indigènes et d'activation pour Edanna. : extrait des sons indigènes pour Voltaic. : extrait des sons indigènes et d'activation pour Amateria. Thèmes associés à chaque « Age ». Plage 23 : « Theme from Amateria ». Plage 24 : « Theme from Edanna ». Plage 25 : « Theme from Voltaic ». La musique d'ambiance dans le jeu. Plage 26 Plage 27 Plage 28 Plage 29 Plage 30 Plage 31 : Amateria. Musique d’ambiance et sons indigènes. : Amateria. Même situation de jeu que la plage 22 avec la musique d'ambiance. : Arrivée à Edanna. : Edanna. Même situation de jeu que la plage 20 avec la musique d'ambiance. : Voltaic. Même situation de jeu que la plage 21 avec la musique d'ambiance. : Voltaic. Musique d’ambiance et sons indigènes. 100 Annexe : programme sur le concept de l’adaptabilité musicale. Environnement Max/MSP. 1) Utilisation du programme. o Ouvrir le patch « PATCH-PRINCIPAL ». o Appuyer sur la barre d’espace pour lancer le programme. o Faire glisser le curseur dans la zone du pictslider (le programme prend en compte le déplacement du curseur, si l’on clique dans l’interface plutôt que de faire glisser le curseur, alors le programme ne prend pas en compte le passage d’un état à un autre). o Il n’y a pas de réinitialisation, si l’on veut recommencer depuis le début il faut fermer puis rouvrir le programme. o Tous les fichiers sons se chargent à l’ouverture du programme. 2) Notre objectif de départ. Le programme a été réalisé sous environnement Max/MSP (version 4.0.5, système d’exploitation Mac OS 9.2) ; l’objectif de départ était de programmer une musique qui évoluerait suivant le déplacement du joueur dans un environnement de jeu. Nous avons pris une interface assez simple, le pictslider, pour représenter cet environnement, le joueur étant symbolisé par le curseur. Le choix d’une interface plus adaptée a posé un problème qu’il était plutôt difficile à résoudre sans se lancer de façon approfondie dans la programmation de celle-ci, ou sans utiliser des outils que nous maîtrisions peu ; nous avons ainsi préféré nous concentrer sur nos objectifs, avant tout, musicaux dans le cadre de cette annexe. L’inconvénient du pictslider est qu’il nous permet de voir directement le début et la fin de l’environnement ; il faut imaginer notre programme dans un cadre qui pourrait s’appliquer aux conditions d’un jeu vidéo où le joueur explore un environnement inconnu afin de découvrir un endroit spécifique. Notre but était d’étudier la façon de 101 programmer une musique évolutive qui renseignerait le joueur sur sa progression vers l’objectif à atteindre tout en le prévenant du danger qu’il encourt : le thème de fin symbolise une tension qui arrive à son comble plutôt qu’une détente musicale qui symboliserait la réussite du joueur. Nous avons alors fait le choix d’utiliser un ensemble de boucles évoluant suivant le déplacement du joueur, chaque boucle comprenant trois niveaux d’intensité musicale qui correspondrait chacun à une localisation plus ou moins éloignée de l’objectif à atteindre. Nous avons tenté de programmer dans le même temps ces boucles de façon que pour une même localisation il y ait toutefois des variations musicales afin d’éviter la répétition. 3) L’architecture du programme. Le programme se présente sous la forme d’un patch principal « PATCHPRINCIPAL » et de deux patches secondaires « Prgr-BOUCLE1 » et « Prgr-BOUCLE2 ». a. Le programme « PATCH-PRINCIPAL » Le programme « PATCH-PRINCIPAL » comporte le pictslider, deux sous patches de contrôle « valeurY » et « valeurY2 » qui prennent en compte le déplacement vertical du curseur, un DAC principal auquel sont reliées les sorties audio des patches secondaires et deux sfplay~ dans lesquels sont chargés automatiquement et respectivement à l’ouverture du programme, le fichier « transitionboucle1etboucle2 » qui correspond à une transition musicale et un autre, « finboucle », qui correspond au thème de fin. Ces deux séquences musicales ont été composées avec un synthétiseur Yamaha Motif. Les sous patches de contrôle contiennent chacun quatre compteurs qui fonctionnent suivant le déplacement du curseur dans l’interface et pour un ensemble de condition de valeurs des « y ». Suivant ces valeurs, un compteur peut envoyer plusieurs informations prises en compte dans les patches secondaires : les sous patches « valeurY » et « valeurY2 » envoient les informations respectivement aux patches « Prgr-BOUCLE1 » et « Prgr-BOUCLE2 ». 102 b. « Prgr-BOUCLE1 ». Le patch « Prgr-BOUCLE1 » est actif pour des valeurs de « y » comprises entre 1 et 70. Pour ce programme nous voulions explorer les possibilités de créations sonores qui seraient acceptables dans le cadre du jeu vidéo (ce qui implique de composer avec un certain rapport d’harmonicité entre les différents sons) en utilisant qu’un seul fichier audio très court de 0,01 seconde (512blp) et en générant le reste des sons par les procédés de réinjection et de modulation de fréquence, et par synthèse additive (sous patch « partielstransitions »). L’objet comb~ utilise un ensemble de procédés de filtrage qui s’appliquent lors de la réinjection du signal. Le fichier 512blp est stocké dans le buffer~ ondes ; l’oscillateur cycle~ ondes utilise l’onde 512blp pour générer du son ensuite transformé par l’objet comb~. Les paramètres qui s’appliquent aux objets comb~ et à l’objet sig~ sont stockés dans un preset et chaque ensemble de paramètres est déclenché suivant un ensemble de compteurs qui prennent en entrée les informations envoyées par les compteurs du sous patch « valeurY ». L’objet pan2S~ couplé avec un oscillateur permet d’automatiser la panoramisation des sons générés. c. « Prgr-BOUCLE2 ». Le patch « Prgr-BOUCLE2 » est actif pour des valeurs de « y » allant de 71 à 127. Ce programme consiste en la transformation de trois fichiers sons ; les procédés de transformations sont simples, il s’agit de faire varier la vitesse de lecture des fichiers sons par l’objet groove~ ou d’agir sur leur durée avec l’objet zigzag~ dans le sous patch « trsf2 ». Le programme « Prgr-BOUCLE2 » est enclenché dès que la valeur des « y » dépasse 71. Dans ce cas l’objet script connecte la sortie du sfplay~ dans le « PATCHPRINCIPAL » au message « init2 » qui lance la lecture des fichiers son stockés respectivement dans l’objet groove~ et zigzag~ ; ensuite le programme fonctionne à partir d’un ensemble de compteurs déclenchés dans le sous patch « trsf2 » suivant les informations envoyées par le sous patch « valeurY2 » du « PATCH-PRINCIPAL ». Les programmes « Prgr-BOUCLE1 » et « Prgr-BOUCLE2 » s’inscrivent dans la même optique de générer du sonore et du musical en utilisant le moins possible des 103 fichiers audio : pour le premier cela se traduit en synthétisant le son, pour le second en réutilisant de manières différentes un même son pour lui donner une toute autre couleur, la continuité musicale étant assurée par le fait qu’il y ait toujours un élément qui reste « statique » pendant que les autres évoluent. La raison était de pouvoir passer d’un état musical à un autre d’une manière évolutive, mais surtout d’explorer les possibilités de création. 4) Les difficultés rencontrées. Les deux difficultés principales étaient de pouvoir revenir en arrière tout en maintenant une cohérence musicale et d’éviter la répétition des procédés de génération sonore. Il nous a semblé important de considérer le fait qu’une fois la tension musicale installée, même pour un degré faible, il n’y ait pas de sens de revenir à l’ambiance sonore du début de l’exploration : l’objectif est d’atteindre un endroit précis et l’environnement sonore et musicale le rappelle au joueur. Ainsi lorsque l’on évolue avec le curseur pour des valeurs de « y » comprises entre 0 et 70, l’objet script déconnecte progressivement les compteurs du sous patch « valeurY » ; si une fois arrivé à la valeur 70 on décide de revenir en arrière alors le « Prgr-BOUCLE1 » se réinitialise à la troisième étape de tension musicale de la boucle 1 ; lorsque la valeur 71 est dépassée, une fois la lecture terminée du fichier « transitionboucle1etboucle2 », le programme « Prgr-BOUCLE2 » prend le relais ; si l’on revient alors en arrière, l’ambiance musicale générée par le second programme persiste incitant le joueur à continuer sa progression. Eviter la répétition fut une tache plus difficile. Pour « Prgr-BOUCLE1 », la nappe sonore créée par l’objet cycle~ onde évolue d’une façon constante grâce aux réinjections et à l’application des filtres dans le temps. Pour le « Prgr-BOUCLE2 », si l’on reste dans la zone correspondant au deuxième niveau d’intensité (valeur de y comprise entre 90 et 100), un deuxième compteur agissant sur les paramètres de l’objet groove~ s’active, de même de nouveaux paramètres sont appliqués à l’objet zigzag~. Pour chaque niveau d’intensité, nous avons prévu une variation des sons, du début d’un niveau d’intensité à sa fin : par exemple dans le patch « Prgr-BOUCLE1 », lorsque 40<= y <= 60 (3ème niveau d’intensité) ; le compteur 3 prend des valeurs de 13 à 17 et pour les valeurs 14, 16 et 17 sont envoyés respectivement les bang « bang14 », « bang15 » et « bang3 » à partir du sous 104 patch « pdonnées » ; ces bangs vont sélectionner à chaque fois différents paramètres stockés dans le preset du sous patch « partielstransitions », pour générer un ensemble de sons suivant le principe de la synthèse additive. Cependant l’utilisation des boucles imposait que l’on applique un ensemble de conditions supplémentaires afin de déclencher d’autres sons pour le retour à un même état. Ce ne fut pas possible de le faire à chaque fois en raison du nombre trop important de conditions et d’informations à envoyer car cela entraînait certaines difficultés pour se repérer dans le processus de programmation, mais aussi au niveau du DSP. 5) Les procédés d’intensification musicale. Suivant notre objectif de départ, les programmes secondaires « Prgr-BOUCLE1 » et « Prgr-BOUCLE2 » utilisent chacun des procédés différents pour exprimer une tension grandissante suivant que l’on se rapproche du lieu à atteindre. Pour le programme « Prgr-BOUCLE1 », la tension naît par la modulation qui intervient lorsqu’on accède au deuxième niveau d’intensité, puis en l’enrichissement progressif de la masse sonore par synthèse additive. Lorsque l’on arrive à l’état transitionnel entre les deux programmes (transition 61<= y <=70) les sons de la première boucle se mélangent avec ceux du fichier « transitionboucle1etboucle2 » ; la lecture de ce fichier commence en même temps que le bruit blanc, caractéristique du programme « Prgr-BOUCLE2 », apparaît. L’ensemble permet la continuité musicale entre les sons déclenchés par le programme « Prgr-BOUCLE1 » et ceux déclenchés par « PrgrBOUCLE2 ». Pour le programme « Prgr-BOUCLE2 », la tension s’exprime par les changements de registre des différents sons et des paramètres de filtrages qui s’appliquent sur eux et l’effet d’écho. Lorsque l’on arrive au deuxième niveau d’intensité, le son grave et longuement tenu se transforme en un son aigu et filtré tandis que s’appliquent de nouveaux paramètres sur le bruit blanc accentuant son mouvement. A partir du troisième niveau d’intensité interviennent un son percussif, grave et sourd, et un son électronique auquel s’appliquent les paramètres du son introductif transformé par l’objet zigzag~ ; puis intervient le thème de fin dont les sons électroniques reprennent le mouvement du bruit 105 blanc et les « timbales » qui martèlent les temps. La persistance du bruit blanc permet la continuité sonore entre chaque état d’intensité de la boucle. Voir ci-après le schéma des procédés d’intensification musicale. 6) Conclusions. Nous avons tenté de faire en sorte que le phénomène de répétition soit moins marqué ; cependant la logique de programmation que nous avions adoptée a fait qu’il était difficile de l’éviter plus sans alourdir le programme. Le procédé de boucles évolutives nous semblait pourtant le meilleur moyen d’assurer une évolution musicale naturelle entre le passage d’un degré d’intensité à un autre. Le temps de transitions entre les états nous semble relativement convenable si on le considère appliqué au domaine du jeu vidéo où il faudrait évidemment plus de temps pour passer d’un endroit à un autre de l’environnement. Le pictslider impose deux contraintes d’utilisation de faire glisser le curseur et de ne pas le faire trop rapidement. Il s’avère que nous aurions pu gagner en souplesse de programmation en utilisant des matrices plutôt que d’utiliser des compteurs pour envoyer de trop nombreuses informations qui nous ont posées certaines difficultés lors de la réalisation. Nous considérons ce programme comme un essai, cependant nous pensons que la synthèse sonore est un procédé de composition à explorer davantage dans le cadre du jeu vidéo ; elle donne la possibilité d’évoluer de façon plus naturelle avec le jeu que des déclenchements automatisés de fichiers son ; l’adaptabilité musicale permet de suivre au plus près les déplacements du joueur et de le renseigner de manière plus continue que ne peut le faire une musique scénarisée fonctionnant par thèmes : nous pensons ainsi que l’adaptabilité musicale pourrait enrichir l’interactivité musicale dans le domaine du jeu vidéo. Ce programme nous a amené à nous poser davantage de questions sur l’intégration musicale, en plus de notre réflexion sur les moyens d’éviter la répétition et de faire évoluer la musique d’une façon cohérente pour des changements de « ton » non fixés dans le temps. En effets les procédés que nous avons utilisés ne peuvent s’appliquer que pour des phases de jeu particulières ; la musique ici évolue avec le déplacement, nous renseigne sur notre localisation par rapport à l’objectif à atteindre mais elle incite également le joueur à avancer. Il s’agit d’un cas assez spécifique, dans le cadre du jeu vidéo, il ne faut cependant pas que la musique empêche le joueur d’agir. 106 Schéma des procédés d’intensification musicale. THEME DE FIN (y >=120): les sons électroniques reprennent le mouvement du bruit blanc. Les « timbales » martèlent les temps ; ostinato au « violoncelle ». Fondu progressif des sons de la boucle 2. L’interface se désactive. BOUCLE 2. (Il n’est plus possible de revenir aux « états musicaux » de la boucle 1). 101<= y <=119: son grave et percussif. Intervention d’un son électronique qui reprend les mouvements du son introductif déclenché par l’objet zigzag~. 90 <= y <= 100: effet de pitch sur le bruit blanc, cet effet persiste jusqu’à la fin. Modification du son grave introductif en un son aigu. 71<= y <= 89 : bruit blanc, son grave et tenu. Son transformé par l’objet zigzag~ avec effet d’écho (delay~) et de panoramisation qui rappellent les sons créés par synthèse FM de la boucle 1. TRANSITION (61<= y <=70) : apparition du bruit blanc symbolisant le vent. Si l’on revient vers la BOUCLE 1, le bruit blanc persiste quelques secondes. BOUCLE 1. (Les compteurs sont déconnectés des conditions suivant le passage d’un état à un autre). 40<= y <= 60 : enrichissement progressif de la masse sonore. 10<= y <= 39 : changement de fondamentale. 1<= y <= 9 : fondamentale et son unique panoramisé. Si l’on reste à cet état la boucle évolue jusqu’au troisième niveau d’intensité pour inciter le joueur à avancer. Initialisation Barre d’espace. 107 108