LE SON ET LA MUSIQUE DANS LE JEU VIDEO

Transcription

LE SON ET LA MUSIQUE DANS LE JEU VIDEO
LE SON ET LA MUSIQUE
DANS LE JEU VIDEO
Maîtrise rédigée par Nicolas BREDIN
Sous la direction d’Anne SEDES
Université Paris 8
Département Musique
2004
Je remercie ma directrice de maîtrise, Anne SEDES, pour le temps
qu’elle m’a consacré au cours de cette année et pour ses conseils précieux.
1
SOMMAIRE
Introduction. ........................................................................................................ 4
I.
Le son et la musique comme média interactif dans le jeu vidéo. ............................. 6
A.
L’interactivité sonore et musicale dans le processus d’interactivité du jeu vidéo. ........ 6
1) Les concepts d’interactivité et d’adaptabilité pour le son et la musique dans le jeu
vidéo. .............................................................................................................................. 6
a. Deux concepts utilisés de façon plus ou moins confuse. ....................................... 6
b. Une définition de l’interactivité et de l’adaptabilité sonore et musicale dans le jeu
vidéo. ..................................................................................................................... 8
2) Le processus d’interaction entre l’utilisateur, le système de représentation et les
éléments sonores. ......................................................................................................... 11
a. La capacité de représentation du jeu vidéo : « faire des mondes ». ..................... 11
b. Le réalisme et l’immersion dans le jeu vidéo....................................................... 12
c. Le rôle du son et de la musique dans le processus d’interaction entre l’utilisateur
et le système de représentation............................................................................ 14
3) « Un vocabulaire d’objets audio » spécifique et immersif........................................... 16
a. Communication directe. ....................................................................................... 16
b. Communication indirecte. .................................................................................... 16
c. Communication environnementale. ..................................................................... 17
d. Sons indigènes...................................................................................................... 17
4) Les différents degré d’interactivité du son suivant la nature du gameplay. ................. 18
5) Le rapport entre l’image et le son : la complexité liée à l’interactivité....................... 22
a. La musique comme élément de continuité spatio-temporelle. ............................. 22
b. Fonction des bruitages.......................................................................................... 24
c. Traitement de la voix............................................................................................ 25
d. Points de vue et mouvements de caméra.............................................................. 25
B.
Les technologies utilisées pour faire du son et de la musique un média interactif. ..... 28
1) Historique des progrès des technologies dédiées aux sons pour le jeu vidéo. ............. 28
a. Les consoles. ........................................................................................................ 28
b. Les ordinateurs. .................................................................................................... 30
2) Le MIDI........................................................................................................................ 33
a. Le MIDI, technologie et spécifications de base. .................................................. 33
b. L’assignement standardisé des voix, le General MIDI (ou GM)......................... 34
c. Le DLS (Downloadable Sounds) et le XMF (eXtensible Music Format), deux
spécifications qui permettent l’interactivité de l’audio. ...................................... 34
3) L’audionumérique. ....................................................................................................... 36
a. L’échantillonnage................................................................................................. 36
b. Les techniques de compression. ........................................................................... 37
c. Les formats de fichiers audio les mieux adaptés aux jeux vidéo. ........................ 37
4) Des outils qui permettent l’intégration et l’interactivité de l’audio dans le jeu. ......... 40
Conclusion de la première partie.......................................................................................... 42
2
II.
A.
Procédés de composition et analyses sonores et musicales. .................................... 45
Procédés de composition.............................................................................................. 45
1) Quelles questions se poser avant d’aborder la composition d’une musique de jeux
vidéo ? .......................................................................................................................... 45
2) Comment aborder la composition d’une musique interactive dans le jeu vidéo? ........ 46
a. Construire un « squelette » musical. .................................................................... 46
b. L’étude nécessaire des transitions musicales. ...................................................... 47
c. Définir l’opportunité des changements musicaux. ............................................... 48
d. Le problème de la répétition................................................................................. 48
3) Le choix de l’instrumentation et du style musical........................................................ 50
a. L’utilisation de plus en plus fréquente de l’orchestre. ......................................... 51
b. Exemples d’instrumentation et conclusion. ......................................................... 51
4) L’hybridation entre le jeu vidéo et le cinéma............................................................... 54
a. Le phénomène de « remédiation ». ...................................................................... 55
b. Conséquences du point de vue musical pour le jeu.............................................. 56
5) Un exemple de « remédiation » jeu vidéo – œuvre littéraire. ...................................... 58
a. Une approche musicale innovante........................................................................ 58
b. Le choix de l’instrumentation. ............................................................................. 60
B.
Analyse sonore et musicale du jeu Myst III : The Exile. ............................................. 62
1) Les formes de « remédiation ». .................................................................................... 62
a. Un scénario inspiré par la littérature fantastique.................................................. 62
b. La participation de véritables acteurs de cinéma. ................................................ 63
2) Le thème musical et sa répétition................................................................................. 64
a. La notion du thème musical comme unité signifiante.......................................... 64
b. La notion de logique thématique.......................................................................... 65
3) Analyse des thèmes et des séquences musicales attribués aux personnages................ 68
a. Le choix de l’instrumentation. ............................................................................. 68
b. Thème d’ouverture et thème attribué au personnage d’Atrus. ............................. 68
c. Thème de Saavedro et séquences musicales attribuées au personnage................ 71
4) L’environnement audio dans Myst III : The Exile. ...................................................... 74
a. Les outils utilisés.................................................................................................. 74
b. La recherche du réalisme...................................................................................... 76
c. Extraits de sons indigènes et d’activation. ........................................................... 77
5) La musique aléatoire en cours de jeu. .......................................................................... 79
a. Approche musicale............................................................................................... 79
b. Procédés de composition et exemples.................................................................. 80
Conclusion des analyses. ........................................................................................................ 87
Conclusion. ......................................................................................................... 90
Bibliographie...................................................................................................... 93
Liste des jeux vidéo utilisés............................................................................... 97
Liste des extraits musicaux............................................................................... 99
Annexe : programme sur le concept de l’adaptabilité musicale................. 101
3
INTRODUCTION.
Depuis l’apparition du jeu vidéo dans les années 1970, la recherche a essentiellement
porté sur l’amélioration de la qualité graphique, des animations vidéo et des possibilités
offertes au joueur pendant l’expérience, au détriment d’une évolution de la qualité du
média sonore considéré comme secondaire.
Toutefois, depuis la fin des années 1990, une industrie émerge aux Etats-Unis où la
qualité et l’interactivité du son et de la musique deviennent des critères également
essentiels au succès commercial d’un jeu. Ainsi trois organismes américains se sont
constitués pour récompenser chaque année la recherche et la qualité du son des jeux
vidéo : l’Academy of Interactive Arts and Sciences (AIAS) créée en 1998, le National
Academy of Recording Arts and Sciences (NARAS), qui permet depuis 2000 aux jeux de
concourir aux Grammy Awards et le Game Audio Network Guild (GANG), fondé en 2002.
Les pièces admises présentent une complexité musicale et artistique semblable à celle
d’une bande originale de film ; du reste, il existe une réelle demande des consommateurs
américains pour la commercialisation des bandes son originales de jeux.
Le jeu vidéo utilise un ensemble de médias, tels le graphisme ou la vidéo, pour
véhiculer l’information dans un cadre non linéaire et interactif. Aussi, appliquer au média
sonore le concept d’interactivité implique de l’intégrer dans un rapport avec l’ensemble
des autres médias utilisé par le jeu, c'est-à-dire qu’il participe au processus d’interaction
entre le joueur et le programme informatique.
Au-delà, faire du média sonore un critère de qualité pour le jeu signifie également que
le son et la musique doivent se conformer à des principes de composition. Or ces principes
se fondent sur des procédés cinématographiques qui sont donc surtout adaptés à un cadre
linéaire, ce qui ajoute, en plus des contraintes techniques de réalisation, de nouvelles
contraintes d’écriture pour le compositeur de jeu vidéo.
Si la démarche de l’industrie du jeu semble de prime abord essentiellement répondre à
une logique commerciale, cela ne doit pas faire oublier la possibilité du développement,
de la recherche et de la création pour le son et le musical dans le jeu vidéo.
Ainsi qu’apporte l’interactivité sonore et musicale en plus de l’interactivité visuelle
pour le joueur? De quelles manières le jeu vidéo peut-il proposer une approche du son et
4
de la musique inédite tout en répondant aux critères imposés par l’industrie du jeu?
Qu’elles sont les voies pouvant être explorées pour le son et la musique concernant la
relation entre le média sonore et le joueur?
Dans une première partie nous étudierons le son comme média interactif dans le jeu
vidéo à travers les caractéristiques de l’interactivité sonore et musicale pour le jeu et ce
qu’elles apportent au processus d’interactivité entre le joueur et le programme
informatique, mais aussi la complexité qu’implique l’interactivité du jeu dans le rapport
entre l’image et le son ; puis nous aborderons les technologies utilisées, en tant qu’elles
offrent des possibilités d’interaction et de qualité pour le son et la musique.
Dans une seconde partie, nous étudierons les procédés de composition pour le son et la
musique dans le jeu vidéo : nous évoquerons les problèmes liés à la non linéarité du jeu
vidéo, notamment la répétition et les procédés afin de la rendre moins évidente, le choix
de l’instrumentation et les conséquences de l’influence du cinéma sur l’approche musicale
du jeu vidéo. Enfin l’analyse du jeu Myst III : The Exile, nous servira d’illustration et
d’approfondissement ; elle nous permettra de mettre en évidence en quoi les diverses
inspirations du jeu vidéo pour d’autres médias, et la recherche pour le son et le musique
peuvent conduire à une approche sonore et musicale inédite.
5
I. Le son et la musique comme média interactif dans le jeu vidéo.
A. L’interactivité sonore et musicale dans le processus d’interactivité du
jeu vidéo.
1) Les concepts d’interactivité et d’adaptabilité pour le son et la musique dans le jeu
vidéo.
Il nous semble important d’introduire le concept d’adaptabilité musicale, non
seulement parce qu’il est souvent confondu par les professionnels du jeu vidéo avec celui
de l’interactivité, mais aussi parce que ce concept très peu utilisé pour le jeu nous paraît
comme une voie d’exploration intéressante sur laquelle nous reviendrons au cours de
notre sujet.
a.
Deux concepts utilisés de façon plus ou moins confuse.
Nous citerons plusieurs professionnels de la musique du jeu vidéo concernant ces deux
concepts :
Le compositeur R. Ross donne une définition de l’interactivité musicale comme elle
est le plus souvent vue par les développeurs de jeux vidéo : « L’audio1 interactif est une
technologie conçue afin de permettre à l’audio créé [et] placé dans une application
donnée, de réagir spécifiquement aux actions de l’utilisateur ou aux changements dans
l’environnement de l’application »2.
Cette définition ne prend en compte que l’action du joueur sur les éléments sonores ;
pour R. Ross l’audio interactif est l’audio capable de «non seulement réagir à une
situation donnée ou de s’adapter aux changements dans l’environnement, mais aussi de
prévoir les choses à venir »3.
1
Le terme « audio » est utilisé ici pour désigner de façon générale l’ensemble des fréquences d’ondes
acoustiques audibles, ce qui concerne autant la musique que les bruitages ou la voix par exemple.
2
« Interactive audio is a technology designed to allow specifically created audio, placed in a given
application, to react to user input and or changes in the application environment », in R. ROSS,
« Interactive Music…er Audio », < www.gamasutra.com >, 15 mai 2001.
3
« the audio to not only react to a given situation or adapt to the changes in the environment but to also to
give a portent of things to come », R. ROSS, op. cit.
6
Le compositeur G. Whitmore préfère le terme d’ « audio adaptatif, terme qui décrit
l’audio et la musique qui réagissent – voire anticipent - de façon appropriée au
gameplay »4.
Le game play ou gameplay est l’ensemble des règles qui définit les possibilités
d’actions pour le joueur ; ce terme fait référence aux expériences vécues par le joueur
pendant l’interaction avec le système mais aussi à ce que le joueur fait.
Pour M. Miller, ancien président de l’IA-SIG (Interactive Audio Special Interest
Group), « si l’on décrit l’audio comme étant interactif, on implique de parler d’une écoute
qui ne serait pas simplement linéaire. L’audio interactif doit être construit d’une façon
que l’utilisateur puisse affecter la réalisation musicale en temps réel pendant l’écoute »5.
M. Miller utilise le terme d’audio « réactif ou sensible, venant de drivers audio attentifs à
ce qui se passe et pouvant répondre d’une manière appropriée par un changement de
musique »6. L’audio interactif dépend du comportement imprévisible du joueur.
M. Miller utilise le concept d’interactivité pour décrire la capacité de réaction du son
et de la musique uniquement par rapport à l’action du joueur, donc pour une relation
unidirectionnelle entre le joueur et les éléments sonores.
Le compositeur K. Harland entend par musique interactive « une musique qui répond
à l’état des choses, des évènements que l’utilisateur est en train de vivre […] Au delà d’un
simple remplacement d’une séquence musicale par rapport à une autre, une véritable
interactivité implique plus une interaction entre la musique et l’état de jeu, plutôt qu’une
interaction directe entre la musique et le joueur »7.
Au cours de la réunion de l’IA-SIG en février 1997, le compositeur T. Robertson,
donne une définition de ce qu’est un système audio adaptatif : « Les systèmes audio
4
« "Adaptive audio" is a term used to describe audio and music that reacts appropriately to - and even
anticipates – gameplay », in G. WHITMORE, Design With Music In Mind: A guide to Adaptive Audio for
Game Designers, < www.gamasutra.com >, 29 mai 2003.
5
« If you're describing audio as "interactive," you're implying more than just linear playback. Interactive
audio should be constructed in such a way that that the user can affect its performance in real time during
playback » in M. MILLER, Producing Interactive Audio: Thoughts, Tools, and Techniques,
< www.gamasutra.com >, 15 octobre 1997.
6
« reactive, responsive audio, coming from audio drivers that are "aware" of what's happening and can
respond by changing the music appropriately », MILLER, op. cit.
7
« "interactive music" […] music that responds to the state of affairs the user is experiencing […] Beyond
mere switching from one song to another, true interactivity implies more of an interaction between the
music and the gamestate, rather than a direct interaction between the music and the player », in K.
HARLAND, Composing for Interactive Music, < www.gamasutra.com >, 17 février 2000.
7
adaptatifs permettent à l’utilisateur une expérience plus élevée à travers une bande
sonore audio dynamique qui s’adapte aux variations d’états émotionnels et dramatiques
résultants éventuellement des choix faits par l’utilisateur »8. De cette approche, le
compositeur G. A. Sanger9 distingue l’audio interactif de l’audio adaptatif. Selon lui,
l’audio interactif est l’audio qui est produit lorsqu’un utilisateur exécute la moindre action
tandis que l’audio adaptatif fait référence à quelque chose qui se produit lorsque
l’utilisateur influence l’audio et l’audio influence l’utilisateur.
G. A. Sanger attribue à l’interactivité les caractéristiques de la réactivité et attribue à
l’adaptabilité celles de l’interactivité.
Il ressort de ces différentes définitions une certaine ambiguïté quant à l’utilisation des
termes « interactif » et « adaptatif » pour le son et la musique dans un jeu vidéo, qui tient
en grande partie au lien entre ces deux concepts, que nous allons détaillé ci-après.
b. Une définition de l’interactivité et de l’adaptabilité sonore et musicale dans
le jeu vidéo.
Nous définirons les concepts de interactivité et de l’adaptabilité du son et de la
musique, dans le contexte de notre sujet, respectivement de la manière suivante :
L’interactivité
sonore
et
musicale
désigne
une
relation causale
et
bidirectionnelle entre le déclenchement d’éléments sonores10 particuliers et une action
spécifique du joueur. L’interactivité est une réaction par rapport à une action, la
bidirectionnalité implique ainsi un déclenchement d’éléments sonores en réponse à une
action particulière du joueur et inversement, le joueur réagi d’une façon spécifique en
fonction d’éléments sonores particuliers ; l’audio interactif revêt ainsi un rôle
informationnel qui incite le joueur à réagir.
8
« Adaptive audio systems provide a heightened user experience through a dynamic audio soundtrack
which adapts to a variety of emotional and dramatic states resulting, perhaps, from choices the user
makes », in G. A. SANGER, The Fat Man on Game Audio: Tasty Morsels of Sonic Goodness, New Riders
Publishing, 2004, p. 202.
9
SANGER, op. cit., p. 203.
10
Nous utiliserons l’expression « éléments sonores » au pluriel pour désigner un ensemble de sons organisés
ou non de façon musicale.
8
Dans ce contexte, l’adaptabilité est un élément de l’interactivité ; elle ne
concerne seulement que la musique dans le jeu vidéo. Le concept d’adaptabilité renvoie
au principe de générativité11, où le programme prend en charge les effets de l’action.
« L’algorithme de programmation se concentre sur la captation d’évènements repérés
chez l’utilisateur […] [et] se contente de suivre le parcours afin d’en enregistrer certains
paramètres pour alimenter des données préalablement programmées12 » : l’action génère
la musique, celle-ci ne dépend que du joueur, et bien qu’il existe une relation entre la
musique et les actions de celui-ci, le son ne reste qu’un accompagnement ; elle s’inscrit de
plus dans un cadre de communication très restreint avec le joueur lorsqu’elle n’est pas
utilisée pour le processus d’interactivité sonore. En effet, dans ce cas, l’adaptabilité
musicale consiste en un résultat sonore adapté à la capacité de progression du joueur pouvant certes l’inciter à être plus performant - et non en un élément d’information sur ce
qui va se passer par rapport à son parcours dans l’environnement de jeu. Le caractère
adaptatif d’une musique pour un jeu implique ainsi une relation causale et le plus souvent
unidirectionnelle, dans le sens « joueur vers ordinateur ». La musique seule s’adapte, est
ajustée, par rapport à un original, suivant un enchaînement d’évènements particuliers que
le joueur provoque.
Ces deux concepts peuvent chacun s’illustrer à travers deux exemples.
Le jeu vidéo Beyond Good and Evil (2003)13 est nominé en mars 2004 en tant
que finaliste pour la meilleure musique interactive à l’AIAS et au GANG Awards dans la
catégorie « Meilleure Partition Interactive ». Il s’agit d’un jeu à « genre multiple »
contenant des éléments du jeu de combat, de simulation et d’aventure (c.f. 4). Lors des
phases de combat la musique s’agence en diverses séquences musicales qui se juxtaposent
suivant une trame dramatique ; par exemple, dès le début de son exploration dans
l’environnement de jeu, le joueur doit combattre l’assaut des ennemis : une séquence
musicale se déclenche alors qui représente « le thème du combat » et consiste en une
11
LORET Christian, L’interactivité et la générativité du point de vue sonore,
< www.jm.u-psud.fr/~adis/rubriques/p/jdoctic/loret.pdf >, 1er octobre 2002.
12
LORET, op. cit.
13
Il sera donné en fin de mémoire et pour chaque jeu cité sa date de parution et les sociétés de
développement et de distribution. L’année correspond à la première parution du jeu, elle peut différer de
plusieurs années suivant l’adaptation du jeu pour une autre plateforme. Par exemple le jeu Resident Evil,
distribué par Capcom, est sorti à l’origine en 2000 pour la console PS2, puis adapté en 2002 pour la console
GameCube.
9
musique électronique au tempo élevé accompagnée d’un chœur, exhortant le joueur à se
livrer au combat ; une fois la plupart des ennemis éliminés, lui succède un choral lent et
dramatique, lui-même suivi du « thème de la victoire » lorsque le héros finalement
triomphe.
Dès que le joueur résout une énigme, le thème qui introduit le jeu, composé de
quelques notes au piano, réapparaît et, pour chaque solution trouvée au cours du jeu, ce
thème s’enrichit puis s’étend suivant le principe de la variation, avec l’entrée croissante
des cordes et des vents.
L’arrivée d’ennemis est toujours précédée d’éléments sonores spécifiques qui se
déclenchent différemment dans le temps, soit de façon simultanée lorsque l’ennemi arrive
derrière le joueur, le prévenant ainsi du danger ; soit de façon anticipée, lorsque le joueur
se rapproche d’un danger imminent, l’invitant alors à être davantage sur ses gardes.
Le jeu Rez (2000) illustre plus particulièrement le concept d’adaptabilité ; c’est
un jeu de tir qui se déroule dans un environnement représentant un gigantesque réseau
informatique que le joueur doit pirater. Chaque niveau se divise en dix ramifications qu’il
faut analyser en décodant la sécurité, c'est-à-dire en détruisant un petit cube de lumière. A
chaque niveau correspond une musique techno qui se développe au fur et à mesure que le
joueur réussi à pirater ces ramifications ; à chaque fois qu’un ennemi est éliminé un
échantillon musical est joué qui diffère suivant le nombre de cibles détruites par le joueur
auparavant, et qui vient s’insérer dans la musique en cours. La musique s’ajuste ainsi
suivant la performance du joueur, c'est-à-dire à ses actions : elle s’inscrit dans une relation
causale et unidirectionnelle, « joueur vers musique ».
Le jeu vidéo utilise un ensemble de médias interactifs tel le graphisme, les animations
ou la vidéo par le biais de l’interface de représentations qu’est l’écran. Les éléments
sonores interviennent au cours de l’expérience du joueur, sa participation, c'est-à-dire
pendant le processus d’interaction entre lui et le système de représentation : il faut donc
alors s’interroger sur la nature de cette interaction et le rôle du son et de la musique dans
celle-ci.
10
2) Le processus d’interaction entre l’utilisateur, le système de représentation et les
éléments sonores.
a.
La capacité de représentation du jeu vidéo : « faire des mondes ».
La capacité de représentation dans un jeu vidéo illustre la notion de « Worldmaking »
ou « ce qui fait un monde » utilisée par N. Goodman, philosophe de l’art ; « Faire un
monde, c’est élaborer une version pertinente et correcte du monde, par l’application et la
projection d’un schéma symbolique sur un domaine de référence »14.
N. Goodman porte en particulier son attention sur les notions de vérité, de
représentation et le statut des symboles dans le travail artistique. Il évoque la notion de
« correction » (rightness), comme étape pour faire un monde, « la correction d’un
symbole se [manifestant] dans le caractère ajusté de son fonctionnement »15 ;
« l’ajustement d’un symbole est non seulement ajustement à ce à quoi il fait référence […]
mais aussi ajustement avec un contexte, un discours, ou un complexe donné d’autres
symboles […] ; sous ces deux modes, l’ajustement n’est ni passif ni à sens unique, mais
actif et réciproque ; par rapport au matériau expérimental, une hypothèse implique des
opérations de supplémentation (interpolation et extrapolation à partir de certaines
données) et d’effacement (élimination de certaines données considérées comme non
pertinentes) ; de même, dire qu’une image ressemble à la nature signifie souvent qu’elle
correspond à un certain standard dans la représentation habituelle de la nature »16.
La notion de « correction » est l’expression de la pertinence et de ce qui donne accès à
la version, c'est-à-dire la manière d’interpréter un fait.
« Faire un monde c’est [ainsi], par l’application d’un schéma symbolique à un
domaine de référence, y déterminer des genres et des espèces pertinentes (par la
dénotation, [application référentielle d’une étiquette ;] l’exemplification, [la possession
plus la référence ;] ou l’expression), y établir des relations d’ordre en fonction d’un cadre
de référence, y opérer des effacements et des supplémentations pour accéder à une
certaine correction du système »17.
14
HUGLO Pierre André, Le Vocabulaire de Goodman, Ellipses Edition Maketing S.A., 2002, p. 29.
HUGLO, p. 14.
16
HUGLO, op. cit., pp. 14-15.
17
HUGLO, op. cit., p. 30.
15
11
Ainsi N. Goodman établi ce que l’on pourrait appeler une généalogie de mise en
contexte de versions, qui renvoie à différentes relations d’ordre de manière
d’interprétations.
La capacité de représentation du jeu vidéo consiste en la délimitation d’un ensemble
d’éléments qui produisent, communiquent, et codifient un ensemble de significations pour
le joueur par rapport à un domaine de référence établi par l’intrigue. Cette action de mise
en contexte correspond à l’élaboration d’un « modèle mental » nécessaire afin que le
joueur, projeté dans un environnement non réel, puisse accepter ce qui lui est proposé ;
elle permet d’orienter l’interprétation et d’organiser l’action. Ainsi la capacité de
représentation du jeu vidéo correspond à la construction d’un cadre correct, c’est-à-dire
conforme aux indications exprimées dans la proposition (l’intrigue), pour que se produise
l’expérience.
Par exemple dans le jeu Hitman 2 : The Silent Assassin (2002), le joueur incarne un
tueur à gage qui doit accomplir des missions dans différentes régions du monde. Ainsi une
fois arrivé en Inde, l’environnement de jeu représente un ensemble de symboles qui se
référent à ce pays : un immense marché, des personnages en habits traditionnels, des
bangalas (petites maisons typiques) et un temple sikh où le joueur doit s’infiltrer ; à
chaque entrée de ce temple sont représentés les membres d’une milice reconnaissables par
leur uniforme et leur arme ; ils effectuent une ronde incitant le joueur à agir avec d’autant
plus de discrétion pour ne pas se faire repérer.
La capacité de représentation du jeu vidéo est directement liée aux notions de réalisme
et d’immersion.
b. Le réalisme et l’immersion dans le jeu vidéo.
Le réalisme dans le jeu vidéo.
N. Goodman définit la notion de réalisme comme une conséquence de la notion de
« correction de représentation » qui recouvre deux significations, l’habitude et la
révélation : d’une part « selon l’usage le plus fréquent, une image est réaliste [pour celui
12
qui la regarde] dans la mesure où elle est correcte dans le système habituel de
représentation »18.
D’autre part une représentation qui n’est pas réaliste suivant un standard habituel peut
être tout à fait correcte dans un système différent : « quand un peintre ou un photographe
produit, ou nous révèle, des aspects d’un monde non vus jusqu’à lors, on dit parfois qu’il
atteint un nouveau degré de réalisme en découvrant et présentant de nouveaux aspects de
la réalité. Ce que nous avons ici, avec une représentation dans un système correct mais
étrange pour nous, c’est un réalisme au sens, non de l’habitude, mais de la révélation »19.
Cependant il existe une troisième sorte de réalisme, où la correction n’est pas
déterminée par la comparaison d’une version avec un monde ; il se présente « non pas en
fonction de ce que dénotent les images et les histoires, mais de ce qui les dénote, non pas
en fonction de la façon dont elles classent les choses, mais de la façon dont elles sont
classées »20 ; ainsi « une description ou une représentation sont correctes, pour un monde
auquel ils s’ajustent »21.
Le jeu vidéo peut proposer autant un réalisme de la troisième sorte qu’un « réalisme
par révélation » ; pour le premier puisqu’il représente généralement un environnement et
des personnages qui n’existent pas mais qui sont corrects par rapport à l’intrigue. Par
exemple dans le jeu Morrowind : The Elder Scrolls III, les « échassiers des marais », les
« netchs », les « dévoreurs », « les braillards des falaises » de même que les « mages
guérisseurs » n’existent pas mais ils sont rendus corrects par rapport à la proposition de
départ où le joueur doit évoluer dans un environnement touché par le « Fléau »,
phénomène météorologique étrange qui enveloppe et empoissonne la nature, la population
et les animaux créant ainsi des monstres et des paysages désolés. Si il y a des monstres
générés par ce mal, alors d’autres créatures peuvent également exister par
supplémentation, si il existe un mal fictif, il est correct qu’il y ait des personnages fictifs
pour le guérir, et que ceux-ci puissent posséder des habitations toutes aussi fictives – les
mages font pousser démesurément des champignons pour s’en servir comme habitation-.
18
GOODMAN Nelson, Manières de Faire des Mondes, 1992, Edition Jacqueline Chambon., p. 165 (Ways
of Worldmaking, Hackette Publishing Company, 1978).
19
GOODMAN Nelson, op. cit., p. 165.
20
GOODMAN , l’Art en Théorie et en Action, Editions de l’Eclat, 1996, p. 36 (Of Mind and Other Matters,
Harvard Univ. Press, Cambridge Mass. 1984).
21
GOODMAN, Manières de Faire des Mondes, 1992, Edition Jacqueline Chambon, p. 167 (Ways of
Worldmaking, Hackette Publishing Company, 1978).
13
Le jeu vidéo peut également proposer un réalisme par révélation car il contient
souvent des éléments qui se réfèrent à un système de symboles qui nous semblent réels par
habitude mais intégrés dans un environnement spécifique (c. f. exemple donné
précédemment pour le jeu Hitman 2 : The Silent Assassin).
La recherche du réalisme dans un cadre interactif, qui implique donc une nature
participative du joueur, est liée à celle de l’immersion.
L’immersion.
La chercheuse et designer interactif J. Murray, défini l’immersion comme « une
sensation d’être entouré par une autre réalité toute entière […] qui s’empare de notre
attention et de notre système de perception »22.
L’immersion est l’engagement mental de l’utilisateur pour ce qui lui est proposé, c’est
le « passage à la crédulité » (B. Laurel), c'est-à-dire l’état d’esprit atteint par l’utilisateur
qui lui permet d’apprécier, et d’être en accord avec, un système de représentation.
L’immersion est un autre aspect du gameplay, elle représente l’ensemble des
expériences vécues par le joueur pendant la phase de jeu.
L’immersion fait partie d’un processus d’interaction constant entre l’ordinateur et
l’utilisateur : elle correspond à un retour entre l’esprit et l’interface de représentation
(l’écran) c'est-à-dire avec ce qui se passe visuellement, au niveau psychologique et
émotionnel ; elle est liée à l’expérience et à la participation active du joueur.
c.
Le rôle du son et de la musique dans le processus d’interaction entre
l’utilisateur et le système de représentation.
L’interaction entre le système de représentation et l’utilisateur consiste en un retour
constant entre l’esprit et ce qui est vu. Selon N.Goodman, « la musique […] participe […]
à la production d’une version visuelle quelque peu mélangée […] que nous sommes
enclins à prendre à un moment donné, comme notre image du monde » 23. De nombreux
motifs et émotions sont communs à l’auditif et au visuel ; ainsi une musique et une
représentation peuvent métaphoriquement faire référence à des propriétés communes mais
22
23
MURRAY Janet H., Hamlet on the Holodeck, Cambridge : MIT Press, 2000, p. 98.
GOODMAN, op. cit., p. 137.
14
chacune d’entre elles possèdent des effets qui transcendent son propre médium : dans le
cadre d’une combinaison de médias « rien n’est plus clair que la musique affecte la
vision, que les images affectent l’ouïe, que les deux affectent et sont affectés par le
mouvement […] Tous s’interpénètrent pour faire un monde »24.
Les éléments sonores insérés dans un cadre interactif sont des éléments de mise en
contexte qui permettent d’orienter l’interprétation du visuel et d’organiser l’action ; ils
contribuent aux impressions du joueur pour un environnement de jeu spécifique, mais
aussi pour les évènements qui prennent place visuellement. Ils sont en corrélation avec
l’image et le mouvement et constituent un élément d’acceptation du joueur pour un
ensemble de signes référentiels établis ; les éléments sonores s’inscrivent dans un
ensemble de systèmes de production, de communications et de codification de signes en
adéquation avec ceux du système de représentations. En reprenant toujours notre exemple
du jeu Hitman 2 : The Silent Assassin, lorsque le joueur évolue à travers les ruelles
indiennes, la sonorité et le rythme des tablas contribuent à renforcer son impression pour
le lieu représenté.
De plus l’interactivité des éléments sonores revêt un rôle informationnel qui incite le
joueur à agir ; elle est un outil de communication avec le joueur pendant le processus
d’interaction entre lui et ce qui est représenté visuellement : elle permet de communiquer
la nature d’une situation autrement que par le visuel et ainsi de renforcer le réalisme de
l’environnement représenté, des évènements qui se déroulent. Elle accroît de même
l’immersion puisqu’elle répond à la nature des évènements que le joueur est en train de
vivre.
Afin de renforcer la sensation d’immersion, il existe un « vocabulaire d’objets audio »
propre au jeu vidéo qui s’insère dans un rapport de l’image avec le son et qui permet
d’élever le niveau d’interactivité. Il consiste en un ensemble de types de communication
entre les éléments présents dans l’environnement et le joueur.
24
GOODMAN, op. cit. p. 137.
15
3) « Un vocabulaire d’objets audio » spécifique et immersif.
a.
Communication directe.
« Un objet communique directement en conséquence d’une action directe exercée sur
lui » 25; c'est-à-dire que le joueur, en agissant directement sur un objet, entraîne le
déclenchement d’un ensemble de sons qui correspond aux caractéristiques sonores
attribuées à cet objet, comme par exemple le craquement d’un fauteuil en bois lorsque que
l’on s’appuie dessus. Ce type de communication renforce ainsi le réalisme des objets
représentés mais aussi la sensation d’immersion pour le joueur puisqu’elle est une réponse
à sa participation active.
L’interaction peut consister également en un retour d’informations sous forme sonore
pour le joueur qui vont l’inciter ensuite à réagir : par exemple dans le jeu Thief, Dark
Project 2 : The Metal Age (2000), lorsque le joueur assène un coup d’épée sur un objet, il
peut reconnaître au son déclenché en réponse si celui-ci est creux ou non et ainsi si l’objet
peut contenir lui-même d’autres objets de valeurs.
b. Communication indirecte.
Une méthode indirecte d’interaction d’objets est une communication qui « en
provoquant quelque chose à se passer dans le jeu, entraîne une réponse d’un autre
élément d’une manière sonore »26. Un exemple typique est l’ « état d’aperçu » pour un
ennemi : lorsque celui-ci voit le joueur, et que cela provoque un changement dans son
comportement, un élément sonore approprié à cette situation est utilisé. Par exemple dans
le jeu Blood 2 : The Chosen (1999), les ennemis hurlent dans une langue étrangère
lorsqu’ils aperçoivent le joueur, dans Morrowind : the Elder Scrolls 3 (2002) les ennemis
menacent le joueur avant de vouloir l’affronter. Ainsi le type de communication indirecte
renforce l’existence du personnage incarné par le joueur vis-à-vis des autres éléments
représentés dans l’environnement de jeu.
25
« An audio object communicates directly as a cause of direct action on its part », in D. BERNSTEIN,
Creating an Interactive Audio Environment, < www.gamasutra.com >, 14 novembre 1997.
26
« That is, by causing something to happen in the game, something else responds sonically »
BERNSTEIN, op. cit.
16
D’autres éléments peuvent communiquer d’une façon indirecte ; le personnage peut
respirer plus difficilement et plus fortement lorsqu’il est fatigué par exemple.
c.
Communication environnementale.
Un personnage, ou un objet dans le jeu, génère un système d’éléments audio pour luimême, sans un rapport de communication avec le joueur. Il s’agit simplement d’affirmer
l’existence du personnage dans son environnement - par exemple un personnage qui se
parle à lui-même ou aux autres.
La communication environnementale est primordiale pour renforcer l’existence d’un
personnage ou d’un objet dans l’environnement de jeu et qu’il devienne une entité
personnelle ou physique. La communication environnementale renforce ainsi le réalisme
des personnages ou des objets représentés ; de plus, elle peut être une source d’indice pour
le joueur : ainsi, dans le jeu Thief, Dark Project 2 : The Metal Age, le joueur doit déjouer
la surveillance des gardes postés devant les bâtiments du shérif et arriver à temps pour
surprendre sa conversation avec le représentant des forces qui ont envahi la région. Les
gardes évoquent cette réunion entre eux ; leur conversation rappelle ainsi au joueur son
objectif et renforce le réalisme de la situation.
d. Sons indigènes.
Les sons indigènes, ou ambiants, font référence au monde sonore qui est généré par la
localisation du joueur dans l’espace de jeu. C’est une collection d’éléments qui s’insère
dans une relation non causale avec le joueur, c'est-à-dire que l’espace sonore n’est pas
modifié par une action directe du joueur, le son réagit aux aspects environnementaux que
la scène est en train de communiquer.
Il s’agit donc d’un système indirect et environnemental, qui permet l’immersion du
joueur dans un lieu spécifique. Un paysage sonore peut être aussi simple qu’une piste en
boucle de sons de forêt ou un système d’objets produisant des sons liés entre eux par leur
position à l’intérieur d’un environnement de jeu donné.
17
***
Le rôle des éléments sonores peut, cependant, varier sensiblement pour un jeu vidéo,
suivant le degré d’interactivité voulu et d’immersion. Chaque typologie de jeu possède ses
propres contraintes, ses procédés et niveaux d’interactions avec le joueur et requiert ainsi
autant de réflexion sur le design sonore.
La partie suivante résume de façon générale le rôle des éléments sonores, leur
organisation, pour les types de jeux les plus courants ; il est à noter qu’un jeu n’appartient
rarement qu’à une seule catégorie, mais intègre plutôt des éléments caractéristiques de
plusieurs types de jeu.
4) Les différents degré d’interactivité du son suivant la nature du gameplay.
Les « Tireurs à la première personne » ou FPS (« First Person Shooters »).
L’action des FPS prend place dans la perspective du joueur en simulant le mouvement
de celui-ci et en le faisant interagir dans un espace en trois dimensions (le positionnement
du joueur est représenté par les objets qu’il tient en main) ; le gameplay place l’emphase
dans la capacité du joueur à utiliser ses armes et à éliminer l’ennemi.
La musique dans ces jeux varie suivant les évènements ; elle a un rôle informationnel
et de mise en contexte important : elle renseigne le joueur sur l’environnement, lui donne
des indices sur ce qui se passe ou va se passer (un changement d’une musique calme à une
musique plus menaçante lorsque un ennemi est proche, par exemple). Les sons ambiants
et les bruitages ont une place prépondérante, ils ont pour fonction le plus souvent de
permettre au joueur de se repérer dans l’espace et de localiser l’ennemi.
Exemples : Counter Strike : Condition Zero (2002), Doom 3 (2004) et Thief, Dark
Project 2 : The Metal Age ou Hitman 2 : The Silent Assassin.
Les « Tireurs à la troisième personne » ou TPS (« Third Person Shooters »).
Les TPS ressemblent au FPS mais avec une perspective très spécifique pour le joueur ;
il est vu de dos ou bien quelque fois dans une perspective isométrique (par un mouvement
18
de la souris la perspective peut être de haut, de bas, de côté, de mi-haut...).par exemple le
jeu Freedom Fighters (2003).
Les jeux d’aventures ou Graphic Adventure.
Ces jeux mettent l’accent sur des énigmes à résoudre et sur l’exploration d’un
environnement. En général le scénario est très riche et le joueur est placé à l’intérieur du
gameplay comme le protagoniste d’une histoire à laquelle il participe.
Ces jeux sont directement issus des Text Adventure des années 80, le texte étant à
l’époque le meilleur moyen de décrire un environnement ou des personnages (Zork Grand
Inquisitor (1996) ou Planetfall (1996) notamment).
Dans les Graphic Adventures la musique est au service d’une ambiance, il s’agit le
plus souvent de boucles qui évoluent lentement suivant le principe de variation. Le
compositeur doit éviter la lassitude, le joueur étant susceptible de rester longtemps dans
un même tableau de jeu ; la musique doit être composée également de telle sorte à ne pas
distraire le joueur dans sa réflexion. Par exemple pour le jeu The Black Mirror (2003), une
grande importance est donnée aux sons environnementaux, la musique, orchestrale,
n’intervient que ponctuellement pour des évènements spécifiques.
Les jeux de rôle ou Role Playing Game (RPG).
Ces jeux proposent le plus souvent une vue subjective ; ils sont proches des jeux
d’aventure au niveau de l’importance du scénario et de l’accent mis sur l’exploration ;
mais l’objet est moins de résoudre des énigmes que de combattre des ennemis et de partir
en quête, le but final étant le plus souvent « de sauver le monde » dans lequel est projeté le
joueur (les jeux Morrowind : The Elder Scrolls III et Diablo 2 (2000) par exemple).
Dans les RPG, le joueur crée des personnages et en défie d’autres ; ces derniers sont
représentés par des statistiques variables telles l’origine, l’occupation ou « métier »
(magicien, guerrier…) qui impliquent des habilités diverses elles aussi, tels l’intelligence,
le savoir ou la force, par exemple. Les RPG mettent l’accent sur l’évolution du
personnage.
Le plus souvent la musique se présente sous forme de thèmes associés à des phases de
jeu spécifiques ; le joueur a une totale liberté et donc la possibilité de revenir en tant de
19
fois qu’il le veut sur ses pas : le risque est donc que la musique peut devenir répétitive et
ennuyante.
Les jeux de stratégie.
Ces jeux font appel à l’habilité, au sens stratégique du joueur afin d’arriver à la
victoire. Ce sont des jeux où la qualité musicale est essentielle car le joueur peut rester
longtemps sur une même phase de jeux. La musique est le plus souvent préenregistrée et
orchestrale, elle est organisée de façon thématique et géographique. Exemple : la série des
jeux Heroes, Heroes of Might and Magic III (1999).
Les jeux de simulation.
Ces jeux ont pour objectif de simuler une activité spécifique aussi pratique que
réaliste, prenant en compte les limitations du monde réel, notamment les limitations
physiques - par exemple les jeux de simulation de vol, tel Lock On (2004), jeu de combat
aérien. La musique est généralement absente pendant la phase de jeu et l’environnement
sonore se constitue essentiellement de bruitages qui ont pour fonction de renforcer le
réalisme.
Les jeux de courses.
Le joueur est placé à l’intérieur d’un véhicule et doit se mesurer à d’autres
conducteurs ou à un chronomètre. La musique est rythmée et est le plus souvent linéaire ;
certains effets affectent toutefois la musique lorsque sont actionnées des commandes
spécifiques : par exemple, pour le jeu Need for Speed 3 (2001) le fait d’utiliser le « turbo »
engendre une accélération de la musique en cours. Les bruitages et leur réalisme ont une
grande importance, ils contribuent à l’immersion du joueur : bruit du moteur, des roues
pendant le freinage, lors des collisions ou des sorties de routes ; ils s’inscrivent le plus
souvent dans un type de communication directe avec le joueur (par exemple le jeu Total
Immersion Racing (2002)).
20
Les jeux de sport.
Ces jeux imitent la façon de jouer des sports physiques traditionnels. Pour une certaine
catégorie telle le football ou le tennis, la musique est absente en cours de jeux : les
éléments sonores correspondent aux sons ambiants (le son de la foule) et au traitement de
la voix pour les commentaires ; la communication entre l’audio et le joueur est du type
directe (action du joueur sur le ballon par exemple) ou indirecte (arbitrage). Une grande
importance est accordée, pour renforcer l’immersion, à l’interactivité des commentaires
avec les actions de jeux. Pour les jeux de glisse comme le surf ou le ski, la musique est
très énergique et linéaire ; la recherche est plus au niveau du réalisme des bruitages.
Exemples : le jeu de snowboard Supreme Snowboarding (1999) et le jeu de football
Winning Eleven 6 (2002).
Les séquences cinématiques ou cutscene.
C’est une section dans le jeu où le joueur n’a aucun contrôle, il n’est plus acteur, il est
exclusivement spectateur ce qui interdit d’en faire une utilisation importante car par
essence même du jeu vidéo, le joueur doit être libre et actif. Les scènes cinématiques
apparaissent le plus souvent au début, pour clore un niveau et à la fin ; ce sont en pratique
des courts métrages réalisés le plus souvent en image de synthèse. Le potentiel émotionnel
de la musique est le même que pour un film ; la musique est au service uniquement de
l’image et de l’affect que le visuel véhicule, elle est préenregistrée et totalement linéaire.
***
Il vient de ces descriptions que les types de jeux présentant un gameplay fortement
interactif (les FPS, les TPS, les RPG et les jeux d’aventure essentiellement) impliquent
d’utiliser des éléments sonores présentant également un degré d’interactivité élevé.
La difficulté qu’implique un niveau d’interactivité élevé réside dans l’impossibilité de
pouvoir prévoir constamment les actions du joueur. Dans un jeu vidéo, le joueur est, par
analogie avec le cinéma, à la fois le monteur puisqu’il déclenche quand il le décide, par
son action dans l’environnement de jeu, des évènements sonores ; mais il est aussi le
21
mixeur par sa position dans l’espace de jeu. Alors qu’au cinéma l’audio a modifié le
montage des plans en introduisant la continuité, comment faire de l’audio, un élément de
continuité spatio-temporel qui assurerait la cohérence du rapport entre l’image et le
son dans un jeu où l’interactivité rompt constamment cette continuité?
Il est intéressant d’étudier le parallèle entre cinéma et jeu vidéo à propos du rapport
entre l’image et le son, afin d’éclairer les procédés utilisés par le jeu vidéo en les
rapprochant des procédés conventionnels utilisés au cinéma, et d’illustrer la complexité
qu’implique l’interactivité dans la cohérence de ce rapport.
5) Le rapport entre l’image et le son : la complexité liée à l’interactivité.
a.
La musique comme élément de continuité spatio-temporelle.
Au cinéma, la musique a pour but de faire ressentir des sentiments, d’interpréter la
scène vue. L’utilisation traditionnelle de la musique est d’unifier les diverses images,
d’offrir une continuité : la structure dramatique d’un film est souvent directement articulée
par une structure musicale appropriée, elle permet la fluidité dans les raccords de plan et
de séquences « cut ». L’effet de la musique est supposé être apprécié de façon
subliminale, elle oriente les sentiments par rapport à l’affect de l’image, elle concourt
aussi à créer l’ambiance du film.
A. Fischetti illustre bien l’importance de l’intervention musicale dans le montage d’un
film ; il évoque les expériences d’homologues américains27 sur la mémorisation du
spectateur suivant les techniques de raccord de plan :
« Deux types de « cuts » sont considérés :
Les cuts reliés sémantiquement qui assurent le passage entre deux scènes ayant une
relation soit visuelle (changement de point de vue par exemple), soit auditive (anticipation
sonore d’une scène à une autre).
Les cuts « non reliés », qui séparent deux scènes n’ayant rien en commun ».28
27
A. LANG, S. GEIGER, M. STRICKWERDA, & J. SUMNER, The effects of related and unrelated cuts
on viewers' memory for television: A limited capacity theory of television viewing. Communication
Research, volume 20, 1993, pp. 4 -29
28
FISCHETTI Antonio, Interaction image/son dans les conceptions du montage, CinémAction n°72, Corlet
Telerama, p. 172, 1994.
22
Lorsque le « cut » n’est pas relié, l’information auditive est moins mémorisée car le
spectateur se concentre déjà sur le changement de plan, à l’inverse lorsque le « cut » est
relié sémantiquement la tâche de connexion entre les plans étant plus aisée, les capacités
de perception du spectateur ne sont pas saturées.
Ainsi « Les effets d’anticipation consistant à déclencher le son (dialogues, bruitages,
musique) de la scène suivante avant le changement de plan semblent […] trouver une
double justification : outre qu’ils assurent une certaine fluidité au montage des images, ils
permettent d’éviter la chute de mémorisation consécutive au « cut »29.
Pour un jeu il est beaucoup plus difficile d’assurer constamment la continuité musicale
entre les changements visuels puisque tout dépend des actions imprévisibles du joueur.
Selon le compositeur Simon Burgess : « Lorsque l’on écrit une musique pour un film,
on peut l’écrire pour la faire concorder pour chaque seconde, chaque moment, avec des
évènements qui prennent place visuellement. Avec un jeu, on a généralement pas d’autre
choix que d’écrire avec un certain ton qui s’insère pour une certaine partie du jeu, un
niveau par exemple »30.
Un jeu n’a pas de durée fixe, ce qui entraîne un problème de synchronisation entre la
partie musicale et l’action. La musique scénarisée essaie d’appliquer au jeu les mêmes
effets qu’au cinéma, c'est-à-dire de donner à la musique cette fonction d’interprétation de
la scène vue, de l’évènement qui prend place. On procède par thèmes musicaux : pendant
une phase de recherche, on jouera une musique exprimant le mystère, lors d’une phase
d’action violente, une musique très rythmée par exemple : le déclenchement de la musique
est programmée pour des phases de jeu spécifiques.
L’avantage d’une musique scénarisée est qu’elle permet d’intégrer des phases de
silences, contrairement aux boucles musicales, car leur interruption a un sens : le thème
musical attribué à un évènement spécifique n’est plus joué lorsque celui-ci est terminé.
La musique scénarisée est une approche musicale classique adaptée à la non linéarité
du jeu, mais la musique interactive en évoluant avec l’état de jeu suivant le déplacement
du joueur peut assurer d’autant plus la continuité entre les évènements et donc les
29
FISCHETTI, op. cit., p 172.
« When scoring a film you can write the music to match every second, every moment, of the events that
take place to enhance the visual. With a game you generally have no choice but to write a tune that fits a
certain part of the game, a level for example », in Eric PIDKAMENY, Levels of sound,
< www.vgmusic.com/information/vgpaper2.html >, 15 mai 2002.
30
23
changements dans le système de représentation ; cependant, il se pose alors le problème
des transitions musicales, de passer d’un ton musical à un autre alors qu’on ne peut
prévoir à l’avance quand aura lieu ce changement.
b. Fonction des bruitages
Il existe deux types de bruitages : les bruitages d’ambiance qui habillent le décor, et
les bruitages d’évènements qui sonorisent l’action.
Il faut distinguer le « champ » qui évoque les sons dont la source est présente à
l’écran, et le « hors champ » qui renvoie aux sons que l’on entend sans en voir la source.
Le « hors champ » est tout ce qui se déroule en dehors du cadre, et qui a cependant de
l’importance pour le déroulement de l’action ou en prolongeant le champ dans
l'imaginaire du spectateur. Le bruitage « hors champ » est efficace pour accroître le
réalisme ou la tension d’une scène.
Pour un jeu la notion de hors champ est plus floue car la plupart des sons peuvent se
retrouver tour à tour hors et à l’intérieur du champ. La gestion des bruitages «hors
champ » revêt un intérêt pour le gameplay ; elle permet de signaler par exemple la
présence d’ennemis mais aussi de se repérer dans un univers en 3D (par exemple pour les
jeux en réseaux tels Counter Strike : Condition Zero ou Half Life).
Au cinéma, on utilise le bruitage de façon créative pour renforcer l’aspect visuel, le
spectateur a acquis une culture du son qui ne correspond en rien à la réalité ; la plupart de
ces sons ne seraient reconnaissables sans l’image, c’est une écoute causale, on utilise le
son pour s’informer sur sa cause, c’est le principe de la « sonification ».
Dans le jeu on utilisait, au début, exclusivement des sons expressifs qui privilégiaient
une écoute sémantique, c'est-à-dire que ces sons faisaient référence à un langage ou à un
code d’interprétation, comme par exemple les sons pour « les bonus ». On utilise de plus
en plus aujourd’hui les bruitages comme au cinéma, cependant l’interactivité du jeu
engendre un problème qui n’existe pas dans le cadre linéaire du cinéma, celui de la
répétition : en effet pour les types de jeux qui offrent au joueur une grande liberté d’action
(FPS, TPS, RPG et jeux d’aventure) on ne peut prévoir à l’avance combien de fois un
même bruitage sera déclenché ; de plus le joueur peut faire intervenir plusieurs bruitages
24
simultanément d’une manière qui n’est pas toujours prévisible par le concepteur sonore ;
ce dernier doit en tenir compte lors de la réalisation des effets sonores, afin qu’ils puissent
sonner correctement entre eux.
c.
Traitement de la voix.
Au cinéma, l’histoire passe par la voix : soit la voix « off », quand la source est situé
hors champ, soit la voix « in », lorsque la source apparaît à l’image, le point de vue
concordant alors avec le point d’écoute, comme le plus souvent les dialogues entre les
personnages.
Dans un jeu, il est plus difficile de faire concorder le point de vue et le point d’écoute ;
soit on traite la voix du héros incarné par le joueur et des personnages dans le jeu comme
une voix « off » (réflexion introspective, comme Samuel le héros du jeu The Black
Mirror), soit comme une voix « in » avec traitement sur le timbre et l’enveloppe. Il faut
alors, pour ce dernier cas et pour une plus grande immersion du joueur, travailler sur
l’enveloppe du son en temps réel.
Par exemple, le jeu Thief : Dark Project 2 : The Metal Age a la particularité de
proposer un environnement de jeu très sombre où il est souvent difficile de se repérer et de
situer l’ennemi ; le joueur prend ses repères grâce aux variations d’amplitude des sons de
pas ou de voix des personnages qui évoluent dans l’environnement et qu’il ne peut voir.
d.
Points de vue et mouvements de caméra.
Le point de vue.
Un autre élément très important appartenant au langage cinématographique est le point
de vue, car il permet au cinéaste d’agencer la réalité, de la présenter suivant un aspect
plutôt qu’un autre et ainsi d’orienter l’appréhension de ce qui est vu par le spectateur
suivant ce qu’il veut lui suggérer.
Le point de vue dépend du cadrage mais aussi de l’angle de point de vue.
On distingue trois types d’angle de prise de vue : frontal, plongée (obtenu lorsque la
caméra est placée au-dessus du sujet qui se trouve dans le champ), et contre-plongée.
25
L’angle de prise de vue peut, selon les cas, correspondre à la logique de la situation ou
renforcer certains aspects dramatiques d’une scène : la puissance d’un personnage, par
exemple, et l’angoisse qu’il suscite ou au contraire son humiliation, son écrasement.
La caméra subjective présente la scène telle qu’elle est sensée être vue par un des
personnages auquel le spectateur est, par conséquent, forcément identifié.
Les mouvements de caméra.
Il existe trois procédés au cinéma correspondant aux mouvements de caméra :
Le panoramique (horizontal, vertical ou circulaire), réalisé lorsque la caméra fixée au
sol pivote sur son axe. Il a, le plus souvent, le rôle d’accompagnement mais remplit
parfois aussi une fonction descriptive et peut acquérir une valeur dramatique en
introduisant dans le champ visuel un élément inattendu.
Le travelling (avant, arrière, latéral ou vertical, subjectif, d’accompagnement) : il
correspond au regard d’un homme en déplacement. Il permet, par exemple, de passer d’un
plan d’ensemble à un gros plan, contraignant le spectateur à se concentrer sur un objet ou
un visage.
Le zoom : il rapproche ou éloigne très rapidement le sujet du spectateur sans que la
caméra se déplace.
On retrouve dans le jeu vidéo certaines de ces techniques ; outre l’angle de prise de
vue qui tente de recréer la vue subjective du cinéma pour les FPS, les changements de
point de vue et des mouvements de caméra correspondent, comme au cinéma, à une
approche particulière du rapport entre l’image et le son ; le plus souvent ces techniques
sont associées à des éléments sonores, des bruitages ou des séquences musicales, elles
permettent de renforcer le sens dramatique des évènements qui prennent place. Ainsi dans
le jeu Deus Ex (2001) - mais ceci est valable pour la plupart des FPS - lorsque le joueur
est tué, la caméra qui était subjective, devient frontale puis se met en plongée, ces
changements de point de vue accompagne le thème musical qui correspond à la défaite du
personnage. Le changement de vue, associé à un thème spécifique contribue à dramatiser
l’évènement.
Dans le jeu The Black Mirror, un zoom actionné par le joueur sur un élément de
l’environnement, amène une réflexion du personnage en voix « off » ; le zoom a cette
même fonction qu’au cinéma d’attirer l’attention du joueur sur un élément bien précis (les
26
zooms ne sont possibles que pour certains éléments de l’environnement de jeu) et de lui
permettre de comprendre la signification dramatique qui lui est attribué. Par exemple,
dans ce même jeu, le fait de zoomer, au début, sur la photographie d’une femme
s’accompagne d’une réflexion introspective du personnage et d’un thème musical
particulier ; la voix « off » nous enseigne qu’il s’agit d’une femme que le personnage a
aimé, la musique porte en elle le drame, on comprend par la suite qu’elle est décédée dans
l’incendie du lieu même où le personnage évolue. Le zoom attire l’intention sur un
élément particulier, le récit et la musique lui donnent son sens dramatique.
***
Nous avons mis en évidence les difficultés qu’implique un jeu vidéo lorsqu’il propose
un degré élevé d’interactivité car cela nécessite de pouvoir déclencher des éléments
sonores en gardant une certaine cohérence avec les évènements qui prennent place
visuellement, alors que tout dépend des actions imprévisibles du joueur.
La recherche d’une solution adaptée aux problèmes de l’intégration du son dans le
cadre interactif de l’hypermédia a abouti au développement de nouvelles spécificités pour
les technologies dédiées aux sons mais aussi à la création d’outils destinés spécifiquement
aux jeux vidéo.
Nous allons donc étudier les techniques utilisées pour le son et la musique dans un jeu
vidéo : la norme MIDI et l’avancée de ses spécifications permettant notamment
l’interactivité musicale des éléments audio, la technologie audionumérique et les outils
audio spécialisés développés pour le jeu.
27
B. Les technologies utilisées pour faire du son et de la musique un média
interactif.
1) Historique des progrès des technologies dédiées aux sons pour le jeu vidéo.
a.
Les consoles.
Les premiers jeux vidéo sont créés par l’ingénieur William Higinbotham au
laboratoire National de Brookhaven en 1958 (jeu de tennis pour deux) et par Steve Russell
en 1962 (spaceWar) mais la musique en est absente.
En 1972, Pong - une simulation de ping-pong - est le premier jeu où le son apparaît
sous forme de bips sonores, lorsque le rond qui représente la balle ricoche sur les barres
matérialisant les raquettes. La même année apparaît la première console de salon, la
Magnavox Odyssey.
La première console permettant l’intégration d’éléments sonores dans le jeu vidéo est
l’Atari 2600 - ou VCS, Video Computer System - conçue en 1977 ; elle comporte deux
voies31 mono, et possède une capacité totale de RAM de 128 octets. La première bandeson de jeu vidéo est créée avec Space Invaders en 1978, en salle d’arcades puis adapté
pour la VCS 2600 : on ne peut encore vraiment parler de musique, seulement de pulsations
qui s’accélèrent avec l’arrivée d’ennemis ; ces changements de tempo suivant un
évènement sont les prémices de la musique interactive.
La musique apparaît réellement dans le jeu vidéo avec Pacman de Namco, en 1980 ;
elle est jouée brièvement et de temps en temps au début du jeu et à entre deux niveaux ;
elle n’est pas adaptée au gameplay.
En 1981, Atari réalise Tempest, premier jeu d’arcade utilisant la « Pockey Chip », qui
fonctionnait comme un processeur audio ; celui-ci utilisait quatre canaux séparés qui
contrôlaient respectivement les hauteurs, le volume, une distorsion des valeurs pour
chacun, permettant ainsi une bande virtuelle de quatre éléments de performance.
31
La voie (« channel ») est un canal par lequel circulent les données, ici l’audio. Par exemple si l’on
souhaite créer une musique de fond pendant que des bruitages se font entendre, on peut utiliser un canal
pour la musique et un autre pour chacun des bruitages à jouer ; la plupart des canaux sont indépendants, ce
qui permet d’apporter des modifications pour l’un, comme baisser le volume, sans affecter l’autre.
28
Atari réalise la 5200 SuperSystem en 1982, console 8 bits proposant 4 voies mono
dédiées aux sons.
A partir de 1985 apparaissent les consoles pour particuliers, dont le hardware peut
supporter des bandes sons variables ; une vraie interactivité devient possible.
En 1985 apparaît la NES, Nintendo Entertainment System dont le système sonore
comporte un générateur de sons programmables, le PSG (Programmable Sound
Generator) et 5 voies dédiées aux sons : deux d’ondes carrées, une d’onde triangulaire,
une autre pour le bruit et une voie pour les fichiers PCM (Pulse Code Modulation :
« technique d’encodage de l’information. Il s’agit d’une représentation numérique d’un
signal analogique où le signal est échantillonné régulièrement par intervalle uniforme de
durée»32- vide infra). La mémoire RAM totale est de 2 Ko.
1986 est l’année de sortie de la Master System de SEGA ; elle possède un processeur
audio PCM Texas Instruments avec 6 voies mono.
Elle est suivie en 1989 de la Sega Genesis ou MegaDrive, composée d’un coprocesseur Zilog Z80 fonctionnant à 4 Mhz, de contrôleurs PSG et de processeurs
FM (Frequency Modulation), elle propose six canaux stéréo et 8 Ko de mémoire RAM
sont alloués au son pour une mémoire totale de 64 Ko.
En 1991, Nintendo lance la Super Nintendo Entertainment System : elle comporte 8
canaux stéréo, peut utiliser des échantillons compressés, possède un PCM de 16 bits et 64
Ko de mémoire RAM pour le son, pour une mémoire RAM totale de 128 Ko.
En 1995, Sony sort la Playstation 32 bits. Les puces dédiées au son ont 24 canaux et
permettent une qualité CD stéréo avec une fréquence d’échantillonnage de 44,1 kHz, de
plus elles sont capables de gérer des effets numériques tels la réverbération et les boucles.
512 Ko de mémoire RAM sont consacrés au son, pour une capacité totale de 2 Mo. La
Playstation peut traiter les sources ADPCM, Adaptative Differential Pulse-Code
Modulation (le DPCM ou Differential (ou Delta) pulse-code Modulation est une technique
qui « encode les valeurs PCM comme les différences entre la valeur actuelle et la
suivante »33 ; « L’ADPCM est une variante du DPCM qui varie la taille de pas de
32
« It is a digital representation of an analogue signal where the magnitude of the signal is sampled
regularly at uniform intervals of duration », < www.wordiq.com. >
33
« Differential (or Delta) pulse code-modulation encodes the PCM values as differences between the
current and the previous value », < www.thefreedictionnary.com. >
29
quantification afin d’obtenir davantage de réduction de la largeur de bande pour un
rapport signal - bruit donné »34.)
En 1996, Nintendo sort la Nintendo 64 N64 avec un système de 64 bits ; elle possède
24 canaux de son et une qualité sonore 16 bits pour une fréquence d’échantillonnage de 48
kHz (qualité DAT).
En 2000, Sony sort la Playstation 2 avec un processeur de 128 bits, le Emotion Engine
CPU ; le système comporte 48 canaux, avec la technologie 3D surround et 2 Mo de
mémoire RAM pour le son ; elle propose une fréquence d’échantillonnage de 48 kHz.
En 2001 sortent la Nintendo GameCube et la Xbox de Microsoft ; le DSP (Digital
Signal Processor) de la GameCube supporte 64 voies simultanément et les formats
ADPCM et PCM ; elle permet le positionnement en 3D du son.
La Xbox possède un processeur de 64 canaux audio (jusqu’à 256 voies stéréo)
supportant les librairies DLS2 et permettant l’encodage AC3 (Dolby Digital) en temps
réel : ainsi, une fois les effets de positionnement audio calculés au sein de l’APU (audio
processeur unit), celui-ci les encode au format AC3 pour offrir le meilleur positionnement
possible. Dans le cas où seulement deux enceintes sont utilisées, un mixage stéréo est
réalisé sur deux canaux. La Xbox possède de plus la possibilité d’une reproduction sonore
en Dolby Digital Surround.
b. Les ordinateurs.
En 1982, Commodore Business Machines annonce le Commodore 64, un microordinateur principalement dédié aux jeux. Il s’agit du premier ordinateur personnel pourvu
d’un circuit intégré permettant de produire du son, le SID Sound chip. Les Atari ST et
Amiga 500 disposent dès 1985 de sons échantillonnés avec une résolution de 8 bits ; les
ordinateurs Amiga pouvaient utiliser tout échantillon de format PCM, ils étaient plus
destinés aux musiciens et au travail en studio. Ce n’est qu’en 1987 que sort le premier
standard de sons pour les ordinateurs IBM PC, Adlib ; cette carte son, de résolution 8 bits,
34
« Adaptive PCM is a variant of DPCM that varies the size of the quantization step, to allow further
reduction of the required bandwidth for a given signal-to-noise ratio », ibid.
30
permettait en standard une sortie son amplifiée à volume réglable et disposait d’une entrée
« mic/line » ; elle ne pouvait utiliser, contrairement aux ordinateur Amiga, que le
processeur OPL Yamaha pour synthétiser des sons.
En 1989, le standard Adlib est remplacé par les cartes SoundBlaster35 ; la première
SoundBlaster (novembre 1989) propose 11 voies de synthèse FM utilisant le processeur
OPL2 de Yamaha ; elle possède un processeur de signal numérique permettant la
restitution du signal numérique de sons échantillonnés en mono. En 1991 la SoundBlaster
Pro présente une capacité stéréophonique.
1992 est l’année de sortie de la SoundBlaster 16, carte son 16 bits pour PC ; elle
propose une extension (carte fille) permettant la synthèse de table d’onde36, compatible
avec le standard General MIDI.
La Soundblaster AWE 32 paraît en 1994 ; elle comprend deux processeurs pour le son,
le Creative Controller et le processeur EMU8000 supportant 30 voies de synthèse de table
d’onde. Elle permet le traitement analogique avec des filtres résonnants, possède 512 Ko
de mémoires et deux slots SIMM 30 branches permettant de rajouter jusqu’à 16 Mo de
mémoire additionnelle.
En 1996, la SoundBlaster AWE64 succède à la carte AWE32, elle possède les mêmes
spécificités mais utilise des composants ASIC, ce qui réduit le nombre total de
composants nécessaires et son coût d’achat puisqu’un ASIC, Application Specific
Integrated Cuircuit, comprend un circuit intégré fonctionnant pour une tâche particulière,
ce qui le rend plus performant pour celle-ci qu’un circuit général.
En 1998 la SoundBlaster PCI64 permet la quadriphonie. La SoundBlaster live ! lui
succède en août 1998 ; elle utilise le nouveau processeur EMU10K1 qui comprend une
sortie en 5.1, l’accélération DirectSound, le General MIDI, la technologie EAX
(Environnemental Audio Extensions), un synthétiseur de table d’onde de 64 voix et le DSP
FX8010 pour les effets audionumériques en temps réel : la fréquence d’échantillonnage
est de 48 kHz.
35
Cet historique concernant l’évolution des capacités audio pour les ordinateurs ne prend en compte que
l’évolution des cartes sons de Creative Labs, la technologie développée par cette entreprise étant une
référence dans le domaine des cartes sons pour particulier. Il n’est pas notre sujet d’évoquer les cartes sons
professionnelles (pour l’enregistrement), mais uniquement de développer l’avancée technologique pour
l’audio concernant le jeu vidéo.
36
La synthèse de table d’onde est utilisée pour reproduire des sons naturels : le son d’un instrument existant
est échantillonné puis stocké à l’intérieure de la table, qui s’apparente à une collection de petits échantillons.
La table imite le son original en jouant de façon répété et en boucle ces échantillons.
31
En 2001, sort le SoundBlaster Audigy, carte son 24 bits, qui permet une lecture jusqu’à
96 kHz de fréquence d’échantillonnage et un enregistrement à 48 kHz ; elle supporte
quatre environnements EAX simultanément et une sortie en 5.1.
La SoundBlaster Audigy 2 (2002) permet la lecture jusqu’à une fréquence
d’échantillonnage de 192 kHz et l’enregistrement jusqu’à 96 kHz. Elle supporte une sortie
en 6.1.
***
Cet historique montre une avancée technologique pour le son beaucoup plus nette à
partir des années 1990 que cela soit au niveau des consoles ou des ordinateurs PC :
l’augmentation des capacités de mémoires et de stockage, de la mémoire allouée au son,
de même que l’apparition de la norme MIDI et de ses nouvelles spécificités (vide infra),
de processeurs audio permettant la synthèse audio et la transformation en temps réels des
fichiers sons, l’évolution des techniques d’échantillonnage et de la restitution sonore,
l’apparition de nouveaux outils audio, ont abouti à une qualité du son enregistré mais aussi
du son diffusé de plus en plus élevée, et des possibilités d’immersion sonore également
accrues.
La référence à plusieurs technologies dédiées au son (la norme MIDI, les technologies
audionumériques et les outils audio spécialisés tel l’EAX) appelle d’autres
développements notamment pour mettre en évidence en quoi ces technologies permettent
l’interactivité de l’audio pour une qualité du son de plus en plus grande dans le jeu vidéo.
32
2) Le MIDI.
a.
Le MIDI, technologie et spécifications de base.
Le MIDI, ou Musical Instrument Digital Interface, a été présenté en janvier 1982 par
Dave Smith et Chet Wood (Sequential Circuit) comme une interface revue et corrigée de
l’USI (Universal Synthesizer Interface) mise au point en 1981 et qui consistait à ne
transmettre une information qu’à détection d’un évènement (note enfoncée, relâchée par
exemple). Le MIDI a été développé pour créer un standard qui permettrait aux instruments
tels les synthétiseurs, les échantillonneurs, les séquenceurs et les boîtes à rythmes de
communiquer entre eux quelle que soit leur marque de fabrication.
Il y a actuellement trois éléments qui caractérisent le MIDI : le Protocole de
communication (le langage), la connectique ou l’interface matérielle (câble terminé par
une fiche DIN à cinq broches, trois possibilités de ports : out, in, thru) et un format de
distribution appelé le Standard Midi Files.
Le protocole MIDI est un langage de description entièrement musical de forme
binaire ; chaque mot décrivant une particularité musicale est assigné à un code binaire
spécifique. On peut transmettre des notes (hauteur et vélocité, mais pas la durée), le choix
des sons, des paramètres de contrôle du son (volume, pédale de maintien, panoramique,
réverbération, filtre, vibrato par exemple) mais aussi des signaux de synchronisation entre
instruments ou des messages « système » spécifiques (description de sons, données
techniques, réinitialisation notamment).
Le Standard MIDI File est un format de fichier utilisé pour stocker les données MIDI.
Ce format emmagasine les messages MIDI avec un “time-stamp” pour chaque message
(c'est-à-dire une série de bits qui représente le nombre de pulsations de synchronisation
nécessaire avant d’entendre jouer l’évènement). Le Standard MIDI File permet trois
formats de données 0, 1 et 2 : le format 0 est le plus simple, enregistrant toutes les
données, respectant le temps de manière séquentielle sans prendre en compte
l’assignement des pistes ; les données musicales sont sauvées globalement sur une seule
piste. Le format 1 permet des pistes multiples utilisant le même canal MIDI et le format 2
permet aux fichiers multipistes d’être ordonnés séquentiellement.
33
Le fichier MIDI ne contient pas l’information concernant l’instrumentation, c’est-àdire que les sons d’instruments correspondent à des nombres particuliers de changements
de programme (ou Program Change, message utilisé pour changer un son) ; ainsi le
General MIDI est ce qui permet l’assignement standardisé des voix.
b. L’assignement standardisé des voix, le General MIDI (ou GM).
Le GM1 adopté en 1991 permet une spécification minimale : il définit notamment la
liste des sons d’instruments (128 Program Change), la liste des sons de percussions sur le
canal 10 (drum map), la gestion de quelques effets simples (comme la réverbération), la
polyphonie minimale (24 notes jouées simultanément) et la multi-timbralité minimale
(nombre de sons différents joués simultanément). Avec des ensembles standardisés de
sons mélodiques et de percussions et divers contrôles (modulation, volume,
panoramisation, par exemple), le GM permet d’assurer le compositeur que sa musique
sonne comme il le souhaite sur n’importe quel équipement MIDI.
Le GM2 (adopté en 1999) est un ensemble d’extensions du GM1 qui accroît le nombre
de sons et le nombre de contrôles disponibles pour l’édition de sons et la représentation
musicale.
Une spécification appelée Sclable Polyphony MIDI (ou SP-MIDI) permet aux
compositeurs d’indiquer aux données MIDI de quelle manière elles doivent être utilisées
pour des matériels acceptant des polyphonies différentes ; par exemple, si nous prenons le
cas d’une composition écrite pour une polyphonie de 32 notes avec le GM2 et jouée sur
un matériel ne supportant que le GM1, le SP-MIDI permet d’éliminer certaines parties
instrumentales choisies par le compositeur.
c.
Le DLS (Downloadable Sounds) et le XMF (eXtensible Music Format), deux
spécifications qui permettent l’interactivité de l’audio.
La spécificité DLS.
Le Down-Loadable Sounds (DLS) est une spécification MIDI adoptée en mai 1996. Le
DLS est un procédé par lequel des sons, sous forme de tables d’ondes d’instruments,
peuvent être chargés dans une case spécifique de mémoire, correspondant à des nombres
34
spécifiques de changements de programmes, à l’intérieur d’un synthétiseur ou d’un autre
matériel générateur de sons. La spécification du DLS accroît celle du General MIDI en
offrant la possibilité aux développeurs de jeux et aux compositeurs d’apporter leurs
propres sons aux cartes sons PC, plutôt que de dépendre de l’ensemble des sons fixes du
GM ; les fichiers ainsi téléchargés (.WAV ou autre format PCM) sont stockés à l’intérieur
d’une banque DLS et utilisés comme tout autres instruments du GM, ce qui permet une
économie importante de mémoire utilisée ; au lieu, par exemple d’avoir deux minutes
d’un solo de violon en .WAV, il suffit de prendre un court échantillon de l’instrument et
de générer la partition en MIDI.
Avec le DLS, des sons adaptés à un choix particulier peuvent être créés et des sons
d’instruments déjà existant améliorés avec des effets spéciaux obtenus par simple
chargement de nouvelles banques d’échantillons. Le DLS permet ainsi au compositeur de
composer une musique interactive en utilisant des sonorités acoustiques, et non plus
seulement synthétiques, et lui assure une restitution musicale fidèle à l’original quel que
soit le matériel de l’utilisateur.
Le DLS-2 (janvier 2000) est une amélioration du DLS ; il introduit une nouvelle
fonctionnalité pour le contrôle logique appelée « Conditionnal Chunk », ou module
conditionnel. Les « Conditionnal Chunks » peuvent être utilisés pour créer des librairies
qui ont la capacité de recevoir et d’envoyer des informations, en d’autres termes d’être
lues et éditées. Par exemple un instrument dans une librairie peut contenir les parties
spécifiques du DLS-1, du DLS-2 et des parties propres à l’utilisateur ; l’analyseur de
fichier sélectionnera alors les parties appropriées pour l’application spécifique en cours.
La spécificité du XMF.
Le XMF (eXtensible Music Format) est apparu en septembre 2001 ; c’est un nouveau
format de fichier MIDI dont la spécificité est la distribution de contenus musicaux et
audio pour des applications utilisant Internet. Le XMF permet aux compositeurs de
combiner le MIDI avec d’autres formats audio dans un même ensemble, ou fichier, et
d’appliquer des contrôles d’écoute appropriés pour la musique destinée au Web et aux
jeux en réseaux notamment. Le XMF supporte les instruments du GM et les instruments
du DLS dans un même fichier, ceux-ci pouvant être alors organisés pour un démarrage
plus rapide ; les instruments du GM étant par spécification déjà stockés, le XMF permet
de charger plus rapidement qu’un fichier DLS normal. Cette rapidité de stockage permet
35
que la musique soit réarrangée et éditée durant l’écoute, ce qui fait du XMF un format très
adapté à une musique interactive.
***
La spécificité DLS permet une économie importante de mémoire par rapport à
l’utilisation d’un fichier audio qui contiendrait une séquence musicale entière, cependant
l’avancée des techniques de compression permet également de réduire de plus en plus la
taille d’un fichier audio pour une qualité audio convenable. Nous expliquerons les
techniques d’échantillonnage et de compression afin de mettre en évidence les formats de
fichiers audio les mieux adaptés aux jeux.
3) L’audionumérique.
a.
L’échantillonnage.
Le concept essentiel de l’enregistrement audionumérique est l’échantillonnage, c'est-àdire la conversion de signaux analogiques continus en signaux discrets échantillonnés
temporellement. Le théorème de l’échantillonnage ou théorème de Nyquist (1928), définit
la relation entre le taux d’échantillonnage et la largeur de bande du signal transmis :
« Pour toute déformation donnée du signal reçu, le domaine de fréquence transmis doit
être augmenté en proportion directe avec la vitesse du signal (…) La conclusion est que
la largeur de fréquence est directement proportionnelle à la vitesse […] Afin d’être
capable de reconstruire un signal, la fréquence d’échantillonnage doit être le double de la
fréquence du signal échantillonné »37. La fréquence d’échantillonnage influence donc de
manière déterminante la précision du signal discret et donc du signal analogique qui sera
restitué.
Lors de l’échantillonnage, chaque valeur d’amplitude est convertie sur une échelle
déterminée par le nombre de bits utilisés. Mais la donnée une fois codée sous forme
numérique peut être le plus souvent codée de manière plus efficace, en utilisant moins de
bits : c’est le principe de compression.
37
ROADS Curtis, L’audionumérique, Dunod, 1998 pour la version française, p. 31.
36
b. Les techniques de compression.
La compression audio est une forme de compression de donnée désignée pour réduire
la taille des fichiers de données audio. Les algorithmes de compression audio se réfèrent
aux CODEC (COder/DECoder) audio ; il en existe deux catégories permettant l’effet de
compression : les algorithmes dits « sans perte » (lossless) et ceux avec « perte légère »
(lossly). Les pertes engendrées par la seconde catégorie d’algorithmes, sont souvent peu
discernables, car ceux-ci utilisent des procédés psycho-acoustiques et les propriétés
relatives à l’anatomie humaine.
Le CODEC encode les informations audio et vidéo emmagasinées ensuite dans un
format de fichier. Il existe plusieurs formats de fichier audio, les trois plus répandus étant
le format AIFF (Audio Intercheangeable File Format), le format WAV. (WAVeform audio
format) et le format MP3 (type de format MPEG Moving Picture Experts Group).
c.
Les formats de fichiers audio les mieux adaptés aux jeux vidéo.
Le format de fichier audio AIFF.
Le format AIFF se conforme au standard EA IFF 85 du format de fichier IFF
Interchange Format File, créé par Electronic Arts en 1985. Tous les fichiers AIFF
consistent en un groupe de données appelées « chunks » ou masses, un fichier se
présentant comme un simple « chunk » qui en comprend plusieurs autres. Il stocke les
données audio uniquement au format PCM, donc sans compression.
Les fichiers AIFF tendent à être beaucoup plus gros que les autres formats audio,
excepté le format PCM WAV.présentant une taille et des fonctionnalités équivalentes ; de
plus, contrairement, notamment, au format MP3, ils ne peuvent être lus qu’une fois
chargés intégralement.
Le format de fichier audio WAV.
Il s’agit d’un format de fichier audio créé par Microsoft et IBM en 1992 pour stocker
l’audio dans les ordinateurs PC ; il est le principal format utilisé sous Windows pour
37
l’audio brut. Il est une variante de la spécification RIFF (RIFF bitstream Format),
méthode pour stocker les données dans une « masse ».
Un fichier WAV. est le plus souvent, seulement, un fichier RIFF avec une masse
simple « WAV » qui consiste en deux sous masses : la masse « fmt » spécifiant le format
de donnée, indiquant ainsi le type de compression, et la masse de « donnée » contenant
l’actuel échantillon. La spécification WAV. supporte un nombre important d’algorithmes
de compressions différentes. La qualité de restitution maximale est obtenue avec un
encodage sans compression qui correspond au format PCM WAV.
Le format de fichier audio MPEG/MP3.
Le MPEG (Moving Picture Experts Group) s’est formé en 1988 afin de développer
des standards pour l’encodage de la vidéo et de l’audio.
Le format MPEG comprend 7 formats dont le MPEG-1, standard de compression pour
la vidéo et l’audio et le format MPEG-4, qui étend les capacités du MPEG-1 pour le
contenu 3D et les objets vidéo/audio.
Il existe en outre plusieurs variantes du format MPEG-1, appelées layers, chacune de
ces variantes correspond à un niveau de complexité et à un taux de compression sans perte
perceptible : le MPEG-Layer 1 permet une compression de rapport 3 pour 1, le MPEGLayer 2 de 6 pour 1, le MPEG-Layer 3 de 11 pour 1. Chaque niveau nécessite plus de
CPU. Le format le plus courant est le MPEG-Layer III, ou MP3, apparu en 1995 ; il
possède des CODEC capables d’une compression à «faible perte » acceptable pour les
fichiers musicaux.
Afin de minimiser l’espace requis par un ensemble de fichiers sonores, l’encodeur
MP3 compresse le son en supprimant des informations peu facilement discernables pour
l’oreille ; ainsi suivant la courbe de réponse en fréquence de l’oreille humaine, le codeur
MP3 supprime les extrêmes graves et aigus, auxquelles l’oreille est moins sensible ; il
supprime de même les fréquences rendues inaudibles par les effets de masque (il supprime
par exemple les sons faibles lorsqu’ils sont émis conjointement avec des sons beaucoup
plus forts).
Les formats de fichiers audio AIFF et PCM WAV. sont dits « format de données non
compressées » ; ce sont de très bons formats pour le stockage et l’archivage
38
d’enregistrements originaux, cependant leur taille fait qu’ils sont très peu adaptés pour le
jeu vidéo, contrairement au WAV. avec compression, et surtout au MP3.
Cependant un nombre croissant de jeux utilise des formats de fichiers audio et des
CODEC plus adaptés pour l’audio et la vidéo et qui ne nécessitent, par ailleurs, pas de
licence, tel le format Ogg Vorbis.
Le format de fichier Ogg Vorbis.
Le format de fichier Ogg Vorbis, apparu en 2002, est un format complètement libre et
non breveté ; ses spécifications sont du domaine public. Ogg est le nom du format
Xiph.org’s contenant l’audio, la vidéo et les meta-données ; Vorbis se réfère aux
algorithmes de compression spécifiques pour l’audio contenu dans le format Ogg.
Le CODEC Vorbis se base sur un encodeur psycho-acoustique plus performant que
celui du MP3 ; pour une taille donnée de fichier, le son Vorbis est d’une qualité meilleure
que celle du MP3, ce qui signifie également que pour une même qualité du son, le fichier
Ogg Vorbis prend moins de place.
Le CODEC Vorbis peut encoder une haute qualité stéréo CD ou DAT à 48 Ko bits par
seconde, sans re-échantillonner à un taux plus faible ; il est capable de taux
d’échantillonnage pouvant aller de 8 kHz à 192 kHz et d’une étendue importante de
représentation de voies (monaurale, polyphonique, stéréo, quadriphonique, 5.1,
ambisonique, ou 255 voies discrètes).
En raison de ses spécificités plus performantes que celles du MP3 et de son statut
complètement libre de droit, de nombreux développeurs de jeux vidéo utilisent ce format
pour compresser l’audio, notamment les sociétés de développement Epic GAME (série
des Unreal Tournament, Unreal tournament 1 (1999)), Crystal Dynamics (Soul Reaver 2
(2001) et Blood Omen 2 (2002)) ou EA GAMES (Harry Potters and the Chamber of
Secrets (2002)).
***
Une fois la séquence musicale stockée dans un fichier son, des outils conçus
spécifiquement pour les jeux vidéo permettent la phase d’intégration du fichier audio dans
l’espace de jeu c'est-à-dire d’automatiser sa lecture pour une situation donnée. Ces outils
donnent également la possibilité de transformer les fichiers audio en temps réel et de
39
contrôler la diffusion du son, ils permettent ainsi de rendre plus flexible le son et la
musique stockés.
4) Des outils qui permettent l’intégration et l’interactivité de l’audio dans le jeu.
o L’OpenAL est apparu en 1999, son principe est dérivé de l’OpenGl (Open
graphic library) et il utilise des API38 semblables. L’OpenAl peut être décrit comme une
interface logicielle au matériel audio ; cette interface consiste en un nombre de fonctions
qui permettent au programmeur de spécifier les objets et diverses opérations pour la
production d’une sortie audio en multicanaux ; l’OpenAl permet de décrire les principaux
aspects au niveau sonore d’une scène virtuelle en trois dimensions (caractéristiques des
sources sonores, acoustique de la pièce, positions de l’auditeur) et de programmer les
évolutions de ces éléments par une codification du jeu. Il inclut des fonctions d’appel
d’effets pouvant ainsi transformer en temps réel les fichiers audio, et contient des
fonctions de mixage des échantillons audio, de n’importe quel format PCM, sans limite de
nombre de canaux pouvant être mixés.
o La technologie EAX est développée par la société Creative Labs depuis 1999 :
c’est un ensemble de sons 3D et de fonctions de spatialisation. La caractéristique TM,
multi-environnements, du EAX 4.0 API permet la production d’environnements audio
multiples et simultanés et des effets en temps réel. Le sound designer utilise une interface
graphique pour décrire l’acoustique de chaque pièce et la disposition de chacune d’elle par
rapport aux autres. Cette description en génère une autre sous forme binaire inclue dans le
programme du jeu ; le programmeur accède à ces données à travers une librairie.
o Le DirectMusic Producer, développé par Microsoft, est un outil de
DirectMusic, composant du DirectX dont les premières versions sont apparues sous
Windows95. DirectMusic contient les fonctions du General MIDI et des fonctions
générales destinées à la composition de musiques génératives. Il supporte la spécification
DLS pour la synthèse de table d’ondes. DirectMusic Producer est une interface graphique,
qui permet de définir des styles de compositions qui impliquent des évènements en temps
38
L’API, Application and Programming Interface, est une interface par laquelle une application d’un
programme accède au système opérateur ou à d’autres services.
40
réels. Un style est composé suivant trois sortes d’éléments : les orchestrations (Band), les
motifs et les styles.
L’éditeur de Pattern (style) est une interface sous forme d’un séquenceur MIDI, il
inclut tous les éléments d’un style de musique particulier (les principes fondamentaux
d’harmonie) suivant la partition et les paramètres MIDI. Le compositeur a la possibilité de
profiter, pour un style donné, d’un ensemble de variations qui peut être utilisé de façon
aléatoire suivant les évènements. Les motifs correspondent aux éléments du contrepoint :
les motifs et les pattern forment la partition musicale. La fonction d’orchestration permet
de spécifier un ensemble d’orchestrations possibles.
o L’ISACT ou « Interface Spatial Audio Composition Technology », est introduit
par Creative Labs pendant l’été 2003. Il s’agit d’un outil audio qui permet de créer une
musique interactive spatiale en trois dimensions et à multicanaux, et l’application d’effets
sonores. L’ISACT permet de repositionner le son quelque soit le dispositif d’enceintes, la
panoramisation de l’audio s’effectuant suivant des coordonnées spatiales.
o Le FMOD est un système pour l’audio apparu en 2001 fonctionnant sous
Windows, Linux, Mac OS, GameCube, PS2 et Xbox. Le moteur audio supporte le mixage
en qualité 32 bits, les modifications imprévues de volume, avec une suppression des
cliques pour des changements abruptes de volume ou de panoramisation, sans affecter le
CPU, et comprend des algorithmes permettant l’atténuation de l’effet Doppler pour
l’environnement 3D.
Du point de vue de ses capacités de lecture, la technologie FMOD supporte
notamment le MIDI, le format WAV., AIFF, le support ADPCM pour n’importe qu’elle
plateforme sans que cela nécessite de CODEC, le MP2 et MP3, les formats WMA
(Windows Media Audio) et ASF (Advanced Streaming ou Systems Format)39, et le format
Ogg Vorbis ; il présente une variété de commandes capables de synchroniser les
graphismes avec la musique, et un ensemble d’effets DSP. Il supporte la technologie EAX
2 et 3.
39
Le format ASF fait partie de la charpente de Windows Media. Le ASF est un « wrapper » audio/vidéo
numérique spécialement conçu pour le « streaming », c'est-à-dire le flot de données (un « wrapper » est une
partie de code combiné avec une autre partie de code afin de déterminer la façon dont ce code est exécuté).
Les données audio contenues dans les fichiers ASF sont compressées par un CODEC WMA.
41
Conclusion de la première partie.
Nous avons proposé une définition des concepts d’interactivité et d’adaptabilité pour
les éléments sonores, dans le cadre du jeu vidéo : l’adaptation musicale se présente
uniquement dans un jeu vidéo sous forme d’une traduction musicale des actions du joueur.
Il convient de revenir, à ce point de notre étude, sur ce que devrait être une musique
adaptative afin qu’elle s’insère dans une corrélation avec le système de représentation.
Une véritable musique adaptative serait une musique qui s’adapte au comportement du
joueur, à sa façon d’appréhender l’environnement dans lequel il évolue, et non
uniquement une musique qui s’adapte à sa capacité à agir, notamment à atteindre un
objectif (c.f l’exemple du jeu Rez).
Pour les jeux vidéo sur ordinateur où souvent le nombre de commandes de jeu
avoisine la vingtaine, à chacune d’elles correspond un état actif du joueur ; une analyse,
par exemple, du nombre de fois où la commande de tir serait utilisée dans un intervalle
donné de temps et par rapport aux évènements, permettrait à un programme de considérer
un certain niveau d’agressivité du joueur et de déclencher les éléments musicaux en
conséquence. A l’inverse une moyenne faite par rapport au nombre de fois où le joueur
utiliserait le mode discret pour se déplacer (commande notamment disponible pour les
jeux Thief, Dark Project 2 : The Metal Age, No One Lives forever 2 (2002) ou Beyond
Good and the Evil) permettrait de déterminer le caractère prudent ou non du joueur et pour
le programme d’amener les évènements musicaux adaptés aux sentiments, à l’état d’esprit
du joueur pendant l’expérience. Il y aurait ainsi une mise en correspondance entre ce que
le joueur ressent par rapport à l’environnement représenté et la musique qui est jouée.
Il ne faut pas considérer bien sûr que cela devrait être le seul élément d’intervention
des éléments musicaux, la musique perdrait alors son rôle fonctionnel, notamment de mise
en contexte et informationnel. Cependant pour des phases de jeux précises dont il faudrait
alors définir les particularités, cette correspondance entre le ressenti du joueur et la
musique (dans le sens joueur vers la générativité musicale), pourrait être un élément
important : l’adaptation musicale serait alors le résultat musical de l’interaction entre le
système de représentation et les émotions du joueur pendant l’expérience ; elle
renforcerait l’acceptation par le joueur de ce qui lui est proposé.
42
Nous avons vu que l’avancée de la norme MIDI, des algorithmes de compression, de
même que l’apparition d’outils spécialisés pour l’audio développés exclusivement pour le
jeu vidéo, permettent depuis le milieu des années 1990 une utilisation de plus en plus
flexible des fichiers audio pouvant ainsi s’intégrer dans un cadre interactif, pour un degré
d’interactivité également de plus en plus élevé : ainsi les sonorités acoustiques peuvent
être utilisées non plus uniquement dans le cadre d’une musique linéaire privilégiant
seulement l’émotion, comme dans le cas des scènes cinématiques, mais aussi en cours de
jeu dans un cadre interactif ; il ne s’agirait plus en outre d’utiliser le MIDI ou les sons
échantillonnés suivant le niveau d’interactivité choisi, mais de faire de ces deux
techniques la meilleure combinaison possible.
L’apparition de la norme DLS et XMF et des outils audio ont permis d’accroître
également les possibilités concernant l’approche des procédés de composition ;
l’interactivité devenant possible pour les sons échantillonnés, cela implique la possibilité
de pouvoir composer une musique de qualité audio, instrumentale voire orchestrale et qui
puisse répondre aux exigences d’interactivité du gameplay.
Les outils et moteurs audio spécialisés donnent la possibilité au compositeur d’établir
un scénario musical qui, malgré la part d’aléatoire, va permettre de respecter sa vision
musicale, le sens qu’il a voulu donner aux sons en rapport avec les évènements et le
visuel.
Cependant, le problème inhérent à l’interactivité dans le jeu vidéo, reste la répétition
des séquences musicales et des éléments sonores ; la non linéarité implique de ne pouvoir
prévoir à l’avance les actions du joueur et donc de ne pouvoir rendre unique chaque son,
contrairement au cinéma : il conviendra d’étudier les procédés, au niveau de l’approche
musicale, permettant de rendre la répétition moins évidente.
Le parallèle entre le jeu vidéo et le cinéma concernant le rapport entre l’image et le
son a mis en évidence la difficulté qu’implique l’interactivité pour maintenir la cohérence
de ce rapport : la norme DLS et les outils spécialisés apportent une solution pour les
problèmes liés aux transitions musicales, cependant leur utilisation doit s’accompagner
d’une approche particulière pour la composition, ce que nous allons détaillée ci-après.
Cette comparaison a révélé également des similitudes entre le jeu vidéo et le cinéma
concernant l’association du média visuel et du média sonore ; nous expliquerons la nature
de l’influence du cinéma sur le jeu vidéo et les conséquences du point de vue de
l’approche du son et de la musique pour le jeu.
Notre analyse sonore et musicale du jeu Myst III : the Exile (2001) mettra notamment
43
en évidence une approche particulière de la composition du son et de la musique qui
permet le déclenchement aléatoire des séquences musicales et ainsi d’éviter la répétition,
tout en maintenant la cohérence musicale.
44
II. Procédés de composition et analyses sonores et musicales.
A. Procédés de composition.
1) Quelles questions se poser avant d’aborder la composition d’une musique de jeux
vidéo ?
Pour G. Whitmore40, il est nécessaire qu’il y ait une collaboration entre le game
designer41 et le compositeur, chaque individualité apportant des idées diverses sur la façon
dont la partition peut au mieux accompagner le jeu, du point de vue du style musical et
des techniques de dramatisation, et de convenir de la façon, du moment et de l’endroit où
la musique doit être efficace et les raisons. Le game designer a le plus souvent une idée
générale de la musique et le compositeur précise cette idée, trouve des solutions
spécifiques sur les questions techniques et concernant la composition qui peuvent
survenir.
Cette collaboration entre le game designer et le compositeur pourrait se présenter sous
la forme d’un document, dit de « design musical », suivant le modèle :
o Quelle importance doit avoir la musique dans le jeu ?
o Quel style de musique est le plus approprié ?
o A quels moments la musique doit elle créer une ambiance ou au contraire être
intense ?
o A quoi doit ressembler la musique lors des phases de transition ?
o Quels sont les thèmes musicaux appropriés ?
o Quels aspects du gameplay bénéficient des accentuations musicales ?
Les sections importantes de ce document contiennent donc les en- têtes suivantes :
o La direction musicale : codification du style musical, échelle des modes musicaux, par
exemple.
o Les thèmes : choix des différents thèmes suivant les différents mondes représentés
notamment.
40
G. WHITMORE, Design With Music in Mind : A Guide to Adaptative Audio for Game Designers,
< www.gamasutra.com >, 29 mai 2003.
41
Le game designer est celui qui crée les règles du jeu, et parfois aussi le scénario, ou le monde représenté
dans le jeu vidéo.
45
o Fonctionnalité et interactivité42 : décrire de quelles façons la musique se comporte
dans le jeu et le degré d’interactivité que l’on veut.
o Exigences techniques : les outils et la technologie utilisés.
o Intégration et réalisation : de quelles façons le système musical va communiquer avec
la machine, et quelle technique utilisée pour la réalisation musicale.
o Le procédé de production.
2) Comment aborder la composition d’une musique interactive dans le jeu vidéo?
a.
Construire un « squelette » musical.
Une musique figée, c'est-à-dire destinée seulement à l’écoute, est par essence non
interactive. La difficulté rencontrée est, que la plupart du temps, ce que l’on veut apporter
à une séquence pour la rendre interactive lui enlève une certaine qualité du point de vue de
l’arrangement. Par exemple, si l’on veut qu’une séquence puisse à tout moment intervenir
alors qu’une première est déjà jouée, il faut composer la première séquence de façon
qu’elle soit consonante avec la seconde quel que soit le moment de départ de cette
dernière (par exemple lorsque l’on compose une ligne mélodique ayant pour fonction
d’avertir l’arrivée d’un ennemi, ce qui est un évènement aléatoire). Cela signifie que l’on
va se limiter, le plus souvent, aux règles d’harmonisation classique, en choisissant des
notes par rapport à une fondamentale qui puissent coïncider avec les notes de l’autre
séquence.
Le compositeur a une vision artistique claire de la façon suivant laquelle une musique
doit sonner ; dans le cadre d’une musique interactive, il doit imaginer une musique qui
puisse sonner de différentes façons. Le principe est donc de créer le squelette d’une
musique, en lui apportant diverses ramifications ; chacune d’entre elles est entendue à un
moment spécifique et représente musicalement un état de jeu ; elles doivent être
construites de façon à sonner correctement entre elles dans le cas où plusieurs séquences
sont jouées simultanément et ces ramifications doivent se fondre avec le squelette musical
car leur intervention est aléatoire.
42
Guy WHITMORE utilise le terme « adaptabilité » d’une façon erronée ; il considère la notion
d’adaptabilité musicale comme une musique qui pourrait réagir différemment et de manière efficace suivant
les actions du joueur et les anticiper, ce qui correspond en réalité à notre définition de l’interactivité.
46
On voit dès lors que se pose le problème des transitions, donc de la continuité
musicale.
b. L’étude nécessaire des transitions musicales.
De bons changements interactifs dans une musique ne devraient pas provoquer une
interruption sonore lors du passage d’une séquence à une autre : changer progressivement
un élément musical pour un autre dans un environnement de jeu non linéaire est
nécessaire pour maintenir le fil du déroulement du gameplay ; les transitions permettent
d’assurer la continuité de la partition musicale et donc du jeu lui-même.
Il existe différents types de transitions dépendants des spécificités du scénario du jeu
et permettant d’assurer une haute interactivité de la partition musicale. Une transition peut
se présenter sous la forme d’un silence entre deux éléments musicaux, d’un dégradé
sonore, d’une juxtaposition directe ou bien encore d’une superposition synchronisée.
Le problème est que la coordination d’une transition n’est pas connue dans le temps
puisque tout dépend des actions imprévisibles du joueur, il est ainsi pratiquement
impossible, suivant le niveau d’interactivité du gameplay, d’imaginer de créer des
séquences séparées pour chaque combinaison entre des états de jeu possibles. Ainsi la
musique et le système musical doivent préparer les transitions d’un élément musical avec
un autre à n’importe quel moment, et ceci d’une manière satisfaisante.
Il existe plusieurs procédés techniques pour aborder la composition des transitions :
o « Transition d’élément à élément » suivant un système de limites musicales : quand un
élément est appelé, l’élément actuel - celui qui est utilisé - joue jusqu’à une certaine
limite, comme par exemple la mesure suivante, et le nouvel élément, précédemment
appelé, débute.
o Technique du « coupé en dégradé » (Layering) : pour un évènement donné, des
instruments vont disparaître, d’autres s’ajouter, d’autres encore continuer à jouer : ce qui
permet la continuité ; toutefois il est difficile de passer rapidement à un élément musical
complètement différent.
o « Matrice de transition » : cela permet au programme de sélectionner la transition la
mieux adaptée pour des situations de jeu qui ne sont pas prévues.
47
La difficulté de préparer la transition d’un élément musical avec un autre dans un
cadre non linéaire implique de définir les évènements pour lesquels de nouveaux éléments
musicaux vont intervenir.
c.
Définir l’opportunité des changements musicaux.
La plupart des évènements auxquels sont associés un élément musical ou une
séquence musicale spécifique, ne sont pas incompatibles : un tempo qui s’accélère à
l’approche d’un ennemi, un rythme légèrement plus soutenu lorsque le personnage court,
des ajouts d’effets sonores comme une réverbération lorsque le personnage est sous l’eau.
Le problème est que ces évènements se répètent fréquemment, notamment dans les RPG
où l’on retrouve des schémas musicaux types, comme par exemple l’utilisation d’un
orchestre imposant pendant les phases de combat ; dans ce type de jeu le joueur a en
pratique une totale liberté : il peut décider d’aller autant de fois qu’il veut dans l’eau, de
rentrer dans une grotte, de courir, par exemple. Les changements musicaux qui se réfèrent
à des évènements spécifiques doivent être travaillés, pour une meilleure cohésion,
seulement lorsque ces derniers n’interviennent pas trop fréquemment.
L’utilisation de changements musicaux renvoie à la question de la répétition dans un
jeu vidéo : elle est inhérente au jeu vidéo car par nature la durée du jeu n’est pas fixe et de
plus sa « durée de vie » (c'est-à-dire le temps moyen nécessaire pour le terminer) peut
atteindre des dizaines d’heures.
d. Le problème de la répétition.
Si un sound designer43 qui travaille sur la bande son originale d’un film décide
d’inclure des bruits de pas, de portes qui se ferment ou des bruits de détonations de
revolver, et qu’il veut que chacun de ces sons soit unique à chaque fois, il lui suffit de
créer, suivant ses besoins, le nombre de cas correspondant à chaque son et de les placer
ensuite sur la bande sonore.
Pour un jeu cela n’est pas envisageable, non seulement à cause évidemment de la
mémoire que cela utiliserait, mais aussi parce qu’il est impossible de rendre unique
43
Pour le cinéma, comme pour le jeu vidéo, le sound designer est celui qui, d’une manière générale, met en
valeur le son, décide de l’intégration des sons entre eux, et par rapport à l’image et aux évènements.
48
chaque son puisqu’on ne peut prévoir combien de fois chaque sons va intervenir ; si l’on
prend l’exemple d’un jeu de tir, on ne peut prévoir des sons constamment différents pour
une détonation de revolver car on ne sait pas à l’avance combien de fois le joueur va
utiliser son arme.
La répétition est donc inévitable, la solution est de la rendre moins reconnaissable
donc moins lassante dans la durée.
Par exemple pour le jeu Blood Wake (2002), jeu de combat nautique sur Xbox, le
sound designer A. Boyd44 explique avoir été confronté au problème de créer des sons de
détonation différents et de trouver une solution afin d’éviter la lassitude du joueur en
raison d’une répétition importante des mêmes sons. Son travail consista à créer des sons
de détonation individuels qui présentaient une certaine puissance puis à partir de ces sons
de créer deux groupes l’un correspondant aux sons produits par les armes du joueur,
l’autre par celles des ennemis, et pour chacun des groupes de faire neuf variations ; le
programmeur audio a ensuite mit en place un système aléatoire pour reproduire ces sons
en faisant en sorte qu’un même son soit cependant répété deux fois, au minimum d’affilé.
Des ajustements ont été opérés pour rendre légèrement aléatoire la hauteur et le volume et
faire varier la reproduction dans le temps de ces sons afin qu’elle soit presque - mais pas
tout a fait - régulière. Enfin un système de dégradés a été ajouté : ainsi lorsque plusieurs
armes sont en action, plutôt que d’appeler d’autres sons du même système, le système
accroît la profondeur des tirs et augmente légèrement les variations de hauteur, de volume
et de durée, ce qui permet d’éviter une impression de flanger provoquée en jouant un
même son plusieurs fois à des durées et des hauteurs très légèrement différentes.
Au-delà ce cas spécifique où les bruitages ont une place prépondérante, pour la
généralité des jeux la difficulté se situe au niveau de la répétition des séquences musicales.
Pour G. A. Sanger, le changement de ton pour un évènement ou un état de jeu
spécifique, est une manière de contourner le phénomène de lassitude qui découle du
phénomène de répétition : une musique répétitive entraîne inévitablement dans un premier
temps un détachement par rapport à la musique - la musique ne tient plus son rôle
émotionnel pour un état de jeu particulier, elle n’a de plus aucun rôle informationnel - puis
44
BOYD Andrew, When Worlds Collide : Sound and Music in Film and Games, < www.gamasutra.com >,
4 février 2003.
49
dans un second temps, provoque la lassitude du joueur. Cependant la répétition est
inévitable ; la solution est donc que pour les séquences musicales vouées à se répéter, leur
structure se détache des éléments familiers de composition.
La musique dans un jeu n’est pas nécessaire en permanence ; par conséquent, lorsque
par exemple il ne se passe rien, il serait possible de faire fondre la musique pour arriver à
une plage de silence. Mais la solution la plus adaptée aujourd’hui est d’utiliser des outils,
comme le DirectMusic Composer, qui permettent de générer des séquences musicales à
partir d’une séquence prédéfinie, même si certains compositeurs, tel G. A. Sanger, voient
dans l’utilisation de ces technologies une certaine uniformisation de la génération
musicale puisque ces outils sont développés suivant la perspective artistique d’un nombre
restreint de personnes.
3) Le choix de l’instrumentation et du style musical.
Il y a encore dix ans le compositeur de musique de jeu vidéo était limité par les
moyens technologiques et devait se contenter d’une dizaine de voix de polyphonie et des
127 banques du General MIDI. Depuis quelques années, seuls l’imagination et les outils
dictent l’instrumentation. Alors qu’auparavant la limitation des moyens disponibles
poussait le compositeur, pour compenser, à porter une attention particulière à la
composition, aujourd’hui le compositeur de musique de jeu vidéo se retrouve
pratiquement dans la même situation, au niveau de l’instrumentation, que tout autre
compositeur ; il a à sa disposition une palette très large de possibilités de sons, par
exemple des échantillons, des enregistrements en live ou des sons synthétiques, ce qui
implique aussi la difficulté de choisir.
Cependant la musique d’un jeu vidéo doit demeurer singulière, unique pour chaque
jeu, puisque le jeu lui-même propose une nouvelle réalité, notamment par son système de
représentation. Alors que la musique du jeu tend à s’uniformiser et se commercialiser
(bande originale de jeu, catégorie de nominations pour les Grammy Awards aux EtatsUnis, participation d’artistes connus du grand public pour la bande son), quels sont les
éléments de la composition et de l’instrumentation qui vont faire de la musique d’un jeu
une musique unique ?
50
a.
L’utilisation de plus en plus fréquente de l’orchestre.
L’orchestre est de plus en plus utilisé pour la musique des jeux vidéo car il représente
une immensité de sons et de richesses sonores. Pour J. Wall45, utiliser un orchestre pour
une bande son apporte un avantage au niveau sonore et dynamique principalement ; il y a
aussi la liberté de l’écriture ; si l’on prend l’exemple de générer une partition musicale en
MIDI (DLS) à partir d’un son échantillonné, il est très difficile de traduire toutes les
spécificités musicales, comme par exemple le jeu en legato. Cependant l’utilisation de
fichiers audio pouvant contenir jusqu’à deux à trois minutes de musique rend plus difficile
l’évolution musicale en cours de jeu ; le plus souvent, ces fichiers vont s’intégrer dans le
cadre d’une musique scénarisée, c'est-à-dire être programmés pour des phases de jeu
spécifiées par le programme.
De plus l’instrumentation orchestrale, dans un jeu, comme dans un film d’ailleurs,
utilise le plus souvent les techniques connues d’harmonicité, celle de la tonalité, parce que
notre propre culture musicale fait que notre oreille y est plus sensible. C’est dans ce sens
qu’il se crée une certaine uniformisation de la musique, puisqu’en utilisant un orchestre la
musique va se construire par thème, et par progression harmonique auxquels le joueur est
plus sensible et donc, dans un sens, s’attend.
b. Exemples d’instrumentation et conclusion.
La plage 1 correspond au thème qui intervient au début de mission dans le jeu Tomb
Raider : The Angel of Darkness (2003), type RPG. La musique a été composée par P.
Connelly et interprétée par l’orchestre Symphonique de Londres. Le thème présente de
fortes similitudes avec les procédés cinématographiques utilisés pour exprimer la tension :
jeu en trilles, cuivres imposants et percussions qui martèlent les temps.
La plage 2 est un extrait de la musique du jeu Deus Ex : Invisible War (2004), type
RPG, composée par A. Brandon. Ce thème correspond à une phase de jeu se déroulant en
Egypte. La musique de ce thème mélange sonorités ethniques et électroniques avec
l’utilisation d’instruments indiens comme le dumbek, sorte de darbouka, un sitar et des
tablas.
45
Jack WALL, Using a Live Orchestra in Game Soundtracks, < www.gamasutra.com >, 20 mai 2002.
51
Pour la plage 3, il s’agit du thème principal du jeu Freedom Figthers, type TPS,
musique composée par J. Kyd ; le thème présente une forme musicale « hybride » en
combinant le Chœur de Hongrie et une musique orchestrale, rappelant fortement O
Fortuna (Carmina Burana, 1937) de Carl Orff et son côté grandiloquent et héroïque, avec
des sons électroniques.
Plage 4. Dans le jeu Morrowind The Elder Scrolls III, type RPG, plusieurs éléments
d’orchestration sont combinés avec des sons synthétiques. La musique a été composée par
J. Soule. Le thème est simple et accompagne la phase de jeu (il s’agit d’un des thèmes dits
d’ « exploration »), il commence par l’utilisation d’une simple flûte accompagnée
d’instruments à vent synthétiques avec une nuance piano ; ce thème est ensuite répété
avec des nuances qui s’accentuent de mezzo piano à forte avec des instruments qui
s’ajoutent à l’harmonisation, notamment les cors, et des percussions de plus en plus
présentes. Le principe de composition est connu, il se base sur le principe d’imitation du
thème entre les différentes voix.
Le jeu de stratégie Heroes of Might and Magic III, contient près d’une soixantaine de
séquences musicales dont l’organisation est totalement inspirée par la musique classique
dans son sens large ; certaines séquences sont plutôt baroques, d’autre classiques,
romantiques voire plus contemporaines. Les musiques ont été composées par P. Romero,
R. King et S. Baca.
Dans cet extrait « LAVA » (plage 5), qui correspond au thème de la « lave », il faut
comprendre quand le héros est proche d’un volcan, l’orchestration est une fois de plus
simple : le thème se constitue d’un ostinato dans les graves inquiétant et s’enrichie
harmoniquement par l’entrée successive des instruments.
Plage 6 : il s’agit d’un extrait musical du jeu Hitman 2 : The Silent Assassin, type TPS.
La musique a été composée par J. Kyd et interprétée par l’orchestre Symphonique de
Budapest. Cette plage correspond à la première mission du tueur à gage, elle présente les
caractéristiques d’une orchestration classique avec un ostinato sérieux voire inquiétant aux
violoncelles qui inspire en fait à une certaine méfiance, comme pour introduire le joueur
dans un univers propre au jeu dont le but est d’opérer avec discrétion ; cette ostinato est
repris aux cors; cette première partie se termine par un motif imposant avec sa marche.
52
Autre exemple, le thème principal du jeu Deus ex : The Invisible War (plage 7) réalisé
par un groupe dit de « new wave » américain, Kidney Thieves46. La participation de
musiciens connus du grand public pour la réalisation d’une bande son de jeu vidéo, est un
phénomène de plus en plus courant ; cela permet de rendre plus efficace la musique d’un
jeu car un grand nombre de personnes connaît, voire apprécie, déjà le style de musique
qu’ils vont entendre (autre exemple le jeu Wipeout XL (1996), jeu de courses futuriste,
avec la participation du groupe de musique électronique Prodigy).
Le jeu Grand Theft auto Vice City (2002) jeu de simulation et d’aventure, utilise ce
procédé de manière exclusive pour l’ensemble des séquences musicales ; la musique se
présente sous la forme d’émissions musicales de différentes radios locales, chacune
d’entre elles correspondant à un style de musique spécifique. Chaque chanson
programmée pour une station donnée est un succès commercial des groupes les plus
connus dans le style musical choisi par le joueur (par exemple la radio « Emotion 98.1 »
où l’on entend Toto et Roxy Music, la radio « Flash » avec Michael Jackson et Yes, ou
encore « VRock » avec Iron Maiden, Slayer et Ozzy Osbourne). Le joueur a de plus la
possibilité d’insérer ses propres fichiers MP3 ou .WAV accessibles ensuite sur « Radio
MP3 ». L’avantage pour le joueur est de pouvoir choisir la musique qu’il souhaite écouter,
cette approche a pour but de renforcer le réalisme, par le système de radio, plutôt que de
permettre une interactivité entre la musique et les évènements qui prennent place, mais
aussi d’éviter la lassitude du joueur à cause d’une musique qui ne correspondrait pas à ses
goûts.
***
Ces quelques exemples illustrent la diversité d’instrumentations possibles pour les
séquences musicales d’un jeu vidéo, elle dépend du jeu en lui-même, du monde
représenté, et de ce que le compositeur et le sound designer veulent apporter comme
significations à la musique par rapport à l’image et aux évènements. Du point de vue du
style et de l’instrumentation, certaines musiques utilisent des procédés d’harmonisation
classique, une instrumentation classique avec des sons électroniques, une bande son
totalement synthétisée, d’autres enfin font appel à des artistes de musique grand public.
46
Deux albums à leur actif : Zerospace (2002) et Trickstereprocess (1998).
53
Comme nous l’avons expliqué l’approche musicale est un facteur clé pour faire en
sorte que le joueur s’attache ou non aux évènements du scénario puisque la musique est
vouée à être répétée dans le jeu. Nous constatons qu’il existe une certaine uniformisation
des procédés d’instrumentation orientés vers un résultat musical susceptible d’être
davantage compris, accepté par le joueur (notamment le mélange des sonorités ethniques
et électroniques qui sont des procédés connus dans la musique électronique, la musique
dite « indépendante » ou la « World Music »). L’originalité se situe plus au niveau de la
composition, par un agencement notamment différent des sonorités, mais aussi par
l’utilisation de formes musicales « hybrides », comme par exemple le thème principal de
Freedom Fighters.
Cependant il ressort fortement de ces exemples que les procédés musicaux du jeu
vidéo, tout particulièrement pour les RPG et les jeux d’aventures, s’orientent également
vers ceux utilisés par le cinéma, et qu’autant dans la forme (le scénario, les mouvements
de caméra, la narration par exemple) qu’au niveau des sons, des bruitages et du style
musical, il existe une hybridation de plus en plus évidente entre le cinéma et le jeu vidéo.
Le joueur est le personnage principal, il se déplace suivant ses propres choix dans un
environnement spécifique qui interagit avec lui, entre autres, musicalement : le jeu vidéo
devient une sorte de « film interactif ».
Pour comprendre en quoi la musique d’un jeu est un facteur particulier d’hybridation
avec la musique du cinéma, il est nécessaire de définir les influences du cinéma sur le jeu
vidéo, l’inverse existe aussi, ces influences constituant une forme d’hybridation qu’est la
« remédiation »47 (il existe en réalité quatre formes d’hybridation : le commentaire, la
citation, l’adaptation et la remédiation, cependant les trois premières formes vont plutôt
dans le sens d’une hybridation cinéma – jeu vidéo48 que l’inverse).
4) L’hybridation entre le jeu vidéo et le cinéma.
L’avancée des technologies a permis au game designer d’améliorer considérablement
les détails graphiques d’un jeu, de faire une meilleure utilisation des environnements en
trois dimensions et d’apporter au joueur des moyens d’interaction de plus en plus
47
48
Terme d’origine anglo-saxone, qui vient de « media ».
C'est-à-dire dans le sens que le cinéma reprend des procédés du jeu vidéo.
54
importants avec le jeu ; mais ce n’est pas seulement cette évolution des techniques qui
détermine encore aujourd’hui les progrès du jeu vidéo : l’inspiration par d’autres médias,
et l’utilisation de certains de leurs procédés, est un facteur des plus importants dans
l’évolution du jeu vidéo ; il s’avère alors que le cinéma émerge comme une influence
essentielle.
a.
Le phénomène de « remédiation ».
La « remédiation » est une théorie sur les relations entre différents médias proposée
par J. D Bolter, professeur au New Media Studies de Wesley, et R. Grusin49, directeur de
la School of Literature, Communication and Culture au Georgia Institute of Technology.
Selon eux, tous les médias, qu’ils soient anciens ou nouveaux, entrent en compétition les
uns les autres, s’influencent et s’enrichissent mutuellement. La « remédiation » est la base
de tous les nouveaux médias qui, plutôt que de remplacer les médias plus anciens,
« remédient » à ceux-ci en s’appropriant leurs techniques de représentation. La
« remédiation » est la représentation d’un média en un autre.
Une raison pour laquelle un média « remédie » à un autre c’est la volonté de créer ce
que l’on appelle une sensation d’immédiateté. Un média qui assure une telle faculté donne
à l’utilisateur ou le spectateur le sentiment d’être présent dans ce qui lui est suggéré, de le
vivre ; pour J.D Bolter et R.Grusin « le désir d’immédiateté amène les médias numériques
à s’emprunter certains codes et conventions entre eux mais aussi aux médias plus anciens
comme le cinéma et la télévision »50. Un jeu utilise la musique et d’autres éléments
sonores, des informations visuelles et un ensemble de réactions possibles afin de permettre
l’immersion du joueur, en d’autres termes un jeu génère de l’immédiateté.
Selon G. King et T. Krzywinska51, professeurs sur l’étude des films et de la télévision
à l’université de Brunel (Londres), un hypermédia se base sur les connaissances de
49
BOLTER Jay David & GRUSIN Richard, Remediation : Understanding New Media, MIT Press, 1999.
« the desire for immediacy leads digital media to borrow avidly from each other as well as from their
analogue predecessors such as film, television », BOLTER & GRUSIN, op. cit., p. 9.
51
KING Geoff & KRZYWINSKA Tanya, Screen Play: Cinema/Videogames/Interfaces, Wallflower Press,
2002.
50
55
l’utilisateur « souvent à travers la conscience d’un procédé dans lequel un média se sert
des mécanismes d’un autre média 52».
Le jeu vidéo cherche à apporter au joueur une sensation d’immersion et celle-ci peut
être possible par l’immédiateté.
Donnons quelques exemples pour illustrer le phénomène de « remédiation » qu’opère
le jeu vidéo sur les autres médias.
Le jeu Star Wars : Rogue Leader (2002, LucasArts Entertainment) propose un univers
similaire aux films de la série Star Wars et engendre ainsi une sensation d’immédiateté en
se référant aux connaissances du joueur sur la série ; dans le jeu de football Winning
Eleven 6 (2002, Konami) le sentiment d’immédiateté est augmenté par l’emprunt des
conventions utilisées lors de la retransmission d’un match à la télévision : intervention des
commentateurs, angles de vue différents qui correspondent aux changements de caméra.
Comme nous l’avons montré, les FPS et certains RPG proposent un environnement en
trois dimensions avec une vue subjective, transposition de la vue subjective du cinéma, ce
qui renforce l’identification du joueur pour le personnage qu’il contrôle.
Autre exemple, le jeu vidéo The Lord of the Rings : The Return of the King (2003,
Electronic Arts) présente une « remédiation » très poussée avec les deux films de la
trilogie du Seigneur des Anneaux (réalisée par Peter Jackson), le Seigneur des Anneaux :
les deux Tours (2002) et Le Seigneur des Anneaux : le Retour du Roi (2003). Le jeu
propose des transitions très réalistes entre des extraits vidéo issus du film et les phases de
jeu, les voix des acteurs sont reprises et attribuées aux personnages du jeu, enfin H. Shore,
compositeur pour le film, a participé à l’élaboration de la musique pour le jeu.
L’exemple le plus flagrant de l’influence du cinéma sur le jeu vidéo est celui des
scènes cinématiques.
b. Conséquences du point de vue musical pour le jeu.
Le but de la recherche dans le jeu vidéo n’est pas de proposer un film, tous les jeux qui
ont abusé des séquences cinématiques se sont avérés un échec du point de vue de
52
« often through a consciousness of the process in which one medium draws on devices associated with
another », KING & KRZYWINSKA, op. cit., p. 4.
56
l’interactivité et de l’immersion, car le joueur perd alors son rôle de personnage principal
actif pour devenir spectateur.
La recherche des game designer est d’ « intégrer le gameplay avec la variété,
l’intensité, et, parfois, la subtilité d’un film énergique changeant constamment et qui soit
d’une nature émotionnelle riche53 ».
La « remédiation » du jeu vidéo avec le cinéma est directement liée à la recherche de
l’immersion dans le jeu, puisqu’elle permet l’effet d’immédiateté en proposant au joueur
des points de référence par rapport aux procédés de représentation qu’il connaît déjà.
La recherche de l’immédiateté dans le jeu vidéo, dans le but d’obtenir l’acceptation du
joueur pour ce qui lui est proposé, inscrit la musique du jeu vidéo dans une hybridation
particulière avec la musique du cinéma : elle se présente comme une conséquence directe
de la « remédiation » du cinéma par le jeu vidéo au niveau du traitement de l’image et du
scénario. Elle reprend ainsi les procédés cinématographiques utilisés pour la musique,
pour le style et l’instrumentation, afin de renforcer l’affect suggéré par le visuel ;
cependant elle doit les intégrer également dans un cadre interactif.
Le jeu vidéo s’inspire de la réalité et d’autres médias, comme le cinéma, pour ensuite
« construire un monde » qui lui est propre : ainsi si l’on veut que la musique d’un jeu soit
acceptée par le joueur (par habitude) mais en même temps qu’elle remplisse son rôle dans
le système de représentation réaliste utilisé par le jeu, l’approche musicale doit être
similaire. Cela implique que la musique reprenne certes des procédés d’instrumentations
et s’inspire de styles musicaux connus mais en les intégrant dans un processus de
composition moins conventionnel, inédit en tout cas, dans le but de servir l’interactivité
musicale.
Toutefois le jeu vidéo ne s’inspire pas seulement du cinéma : la « remédiation » jeu –
œuvre littéraire, forme d’hybridation rare pour le jeu, est aussi possible et bien qu’elle soit
particulière, elle met en évidence ce que la « remédiation » peut amener comme procédé
innovant du point de vue de l’approche musicale pour le jeu vidéo.
53
« We are trying to integrate the gameplay with the variety, the intensity, and, sometimes, the subtlety of a
powerful film’s constantly changing, rich emotional nature », David FREEMAN, Creating emotion in
games, New Riders Publishing, 2004, p. 33.
57
Cet exemple illustre la démarche du compositeur T. Chance qui consiste en
l’élaboration d’ « un guide de style musical » qui permettrait une adaptation musicale
précise de l’univers de J.R.R Tolkien pour une série de jeux vidéo de Vivendi Universal
Games inspirée de l’œuvre littéraire du Seigneur des Anneaux. Cette série comprend les
jeux The lord of the Rings : Middle-Earth Online (sortie en 2005), The lord of the Rings :
War of the Ring (2003), The hobbit (2003) et Fellowship of the Ring (2002), auxquels
s’ajoute le jeu The lord of the Rings : Treason of Isengard (projet annulé).
5) Un exemple de « remédiation » jeu vidéo – œuvre littéraire.
a.
Une approche musicale innovante.
L’objectif54 de T. Chance était de créer une musique qui serait la plus proche possible
des descriptions faites par Tolkien et qui sonnerait de façon juste (c'est-à-dire qui
retranscrirait musicalement l’univers du Seigneur des Anneaux) pour n’importe qu’elle
personne familière de ses écrits.
Il créa ce qu’il appelle « un guide de style musical tolkienien », résultat d’une analyse
très précise des ouvrages de J.R.R Tolkien, afin d’offrir des directions musicales aux
compositeurs qui travailleraient avec lui sur la série des jeux. Ce guide de style défini une
palette d’instruments et de type de voix spécifiques pour chaque « Race » (Les Elfes, les
Nains, les Hommes, les Hobbits et les « Races » de l’Enfer incarnées par Sauron), mais
aussi des lignes directrices musicales attribuées à chacune d’elle qui comprennent des
indications concernant l’harmonie, la mélodie et le rythme, afin d’élaborer des schémas
types de partitions musicales. Ce guide comprend d’autres sections telle la qualité de
production, les matrices de design musical ou des implémentations spécifiques.
La principale proposition de ce guide était qu’une série de thèmes principaux soit
composée afin d’illustrer musicalement l’essence de chaque « Race ». Ces thèmes seraient
regroupés en diverses pièces musicales, se référant à des éléments clés de l’histoire, puis
utilisés pour l’ensemble des jeux de la série afin d’établir ce que T. Chance appelle « la
sous œuvre thématique de chaque partition musicale ». Il propose d’écrire des pièces
musicales référentielles organisées en différents thèmes, ces derniers sont soit utilisés
54
Thomas CHANCE, Riffing on Tolkien: The Conceptualization, Production, and Dissemination of Music
in The Lord of the Rings, < www.gamasutra.com >, 12 novembre 2003.
58
séparément pour créer chacune des séquences musicales des différents jeux, soit servent
de « squelette musical » pour l’élaboration de ces séquences. Ces thèmes seraient des
points de repères musicaux entre ces jeux qui utiliseraient le même langage musical.
Prenons l’exemple de l’organisation de la pièce musicale attribuée aux Elfes. Cette
pièce expose les cinq thèmes principaux : les mouvements respectifs d’ouverture et de fin,
« From Across the Sea » et « Return to the Sea » sont « la traduction musicale » de la
nature à la fois immortelle, solennelle et triste des Elfes. Les trois mouvements du milieu
reflètent musicalement les forteresses de la Terre du Milieu – Rivendell, Lothlorien et
Mikwood -.
« Le guide de style musical Tolkienien » définit la quinte augmentée comme signature
harmonique pour les Elfes et la harpe classique comme instrument primaire. Cette pièce
musicale est construite à partir de ces deux éléments auxquels s’ajoutent différentes
variations afin d’exprimer une diversité musicale correspondant aux changements
particuliers de comportements des Elfes (par exemple pour illustrer une phase de combat
ou d’exploration). De plus, chacun des trois mouvements centraux présente deux
variations, ce qui offre ainsi au « guide » des exemples supplémentaires sur la façon de
composer divers thèmes par rapport à un thème référentiel. Ainsi cinq minutes d’une pièce
musicale permettent huit exemples de partition musicale pour les Elfes, cinq éléments
orchestraux pouvant être implémentés directement dans la partition musicale du jeu,
diverses séquences musicales (d’instruments à vent ou à cordes, de voix par exemple)
issues de la session d’enregistrement et pouvant être intégrées dans la partition des autres
compositeurs, mais aussi des fichiers sources sous format MIDI afin d’accompagner les
compositeurs dans leur propre approche musicale.
La plage 8 est un extrait de la pièce musicale attribuée aux Elfes : elle se compose de
deux paires, une première comprenant le thème principal dans sa totalité et une variation
de ce thème lors d’une phase de combat ; la seconde paire comprend le thème de la région
de Lothlorien suivi d’une variation de celui-ci (séquences musicales issues des jeux
Middle-Earth Online et War of the Ring).
59
b. Le choix de l’instrumentation.
Pour T. Chance l’utilisation de l’orchestre était une évidence ; dans son œuvre J.R.R
Tolkien « évoque des instruments à la fabrication parfaite et au ton enchanteur, décrit les
chanteurs comme des joyaux purs où se mélangent des mots et mélodies ; il fait référence
au pouvoir des chansons anciennes et à la créativité musicale qui provient des Dieux »55.
Il fallait de plus considérer la qualité des écrits de Tolkien ; son attention portée au détail,
sa minutie, ces images verbales. Le choix de véritables instruments s’imposait pour
traduire la richesse des mots par la richesse des sons.
Il fallait de même trouver un orchestre et un chœur qui seraient expérimentés dans le
domaine des films, des jeux vidéo ou de la télévision et habitués aux conditions
d’enregistrement ; il fallait de plus trouver des instrumentistes capables de jouer des
instruments anciens. T. Chance fit appel alors à l’ Utah Film Orchestra (comme meilleur
compromis, selon lui, entre la qualité des interprètes et le coût d’enregistrement), et utilisa
divers instruments anciens tels l’orgue de barbarie, la viole de Gambe, le psaltérion
(instrument à cordes pincées), la mandoline, le rébec (instrument médiéval à trois cordes
et archet), le tympanon (instrument à cordes frappées par des marteaux) ou le théorbe.
La composition des parties chantées devaient illustrer le plus exactement possible la
nature profonde des différentes « Races ». Par exemple, pour le thème Song of the
Dwarves T. Chance voulait retranscrire musicalement l’atmosphère des cavernes, lieux
d’habitation des Nains et leur travail laborieux. Il demanda aux hommes constituant une
partie du chœur de marcher sur place et de parcourir le studio, pour qu’une fois essoufflés,
l’altération de leur voix procure à la fois une sensation d’écho (comme pour recréer l’écho
naturel d’une grotte) et d’effort intense (plage 9).
La plage 10 illustre cette idée d’une musique référentielle écrite pour une série de jeux
utilisant le même langage musical et qui aiderait les compositeurs dans leur approche
musicale personnelle. Cette plage contient un extrait de la pièce musicale attribuée aux
Hobbits avec différentes adaptations et variations ; apparaissent dans l’ordre, le thème
composé comme « thème de référence » et ces variations respectives pour les jeux The
Hobbit, Treason of Isengard et Middle-Earth Online.
55
« He talks of musical instruments "of perfect make and enchanting tones." He describes singing as "clear
jewels of blended word and melody." He refers to "power" in old songs, and even ascribes the ultimate
creative power to music from the gods », CHANCE, op. cit.
60
***
L’approche de T. Chance est innovante dans le sens qu’il a établi un langage musical
suivant une certaine interprétation d’une œuvre littéraire, qui va permettre d’unifier
musicalement une série de jeux vidéo ; cependant les procédés d’instrumentation et
d’orchestration ne se détachent aucunement des procédés cinématographiques pour la
composition ; de plus, en cours de jeux, le déclenchement des thèmes interviennent pour
des phases de jeu particulières (phase de combat ou d’exploration par exemple), donc plus
pour renforcer la dramatisation de l’évènement en cours que d’informer le joueur sur ce
qui va se passer.
L’analyse des thèmes musicaux du jeu Myst III : The Exile démontrera en quoi une
utilisation particulière des thèmes musicaux dans le jeu peut élever le niveau
d’interactivité, la répétition et l’altération des thèmes devenant des sources d’informations
pour le joueur sur ce qui va se passer. De plus nous verrons qu’avec l’utilisation d’outils
spécialisés et une approche de composition particulière, le thème musical peut s’inscrire
dans le cadre d’une musique évoluant avec le jeu.
61
B. Analyse sonore et musicale du jeu Myst III : The Exile.
1) Les formes de « remédiation ».
a.
Un scénario inspiré par la littérature fantastique.
Myst III : The Exile est le troisième volet de la série des Myst après Myst (1994) et
Riven (1999). Le concept de cette série repose sur l’histoire de la civilisation des D’ni,
peuple qui a trouvé le moyen de créer et de relier des mondes par l’écriture. Les livres
deviennent alors des passerelles vers des mondes imaginaires, des « Ages » construits par
la plume de Gehn. Tous les termes utilisé par les D’ni ont été créés par des linguistes ;
ainsi le nom « Tomahna », maison construite par Atrus, fils de Gehn, signifie la maison de
repos ou maison de passage. L’intrigue se situe une dizaine d’années après Riven, dernier
« Age » écrit par Gehn. Les fils d’Atrus, Sirrus et Achenar, ont détruit de nombreux livres
dans la bibliothèque de Myst, ce qui a entraîné un véritable chaos dans les « Ages » ;
Atrus, qui n’a pas réussi à réparer ces livres et à rétablir le lien entre chaque « Age »,
décide de reprendre contact avec les survivants du peuple des D’ni qui se sont déchirés, et
de créer un futur en évitant les erreurs du passé par l’écriture d’un nouveau livre des
« Ages », Releeshan. La destruction des livres a entraîné la misère de Saavedro, qui
décide de se venger des fils d’Atrus en s’emparant de Releeshan et de créer lui-même un
« Age » qui entraînerait la perte de la civilisation des D’ni.
Myst III est un jeu d’exploration où le joueur doit parcourir différent âge afin de percer
le mystère de Saavedro et sauver la civilisation des D’ni.
Les similitudes du point de vue de l’intrigue entre la série des Myst et Le Seigneur des
Anneaux de J.R.R Tolkien sont frappantes ; l’anneau unique, qui gouverne tous les autres
anneaux de pouvoir, devient le livre Releeshan qui relie l’ensemble des « Ages » ; de la
préservation de celui-ci dépend le devenir de la civilisation. Chaque livre représente un
« Age » et donne le pouvoir à celui qui le possède de le préserver ou de le changer. Les
D’ni communiquent dans une langue imaginaire, de même que J.R.R Tolkien a crée le
langage des Elfes.
Mais l’univers de Myst va au delà d’une simple inspiration littéraire, l’écriture devient
un élément essentiel : l’écriture d’un « Age » est assimilée à une science, une équation
structurée des mots. La fondation de chacune de ces équations est un concept fondamental
62
qui peut permettre à un « Age » de se développer. Il ne s’agit plus simplement de
« remédiation » du jeu vidéo avec la littérature, de ses procédés d’intrigue, mais d’un
véritable travail littéraire qui a impliqué pour Myst III : The Exile l’écriture d’un livre dont
le joueur découvre les pages suivant sa progression dans le jeu, mais aussi l’écriture de
romans, pour chaque jeu de la série, afin de mieux appréhender cette intrigue proposée par
le jeu. Ainsi Rand et Robyn Miller, les créateurs de la série, aidés par l’écrivain D.
Wingrove, ont écrits trois romans sur l’intrigue de Myst et ses personnages : Le Livre
d’Atrus, Le Livre de Ti’ana et Le Livre de D’ni56.
La « remédiation » se situe au niveau de l’intrigue du jeu, et aboutit à une œuvre
littéraire dans le jeu et existante par elle-même sous forme de roman.
b. La participation de véritables acteurs de cinéma.
La particularité de Myst III est d’avoir fait appel à de véritables acteurs filmés dans un
studio de cinéma sous fond bleu puis incrustés ensuite dans l’environnement de jeu en
trois dimensions. Le rôle du traître, Saavedro, est interprété par l’acteur Brad Dourif
connu pour son rôle de Billy Bibbit, déséquilibré interné dans un hôpital psychiatrique,
dans Vol au dessus d’un nid de coucou (1975, Milos Forman). B. Dourif est reconnu pour
ses seconds rôles dans le domaine du fantastique et de l’horreur (l’Exorciste, la suite
(1990), Critters 4 (1991)) et a participé à de grandes productions comme Trauma (1993)
ou Alien, la résurrection (1997), et joué plus récemment dans les films Le Seigneur des
Anneaux : les Deux Tours (2002) et Le Seigneur des Anneaux : le Retour du Roi (2003),
où il incarne Grima, le conseiller du roi Theoden.
Ce choix ne paraît pas anodin, en effet dans le domaine du cinéma faire appel à des
acteurs reconnus peut être un gage de succès commercial ; pour un jeu faire appel à des
acteurs, de plus connus par les amateurs de films fantastiques (ce que par essence le jeu
vidéo propose comme univers) est un moyen d’immersion très intéressant créé par
l’immédiateté, puisque le joueur a la sensation d’être projeté dans un univers dont il
connaît les personnages.
56
Livres publiés par « Hyperion » aux Etats-Unis et « J’ai lu » en France.
63
L’influence de la littérature fantastique et celle du cinéma auquel le jeu Myst III : The
Exile reprend ces personnages de même que l’importance donnée au détail des paysages
construits à partir de véritables décors naturels photographiés, sont sources d’une
immersion élevée pour le joueur.
De cette recherche poussée du graphisme, du scénario et de ce désir d’inclure des
éléments réels, découle une recherche sonore et musicale particulière où le son et la
musique ont autant d’importance et de détails que le visuel et l’intrigue.
L’importance du détail se retrouve dans l’approche musicale, par une utilisation
particulière du thème musical non plus seulement attribué à un environnement de jeu
spécifique ou à un évènement particulier, mais aussi aux personnages.
2) Le thème musical et sa répétition.
a.
La notion du thème musical comme unité signifiante.
Le compositeur Jack Wall57 voulait composer une partition originale pour illustrer le
fait que Myst III était un nouveau jeu avec six nouveaux « Ages » mais aussi que ce
nouveau volet était une suite logique du point de vue de l’intrigue des deux précédents
épisodes.
Après une analyse approfondie de la musique de Myst et Riven, composée par R.
Miller, il s’est aperçu que le seul personnage à qui était associée une mélodie était Atrus ;
ainsi comme pour évoquer une continuité musicale entre les différents épisodes, il décida
d’utiliser ce procédé comme fil thématique, un moyen de connecter musicalement les trois
volets de la série et d’associer aux deux personnages principaux de Myst III, Atrus et
Saavedro, un thème musical spécifique qui réapparaîtrait en cours de jeu de différentes
manières suivant les évènements et la progression du joueur dans l’intrigue.
L’attribution d’un thème spécifique pour chaque personnage et de son retour, altéré
ou non, renvoie à la notion du thème musical comme unité signifiante, c'est-à-dire qui
signifie quelque chose.
57
Jack WALL, Music from Myst III: The Exile–The Evolution of a Video game Soundtrack,
< www.gamasutra.com >, 11 janvier 2002.
64
Pour comprendre cette notion, nous citerons Françoise Escal, directeur d’études à
l’Ecole des Hautes Etudes en Sciences sociales : « Le thème en musique est une unité
signifiante », « la musique occidentale connaît la tentation de rivaliser avec le langage
verbal et d’établir une communication du même ordre, fondée sur l’échange des signes.
Toutes les musiques descriptives […] prétendent faire sens, produire des significations
par la peinture exacte et fidèle des référents (objet du monde, bruits…) ou l’expression
juste des signifiés (sentiments, état d’âme…) »58.
Selon F. Escal, ce désir de donner une signification particulière à la musique pour en
faire un langage de communication provient des musiciens du XIXè siècle : « On peut
rapprocher du thème, en musique, comme unité de contenu, le leitmotiv. Non pas le motif
élément de syntaxe musicale, composant la forme, mais restrictivement le leitmotiv tel
qu’il est défini par Wolzogen, un des premiers commentateurs de Wagner. Cela consiste à
accoler à chaque personnage, à chaque objet important […], à chaque thème (l’amour, la
mort), un thème [musical] qui réapparaît en même temps que ce qu’il indexe. Si le drame
le demande il peut être modifié. En tout état de cause, il renseigne sur l’action
(anticipations ou rétrospections) [et] sur les personnages ».59
Avant l’analyse des thèmes, et pour approfondir cette idée d’unité musicale
signifiante, il convient d’éclairer une notion musicale inhérente à l’utilisation des thèmes
en musique à savoir la variation, qui s’inscrit elle-même, selon le compositeur François
Nicolas60, dans une « logique thématique ».
b. La notion de logique thématique.
Selon F. Nicolas, il existe trois types de variations : « la première, et la plus usuelle,
[qui] est de développer un objet en sorte qu’il s’altère au fil du discours 61», une seconde
qui consiste en la réitération d’une entité musicale inaltérée mais dont le contexte de
présentation varie, en prenant un exemple cinématographique le thème de Perhan (Temps
des Gitans d’Emir Kusturica, musique de Goran Bregovic, 1988) joué au violon réapparaît
58
Françoise ESCAL, revue de communications numéro 47 de L’EHESS, Variations sur le Thème, Seuil,
1988, pp. 95-102
59
ESCAL, op.cit., pp. 103-105.
60
François NICOLAS, conférence à l’IRCAM, forum Diderot, 03 décembre 1999.
61
NICOLAS, op.cit.
65
à l’identique pour des situations dramatiques différentes. Pour François Nicolas ces deux
manières « partent de l’énonciation d’une identité (disons un thème) pour générer de
l’altérité : dans le premier cas, en générant d’autres objets ; dans le second en faisant
apparaître d’autres facettes ou profils du même objet »62.
Le troisième type de variation est ce que F. Nicolas nomme « le dégagement d’un trait
commun dans une diversité dispersée », « il s’agit […] de rapprocher ce qui est lointain et
sans rapports apparents, pour reconnaître le travail souterrain […] d’une même figure au
sein de la diversité de départ »63 . Ce troisième type est appelé reconnaissance, les deux
premiers, altération.
F. Nicolas tente de définir une logique musicale, ces observations l’amènent à la
conclusion qu’elle est « ce qui dialectise, selon le nécessaire, une cohérence de la
partition et une cohésion de l’audition », « l’auditeur ne doit pas se demander : comment
comprendre une logique musicale […] mais plutôt : comment saisir logiquement ce que je
comprends ? Soit abandonner le thème d’une compréhension de la logique musicale pour
y substituer celui d’une logique de la compréhension musicale ». Cette notion de
compréhension musicale abouti à une autre, celle du contexte en musique : « les
propriétés intrinsèques d’un objet importent moins que ses propriétés extrinsèques,
fonction de la situation dans laquelle il est inscrit »64 .
F. Escal nous éclaire un peu plus sur cette notion de logique thématique et sur ce
qu’elle implique au niveau de l’appréhension de la musique par l’auditeur : « l’attente
d’une satisfaction s’accompagne d’émotion si cette attente se trouve momentanément
interrompue ou inhibée. La variation, le développement, c’est cette tension qui provoque
l’attention ; et la dialectique du thème et de ses transformations, c’est celle des attentes et
des précisions d’une part, des crises et des solutions d’autre part […] Les variations sont
autant de conséquences ou de métamorphoses inscrites dans l’idée musicale d’entrée »65
62
NICOLAS, op.cit.
NICOLAS, op.cit.
64
NICOLAS, op.cit
65
ESCAL, op. cit, p. 116.
63
66
***
C’est en nous appuyant sur ces observations que nous allons organiser l’analyse des
thèmes musicaux attribués aux personnages de Myst III, Atrus et Saavedro : ces thèmes
sont en effet agencés de la même manière que pour une œuvre de musique classique
utilisant une logique thématique. Il conviendra de mettre en évidence et de donner la
signification des réitérations et altérations des thèmes, ainsi que le principe de
reconnaissance pour certains éléments musicaux, toujours suivant le contexte dramatique
de l’intrigue et d’expliquer en quoi cette logique du point de vue de la structure musicale
sont des éléments d’interprétation, d’appréhension de l’intrigue pour le joueur qui vont
alors l’amener à réagir.
Les éléments musicaux dans Myst III s’organisent suivant trois catégories : des
séquences musicales interprétées par l’orchestre philharmonique de Seattle et un chœur,
des musiques dites de « récompense » qui correspondent au thème associé à chaque
« Age » dont certaines séquences sont reprises « dans le jeu » de façon aléatoire ; et
l’ensemble des éléments musicaux intervenant en cours de jeu, tels les bruitages et les
sons ambiants.
Ces considérations faites l’analyse se présente en trois étapes : une première concerne
le choix de l’instrumentation et l’analyse des séquences et des thèmes musicaux attribués
aux personnages d’Atrus et de Saavedro. La deuxième partie de l’analyse est consacrée
aux sons dans Myst III déclenchés en cours de jeu, lorsque le joueur est actif : elle étudiera
successivement les moyens technologiques utilisés pour le son et développés par Presto
Studio, le rapport entre l’image et le son et des exemples pour illustrer notre propos ; la
troisième et dernière partie concerne l’étude des séquences musicales jouées de façon
aléatoire en cours de jeu, issues du thème associé à chaque « Age » et qui interviennent
lors de l’exploration. Nous rendrons compte de l’approche musicale du compositeur J.
Wall d’intégrer de la mélodie pour une musique d’ambiance en évitant la répétition, et de
sa collaboration avec Roland Gustafsson, programmeur audio de Presto Studio. Nous
donnerons également des exemples musicaux.
67
3) Analyse des thèmes et des séquences musicales attribués aux personnages.
a.
Le choix de l’instrumentation.
La musique des deux épisodes précédents, Myst et Riven, avait été uniquement
composée à partir de synthétiseur et était dépourvue de mélodie (à part le thème d’Atrus).
La musique était ce que l’on peut qualifier d’ambiante : le choix d’utiliser de véritables
instruments s’est imposé tout naturellement à Jack Wall afin de pouvoir accompagner la
richesse des images par la richesse de timbre et la subtilité de jeu que permettent de
véritables instruments, la recherche du réalisme aboutit en fait à ce choix
d’instrumentation, utiliser de vrais instruments fait que « la musique est réelle et
vivante »66.
L’orchestre philharmonique se compose de 51 musiciens et le chœur de neuf
chanteurs. Le travail en studio a notamment consisté à « grossir » le son afin de donner
l’impression d’un orchestre et d’un chœur plus imposants. Les séquences instrumentales
interviennent pendant les scènes cinématiques.
b. Thème d’ouverture et thème attribué au personnage d’Atrus.
Plage 11 : il s’agit du thème d’ouverture lorsque Atrus évoque les trahisons, les erreurs
du passé et sa volonté d’établir un nouvel Age. Le thème débute par un mouvement
mélodique au hautbois :
Figure 1
Puis deux autres motifs prennent forme :
66
Wall, op. cit.
68
Un premier à 16’’ :
Figure 2
Un second à 32’’ :
Figure 3
Le rythme « suspendu » (rubato) et la couleur mineure particulière du mode phrygien
instaurent une atmosphère teintée de mystère autour de la note sol (fondamentale du mode
utilisé) vers laquelle on revient constamment ; puis à partir de 42’’, l’entrée du piano en
arpèges impose la tonalité de Do mineur sans préparation, on passe soudainement du
mystère au drame musical. Dès lors il existe une opposition entre la note sol autour de
laquelle il existe une sorte d’interrogation musicale et la note Do par laquelle vient le
drame.
Progressivement la tension s’installe, le chœur après un mouvement descendant
rappelant le motif introductif du hautbois, reprend la figure 2 à 1’07 ; alors que la
fondamentale do devrait fonctionner comme détente, servir de repos, cette tension arrive à
son comble avec un choral imposant qui reprend la figure 1 et les percussions qui
accentuent les répétitions de la fondamentale. On reconnaît le mot Releeshan prononcé par
le chœur et le thème d’ouverture se termine avec puissance sur un Do non tenu, ce qui
procure une fin pleine de tensions.
Ce thème introduit musicalement l’intrigue du jeu : la souffrance d’une population,
celle des D’ni, et l’enjeu du livre Releeshan, seul moyen de rattraper les erreurs du passé
et de reprendre contact avec les survivants d’une population décimée. On comprend avec
la tension musicale introduite par l’arrivée soudaine d’une nouvelle tonalité, qu’il va se
passer quelque chose en rapport avec ce nouveau livre : ce thème est une mise en contexte
69
musicale, la musique n’accompagne pas seulement le visuel, elle renseigne sur ce qui va
se passer ou plutôt qu’il va se passer un évènement.
Plage 12 : Il s’agit du thème musical attribué à Atrus, lorsque le joueur pénètre dans
son bureau d’études. La séquence musicale débute par un sol grave et tenu à la basse et
par une unique intervention du chœur dont le mouvement chromatique sib/la rappelle celui
de l’ouverture, ce motif est repris en pizzicati et répété sous cette forme tout au long du
thème. Trois motifs apparaissent sous une forme arpégée de l’accord de sol (à 36’’, 41’’ et
50’’), et un autre à 43’’ qui correspond au thème d’Atrus et qui rappelle la figure 1
attribuée au hautbois :
Figure 4
Il apparaît clairement que le mode utilisé est sol (plus précisément éolien) et les
répétitions de la fondamentale, à chaque fois longuement tenue, ont leur importance : on
sait d’après notre analyse du thème d’ouverture que cette note apporte un drame que le
joueur n’a pas encore découvert. D’après les types de variations évoqués précédemment il
s’agit ici d’une reconnaissance : on retrouve des similitudes avec le thème d’ouverture,
sans que celles-ci ne s’avèrent être le résultat d’une altération de ce thème. La structure
musicale possède une logique évidente : rappeler le thème d’ouverture et imposer
musicalement un son, une note, qui amène le drame musical et ainsi celui de l’intrigue.
On ressent également une sorte de plénitude teintée de mystère avec la sonorité
cristalline qui rappelle celle d’un carillon et à laquelle se mélangent le timbre des
percussions (darbouka, xylophone), la sonorité ethnique d’une cithare et le motif répété au
pizzicati, comme pour illustrer musicalement l’art singulier que possède Atrus de pouvoir
construire des « Ages » par l’écriture.
Cette séquence intervient avant que Saavedro n’apparaisse et subtilise le livre
Releeshan. Elle est une mise en contexte musicale de l’endroit où l’on est, et des
évènements qui vont se produire.
70
c.
Thème de Saavedro et séquences musicales attribuées au personnage.
Plage 13 et 14 : ces plages correspondent respectivement à l’irruption de Saavedro
dans le bureau d’étude d’Atrus et à la séquence musicale qui lui est attribuée lorsque le
joueur, après l’avoir poursuivi, le retrouve dans un observatoire. La séquence de la plage
13 se termine par un rythme imposant aux percussions de deux croches sur le premier
temps des cinq dernières mesures, mesures à trois temps.
La plage 14 présente le thème attribué à Saavedro. On retrouve les motifs mélodiques
des figures 2 (11’’) et 3 (25’’) du thème d’ouverture. Le lien musical entre la séquence
musicale attribuée à Saavedro et le thème d’ouverture s’avère être une information
précieuse pour le joueur. La musique raconte elle-même l’intrigue : le thème d’ouverture
signifiait musicalement une tension, un évènement qui allait se produire par rapport au
livre que venait d’écrire Atrus ; le motif correspondant aux figures 2 et 3 révèle en fait le
thème associé à Saavedro, dont on comprend alors le rôle primordial pour la suite du
déroulement de l’intrigue.
Le rythme imposant de deux croches et le thème correspondant aux figures 2 et 3
juxtaposées sont les éléments musicaux qui caractérisent le personnage de Saavedro et que
l’on retrouve à chacune de ses apparitions dans le jeu.
Ainsi plage 15 (extrait avec voix du personnage), la séquence musicale qui intervient
lors de la confrontation entre Saavedro et le joueur, parvenu à Narayan, reprend ces deux
éléments. On retrouve le thème associé à Saavedro à 7’’ et le rythme imposant aux
percussions à 21’’ ; à 0’26’’ le chœur reprend le thème de Saavedro mais de manière
ascendante pour un rythme de plus en plus rapide. Musicalement le mouvement devenu
ascendant de ce motif et son accélération progressive illustrent la colère grandissante de
Saavedro qui espérait se trouver face à Atrus afin d’assouvir sa vengeance. A 1’22 les
mouvements chromatiques, sol/lab et do/si, clichés cinématographiques pour exprimer un
danger imminent, précèdent deux motifs (1’39) qui correspondent à une variation du motif
mélodique de la figure 1 :
Figure 5
71
Figure 6
Ces motifs sont soutenus par les cors et trombones qui martèlent un do imposant et
grave dont la répétition rappelle le rythme et la très forte accentuation des percussions
associées à Saavedro.
La variation du thème d’ouverture, à laquelle se mêlent des éléments associés
spécifiquement au personnage de Saavedro, révèle un dénouement proche.
En outre l’association de ce thème avec la séquence filmée révèle plusieurs techniques
utilisées par le cinéma concernant l’intervention musicale par rapport à l’image et
l’évènement mis en scène et qui permettent d’apporter une dimension dramatique
particulière. Le thème débute et se termine respectivement par l’ouverture et la fermeture
de la porte d’une salle où Saavedro a pris refuge : ceci correspond, au cinéma, à la
justification de l’intervention musicale par un élément diégétique, c'est-à-dire qui se
rapporte ou appartient à ce qui se passe visuellement, tels un claquement de porte, une
bouteille brisée, des coups de feu ou un geste particulier des personnages. De la même
façon, la variation du thème d’ouverture (1’40) débute par un do imposant dont
l’exécution correspond à un geste, un saut d’agacement, de Saavedro pour désigner cette
salle où il est prisonnier « Regarde autour de toi. Cette salle est le seul moyen d’entrer ».
Du point de vue dramatique, les variations d’accentuations et de nuances musicales font
aussi partie d’un procédé cinématographique, où suivant ce qui est dit par le personnage la
parole prend le premier plan sonore afin de donner plus d’impact aux mots et renforcer
leur portée dramatique. A 1’06 interruption abrupte de la musique qui se retrouve en fond
sonore : la colère de Saavedro explose et parlant de lui-même « N’as-tu pas compris que
tu ne signifies absolument rien pour lui » ; moment d’accalmie, la musique est presque
inaudible ; Saavedro, devenu conscient qu’il pourrait faire appel au joueur, tente de le
déstabiliser. De même à 2’10, la variation du thème s’interrompt de façon tout aussi
abrupte par ce même élément musical caractéristique de Saavedro (percussion, durée
brève et très accentuée), ce dernier revient sur ces pas et conseille le joueur « Si tu trouves
le moyen de sortir d’ici, je te conseille de surtout bien réfléchir avant d’agir » ; les trilles,
72
autre cliché cinématographique, maintiennent la tension. Saavedro repart, le thème
reprend (2’28) et se termine avec la fermeture de la porte.
La plage 16 correspond à la séquence musicale qui intervient lorsque le joueur délivre
Saavedro du bouclier de brume qui entoure sa forteresse. Saavedro découvre alors avec
stupeur que Narayan est vivant et que peut être les siens sont encore en vie. On retrouve le
thème de Saavedro mais transposé en do mineur. Ce motif est chanté par le chœur puis
repris, suivant le principe de l’imitation, par les cordes.
A partir de 23’’, le sol s’impose à nouveau et le thème module en sol mineur à partir
de 53’’ ; les violons reprennent la mélodie des pizzicati associés à Atrus (1’08) de la
figure 4, suivant le principe de variation :
Figure 7
La transformation des thèmes associés respectivement à Saavedro et Atrus, qui
consiste respectivement en une modulation et une variation, s’inscrit dans une logique
thématique où l’altération des thèmes, unités signifiantes, apporte des précisions et
éléments d’interprétation. La juxtaposition de ces éléments musicaux altérés informe sur
le dénouement de l’intrigue : Saavedro se réjouit de pouvoir retrouver les siens, cependant
il détient toujours le livre Releeshan et la musique le rappelle au joueur.
Plage 17 : Saavedro, bloqué à cause du système d’aiguillage qui ouvre tour à tour le
bouclier intérieur et le bouclier extérieur, vient de donner le livre Releeshan au joueur et le
supplie de le laisser partir pour tenter de retrouver sa famille. On retrouve le thème associé
à Saavedro (15’’) et des éléments du thème d’ouverture, notamment la descente du
chœur ; puis intervient le rythme imposant des percussions associé à Saavedro (1’01) qui
accompagne une série d’arpèges :
73
Figure 8
On reconnaît dans cette série les deux dernières mesures du motif mélodique de la
figure 1, qui mène au thème de Saavedro en ouverture. Il s’agit d’une autre illustration de
ce que la musique peut apporter comme information au-delà du visuel, le thème a ici pour
but de prévenir un danger imminent, qui provient alors de Saavedro ; si en effet le joueur
le délivre sans précaution, Saavedro furieux l’élimine.
Plage 18 : La vengeance de Saavedro a échoué, il a été contraint de rendre Releeshan
au joueur, mais après tant d’années d’emprisonnement à Narayan, il est enfin délivré et
part à la recherche des siens dans l’espoir qu’ils aient survécu. Le thème musical est celui
de Saavedro interprété par une voix féminine chantant dans la langue des D’ni, on
retrouve le principe de l’imitation avec la mélodie chantée reprise par les cordes puis
l’orchestre, le thème de Saavedro se résout sur un do, l’intrigue dramatique prend fin.
4) L’environnement audio dans Myst III : The Exile.
a.
Les outils utilisés.
Pour la série des jeux Journeyman Project, Presto Studio a développé un moteur
spécifique, le Sprint Engine dédié à l’image et au son. Pour Myst III, cette technologie
permet notamment pour la première fois au joueur une vue panoramique complète de
chaque scène, ce qui amène de nouveaux éléments du gameplay, comme les sons localisés
qui incitent le joueur à regarder dans une direction particulière. Le concept du Sprint
Engine pour l’audio consiste en un ensemble de boucles, de mélanges ou de textures
sonores, appelés « stingers », pouvant être déclenché de façon aléatoire67.
Afin d’intégrer les éléments sonores dans Myst III : The Exile, Presto Studio a
collaboré avec les programmeurs du Miles Sound System et du format BINK.
67
Il est impossible d’avoir de plus amples informations techniques concernant ce type de moteur qui
bénéficie d’une clause de confidentialité.
74
Le Miles Sound System (MLS) est une technologie apparue en 1998, créée par John
Miles et Jeff Roberts. Le MLS fonctionne comme une librairie dans laquelle l’utilisateur
écrirait lui-même. Ce système inclut le traitement des échantillons numériques, la lecture
en continu des fichiers numériques, la technologie MIDI DLS et les technologie 3D audio.
Il supporte tous les formats de compression audio : MP3, ADPCM et autres.
Les API audio 3D de Miles Sound Système supportent de nombreuses technologies
audio : Aureal 3D 1et 2, Creative’s EAX 1, 2, 3 et 4, DirectSound, DolbySurround,
système de reproduction sonore à quatre canaux, et QSound’s QMixer, logiciel rapide de
positionnement en trois dimensions de l’audio. Le Miles Sound System comporte 17 filtres
permettant de manipuler l’échantillon pendant sa lecture : un filtre d’émulation de
réverbération EAX, construit à l’intérieur du mixeur du MLS et permettant un meilleur
rendu de la réverbération, un filtre passe-haut, passe-bas, un filtre passe-bande, un filtre de
résonance, un autre de compression, un filtre d’écho mono, stéréo, un filtre de phase, un
filtre d’égalisation paramétrique, un filtre d’égalisation des très basses fréquences, un
filtre de panoramisation automatique, un filtre de modulation d’amplitude et en anneaux,
un chorus, un flanger, un filtre d’interpolateur lagrangien (utilisé pour re-échantillonner la
fréquence d’un échantillon de façon plus nette mais plus lente que le filtre inclus dans le
re-échantillonneur du MLS), et un filtre de capture (filtre qui enregistre le mixage final de
la sortie du système audio numérique du MLS en fichier son).
Comme beaucoup de jeux vidéo, Myst III utilise des CODEC spécifiques, plus
adaptés, permettant d’utiliser ainsi moins de mémoires et de CPU, et qui ne nécessitent
pas de licence. Le format BINK a été conçu exclusivement pour les jeux et est assez
répandu, plus de 2500 jeux l’ont utilisé depuis 1999, année de sa création. Il permet
d’encoder la vidéo selon 16 techniques différentes de compression et possède un CODEC
audio psycho-acoustique capable d’une compression de huit fois sans perte perceptible de
qualité. Il supporte les consoles Sony Playstation 2, Xbox, Nintendo GameCube,
Windows 95, 98, Me, NT, 2000, XP, MacOS et Linux.
75
b. La recherche du réalisme.
Myst III utilise, et s’inspire, de véritables décors naturels, afin de les intégrer dans un
système de représentation qui lui est propre : il propose ainsi un réalisme par révélation.
Les effets sonores sont utilisés pour renforcer la signification de l’environnement en
accord avec le contenu de l’image, c’est-à-dire ce qu’elle véhicule. Il y a ainsi dans Myst
III une continuité logique dans les effets sonores : alors que le joueur se trouve à un
endroit particulier, des sons indigènes persistent, comme par exemple le bruit des vagues
sur l’îles de Amateria, ou les chants des oiseaux et le souffle du vent sur les feuilles de
l’arbre gigantesque d’Edanna.
On peut ainsi distinguer deux types d’animation chacun correspondant à une
coordination entre le visuel et l’audio. D’une part et comme nous l’avons évoqué
précédemment, des animations dites « complètes » qui correspondent à l’environnement
où l’on se trouve avec des sons qui persistent tant que l’on demeure dans cet espace ;
d’autre part, des éléments qui apparaissent lors d’un changement d’image en raison d’une
activation quelconque (par exemple appuyer sur un interrupteur), qui produisent un effet
visuel coordonné et un effet audio spécifique. Cette seconde catégorie de sons a pour
fonction d’accroître la sensation de réalisme ; l’utilisation d’effets spéciaux sert de retour
d’informations pour le joueur : le résultat d’appuyer sur un interrupteur ou d’ouvrir une
porte s’accompagne des sons respectifs « de l’action d’appuyer sur un interrupteur » et de
« l’action d’ouvrir une porte ». Ce langage que crée le jeu est un élément important de
représentation et donc de l’immersion, il reprend l’écoute causale du cinéma, le son hors
contexte n’existe pas, ne se réfère à rien, mais mis en contexte il informe sur ce que l’on
voit. J. Scott, créateur d’effets sonores pour le jeu Myst III, évoque son rôle qui était « de
créer un environnement sonore qui reflète de manière convaincante le monde dans lequel
le joueur est plongé. Cet environnement n’existant pas dans la réalité, il fallait inventer
un son qui traduise avec réalisme l’objet ou l’ambiance ressortant des images »68.
Les sons environnementaux sont aussi un élément du réalisme dans Myst III puisqu’ils
donnent une personnalité ou une entité physique à la source d’émission qui ne dépend en
aucun cas du joueur (le cri du squeez, petit animal, dans le monde de J’nanin et d’Edanna,
par exemple) ; ils ont le plus souvent le rôle de localisation permettant ainsi au joueur de
se repérer.
68
SCOTT Jamey, www.myst3.com.
76
c.
Extraits de sons indigènes et d’activation.
Parlons tout d’abord de l’approche de J. Scott ; elle consiste à dresser une liste de sons
potentiellement significatifs pour un environnement de jeu spécifique ou d’éléments
d’activations. Sa source sonore provient à la base de sons pris dans la nature et d’une
grande variété de sons réels tels des sons de percussions entre divers éléments par
exemple, la prise de sons s’effectuant sur un magnétophone numérique. Une fois qu’il
dispose des éléments nécessaires, ceux-ci sont échantillonnés, divisés en plusieurs groupes
suivant les sons qui peuvent aller ensemble, puis transformés de différentes façons afin
d’obtenir un son unique, qui ne devient ainsi plus réel mais qui doit être le plus réaliste
possible, une approche donc similaire à la création des bruitages et sons ambiants au
cinéma.
Plage 19 : il s’agit d’un extrait des sons indigènes omniprésents pendant l’exploration
de l’île d’Ametaria ; le son des vagues, le souffle du vent et le tonnerre ; suivant que l’on
est sur les passerelles en bois faisant le tour de l’île au-dessus de l’eau, on peut également
entendre de façon aléatoire des bruits de craquements.
A 18’’, un levier actionné fait redescendre la console de commande sur laquelle le
joueur est positionné, le son des vagues devient plus net ; à 50’’ le joueur ouvre une porte,
lorsqu’il rentre à l’intérieur du cabanon, le son des vagues et du vent deviennent plus
faibles ; le travail sur l’amplitude sonore renforce le réalisme : si l’on s’approche de la
source qui émet le son, l’amplitude du son augmente et diminue inversement si un
obstacle isole le joueur de cette source (les murs du cabanon).
Plage 20 : On entend une séquence des sons indigènes du monde d’Edanna ; il s’agit
d’un monde constitué uniquement d’un arbre gigantesque abritant tout un écosystème. On
distingue nettement le son de l’eau et celui du vent, le bruissement des feuilles, divers
craquement de bois, des sons d’insectes et des chants d’oiseaux. A 18’’, on entend un son
d’activation : le fait de marcher sur une plante la fait se déployer permettant au joueur
ainsi surélevé d’atteindre un passage en hauteur. A 31’’ la plante redescend.
Plage 21 : le monde de Voltaic se compose d’un fort en pierres faisant face à une île de
grès. L’énigme consiste à rétablir l’électricité afin que celle-ci parvienne jusqu’à la porte
du fort et qu’il soit possible de l’ouvrir, la source d’alimentation en électricité est
77
hydraulique. Cette plage est un extrait des sons indigènes, une fois que l’on a ouvert le
barrage et que l’on se déplace dans l’ensemble des canalisations du système hydraulique.
Ces sons indigènes apparaissent à la suite de plusieurs sons d’activation (réglages des
pistons permettant à la roue à aubes de tourner, ouverture du barrage laissant l’eau
s’écouler, activation des circuits électriques afin de faire fonctionner l’électroaimant). On
distingue suivant le déplacement du joueur dans l’environnement, le son créé par l’activité
d’un l’électroaimant (17’’), celui de la roue du barrage (55’’), le son de l’eau qui s’écoule
(1’25), le son du choc de l’eau contre des roues hydrauliques ou contre les parois en métal
du système hydraulique.
Plage 22 : le monde d’Ametaria est une île articulée autour d’une pagode centrale et
composée d’un circuit complexe de rails tout autour. Ce circuit de rail possède une voie
principale qui se divise en cinq circuits à partir d’une hutte constituée de cinq anneaux de
résonance. En appuyant sur un levier la plateforme sur laquelle se trouve le joueur
s’élève : l’objectif est de régler correctement les anneaux de résonances suivant le chemin
que doit prendre une boule pour ne pas se briser sous la vibration des anneaux. Les sons
que l’on entend dans cette plage sont les sons indigènes de l’île évoqués précédemment
(souffle du vent et balancement des vagues), le son des anneaux, le son d’un levier qui est
abaissé (43’’) et qui entraîne le déplacement d’une boule sur le circuit de rails, les sons
créés en appuyant sur un interrupteur qui permet de couper la vibration de chaque anneau
(7’’, 10’’, 13’’…) et des sons provenant des mécanismes de la console de commande
(54’’). L’ensemble des sons indigènes et d’activation crée une polyrythmie : la
superposition de plusieurs sonorités, leur organisation temporelle, aboutit à un élément qui
est de l’ordre du musical.
Ce procédé rappelle le principe utilisé dans le film Dancer in the Dark de Lars von
Trier (2000) où chaque séquence musicale est introduite par l’agencement de divers
bruitages et sons appartenant à l’environnement et qui évoluent vers une
musicalité. Selma, incarnée par Björk, est une ouvrière d’une usine rurale d’Amériques
qui voue une véritable passion à la comédie musicale : le fracas des machines de l'usine
s’inscrit dans un imaginaire où les bruits se changent en musique ; ainsi par exemple à 38’
la superposition et la juxtaposition de chaque bruitage des machines activées contribuent à
créer une polyrythmie qui devient le squelette musical d’une chanson.
78
5) La musique aléatoire en cours de jeu.
Comme nous l’avons dit, la musique de récompense correspond au thème de
l’ « Age » que le joueur découvre pendant les premières minutes de son exploration.
Chacun de ces thèmes est une musique d’ambiance destinée à être également écoutée.
L’approche de Jack Wall était de composer une musique qui ait pour fonction « une
cassure ou une respiration dans la signification musicale »69 : lorsque le joueur arrive à
destination, l’objectif principal est qu’il soit attentif à tout ce qui l’entoure.
La musique dans le jeu consiste en des séquences musicales déclenchées de façon
aléatoire, issues du thème de l’ « Age » dans lequel le joueur évolue.
Il faut noter que, contrairement aux thèmes musicaux associés aux personnages mais
aussi contrairement aux sons ambiants et aux bruitages, ces séquences musicales ne sont
pas nécessaires à l’appréhension du lieu et des évènements : le joueur peut lui-même
choisir, dans le menu des options, suivant quelle régularité il souhaite entendre ces
boucles musicales ainsi que leur volume sonore. Ces boucles ont cependant un rôle
géographique fonctionnant par thème lorsqu’elles sont activées, non pas dans un sens
informationnel, mais comme unité musicale à laquelle va correspondre une ambiance
musicale spécifique : le thème de chaque « Age » débute lorsque le joueur commence son
exploration, les séquences provenant de ce thème reviennent de façon aléatoire jusqu’à ce
qu’il quitte cet « Age ».
a.
Approche musicale.
Une fois passée la musique de récompense à l’intérieur d’un nouvel « Age », prend
place une musique d’ambiance. Le problème inhérent à la musique du jeu vidéo est la
répétition, comme nous l’avons vu, à cause de la nature non linéaire du jeu, et donc la
lassitude possible du joueur pour une musique qui ne soit pas adaptée.
La volonté de Jack Wall était d’intégrer de la mélodie mais de façon à ne pas ennuyer
le joueur, Myst III :The Exile étant un jeu d’exploration de difficulté reconnue, le joueur
69
« It's meant to be a break or respite in a musical sense at least » in Jack WALL, Music from Myst III:
The Exile–The Evolution of a Video game Soundtrack, < www.gamasutra.com >, 11 janvier 2002.
79
peut donc évoluer de nombreuses heures dans l’environnement correspondant à un même
« Age ».
Son travail avec Presto Studio a consisté à reprendre leur moteur audio évoqué
précédemment et en une étroite collaboration avec R. Gustafsson, programmeur audio de
cette même entreprise.
L’idée de base de J. Wall70 était de composer et de produire entièrement une pièce
musicale linéaire de deux minutes sans aucune contrainte qui correspondrait au thème de
l’ « Age » et à partir de celui-ci d’ajouter des mélodies, des rythmes, de la texture, des
dynamiques et contrepoints afin de faire varier la musique d’ambiance à laquelle le joueur
était déjà habitué, une fois resté depuis plusieurs minutes dans un même « Age ». Il
enregistra le mixage en stéréo puis fit de multiples enregistrements correspondant à des
passages différents de chacun des éléments constituant le mixage. Il importa ses fichiers
sons sous Pro Tools et les édita séparément.
La collaboration avec R. Gustafsson consista à intégrer ces éléments suivant un
scénario mettant en évidence comment chaque fichier serait joué, le nombre de fois, quel
fichier serait répété en boucle et de quelle façon interviendraient les plages de silences.
b. Procédés de composition et exemples.
Plage 23 : thème d’Amateria (2’10) ; plage 24 : thème d’Edanna ; plage 25 : thème de
Voltaïc.
Il existe des similitudes entre ces trois thèmes : du point de vue de l’instrumentation,
chaque thème est construit sur l’agencement de motifs primaires ; un instrument soliste
impose une mélodie simple, variée par la suite. Il existe en outre une ambiguïté tonale ou
modale : chaque thème est en do, néanmoins on peut parler de l’existence de deux notes
dites polaires, do et sol, autour desquelles la mélodie et l’harmonie sont construites. Le
thème d’Amateria est do majeur, cependant, à partir de 1’, le mode utilisé s’apparente au
mode myxolydien de do ; le thème d’Edanna est en do majeur, mais le lab (13ème
diminuée) change sa couleur ; le thème de Voltaïc est en do mineur harmonique, alors que
la résonance des harmoniques des sons électroniques laisse nettement ressortir un sib
(notamment dans les vingt premières secondes) ce qui lui donne plutôt la couleur du mode
éolien, totalement mineur. Il faut noter qu’il y a peu de résolution de la note sensible pour
70
Jack Wall, op.cit.
80
ces trois thèmes : elle s’inscrit le plus souvent dans un mouvement descendant. Les
percussions sont jouées par des instruments ethniques (tabla et darbouka) et les sons
électroniques occupent le registre grave, la basse étant composée le plus souvent de notes
longuement tenues. Les tempos sont très proches et moyens : pour Amateria, la noire est à
72 environs, pour Edanna à 80 environs et pour Voltaïc à 76 environs. La difficulté
d’établir un tempo pour chaque thème et un rythme précis pour chaque partie musicale
vient du jeu en rubato de l’instrument soliste, de la masse importante d’harmoniques
produites par les sons électroniques et de la tenue très longue de ces sons, ce qui donne un
marquage des temps assez flou, notamment pour Voltaïc, avec des sons qui s’étendent sur
deux à trois mesures.
Le mélange des sonorités ethniques et électroniques inscrit ces thèmes dans une
tendance musicale actuelle, proche de la « World Music » ; le thème d’Edanna en est la
plus flagrante illustration.
Ces thèmes et leurs motifs primaires joués de façon aléatoire forment la musique
ambiante du jeu ; nous l’avons vu ce type de musique n’a pas le rôle d’informer le joueur,
elle est une musique qui doit correspondre à l’environnement de jeu, à l’atmosphère ; sa
signification véritable est d’accompagner l’ambiance du milieu qui entoure le joueur,
créée par le visuel et les sons indigènes.
Nous remarquons, une fois l’étude des sons indigènes et ambiants faite, que les sons
électroniques, le plus souvent longuement tenus, notamment à la basse, présentent pour
ces trois thèmes une sonorité similaire à celle des sons indigènes spécifiques à chaque
« Age ».
Prenons le thème d’Amateria, nous avons précédemment évoqué les anneaux de
résonance dont la bonne configuration est primordiale pour trouver le symbole caché dans
cet « Age ». Ce thème débute jusqu’à la première minute par un son très grave de do dont
la forme d’onde et la résonance évoquent celles des anneaux. Tout au long du thème, le
traitement des sons électroniques se base sur le principe de résonance (réinjection du
signal et amplification de certaines fréquences, du début jusqu’à 1’20 notamment) mais
aussi sur la modulation de fréquence (de 1’24 à 1’30 et de 1’55 à 2’02).
Le monde d’Edanna a la particularité d’abriter tout un écosystème, nous avons pu
constater l’importance de l’amplitude des sons indigènes correspondant aux divers sons
81
émis par des animaux. Les sons électroniques à la sonorité cristalline (filtre rappelant le
fonctionnement du vocoder de phase) omniprésents tout au long du thème reprend la
sonorité spécifique de ces sons indigènes.
Pour le thème de Voltaïc, les sons très graves semblent être traités suivant la
modulation de fréquence par un LFO, ce qui donne cet effet de vibrato lent. Ces nappes
sonores ressemblent au son sourd et grave correspondant aux sons ambiants de la salle des
machines (par exemple le passage de 46’’ à 1’03). Le vibrato mais aussi l’utilisation des
effets de flanger et de phaser rappellent, par le son produit qui semble tourner (oscillation
ou réinjection) ceux émis par les différents mécanismes dont la roue à aubes (les quinze
premières secondes par exemple) ; le souffle du début évoque le son produit par la
circulation de l’air chaud dans les valves.
Il s’avère que les caractéristiques des sons indigènes correspondant à chaque « Age »
sont utilisées auparavant dans une optique musicale à l’intérieur de chaque thème de
récompense ; la partie électronique devient ainsi une présentation musicale des spécificités
environnementales donc sonores de chaque « Age » ; il existe une corrélation entre ces
parties musicales électroniques, réemployées en cours de jeu, et les sons indigènes. Nous
avons constaté précédemment la liberté rythmique des parties instrumentales, un
marquage des temps assez flou, et l’utilisation de motifs mélodiques primaires dont la
construction (tonalités, modes) évite le problème des notes à résolution. Les parties
instrumentales sont harmonisées suivant la basse occupée par les sons électroniques : la
corrélation entre les sons indigènes et les sons électroniques s’étend aux motifs
mélodiques et instrumentaux ; elle permet une adéquation musicale parfaite de la musique
d’ambiance avec les sons présents dans l’environnement de jeu.
Le lien musical logique entre les parties instrumentales, les sons électroniques et les
sons indigènes, auquel s’ajoute l’ensemble des spécificités concernant la construction
musicale de chaque thème de récompense sont les éléments qui vont permettre une
intervention aléatoire des motifs primaires et des parties électroniques, une musique
aléatoire qui sonnera alors toujours juste quelque soit la situation de jeu.
Pour les extraits suivants nous donnerons les motifs primaires pour chaque « Age »,
puis leurs moments d’apparition afin de mettre en évidence le processus aléatoire de leur
déclenchement.
82
Amateria.
Motif A
Motif B
Motif C
Motif D
Sont toujours présents les motifs A, B, C et D du thème, la nappe sonore de do et les
éléments percussifs.
Plage 26 : musique d’ambiance et sons indigènes (son des vagues, tonnerre,
craquement des passerelles, c.f. plage 9). Apparitions des motifs :
A : 17’’ et 1’15.
B : 43’’, 55’ et 1’07.
C : 47’’ et 1’43.
D : 1’05.
83
Plage 27 : même situation de jeu que la plage 22 : polyrythmie avec les résonances
superposées de chaque anneaux. Motifs :
A : 17’’ et 1’22.
B : 26’’, 38’’ et 49’’.
C : 43’’
D : 1’08.
Edanna.
Motif E
Motif F
Motif G
Plage 28 : Le joueur est à J’nanin, il atteint un bâtiment en forme de corne où se trouve
le livre de liaison vers Edanna. Avant même qu’il ne soit téléporté dans ce nouvel Age,
interviennent deux motifs musicaux appartenant au thème d’Edanna, les motifs E et F. La
musique dans le jeu sert ici de lien sémantique entre deux environnements visuels et
sonores totalement différents. De 18’’ à 40’’, il s’agit d’une scène cinématique où le
mouvement en plongée et en travelling de la caméra laisse découvrir au joueur le monde
d’Edanna et le gigantesque arbre qui le constitue.
84
A partir de 41’’ commence le thème d’Edanna. Les sons indigènes correspondent au
souffle du vent qui s’engouffre dans l’arbre, aux chants d’oiseaux et aux divers
craquements de bois. Les passages de 1’02 à 1’16, de 1’52 à 2’06 et de 3’02 à 3’16
correspondent au même son d’activation, une plante en spirale qui se met en mouvement
lorsque le joueur se positionne dessus.
Plage 29 : même situation de jeu que la plage 20. On retrouve la basse électronique et
les trois motifs du thème d’Edanna :
E : 6’’ et 1’01.
F : 36’’, variations de F : 1’10, et 2’22.
G : 1’22.
Voltaïc.
Motif H
Motif I
Motif J
Plage 30 : même situation de jeu que la plage 21. Cette plage assez longue met en
évidence tout le processus aléatoire de déclenchement des motifs primaires. On retrouve
les quatre motifs mélodiques qui constituent le thème musical de Voltaïc :
85
H : 23’’ (chant, mesures 1 et 2), 1’13 (chant, mesures 3 et 4) 2’44 (mesures 1et 2),
3’04 (son transformé, mesures 1 et 2), 3’29 (mesures 3 et 4), 5’30 (mesures 1 et 2) et 6’10
(mesures 3 et 4).
I : 5’’, 37’’, 3’50 et 5’05.
J : 4’07 (variation et troncature) et 4’46 (troncature).
De 1’27 à 2’19, les sons ambiants ont une amplitude très élevée, ce passage
correspond également à une pause musicale.
Plage 31 : le joueur se déplace des valves, non loin de la porte du tunnel qui mène à la
salle des machines, jusqu’à la petite forteresse où il est arrivé sur l’île. Motifs :
H : 12’’ (son transformé, mesures 1 et 2), 31’’ (chant, mesures 1 et 2) et 1’14 (chant,
mesures 3 et 4).
I : 48’’ et 1’53.
A 1’09, on entend les sons indigènes correspondant aux sons des vagues ; à 1’22, le
joueur, en atteignant la forteresse, arrive de l’autre côté des mécanismes du barrage (les
sons sont à gauche), dont la roue à aubes.
86
Conclusion des analyses.
Il apparaît clairement de l’analyse des thèmes que les procédés cinématographiques
concourant à la dramatisation de l’image et des évènements par la musique, sont repris et
insérés dans un cadre interactif, celui du jeu vidéo. Au cinéma, ces procédés sont des
éléments d’appréhension de ce qui est suggéré visuellement, mais aussi un lien temporel
qui peut nous renseigner sur ce qui va se passer ; dans le jeu vidéo, ils permettent de plus
d’orienter le joueur dans ses choix d’action.
Cette analyse des thèmes musicaux montre à quel point le thème d’ouverture est
chargé symboliquement, annonciation d’un drame avec un motif chargé de tension dont
on découvre plus tard qu’il est associé au protagoniste et que l’on retrouve à chacune de
ses interventions ; ce thème d’ouverture pourrait s’apparenter au résumé musical d’une
tragédie amenée à se dévoiler au cours du jeu. Là encore, on retrouve un procédé
cinématographique concernant la façon musicale de présenter un drame que l’on
comprend plus tardivement au cours du film. Par exemple dans Pierrot le Fou de (JeanLuc GODARD, musique d’A. DUHAMEL, 1965). Le générique présente un thème lent et
mineur de quatre accords répétés qui se résolvent imparfaitement sur un cinquième. On
retrouve ce thème sous une forme variée, après que Ferdinand se soit exclamé « c’est
comme dans un mauvais rêve », le thème altéré du générique s’inscrit sur les images d’un
chassé-croisé entre Marianne, Ferdinand et Franck, et prendra fin lorsque Marianne
assomme Franck en lui brisant une bouteille sur la nuque (cas de l’intervention musicale
justifiée par un élément diégétique, confère analyse du thème de la plage 15). La
symbolique musicale apparaît alors évidente, le thème du générique qui portait en lui le
tragique, représente l’assassinat de Franck ; il interviendra à chaque fois, au cours de
l’intrigue, pour symboliser la mort.
L’utilisation des thèmes musicaux inscrits dans une logique thématique (variations
porteuses de significations et qui traduit l’évolution du drame) est une réminiscence de la
logique musicale classique fonctionnant par thème, notamment dans l’opéra. Pour l’opéra
la répétition et la variation d’un thème associé à un personnage sont l’expression musicale
des sentiments qu’il éprouve et des évènements qu’il rencontre : la réitération et
l’altération du thème associé à Saavedro renseignent le joueur sur ce qui va se passer mais
également sur le personnage, ses sentiments et ses intensions, et l’incitent à réagir.
87
Ces thèmes sont déclenchés suivant la progression du joueur donc en rapport avec sa
participation, son action : le jeu vidéo reprend ainsi des procédés de composition de la
musique classique pour les insérer dans un processus d’interactivité.
Du point de vue du choix de l’instrumentation, outre celui de l’orchestre qui comme
nous l’avons vu est de plus en plus fréquent dans ce but de recréer l’univers sonore d’un
film, le choix de tel ou tel instrument reprend certains clichés liés à l’utilisation des
timbres instrumentaux. Ainsi en reprenant quelques observations de Mario Litwin71, des
observations plus symboliques que scientifiques : le violon seul exprime la nostalgie, en
masse une certaine grandiloquence, le violoncelle la tristesse, la clarinette, dans le registre
grave, le mystère, par exemple. On peut ajouter à cela l’utilisation de certaines techniques
de jeu devenues elles aussi des partis pris conscients ou non : les trilles posent une scène,
maintiennent le suspens, les pizzicati véhiculent une certaine légèreté, le jeu en legato,
suivant le contexte, une complainte.
Myst III reprend ainsi une dialectique propre au cinéma : on peut parler d’une
« remédiation » du drame cinématographique. Cependant la différence fondamentale,
c’est que cette « remédiation » aboutit à une fonction qui n’appartient qu’au jeu, celle de
renseigner le joueur pour l’amener à réagir de telle ou telle façon.
Pour les bruitages, on retrouve également des procédés propres au cinéma où ils ont
cette fonction d’accroître le réalisme : les sons indigènes renforcent le réalisme du visuel
et sont un élément d’acceptation de l’endroit où l’on est ; s’y ajoute la même volonté de
rendre réel un objet ou une ambiance qui ressortent des images pour un environnement qui
n’existe pas dans la réalité.
La recherche de l’unité et de la diversité des sons pour un même principe d’activation
(par exemple le fait de baisser un levier), de même que l’émission des sons d’ambiance
contrôlés par des outils audio spécialisés permettant une part d’aléatoire, s’inscrivent dans
une recherche sonore particulière au jeu vidéo : éviter la répétition. La diversité des sons
pour une même action est un élément du réalisme, par le simple fait que dans la réalité il
n’existe pas d’objet identique qui produise exactement le même son.
Les sons indigènes et d’activation, de même que les sons environnementaux qui
peuvent avoir une fonction de localisation, permettent l’immersion du joueur, la musique
71
Mario LITWIN, le Film et sa Musique : Création - Montage, Romillat, 1992.
88
dite « dans le jeu » devenant secondaire : les sons posent eux même l’ambiance sonore en
adéquation avec l’image.
Le souci d’éviter la répétition se retrouve au niveau des séquences musicales,
déclenchées de façon aléatoire en cours de jeu, permettant ainsi de contourner le
problème : la musique dans le jeu n’est, de plus, pas obligatoire. L’analyse des thèmes de
récompense (de chaque « Age ») a mis en évidence une écriture musicale souple et
composée de telle sorte qu’il y ait une corrélation entre la partie instrumentale, les sons
électroniques et les sons indigènes. Chaque élément sonore s’incère dans un « ton »
musical spécifique à chaque « Age », ce qui permet le déclenchement aléatoire des sons
indigènes, électroniques et instrumentaux ; c’est cette corrélation qui assure aussi l’unité
musicale (l’ambiance musicale) pour un même « Age ». La collaboration avec le
programmeur audio permet au compositeur d’établir un scénario musical de ce qui lui
paraît juste, de retranscrire, malgré la part d’aléatoire, sa vision musicale (notamment les
plages de silences, comme le cas particulier de la plage 30, passage 1’27 à 2’19, où la
présence de musique aurait pour conséquence une confusion sonore en raison de la forte
amplitude des sons ambiants).
89
Conclusion.
L’interactivité sonore et musicale dans le jeu vidéo consiste en une relation causale et
bidirectionnelle entre le déclenchement d’éléments sonores spécifiques et une action
particulière du joueur ; son degré dépend de la nature du gameplay, qui est elle-même liée
au type de jeu.
La capacité de représentation du jeu vidéo consiste en la délimitation d’un ensemble
d’éléments qui produisent, communiquent, et codifient un ensemble de significations pour
le joueur par rapport à un domaine de référence établi par l’intrigue ; elle correspond ainsi
à la construction d’un cadre correct par rapport à la proposition de départ pour que se
produise l’expérience.
L’interactivité entre l’utilisateur et le média visuel réside dans un retour constant entre
l’esprit et ce qui est vu ; le média sonore participe à ce processus d’interactivité et
fonctionne comme une mise en contexte de l’environnement réaliste proposé par le jeu :
les sons et la musique contribuent aux impressions du joueur pour le lieu représenté.
L’interactivité du son et de la musique permet de communiquer la nature d’une situation
autrement que par le visuel.
Les évènements qui prennent place visuellement et leur enchaînement dans le temps
dépendent des actions imprévisibles du joueur. Le son et la musique en interagissant avec
ce dernier assurent la cohérence sonore et musicale avec les changements visuels que le
joueur provoque.
De plus l’interactivité du média sonore permet d’informer le joueur non seulement sur
ce qui se passe mais aussi sur ce qui va se passer, l’incitant ainsi à réagir ; l’interactivité
sonore apporte ainsi au jeu une dimension qui ne peut exister sans elle en communiquant
au joueur ce qui ne peut l’être par le visuel.
Concernant l’approche de la composition du son et de la musique, il apparaît que le
véritable problème est la répétition, inhérente à la nature du jeu puisque sa durée n’est pas
fixée : l’écriture d’un « scénario musical » est une approche intéressante dans le fait
qu’elle permet de considérer suivant les évènements du gameplay la pertinence ou non
d’une intervention musicale et sonore, et de prévoir ainsi des plages de silence.
Les outils audio qui permettent le déclenchement aléatoire d’éléments musicaux,
auquel s’ajoute une approche particulière au niveau de la composition, sont des éléments
90
de réponse. Ainsi l’analyse des thèmes de récompense du jeu Myst III : The Exile a mis en
évidence une écriture musicale souple et composée de telle sorte qu’il y ait une corrélation
entre la partie instrumentale, les sons électroniques et les sons indigènes. Chaque élément
sonore s’incère dans un « ton » musical spécifique à chaque « Age », ce qui permet le
déclenchement aléatoire des sons indigènes, électroniques et instrumentaux ; c’est cette
corrélation qui assure également l’unité musicale pour un même « Age ».
Cependant il nous apparaît qu’une musique adaptative qui serait le résultat d’une
analyse du comportement du joueur pendant l’expérience et pour des phases de jeu où
aucun évènement particulier n’interviendrait, viendrait suppléer une musique ambiante qui
deviendrait redondante ; elle s’inscrirait en effet dans une évolution musicale naturelle
tout en renforçant l’acceptation du joueur pour ce qui lui est proposé, puisque la musique
serait la traduction musicale des sentiments qu’il ressent.
L’avancée des technologies, à savoir l’apparition de la spécification DLS pour le
MIDI et de CODEC plus adaptés pour le jeu vidéo, l’amélioration des techniques de
compression, et la création d’outils spécialisés pour l’audio, donnent la possibilité de créer
une partition musicale de qualité audio instrumentale voire orchestrale et qui soit
interactive. Cependant cette recherche est en partie dictée suivant des critères plus ou
moins imposés qui rentrent dans des considérations d’ordre commercial, ce qui implique
une certaine uniformisation des procédés musicaux.
La « remédiation » est une forme d’hybridation qu’opère le jeu vidéo sur le cinéma,
afin de s’approprier ses techniques de représentation : elle permet l’effet d’immédiateté en
faisant référence aux connaissances de l’utilisateur et accroît ainsi la sensation
d’immersion pour le joueur. Cependant ce procédé s’inscrit également dans une logique
artistique dictée par certains critères commerciaux ; en effet la « remédiation » tend vers
une acceptation plus facile pour le joueur de ce qui lui est proposé, ce qui implique parfois
une uniformisation dans les procédés de représentation où le jeu tend à reprendre
intégralement l’univers d’un film à grand succès, c'est-à-dire son système entier de
représentation (nous pouvons donner l’exemple de la multitude de jeux qui reprennent
l’univers du Seigneur des Anneaux de façon réaliste par rapport aux films).
L’intérêt de la « remédiation » se situe dans le fait que le jeu vidéo va s’inspirer en
général d’autres médias, dont le cinéma, pour ensuite « construire un monde » qui lui est
propre : la conséquence du point de vue sonore doit être nécessairement la même si l’on
91
veut que la musique d’un jeu soit acceptée par le joueur (par habitude) mais en même
temps qu’elle remplisse son rôle dans le système de représentation spécifique utilisé par le
jeu. Or il est un constat que la musique du jeu vidéo tend à reprendre par « remédiation »
les procédés cinématographiques afin de renforcer l’affect suggéré visuellement par une
qualité sonore (utilisation de l’orchestre) et de composition accrues, mais souvent au
détriment de l’interactivité, et de la spécificité musicale qu’elle doit présenter en
adéquation avec le système de représentation spécifique utilisé par le jeu vidéo.
Les analyses du thème d’ouverture et des thèmes associés à Saavedro pour le jeu Myst
III : the Exile a permis de mettre en évidence en quoi les diverses inspirations du jeu vidéo
pour d’autres médias, et la recherche pour le son et la musique peuvent conduire à une
approche sonore et musicale inédite, tout en se conformant aux critères d’interactivité et
de qualité musicales imposés par l’industrie du jeu. En utilisant une structure musicale
fonctionnant suivant une logique thématique, la réitération et l’altération du thème
deviennent des éléments d’informations pour le joueur sur ce qui va se passer mais
également sur les personnages, ses sentiments et ses intensions, et vont ainsi l’inciter à
agir ; bien que la musique orchestrale n’intervienne qu’à des phases de jeu où le joueur
n’a aucune action, elle s’inscrit ainsi dans un cadre interactif. Elle reprend de plus une
dialectique propre à la musique de film, se référant ainsi à une culture inconsciente
acquise par le joueur et qui vont l’aider dans l’interprétation des symboles utilisés par le
média sonore.
92
Bibliographie.
LIVRES.
BOLTER Jay David & Richard GRUSIN, Remediation : Understanding New Media, MIT
Press, Massachusetts,1999.
FREEMAN David, Creating Emotion in Games, The Craft and Art of Emotioneering New
Riders Publishing, Indianapolis, 2004.
GOODMAN Nelson, l’Art en Théorie et en Action, Editions de l’Eclat, Paris, 1996 (Of
Mind and Other Matters, Harvard Univ. Press, Cambridge Mass. 1984).
GOODMAN Nelson, Manières de Faire des Mondes, 1992, Editions Jacqueline
Chambon,
Nîmes
(Ways
of
Worldmaking,
Hackette
Publishing
Company,
Indianapolis/Cambridge 1978).
GOODMAN Nelson & Z. Catherine ELGIN, Reconceptions en Philosophie, Presse
Universitaire de France, Paris, 1994 (Reconceptions in Philosophy and Other Arts and
Sciences, Hackett Publishing Company, Indianapolis/Cambridge, 1988).
HUGLO Pierre André, Le Vocabulaire de Goodman, Ellipses Edition Maketing S.A.,
Paris, 2002.
IUPPA Nicholas Interactive Design for New Media and the Web, Focal Press, Boston,
2001.
KING Geoff & Tanya KRZYWINSKA, Screen Play: Cinema/Videogames/Interfaces,
Wallflower Press, Londres, 2002.
LITWIN Mario, le Film et sa Musique : Création - Montage, Romillat, 1992.
MORIZOT Jacques, La Philosophie de l’Art de Nelson Goodman, Editions Jacqueline
Chambon, Nîmes, 1996.
ROADS Curtis, L’audionumérique, Dunod, Paris, 1998 (The Computer Music Tutorial,
MIT Press, 1996)
SANGER George Alistair, The Fat Man on Game Audio: Tasty Morsels of Sonic
Goodness, New Riders Publishing, Indianapolis, 2004
WINKLER, Todd, Composing Interactive Music, Techniques and ideas using Max,
Cambridge (Massachusetts), MIT Press, Londres, 1998.
WOLF Mark J.P, The medium of the video game, Mark JP Wolf Publisher: University of
93
Texas Press, 2001.
WOLF Mark J.P & PERRON Bernard, The Video Game Theory Reader, Routledge, 2003.
ARTICLES.
ESCAL Françoise, Variations sur le Thème, Revue de Communications n°47 de
L’EHESS, Seuil, 1988.
FISCHETTI Antonio, Interaction image/son dans les conceptions du montage,
CinémAction n°72, Corlet Telerama, 1994.
LANG A., GEIGER S., STRICKWERDA M., & SUMNER J., The effects of related and
unrelated cuts on viewers' memory for television: A limited capacity theory of television
viewing, Communication Research, volume 20, 1993.
RESSOURCES INTERNET.
BOYD Andrew, When Worlds Collide: Sound and Music in Film and Games, 4 février
2003. Disponible sur : http://www.gamasutra.com/features/20030204/boyd_01.shtml
(Page consultée le 12/04/2004).
BRUSA BASQUE Simona, Technology for building illusions, 2003.
Disponible sur : http://people.interaction-ivrea.it/s.brusa/pdf/TechnologyforBuilding.pdf
(Page consultée le 25/08/2004).
CHANCE Thomas, Riffing on Tolkien: The Conceptualization, Production, and
Dissemination of Music in the Lord of the Rings, 12 novembre 2003. Disponible sur :
http://www.gamasutra.com/features/20031112/thomas_01shtml
(Page consultée le 19/04/2004).
ESKELINEN Markku, « The Gaming Situation », GameStudies, volume 1, issue 1, juillet
2001. Disponible sur : http://www.gamestudies.org/0101/eskelinen/
(Page consultée le 20/03/2004).
GAULTIER Pierre, Le jeu vidéo, une culture influente et sous influence, in dossier Jeu
vidéo et Cinéma, mars 2001. Disponible sur : http://polygonweb.online.fr/
(Page consultée le 13/11/2003).
HARLAND Kurt, Composing for Interactive Music, 17 février, 2000. Disponible sur :
http://www.gamasutra.com/features/20000217/harland_01.htm
(Page consultée le 07/01/2004).
94
KOOPS Kim, Interactive Spatial Audio Composition Technology and EAX 4.0 API
Demonstrated At Game Developers Conference. Disponible sur :
http://www.gamespydaily.com/news/pressrelease.asp?id=1935
(Page consultée le 23/05/2004).
LINDBORG PerMagnus, Le dialogue musicien - machine : Aspects des systèmes
d'interactivité musicale, Mémoire de DEA de musique et musicologie du XXe siècle,
Université de Paris IV Sorbonne 2003. Disponible sur :
www.notam02.no/~perli/pm/writings/DEA/Lindborg-DEA.htm
(Page consultée le 14/08/2004).
LORET Christian, L’interactivité et la générativité du point de vue sonore, 1er octobre
2002. Disponible sur : www.jm.u-psud.fr/~adis/rubriques/p/jdoctic/loret.pdf
(Page consultée le 07/01/2004).
McGANN Neal, « Watching Games and Playing Movies : the Influence of Cinema on
Computer Games », septembre 2003. Disponible sur :
http://www.gamasutra.com/education/theses/20040515/mcgann_01.shtml
(Page consultée le 23/05/2004).
MILLER Mark, Producing Interactive Audio: Thoughts, Tools, and Techniques, 15
octobre 1997. Disponible sur :
http://www.gamasutra.com/features/sound_and_music/111497/interaudio1.htm
(Page consultée le 07/01/2004).
MORTENSEN Torill, « Playing with Players: Potential methodologies for MUDs »,
volume 2, issue 1, juillet 2002. Disponible sur :
http://www.gamestudies.org/0102/mortensen/ (Page consultée le 20/03/2004).
NICOLAS François, « Qu’est ce qu’une logique musicale ? », Conférence à l’IRCAM,
forum Diderot, 3 décembre 1999. Disponible sur :
www.entretemps.asso.fr/Nicolas/TextesNic/Diderot/LogiqueDiderot.html (Page consultée
le 15/06/2004)
PIDKAMENY Eric, Levels of sound, 15 mai 2002. Disponible sur :
www.vgmusic.com/information/vgpaper2.html (Page consulté le 15/11/2003)
ROSS Rob, « Interactive Music…er Audio », 15 mai 2001. Disponible sur :
http://www.gamasutra.com/resource_guide/20010515/ross_01.htm
(Page consultée 02/03/2004).
STARR Bob, WHITE Tom, BILLIAS Athan et al., MIDI Manufacturers Association.
Disponible sur : www.midi.org (Page consultée le 15/02/2004).
95
WALL Jack, Music from Myst III: The Exile–The Evolution of a Video game Soundtrack,
11 janvier 2002. Disponible sur :
http://www.gamasutra.com/features/20020110/wall_01.htm
(Page consultée le 15/11/2003).
WALL Jack, Using a Live Orchestra in Game Soundtracks, 20 mai 2002.
Disponible sur : http://www.gamasutra.com/resource_guide/20020520/wall_01.htm
(Page consultée le 08/05/2004).
WHITMORE Guy, Design with Music in Mind: A guide to Adaptive Audio for Game
Designers, 29 mai 2003. Disponible sur :
http://www.gamasutra.com/resource_guide/20030528/whitmore_01.shtml
(Page consultée le 14/12/2003).
AUTRES SITES INTERNET.
Farlex, Online Dictionary, Encyclopedia and thesaurus. Site disponible sur :
www.thefreedictionary.com (Page consultée le 20/09/2004)
Firelight Technologies. Site disponible sur: www.fmod.org/ (Page consultée le
24/02/2004).
RAD Game Tools, Inc. Site disponible sur : http://www.radgametools.com
(Page consultée le 17/05/2004).
Xiph.org's Foundation. Site disponible sur : www.vorbis.com
24/02/2004).
96
(Page consultée le
Liste des jeux vidéo utilisés.
Beyond Good and Evil, Ubi Soft, 2003.
The Black Mirror, Micro Application, 2003.
Blood 2: The Chosen, Monolith Productions, GT Interactive, 1999.
Blood Omen 2, Crystal Dynamics, Eidos Interactive, 2002.
Blood Wake, Stormfront Studios, Microsoft, 2002.
Counter Strike : Condition Zero, Ritual, Sierra Entertainment, 2002.
Deus Ex, Ion Storm, Eidos Interactive, 2001
Deus Ex: Invisible War, Ion Storm, Eidos Interactive, 2004.
Diablo 2, Blizzard Entertainment, 2000.
Doom 3, id Software Genre, Activation, 2004.
Fellowship of the Ring, Surreal Software, Vivendi Universal Game, 2002.
Freedom Fighters, Io Interactive, Electronic Arts, 2003.
Grand Theft auto Vice City, Rockstar, Take Two Interactive, 2002.
Half Life, Valve Software, Sierra Entertainment, 2000.
Harry Potters and the Chamber of Secrets, EA GAMES, Electronic Arts, 2002.
Heroes of Might and Magic III, New World Computing, 3DO, 1999.
Hitman 2: The Silent Assassin, Io Interactive, Eidos Interactive, 2002.
The hobbit, Inevitable Entertainment, Vivendi Universal Game, 2003.
Lock On Modern Air Combat, SSI, Ubi Soft, 2004.
The lord of the Rings: Middle-Earth Online, Turbine, Vivendi Universal Game, sortie en
2005.
The Lord of the Rings: The Return of the King, Electronic Arts, 2003.
The lord of the Rings: War of the Ring, Liquid Entertainment, Vivendi universal game,
2003.
The lord of the Rings: Treason of Isengard, Surreal Software, Vivendi Universal Game
(annulé).
Moonwalker, SEGA, 1989.
Morrowind: the Elder Scrolls 3 Bethesda Softworks, Ubi Soft, 2002.
Myst, Cyan World, Ubi Soft, 1994.
Myst III: the Exile, Presto Studios, Ubisoft, 2001.
Need for Speed 3, Electronic Arts, 2001.
97
No One Lives forever 2, Monolith Productions, Sierra, 2002.
Pacman, Namco, 1980.
Planetfall, Activation, 1996.
Pong, Atari, 1972.
Rez, United Game Artists, Sega, 2000.
Riven, Cyan World, Ubi Soft, 1999.
Soul Reaver 2, Crystal Dynamics, Eidos Interactive, 2001.
Space Invaders, Atari, 1978.
Star Wars: Rogue Leader, Factor 5, LucasArts Entertainment, 2002.
Supreme Snowboarding, Housemarque, Infogrames, 1999.
Thief, Dark Project 2: The Metal Age, Looking Glass, Eidos Interactive, 2000.
Tomb Raider: The Angel of Darkness, Core Design, Eidos Interactive, 2003.
Total Immersion Racing, Razorworks, Empire Interactive, 2002.
Unreal tournament, Epic GAME, Atari, 1999.
Warcraft 2, Cyberlore Studios, Blizzard Entairtainment, 1996.
Winning Eleven 6, Konami, 2002.
Wipeout XL, Psygnosis, 1996.
Zelda 64, Nintendo, 1998.
Zork Grand Inquisitor, Activation, 1996.
98
Liste des extraits musicaux.
Exemples d'instrumentation.
Plage 1
Plage 2
Plage 3
Plage 4
Plage 5
Plage 6
Plage 7
: « The Unseen Attack », Tomb Raider : The Angel of Darkness (2003). Issu du
jeu. Musique : P. Connelly.
: « Cairo », Deus Ex : Invisible War (2004). Issu du jeu. Musique : A. Brandon.
: « Main Title », Freedom Figthers (2002), in « Freedom Fighters Original
Soundtrack », publiée par Nano Studio NYC, 2003. Musique : J.Kyd.
: « Morrowind Title » Morrowind The Elder Scrolls III. Issu du jeu. Musique :
J. Soule.
: « LAVA », Heroes of Might and Magic III (1999). Issu du jeu. Musique : P.
Romero, R. King et S. Baca.
: « Hitman 2 : The Silent Assassin » (2002), in « Hitman 2 Original
Soundtrack », publiée par Eidos Interactive, 2002. Musique : J. Kyd.
: « Main Theme », Deus ex : The Invisible War (2004). Issu du jeu. Musique :
Kidney Thieves.
Extraits du « guide de style musical ».
Extraits disponibles sur < www.gamasutra.com>. Musique : T. Chance.
Plage 8 : « Elves2 LOTRs 2 GameVersions », Middle-Earth Online et War of the Ring.
Plage 9 : « Song of the Dwarves »,
Plage 10 : « Hobbits 3 Versions », The Hobbit, Treason of Isengard et Middle-Earth
Online.
Analyses sonores et musicales du jeu Myst III : The Exile.
Extraits (plages 11 à 18 et 23 à 25) in « Myst III : the Soundtrack », publié par Ubisoft,
2001. Musique : J. Wall.
Thème d'ouverture, thèmes et séquences musicales attribués aux personnages d'Atrus et
de Saavedro.
Plage 11
Plage 12
Plage 13
Plage 14
Plage 15
Plage 16
Plage 17
Plage 18
: « Opening Titles ».
: « Atrus' Study ».
: « Saavedro Enters ».
: « Saavedro Theme ».
: « The Confrontation ».
: « He Sees Hope ».
: « The Tide Has Turned ».
: « Going Home ».
99
Exemples de sons indigènes et d'activation pour chaque « Age ».
Plage 19
Plage 20
Plage 21
Plage 22
: extrait des sons indigènes et d'activation pour Amateria.
: extrait des sons indigènes et d'activation pour Edanna.
: extrait des sons indigènes pour Voltaic.
: extrait des sons indigènes et d'activation pour Amateria.
Thèmes associés à chaque « Age ».
Plage 23 : « Theme from Amateria ».
Plage 24 : « Theme from Edanna ».
Plage 25 : « Theme from Voltaic ».
La musique d'ambiance dans le jeu.
Plage 26
Plage 27
Plage 28
Plage 29
Plage 30
Plage 31
: Amateria. Musique d’ambiance et sons indigènes.
: Amateria. Même situation de jeu que la plage 22 avec la musique d'ambiance.
: Arrivée à Edanna.
: Edanna. Même situation de jeu que la plage 20 avec la musique d'ambiance.
: Voltaic. Même situation de jeu que la plage 21 avec la musique d'ambiance.
: Voltaic. Musique d’ambiance et sons indigènes.
100
Annexe : programme sur le concept de
l’adaptabilité musicale.
Environnement Max/MSP.
1) Utilisation du programme.
o Ouvrir le patch « PATCH-PRINCIPAL ».
o Appuyer sur la barre d’espace pour lancer le programme.
o Faire glisser le curseur dans la zone du pictslider (le programme prend en
compte le déplacement du curseur, si l’on clique dans l’interface plutôt que de faire glisser
le curseur, alors le programme ne prend pas en compte le passage d’un état à un autre).
o Il n’y a pas de réinitialisation, si l’on veut recommencer depuis le début il faut
fermer puis rouvrir le programme.
o Tous les fichiers sons se chargent à l’ouverture du programme.
2) Notre objectif de départ.
Le programme a été réalisé sous environnement Max/MSP (version 4.0.5, système
d’exploitation Mac OS 9.2) ; l’objectif de départ était de programmer une musique qui
évoluerait suivant le déplacement du joueur dans un environnement de jeu. Nous avons
pris une interface assez simple, le pictslider, pour représenter cet environnement, le joueur
étant symbolisé par le curseur. Le choix d’une interface plus adaptée a posé un problème
qu’il était plutôt difficile à résoudre sans se lancer de façon approfondie dans la
programmation de celle-ci, ou sans utiliser des outils que nous maîtrisions peu ; nous
avons ainsi préféré nous concentrer sur nos objectifs, avant tout, musicaux dans le cadre
de cette annexe. L’inconvénient du pictslider est qu’il nous permet de voir directement le
début et la fin de l’environnement ; il faut imaginer notre programme dans un cadre qui
pourrait s’appliquer aux conditions d’un jeu vidéo où le joueur explore un environnement
inconnu afin de découvrir un endroit spécifique. Notre but était d’étudier la façon de
101
programmer une musique évolutive qui renseignerait le joueur sur sa progression vers
l’objectif à atteindre tout en le prévenant du danger qu’il encourt : le thème de fin
symbolise une tension qui arrive à son comble plutôt qu’une détente musicale qui
symboliserait la réussite du joueur.
Nous avons alors fait le choix d’utiliser un ensemble de boucles évoluant suivant le
déplacement du joueur, chaque boucle comprenant trois niveaux d’intensité musicale qui
correspondrait chacun à une localisation plus ou moins éloignée de l’objectif à atteindre.
Nous avons tenté de programmer dans le même temps ces boucles de façon que pour une
même localisation il y ait toutefois des variations musicales afin d’éviter la répétition.
3) L’architecture du programme.
Le programme se présente sous la forme d’un patch principal « PATCHPRINCIPAL » et de deux patches secondaires « Prgr-BOUCLE1 » et « Prgr-BOUCLE2 ».
a. Le programme « PATCH-PRINCIPAL »
Le programme « PATCH-PRINCIPAL » comporte le pictslider, deux sous patches de
contrôle « valeurY » et « valeurY2 » qui prennent en compte le déplacement vertical du
curseur, un DAC principal auquel sont reliées les sorties audio des patches secondaires et
deux sfplay~ dans lesquels sont chargés automatiquement et respectivement à l’ouverture
du programme, le fichier « transitionboucle1etboucle2 » qui correspond à une transition
musicale et un autre, « finboucle », qui correspond au thème de fin. Ces deux séquences
musicales ont été composées avec un synthétiseur Yamaha Motif.
Les sous patches de contrôle contiennent chacun quatre compteurs qui fonctionnent
suivant le déplacement du curseur dans l’interface et pour un ensemble de condition de
valeurs des « y ». Suivant ces valeurs, un compteur peut envoyer plusieurs informations
prises en compte dans les patches secondaires : les sous patches « valeurY » et
« valeurY2 » envoient les informations respectivement aux patches « Prgr-BOUCLE1 » et
« Prgr-BOUCLE2 ».
102
b. « Prgr-BOUCLE1 ».
Le patch « Prgr-BOUCLE1 » est actif pour des valeurs de « y » comprises entre 1 et
70. Pour ce programme nous voulions explorer les possibilités de créations sonores qui
seraient acceptables dans le cadre du jeu vidéo (ce qui implique de composer avec un
certain rapport d’harmonicité entre les différents sons) en utilisant qu’un seul fichier audio
très court de 0,01 seconde (512blp) et en générant le reste des sons par les procédés de
réinjection et de modulation de fréquence, et par synthèse additive (sous patch
« partielstransitions »).
L’objet comb~ utilise un ensemble de procédés de filtrage qui s’appliquent lors de la
réinjection du signal. Le fichier 512blp est stocké dans le buffer~ ondes ; l’oscillateur
cycle~ ondes utilise l’onde 512blp pour générer du son ensuite transformé par l’objet
comb~. Les paramètres qui s’appliquent aux objets comb~ et à l’objet sig~ sont stockés
dans un preset et chaque ensemble de paramètres est déclenché suivant un ensemble de
compteurs qui prennent en entrée les informations envoyées par les compteurs du sous
patch « valeurY ». L’objet pan2S~ couplé avec un oscillateur permet d’automatiser la
panoramisation des sons générés.
c. « Prgr-BOUCLE2 ».
Le patch « Prgr-BOUCLE2 » est actif pour des valeurs de « y » allant de 71 à 127. Ce
programme consiste en la transformation de trois fichiers sons ; les procédés de
transformations sont simples, il s’agit de faire varier la vitesse de lecture des fichiers sons
par l’objet groove~ ou d’agir sur leur durée avec l’objet zigzag~ dans le sous patch
« trsf2 ».
Le programme « Prgr-BOUCLE2 » est enclenché dès que la valeur des « y » dépasse
71. Dans ce cas l’objet script connecte la sortie du sfplay~ dans le « PATCHPRINCIPAL » au message « init2 » qui lance la lecture des fichiers son stockés
respectivement dans l’objet groove~ et zigzag~ ; ensuite le programme fonctionne à partir
d’un ensemble de compteurs déclenchés dans le sous patch « trsf2 » suivant les
informations envoyées par le sous patch « valeurY2 » du « PATCH-PRINCIPAL ».
Les programmes « Prgr-BOUCLE1 » et « Prgr-BOUCLE2 » s’inscrivent dans la
même optique de générer du sonore et du musical en utilisant le moins possible des
103
fichiers audio : pour le premier cela se traduit en synthétisant le son, pour le second en
réutilisant de manières différentes un même son pour lui donner une toute autre couleur, la
continuité musicale étant assurée par le fait qu’il y ait toujours un élément qui reste
« statique » pendant que les autres évoluent.
La raison était de pouvoir passer d’un état musical à un autre d’une manière évolutive,
mais surtout d’explorer les possibilités de création.
4) Les difficultés rencontrées.
Les deux difficultés principales étaient de pouvoir revenir en arrière tout en
maintenant une cohérence musicale et d’éviter la répétition des procédés de génération
sonore.
Il nous a semblé important de considérer le fait qu’une fois la tension musicale
installée, même pour un degré faible, il n’y ait pas de sens de revenir à l’ambiance sonore
du début de l’exploration : l’objectif est d’atteindre un endroit précis et l’environnement
sonore et musicale le rappelle au joueur. Ainsi lorsque l’on évolue avec le curseur pour
des valeurs de « y » comprises entre 0 et 70, l’objet script déconnecte progressivement les
compteurs du sous patch « valeurY » ; si une fois arrivé à la valeur 70 on décide de
revenir en arrière alors le « Prgr-BOUCLE1 » se réinitialise à la troisième étape de tension
musicale de la boucle 1 ; lorsque la valeur 71 est dépassée, une fois la lecture terminée du
fichier « transitionboucle1etboucle2 », le programme « Prgr-BOUCLE2 » prend le relais ;
si l’on revient alors en arrière, l’ambiance musicale générée par le second programme
persiste incitant le joueur à continuer sa progression.
Eviter la répétition fut une tache plus difficile. Pour « Prgr-BOUCLE1 », la nappe
sonore créée par l’objet cycle~ onde évolue d’une façon constante grâce aux réinjections
et à l’application des filtres dans le temps. Pour le « Prgr-BOUCLE2 », si l’on reste dans
la zone correspondant au deuxième niveau d’intensité (valeur de y comprise entre 90 et
100), un deuxième compteur agissant sur les paramètres de l’objet groove~ s’active, de
même de nouveaux paramètres sont appliqués à l’objet zigzag~. Pour chaque niveau
d’intensité, nous avons prévu une variation des sons, du début d’un niveau d’intensité à sa
fin : par exemple dans le patch « Prgr-BOUCLE1 », lorsque 40<= y <= 60 (3ème niveau
d’intensité) ; le compteur 3 prend des valeurs de 13 à 17 et pour les valeurs 14, 16 et 17
sont envoyés respectivement les bang « bang14 », « bang15 » et « bang3 » à partir du sous
104
patch « pdonnées » ; ces bangs vont sélectionner à chaque fois différents paramètres
stockés dans le preset du sous patch « partielstransitions », pour générer un ensemble de
sons suivant le principe de la synthèse additive.
Cependant l’utilisation des boucles imposait que l’on applique un ensemble de
conditions supplémentaires afin de déclencher d’autres sons pour le retour à un même état.
Ce ne fut pas possible de le faire à chaque fois en raison du nombre trop important de
conditions et d’informations à envoyer car cela entraînait certaines difficultés pour se
repérer dans le processus de programmation, mais aussi au niveau du DSP.
5) Les procédés d’intensification musicale.
Suivant notre objectif de départ, les programmes secondaires « Prgr-BOUCLE1 » et
« Prgr-BOUCLE2 » utilisent chacun des procédés différents pour exprimer une tension
grandissante suivant que l’on se rapproche du lieu à atteindre.
Pour le programme « Prgr-BOUCLE1 », la tension naît par la modulation qui
intervient lorsqu’on accède au deuxième niveau d’intensité, puis en l’enrichissement
progressif de la masse sonore par synthèse additive. Lorsque l’on arrive à l’état
transitionnel entre les deux programmes (transition 61<= y <=70) les sons de la première
boucle se mélangent avec ceux du fichier « transitionboucle1etboucle2 » ; la lecture de ce
fichier commence en même temps que le bruit blanc, caractéristique du programme
« Prgr-BOUCLE2 », apparaît. L’ensemble permet la continuité musicale entre les sons
déclenchés par le programme « Prgr-BOUCLE1 » et ceux déclenchés par « PrgrBOUCLE2 ».
Pour le programme « Prgr-BOUCLE2 », la tension s’exprime par les changements de
registre des différents sons et des paramètres de filtrages qui s’appliquent sur eux et l’effet
d’écho. Lorsque l’on arrive au deuxième niveau d’intensité, le son grave et longuement
tenu se transforme en un son aigu et filtré
tandis que s’appliquent de nouveaux
paramètres sur le bruit blanc accentuant son mouvement. A partir du troisième niveau
d’intensité interviennent un son percussif, grave et sourd, et un son électronique auquel
s’appliquent les paramètres du son introductif transformé par l’objet zigzag~ ; puis
intervient le thème de fin dont les sons électroniques reprennent le mouvement du bruit
105
blanc et les « timbales » qui martèlent les temps. La persistance du bruit blanc permet la
continuité sonore entre chaque état d’intensité de la boucle.
Voir ci-après le schéma des procédés d’intensification musicale.
6) Conclusions.
Nous avons tenté de faire en sorte que le phénomène de répétition soit moins marqué ;
cependant la logique de programmation que nous avions adoptée a fait qu’il était difficile
de l’éviter plus sans alourdir le programme. Le procédé de boucles évolutives nous
semblait pourtant le meilleur moyen d’assurer une évolution musicale naturelle entre le
passage d’un degré d’intensité à un autre. Le temps de transitions entre les états nous
semble relativement convenable si on le considère appliqué au domaine du jeu vidéo où il
faudrait évidemment plus de temps pour passer d’un endroit à un autre de
l’environnement. Le pictslider impose deux contraintes d’utilisation de faire glisser le
curseur et de ne pas le faire trop rapidement.
Il s’avère que nous aurions pu gagner en souplesse de programmation en utilisant des
matrices plutôt que d’utiliser des compteurs pour envoyer de trop nombreuses
informations qui nous ont posées certaines difficultés lors de la réalisation.
Nous considérons ce programme comme un essai, cependant nous pensons que la
synthèse sonore est un procédé de composition à explorer davantage dans le cadre du jeu
vidéo ; elle donne la possibilité d’évoluer de façon plus naturelle avec le jeu que des
déclenchements automatisés de fichiers son ; l’adaptabilité musicale permet de suivre au
plus près les déplacements du joueur et de le renseigner de manière plus continue que ne
peut le faire une musique scénarisée fonctionnant par thèmes : nous pensons ainsi que
l’adaptabilité musicale pourrait enrichir l’interactivité musicale dans le domaine du jeu
vidéo.
Ce programme nous a amené à nous poser davantage de questions sur l’intégration
musicale, en plus de notre réflexion sur les moyens d’éviter la répétition et de faire
évoluer la musique d’une façon cohérente pour des changements de « ton » non fixés dans
le temps. En effets les procédés que nous avons utilisés ne peuvent s’appliquer que pour
des phases de jeu particulières ; la musique ici évolue avec le déplacement, nous renseigne
sur notre localisation par rapport à l’objectif à atteindre mais elle incite également le
joueur à avancer. Il s’agit d’un cas assez spécifique, dans le cadre du jeu vidéo, il ne faut
cependant pas que la musique empêche le joueur d’agir.
106
Schéma des procédés d’intensification musicale.
THEME DE FIN (y >=120): les sons électroniques
reprennent le mouvement du bruit blanc. Les
« timbales » martèlent les temps ; ostinato au
« violoncelle ».
Fondu progressif des sons de la boucle 2.
L’interface se désactive.
BOUCLE 2.
(Il n’est plus possible de revenir aux « états musicaux » de
la boucle 1).
101<= y <=119: son grave et percussif. Intervention d’un
son électronique qui reprend les mouvements du son
introductif déclenché par l’objet zigzag~.
90 <= y <= 100: effet de pitch sur le bruit blanc, cet effet
persiste jusqu’à la fin. Modification du son grave
introductif en un son aigu.
71<= y <= 89 : bruit blanc, son grave et tenu. Son
transformé par l’objet zigzag~ avec effet d’écho (delay~)
et de panoramisation qui rappellent les sons créés par
synthèse FM de la boucle 1.
TRANSITION (61<= y <=70) : apparition du bruit blanc
symbolisant le vent. Si l’on revient vers la BOUCLE 1, le
bruit blanc persiste quelques secondes.
BOUCLE 1.
(Les compteurs sont déconnectés des conditions suivant le
passage d’un état à un autre).
40<= y <= 60 : enrichissement progressif de la masse
sonore.
10<= y <= 39 : changement de fondamentale.
1<= y <= 9 : fondamentale et son unique panoramisé.
Si l’on reste à cet état la boucle évolue jusqu’au troisième
niveau d’intensité pour inciter le joueur à avancer.
Initialisation
Barre d’espace.
107
108