mp ricpts - Estudios Fónicos

Transcription

mp ricpts - Estudios Fónicos
Revue internationale de CRIMINOLOGIE et de POLICE technique et scientifique
ISSN 1424-4683
Volume LXV
Juillet - Septembre
2012
La proportionnalité et la modération dans la détermination
de la peine: l’art d’être juste
par Chloé Leclerc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .259
Que savons-nous de la consommation de la sécurité?
par Massimiliano Mulone et Chantal Desroches . . . . . . . . . . . . . . . . .283
L’évaluation du risque de récidive en France: Expérience
et Attitudes des Conseillers Pénitentiaires d’Insertion
et de Probation
par Massil Benbouriche, Aude Ventéjoux, Mélody Lebougault
et Astrid Hirschelmann . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .305
Proposition raisonnée de protocole de capture de voix connues
à des fins judiciaires
par Juana Gil, Helena Alves et José Antonio Hierro . . . . . . . . . . . . . .319
La conception de schémas relationnels en analyse criminelle:
au-delà de la maîtrise des outils
par Quentin Rossy et Olivier Ribaux . . . . . . . . . . . . . . . . . . . . . . . . . . .345
Problématiques et règles d’emploi criminalistiques des engins
de chantier pour la recherche de cadavres enfouis. L’expérience
de l’Institut de recherche criminelle de la Gendarmerie
nationale (France).
par Patrice Georges, Florent Ducrettet, Franck Nolot,
Jean Richebé et Yves Schuliar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .363
Notes de police scientifique
par Olivier Delémont et Pierre Margot . . . . . . . . . . . . . . . . . . . . . . . . .375
Bibliographie
par Marie-Claude Hertig . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .381
Revue internationale de criminologie et de police technique et scientifique
3/12
257
Proposition raisonnée de protocole de capture de
voix connues à des fins judiciaires
par Juana GIL*, Helena ALVES** et José Antonio HIERRO***
Résumé
Dans certaines affaires judiciaires, il faut produire la preuve scientifique de la comparaison de voix, qui consiste fondamentalement à comparer la voix ou les voix d’origine
inconnue, recueillies par la police moyennant des enregistrements de conversations téléphoniques, avec la voix ou les voix des suspects ou des personnes arrêtées. Pour ce
faire, il faut obtenir des échantillons vocaux de ces derniers. Pour que cette démarche
soit utile et qu’elle permette et favorise la comparabilité entre les deux types d’enregistrement, il faut considérer divers facteurs, fussent-ils purement techniques, tels que le
matériel employé et les conditions d’enregistrement, ou scientifiques, tels que les résultats des progrès réalisés à ce jour par la phonétique judiciaire. Cet article propose, en
pareils cas, un protocole et une procédure concrète d’intervention qui reposent sur l’état
des connaissances concernant la comparaison de voix.
Mots-clés: Phonétique judiciaire, identification du locuteur, comparaison de voix en criminalistique, capture d’échantillons de parole.
Summary
Some criminal cases may involve expert evaluation of voices samples as additional forensic evidence subject to cross-examination during the trial. Basically, this sort of scientific task intends to determine the weight of the phonetic evidence resulting from comparing the offender’s unknown voice or questioned sample, often registered through the telephone by the police, and the required records of the suspects’ voices. In order to permit
and increase the comparability between both types of records, it is necessary to take into
account two main aspects during the recording sessions: on one side, the specific technical factors conditioning the process – like the recording equipment and context – and,
on the other side, the scientific significant insights gained by forensic phonetics so far.
Having all this in mind, a protocol and a concrete procedure of intervention principled in
the state of the art of forensic voice comparison are proposed in this article.
Keywords: Forensic phonetics, speaker identification, forensic voice comparison, speech
samples recording,
0. Introduction
Il existe de nombreuses définitions de la phonétique judiciaire. En effet, nombre
de travaux ont été menés à bien dans ce domaine, en particulier depuis la
seconde moitié du XXe siècle jusqu’à nos jours (1). Sur la foi de ces nombreuses
* Directeur du Laboratoire de Phonétique. Conseil Supérieur de la Recherche Scientifique (CSIC).
Madrid-Espagne.
** Ingénieure du son. Laboratoire de Phonétique. Conseil Supérieur de la Recherche Scientifique
(CSIC). Madrid-Espagne
*** Linguiste et Capitaine de la Guardia Civil. Service de Criminalistique. Direction Générale de la
Guardia Civil. Madrid-Espagne
Revue internationale de criminologie et de police technique et scientifique
3/12
319
définitions, l’on peut affirmer que la phonétique judiciaire est une application de
la phonétique générale, qui s’occupe, dans le cadre légal, des problèmes liés à
la volonté de reconnaître et d’identifier le locuteur et de le caractériser d’un
point de vue acoustique. Il appartient ainsi à l’expert phonéticien en ce domaine et/ou à ses collaborateurs, d’essayer de dresser le portrait phonétique du
locuteur, de présenter son «passeport vocal», autrement dit de préciser, dans la
mesure du possible, grâce à son accent et aux traits acoustiques de ses émissions, le sexe, l’âge, l’origine géographique, le statut social, l’état d’âme ou de
santé, etc., du locuteur. Il lui appartient de préciser le contenu des messages
enregistrés, lorsque la mauvaise qualité de ces derniers ne permet pas de bien
en saisir le sens, d’authentifier les enregistrements et de s’assurer qu’ils n’ont
pas été manipulés, de s’occuper de la préparation et de la réalisation des
séances de reconnaissance vocale (cf. Rose 2002: 2; Jessen 2009: 115). Cela
étant, un expert en phonétique judiciaire doit par-dessus tout pouvoir comparer un ou plusieurs «spécimens» de parole produits par un locuteur inconnu qui
est impliqué dans un délit, avec un ou plusieurs échantillons de parole produits
par un ou des locuteurs connus, regardés comme suspects, afin de pouvoir
attribuer ou non ces spécimens à ces mêmes personnes.
Ce travail étudie l’une des phases constituantes dudit processus de comparaison de voix et, plus concrètement, la phase d’obtention, dans les palais de
justice ou dans les commissariats, des échantillons de parole des mis en examen. À cet égard, il existe, en Espagne, un vide juridique patent, faute d’instructions qui encadrent clairement le modus operandi (2). Le manque de recommandations, même de type général, donne bien souvent lieu – en l’absence
notamment de personnel qualifié – à un certain laisser-aller dans le processus,
ce qui porte atteinte au bon déroulement de la procédure judiciaire. Forts des
connaissances apportées par les progrès de la recherche théorique et l’expérience nourrie par de nombreux cas réels, nous apportons, ci-après, quelques
suggestions et indications eu égard à l’obtention de ces échantillons. Il s’agit
d’une première proposition explicite d’un protocole complet d’intervention,
pour lequel chaque recommandation repose sur les résultats produits par la
recherche fondamentale menée à bien depuis longtemps par les experts en
phonétique juridique. C’est là que gît la différence avec d’autres approches en
vigueur (qui, dans certains cas, n’ont pas fait l’objet d’une publication et sont
utilisées en interne par les forces de l’ordre, cf. le document d’ENFSI 2006) qui
proposent simplement des façons d’agir.
1. Voix inconnue versus voix connue
Conformément à ce qui vient d’être dit, le travail de l’expert, qui réalise une
comparaison de voix dans le but de dresser un rapport d’expertise, consiste à
déterminer le degré de similitude et de différence existant, d’un point de vue
phonético-acoustique, entre deux fragments de parole, l’un d’origine connue,
l’autre d’origine inconnue, ce qui lui permet de déduire le degré de probabilité
320
3/12
Revue internationale de criminologie et de police technique et scientifique
de ces similitudes et différences dans le cas d’un même locuteur et/ou de locuteurs différents (cf. Champod et Meuwly 2000; Morrison 2009).
Le «spécimen» de parole de départ, dont la paternité nous est inconnue, est
appelé «la trace». Ce type de traces est très souvent obtenu à partir d’enregistrements secrets menés à bien par la police, sous autorisation judiciaire. Mais, il
peut aussi fort bien s’agir d’un enregistrement accidentel réalisé, avec un téléphone portable par exemple, par une personne présente sur les lieux des faits
délictuels.
Ce sont ces enregistrements qu’il faudra comparer avec ceux, obtenus a
posteriori, des suspects ou de toute autre personne impliquée dans le délit.
Comme l’explique très clairement Fungairiño (2000), dans le processus de réalisation d’un rapport d’expert phonéticien, la phonétique judiciaire, et plus précisément l’acoustique judiciaire, remplit deux fonctions: la fonction instrumentale qui consiste à recueillir les actes judiciaires, sous la direction du greffier
(conformément à l’article 230.1 de la Loi Organique sur le Pouvoir Judiciaire
espagnol du 1 juillet 1985, qui autorise les tribunaux à utiliser tout moyen technique, électronique, informatique, etc., pour mener à bien leur mission) et la
fonction de recherche et d’instruction de la preuve testimoniale recueillie sur
support audio.
Les enregistrements de voix recueillis dans les locaux de la police ou dans
les tribunaux, au cours de la procédure, représentent la «voix connue», vu qu’il
n’y a aucun doute sur la ou les personnes à qui appartiennent la ou les voix enregistrées dans les tribunaux ou les commissariats en présence des fonctionnaires
correspondants. Il arrive aussi, mais ces cas sont plus rares, que ces fragments
de parole proviennent de l’enregistrement d’un appel téléphonique (à un organisme officiel, à une banque, etc.).
2. Attitude conciliante ou intraitable du mis en examen
Pour comparer les voix et réaliser le travail d’expertise, il faut, comme nous
l’avons signalé, disposer d’enregistrements de voix connues. À ce stade, l’on se
trouve face à deux situations opposées: soit le mis en examen est prêt à collaborer et accepte d’être enregistré, soit il manifeste une certaine réticence à l’idée
de fournir des fragments de voix et une opposition certaine à se faire enregistrer.
Les rares références bibliographiques abordant cette question (cf. Horwath
2002: 1693) résolvent ce problème en suggérant d’appeler le tribunal ou le juge
pour qu’il oblige le suspect à collaborer. Toutefois, dans le cas espagnol, la
question est d’autant plus complexe qu’elle emmêle l’écheveau juridique parce
que le Code de Procédure Pénal espagnol ne considère ni ce type de preuve ni
les circonstances afférentes. Comme l’a si bien expliqué la procureure Martínez
Sánchez dans son intervention au cours du II Simposium sur la Reconnaissance
de Voix à des Fins Judiciaires (1999), cette question a trait à l’admissibilité
générale des interventions corporelles, comme formes de constatation des faits
délictuels, et de la participation à ces derniers des sujets responsables.
Revue internationale de criminologie et de police technique et scientifique
3/12
321
Dans son intervention, sur laquelle nous nous appuyons, la procureure résume la position du Tribunal Constitutionnel espagnol, qui a considéré, dans plusieurs décisions, que ce type de preuves ne sont pas anticonstitutionnelles; au
contraire, elles sont admissibles parce que le fait de s’y soumettre (comme, par
exemple, se soumettre à un contrôle d’alcoolémie ou, dans le cas qui nous
occupe, fournir un échantillon de voix) ne peut être considéré comme contraire au droit à ne pas déposer, à ne pas déposer contre soi-même et à ne pas
s’avouer coupable, étant donné que le mis en examen n’est pas obligé de faire
une déclaration de sa culpabilité. Il s’agit de tolérer que le mis en examen fasse
l’objet d’une modalité particulière d’expertise. La collaboration qui lui est exigée n’est, partant, pas comparable à la déclaration qui est couverte par les
articles 17,3 et 24,2, à savoir la présomption d’innocence.
Cela étant dit, une fois posée l’admissibilité de l’utilisation du corps même
comme élément de preuve, surgit la question la plus importante: le mis en examen ou l’accusé est-il tenu ou non de s’y soumettre? Martínez Sánchez considère qu’il ne peut y avoir d’obligation sur la foi de la réglementation qui régit les
expertises callygraphiques, lesquelles supposent aussi la participation active
du mis en examen. Par ailleurs, relativement à ces dernières, le Code espagnol
de Procédure Pénale interdit, dans son article 391, paragraphe 2, l’exercice de
tout type de pression sur le sujet, et signale très clairement que c’est une question sujette à interprétation.
Dans le cas d’un possible refus du mis en examen de réaliser un test de voix,
Martínez Sánchez s’interroge sur la validité juridique des échantillons recueillis
par d’autres moyens pour obtenir le même résultat, mais cela sans présupposer la collaboration du mis en examen (en enregistrant, par exemple, une
conversation à son insu). En réalité, ce serait la situation idéale pour l’expert car,
ignorant qu’elle est enregistrée, par exemple au cours d’une conversation avec
la police, la personne impliquée s’exprimera très probablement avec une spontanéité des plus naturelles. Cela étant dit, étant donné que la législation espagnole, à l’inverse de ce qui se passe dans d’autres pays proches, ne précise
rien en la matière, les références jurisprudentielles et doctrinales diffèrent sur la
validité juridique de ce mode d’obtention des échantillons. Alors que le Tribunal
Constitutionnel espagnol donne son aval au fait que certaines preuves peuvent
être obtenues sans l’accord de l’accusé (ce qui ne veut pas dire contre sa
volonté) on peut ainsi relever les empreintes digitales qu’il n’a pas voulu fournir
librement, pourvu qu’il les ait laissées sur un objet quelconque. La procureure
Martínez Sánchez, se prévalant pour l’essentiel de la doctrine protectrice et de
certaines décisions du Tribunal Constitutionnel, considère quant à elle que
toute preuve obtenue de cette manière ne serait pas valable, elle serait nulle et
elle entacherait ou non le reste de la procédure selon que les autres preuves
obtenues découlent de la preuve précédente (3).
À la vue de tout ce qui précède, il s’ensuit que, à ce jour, il n’existe pas, dans
l’appareil juridique espagnol, de réglementation claire qui encadre la procédure à adopter dans le cas où le(s) locuteur(s) connu(s) refuse(nt) de fournir des
échantillons de parole en vue de leur future expertise. Dans les pages qui sui322
3/12
Revue internationale de criminologie et de police technique et scientifique
vent, nous allons considérer que les personnes impliquées acceptent de réaliser les tests en question, étant bien entendu que certaines des recommandations concernant la procédure seraient également d’application avec ou sans
leur accord (par exemple, les recommandations portant sur la façon de faire
pour que le sujet en question articule certains sons). Il appartient au tribunal
d’ordonner leur réalisation et de déterminer leur validité (cf. Lucena 2002).
3. Conditions requises pour recueillir des échantillons de parole
L’une des différences importantes entre, d’une part, les processus d’authentification ou vérification du locuteur (songez, par exemple, à une banque et à un
dispositif de reconnaissance vocale qui donne accès à différents services) et,
d’autre part, les processus de comparaison de voix à des fins judiciaires, qui
nous occupent ici, réside dans le fait que, dans le premier cas, on contrôle parfaitement la nature des échantillons en présence, alors qu’il en va tout autrement dans le second cas (cf. Broeders 1995). Il va sans dire qu’il est très difficile d’exercer un contrôle quelconque sur les traces de voix inconnues en raison même de leur nature, mais il est plus facile, à nos yeux, de faire ce contrôle dans le cas de voix connues pourvu qu’elles aient été recueillies sous certaines conditions. Plus le degré de contrôle sur les caractéristiques des échantillons comparables est élevé, plus la tâche ultérieure de l’expert sera aisée et
le résultat de son travail fiable
En général, pour que la preuve de comparaison de voix produite par l’expert
soit acceptable et apporte une information digne de foi et de valeur (cf. à cet
égard Morrison 2011a), il faut que les échantillons en présence satisfassent aux
critères de quantité, qualité et comparabilité (Rose 2002: 329).
3.1 Quantité
Le nombre d’échantillons de voix inconnues et de voix connues ne doit pas
nécessairement coïncider et, de fait, bien souvent il ne coïncide pas. L’on peut,
par exemple, disposer de cinq conversations téléphoniques mises sur écoute
avec une voix inconnue (qui, de surcroît, n’est pas nécessairement la même) et,
en revanche, ne disposer que d’un seul enregistrement vocal d’un suspect réalisé dans les locaux de la police judiciaire. Cela étant posé, alors que, fort logiquement, le nombre d’échantillons de voix inconnues échappe aisément à la
planification des investigateurs, il n’en va pas nécessairement de même avec
les échantillons de voix connues dont la capture peut être programmée à
l’avance. Plus le nombre d’échantillons recueillis est grand, plus le résultat de
l’expertise sera fiable. En effet, tous les locuteurs présentent des variabilités de
voix: les paramètres analysés ne présentent pas toujours les mêmes valeurs.
Ainsi, un paramètre tel que le ton de la voix d’une personne peut changer en
fonction de la période de temps ou du moment de la journée, de la situation
communicative dans laquelle se trouve ladite personne, de son état d’âme ou
de santé, etc. Aussi est-il recommandé, pour l’expertise, de toujours calculer
Revue internationale de criminologie et de police technique et scientifique
3/12
323
les valeurs moyennes de chaque paramètre étudié à partir d’un nombre
d’échantillons le plus grand possible et le plus espacé dans le temps (4).
‡ Première recommandation: Recueillir plusieurs échantillons de voix du locuteur connu, si possible espacés dans le temps (années, mois ou semaines,
selon les caractéristiques de l’affaire et la faisabilité) et capturés à différents
moments de la journée.
Le nombre de paramètres comparés et analysés doit aussi être le plus grand
possible. Quitte à nous répéter, la raison en est que l’étude, sous toutes les
coutures, de la voix de toute personne identifiable est fort complexe. Nous
aborderons plus avant (§ 5) les traits caractéristiques qui doivent être pris en
compte dans les paramètres retenus. Il est évident qu’il faut les choisir compte
tenu des échantillons de voix inconnues acceptables dont on dispose et non de
façon aléatoire. Il serait bon que les enregistrements de voix connues présentent, pour une très large part, les éléments potentiellement informatifs qui sont
présents dans les voix inconnues, même s’ils ne sont pas présents dans tous
les échantillons ou que leur occurrence se manifeste en différente proportion.
Songez, par exemple, aux caractéristiques acoustiques du son [s], qui peuvent
constituer une base de comparaison intéressante et exploitable: si ce son n’apparaît dans aucun des échantillons de voix inconnues qui ont été recueillis, sa
présence, à des fins comparatives, dans l’enregistrement de la voix connue ne
sera d’aucun intérêt (dans lequel, évidemment, il pourra apparaître fort naturellement et non artificiellement).
‡ Deuxième recommandation: Le ou les enregistrements de voix connues doivent être préparés à l’avance, sous la supervision d’un expert, et reposer sur
les paramètres potentiellement comparables présents dans les échantillons
de voix inconnues.
La fiabilité concernant la comparaison de voix dépend non seulement de
l’abondance des échantillons à comparer, d’un nombre suffisant de paramètres
à analyser, comme nous venons de le voir, mais aussi de la présence de plusieurs représentants pour chaque paramètre. Autrement dit, on doit pouvoir en
dégager maintes observations ou mesures pour en extraire par la suite leur
valeur moyenne et leur distribution, étant entendu que toujours l’expert tâchera, comme nous l’avons dit, de neutraliser le degré élevé de variabilité de la
voix. Reprenons l’exemple du son [s]. Conformément à ce qui vient d’être dit,
une seule occurrence de ce son dans les échantillons de voix connues ne suffira pas; il faudra en recueillir un nombre considérable qui fait encore polémique. Elzey (1987) et d’autres auteurs ont avancé le chiffre de 30 observations,
un chiffre idéal pour que la mesure soit la traduction d’une quantification du
paramètre beaucoup plus fiable. C’est pourquoi il faudra considérer cet aspect
lors de la préparation de l’enregistrement de la voix connue, la seule qui puisse être contrôlée d’une certaine façon.
324
3/12
Revue internationale de criminologie et de police technique et scientifique
‡ Troisième recommandation: Il serait bon de repérer, dans les enregistrements recueillis, un bon nombre d’observations (occurrences) de chaque
variable comparable (une trentaine serait l’idéal).
La dimension souhaitable des observations est en rapport avec la question
du nombre des observations nécessaires au renforcement de la fiabilité de ces
dernières. Ladefoged, célèbre phonéticien britannique, rapporte dans son
article (Ladefoged and Ladefoged, 1980: 49) qu’il n’a pas pu reconnaître la
voix de sa mère quand on lui a présenté le mot «hello», qu’elle prononça, inséré dans une série d’enregistrements de différents locuteurs avec lesquels il
avait un certain degré de familiarité. Mieux encore, il n’a toujours pas reconnu
sa mère, malgré la bonne qualité des enregistrements, quand elle a prononcé
une phrase plus longue: il l’a seulement reconnue – sans certitude absolue –
après qu’elle a lu un texte durant 30 secondes.
Cette anecdote permet d’étayer l’idée selon laquelle les échantillons doivent avoir une dimension ou une durée totale considérable pour plusieurs raisons: d’abord, parce que c’est la seule façon de pouvoir s’approcher du
nombre conseillé d’observations nécessaires pour chaque dimension considérée; ensuite, parce que certains de ces paramètres, et plus particulièrement
ceux qui répondent au nom «de longue portée», sont mesurés et calculés à
partir de fragments longs d’un énoncé. Le SMLT, par exemple, se stabilise
après 30-40 secondes de parole (cf. Fritzell et al. 1974, Boves 1984, Keller,
2004). Aussi la situation idéale consisterait-elle à recueillir des échantillons les
plus longs possibles et, en tout cas, d’un minimum de 30 secondes ou 100
mots.
‡ Quatrième recommandation: Il y a lieu de disposer du temps de parole le
plus long possible pour que l’on ne puisse mettre en doute la fiabilité de la
comparaison de voix. Dans la littérature, il est mentionné à maintes reprises
que 30 secondes de voix inconnue et connue sont nécessaires. Certes, certains experts en exigent plus, et, en général, plus la quantité d’information
est grande, meilleurs sont les résultats. Il s’ensuit qu’il faudra enregistrer au
moins 1 minute de parole spontanée (obtenue selon le procédé décrit ciaprès), 1 minute de lecture d’un texte préparé en fonction des échantillons
de voix inconnues disponibles (cf. ci-après), et 1 minute de lecture d’un texte
phonétiquement équilibré.
3.2 Qualité de l’enregistrement
Fort logiquement, si un échantillon de voix connues a été recueilli avec des
enregistreurs de qualité moyenne et sans observance de règles clairement établies qui permettent d’optimiser l’enregistrement, il ne pourra pas être utilisé
dans le processus de comparaison de voix. Il est mentionné, dans certains rapports d’experts phonéticiens, auxquels ont eu accès les auteurs de ce travail,
que les échantillons de voix connues ont été enregistrés dans des tribunaux, en
présence du greffier, mais en l’absence, au cours de cet enregistrement, de tout
Revue internationale de criminologie et de police technique et scientifique
3/12
325
conseiller technique, avec un seul micro qui, probablement, passait d’un interlocuteur à l’autre sans qu’il soit maintenu à la même distance de chaque locuteur. De ce fait, plusieurs interventions présentaient un tel degré de saturation
acoustique que l’expert les avait écartées dans son travail de comparaison.
Pour ce type d’enregistrements, l’objectif premier doit par conséquent
consister à recueillir des échantillons de voix les plus fidèles possibles à la voix
réelle du locuteur; autrement dit, ils doivent être dépourvu d’interférences dues
au bruit. Pour atteindre cet objectif, nous allons passer en revue les caractéristiques de base du matériel nécessaire:
‡ Cinquième recommandation: Le matériel employé pour toutes les prises de
voix connues à comparer doit toujours être le même.
a) Le microphone
Le choix d’un microphone adapté à ce type d’enregistrement se fera sur la base
de cinq critères décrits ci-après: le type de microphone, la réponse en fréquence, la sensibilité, la directivité et la plage dynamique:
- Il est conseillé d’utiliser un microphone à condensateur en raison de sa
meilleure réponse en fréquence et sensibilité par rapport aux microphones
dynamiques. L’utilisation de ce type de microphone exige une alimentation
externe, dite Phantom, paramètre à prendre en considération lors du montage. Cette alimentation est généralement assurée par la carte son externe.
- Pour éviter les gains ou les atténuations du son dans certaines fréquences
(colorations), il faut que la réponse en fréquence du microphone soit linéaire
de 20 Hz à 20 kHz, plage de fréquences audibles par l’oreille humaine. Dans
le cas d’enregistrements téléphoniques, vu que la transmission est limitée à 4
kHz, une réponse linéaire sous cette fréquence serait suffisante.
- La véritable fonction d’un microphone est de transformer le signal acoustique
en signal électrique qui puisse être transmis par câble et recueilli dans des
dispositifs d’enregistrement. La sensibilité est précisément l’un des paramètres qui exprime la qualité de cette conversion. Cette sensibilité est exprimée en décibels ou en mV/Pa. Le minimum conseillé est de 10 mV/Pa, soit
40 dB.
- Selon les enregistrements à réaliser, le microphone sera également choisi en
fonction de sa directivité. Quand on enregistre une voix, on cherche à éviter
tous les bruits alentour; pour ce faire, on utilise des microphones cardioïdes
ou hypercardioïdes (en forme de cœur). Ces micros captent parfaitement la
présence d’une source sonore frontale et atténuent fortement les sons arrière.
- Enfin, plus la plage dynamique du microphone est ample, plus il sera facile
d’éviter la saturation (le niveau maximal autorisé sera plus haut). Il devra être,
dans la mesure du possible, supérieur à 100 dB.
‡ Sixième recommandation: Il faudrait utiliser un microphone à condensateur
avec une réponse en fréquence linéaire allant jusqu’à 20 kHz et à directivi326
3/12
Revue internationale de criminologie et de police technique et scientifique
té cardioïde ou hypercardioïde. La sensibilité sera d’au minimum 10mV/Pa
et la plage dynamique, de 100 dB.
b) Connexion
Dans le cas qui nous occupe, le microphone sera connecté à la carte son
avec un câble de connexion muni d’une protection contre les interférences
électromagnétiques, permettant la liaison audio symétrique et équipé de
connecteurs de type XLR/Cannon.
c) Carte son
Pour connecter le microphone à l’ordinateur, il est conseillé d’utiliser une
carte son externe de grande qualité. On évitera d’utiliser celle qui est fournie
avec l’ordinateur car elle capte le bruit produit par les circuits. La carte son
externe devrait présenter certaines des caractéristiques suivantes: une
réponse en fréquence linéaire allant jusqu’à 20 kHz, une alimentation
Phantom, la possibilité de choisir la fréquence d’échantillonnage, qui sera au
minimum de 44’100 Hz, bien qu’il soit conseillé d’enregistrer à 48’000 Hz et
de réaliser une conversion de 32 ou 64 bits.
‡ Septième recommandation: Une carte son externe donnera le meilleur
d’elle-même si la réponse en fréquence est le plus linéaire possible et
qu’elle permet de choisir une fréquence d’échantillonnage adaptée à l’enregistrement (44’100 Hz ou 48’000 Hz). L’alimentation devra être impérativement de type Phantom afin de pouvoir brancher un microphone à
condensateur.
d) Ordinateur
L’ordinateur qui, fort logiquement, ne doit pas être trop vieux, devra être équipé d’une mémoire RAM suffisante pour que le logiciel d’enregistrement fonctionne correctement et ne crée pas de problème pendant l’enregistrement. Il
devra aussi être doté d’une très grande capacité de stockage de données car
les fichiers audios seront de grande taille puisqu’on utilise des formats non
compressés.
e) Logiciel
Le logiciel d’enregistrement doit permettre d’enregistrer, d’éditer et, évidemment, de sauvegarder un fichier audio en format non compressé (on utilise
d’habitude des fichiers wav - Waveform Audio Format - avec une conversion
de type PCM). Outre le type d’extension, il est important de choisir une fréquence d’échantillonnage correcte qui, comme pour la carte son, doit être de
44’100 Hz au minimum. Le nombre de bits par échantillonnage ou résolution
ne sera jamais inférieur à 16. Afin de pourvoir s’assurer que le dispositif enregistre correctement et d’éviter la saturation ou des niveaux de bruit très élevés, ce logiciel devra aussi être muni d’un dispositif de visualisation du signal
en temps réel.
Revue internationale de criminologie et de police technique et scientifique
3/12
327
‡ Huitième recommandation: Le logiciel utilisé devra permettre l’enregistrement
audio au format non compressé (wav avec compression PCM), une fréquence
d’échantillonnage et une résolution minimale de 44’100 Hz et de 16 bits par
échantillon respectivement (5).
‡ Neuvième recommandation: Au cours de l’enregistrement, l’on doit pouvoir
réaliser une écoute en temps réel afin de s’assurer qu’il n’y a ni bruit intempestif ni saturations. Pour ce faire, on utilisera des casques professionnels.
En sus du matériel approprié, il faudra, cela va sans dire, travailler dans un
cadre acoustique qui satisfasse à une série de critères:
a) Studio d’enregistrement – milieu acoustique
La situation idéale commande de travailler dans un studio spécialement aménagé pour réaliser des enregistrements audio. Or, bien souvent, l’on ne dispose pas
de studio et quand bien même l’on en disposerait d’un, la personne enregistrée
se trouverait dans un milieu étrange qui pourrait influencer sa collaboration au
moment de parler. Cela étant, il est possible de définir des critères minimums qui
sanctionneront la pertinence de l’habitacle utilisé.
S’il y a trop de réverbération dans le local, les réflexions sur les différentes surfaces de ce dernier (murs, sol, etc.) peuvent nuire à l’intelligibilité et à l’analyse
ultérieure du signal enregistré. C’est pourquoi les recommandations techniques
de construction déterminent que, dans des salles de classe et salles de conférences vides, le temps de réverbération ne devrait pas être supérieur à 0,5 seconde. Cette valeur pourrait servir d’étalon dans notre cas, bien que l’on puisse, pour
obtenir des enregistrements de qualité suffisante, pousser la limite jusqu’à une
seconde. On ne connaîtra pas toujours à l’avance le temps de réverbération de la
salle, auquel cas on procédera à une écoute afin de savoir s’il n’est pas trop élevé.
Il est important de s’assurer que les niveaux de bruit ne sont pas tels qu’ils
empêcheraient tout enregistrement. La loi espagnole sur le bruit (Décret Royal
1367/2007) fixe des objectifs de qualité du bruit, applicables à l’espace intérieur
des bâtiments, qui sont déterminés par des niveaux maximums selon l’utilisation
de cet espace et la plage horaire. Ces niveaux de bruit sont compris entre 35 et
45 dB pendant le jour et entre 30 et 40 dB le soir dans le cas de bâtiments à usage
résidentiel, hospitalier, éducatif ou culturel. On prendra comme mesure de référence les données concernant les salles de classe et salles de lecture, pour lesquelles la valeur maximale admissible de bruit est de 35 dB. Toute valeur inférieure est évidemment souhaitable. À partir de ce niveau maximal de bruit et,
compte tenu du fait que le niveau de la voix humaine dans une conversation se
situe entre 60 et 70 dB, avec quelques pics pouvant atteindre 80 dB, le rapport
signal-bruit de la salle sera d’environ 30-35 dB.
‡ Dixième recommandation: Le local d’enregistrement doit présenter un temps
de réverbération inférieur à une seconde et un niveau de bruit de fond inférieur à 35 dB, ce qui donne un rapport signal-bruit d’environ 30 dB.
328
3/12
Revue internationale de criminologie et de police technique et scientifique
b) Emplacement de la carte son
Concernant l’emplacement de la carte son externe, elle sera placée le plus loin
possible des différentes sources de bruit telles que des ordinateurs, des téléphones portables, des enceintes, etc., qui peuvent causer des interférences
nuisibles à l’enregistrement.
c) Position du microphone et du locuteur
Il faut considérer certains paramètres au moment de placer le microphone. On
évitera qu’il capte le son de la respiration ou qu’il y ait des saturations à cause
des sons occlusifs (comme le [p]); on pourra, dans certains cas, résoudre ce
problème avec un écran anti-vent. Relativement à la distance entre le locuteur
et le microphone, il convient qu’elle soit, plus ou moins, toujours la même. En
effet, si un locuteur s’approche trop du microphone pendant l’enregistrement,
cela peut produire des saturations. Cette distance dépendra du microphone utilisé. Certains modèles exigent une distance qui peut être inférieure à 5 centimètres. Les microphones serre-tête, par exemple, doivent être positionnés très
près de la bouche du locuteur. Avec ce type de micro, il est facile de garder la
même distance, ce qui constitue un avantage non négligeable. Pour d’autres
modèles, comme les microphones sur pied posés sur une table, ils seront placés à 20 ou 30 centimètres de la bouche.
Pour terminer, on veillera à ne pas heurter la table ou le sol pendant l’enregistrement, ces bruits interférant avec ce dernier, et à tourner les feuilles d’un
discours lu de sorte à ne pas faire de bruit, ce dernier s’ajoutant au signal de
voix.
‡ Onzième recommandation: Le microphone et la carte son devraient être placés le plus loin possible de toute source de bruit. Le microphone doit être
placé près du locuteur (la distance varie en fonction du type de microphone). On prêtera une attention toute particulière aux éventuels bruits produits
par la respiration, les coups sur la table et le feuilletage.
3.3 Comparabilité
Il va sans dire que l’on ne peut comparer ce qui n’est pas comparable. Les différences entre des voix inconnues et des voix connues sont parfois telles que
leur comparaison est impossible ou, à tout le moins, peu fiable: ces différences
sont le fait du moment et de la situation de leur production, du type de discours
et du moyen de transmission. En supposant que l’expert n’écarte pas d’emblée
la possibilité de comparer les échantillons, malgré ces différences, il faudra
alors renforcer, dans la mesure du possible, la comparabilité des échantillons
de parole à comparer. On peut essayer de le faire en jouant sur le paramètre de
comparaison le plus facilement contrôlable – en termes relatifs – par le spécialiste, c’est-à-dire en jouant sur les échantillons de voix connues et la façon de
les recueillir.
Si les émissions de voix inconnues et connues ont été produites dans des
ambiances et des contextes très différents, il est possible que leur comparaiRevue internationale de criminologie et de police technique et scientifique
3/12
329
son ne dégage aucune conclusion valable, car la voix d’un même locuteur
peut varier considérablement selon ces circonstances. Voyons certaines
d’entre elles.
a) Si la trace correspond à celle d’un délinquant qui crie et donne des instructions au cours d’un braquage et que l’échantillon de voix connues a été
recueilli dans les locaux judiciaires au cours d’un interrogatoire, il peut y
avoir un problème. Dans une situation différente, où un témoin doit reconnaître une voix qui lui est familière, on s’est rendu compte que sa capacité
à le faire diminue sensiblement si le locuteur crie et que son émission est
brève. (Blatchford et Foulkes 2006 et supra, § 3.1). Dans le cas présent,
celui de la comparaison de voix, Elliott (2000) analyse les différences qui
existent entre les deux types d’émission de voix, une voix criante et une
voix normale, tant intra-locuteurs qu’inter-locuteurs. Avant cette étude, l’on
savait déjà que la voix d’une même personne change quand elle parle normalement et quand elle crie: Laver (1980) a précisé à l’époque que la tension articulatoire est plus forte dans le second cas. Harris et Weiss (1964),
et plus tard Braun (1995), Hacki (1996) et Jessen et al. (2005), ont remarqué l’existence d’une augmentation de la pression du flux d’air à travers les
poumons, ce qui entraîne une plus grande intensité, une gamme tonale
plus large et une augmentation de la fréquence du ton fondamental (F0).
L’expérience menée à bien par Elliott démontre qu’effectivement le fait de
la part d’une même personne de crier produit une augmentation considérable de la fréquence fondamentale (F0) et une légère hausse du premier
formant (F1) des sons vocaliques (en tout cas pour ce qui est du /i/, voyelle étudiée par cette auteure). Toutefois la variable ne semble pas altérer la
structure formantique générale de la voyelle en question qui reste stable.
Dans le cas de personnes différentes, l’étude d’Elliott conclut que la différence entre les valeurs moyennes de F0 des deux locuteurs est maintenue,
que l’on soit en présence d’une émission normale ou d’une voix criante,
mais il n’en va pas de même avec la structure générale des formants qui
donne des résultats beaucoup plus confus. F1 différencie les locuteurs
dans le seul cas d’une voix criante; F2 ne présente aucune divergence
significative entre les locuteurs à voix normale et à voix criante; F3 ne présente des divergences que dans la voix normale et, enfin, F4 semble distinguer les sujets dans les deux types de voix. Bien que les formants les
plus hauts semblent ne pas être affectés par le changement «voix normale-voix criante» et semblent être productifs d’un point de vue judiciaire, le
fait qu’il s’agisse de deux modalités d’émission distinctes qui répondent à
des intentions communicatives différentes influence clairement l’articulation, le conduit vocal intra-locuteur et le processus ultérieur de comparaison inter-locuteur. En conséquence de quoi, l’échantillon de voix connues
devrait être préparé de sorte que la modalité de voix coïncide au maximum
avec celle de la voix inconnue qui a été enregistrée (cf. Jessen et Jessen
2007).
330
3/12
Revue internationale de criminologie et de police technique et scientifique
‡ Douzième recommandation: On veillera à enregistrer les voix connues de
sorte à renforcer leur degré de comparabilité avec les échantillons de voix
inconnues. En présence de voix criantes, par exemple, il est conseillé d’obtenir des sujets impliqués qu’ils crient aussi dans l’enregistrement sous contrôle de la voix spontanée. Pour ce faire, au cours de l’entretien, on fera passer
dans les casques des interlocuteurs – intervieweur et interviewé – de la
musique ou un bruit blanc à un niveau qui ne fasse ni mal ni n’empêche la
rétroalimentation auditive afin qu’ils soient obligé de crier pour se faire
entendre (6).
b) Les traces de voix inconnues sont en général spontanées, naturelles.
Toutefois, l’on observe, à la lecture de certains guides de procédure disponibles dans d’autres pays et qui donnent des instructions générales pour
recueillir des échantillons de voix connues (songez à la circulaire 057/2003
distribuée à la police par le Home Office britannique), qu’il n’existe pas de
consensus sur le fait de savoir si les mis en examen doivent lire un texte ou
être interviewés. Le document américain présuppose que la première option
est la manière appropriée pour recueillir la parole (il est même demandé au
suspect de se familiariser avec le texte choisi – fait d’éléments choisis dans la
transcription des échantillons de voix inconnues – pour renforcer la qualité et
la spontanéité de la lecture). Si le locuteur impliqué n’est pas capable de lire,
il est suggéré que quelqu’un récite les phrases prononcées dans l’échantillon
de voix inconnues le plus fidèlement possible à l’original et que le suspect les
répète par la suite. En revanche, la circulaire britannique mentionne que les
“experts in the field state clearly that under no circumstances should the suspect be invited to read any set text, as the speech / rhythm / tone may be
unnatural and may well be altered by a person reading aloud from prescribed
written material”. Les instructions, émises le 23 janvier 2006 par les European
Network of Forensic Sciences Institutes (ENFSI), ne font référence, et très
superficiellement, qu’aux traits qui distinguent la parole lue de la parole spontanée, sans établir un ordre de préférence entre ces deux types de parole à
des fins judiciaires. Si l’on ajoute à ces documents les observations, que l’on
peut trouver dans des manuels, comme celui de Quilis (1999) et autres travaux
de référence plus ou moins traditionnels (7), qui sont en principe opposés à la
lecture comme méthode de capture de la parole, il est difficile que la personne chargée de préparer l’enregistrement sache à quel saint se vouer (8).
Il est très difficile de contrôler tous les facteurs qui interviennent dans la lecture à voix haute de textes longs (Swerts et Collier 1992). C’est pourquoi il est
conseillé, d’un point de vue méthodologique élémentaire, de privilégier l’utilisation de beaucoup de phrases courtes qui se suivent au détriment d’un texte
long, complexe et élaboré. On peut dès lors se demander si les conclusions inférées à partir de cette lecture sont extrapolables à la langue «réelle» ou naturelle.
En effet, les êtres humains n’utilisent pas nécessairement des phrases courtes
pour communiquer et ne maîtrisent pas tous la lecture à voix haute.
Revue internationale de criminologie et de police technique et scientifique
3/12
331
Jessen (2009) a récemment étudié par le menu les différences entre les deux
modes de parole, la parole spontanée et la parole lue, et plus particulièrement
le paramètre le plus souvent mesuré et évalué en phonétique judiciaire, la F0,
qui est aussi le paramètre le plus clairement concerné par un changement de
mode. Cet auteur a, en outre, passé au peigne fin la bibliographie en la matière. Bien que les résultats des études précédentes fussent contrastés (9), l’auteur dégage de ces derniers et de son propre travail la conclusion générale que,
si la seule différence entre la voix inconnue et la voix connue est que l’une est
lue et l’autre spontanée, alors les valeurs relatives à la fréquence des deux peuvent être aisément comparées. Indépendamment de ces deux modes de parole, on pourra aussi apprécier d’autres facteurs discriminants entre deux échantillons de voix, tels que le niveau de stress physique ou psychologique du locuteur (10) qui, comme nous le savons bien, altère clairement la fréquence fondamentale de la voix (Hollien 1990).
Concernant d’autres paramètres, tels que la structure formantique, Moos
(2008) a analysé la répartition des formants à long terme et il a trouvé que les
plus grandes différences entre parole spontanée et parole lue sont observées
dans le F3, qui a toujours une fréquence plus élevée dans une parole lue. En
général, on s’attend à ce que les consonnes et les voyelles subissent une plus
grande réduction acoustique (ou perte de certains de leurs traits définitoires et
discriminants; cf. Aguilar et al. 1993, Harmegnies et Poch 1992), un plus grand
chevauchement co-articulatoire et un plus grand nombre d’élisions en présence d’un plus grand niveau de spontanéité de la parole. On peut dès lors établir
que la structure formantique de la voix lue sera différente de celle de la voix
spontanée. En outre, la première peut présenter un tempo (vitesse d’élocution)
plus lent que la seconde, ce qui a une incidence sur la durée des différents sons
et la structure temporelle de l’énoncé dans son ensemble, et peut ne pas afficher tous les effets phonétiques fruits de l’improvisation et du besoin de gagner
du temps, qui sont présents dans la seconde.
On ne peut difficilement passe outre la parole spontanée. Pourtant il serait
tout aussi irraisonnable d’écarter d’entrée de jeu la possibilité de travailler avec
la parole lue, et ce pour quattre raisons:
i) Le locuteur impliqué peut refuser de répondre à des questions, d’avoir un
entretien, de collaborer à toute activité orale et, quand bien même il accepterait, il peut se montrer fort peu loquace, auquel cas on ne pourra recueillir
les minutes de parole nécessaires à l’expertise. En pareil cas, la lecture
apportera des informations complémentaires.
ii) Il est vrai qu’il y a beaucoup de traits qui distinguent la parole lue de la parole naturelle ou spontanée, comme nous l’avons vu plus haut. Il est tout aussi
vrai que la personne qui lit a tendance à soigner la prononciation (à «hyperarticuler» dans notre jargon), autrement dit, elle articule avec plus de force,
de tension ou d’attention de sorte qu’elle peut réaliser des sons qu’elle ne
prononce pas normalement (les «s» finaux en espagnol, par exemple, les
occlusives en fin de syllabe: apto, admirar, etc.), renforcer des sons qu’elle
émet d’habitude plus faiblement (les occlusives ou les consonnes affriquées
332
3/12
Revue internationale de criminologie et de police technique et scientifique
au lieu des consonnes fricatives), etc. Toutefois, comme l’a si bien signalé
Quilis (1999), il existe des sons dont les valeurs ne sont pas facilement modifiables, par rapport aux sons de la parole spontanée – la consonne palatale
de mots comme «lluvia» ou «calle», la vélaire de mots comme «ojo» ou de
«majo», les consonnes nasales «m», «n» ou «ñ», les occlusives sourdes «p»,
«t», «k», etc. –. On en conservera à coup sûr une trace dans l’enregistrement
s’ils sont repris dans le texte lu.
iii) Il est beaucoup plus aisé de contrôler le contenu d’un texte lu que celui
d’une entrevue, voire d’une description. En effet, le contenu du texte que le
suspect va lire, qu’il s’agisse d’un fragment assez court (mais ni complexe
ni alambiqué) ou de plusieurs phrases isolées, doit être préparé à l’avance
et contrôlé par l’expert, qui tiendra compte de chaque variable, commencera par l’analyse du contenu des enregistrements de voix inconnues et considérera la rentabilité de certains paramètres que nous venons de mentionner.
Bien que cela puisse poser problème, il faudrait que la personne impliquée
articule les mêmes mots tant dans sa parole lue que dans sa parole spontanée. Ce faisant, on peut observer les différences qu’entraîne le simple changement de modalité. En présence de phrases isolées, préparées à dessein
selon un même critère, l’expert doit, au moment de les préparer, conserver
au maximum les traits des phrases-modèle inconnues à partir desquelles il
travaille: le type d’intonation, la position des accents, la position dans la
phrase de l’élément important, le contexte phonétique immédiat, etc. Qu’il
s’agisse d’énoncés conçus expressément ou d’extraits d’échantillons de
voix inconnues, il faudra sans doute les reproduire plusieurs fois, entre 3 et
6 par exemple, pour disposer d’une quantité suffisante de matériel analysable et calibrer l’éventuel degré de variabilité intra-locuteur.
iv) La lecture d’un «texte normal» et celle d’un texte présentant un équilibre
phonétique permettent d’obtenir des suspects des échantillons de parole
dans lesquels le contenu des segments n’a pas d’incidence - car c’est le
même - sur l’analyse d’un trait intéressant d’un point de vue judiciaire, tel
que la qualité de voix. Quand deux fragments de parole sont constitués par
des éléments phonétiques très différents (la proportion de consonnes et de
voyelles est différente, la réalisation des sons est diverse parce que les
contextes sont différents, etc.), il est facile de percevoir la qualité de voix
sous-jacente et différente, bien que le type de phonation soit le même, que
les formants hauts apparaissent dans les mêmes gammes de fréquence et
que la plage tonale soit similaire, etc. C’est pourquoi, dans le cadre particulier d’une comparaison de voix de différents suspects, l’expert aura intérêt à
travailler avec des échantillons dans lesquels l’effet différenciateur des sons
est annulé.
‡ Treizième recommandation: Dans la mesure du possible, il faut recueillir des
échantillons de parole de deux types, la parole lue et la parole spontanée,
comme le recommande le Bundeskriminalamt allemand (cf. Jessen 2009b:
117).
Revue internationale de criminologie et de police technique et scientifique
3/12
333
‡ Quatorzième recommandation: L’échantillon de parole lue peut être réalisé à
partir de fragments de la transcription de la voix inconnue, que l’on ajoute au
texte spécialement conçu pour le test, et aussi à partir d’un texte équilibré
d’un point de vue phonétique. La préparation de l’échantillon de parole
spontanée doit obéir à une procédure préalablement définie (cf. infra), et
prendre en compte tous les facteurs susceptibles de favoriser la comparabilité.
c) La trace peut provenir d’un téléphone, fixe ou mobile (avec des effets différents dans chaque cas), placé sur table d’écoute, car nombre de délits sont
projetés, préparés ou commis via une ligne téléphonique (cf. Moye 1979).
Cela pose un problème; certaines fréquences de la voix humaine, et plus
concrètement celles qui se situent en dehors du spectre 300-3500 Hz, sont
filtrées lorsqu’elles sont transmises par ce moyen de communication. Ce
système de communication a une incidence sur certains traits acoustiques
des échantillons de parole enregistrés et, partant, jette un doute sur la fiabilité des comparaisons réalisées entre des voix téléphoniques interceptées et
enregistrées et des voix enregistrées en présence du suspect. À cet égard,
certaines variables sont particulièrement robustes et résistent bien à l’influence de ce moyen de communication. C’est le cas de la fréquence fondamentale (F0), d’où sa si grande importance en phonétique judiciaire. En
revanche, d’autres variables sont clairement affectées. Künzel (2001), par
exemple, a démontré, pour les voyelles allemandes, que le filtrage téléphonique altère clairement les fréquences des formants des sons, en particulier
de F1. Il est vrai qu’en réponse à ce travail, Nolan (2002) minimise les bémols
émis par Künzel à l’utilité de ce paramètre (la structure formantique). Quoi
qu’il en soit, d’un point de vue méthodologique, c’est l’une des variables qu’il
faut considérer avec précaution au moment de comparer la parole téléphonique avec la parole présentielle. Comme l’attestent l’étude de Byrne et
Foulkes (2004) sur les effets des téléphones mobiles sur les formants, dont
les résultats indiquent qu’ils subissent tous une modification de fréquence (et
plus particulièrement le F1, comme l’a montré le chercheur allemand dans
son étude sur les téléphones fixes), et l’étude de Chen et al. (2009) qui font
état d’une augmentation jusqu’à 29 % de la fréquence de F1 (pour un téléphone mobile) et de 5 % (pour un fixe). Relativement à l’espagnol parlé au
Chili, Rosas et Sommerhoff (2009) ont obtenu, pour l’essentiel, les mêmes
résultats (cf. aussi Kuitert et Boves 1997, Jiménez 2011).
Voilà pour l’influence de ce moyen de communication sur certains traits
acoustiques. Mais il faudra aussi considérer le fait que le locuteur modifie sa
voix (souvent de façon inconsciente) lorsqu’il parle au téléphone. Comme l’expliquent Byrne et Faulkes (2004, 84), certaines personnes peuvent changer
complètement leur façon de parler et prendre une «voix téléphonique» dont la
qualité vocale générale est différente de leur voix habituelle. Dans les cas les
moins frappants, on est parvenu à démontrer que beaucoup de locuteurs ont
334
3/12
Revue internationale de criminologie et de police technique et scientifique
tendance à crier et que ce changement d’intensité entraîne une augmentation
de la fréquence fondamentale (F0), mais pas nécessairement dans la même
proportion (cf. Summers et al. 1988; Summers et al. 1989; Hirson, French et
Howard 1995, French 1998).
‡ Quinzième recommandation: Si l’échantillon de voix inconnues correspond à
une voix téléphonique interceptée, la voix connue devrait être recueillie sous
forme de conversation téléphonique filtrée entre le suspect et les fonctionnaires de police, placés dans deux salles situées hors du cadre des locaux
de la police ou du tribunal. A cet égard et en particulier en ce qui concerne
le téléphone mobile, dans le processus d’enregistrement on devra tenir en
compte les recommandations du National Institute of Standard and
Technology (NIST), publiées en 2007.
Conformément à la procédure utilisée par Nolan et al. (2006) pour créer une
base de données de l’anglais contrôlé, phonétiquement et stylistiquement, et
destinée à l’investigation judiciaire – qui peut nous servir dans le cas qui nous
occupe (cf. le graphique de la figure 1, extraite de ce travail) –, le fonctionnaire
(«researcher» dans le schéma de Nolan et al.) téléphone via une ligne externe
au suspect («subject»), les deux personnes se trouvant dans deux pièces distinctes. La parole du suspect est directement enregistrée à travers le téléphone
et indirectement via une interception téléphonique.
Figure 1. Schéma d’enregistrement d’une conversation téléphonique
interceptée, élaboré par Nolan et al.
(http://www.ling.gu.se/konferenser/iafpa2006/presentations/Monday/session1/
Nolan_etalDyViS/Nolan_etal_iafpa2006.pdf)
Revue internationale de criminologie et de police technique et scientifique
3/12
335
Il appartient aux autorités policières ou judiciaires, dûment conseillées par
un personnel qualifié, de renforcer, dans la mesure du possible, le degré de
comparabilité des échantillons de voix inconnues et connues. Toutefois, il existe, bien évidemment, des éléments de la vie réelle que l’on ne peut reproduire
dans un contexte contrôlé, tels que les effets produits par les drogues ou l’alcool ou l’influence d’un très grand stress physique ou psychologique. C’est
pourquoi l’on insiste sur le fait que la comparaison a posteriori des échantillons
soit, si possible, réalisée par un expert averti et capable de prendre en considération dans son analyse l’influence qu’exercent ces variables sur l’acoustique
des messages afin de ne pas la «considérer» dans les conclusions.
4. Procédure pour recueillir la parole spontanée
Il est fondamental de recueillir la parole spontanée connue car elle recèle non
seulement les traits phonétiques idiosyncrasiques du locuteur mais aussi les
particularités lexicales (emploi répété d’un mot en particulier, par exemple),
morphologiques (mauvaise conjugaison de certains verbes, utilisation fautive
des concordances, etc.), syntactiques (anaphores, cataphores, anacoluthes
récurrentes etc.), familières (tics de langage, faux départs, etc.). En définitive, il
s’agit de tout un éventail de phénomènes qui, s’ils sont bel et bien présents
dans les échantillons de voix spontanée inconnue, sont très utiles dans les processus de comparaison et permettent d’établir un «passeport vocal» du locuteur.
On distingue deux types de parole spontanée que nous appellerons parole
spontanée conversationnelle (dirigée ou semi-dirigée) et parole spontanée en
description.
a) La parole spontanée conversationnelle (11) fournit sans aucun doute l’échantillon le plus authentique des habitudes phono-articulatoires de la personne
impliquée. Comme nous l’avons signalé précédemment, certains phénomènes idiosyncrasiques, comme la vitesse d’élocution ou tempo, se manifestent plus fiablement dans une conversation que dans tout autre type de
tâches (lecture, description…) sujettes à divers conditionnements. De même,
les variables liées à l’intonation et à la prosodie en général et les habitus que
Poyatos (1994) appela «identificateurs paralinguistiques» (la toux, le raclement de gorge, le rire…) sont aussi plus abordables à partir de ce type
d’échantillons qu’à partir d’autre type de matériau.
Pour que la personne impliquée maintienne une conversation avec le fonctionnaire de service et que ses émissions soient les plus naturelles possibles, il
faudrait créer un climat détendu et établir une certaine confiance qui favorise la
locution. Fadden (2006) explique que les réponses, s’il y en a, apportées par les
interviewés aux policiers et/ou aux juges (en général), sont classées en une
série relativement petite de catégories: ils confirment ou ils nient une informa336
3/12
Revue internationale de criminologie et de police technique et scientifique
tion importante sur le délit; ils apportent un nouvel élément sur ce dernier; ils
avouent ou admettent de nouveaux délits de moindre importance; ou plus simplement ils apportent une information non pertinente pour l’éclaircissement de
l’affaire. Fadden étudie la manifestation de certains traits prosodiques (tempo,
gamme tonale, pauses…) dans chacune de ces caractéristiques générales de
réponse et il en conclut que les réponses où l’impliqué parle de choses non pertinentes pour l’enquête s’éloignent toutes des autres, ce qui est compréhensible, car la locution est plus naturelle et est moins conditionnée par la crainte
de dire quelque chose qui pourrait se retourner contre lui. C’est précisément ce
type d’entrevues qui est utile pour comparer des voix et non l’interrogatoire
classique destiné à mieux comprendre les circonstances de l’affaire.
‡ Seizième recommandation: L’interrogateur qui souhaite recueillir des échantillons de parole les plus naturels possibles devra proposer des sujets de
conversation à mille lieues des faits reprochés aux personnes mises en examen, tout en s’assurant de la manifestation de certains mots, de certains
traits auditifs ou intéressants pour l’analyse spectrale.
‡ Dix-septième recommandation: Il convient d’instaurer un climat de relative
confiance avec l’interviewé en choisissant des sujets à propos desquels les
impliqués ont une opinion arrêtée et facile à exprimer (passe-temps, expériences vécues, etc.).
b) La parole spontanée en description permet d’étudier les mêmes traits que
ceux recueillis lors d’une conversation dirigée (12), mais par un autre moyen.
Elle permet un plus grand contrôle sur certains contenus, ce qui renforce, fort
logiquement, la représentativité et la comparabilité de l’échantillon.
L’idée maîtresse est que le suspect devra réaliser quelques tâches descriptives par le biais du langage. La description d’un plan et le jeu des différences
constituent les deux types de tâche les plus connues des phonéticiens et les
plus utilisées par ces derniers pour recueillir des échantillons de parole naturels
(13). Dans le premier cas, le suspect et l’intervieweur disposent chacun d’un
plan mentionnant divers endroits et leurs dénominations (l’on peut jouer sur ces
dernières pour insérer les mots que l’on veut recueillir). En outre, le plan du suspect présente le tracé d’un chemin pour aller d’un endroit concret à un autre (cf.
figure 2, ci-dessous), tracé qui n’apparaît pas sur le plan de l’intervieweur,
lequel devra dessiner sur son plan le tracé en suivant les instructions et les indications que lui donnera le suspect qui devra bien évidemment répéter plusieurs
fois les mots importants qui feront l’objet de l’analyse ultérieure. Si le mot police, pour prendre un exemple, apparaît dans les échantillons de voix inconnues,
il est souhaitable que le suspect le prononce le plus grand nombre de fois possible; l’un des endroits du plan peut s’appeler «commissariat de police». Fort
habile, l’intervieweur fera en sorte que le suspect répète plusieurs fois ce mot
(«Qu’est-ce qu’il y a à droite?», «Quel bâtiment se trouve à proximité?», etc.).
Revue internationale de criminologie et de police technique et scientifique
3/12
337
La seconde tâche consiste à découvrir, moyennant des questions et des
réponses, les différences entre deux dessins qui ne sont pas exactement les
mêmes, le suspect et l’intervieweur disposant chacun d’un dessin. À l’instar
du plan, aucun des deux ne voit le dessin de son interlocuteur, tant et si bien
que tout passe par le langage. Ce faisant, l’impliqué doit derechef prononcer
les mots qui intéresseront l’enquête. Ainsi si le mot voiture apparaît dans
l’échantillon de voix inconnues, l’objet «voiture» doit apparaître sur les dessins (cf. exemple infra. figure 3).
5. Paramètres phonétiques à haut rendement
Les experts le savent bien, et Rose (2002, 53) l’explique clairement, il existe
de nombreux paramètres distincts qui peuvent à un moment donné être
utiles pour comparer des voix à des fins judiciaires. Toutefois, cet auteur, à
la suite de Nolan (1983), précise que les paramètres retenus à cette fin doivent remplir certaines conditions, à savoir:
- Les échantillons de voix intéressant l’enquête doivent présenter un grand
nombre d’occurrences;
- Supporter correctement les distorsions que peut produire le canal de communication;
- Être relativement simples à extraire et à mesurer;
- Être difficiles à dissimuler ou à imiter volontairement;
- Présenter un faible degré de variabilité intra-locuteur, mais un haut degré
de variabilité inter-locuteur;
- Être indépendants entre eux.
Il va sans dire que l’on ne pourra remplir certaines de ces conditions, que
si les échantillons de voix inconnues et connues, éléments qui ont déclenché tout le processus, ont été correctement recueillis. À titre d’exemple, il est
difficile de réunir un nombre suffisant d’observations d’un paramètre donné
si l’on n’a pas enregistré un fragment de parole suffisamment long; il sera
impossible d’extraire les valeurs d’une variable si l’enregistrement n’a pas
été réalisé selon les standards techniques appropriés. Le choix de paramètres résistant aux distorsions du canal de transmission ne servirait à rien
si l’on n’a pas utilisé le même pour recueillir la voix inconnue et la voix
connue, etc.
Quoi qu’il en soit, outre ces considérations générales, on peut en ajouter
une autre qui dépend plus particulièrement de l’enregistrement de la parole
connue:
On veillera à inclure, dans les échantillons de voix connue, les paramètres que l’on considère comme potentiellement utiles à partir de
l’analyse préalable des échantillons de voix inconnues. Ils seront comparés en priorité.
338
3/12
Revue internationale de criminologie et de police technique et scientifique
6. Synthèse de la proposition de protocole
Il est recommandé de recueillir plusieurs échantillons de voix du locuteur connu, si possible espacés dans le
temps (années, mois ou semaines, selon les caractéristiques de l’affaire et la faisabilité) et capturés à différents
moments de la journée.
Le(s) enregistrement(s) de voix connues doivent être préparés à l’avance, sous la supervision d’un expert, et
reposer sur des paramètres potentiellement comparables et présents dans les traces.
Il serait bon de relever, dans les enregistrements réalisés, un bon nombre d’occurrences de chaque paramètre
comparable (une trentaine serait l’idéal).
Il faut travailler avec un échantillon d’au moins 30 secondes (ou 100 mots) de parole inconnue et connue pour
que l’on ne puisse mettre en doute la fiabilité de la comparaison de voix. Il s’ensuit qu’il faudra enregistrer au
minimum 1 minute de parole spontanée, 1 minute de lecture d’un texte préparé en fonction des échantillons de
voix inconnues disponibles et 1 minute de lecture d’un texte équilibré d’un point de vue phonétique.
Le matériel employé pour toutes les prises de voix connues à comparer doit toujours être le même.
Il faudrait utiliser un microphone à condensateur avec une réponse en fréquence linéaire allant jusqu’à 20 kHz
et à directivité cardioïde ou hypercardioïde. La sensibilité sera d’au minimum 10 mV/Pa et la plage dynamique,
de 100 dB.
Une carte son externe donnera le meilleur d’elle-même si la réponse en fréquence est le plus linéaire possible
et qu’elle permet de choisir une fréquence d’échantillonnage adaptée à l’enregistrement (44’100 Hz ou
48’000 Hz). L’alimentation devra être impérativement de type Phantom afin de pouvoir brancher un microphone
à condensateur.
Le logiciel utilisé devra permettre l’enregistrement audio au format non compressé (wav avec compression
PCM), et une fréquence d’échantillonnage et une résolution minimales de 44’100 Hz et de 16 bits par échantillon
respectivement.
Au cours de l’enregistrement, l’on doit pouvoir réaliser une écoute en temps réel afin de s’assurer qu’il n’y a ni
bruit intempestif ni saturation. Pour ce faire, on utilisera des casques professionnels.
Le temps de réverbération de la salle d’enregistrement doit être inférieur à 1 seconde et son niveau de bruit de
fond, inférieur à 35 dB, ce qui donne un rapport signal-bruit d’environ 30 dB.
Le microphone et la carte son devraient être placés le plus loin possible de toute source de bruit. Le microphone doit être placé près du locuteur (la distance varie en fonction du type de microphone). On prêtera une attention toute particulière aux éventuels bruits produits par la respiration, les coups sur la table et le feuilletage.
On veillera à enregistrer les voix connues de sorte à renforcer leur degré de comparabilité avec les traces. En
présence de voix criantes, par exemple, il est conseillé d’obtenir des sujets impliqués qu’ils crient aussi dans
l’enregistrement sous contrôle de la voix spontanée. Pour ce faire, au cours de l’entretien, on fera passer dans
les casques des interlocuteurs – intervieweur et interviewé – de la musique ou un bruit blanc à un niveau qui ne
fasse ni mal ni n’empêche la rétroalimentation auditive, et ce afin qu’ils soient obliger de crier pour se faire
entendre.
Dans la mesure du possible, il faut recueillir des échantillons de parole de deux types, la parole lue et la parole
spontanée.
L’échantillon de parole lue peut être établi à partir de fragments de la transcription de la voix inconnue, que l’on
ajoute au texte spécialement conçu pour le test, et à partir d’un texte équilibré d’un point de vue phonétique. La
préparation de l’échantillon de parole spontanée doit obéir à une procédure préalablement définie et prendre en
compte tous les facteurs susceptibles de favoriser la comparabilité.
Si la trace correspond à une voix téléphonique interceptée, la voix connue devrait être recueillie sous forme de
conversation téléphonique filtrée entre le suspect et les fonctionnaires de police, placés dans deux salles situées
hors du cadre des locaux de la police ou du tribunal.
L’enquêteur qui souhaite recueillir des échantillons de parole les plus naturels possibles devra proposer des
sujets de conversation à mille lieues des faits reprochés aux personnes mises en examen, tout en s’assurant de
la manifestation de certains mots, de certains traits auditifs ou intéressants pour l’analyse spectrale.
Il convient d’instaurer un climat de relative confiance avec l’interviewé en choisissant des sujets à propos desquels les personnes impliquées ont une opinion arrêtée et facile à exprimer (passe-temps, expériences vécues,
etc.).
Revue internationale de criminologie et de police technique et scientifique
3/12
339
7. Conclusion
Certes, d’aucuns pourraient considérer que les nombreuses heures de travail
liées à l’application de ce protocole et le nombre de paramètres à considérer
n’encouragent pas son utilisation dans la pratique judiciaire. Nous pensons, au
contraire, qu’il faut s’entourer de mille précautions dès lors que l’expertise phonétique peut avoir des conséquences dramatiques sur la vie et la réputation de
la personne impliquée. La rigueur et le professionnalisme, qui doivent caractériser tout le processus, seront présents, depuis les phases initiales que nous
avons abordées dans cet article, jusqu’aux phases finales.
Bibliographie
Aguilar, L., Blecua, B., Machuca, M. J. et Marín, R. (1993) Phonetic reduction processes in spontaneous speech. Dans Eurospeech’93. Third European Conference on Speech Communication
and Technology (pp. 433-436). Berlin.
Baldwin, J. et French, P. (1990). Forensic Phonetics. Londres: Pinter.
Batliner, A., Kompe, R., Kiessling, A., Nöth, E. Et Niemann, H. (1995). Can you tell apart spontaneous and read speech if you just look at prosody? Dans A. J. Rubio et J. M. López (Eds.),
Speech Recognition and Coding. New Advances and Trends (pp. 321-324). Berlin: Springer.
Blatchford, H. et Foulkes, P. (2006). Identification of voices in shouting. International Journal of
Speech, Language and the Law, 13(2), 241-254.
Blaauw, E. (1991). Phonetic characteristics of spontaneous and read-aloud speech. Dans
Proceedings of the ESCA Workshop ‘Phonetics and Phonology of Speaking Styles: Reduction
and Elaboration in Speech Communication’ (pp. 121 – 125). Barcelone: ESCA.
Braun, A. (1995). Fundamental frequency - How speaker specific is it? Dans A. Braun et J.- P.
Köster (Eds.) Studies in Forensic Phonetics (pp. 9-23).Trier: Wissenschaftliger Verlag.
Braun, A. et Friebis, S. (2009). Phonetic cues to speaker age: A longitudinal study. Dans G.
Grewendorf et M. Rathert (Eds.), Formal Linguistics and Law (pp. 141-162). Berlin: Mouton de
Gruyter.
British Home Office (2003). Advice on the use of identification parades. Home Office Circular
057/2003. http://www.homeoffice.gov.uk/about-us/corporate-publications-strategy/home-office-circulars/circulars-2003/057-2003/ (30 avril, 2012).
Broeders, A. P. A. (2001). Forensic speech and audio analysis. Forensic Linguistics. 1998 to 2001.A
Review. Dans 13th INTERPOL Forensic Sciences Symposium, Lyon, France.
http://www.interpol.int/Public/Forensic/IFSS/meeting13/Reviews/ForensicLinguistics.pdf
Broeders, A. P. A. (2005). Forensic speech and audio analysis. Forensic linguistics. A review:
2001-2004. Dans 14th INTERPOL Forensic Science Symposium. Lyon.
Broeders, A. P. A., Cambier-Langeveld, T. et Vermeulen, J. (2002).Obtaining reference material in a
case with two unknown speakers: Getting two suspects on speaking terms. Forensic
Linguistics, 9(1), 87-93.
Byrne, C. et Foulkes, P. (2004). The mobile phone effect on vowel formants. International Journal of
Speech, Language and the Law, 11, 83-102.
Champod, C. et Meuwly, D. (2000). Inference of identity in forensic speaker recognition. Speech
Communication, 31(2), 193-203.
Chen, N. F., Shen, W., Campbell, J. et Schwartz, R. (2009). Large scale analysis or formant frequency estimation variability in conversational telephone speech. Dans Interspeech 2009,
Brighton.
Elliott, J. R. (2000). Auditory and F-pattern variation in Australian Okay: A forensic investigation.
Acoustics Australia, 29(1), 37-41.
340
3/12
Revue internationale de criminologie et de police technique et scientifique
ENFSI Working Group (2006). Work Instruction on Best Practice in Undoubt Forensic Voice
Recordings. Ref. WG-GC-001, Issue number 1, 23-01-2006. (Manuscrit non publié à usage
interne).
Eriksson, A. (2005). Tutorial on forensic speech science. Part I: Forensic phonetics. Dans
Interspeech 2005 - Eurospeech. Proceedings of the 9th European Conference on Speech
Communication and Technology. Lisbonne, 2005.
Fadden, L. (2006). The prosody of suspects’ speech during police interviews. Dans Proceedings of
Speech Prosody 2006, Dresden, Allemagne. 2-5 mai, 2006.
Fritzell B, Hallén O. et Sundberg, J. (1974). Evaluation of Teflon injection procedures for paralytic
dysphonia. Folia Phoniatrica, 26, 414-421.
French, J. P. (1994). An overview of forensic phonetics with particular reference to speaker identification, Forensic Linguistics, 1(2), 169-184.
French, J. P. (1998). Mr Akbar’s nearest ear versus the Lombard reflex: A case study for forensic
phonetics. Forensic Linguistics, 5(2), 58–68.
Fungairiño, E. (2000). Notas sobre la prueba de audio en el proceso penal. Dans J. Ortega (Ed.).
SEAF 2000. Actas del I Congreso de la Sociedad Española de Acústica Forense. Madrid: EUIT
de Telecomunicación, 1-12.
Grewendorf, G. et Rathert, M. (Eds.) (2009). Formal Linguistics and Law, Berlin: Mouton de Gruyter.
Hacki, T. (1996). Comparative speaking shouting and singing voice range profile measurement:
Physiological and pathological aspects. Logopedics Phoniatrics Vocology, 21, 123-129.
Harmegnies, B. et Poch, D. (1992). A study on style-induced vowel variability: Laboratory versus
spontaneous speech in Spanish. Speech Communication, 11(4-5), 429-438.
Harris, C. M. et Weiss, M. R. (1964). Effects of speaking condition on pitch. Journal of the Acoustical
Society of America, 6(5), 933-936.
Hirson, A., French, J. P. et Howard, D. (1995). Speech fundamental frequency over the telephone
and face-to-face: some implications for forensic phonetics. Dans J. Windsor Lewis (Ed.),
Studies in General and English Phonetics in Honour of Professor J. D. O’Connor (pp. 230-240).
Londres: Routledge.
Hollien, H. (1990). The Acoustics of Crime. The New Science of Forensic Phonetics. New York:
Kluwer Academic - Plenum Publishers.
Hollien, H. (2002). Forensic Voice Identification. San Diego: Academic Press.
Hollien, H., Hollien, P. et de Jong, G. (1997). Effects of three parameters on speaking fundamental
frequency. Journal of the Acoustical Society of America, 102, 2984-2981.
Hollien, H. et Schwartz, R. (2001). Speaker identification utilizing noncontemporary speech. Journal
of Forensic Sciences, 46, 63-67.
Horvath, F. (2002). Voice identification. Dans D. Levinson (Ed.), Encyclopedia of Crime and
Punishment (pp. 1692-1694). Londres: Berkshire Publishing Group.
Jansen, W. et Ayers, R. (2007). Guidelines on Cell Phone Forensics. Recommendations of the
National Institute of Standard and Technology. NIST: Washington.
Jessen, M. (2009a). Forensic phonetics. Language and Linguistics Compass, 2(4), 671-711.
Jessen, M. (2009b). Forensic phonetics and the influence of speaking style. Dans G. Grewendorf et
M. Tathert (Eds.), Formal Linguistics and Law (pp. 115-140). Berlin: Mouton de Gruyter.
Jessen, M. et Jessen, M. (2007). Speak up please: Towards stimulating vocal effort changes in the
recording of suspect material. IAFPA 2007. Plymouth.
Jessen, M., Köster, O. et Gfroerer, S. (2005). Influence of vocal effort on average and variability of
fundamental frequency. International Journal of Speech, Language and the Law, 12, 174-213.
Jiménez, J. J. (2011). Estructura formántica y campo de dispersión de las vocales del español en
telefonía móvil. Cuadernos de Trabajo del Posgrado Oficial en Estudios Fónicos, 1, 39-58.
Keller, E. (2004). The analysis of voice quality in speech processing. Proceedings of Summer School
on Neural Networks’2004, 54-73.
Kuitert, M. et Boves, L. (1997). Speaker verification with GSM coded telephone speech. Dans
Proceedings of Eurospeech’97 (pp. 975-978). Rhodes, Grèce.
Revue internationale de criminologie et de police technique et scientifique
3/12
341
Künzel, H. (1994). On the problems of speaker identification by victims and witnesses. Forensic
Linguistics, 1(1), 45-57.
Künzel, H. J. (1995). Field procedures in forensic speaker recognition. Dans J. Windsor Lewis (Ed.),
Studies in General and English Phonetics. Essays in Honour of J. D. O’Connor (pp. 68 – 84).
Londres: Routledge.
Künzel, H. J. (1997). Some general phonetic and forensic aspects of speaking tempo. Forensic
Linguistics, 4(1), 48-84.
Künzel, H. J. (2001). Beware of the ‘telephone effect’: The influence of telephone transmission on the
measurement of formant frequencies. Forensic Linguistics, 8, 80–99.
Künzel, H. J. (2004). Tasks in forensic speech and audio analysis: A tutorial. The Phonetician, 90, 9-22.
Laan, G. (1997). The contribution of intonation, segmental durations, and spectral features to the perception of a spontaneous and a read speaking style. Speech Communication, 22, 43-65.
Ladefoged, J. et Ladefoged, J. (1980). The ability of listeners to identify voices. UCLA Working Papers
in Phonetics, 49, 43-51.
Laver, J. (1980). The Phonetic Description of Voice Quality. Cambridge: Cambridge University Press.
Llisterri, J. (1992). Speaking styles in speech research. Elsnet/Esca/Salt Workshop on Integrating
Speech and Natural Language. Dublin.
Lucena, J. J. (2002). Marco legal español en la prueba pericial de voz. Acústica Forense. Revista Oficial
de la Sociedad Española de Acústica Forense, 1, 46-60.
Martínez Sánchez, C. (1999). El valor de la prueba pericial. Dans II Simposio sobre Reconocimiento
de Voz con Fines Forenses, [CD]. Cartagena: Universidad Politécnica de Cartagena.
Mixdorff, H. et Pfitzinger, H. R. (2005). Analysing fundamental frequency contours and local speech
rate in map task dialogs. Speech Communication, 46, 310-325.
Moos A. (2008). Long-term formant distribution (LTF) based on German spontaneous and read speech. Proceedings of IAFPA 2008, Lausanne.
Moye, L. S. (1979). Study of the Effects on Speech Analysis of the Types of Degradation Occurring in
Telephony, Harlow, Essex: Standard Telecommunication Laboratories.
National Research Council (1979). On the Theory and Practice of Voice Identification, Washington:
National Academy of Sciences.
Moos A. (2008). Long-term formant distribution (LTF) based on German spontaneous and read speech. International Association for Forensic Phonetics and Acoustics (IAFPA) 17th Annual
Conference.
Morrison, G. S. (2009). Forensic voice comparison and the paradigm shift. Science & Justice, 49,
298–308.
Morrison, G. S. (2010). Forensic voice comparison. Dans I. Freckelton et H. Selby (Eds.), Expert
Evidence (Ch. 99). Sydney, Australie: Thomson Reuters.
Morrison, G. S. (2011a). Measuring the validity and reliability of forensic likelihood-ratio systems.
Science and Justice, 51, 91–98.
Morrison, G. S., Rose, P. et Zhang, C. (2011b). Protocol for the collection of databases of recordings
for forensic-voice-comparison research and practice. Technical Report, Forensic Voice
Comparison Laboratory, University of New South Wales.
Nolan, F. (1983). The Phonetic Bases of Speaker Recognition, Cambridge: Cambridge University
Press.
Nolan, F. (1991). «Forensic Phonetics», Journal of Linguistics, 27, 483-493.
Nolan, F. (1997). Speaker recognition and forensic phonetics. Dans W. Hardcastle et J. Laver (Eds.).
The Handbook of Phonetic Sciences (pp. 44-767). Oxford: Blackwell.
Nolan, F. (2002). The ‘telephone effect’ on formants: A response. Forensic Linguistics, 9, 74–82.
Nolan, F., McDougall, K., de Jong, G. et Hudson, T. (2006). A forensic phonetic study of ‘dynamic’
sources of variability in speech: The DyViS project. Dans P. Warren et C. I. Watson (Eds.),
Proceedings of the 11th Australasian International Conference on Speech Science and Technology
(pp.13-18). 6-8 Décembre 2006. Auckland: Australasian Speech Science and Technology
Association.
342
3/12
Revue internationale de criminologie et de police technique et scientifique
Poyatos, F. (1994). La comunicación no verbal. Madrid: Istmo.
Quilis, A. (1999). El reconocimiento de la voz en la investigación judicial: La experiencia del
lingüista. Dans P. Gómez, J. Carbonero et M. Casado (Eds.). Lengua y discurso: Estudios
dedicados al profesor Vidal Lamíquiz (pp. 783-790). Madrid: Arco-Libros.
Rosas, C. et Sommerhoff, J. (2009). Efectos acústicos de las variaciones fonopragmáticas y
ambientales. Estudios filológicos, 44, 195-210.
Rose, Ph. (2002). Forensic Speaker Identification. Londres: Taylor and Francis.
Summers, W. V., Johnson, K., Pisoni, D. B. et Bernacki, R. H. (1989). An addendum to “Effects of
noise on speech production: Acoustic and perceptual analyses. Journal of the Acoustical
Society of America, 86, 1717–21.
Summers, W. V., Pisoni, D. B., Bernacki, R. H., Pedlow, R. I. et Stokes, M. A. (1988). Effects of
noise on speech production: acoustic and perceptual analyses. Journal of the Acoustical
Society of America, 84, 917–28.
Swerts, M. et Collier, R. (1992). On the controlled elicitation of spontaneous speech. Speech
Communication, 11, 463-468.
Tanner, D. C. et Tanner, M. (2004). Forensic Aspects of Speech Patterns: Voice Prints, Speaker
Profiling, Lie and Intoxication Detection. New York: Lawyers & Judges Publishing Co.
Tjaden, K. (2000). A preliminary study of factors influencing perception of articulatory rate in
Parkinson disease. Journal of Speech, Language and Hearing Research, 43, 997-1010.
Vermeulen, J. F. M. et Cortés, P. A. (2011). Obtaining reference material: NFI procedures. IAFPA
2011. Vienne.
Remerciements
Les auteurs remercient le professeur Geoffrey S. Morrison d’avoir relu attentivement le manuscrit
et d’y avoir apporté des commentaires. Il va sans dire que toute erreur est le seul fait des auteurs
de ce travail. Cet article est le fruit d’un travail financé par le Ministère de l’Économie et de la
Compétitivité (Plan National de R&D, ref. FFI2010-21690-CO2-01)
Notes
1 La littérature sur la phonétique judiciaire est très riche. On retiendra plus particulièrement les
travaux suivants, qui présentent un panorama général: Baldwin et French (1990), Hollien
(1990, 2002), French (1994), Braun et Köster (1995), Künzel (1994, 1995, 2004), Nolan (1983,
1997), Broeders (2001), Rose (2002), Tanner et Tanner (2004), Eriksson (2005), Jessen (2009)
et Morrison (2009).
2 Certes, il existe des protocoles à usage interne, comme celui utilisé par la Guardia Civil
(ENFSI 2006) dans ses interventions, lesquelles obéissent aux Instrucciones Técnicas. Le
Netherlands Forensic Institute dispose aussi de directives propres de procédure (Broeders et
al. 2002, Vermeulen et Cortés 2011).
3 La procureure signale que, lors d’une réunion du Comité d’experts sur la bioéthique qui s’est
tenue à Strasbourg en mai 1991, le Conseil de l’Europe a fait une recommandation selon
laquelle on ne peut utiliser dans la réalisation d’une expertise, comme éléments indubitables,
les échantillons volontairement apportés par le mis en examen pour une procédure différente de celle qui est en cours, ni le résultat obtenu dans une procédure pour une autre. Le
Conseil de l’Europe a recommandé de ne pas utiliser des informations apportées par l’individu à des fins autres que judiciaires. Martínez Sánchez se demande s’il faudrait appliquer
cette thèse à l’identification vocale et s’interroge sur les conséquences de cette application
sur l’existence d’une base de données de voix, semblable à celles qui existent pour les
empreintes digitales. Quoi qu’il en soit, elle ajoute qu’il appartient au législateur d’apporter
une réponse.
Revue internationale de criminologie et de police technique et scientifique
3/12
343
4 Concernant l’influence du temps qui passe et de l’âge sur la voix d’un individu, Braun et Friebis
(2009) concluent leur étude longitudinale, réalisée sur les voix des hommes politiques allemands, en affirmant que les échantillons non contemporains d’un même locuteur (échantillons
séparés par un maximum de 10 ans) ne posent pas nécessairement de problèmes dans un
contexte de comparaison de voix, pourvu qu’il s’agisse d’un adulte non sénile et qu’il n’ait pas
été atteint de maladie ou subi une opération de la trachée durant ce laps de temps. On trouvera ce même genre d’observations dans l’article de Hollien et Schwartz (2001).
5 Citons, à titre d’exemple, Adobe Audition, Sound Forge, Praat …, etc.
6 Cette réaction est connue en acoustique sous le terme d’«effet Lombard» ou le fait que les locuteurs parlent systématiquement plus fort dans une ambiance bruyante.
7 On peut lire ainsi à la page 75 du rapport «Current procederes in voice identification» repris
dans l’ouvrage de 1979 On the Theory and Practice of Voice Identification publié par le National
Research Council des États-Unis qu’il est toujours préférable que le suspect répète des
phrases-type prononcées par l’intervieweur à ce qu’il les lise.
8 Il n’est pas difficile de trouver des exemples de cas où la police utilise la lecture sans trop se
poser de questions. On pouvait, par exemple, lire récemment dans la version en ligne du journal indien Daily News and Analysis (Bombay, 24-02-2011) décrivant par le menu une arrestation, que «the police said the suspects are made to read aloud from books. The voice would be
recorded in the morning, afternoon and night” (http://dnaidia.com).
9 Jessen explique qu’on avait constaté, dans certains travaux, que la F0 moyenne était plus élevée en parole lue qu’en parole spontanée (Blaauw 1991, Hollien et al. 1997, Laan 1997, Künzel
1997); mais d’autres travaux ont démontré le contraire (Berliner et al. 1995). Par ailleurs, conformément à certaines études sur la variabilité de la fréquence, elle semblait être plus élevée en
parole lue qu’en parole spontanée (Tjaden 2000), mais la tendance était juste l’inverse dans
d’autres travaux (Mixdorff et Pfitzinger 2005). En définitive, ces résultats sont très hétérogènes.
10 Il est fréquent que le simple fait de lire à haute voix, face à des témoins pas nécessairement
amicaux, et dans une ambiance hostile, stresse certaines personnes.
11 En réalité, il faudrait plutôt parler d’ «entrevue» au lieu de «conversation», car, dans une situation idéale, l’intervieweur devrait intervenir le moins possible et laisser parler le suspect. Son
intervention ayant pour seul but d’éviter que le sujet de conversation ne s’épuise. L’entrevue
doit donc être contrôlée, sans que cela se voie.
12 Pour une explication très claire et détaillée des différents problèmes méthodologiques liés à la
phonétique expérimentale, et que nous avons brièvement abordés dans le cadre de la phonétique judiciaire, on se reportera à Llisterri (1991, 1992), et au site web
http://liceu.uab.es/~joaquim/phonetics/fon_met_exper/corp_trab.html.
13 Il existe deux manières, en phonétique expérimentale, de recueillir la parole naturelle. L’une
d’elle consiste à décrire un réseau fait de figures géométriques de différentes couleurs (cf.
Swerts et Collier 1992). Cependant, elles sont difficilement adaptables au domaine et aux
caractéristiques de la phonétique judiciaire. Broeders et al. (2002) et Morrison, Rose et Zhang
(2011b) proposent des suggestions très intéressantes pour recueillir la parole naturelle.
344
3/12
Revue internationale de criminologie et de police technique et scientifique

Documents pareils