mp ricpts - Estudios Fónicos
Transcription
mp ricpts - Estudios Fónicos
Revue internationale de CRIMINOLOGIE et de POLICE technique et scientifique ISSN 1424-4683 Volume LXV Juillet - Septembre 2012 La proportionnalité et la modération dans la détermination de la peine: l’art d’être juste par Chloé Leclerc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .259 Que savons-nous de la consommation de la sécurité? par Massimiliano Mulone et Chantal Desroches . . . . . . . . . . . . . . . . .283 L’évaluation du risque de récidive en France: Expérience et Attitudes des Conseillers Pénitentiaires d’Insertion et de Probation par Massil Benbouriche, Aude Ventéjoux, Mélody Lebougault et Astrid Hirschelmann . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .305 Proposition raisonnée de protocole de capture de voix connues à des fins judiciaires par Juana Gil, Helena Alves et José Antonio Hierro . . . . . . . . . . . . . .319 La conception de schémas relationnels en analyse criminelle: au-delà de la maîtrise des outils par Quentin Rossy et Olivier Ribaux . . . . . . . . . . . . . . . . . . . . . . . . . . .345 Problématiques et règles d’emploi criminalistiques des engins de chantier pour la recherche de cadavres enfouis. L’expérience de l’Institut de recherche criminelle de la Gendarmerie nationale (France). par Patrice Georges, Florent Ducrettet, Franck Nolot, Jean Richebé et Yves Schuliar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .363 Notes de police scientifique par Olivier Delémont et Pierre Margot . . . . . . . . . . . . . . . . . . . . . . . . .375 Bibliographie par Marie-Claude Hertig . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .381 Revue internationale de criminologie et de police technique et scientifique 3/12 257 Proposition raisonnée de protocole de capture de voix connues à des fins judiciaires par Juana GIL*, Helena ALVES** et José Antonio HIERRO*** Résumé Dans certaines affaires judiciaires, il faut produire la preuve scientifique de la comparaison de voix, qui consiste fondamentalement à comparer la voix ou les voix d’origine inconnue, recueillies par la police moyennant des enregistrements de conversations téléphoniques, avec la voix ou les voix des suspects ou des personnes arrêtées. Pour ce faire, il faut obtenir des échantillons vocaux de ces derniers. Pour que cette démarche soit utile et qu’elle permette et favorise la comparabilité entre les deux types d’enregistrement, il faut considérer divers facteurs, fussent-ils purement techniques, tels que le matériel employé et les conditions d’enregistrement, ou scientifiques, tels que les résultats des progrès réalisés à ce jour par la phonétique judiciaire. Cet article propose, en pareils cas, un protocole et une procédure concrète d’intervention qui reposent sur l’état des connaissances concernant la comparaison de voix. Mots-clés: Phonétique judiciaire, identification du locuteur, comparaison de voix en criminalistique, capture d’échantillons de parole. Summary Some criminal cases may involve expert evaluation of voices samples as additional forensic evidence subject to cross-examination during the trial. Basically, this sort of scientific task intends to determine the weight of the phonetic evidence resulting from comparing the offender’s unknown voice or questioned sample, often registered through the telephone by the police, and the required records of the suspects’ voices. In order to permit and increase the comparability between both types of records, it is necessary to take into account two main aspects during the recording sessions: on one side, the specific technical factors conditioning the process – like the recording equipment and context – and, on the other side, the scientific significant insights gained by forensic phonetics so far. Having all this in mind, a protocol and a concrete procedure of intervention principled in the state of the art of forensic voice comparison are proposed in this article. Keywords: Forensic phonetics, speaker identification, forensic voice comparison, speech samples recording, 0. Introduction Il existe de nombreuses définitions de la phonétique judiciaire. En effet, nombre de travaux ont été menés à bien dans ce domaine, en particulier depuis la seconde moitié du XXe siècle jusqu’à nos jours (1). Sur la foi de ces nombreuses * Directeur du Laboratoire de Phonétique. Conseil Supérieur de la Recherche Scientifique (CSIC). Madrid-Espagne. ** Ingénieure du son. Laboratoire de Phonétique. Conseil Supérieur de la Recherche Scientifique (CSIC). Madrid-Espagne *** Linguiste et Capitaine de la Guardia Civil. Service de Criminalistique. Direction Générale de la Guardia Civil. Madrid-Espagne Revue internationale de criminologie et de police technique et scientifique 3/12 319 définitions, l’on peut affirmer que la phonétique judiciaire est une application de la phonétique générale, qui s’occupe, dans le cadre légal, des problèmes liés à la volonté de reconnaître et d’identifier le locuteur et de le caractériser d’un point de vue acoustique. Il appartient ainsi à l’expert phonéticien en ce domaine et/ou à ses collaborateurs, d’essayer de dresser le portrait phonétique du locuteur, de présenter son «passeport vocal», autrement dit de préciser, dans la mesure du possible, grâce à son accent et aux traits acoustiques de ses émissions, le sexe, l’âge, l’origine géographique, le statut social, l’état d’âme ou de santé, etc., du locuteur. Il lui appartient de préciser le contenu des messages enregistrés, lorsque la mauvaise qualité de ces derniers ne permet pas de bien en saisir le sens, d’authentifier les enregistrements et de s’assurer qu’ils n’ont pas été manipulés, de s’occuper de la préparation et de la réalisation des séances de reconnaissance vocale (cf. Rose 2002: 2; Jessen 2009: 115). Cela étant, un expert en phonétique judiciaire doit par-dessus tout pouvoir comparer un ou plusieurs «spécimens» de parole produits par un locuteur inconnu qui est impliqué dans un délit, avec un ou plusieurs échantillons de parole produits par un ou des locuteurs connus, regardés comme suspects, afin de pouvoir attribuer ou non ces spécimens à ces mêmes personnes. Ce travail étudie l’une des phases constituantes dudit processus de comparaison de voix et, plus concrètement, la phase d’obtention, dans les palais de justice ou dans les commissariats, des échantillons de parole des mis en examen. À cet égard, il existe, en Espagne, un vide juridique patent, faute d’instructions qui encadrent clairement le modus operandi (2). Le manque de recommandations, même de type général, donne bien souvent lieu – en l’absence notamment de personnel qualifié – à un certain laisser-aller dans le processus, ce qui porte atteinte au bon déroulement de la procédure judiciaire. Forts des connaissances apportées par les progrès de la recherche théorique et l’expérience nourrie par de nombreux cas réels, nous apportons, ci-après, quelques suggestions et indications eu égard à l’obtention de ces échantillons. Il s’agit d’une première proposition explicite d’un protocole complet d’intervention, pour lequel chaque recommandation repose sur les résultats produits par la recherche fondamentale menée à bien depuis longtemps par les experts en phonétique juridique. C’est là que gît la différence avec d’autres approches en vigueur (qui, dans certains cas, n’ont pas fait l’objet d’une publication et sont utilisées en interne par les forces de l’ordre, cf. le document d’ENFSI 2006) qui proposent simplement des façons d’agir. 1. Voix inconnue versus voix connue Conformément à ce qui vient d’être dit, le travail de l’expert, qui réalise une comparaison de voix dans le but de dresser un rapport d’expertise, consiste à déterminer le degré de similitude et de différence existant, d’un point de vue phonético-acoustique, entre deux fragments de parole, l’un d’origine connue, l’autre d’origine inconnue, ce qui lui permet de déduire le degré de probabilité 320 3/12 Revue internationale de criminologie et de police technique et scientifique de ces similitudes et différences dans le cas d’un même locuteur et/ou de locuteurs différents (cf. Champod et Meuwly 2000; Morrison 2009). Le «spécimen» de parole de départ, dont la paternité nous est inconnue, est appelé «la trace». Ce type de traces est très souvent obtenu à partir d’enregistrements secrets menés à bien par la police, sous autorisation judiciaire. Mais, il peut aussi fort bien s’agir d’un enregistrement accidentel réalisé, avec un téléphone portable par exemple, par une personne présente sur les lieux des faits délictuels. Ce sont ces enregistrements qu’il faudra comparer avec ceux, obtenus a posteriori, des suspects ou de toute autre personne impliquée dans le délit. Comme l’explique très clairement Fungairiño (2000), dans le processus de réalisation d’un rapport d’expert phonéticien, la phonétique judiciaire, et plus précisément l’acoustique judiciaire, remplit deux fonctions: la fonction instrumentale qui consiste à recueillir les actes judiciaires, sous la direction du greffier (conformément à l’article 230.1 de la Loi Organique sur le Pouvoir Judiciaire espagnol du 1 juillet 1985, qui autorise les tribunaux à utiliser tout moyen technique, électronique, informatique, etc., pour mener à bien leur mission) et la fonction de recherche et d’instruction de la preuve testimoniale recueillie sur support audio. Les enregistrements de voix recueillis dans les locaux de la police ou dans les tribunaux, au cours de la procédure, représentent la «voix connue», vu qu’il n’y a aucun doute sur la ou les personnes à qui appartiennent la ou les voix enregistrées dans les tribunaux ou les commissariats en présence des fonctionnaires correspondants. Il arrive aussi, mais ces cas sont plus rares, que ces fragments de parole proviennent de l’enregistrement d’un appel téléphonique (à un organisme officiel, à une banque, etc.). 2. Attitude conciliante ou intraitable du mis en examen Pour comparer les voix et réaliser le travail d’expertise, il faut, comme nous l’avons signalé, disposer d’enregistrements de voix connues. À ce stade, l’on se trouve face à deux situations opposées: soit le mis en examen est prêt à collaborer et accepte d’être enregistré, soit il manifeste une certaine réticence à l’idée de fournir des fragments de voix et une opposition certaine à se faire enregistrer. Les rares références bibliographiques abordant cette question (cf. Horwath 2002: 1693) résolvent ce problème en suggérant d’appeler le tribunal ou le juge pour qu’il oblige le suspect à collaborer. Toutefois, dans le cas espagnol, la question est d’autant plus complexe qu’elle emmêle l’écheveau juridique parce que le Code de Procédure Pénal espagnol ne considère ni ce type de preuve ni les circonstances afférentes. Comme l’a si bien expliqué la procureure Martínez Sánchez dans son intervention au cours du II Simposium sur la Reconnaissance de Voix à des Fins Judiciaires (1999), cette question a trait à l’admissibilité générale des interventions corporelles, comme formes de constatation des faits délictuels, et de la participation à ces derniers des sujets responsables. Revue internationale de criminologie et de police technique et scientifique 3/12 321 Dans son intervention, sur laquelle nous nous appuyons, la procureure résume la position du Tribunal Constitutionnel espagnol, qui a considéré, dans plusieurs décisions, que ce type de preuves ne sont pas anticonstitutionnelles; au contraire, elles sont admissibles parce que le fait de s’y soumettre (comme, par exemple, se soumettre à un contrôle d’alcoolémie ou, dans le cas qui nous occupe, fournir un échantillon de voix) ne peut être considéré comme contraire au droit à ne pas déposer, à ne pas déposer contre soi-même et à ne pas s’avouer coupable, étant donné que le mis en examen n’est pas obligé de faire une déclaration de sa culpabilité. Il s’agit de tolérer que le mis en examen fasse l’objet d’une modalité particulière d’expertise. La collaboration qui lui est exigée n’est, partant, pas comparable à la déclaration qui est couverte par les articles 17,3 et 24,2, à savoir la présomption d’innocence. Cela étant dit, une fois posée l’admissibilité de l’utilisation du corps même comme élément de preuve, surgit la question la plus importante: le mis en examen ou l’accusé est-il tenu ou non de s’y soumettre? Martínez Sánchez considère qu’il ne peut y avoir d’obligation sur la foi de la réglementation qui régit les expertises callygraphiques, lesquelles supposent aussi la participation active du mis en examen. Par ailleurs, relativement à ces dernières, le Code espagnol de Procédure Pénale interdit, dans son article 391, paragraphe 2, l’exercice de tout type de pression sur le sujet, et signale très clairement que c’est une question sujette à interprétation. Dans le cas d’un possible refus du mis en examen de réaliser un test de voix, Martínez Sánchez s’interroge sur la validité juridique des échantillons recueillis par d’autres moyens pour obtenir le même résultat, mais cela sans présupposer la collaboration du mis en examen (en enregistrant, par exemple, une conversation à son insu). En réalité, ce serait la situation idéale pour l’expert car, ignorant qu’elle est enregistrée, par exemple au cours d’une conversation avec la police, la personne impliquée s’exprimera très probablement avec une spontanéité des plus naturelles. Cela étant dit, étant donné que la législation espagnole, à l’inverse de ce qui se passe dans d’autres pays proches, ne précise rien en la matière, les références jurisprudentielles et doctrinales diffèrent sur la validité juridique de ce mode d’obtention des échantillons. Alors que le Tribunal Constitutionnel espagnol donne son aval au fait que certaines preuves peuvent être obtenues sans l’accord de l’accusé (ce qui ne veut pas dire contre sa volonté) on peut ainsi relever les empreintes digitales qu’il n’a pas voulu fournir librement, pourvu qu’il les ait laissées sur un objet quelconque. La procureure Martínez Sánchez, se prévalant pour l’essentiel de la doctrine protectrice et de certaines décisions du Tribunal Constitutionnel, considère quant à elle que toute preuve obtenue de cette manière ne serait pas valable, elle serait nulle et elle entacherait ou non le reste de la procédure selon que les autres preuves obtenues découlent de la preuve précédente (3). À la vue de tout ce qui précède, il s’ensuit que, à ce jour, il n’existe pas, dans l’appareil juridique espagnol, de réglementation claire qui encadre la procédure à adopter dans le cas où le(s) locuteur(s) connu(s) refuse(nt) de fournir des échantillons de parole en vue de leur future expertise. Dans les pages qui sui322 3/12 Revue internationale de criminologie et de police technique et scientifique vent, nous allons considérer que les personnes impliquées acceptent de réaliser les tests en question, étant bien entendu que certaines des recommandations concernant la procédure seraient également d’application avec ou sans leur accord (par exemple, les recommandations portant sur la façon de faire pour que le sujet en question articule certains sons). Il appartient au tribunal d’ordonner leur réalisation et de déterminer leur validité (cf. Lucena 2002). 3. Conditions requises pour recueillir des échantillons de parole L’une des différences importantes entre, d’une part, les processus d’authentification ou vérification du locuteur (songez, par exemple, à une banque et à un dispositif de reconnaissance vocale qui donne accès à différents services) et, d’autre part, les processus de comparaison de voix à des fins judiciaires, qui nous occupent ici, réside dans le fait que, dans le premier cas, on contrôle parfaitement la nature des échantillons en présence, alors qu’il en va tout autrement dans le second cas (cf. Broeders 1995). Il va sans dire qu’il est très difficile d’exercer un contrôle quelconque sur les traces de voix inconnues en raison même de leur nature, mais il est plus facile, à nos yeux, de faire ce contrôle dans le cas de voix connues pourvu qu’elles aient été recueillies sous certaines conditions. Plus le degré de contrôle sur les caractéristiques des échantillons comparables est élevé, plus la tâche ultérieure de l’expert sera aisée et le résultat de son travail fiable En général, pour que la preuve de comparaison de voix produite par l’expert soit acceptable et apporte une information digne de foi et de valeur (cf. à cet égard Morrison 2011a), il faut que les échantillons en présence satisfassent aux critères de quantité, qualité et comparabilité (Rose 2002: 329). 3.1 Quantité Le nombre d’échantillons de voix inconnues et de voix connues ne doit pas nécessairement coïncider et, de fait, bien souvent il ne coïncide pas. L’on peut, par exemple, disposer de cinq conversations téléphoniques mises sur écoute avec une voix inconnue (qui, de surcroît, n’est pas nécessairement la même) et, en revanche, ne disposer que d’un seul enregistrement vocal d’un suspect réalisé dans les locaux de la police judiciaire. Cela étant posé, alors que, fort logiquement, le nombre d’échantillons de voix inconnues échappe aisément à la planification des investigateurs, il n’en va pas nécessairement de même avec les échantillons de voix connues dont la capture peut être programmée à l’avance. Plus le nombre d’échantillons recueillis est grand, plus le résultat de l’expertise sera fiable. En effet, tous les locuteurs présentent des variabilités de voix: les paramètres analysés ne présentent pas toujours les mêmes valeurs. Ainsi, un paramètre tel que le ton de la voix d’une personne peut changer en fonction de la période de temps ou du moment de la journée, de la situation communicative dans laquelle se trouve ladite personne, de son état d’âme ou de santé, etc. Aussi est-il recommandé, pour l’expertise, de toujours calculer Revue internationale de criminologie et de police technique et scientifique 3/12 323 les valeurs moyennes de chaque paramètre étudié à partir d’un nombre d’échantillons le plus grand possible et le plus espacé dans le temps (4). ‡ Première recommandation: Recueillir plusieurs échantillons de voix du locuteur connu, si possible espacés dans le temps (années, mois ou semaines, selon les caractéristiques de l’affaire et la faisabilité) et capturés à différents moments de la journée. Le nombre de paramètres comparés et analysés doit aussi être le plus grand possible. Quitte à nous répéter, la raison en est que l’étude, sous toutes les coutures, de la voix de toute personne identifiable est fort complexe. Nous aborderons plus avant (§ 5) les traits caractéristiques qui doivent être pris en compte dans les paramètres retenus. Il est évident qu’il faut les choisir compte tenu des échantillons de voix inconnues acceptables dont on dispose et non de façon aléatoire. Il serait bon que les enregistrements de voix connues présentent, pour une très large part, les éléments potentiellement informatifs qui sont présents dans les voix inconnues, même s’ils ne sont pas présents dans tous les échantillons ou que leur occurrence se manifeste en différente proportion. Songez, par exemple, aux caractéristiques acoustiques du son [s], qui peuvent constituer une base de comparaison intéressante et exploitable: si ce son n’apparaît dans aucun des échantillons de voix inconnues qui ont été recueillis, sa présence, à des fins comparatives, dans l’enregistrement de la voix connue ne sera d’aucun intérêt (dans lequel, évidemment, il pourra apparaître fort naturellement et non artificiellement). ‡ Deuxième recommandation: Le ou les enregistrements de voix connues doivent être préparés à l’avance, sous la supervision d’un expert, et reposer sur les paramètres potentiellement comparables présents dans les échantillons de voix inconnues. La fiabilité concernant la comparaison de voix dépend non seulement de l’abondance des échantillons à comparer, d’un nombre suffisant de paramètres à analyser, comme nous venons de le voir, mais aussi de la présence de plusieurs représentants pour chaque paramètre. Autrement dit, on doit pouvoir en dégager maintes observations ou mesures pour en extraire par la suite leur valeur moyenne et leur distribution, étant entendu que toujours l’expert tâchera, comme nous l’avons dit, de neutraliser le degré élevé de variabilité de la voix. Reprenons l’exemple du son [s]. Conformément à ce qui vient d’être dit, une seule occurrence de ce son dans les échantillons de voix connues ne suffira pas; il faudra en recueillir un nombre considérable qui fait encore polémique. Elzey (1987) et d’autres auteurs ont avancé le chiffre de 30 observations, un chiffre idéal pour que la mesure soit la traduction d’une quantification du paramètre beaucoup plus fiable. C’est pourquoi il faudra considérer cet aspect lors de la préparation de l’enregistrement de la voix connue, la seule qui puisse être contrôlée d’une certaine façon. 324 3/12 Revue internationale de criminologie et de police technique et scientifique ‡ Troisième recommandation: Il serait bon de repérer, dans les enregistrements recueillis, un bon nombre d’observations (occurrences) de chaque variable comparable (une trentaine serait l’idéal). La dimension souhaitable des observations est en rapport avec la question du nombre des observations nécessaires au renforcement de la fiabilité de ces dernières. Ladefoged, célèbre phonéticien britannique, rapporte dans son article (Ladefoged and Ladefoged, 1980: 49) qu’il n’a pas pu reconnaître la voix de sa mère quand on lui a présenté le mot «hello», qu’elle prononça, inséré dans une série d’enregistrements de différents locuteurs avec lesquels il avait un certain degré de familiarité. Mieux encore, il n’a toujours pas reconnu sa mère, malgré la bonne qualité des enregistrements, quand elle a prononcé une phrase plus longue: il l’a seulement reconnue – sans certitude absolue – après qu’elle a lu un texte durant 30 secondes. Cette anecdote permet d’étayer l’idée selon laquelle les échantillons doivent avoir une dimension ou une durée totale considérable pour plusieurs raisons: d’abord, parce que c’est la seule façon de pouvoir s’approcher du nombre conseillé d’observations nécessaires pour chaque dimension considérée; ensuite, parce que certains de ces paramètres, et plus particulièrement ceux qui répondent au nom «de longue portée», sont mesurés et calculés à partir de fragments longs d’un énoncé. Le SMLT, par exemple, se stabilise après 30-40 secondes de parole (cf. Fritzell et al. 1974, Boves 1984, Keller, 2004). Aussi la situation idéale consisterait-elle à recueillir des échantillons les plus longs possibles et, en tout cas, d’un minimum de 30 secondes ou 100 mots. ‡ Quatrième recommandation: Il y a lieu de disposer du temps de parole le plus long possible pour que l’on ne puisse mettre en doute la fiabilité de la comparaison de voix. Dans la littérature, il est mentionné à maintes reprises que 30 secondes de voix inconnue et connue sont nécessaires. Certes, certains experts en exigent plus, et, en général, plus la quantité d’information est grande, meilleurs sont les résultats. Il s’ensuit qu’il faudra enregistrer au moins 1 minute de parole spontanée (obtenue selon le procédé décrit ciaprès), 1 minute de lecture d’un texte préparé en fonction des échantillons de voix inconnues disponibles (cf. ci-après), et 1 minute de lecture d’un texte phonétiquement équilibré. 3.2 Qualité de l’enregistrement Fort logiquement, si un échantillon de voix connues a été recueilli avec des enregistreurs de qualité moyenne et sans observance de règles clairement établies qui permettent d’optimiser l’enregistrement, il ne pourra pas être utilisé dans le processus de comparaison de voix. Il est mentionné, dans certains rapports d’experts phonéticiens, auxquels ont eu accès les auteurs de ce travail, que les échantillons de voix connues ont été enregistrés dans des tribunaux, en présence du greffier, mais en l’absence, au cours de cet enregistrement, de tout Revue internationale de criminologie et de police technique et scientifique 3/12 325 conseiller technique, avec un seul micro qui, probablement, passait d’un interlocuteur à l’autre sans qu’il soit maintenu à la même distance de chaque locuteur. De ce fait, plusieurs interventions présentaient un tel degré de saturation acoustique que l’expert les avait écartées dans son travail de comparaison. Pour ce type d’enregistrements, l’objectif premier doit par conséquent consister à recueillir des échantillons de voix les plus fidèles possibles à la voix réelle du locuteur; autrement dit, ils doivent être dépourvu d’interférences dues au bruit. Pour atteindre cet objectif, nous allons passer en revue les caractéristiques de base du matériel nécessaire: ‡ Cinquième recommandation: Le matériel employé pour toutes les prises de voix connues à comparer doit toujours être le même. a) Le microphone Le choix d’un microphone adapté à ce type d’enregistrement se fera sur la base de cinq critères décrits ci-après: le type de microphone, la réponse en fréquence, la sensibilité, la directivité et la plage dynamique: - Il est conseillé d’utiliser un microphone à condensateur en raison de sa meilleure réponse en fréquence et sensibilité par rapport aux microphones dynamiques. L’utilisation de ce type de microphone exige une alimentation externe, dite Phantom, paramètre à prendre en considération lors du montage. Cette alimentation est généralement assurée par la carte son externe. - Pour éviter les gains ou les atténuations du son dans certaines fréquences (colorations), il faut que la réponse en fréquence du microphone soit linéaire de 20 Hz à 20 kHz, plage de fréquences audibles par l’oreille humaine. Dans le cas d’enregistrements téléphoniques, vu que la transmission est limitée à 4 kHz, une réponse linéaire sous cette fréquence serait suffisante. - La véritable fonction d’un microphone est de transformer le signal acoustique en signal électrique qui puisse être transmis par câble et recueilli dans des dispositifs d’enregistrement. La sensibilité est précisément l’un des paramètres qui exprime la qualité de cette conversion. Cette sensibilité est exprimée en décibels ou en mV/Pa. Le minimum conseillé est de 10 mV/Pa, soit 40 dB. - Selon les enregistrements à réaliser, le microphone sera également choisi en fonction de sa directivité. Quand on enregistre une voix, on cherche à éviter tous les bruits alentour; pour ce faire, on utilise des microphones cardioïdes ou hypercardioïdes (en forme de cœur). Ces micros captent parfaitement la présence d’une source sonore frontale et atténuent fortement les sons arrière. - Enfin, plus la plage dynamique du microphone est ample, plus il sera facile d’éviter la saturation (le niveau maximal autorisé sera plus haut). Il devra être, dans la mesure du possible, supérieur à 100 dB. ‡ Sixième recommandation: Il faudrait utiliser un microphone à condensateur avec une réponse en fréquence linéaire allant jusqu’à 20 kHz et à directivi326 3/12 Revue internationale de criminologie et de police technique et scientifique té cardioïde ou hypercardioïde. La sensibilité sera d’au minimum 10mV/Pa et la plage dynamique, de 100 dB. b) Connexion Dans le cas qui nous occupe, le microphone sera connecté à la carte son avec un câble de connexion muni d’une protection contre les interférences électromagnétiques, permettant la liaison audio symétrique et équipé de connecteurs de type XLR/Cannon. c) Carte son Pour connecter le microphone à l’ordinateur, il est conseillé d’utiliser une carte son externe de grande qualité. On évitera d’utiliser celle qui est fournie avec l’ordinateur car elle capte le bruit produit par les circuits. La carte son externe devrait présenter certaines des caractéristiques suivantes: une réponse en fréquence linéaire allant jusqu’à 20 kHz, une alimentation Phantom, la possibilité de choisir la fréquence d’échantillonnage, qui sera au minimum de 44’100 Hz, bien qu’il soit conseillé d’enregistrer à 48’000 Hz et de réaliser une conversion de 32 ou 64 bits. ‡ Septième recommandation: Une carte son externe donnera le meilleur d’elle-même si la réponse en fréquence est le plus linéaire possible et qu’elle permet de choisir une fréquence d’échantillonnage adaptée à l’enregistrement (44’100 Hz ou 48’000 Hz). L’alimentation devra être impérativement de type Phantom afin de pouvoir brancher un microphone à condensateur. d) Ordinateur L’ordinateur qui, fort logiquement, ne doit pas être trop vieux, devra être équipé d’une mémoire RAM suffisante pour que le logiciel d’enregistrement fonctionne correctement et ne crée pas de problème pendant l’enregistrement. Il devra aussi être doté d’une très grande capacité de stockage de données car les fichiers audios seront de grande taille puisqu’on utilise des formats non compressés. e) Logiciel Le logiciel d’enregistrement doit permettre d’enregistrer, d’éditer et, évidemment, de sauvegarder un fichier audio en format non compressé (on utilise d’habitude des fichiers wav - Waveform Audio Format - avec une conversion de type PCM). Outre le type d’extension, il est important de choisir une fréquence d’échantillonnage correcte qui, comme pour la carte son, doit être de 44’100 Hz au minimum. Le nombre de bits par échantillonnage ou résolution ne sera jamais inférieur à 16. Afin de pourvoir s’assurer que le dispositif enregistre correctement et d’éviter la saturation ou des niveaux de bruit très élevés, ce logiciel devra aussi être muni d’un dispositif de visualisation du signal en temps réel. Revue internationale de criminologie et de police technique et scientifique 3/12 327 ‡ Huitième recommandation: Le logiciel utilisé devra permettre l’enregistrement audio au format non compressé (wav avec compression PCM), une fréquence d’échantillonnage et une résolution minimale de 44’100 Hz et de 16 bits par échantillon respectivement (5). ‡ Neuvième recommandation: Au cours de l’enregistrement, l’on doit pouvoir réaliser une écoute en temps réel afin de s’assurer qu’il n’y a ni bruit intempestif ni saturations. Pour ce faire, on utilisera des casques professionnels. En sus du matériel approprié, il faudra, cela va sans dire, travailler dans un cadre acoustique qui satisfasse à une série de critères: a) Studio d’enregistrement – milieu acoustique La situation idéale commande de travailler dans un studio spécialement aménagé pour réaliser des enregistrements audio. Or, bien souvent, l’on ne dispose pas de studio et quand bien même l’on en disposerait d’un, la personne enregistrée se trouverait dans un milieu étrange qui pourrait influencer sa collaboration au moment de parler. Cela étant, il est possible de définir des critères minimums qui sanctionneront la pertinence de l’habitacle utilisé. S’il y a trop de réverbération dans le local, les réflexions sur les différentes surfaces de ce dernier (murs, sol, etc.) peuvent nuire à l’intelligibilité et à l’analyse ultérieure du signal enregistré. C’est pourquoi les recommandations techniques de construction déterminent que, dans des salles de classe et salles de conférences vides, le temps de réverbération ne devrait pas être supérieur à 0,5 seconde. Cette valeur pourrait servir d’étalon dans notre cas, bien que l’on puisse, pour obtenir des enregistrements de qualité suffisante, pousser la limite jusqu’à une seconde. On ne connaîtra pas toujours à l’avance le temps de réverbération de la salle, auquel cas on procédera à une écoute afin de savoir s’il n’est pas trop élevé. Il est important de s’assurer que les niveaux de bruit ne sont pas tels qu’ils empêcheraient tout enregistrement. La loi espagnole sur le bruit (Décret Royal 1367/2007) fixe des objectifs de qualité du bruit, applicables à l’espace intérieur des bâtiments, qui sont déterminés par des niveaux maximums selon l’utilisation de cet espace et la plage horaire. Ces niveaux de bruit sont compris entre 35 et 45 dB pendant le jour et entre 30 et 40 dB le soir dans le cas de bâtiments à usage résidentiel, hospitalier, éducatif ou culturel. On prendra comme mesure de référence les données concernant les salles de classe et salles de lecture, pour lesquelles la valeur maximale admissible de bruit est de 35 dB. Toute valeur inférieure est évidemment souhaitable. À partir de ce niveau maximal de bruit et, compte tenu du fait que le niveau de la voix humaine dans une conversation se situe entre 60 et 70 dB, avec quelques pics pouvant atteindre 80 dB, le rapport signal-bruit de la salle sera d’environ 30-35 dB. ‡ Dixième recommandation: Le local d’enregistrement doit présenter un temps de réverbération inférieur à une seconde et un niveau de bruit de fond inférieur à 35 dB, ce qui donne un rapport signal-bruit d’environ 30 dB. 328 3/12 Revue internationale de criminologie et de police technique et scientifique b) Emplacement de la carte son Concernant l’emplacement de la carte son externe, elle sera placée le plus loin possible des différentes sources de bruit telles que des ordinateurs, des téléphones portables, des enceintes, etc., qui peuvent causer des interférences nuisibles à l’enregistrement. c) Position du microphone et du locuteur Il faut considérer certains paramètres au moment de placer le microphone. On évitera qu’il capte le son de la respiration ou qu’il y ait des saturations à cause des sons occlusifs (comme le [p]); on pourra, dans certains cas, résoudre ce problème avec un écran anti-vent. Relativement à la distance entre le locuteur et le microphone, il convient qu’elle soit, plus ou moins, toujours la même. En effet, si un locuteur s’approche trop du microphone pendant l’enregistrement, cela peut produire des saturations. Cette distance dépendra du microphone utilisé. Certains modèles exigent une distance qui peut être inférieure à 5 centimètres. Les microphones serre-tête, par exemple, doivent être positionnés très près de la bouche du locuteur. Avec ce type de micro, il est facile de garder la même distance, ce qui constitue un avantage non négligeable. Pour d’autres modèles, comme les microphones sur pied posés sur une table, ils seront placés à 20 ou 30 centimètres de la bouche. Pour terminer, on veillera à ne pas heurter la table ou le sol pendant l’enregistrement, ces bruits interférant avec ce dernier, et à tourner les feuilles d’un discours lu de sorte à ne pas faire de bruit, ce dernier s’ajoutant au signal de voix. ‡ Onzième recommandation: Le microphone et la carte son devraient être placés le plus loin possible de toute source de bruit. Le microphone doit être placé près du locuteur (la distance varie en fonction du type de microphone). On prêtera une attention toute particulière aux éventuels bruits produits par la respiration, les coups sur la table et le feuilletage. 3.3 Comparabilité Il va sans dire que l’on ne peut comparer ce qui n’est pas comparable. Les différences entre des voix inconnues et des voix connues sont parfois telles que leur comparaison est impossible ou, à tout le moins, peu fiable: ces différences sont le fait du moment et de la situation de leur production, du type de discours et du moyen de transmission. En supposant que l’expert n’écarte pas d’emblée la possibilité de comparer les échantillons, malgré ces différences, il faudra alors renforcer, dans la mesure du possible, la comparabilité des échantillons de parole à comparer. On peut essayer de le faire en jouant sur le paramètre de comparaison le plus facilement contrôlable – en termes relatifs – par le spécialiste, c’est-à-dire en jouant sur les échantillons de voix connues et la façon de les recueillir. Si les émissions de voix inconnues et connues ont été produites dans des ambiances et des contextes très différents, il est possible que leur comparaiRevue internationale de criminologie et de police technique et scientifique 3/12 329 son ne dégage aucune conclusion valable, car la voix d’un même locuteur peut varier considérablement selon ces circonstances. Voyons certaines d’entre elles. a) Si la trace correspond à celle d’un délinquant qui crie et donne des instructions au cours d’un braquage et que l’échantillon de voix connues a été recueilli dans les locaux judiciaires au cours d’un interrogatoire, il peut y avoir un problème. Dans une situation différente, où un témoin doit reconnaître une voix qui lui est familière, on s’est rendu compte que sa capacité à le faire diminue sensiblement si le locuteur crie et que son émission est brève. (Blatchford et Foulkes 2006 et supra, § 3.1). Dans le cas présent, celui de la comparaison de voix, Elliott (2000) analyse les différences qui existent entre les deux types d’émission de voix, une voix criante et une voix normale, tant intra-locuteurs qu’inter-locuteurs. Avant cette étude, l’on savait déjà que la voix d’une même personne change quand elle parle normalement et quand elle crie: Laver (1980) a précisé à l’époque que la tension articulatoire est plus forte dans le second cas. Harris et Weiss (1964), et plus tard Braun (1995), Hacki (1996) et Jessen et al. (2005), ont remarqué l’existence d’une augmentation de la pression du flux d’air à travers les poumons, ce qui entraîne une plus grande intensité, une gamme tonale plus large et une augmentation de la fréquence du ton fondamental (F0). L’expérience menée à bien par Elliott démontre qu’effectivement le fait de la part d’une même personne de crier produit une augmentation considérable de la fréquence fondamentale (F0) et une légère hausse du premier formant (F1) des sons vocaliques (en tout cas pour ce qui est du /i/, voyelle étudiée par cette auteure). Toutefois la variable ne semble pas altérer la structure formantique générale de la voyelle en question qui reste stable. Dans le cas de personnes différentes, l’étude d’Elliott conclut que la différence entre les valeurs moyennes de F0 des deux locuteurs est maintenue, que l’on soit en présence d’une émission normale ou d’une voix criante, mais il n’en va pas de même avec la structure générale des formants qui donne des résultats beaucoup plus confus. F1 différencie les locuteurs dans le seul cas d’une voix criante; F2 ne présente aucune divergence significative entre les locuteurs à voix normale et à voix criante; F3 ne présente des divergences que dans la voix normale et, enfin, F4 semble distinguer les sujets dans les deux types de voix. Bien que les formants les plus hauts semblent ne pas être affectés par le changement «voix normale-voix criante» et semblent être productifs d’un point de vue judiciaire, le fait qu’il s’agisse de deux modalités d’émission distinctes qui répondent à des intentions communicatives différentes influence clairement l’articulation, le conduit vocal intra-locuteur et le processus ultérieur de comparaison inter-locuteur. En conséquence de quoi, l’échantillon de voix connues devrait être préparé de sorte que la modalité de voix coïncide au maximum avec celle de la voix inconnue qui a été enregistrée (cf. Jessen et Jessen 2007). 330 3/12 Revue internationale de criminologie et de police technique et scientifique ‡ Douzième recommandation: On veillera à enregistrer les voix connues de sorte à renforcer leur degré de comparabilité avec les échantillons de voix inconnues. En présence de voix criantes, par exemple, il est conseillé d’obtenir des sujets impliqués qu’ils crient aussi dans l’enregistrement sous contrôle de la voix spontanée. Pour ce faire, au cours de l’entretien, on fera passer dans les casques des interlocuteurs – intervieweur et interviewé – de la musique ou un bruit blanc à un niveau qui ne fasse ni mal ni n’empêche la rétroalimentation auditive afin qu’ils soient obligé de crier pour se faire entendre (6). b) Les traces de voix inconnues sont en général spontanées, naturelles. Toutefois, l’on observe, à la lecture de certains guides de procédure disponibles dans d’autres pays et qui donnent des instructions générales pour recueillir des échantillons de voix connues (songez à la circulaire 057/2003 distribuée à la police par le Home Office britannique), qu’il n’existe pas de consensus sur le fait de savoir si les mis en examen doivent lire un texte ou être interviewés. Le document américain présuppose que la première option est la manière appropriée pour recueillir la parole (il est même demandé au suspect de se familiariser avec le texte choisi – fait d’éléments choisis dans la transcription des échantillons de voix inconnues – pour renforcer la qualité et la spontanéité de la lecture). Si le locuteur impliqué n’est pas capable de lire, il est suggéré que quelqu’un récite les phrases prononcées dans l’échantillon de voix inconnues le plus fidèlement possible à l’original et que le suspect les répète par la suite. En revanche, la circulaire britannique mentionne que les “experts in the field state clearly that under no circumstances should the suspect be invited to read any set text, as the speech / rhythm / tone may be unnatural and may well be altered by a person reading aloud from prescribed written material”. Les instructions, émises le 23 janvier 2006 par les European Network of Forensic Sciences Institutes (ENFSI), ne font référence, et très superficiellement, qu’aux traits qui distinguent la parole lue de la parole spontanée, sans établir un ordre de préférence entre ces deux types de parole à des fins judiciaires. Si l’on ajoute à ces documents les observations, que l’on peut trouver dans des manuels, comme celui de Quilis (1999) et autres travaux de référence plus ou moins traditionnels (7), qui sont en principe opposés à la lecture comme méthode de capture de la parole, il est difficile que la personne chargée de préparer l’enregistrement sache à quel saint se vouer (8). Il est très difficile de contrôler tous les facteurs qui interviennent dans la lecture à voix haute de textes longs (Swerts et Collier 1992). C’est pourquoi il est conseillé, d’un point de vue méthodologique élémentaire, de privilégier l’utilisation de beaucoup de phrases courtes qui se suivent au détriment d’un texte long, complexe et élaboré. On peut dès lors se demander si les conclusions inférées à partir de cette lecture sont extrapolables à la langue «réelle» ou naturelle. En effet, les êtres humains n’utilisent pas nécessairement des phrases courtes pour communiquer et ne maîtrisent pas tous la lecture à voix haute. Revue internationale de criminologie et de police technique et scientifique 3/12 331 Jessen (2009) a récemment étudié par le menu les différences entre les deux modes de parole, la parole spontanée et la parole lue, et plus particulièrement le paramètre le plus souvent mesuré et évalué en phonétique judiciaire, la F0, qui est aussi le paramètre le plus clairement concerné par un changement de mode. Cet auteur a, en outre, passé au peigne fin la bibliographie en la matière. Bien que les résultats des études précédentes fussent contrastés (9), l’auteur dégage de ces derniers et de son propre travail la conclusion générale que, si la seule différence entre la voix inconnue et la voix connue est que l’une est lue et l’autre spontanée, alors les valeurs relatives à la fréquence des deux peuvent être aisément comparées. Indépendamment de ces deux modes de parole, on pourra aussi apprécier d’autres facteurs discriminants entre deux échantillons de voix, tels que le niveau de stress physique ou psychologique du locuteur (10) qui, comme nous le savons bien, altère clairement la fréquence fondamentale de la voix (Hollien 1990). Concernant d’autres paramètres, tels que la structure formantique, Moos (2008) a analysé la répartition des formants à long terme et il a trouvé que les plus grandes différences entre parole spontanée et parole lue sont observées dans le F3, qui a toujours une fréquence plus élevée dans une parole lue. En général, on s’attend à ce que les consonnes et les voyelles subissent une plus grande réduction acoustique (ou perte de certains de leurs traits définitoires et discriminants; cf. Aguilar et al. 1993, Harmegnies et Poch 1992), un plus grand chevauchement co-articulatoire et un plus grand nombre d’élisions en présence d’un plus grand niveau de spontanéité de la parole. On peut dès lors établir que la structure formantique de la voix lue sera différente de celle de la voix spontanée. En outre, la première peut présenter un tempo (vitesse d’élocution) plus lent que la seconde, ce qui a une incidence sur la durée des différents sons et la structure temporelle de l’énoncé dans son ensemble, et peut ne pas afficher tous les effets phonétiques fruits de l’improvisation et du besoin de gagner du temps, qui sont présents dans la seconde. On ne peut difficilement passe outre la parole spontanée. Pourtant il serait tout aussi irraisonnable d’écarter d’entrée de jeu la possibilité de travailler avec la parole lue, et ce pour quattre raisons: i) Le locuteur impliqué peut refuser de répondre à des questions, d’avoir un entretien, de collaborer à toute activité orale et, quand bien même il accepterait, il peut se montrer fort peu loquace, auquel cas on ne pourra recueillir les minutes de parole nécessaires à l’expertise. En pareil cas, la lecture apportera des informations complémentaires. ii) Il est vrai qu’il y a beaucoup de traits qui distinguent la parole lue de la parole naturelle ou spontanée, comme nous l’avons vu plus haut. Il est tout aussi vrai que la personne qui lit a tendance à soigner la prononciation (à «hyperarticuler» dans notre jargon), autrement dit, elle articule avec plus de force, de tension ou d’attention de sorte qu’elle peut réaliser des sons qu’elle ne prononce pas normalement (les «s» finaux en espagnol, par exemple, les occlusives en fin de syllabe: apto, admirar, etc.), renforcer des sons qu’elle émet d’habitude plus faiblement (les occlusives ou les consonnes affriquées 332 3/12 Revue internationale de criminologie et de police technique et scientifique au lieu des consonnes fricatives), etc. Toutefois, comme l’a si bien signalé Quilis (1999), il existe des sons dont les valeurs ne sont pas facilement modifiables, par rapport aux sons de la parole spontanée – la consonne palatale de mots comme «lluvia» ou «calle», la vélaire de mots comme «ojo» ou de «majo», les consonnes nasales «m», «n» ou «ñ», les occlusives sourdes «p», «t», «k», etc. –. On en conservera à coup sûr une trace dans l’enregistrement s’ils sont repris dans le texte lu. iii) Il est beaucoup plus aisé de contrôler le contenu d’un texte lu que celui d’une entrevue, voire d’une description. En effet, le contenu du texte que le suspect va lire, qu’il s’agisse d’un fragment assez court (mais ni complexe ni alambiqué) ou de plusieurs phrases isolées, doit être préparé à l’avance et contrôlé par l’expert, qui tiendra compte de chaque variable, commencera par l’analyse du contenu des enregistrements de voix inconnues et considérera la rentabilité de certains paramètres que nous venons de mentionner. Bien que cela puisse poser problème, il faudrait que la personne impliquée articule les mêmes mots tant dans sa parole lue que dans sa parole spontanée. Ce faisant, on peut observer les différences qu’entraîne le simple changement de modalité. En présence de phrases isolées, préparées à dessein selon un même critère, l’expert doit, au moment de les préparer, conserver au maximum les traits des phrases-modèle inconnues à partir desquelles il travaille: le type d’intonation, la position des accents, la position dans la phrase de l’élément important, le contexte phonétique immédiat, etc. Qu’il s’agisse d’énoncés conçus expressément ou d’extraits d’échantillons de voix inconnues, il faudra sans doute les reproduire plusieurs fois, entre 3 et 6 par exemple, pour disposer d’une quantité suffisante de matériel analysable et calibrer l’éventuel degré de variabilité intra-locuteur. iv) La lecture d’un «texte normal» et celle d’un texte présentant un équilibre phonétique permettent d’obtenir des suspects des échantillons de parole dans lesquels le contenu des segments n’a pas d’incidence - car c’est le même - sur l’analyse d’un trait intéressant d’un point de vue judiciaire, tel que la qualité de voix. Quand deux fragments de parole sont constitués par des éléments phonétiques très différents (la proportion de consonnes et de voyelles est différente, la réalisation des sons est diverse parce que les contextes sont différents, etc.), il est facile de percevoir la qualité de voix sous-jacente et différente, bien que le type de phonation soit le même, que les formants hauts apparaissent dans les mêmes gammes de fréquence et que la plage tonale soit similaire, etc. C’est pourquoi, dans le cadre particulier d’une comparaison de voix de différents suspects, l’expert aura intérêt à travailler avec des échantillons dans lesquels l’effet différenciateur des sons est annulé. ‡ Treizième recommandation: Dans la mesure du possible, il faut recueillir des échantillons de parole de deux types, la parole lue et la parole spontanée, comme le recommande le Bundeskriminalamt allemand (cf. Jessen 2009b: 117). Revue internationale de criminologie et de police technique et scientifique 3/12 333 ‡ Quatorzième recommandation: L’échantillon de parole lue peut être réalisé à partir de fragments de la transcription de la voix inconnue, que l’on ajoute au texte spécialement conçu pour le test, et aussi à partir d’un texte équilibré d’un point de vue phonétique. La préparation de l’échantillon de parole spontanée doit obéir à une procédure préalablement définie (cf. infra), et prendre en compte tous les facteurs susceptibles de favoriser la comparabilité. c) La trace peut provenir d’un téléphone, fixe ou mobile (avec des effets différents dans chaque cas), placé sur table d’écoute, car nombre de délits sont projetés, préparés ou commis via une ligne téléphonique (cf. Moye 1979). Cela pose un problème; certaines fréquences de la voix humaine, et plus concrètement celles qui se situent en dehors du spectre 300-3500 Hz, sont filtrées lorsqu’elles sont transmises par ce moyen de communication. Ce système de communication a une incidence sur certains traits acoustiques des échantillons de parole enregistrés et, partant, jette un doute sur la fiabilité des comparaisons réalisées entre des voix téléphoniques interceptées et enregistrées et des voix enregistrées en présence du suspect. À cet égard, certaines variables sont particulièrement robustes et résistent bien à l’influence de ce moyen de communication. C’est le cas de la fréquence fondamentale (F0), d’où sa si grande importance en phonétique judiciaire. En revanche, d’autres variables sont clairement affectées. Künzel (2001), par exemple, a démontré, pour les voyelles allemandes, que le filtrage téléphonique altère clairement les fréquences des formants des sons, en particulier de F1. Il est vrai qu’en réponse à ce travail, Nolan (2002) minimise les bémols émis par Künzel à l’utilité de ce paramètre (la structure formantique). Quoi qu’il en soit, d’un point de vue méthodologique, c’est l’une des variables qu’il faut considérer avec précaution au moment de comparer la parole téléphonique avec la parole présentielle. Comme l’attestent l’étude de Byrne et Foulkes (2004) sur les effets des téléphones mobiles sur les formants, dont les résultats indiquent qu’ils subissent tous une modification de fréquence (et plus particulièrement le F1, comme l’a montré le chercheur allemand dans son étude sur les téléphones fixes), et l’étude de Chen et al. (2009) qui font état d’une augmentation jusqu’à 29 % de la fréquence de F1 (pour un téléphone mobile) et de 5 % (pour un fixe). Relativement à l’espagnol parlé au Chili, Rosas et Sommerhoff (2009) ont obtenu, pour l’essentiel, les mêmes résultats (cf. aussi Kuitert et Boves 1997, Jiménez 2011). Voilà pour l’influence de ce moyen de communication sur certains traits acoustiques. Mais il faudra aussi considérer le fait que le locuteur modifie sa voix (souvent de façon inconsciente) lorsqu’il parle au téléphone. Comme l’expliquent Byrne et Faulkes (2004, 84), certaines personnes peuvent changer complètement leur façon de parler et prendre une «voix téléphonique» dont la qualité vocale générale est différente de leur voix habituelle. Dans les cas les moins frappants, on est parvenu à démontrer que beaucoup de locuteurs ont 334 3/12 Revue internationale de criminologie et de police technique et scientifique tendance à crier et que ce changement d’intensité entraîne une augmentation de la fréquence fondamentale (F0), mais pas nécessairement dans la même proportion (cf. Summers et al. 1988; Summers et al. 1989; Hirson, French et Howard 1995, French 1998). ‡ Quinzième recommandation: Si l’échantillon de voix inconnues correspond à une voix téléphonique interceptée, la voix connue devrait être recueillie sous forme de conversation téléphonique filtrée entre le suspect et les fonctionnaires de police, placés dans deux salles situées hors du cadre des locaux de la police ou du tribunal. A cet égard et en particulier en ce qui concerne le téléphone mobile, dans le processus d’enregistrement on devra tenir en compte les recommandations du National Institute of Standard and Technology (NIST), publiées en 2007. Conformément à la procédure utilisée par Nolan et al. (2006) pour créer une base de données de l’anglais contrôlé, phonétiquement et stylistiquement, et destinée à l’investigation judiciaire – qui peut nous servir dans le cas qui nous occupe (cf. le graphique de la figure 1, extraite de ce travail) –, le fonctionnaire («researcher» dans le schéma de Nolan et al.) téléphone via une ligne externe au suspect («subject»), les deux personnes se trouvant dans deux pièces distinctes. La parole du suspect est directement enregistrée à travers le téléphone et indirectement via une interception téléphonique. Figure 1. Schéma d’enregistrement d’une conversation téléphonique interceptée, élaboré par Nolan et al. (http://www.ling.gu.se/konferenser/iafpa2006/presentations/Monday/session1/ Nolan_etalDyViS/Nolan_etal_iafpa2006.pdf) Revue internationale de criminologie et de police technique et scientifique 3/12 335 Il appartient aux autorités policières ou judiciaires, dûment conseillées par un personnel qualifié, de renforcer, dans la mesure du possible, le degré de comparabilité des échantillons de voix inconnues et connues. Toutefois, il existe, bien évidemment, des éléments de la vie réelle que l’on ne peut reproduire dans un contexte contrôlé, tels que les effets produits par les drogues ou l’alcool ou l’influence d’un très grand stress physique ou psychologique. C’est pourquoi l’on insiste sur le fait que la comparaison a posteriori des échantillons soit, si possible, réalisée par un expert averti et capable de prendre en considération dans son analyse l’influence qu’exercent ces variables sur l’acoustique des messages afin de ne pas la «considérer» dans les conclusions. 4. Procédure pour recueillir la parole spontanée Il est fondamental de recueillir la parole spontanée connue car elle recèle non seulement les traits phonétiques idiosyncrasiques du locuteur mais aussi les particularités lexicales (emploi répété d’un mot en particulier, par exemple), morphologiques (mauvaise conjugaison de certains verbes, utilisation fautive des concordances, etc.), syntactiques (anaphores, cataphores, anacoluthes récurrentes etc.), familières (tics de langage, faux départs, etc.). En définitive, il s’agit de tout un éventail de phénomènes qui, s’ils sont bel et bien présents dans les échantillons de voix spontanée inconnue, sont très utiles dans les processus de comparaison et permettent d’établir un «passeport vocal» du locuteur. On distingue deux types de parole spontanée que nous appellerons parole spontanée conversationnelle (dirigée ou semi-dirigée) et parole spontanée en description. a) La parole spontanée conversationnelle (11) fournit sans aucun doute l’échantillon le plus authentique des habitudes phono-articulatoires de la personne impliquée. Comme nous l’avons signalé précédemment, certains phénomènes idiosyncrasiques, comme la vitesse d’élocution ou tempo, se manifestent plus fiablement dans une conversation que dans tout autre type de tâches (lecture, description…) sujettes à divers conditionnements. De même, les variables liées à l’intonation et à la prosodie en général et les habitus que Poyatos (1994) appela «identificateurs paralinguistiques» (la toux, le raclement de gorge, le rire…) sont aussi plus abordables à partir de ce type d’échantillons qu’à partir d’autre type de matériau. Pour que la personne impliquée maintienne une conversation avec le fonctionnaire de service et que ses émissions soient les plus naturelles possibles, il faudrait créer un climat détendu et établir une certaine confiance qui favorise la locution. Fadden (2006) explique que les réponses, s’il y en a, apportées par les interviewés aux policiers et/ou aux juges (en général), sont classées en une série relativement petite de catégories: ils confirment ou ils nient une informa336 3/12 Revue internationale de criminologie et de police technique et scientifique tion importante sur le délit; ils apportent un nouvel élément sur ce dernier; ils avouent ou admettent de nouveaux délits de moindre importance; ou plus simplement ils apportent une information non pertinente pour l’éclaircissement de l’affaire. Fadden étudie la manifestation de certains traits prosodiques (tempo, gamme tonale, pauses…) dans chacune de ces caractéristiques générales de réponse et il en conclut que les réponses où l’impliqué parle de choses non pertinentes pour l’enquête s’éloignent toutes des autres, ce qui est compréhensible, car la locution est plus naturelle et est moins conditionnée par la crainte de dire quelque chose qui pourrait se retourner contre lui. C’est précisément ce type d’entrevues qui est utile pour comparer des voix et non l’interrogatoire classique destiné à mieux comprendre les circonstances de l’affaire. ‡ Seizième recommandation: L’interrogateur qui souhaite recueillir des échantillons de parole les plus naturels possibles devra proposer des sujets de conversation à mille lieues des faits reprochés aux personnes mises en examen, tout en s’assurant de la manifestation de certains mots, de certains traits auditifs ou intéressants pour l’analyse spectrale. ‡ Dix-septième recommandation: Il convient d’instaurer un climat de relative confiance avec l’interviewé en choisissant des sujets à propos desquels les impliqués ont une opinion arrêtée et facile à exprimer (passe-temps, expériences vécues, etc.). b) La parole spontanée en description permet d’étudier les mêmes traits que ceux recueillis lors d’une conversation dirigée (12), mais par un autre moyen. Elle permet un plus grand contrôle sur certains contenus, ce qui renforce, fort logiquement, la représentativité et la comparabilité de l’échantillon. L’idée maîtresse est que le suspect devra réaliser quelques tâches descriptives par le biais du langage. La description d’un plan et le jeu des différences constituent les deux types de tâche les plus connues des phonéticiens et les plus utilisées par ces derniers pour recueillir des échantillons de parole naturels (13). Dans le premier cas, le suspect et l’intervieweur disposent chacun d’un plan mentionnant divers endroits et leurs dénominations (l’on peut jouer sur ces dernières pour insérer les mots que l’on veut recueillir). En outre, le plan du suspect présente le tracé d’un chemin pour aller d’un endroit concret à un autre (cf. figure 2, ci-dessous), tracé qui n’apparaît pas sur le plan de l’intervieweur, lequel devra dessiner sur son plan le tracé en suivant les instructions et les indications que lui donnera le suspect qui devra bien évidemment répéter plusieurs fois les mots importants qui feront l’objet de l’analyse ultérieure. Si le mot police, pour prendre un exemple, apparaît dans les échantillons de voix inconnues, il est souhaitable que le suspect le prononce le plus grand nombre de fois possible; l’un des endroits du plan peut s’appeler «commissariat de police». Fort habile, l’intervieweur fera en sorte que le suspect répète plusieurs fois ce mot («Qu’est-ce qu’il y a à droite?», «Quel bâtiment se trouve à proximité?», etc.). Revue internationale de criminologie et de police technique et scientifique 3/12 337 La seconde tâche consiste à découvrir, moyennant des questions et des réponses, les différences entre deux dessins qui ne sont pas exactement les mêmes, le suspect et l’intervieweur disposant chacun d’un dessin. À l’instar du plan, aucun des deux ne voit le dessin de son interlocuteur, tant et si bien que tout passe par le langage. Ce faisant, l’impliqué doit derechef prononcer les mots qui intéresseront l’enquête. Ainsi si le mot voiture apparaît dans l’échantillon de voix inconnues, l’objet «voiture» doit apparaître sur les dessins (cf. exemple infra. figure 3). 5. Paramètres phonétiques à haut rendement Les experts le savent bien, et Rose (2002, 53) l’explique clairement, il existe de nombreux paramètres distincts qui peuvent à un moment donné être utiles pour comparer des voix à des fins judiciaires. Toutefois, cet auteur, à la suite de Nolan (1983), précise que les paramètres retenus à cette fin doivent remplir certaines conditions, à savoir: - Les échantillons de voix intéressant l’enquête doivent présenter un grand nombre d’occurrences; - Supporter correctement les distorsions que peut produire le canal de communication; - Être relativement simples à extraire et à mesurer; - Être difficiles à dissimuler ou à imiter volontairement; - Présenter un faible degré de variabilité intra-locuteur, mais un haut degré de variabilité inter-locuteur; - Être indépendants entre eux. Il va sans dire que l’on ne pourra remplir certaines de ces conditions, que si les échantillons de voix inconnues et connues, éléments qui ont déclenché tout le processus, ont été correctement recueillis. À titre d’exemple, il est difficile de réunir un nombre suffisant d’observations d’un paramètre donné si l’on n’a pas enregistré un fragment de parole suffisamment long; il sera impossible d’extraire les valeurs d’une variable si l’enregistrement n’a pas été réalisé selon les standards techniques appropriés. Le choix de paramètres résistant aux distorsions du canal de transmission ne servirait à rien si l’on n’a pas utilisé le même pour recueillir la voix inconnue et la voix connue, etc. Quoi qu’il en soit, outre ces considérations générales, on peut en ajouter une autre qui dépend plus particulièrement de l’enregistrement de la parole connue: On veillera à inclure, dans les échantillons de voix connue, les paramètres que l’on considère comme potentiellement utiles à partir de l’analyse préalable des échantillons de voix inconnues. Ils seront comparés en priorité. 338 3/12 Revue internationale de criminologie et de police technique et scientifique 6. Synthèse de la proposition de protocole Il est recommandé de recueillir plusieurs échantillons de voix du locuteur connu, si possible espacés dans le temps (années, mois ou semaines, selon les caractéristiques de l’affaire et la faisabilité) et capturés à différents moments de la journée. Le(s) enregistrement(s) de voix connues doivent être préparés à l’avance, sous la supervision d’un expert, et reposer sur des paramètres potentiellement comparables et présents dans les traces. Il serait bon de relever, dans les enregistrements réalisés, un bon nombre d’occurrences de chaque paramètre comparable (une trentaine serait l’idéal). Il faut travailler avec un échantillon d’au moins 30 secondes (ou 100 mots) de parole inconnue et connue pour que l’on ne puisse mettre en doute la fiabilité de la comparaison de voix. Il s’ensuit qu’il faudra enregistrer au minimum 1 minute de parole spontanée, 1 minute de lecture d’un texte préparé en fonction des échantillons de voix inconnues disponibles et 1 minute de lecture d’un texte équilibré d’un point de vue phonétique. Le matériel employé pour toutes les prises de voix connues à comparer doit toujours être le même. Il faudrait utiliser un microphone à condensateur avec une réponse en fréquence linéaire allant jusqu’à 20 kHz et à directivité cardioïde ou hypercardioïde. La sensibilité sera d’au minimum 10 mV/Pa et la plage dynamique, de 100 dB. Une carte son externe donnera le meilleur d’elle-même si la réponse en fréquence est le plus linéaire possible et qu’elle permet de choisir une fréquence d’échantillonnage adaptée à l’enregistrement (44’100 Hz ou 48’000 Hz). L’alimentation devra être impérativement de type Phantom afin de pouvoir brancher un microphone à condensateur. Le logiciel utilisé devra permettre l’enregistrement audio au format non compressé (wav avec compression PCM), et une fréquence d’échantillonnage et une résolution minimales de 44’100 Hz et de 16 bits par échantillon respectivement. Au cours de l’enregistrement, l’on doit pouvoir réaliser une écoute en temps réel afin de s’assurer qu’il n’y a ni bruit intempestif ni saturation. Pour ce faire, on utilisera des casques professionnels. Le temps de réverbération de la salle d’enregistrement doit être inférieur à 1 seconde et son niveau de bruit de fond, inférieur à 35 dB, ce qui donne un rapport signal-bruit d’environ 30 dB. Le microphone et la carte son devraient être placés le plus loin possible de toute source de bruit. Le microphone doit être placé près du locuteur (la distance varie en fonction du type de microphone). On prêtera une attention toute particulière aux éventuels bruits produits par la respiration, les coups sur la table et le feuilletage. On veillera à enregistrer les voix connues de sorte à renforcer leur degré de comparabilité avec les traces. En présence de voix criantes, par exemple, il est conseillé d’obtenir des sujets impliqués qu’ils crient aussi dans l’enregistrement sous contrôle de la voix spontanée. Pour ce faire, au cours de l’entretien, on fera passer dans les casques des interlocuteurs – intervieweur et interviewé – de la musique ou un bruit blanc à un niveau qui ne fasse ni mal ni n’empêche la rétroalimentation auditive, et ce afin qu’ils soient obliger de crier pour se faire entendre. Dans la mesure du possible, il faut recueillir des échantillons de parole de deux types, la parole lue et la parole spontanée. L’échantillon de parole lue peut être établi à partir de fragments de la transcription de la voix inconnue, que l’on ajoute au texte spécialement conçu pour le test, et à partir d’un texte équilibré d’un point de vue phonétique. La préparation de l’échantillon de parole spontanée doit obéir à une procédure préalablement définie et prendre en compte tous les facteurs susceptibles de favoriser la comparabilité. Si la trace correspond à une voix téléphonique interceptée, la voix connue devrait être recueillie sous forme de conversation téléphonique filtrée entre le suspect et les fonctionnaires de police, placés dans deux salles situées hors du cadre des locaux de la police ou du tribunal. L’enquêteur qui souhaite recueillir des échantillons de parole les plus naturels possibles devra proposer des sujets de conversation à mille lieues des faits reprochés aux personnes mises en examen, tout en s’assurant de la manifestation de certains mots, de certains traits auditifs ou intéressants pour l’analyse spectrale. Il convient d’instaurer un climat de relative confiance avec l’interviewé en choisissant des sujets à propos desquels les personnes impliquées ont une opinion arrêtée et facile à exprimer (passe-temps, expériences vécues, etc.). Revue internationale de criminologie et de police technique et scientifique 3/12 339 7. Conclusion Certes, d’aucuns pourraient considérer que les nombreuses heures de travail liées à l’application de ce protocole et le nombre de paramètres à considérer n’encouragent pas son utilisation dans la pratique judiciaire. Nous pensons, au contraire, qu’il faut s’entourer de mille précautions dès lors que l’expertise phonétique peut avoir des conséquences dramatiques sur la vie et la réputation de la personne impliquée. La rigueur et le professionnalisme, qui doivent caractériser tout le processus, seront présents, depuis les phases initiales que nous avons abordées dans cet article, jusqu’aux phases finales. Bibliographie Aguilar, L., Blecua, B., Machuca, M. J. et Marín, R. (1993) Phonetic reduction processes in spontaneous speech. Dans Eurospeech’93. Third European Conference on Speech Communication and Technology (pp. 433-436). Berlin. Baldwin, J. et French, P. (1990). Forensic Phonetics. Londres: Pinter. Batliner, A., Kompe, R., Kiessling, A., Nöth, E. Et Niemann, H. (1995). Can you tell apart spontaneous and read speech if you just look at prosody? Dans A. J. Rubio et J. M. López (Eds.), Speech Recognition and Coding. New Advances and Trends (pp. 321-324). Berlin: Springer. Blatchford, H. et Foulkes, P. (2006). Identification of voices in shouting. International Journal of Speech, Language and the Law, 13(2), 241-254. Blaauw, E. (1991). Phonetic characteristics of spontaneous and read-aloud speech. Dans Proceedings of the ESCA Workshop ‘Phonetics and Phonology of Speaking Styles: Reduction and Elaboration in Speech Communication’ (pp. 121 – 125). Barcelone: ESCA. Braun, A. (1995). Fundamental frequency - How speaker specific is it? Dans A. Braun et J.- P. Köster (Eds.) Studies in Forensic Phonetics (pp. 9-23).Trier: Wissenschaftliger Verlag. Braun, A. et Friebis, S. (2009). Phonetic cues to speaker age: A longitudinal study. Dans G. Grewendorf et M. Rathert (Eds.), Formal Linguistics and Law (pp. 141-162). Berlin: Mouton de Gruyter. British Home Office (2003). Advice on the use of identification parades. Home Office Circular 057/2003. http://www.homeoffice.gov.uk/about-us/corporate-publications-strategy/home-office-circulars/circulars-2003/057-2003/ (30 avril, 2012). Broeders, A. P. A. (2001). Forensic speech and audio analysis. Forensic Linguistics. 1998 to 2001.A Review. Dans 13th INTERPOL Forensic Sciences Symposium, Lyon, France. http://www.interpol.int/Public/Forensic/IFSS/meeting13/Reviews/ForensicLinguistics.pdf Broeders, A. P. A. (2005). Forensic speech and audio analysis. Forensic linguistics. A review: 2001-2004. Dans 14th INTERPOL Forensic Science Symposium. Lyon. Broeders, A. P. A., Cambier-Langeveld, T. et Vermeulen, J. (2002).Obtaining reference material in a case with two unknown speakers: Getting two suspects on speaking terms. Forensic Linguistics, 9(1), 87-93. Byrne, C. et Foulkes, P. (2004). The mobile phone effect on vowel formants. International Journal of Speech, Language and the Law, 11, 83-102. Champod, C. et Meuwly, D. (2000). Inference of identity in forensic speaker recognition. Speech Communication, 31(2), 193-203. Chen, N. F., Shen, W., Campbell, J. et Schwartz, R. (2009). Large scale analysis or formant frequency estimation variability in conversational telephone speech. Dans Interspeech 2009, Brighton. Elliott, J. R. (2000). Auditory and F-pattern variation in Australian Okay: A forensic investigation. Acoustics Australia, 29(1), 37-41. 340 3/12 Revue internationale de criminologie et de police technique et scientifique ENFSI Working Group (2006). Work Instruction on Best Practice in Undoubt Forensic Voice Recordings. Ref. WG-GC-001, Issue number 1, 23-01-2006. (Manuscrit non publié à usage interne). Eriksson, A. (2005). Tutorial on forensic speech science. Part I: Forensic phonetics. Dans Interspeech 2005 - Eurospeech. Proceedings of the 9th European Conference on Speech Communication and Technology. Lisbonne, 2005. Fadden, L. (2006). The prosody of suspects’ speech during police interviews. Dans Proceedings of Speech Prosody 2006, Dresden, Allemagne. 2-5 mai, 2006. Fritzell B, Hallén O. et Sundberg, J. (1974). Evaluation of Teflon injection procedures for paralytic dysphonia. Folia Phoniatrica, 26, 414-421. French, J. P. (1994). An overview of forensic phonetics with particular reference to speaker identification, Forensic Linguistics, 1(2), 169-184. French, J. P. (1998). Mr Akbar’s nearest ear versus the Lombard reflex: A case study for forensic phonetics. Forensic Linguistics, 5(2), 58–68. Fungairiño, E. (2000). Notas sobre la prueba de audio en el proceso penal. Dans J. Ortega (Ed.). SEAF 2000. Actas del I Congreso de la Sociedad Española de Acústica Forense. Madrid: EUIT de Telecomunicación, 1-12. Grewendorf, G. et Rathert, M. (Eds.) (2009). Formal Linguistics and Law, Berlin: Mouton de Gruyter. Hacki, T. (1996). Comparative speaking shouting and singing voice range profile measurement: Physiological and pathological aspects. Logopedics Phoniatrics Vocology, 21, 123-129. Harmegnies, B. et Poch, D. (1992). A study on style-induced vowel variability: Laboratory versus spontaneous speech in Spanish. Speech Communication, 11(4-5), 429-438. Harris, C. M. et Weiss, M. R. (1964). Effects of speaking condition on pitch. Journal of the Acoustical Society of America, 6(5), 933-936. Hirson, A., French, J. P. et Howard, D. (1995). Speech fundamental frequency over the telephone and face-to-face: some implications for forensic phonetics. Dans J. Windsor Lewis (Ed.), Studies in General and English Phonetics in Honour of Professor J. D. O’Connor (pp. 230-240). Londres: Routledge. Hollien, H. (1990). The Acoustics of Crime. The New Science of Forensic Phonetics. New York: Kluwer Academic - Plenum Publishers. Hollien, H. (2002). Forensic Voice Identification. San Diego: Academic Press. Hollien, H., Hollien, P. et de Jong, G. (1997). Effects of three parameters on speaking fundamental frequency. Journal of the Acoustical Society of America, 102, 2984-2981. Hollien, H. et Schwartz, R. (2001). Speaker identification utilizing noncontemporary speech. Journal of Forensic Sciences, 46, 63-67. Horvath, F. (2002). Voice identification. Dans D. Levinson (Ed.), Encyclopedia of Crime and Punishment (pp. 1692-1694). Londres: Berkshire Publishing Group. Jansen, W. et Ayers, R. (2007). Guidelines on Cell Phone Forensics. Recommendations of the National Institute of Standard and Technology. NIST: Washington. Jessen, M. (2009a). Forensic phonetics. Language and Linguistics Compass, 2(4), 671-711. Jessen, M. (2009b). Forensic phonetics and the influence of speaking style. Dans G. Grewendorf et M. Tathert (Eds.), Formal Linguistics and Law (pp. 115-140). Berlin: Mouton de Gruyter. Jessen, M. et Jessen, M. (2007). Speak up please: Towards stimulating vocal effort changes in the recording of suspect material. IAFPA 2007. Plymouth. Jessen, M., Köster, O. et Gfroerer, S. (2005). Influence of vocal effort on average and variability of fundamental frequency. International Journal of Speech, Language and the Law, 12, 174-213. Jiménez, J. J. (2011). Estructura formántica y campo de dispersión de las vocales del español en telefonía móvil. Cuadernos de Trabajo del Posgrado Oficial en Estudios Fónicos, 1, 39-58. Keller, E. (2004). The analysis of voice quality in speech processing. Proceedings of Summer School on Neural Networks’2004, 54-73. Kuitert, M. et Boves, L. (1997). Speaker verification with GSM coded telephone speech. Dans Proceedings of Eurospeech’97 (pp. 975-978). Rhodes, Grèce. Revue internationale de criminologie et de police technique et scientifique 3/12 341 Künzel, H. (1994). On the problems of speaker identification by victims and witnesses. Forensic Linguistics, 1(1), 45-57. Künzel, H. J. (1995). Field procedures in forensic speaker recognition. Dans J. Windsor Lewis (Ed.), Studies in General and English Phonetics. Essays in Honour of J. D. O’Connor (pp. 68 – 84). Londres: Routledge. Künzel, H. J. (1997). Some general phonetic and forensic aspects of speaking tempo. Forensic Linguistics, 4(1), 48-84. Künzel, H. J. (2001). Beware of the ‘telephone effect’: The influence of telephone transmission on the measurement of formant frequencies. Forensic Linguistics, 8, 80–99. Künzel, H. J. (2004). Tasks in forensic speech and audio analysis: A tutorial. The Phonetician, 90, 9-22. Laan, G. (1997). The contribution of intonation, segmental durations, and spectral features to the perception of a spontaneous and a read speaking style. Speech Communication, 22, 43-65. Ladefoged, J. et Ladefoged, J. (1980). The ability of listeners to identify voices. UCLA Working Papers in Phonetics, 49, 43-51. Laver, J. (1980). The Phonetic Description of Voice Quality. Cambridge: Cambridge University Press. Llisterri, J. (1992). Speaking styles in speech research. Elsnet/Esca/Salt Workshop on Integrating Speech and Natural Language. Dublin. Lucena, J. J. (2002). Marco legal español en la prueba pericial de voz. Acústica Forense. Revista Oficial de la Sociedad Española de Acústica Forense, 1, 46-60. Martínez Sánchez, C. (1999). El valor de la prueba pericial. Dans II Simposio sobre Reconocimiento de Voz con Fines Forenses, [CD]. Cartagena: Universidad Politécnica de Cartagena. Mixdorff, H. et Pfitzinger, H. R. (2005). Analysing fundamental frequency contours and local speech rate in map task dialogs. Speech Communication, 46, 310-325. Moos A. (2008). Long-term formant distribution (LTF) based on German spontaneous and read speech. Proceedings of IAFPA 2008, Lausanne. Moye, L. S. (1979). Study of the Effects on Speech Analysis of the Types of Degradation Occurring in Telephony, Harlow, Essex: Standard Telecommunication Laboratories. National Research Council (1979). On the Theory and Practice of Voice Identification, Washington: National Academy of Sciences. Moos A. (2008). Long-term formant distribution (LTF) based on German spontaneous and read speech. International Association for Forensic Phonetics and Acoustics (IAFPA) 17th Annual Conference. Morrison, G. S. (2009). Forensic voice comparison and the paradigm shift. Science & Justice, 49, 298–308. Morrison, G. S. (2010). Forensic voice comparison. Dans I. Freckelton et H. Selby (Eds.), Expert Evidence (Ch. 99). Sydney, Australie: Thomson Reuters. Morrison, G. S. (2011a). Measuring the validity and reliability of forensic likelihood-ratio systems. Science and Justice, 51, 91–98. Morrison, G. S., Rose, P. et Zhang, C. (2011b). Protocol for the collection of databases of recordings for forensic-voice-comparison research and practice. Technical Report, Forensic Voice Comparison Laboratory, University of New South Wales. Nolan, F. (1983). The Phonetic Bases of Speaker Recognition, Cambridge: Cambridge University Press. Nolan, F. (1991). «Forensic Phonetics», Journal of Linguistics, 27, 483-493. Nolan, F. (1997). Speaker recognition and forensic phonetics. Dans W. Hardcastle et J. Laver (Eds.). The Handbook of Phonetic Sciences (pp. 44-767). Oxford: Blackwell. Nolan, F. (2002). The ‘telephone effect’ on formants: A response. Forensic Linguistics, 9, 74–82. Nolan, F., McDougall, K., de Jong, G. et Hudson, T. (2006). A forensic phonetic study of ‘dynamic’ sources of variability in speech: The DyViS project. Dans P. Warren et C. I. Watson (Eds.), Proceedings of the 11th Australasian International Conference on Speech Science and Technology (pp.13-18). 6-8 Décembre 2006. Auckland: Australasian Speech Science and Technology Association. 342 3/12 Revue internationale de criminologie et de police technique et scientifique Poyatos, F. (1994). La comunicación no verbal. Madrid: Istmo. Quilis, A. (1999). El reconocimiento de la voz en la investigación judicial: La experiencia del lingüista. Dans P. Gómez, J. Carbonero et M. Casado (Eds.). Lengua y discurso: Estudios dedicados al profesor Vidal Lamíquiz (pp. 783-790). Madrid: Arco-Libros. Rosas, C. et Sommerhoff, J. (2009). Efectos acústicos de las variaciones fonopragmáticas y ambientales. Estudios filológicos, 44, 195-210. Rose, Ph. (2002). Forensic Speaker Identification. Londres: Taylor and Francis. Summers, W. V., Johnson, K., Pisoni, D. B. et Bernacki, R. H. (1989). An addendum to “Effects of noise on speech production: Acoustic and perceptual analyses. Journal of the Acoustical Society of America, 86, 1717–21. Summers, W. V., Pisoni, D. B., Bernacki, R. H., Pedlow, R. I. et Stokes, M. A. (1988). Effects of noise on speech production: acoustic and perceptual analyses. Journal of the Acoustical Society of America, 84, 917–28. Swerts, M. et Collier, R. (1992). On the controlled elicitation of spontaneous speech. Speech Communication, 11, 463-468. Tanner, D. C. et Tanner, M. (2004). Forensic Aspects of Speech Patterns: Voice Prints, Speaker Profiling, Lie and Intoxication Detection. New York: Lawyers & Judges Publishing Co. Tjaden, K. (2000). A preliminary study of factors influencing perception of articulatory rate in Parkinson disease. Journal of Speech, Language and Hearing Research, 43, 997-1010. Vermeulen, J. F. M. et Cortés, P. A. (2011). Obtaining reference material: NFI procedures. IAFPA 2011. Vienne. Remerciements Les auteurs remercient le professeur Geoffrey S. Morrison d’avoir relu attentivement le manuscrit et d’y avoir apporté des commentaires. Il va sans dire que toute erreur est le seul fait des auteurs de ce travail. Cet article est le fruit d’un travail financé par le Ministère de l’Économie et de la Compétitivité (Plan National de R&D, ref. FFI2010-21690-CO2-01) Notes 1 La littérature sur la phonétique judiciaire est très riche. On retiendra plus particulièrement les travaux suivants, qui présentent un panorama général: Baldwin et French (1990), Hollien (1990, 2002), French (1994), Braun et Köster (1995), Künzel (1994, 1995, 2004), Nolan (1983, 1997), Broeders (2001), Rose (2002), Tanner et Tanner (2004), Eriksson (2005), Jessen (2009) et Morrison (2009). 2 Certes, il existe des protocoles à usage interne, comme celui utilisé par la Guardia Civil (ENFSI 2006) dans ses interventions, lesquelles obéissent aux Instrucciones Técnicas. Le Netherlands Forensic Institute dispose aussi de directives propres de procédure (Broeders et al. 2002, Vermeulen et Cortés 2011). 3 La procureure signale que, lors d’une réunion du Comité d’experts sur la bioéthique qui s’est tenue à Strasbourg en mai 1991, le Conseil de l’Europe a fait une recommandation selon laquelle on ne peut utiliser dans la réalisation d’une expertise, comme éléments indubitables, les échantillons volontairement apportés par le mis en examen pour une procédure différente de celle qui est en cours, ni le résultat obtenu dans une procédure pour une autre. Le Conseil de l’Europe a recommandé de ne pas utiliser des informations apportées par l’individu à des fins autres que judiciaires. Martínez Sánchez se demande s’il faudrait appliquer cette thèse à l’identification vocale et s’interroge sur les conséquences de cette application sur l’existence d’une base de données de voix, semblable à celles qui existent pour les empreintes digitales. Quoi qu’il en soit, elle ajoute qu’il appartient au législateur d’apporter une réponse. Revue internationale de criminologie et de police technique et scientifique 3/12 343 4 Concernant l’influence du temps qui passe et de l’âge sur la voix d’un individu, Braun et Friebis (2009) concluent leur étude longitudinale, réalisée sur les voix des hommes politiques allemands, en affirmant que les échantillons non contemporains d’un même locuteur (échantillons séparés par un maximum de 10 ans) ne posent pas nécessairement de problèmes dans un contexte de comparaison de voix, pourvu qu’il s’agisse d’un adulte non sénile et qu’il n’ait pas été atteint de maladie ou subi une opération de la trachée durant ce laps de temps. On trouvera ce même genre d’observations dans l’article de Hollien et Schwartz (2001). 5 Citons, à titre d’exemple, Adobe Audition, Sound Forge, Praat …, etc. 6 Cette réaction est connue en acoustique sous le terme d’«effet Lombard» ou le fait que les locuteurs parlent systématiquement plus fort dans une ambiance bruyante. 7 On peut lire ainsi à la page 75 du rapport «Current procederes in voice identification» repris dans l’ouvrage de 1979 On the Theory and Practice of Voice Identification publié par le National Research Council des États-Unis qu’il est toujours préférable que le suspect répète des phrases-type prononcées par l’intervieweur à ce qu’il les lise. 8 Il n’est pas difficile de trouver des exemples de cas où la police utilise la lecture sans trop se poser de questions. On pouvait, par exemple, lire récemment dans la version en ligne du journal indien Daily News and Analysis (Bombay, 24-02-2011) décrivant par le menu une arrestation, que «the police said the suspects are made to read aloud from books. The voice would be recorded in the morning, afternoon and night” (http://dnaidia.com). 9 Jessen explique qu’on avait constaté, dans certains travaux, que la F0 moyenne était plus élevée en parole lue qu’en parole spontanée (Blaauw 1991, Hollien et al. 1997, Laan 1997, Künzel 1997); mais d’autres travaux ont démontré le contraire (Berliner et al. 1995). Par ailleurs, conformément à certaines études sur la variabilité de la fréquence, elle semblait être plus élevée en parole lue qu’en parole spontanée (Tjaden 2000), mais la tendance était juste l’inverse dans d’autres travaux (Mixdorff et Pfitzinger 2005). En définitive, ces résultats sont très hétérogènes. 10 Il est fréquent que le simple fait de lire à haute voix, face à des témoins pas nécessairement amicaux, et dans une ambiance hostile, stresse certaines personnes. 11 En réalité, il faudrait plutôt parler d’ «entrevue» au lieu de «conversation», car, dans une situation idéale, l’intervieweur devrait intervenir le moins possible et laisser parler le suspect. Son intervention ayant pour seul but d’éviter que le sujet de conversation ne s’épuise. L’entrevue doit donc être contrôlée, sans que cela se voie. 12 Pour une explication très claire et détaillée des différents problèmes méthodologiques liés à la phonétique expérimentale, et que nous avons brièvement abordés dans le cadre de la phonétique judiciaire, on se reportera à Llisterri (1991, 1992), et au site web http://liceu.uab.es/~joaquim/phonetics/fon_met_exper/corp_trab.html. 13 Il existe deux manières, en phonétique expérimentale, de recueillir la parole naturelle. L’une d’elle consiste à décrire un réseau fait de figures géométriques de différentes couleurs (cf. Swerts et Collier 1992). Cependant, elles sont difficilement adaptables au domaine et aux caractéristiques de la phonétique judiciaire. Broeders et al. (2002) et Morrison, Rose et Zhang (2011b) proposent des suggestions très intéressantes pour recueillir la parole naturelle. 344 3/12 Revue internationale de criminologie et de police technique et scientifique