99 - Laboratoire d`Informatique de l`Université du Maine
Transcription
99 - Laboratoire d`Informatique de l`Université du Maine
L’identification vocale : pour une quantification des effets de la familiarité Julien Plante-Hébert1, 2, Victor J. Boucher1, 3 (1)Laboratoire de sciences phonétiques, Université de Montréal, Montréal, Québec, Canada, H3T 1N8 [email protected], [email protected] RESUME _______________________________________________________________________ La présente étude porte sur les effets de la familiarité dans l’identification de locuteurs dans une situation de parade vocale. Cette technique, inspirée d’une procédure d’identification visuelle d’individus, consiste en la présentation de plusieurs voix avec des aspects acoustiques similaires définis selon des critères reconnus. L’objectif principal était de déterminer si un contrôle de la familiarité d’une voix dans une parade vocale permet d’obtenir un haut taux d’identification vocale (> 99 %). Notre étude est la première à quantifier le critère de familiarité selon le degré de contact entre un témoin et un individu associé à une « voix cible» dans une parade vocale. Les résultats indiquent qu’un très haut taux d’identification vocale s’obtient par l’application d’un index de familiarité en contrôlant pour la longueur des stimuli vocaux. ABSTRACT _____________________________________________________________________ Voice identification: for a quantitative approach to the effects of familiarity The present study aims to determine the effect of familiarity on speaker identification in voice line-ups. The voice line-up technique is analogous to visual line-ups consisting in the presentation of a number of voices sharing similar acoustics properties that are well recognized in the literature. The main objective was to investigate if, by controlling voice familiarity, one can obtain high rates of correct voice identification (>99 %). This study is the first to quantify the familiarity criterion in terms of the degree of contact between a witness and an individual associated with a voice in a line-up. The results indicate that a very high rate of voice identification can be obtained by applying a criterion index of familiarity and controlling for the length of the voice stimuli. MOTS-CLES : Familiarité, parade vocale, identification. KEYWORDS: Familiarity, voice line-up, identification. 1 Introduction L’identification d’un locuteur par le biais d’enregistrements audio ou de signaux téléphoniques possède plusieurs applications. Dans un contexte légal ou criminel, l’identification vocale peut être critique surtout lorsqu’il n’y a aucun document visuel pour appuyer une défense ou mise en accusation. Dans ces situations, certains organismes tels Interpol (2001) recommandent l’utilisation de la technique des parades vocales. Cette technique est analogue à la technique des parades visuelles, qui est bien connue des enquêteurs (Jessen 2008). Les cas légaux ayant recours à la parade vocale sont, dans une grande majorité, des cas où le témoignage d’un individu ou d’un groupe d’individus est critique dans l’établissement d’un jugement. . Le recours à la parade vocale, dans ce contexte, invite à une grande prudence et à l’application de techniques qui sont de plus en plus standardisées. Par exemple, il existe actuellement des recommandations formelles régissant le choix des voix dans l’élaboration de parades vocales : celles-ci doivent avoir une fréquence fondamentale similaire, on doit utiliser les mêmes énoncés, présenter des conditions d’écoute identiques pour les témoins (etc., Yarmey 1995, Nolan 2003, Jessen 2008). En considérant les facteurs qui peuvent faire varier l’exactitude des identifications vocales des témoins, une des variables évidentes est le niveau de familiarité des voix entendues. Bien qu’un certain nombre d’études (p. ex. Foulkes 2000 ; Yarmey 2001) ont examiné l’effet de la familiarité des voix dans le contexte des parades vocales, aucune recherche n’a délimité de manière opérationnelle de catégories objectives de familiarité vocale, même s’il est reconnu que l’être humain possède de grandes capacités à identifier les voix familières. En fait, il y a une tendance dans la communauté scientifique spécialisée à référer à des techniques automatisées alors que l’identification par le biais humain et les parades vocales offre une possibilité de taux d’identification supérieurs aux techniques informatiques et une plus grande efficacité. Le tableau 1 résume certaines comparaisons faites par Jessen (2008) et Campbell (2009) qui mettent en lumière les avantages respectifs de la parade vocale et de l’identification automatisée. Paramètres Parades vocales Techniques automatisées Aucun besoin d’entrainement Meilleurs résultats Considération du contenu para et extra linguistique Coût matériel Données interprétables par spécialistes Rapidité des procédures Accessibilité Fiabilité des données TABLEAU 1 – Comparaison entre les avantages et les inconvénients de la parade vocale et des techniques d’identification par la voix automatisées. Par rapport aux points de comparaisons du tableau ci-dessus, notons simplement que l’utilisation de témoins humains dans une parade vocale peut offrir des taux d’identification supérieurs (selon les conditions utilisées dans la présente étude) aux techniques d’identification automatisées. Notons aussi que les participants à une parade ne nécessitent pas de période d’entraînement, puisqu’ils sont déjà en mesure de catégoriser des voix familières, contrairement aux techniques automatisées qui peuvent requérir un nombre indéterminé d’expositions à des exemplaires afin d’établir les attributs acoustiques pertinents à l’identification. L’efficacité de la perception humaine dans l’identification vocale peut se saisir en pensant à la capacité que nous avons à distinguer la voix de proches. Par exemple, nous pouvons facilement identifier, parmi plusieurs voix, celle de notre mère ou celle d’un frère peu importe ce qui est dit, alors qu’un système automatique nécessiterait un vaste corpus pour en arriver à des taux qui peuvent fluctuer selon les énoncés. En dehors des applications légales, l’étude de l’identification par la voix suscite aussi un intérêt pour la linguistique fondamentale. Ainsi, l’accroissement du taux d’identifications correctes en fonction du niveau de familiarité suggère un raffinement des «théories d’exemplaires» selon lesquelles l’emprunte mnémonique de la parole se renforce par la fréquence d’exposition (Johnson, 1997). En fait, les effets de la familiarité sur l’identification de la voix suggèrent que les «exemplaires» qui se développent ne sont pas seulement des «traits» phonologiques mais aussi des éléments d’informations associés aux voix d’individus. Les exemplaires se raffinent à force d’exposition au point où des voix familières pourraient être identifiées avec un très faible taux d’erreur. Dans cette optique, le présent travail vise à démontrer que le contrôle du niveau de familiarité des voix dans une technique de parade vocale permet d’obtenir de hauts taux d’identification qui dépassent les possibilités actuelles de techniques informatiques. 2 Méthode 2.1 Participants et questionnaire sur la familiarité Les participants étaient 18 hommes et 26 femmes (n=44), âgés entre 18 et 65 ans et ayant le français comme langue maternelle. Ces individus n’avaient aucun trouble d’audition apparent ou diagnostiqué. Les participants étaient avisés, lors du recrutement, que l’expérience impliquait l’identification de voix dans trois parades vocales et que certaines des voix (dites «voix-cibles») pouvaient être d’individus qui leur étaient familiers. Les participants à l’étude ont été recrutés selon leur degré de familiarité a priori avec la voix cible d’une parade vocale à laquelle ils seraient exposés et le degré de familiarité a été établi au moyen d’un questionnaire (voir section 2.2.1 ci-dessous). Ainsi, les voix cibles pouvaient être des voix de parents proches, de collègues de travail, d’amis, de connaissances ou des voix de personnes inconnues. 2.1.1 Critères de familiarité de la «voix cible» Lors de l’expérimentation, chaque participant devait remplir un questionnaire visant à établir son niveau de familiarité avec la voix cible dans une parade avant la tâche expérimentale. Le questionnaire a permis l’élaboration d’un «index de familiarité » basé essentiellement sur trois critères: 1. La fréquence des communications: il est ici question de la fréquence moyenne des communications orales entre le participant et la voix cible depuis le premier événement. 2. La récence des communications: le participant devait mentionner à quand remonte la dernière communication orale avec la voix cible. 3. La durée des communications: la durée moyenne des communications entre le participant et la voix cible depuis le premier événement. Les participants ont été répartis en nombres égaux dans chacun des niveaux d’index de familiarité utilisés. Ceux regroupés dans l’index de familiarité 1 étaient des individus n’ayant eu aucun contact avec la voix cible préalablement à l’expérimentation. Ces derniers ont entendu, environ 30 minutes avant le début de la tâche expérimentale, un enregistrement de la voix qu’ils devaient identifier. 2.2 2.2.1 Stimuli Les voix de la parade Trois ensembles de parades vocales ont été élaborés, chaque ensemble contenait quatre longueurs d’énoncés (voir section 2.3.2) pour un total de 24 parades vocales. Chacune des parades contenait 10 voix d’hommes âgés entre 18 et 50 ans dont une voix cible. Toutes les voix dans les parades avaient une fréquence fondamentale moyenne en parole (F0mp) similaire, c’est-à-dire que l’écart entre les F0mp des voix présentées était moins d’un semi ton (Hudson, 2007), respectant les standards en vigueur dans l ’ élaboration de parades vocales. Aussi, tous les volontaires à l’élaboration des stimuli étaient des locuteurs natifs du français québécois et aucun ne possédait d’accent régional marqué ou de particularités articulatoires (idiosyncrasies). Enfin, aucun des locuteurs ne possédait de trouble d’articulation apparent ou diagnostiqué. 2.2.2 Longueurs d’énoncés et enregistrements audio Les énoncés utilisés dans les parades vocales étaient des phrases familières produites avec une intonation neutre (p. ex. «merci beaucoup», «comment vas-tu ?») et variaient en longueur syllabique (1, 4, 10 et 18 syllabes). Chacune de ces longueurs comportait deux énoncés dont l’un était composé principalement de sons oraux et l’autre comportait plusieurs sons nasaux (l’analyse des effets associés à la nasalité ne fait pas l’objet du présent rapport). Tous ces enregistrements ont été effectués dans une salle à l’épreuve du son au laboratoire de phonétique de l’Université de Montréal à l’aide d’un microphone Electro-Voice (modèle A635), d’une carte sonore interne d’ordinateur (16-bit, Sony Vaio NW Series) régler à un taux d’échantillonnage de 44,1 kHz.. 2.2.3 Filtrage des stimuli pour répliquer les conditions d’écoute par téléphone Il est utile de noter que l’identification vocale dans des situations paralégales implique souvent des voix transmises par le biais de téléphones sans fil (Fernandez Gallaro, 2012). Afin de représenter ces situations, tous les stimuli enregistrés ont été filtré (de 300Hz à 3500Hz) au moyen d’un filtre blackman reproduisant les courbes de téléphone cellulaire. De plus, un bruit de fond audible (largeur de bande de 0.25kHz à 6.5 kHz et d’une amplitude maximale de 24 dB) mais qui n’altérait pas la perception de la parole, a été ajouté aux enregistrements. 2.3 Procédure expérimentale La procédure impliquait une tâche à deux étapes. Dans la première étape, les participants avaient pour directives d’écouter d’abord chacun des 10 énoncés dans une parade, un énoncé à la fois, sans répétition et dans un ordre prédéterminé. Ils devaient, lors de l’écoute, noter, sur un formulaire, les voix pouvant représenter un individu qu’ils connaissaient. Immédiatement après cette première écoute, il devait indiquer la voix la plus susceptible d’appartenir à un individu connu. Dans une deuxième étape, le participant pouvait réécouter autant de fois qu’il voulait les voix dans une parade afin de valider ou modifier sa réponse. Les résultats ci-dessous, bien que très similaires à ceux obtenus à la première étape, portent sur l’identification vocale faite à la deuxième étape. Ces résultats regroupent 8 essais par participants (n = 44) pour un total de 352 essais. Pour l’écoute des stimuli, tous les participants ont utilisé un casque d’écoute (Beyerdynamic, modèle DT250) et les signaux étaient rejoués à partir d’un ordinateur portable (même système que celui utilisé pour l’enregistrement) à une amplitude maximale d’environ 68 dBa (un niveau confortable d’écoute) tel que mesurée avec un sonomètre et un adaptateur (Digital Recordings, modèle DR-1). 3 Résultats Les résultats présentés dans la Figure 1 démontrent une hausse du pourcentage d’identifications correctes en fonction de l’index de familiarité. Ces résultats incluent les identifications obtenues avec les énoncés de 4, 10 et 18 syllabes en éliminant les valeurs associées aux énoncés monosyllabiques (qui n’ont pas mené à des taux acceptables d’identifications). La figure 1 montre qu’un très haut taux de réussite à la tâche d’identification (100%) est obtenu avec un index de familiarité de niveau 4. Notons que les identifications à partir d’énoncés monosyllabiques n’ont démontré aucune tendance particulière. FIGURE 1 – Pourcentage global d’identifications correctes en fonction du niveau de familiarité. Les énoncés monosyllabiques ont été exclus. Quant aux variations associées à la longueur des énoncés, la figure 2 démontre que les taux d’identification diffèrent très peu pour les longs énoncés (10 et 18 syllabes). Par contre, il s’avère que l’identification de voix, même très familière, n’est pas possible avec de courts énoncés de moins de quatre syllabes. FIGURE 2 – Pourcentage d’identifications correctes en fonction du niveau de familiarité pour chaque longueur d’énoncé. Notons par rapport à la Figure 1 que, la probabilité que tous les participants ayant un niveau 4 de familiarité (n=12) identifient la voix cible par hasard est de p < 0,000001. Le tableau I illustre les coefficients de corrélation entre la réussite à la tâche expérimentale et le pointage obtenu pour chaque paramètre évalué par le questionnaire de familiarité 1 . Ces coefficients sont statistiquement significatifs pour les paramètres de fréquence, durée et période. Paramètres rs p Récence -0.052 < 0.743 Fréquence 0.542 < 0.001 Durée 0.494 < 0.01 Période 0.686 < 0.001 TABLEAU I – Coefficients de corrélation entre le pointage obtenu pour les paramètres de la familiarité et le pourcentage moyen d’identifications. 4 Discussion et conclusion Les résultats ci-dessus permettent d’affirmer que de hauts taux d’identification approchant 100% peuvent être obtenus dans le cadre d’une parade vocale élaborée selon les recommandations en vigueur si on contrôle le niveau de familiarité des voix. Notons que les taux rapportés ont été obtenus pour des enregistrements reflétant les conditions d’écoute de téléphones cellulaires, ce qui permet d’espérer que les résultats soient généralisables à des situations d’écoutes difficiles. Par ailleurs, l’analyse indique que le facteur de la longueur des énoncés a peu d’influence sur les 1 Pour des raisons de confidentialité et de propriété intellectuelle, veuillez contacter l’auteur pour plus de détails concernant le barème de pointage utilisé taux d’identification : c’est-à-dire, avec un index de familiarité de 4, on obtient des taux d’ identification s’approchant 100% avec des énoncés de quatre syllabes ou plus. Par conséquent, contrairement à certaines recherches (Eriksson, 2007), il ne semble pas y avoir d’effet majeur de longueur de stimuli lorsque les voix entendues sont familières. En conclusion, cette étude indique que le critère de familiarité joue un rôle majeur dans l’identification d’individu par la voix en contexte de parade vocale. La quantification de la familiarité serait donc primordiale surtout dans un contexte d’application légal. Par contre, un problème qui nuit à l’application du critère de familiarité est le fait que les plus hauts taux d’identification sont obtenus avec des personnes qui connaissent bien les individus associés aux voix cibles. Rappelons qu’un index 4 de familiarité est un individu avec qui il y a un contact très fréquent (plus d’une fois semaine) et un contact de longue durée (un ami de longue date, un membre de la famille, etc.) et un contact récent (dans le dernier mois). Or, dans un contexte d’application légal où un individu serait amené à identifier une voix d’un proche, il serait probable que l’individu évite de répondre afin d’éviter une possible incrimination. Nos travaux ultérieurs visent à répondre à cette difficulté en exploitant des techniques d’identification axées sur les potentiels évoqués. Références CAMBELL, J. 2009. Forensic speaker identification: A need for caution. IEEE Signal Processing Magazine.03: 95-103 ERIKSSON, E. 2007. That voice sounds familiar. Factors in speaker recognition. Umeä Studies in Cognitive Science 1. FERNANDEZ GALLARNO, L. 2012. Comparison of Human Speaker Identification of Known Voices Transmitted through Narrowband and Wideband Communication Systems. ITG Fachbericht 236 : Sprachkommunikation. FOULKES, P. 2000. Telephone speaker recognition amongst members of a close social network. Forensic Linguistics. 7(2) : 180-198. HUDSON, T. 2007. F0 statistic for 100 young male speaker of standard southern brithish english. XVI International Conference od Phonetic Sciences (ICPhS 2007). Saarbrücken, Allemagne. INTERPOL. 2001. Forensic speech and audio analysis forensic linguistics. Forensic Science Symposium (2001). Lyon, France. JESSEN, M. 2008. Forensic Phonetics. Language and Linguisitcs Compass. 2(4) : 671-711. JOHNSON, K. 1997. Speech Perception without Speaker Normalization : An Exemplar Model. Talker variability in speech processing. Acamdemic Press. NOLAN, F. 2003. A recent Voice Parade. Speech, Language and the Law.10(2) : 277-291. YARMEY, D. 1995. Earwitness Speaker Identification. Psychology, Public policy and Law, 1(4) : 792-816. YARMEY, D. 2001. Commonsens Beliefs and the Identification of Familiar Voices. Applied Cognitive Psychology. 15 : 283-299.