99 - Laboratoire d`Informatique de l`Université du Maine

Transcription

99 - Laboratoire d`Informatique de l`Université du Maine
L’identification vocale : pour une quantification
des effets de la familiarité
Julien Plante-Hébert1, 2, Victor J. Boucher1, 3
(1)Laboratoire de sciences phonétiques, Université de Montréal,
Montréal, Québec, Canada, H3T 1N8
[email protected], [email protected]
RESUME _______________________________________________________________________
La présente étude porte sur les effets de la familiarité dans l’identification de locuteurs dans une
situation de parade vocale. Cette technique, inspirée d’une procédure d’identification visuelle
d’individus, consiste en la présentation de plusieurs voix avec des aspects acoustiques similaires
définis selon des critères reconnus. L’objectif principal était de déterminer si un contrôle de la
familiarité d’une voix dans une parade vocale permet d’obtenir un haut taux d’identification
vocale (> 99 %). Notre étude est la première à quantifier le critère de familiarité selon le degré de
contact entre un témoin et un individu associé à une « voix cible» dans une parade vocale. Les
résultats indiquent qu’un très haut taux d’identification vocale s’obtient par l’application d’un
index de familiarité en contrôlant pour la longueur des stimuli vocaux.
ABSTRACT _____________________________________________________________________
Voice identification: for a quantitative approach to the effects of familiarity
The present study aims to determine the effect of familiarity on speaker identification in voice
line-ups. The voice line-up technique is analogous to visual line-ups consisting in the
presentation of a number of voices sharing similar acoustics properties that are well recognized
in the literature. The main objective was to investigate if, by controlling voice familiarity, one
can obtain high rates of correct voice identification (>99 %). This study is the first to quantify the
familiarity criterion in terms of the degree of contact between a witness and an individual
associated with a voice in a line-up. The results indicate that a very high rate of voice
identification can be obtained by applying a criterion index of familiarity and controlling for the
length of the voice stimuli.
MOTS-CLES : Familiarité, parade vocale, identification.
KEYWORDS: Familiarity, voice line-up, identification.
1
Introduction
L’identification d’un locuteur par le biais d’enregistrements audio ou de signaux téléphoniques
possède plusieurs applications. Dans un contexte légal ou criminel, l’identification vocale peut
être critique surtout lorsqu’il n’y a aucun document visuel pour appuyer une défense ou mise en
accusation. Dans ces situations, certains organismes tels Interpol (2001) recommandent
l’utilisation de la technique des parades vocales. Cette technique est analogue à la technique des
parades visuelles, qui est bien connue des enquêteurs (Jessen 2008). Les cas légaux ayant recours
à la parade vocale sont, dans une grande majorité, des cas où le témoignage d’un individu ou
d’un groupe d’individus est critique dans l’établissement d’un jugement. . Le recours à la parade
vocale, dans ce contexte, invite à une grande prudence et à l’application de techniques qui sont
de plus en plus standardisées. Par exemple, il existe actuellement des recommandations formelles
régissant le choix des voix dans l’élaboration de parades vocales : celles-ci doivent avoir une
fréquence fondamentale similaire, on doit utiliser les mêmes énoncés, présenter des conditions
d’écoute identiques pour les témoins (etc., Yarmey 1995, Nolan 2003, Jessen 2008). En
considérant les facteurs qui peuvent faire varier l’exactitude des identifications vocales des
témoins, une des variables évidentes est le niveau de familiarité des voix entendues.
Bien qu’un certain nombre d’études (p. ex. Foulkes 2000 ; Yarmey 2001) ont examiné l’effet de
la familiarité des voix dans le contexte des parades vocales, aucune recherche n’a délimité de
manière opérationnelle de catégories objectives de familiarité vocale, même s’il est reconnu que
l’être humain possède de grandes capacités à identifier les voix familières. En fait, il y a une
tendance dans la communauté scientifique spécialisée à référer à des techniques automatisées
alors que l’identification par le biais humain et les parades vocales offre une possibilité de taux
d’identification supérieurs aux techniques informatiques et une plus grande efficacité. Le tableau
1 résume certaines comparaisons faites par Jessen (2008) et Campbell (2009) qui mettent en
lumière les avantages respectifs de la parade vocale et de l’identification automatisée.
Paramètres
Parades
vocales
Techniques
automatisées
Aucun besoin d’entrainement
Meilleurs résultats
Considération du contenu para et extra
linguistique






Coût matériel
Données interprétables par spécialistes
Rapidité des procédures
Accessibilité
Fiabilité des données










TABLEAU 1 – Comparaison entre les avantages et les inconvénients de la
parade vocale et des techniques d’identification par la voix automatisées.
Par rapport aux points de comparaisons du tableau ci-dessus, notons simplement que l’utilisation
de témoins humains dans une parade vocale peut offrir des taux d’identification supérieurs (selon
les conditions utilisées dans la présente étude) aux techniques d’identification automatisées.
Notons aussi que les participants à une parade ne nécessitent pas de période d’entraînement,
puisqu’ils sont déjà en mesure de catégoriser des voix familières, contrairement aux techniques
automatisées qui peuvent requérir un nombre indéterminé d’expositions à des exemplaires afin
d’établir les attributs acoustiques pertinents à l’identification. L’efficacité de la perception
humaine dans l’identification vocale peut se saisir en pensant à la capacité que nous avons à
distinguer la voix de proches. Par exemple, nous pouvons facilement identifier, parmi plusieurs
voix, celle de notre mère ou celle d’un frère peu importe ce qui est dit, alors qu’un système
automatique nécessiterait un vaste corpus pour en arriver à des taux qui peuvent fluctuer selon les
énoncés.
En dehors des applications légales, l’étude de l’identification par la voix suscite aussi un intérêt
pour la linguistique fondamentale. Ainsi, l’accroissement du taux d’identifications correctes en
fonction du niveau de familiarité suggère un raffinement des «théories d’exemplaires» selon
lesquelles l’emprunte mnémonique de la parole se renforce par la fréquence d’exposition
(Johnson, 1997). En fait, les effets de la familiarité sur l’identification de la voix suggèrent que
les «exemplaires» qui se développent ne sont pas seulement des «traits» phonologiques mais
aussi des éléments d’informations associés aux voix d’individus. Les exemplaires se raffinent à
force d’exposition au point où des voix familières pourraient être identifiées avec un très faible
taux d’erreur. Dans cette optique, le présent travail vise à démontrer que le contrôle du niveau de
familiarité des voix dans une technique de parade vocale permet d’obtenir de hauts taux
d’identification qui dépassent les possibilités actuelles de techniques informatiques.
2
Méthode
2.1
Participants et questionnaire sur la familiarité
Les participants étaient 18 hommes et 26 femmes (n=44), âgés entre 18 et 65 ans et ayant le
français comme langue maternelle. Ces individus n’avaient aucun trouble d’audition apparent ou
diagnostiqué. Les participants étaient avisés, lors du recrutement, que l’expérience impliquait
l’identification de voix dans trois parades vocales et que certaines des voix (dites «voix-cibles»)
pouvaient être d’individus qui leur étaient familiers. Les participants à l’étude ont été recrutés
selon leur degré de familiarité a priori avec la voix cible d’une parade vocale à laquelle ils
seraient exposés et le degré de familiarité a été établi au moyen d’un questionnaire (voir section
2.2.1 ci-dessous). Ainsi, les voix cibles pouvaient être des voix de parents proches, de collègues
de travail, d’amis, de connaissances ou des voix de personnes inconnues.
2.1.1
Critères de familiarité de la «voix cible»
Lors de l’expérimentation, chaque participant devait remplir un questionnaire visant à établir son
niveau de familiarité avec la voix cible dans une parade avant la tâche expérimentale. Le
questionnaire a permis l’élaboration d’un «index de familiarité » basé essentiellement sur trois
critères:
1.
La fréquence des communications: il est ici question de la fréquence moyenne des
communications orales entre le participant et la voix cible depuis le premier événement.
2.
La récence des communications: le participant devait mentionner à quand remonte la
dernière communication orale avec la voix cible.
3.
La durée des communications: la durée moyenne des communications entre le
participant et la voix cible depuis le premier événement.
Les participants ont été répartis en nombres égaux dans chacun des niveaux d’index de familiarité
utilisés. Ceux regroupés dans l’index de familiarité 1 étaient des individus n’ayant eu aucun
contact avec la voix cible préalablement à l’expérimentation. Ces derniers ont entendu, environ
30 minutes avant le début de la tâche expérimentale, un enregistrement de la voix qu’ils devaient
identifier.
2.2
2.2.1
Stimuli
Les voix de la parade
Trois ensembles de parades vocales ont été élaborés, chaque ensemble contenait quatre longueurs
d’énoncés (voir section 2.3.2) pour un total de 24 parades vocales. Chacune des parades contenait
10 voix d’hommes âgés entre 18 et 50 ans dont une voix cible. Toutes les voix dans les parades
avaient une fréquence fondamentale moyenne en parole (F0mp) similaire, c’est-à-dire que l’écart
entre les F0mp des voix présentées était moins d’un semi ton (Hudson, 2007), respectant les
standards en vigueur dans l ’ élaboration de parades vocales. Aussi, tous les volontaires à
l’élaboration des stimuli étaient des locuteurs natifs du français québécois et aucun ne possédait
d’accent régional marqué ou de particularités articulatoires (idiosyncrasies). Enfin, aucun des
locuteurs ne possédait de trouble d’articulation apparent ou diagnostiqué.
2.2.2
Longueurs d’énoncés et enregistrements audio
Les énoncés utilisés dans les parades vocales étaient des phrases familières produites avec une
intonation neutre (p. ex. «merci beaucoup», «comment vas-tu ?») et variaient en longueur
syllabique (1, 4, 10 et 18 syllabes). Chacune de ces longueurs comportait deux énoncés dont l’un
était composé principalement de sons oraux et l’autre comportait plusieurs sons nasaux
(l’analyse des effets associés à la nasalité ne fait pas l’objet du présent rapport). Tous ces
enregistrements ont été effectués dans une salle à l’épreuve du son au laboratoire de phonétique
de l’Université de Montréal à l’aide d’un microphone Electro-Voice (modèle A635), d’une carte
sonore interne d’ordinateur (16-bit, Sony Vaio NW Series) régler à un taux d’échantillonnage de
44,1 kHz..
2.2.3
Filtrage des stimuli pour répliquer les conditions d’écoute par téléphone
Il est utile de noter que l’identification vocale dans des situations paralégales implique souvent
des voix transmises par le biais de téléphones sans fil (Fernandez Gallaro, 2012). Afin de
représenter ces situations, tous les stimuli enregistrés ont été filtré (de 300Hz à 3500Hz) au
moyen d’un filtre blackman reproduisant les courbes de téléphone cellulaire. De plus, un bruit de
fond audible (largeur de bande de 0.25kHz à 6.5 kHz et d’une amplitude maximale de 24 dB)
mais qui n’altérait pas la perception de la parole, a été ajouté aux enregistrements.
2.3
Procédure expérimentale
La procédure impliquait une tâche à deux étapes. Dans la première étape, les participants avaient
pour directives d’écouter d’abord chacun des 10 énoncés dans une parade, un énoncé à la fois,
sans répétition et dans un ordre prédéterminé. Ils devaient, lors de l’écoute, noter, sur un
formulaire, les voix pouvant représenter un individu qu’ils connaissaient. Immédiatement après
cette première écoute, il devait indiquer la voix la plus susceptible d’appartenir à un individu
connu. Dans une deuxième étape, le participant pouvait réécouter autant de fois qu’il voulait les
voix dans une parade afin de valider ou modifier sa réponse. Les résultats ci-dessous, bien que
très similaires à ceux obtenus à la première étape, portent sur l’identification vocale faite à la
deuxième étape. Ces résultats regroupent 8 essais par participants (n = 44) pour un total de 352
essais.
Pour l’écoute des stimuli, tous les participants ont utilisé un casque d’écoute (Beyerdynamic,
modèle DT250) et les signaux étaient rejoués à partir d’un ordinateur portable (même système
que celui utilisé pour l’enregistrement) à une amplitude maximale d’environ 68 dBa (un niveau
confortable d’écoute) tel que mesurée avec un sonomètre et un adaptateur (Digital Recordings,
modèle DR-1).
3
Résultats
Les résultats présentés dans la Figure 1 démontrent une hausse du pourcentage d’identifications
correctes en fonction de l’index de familiarité. Ces résultats incluent les identifications obtenues
avec les énoncés de 4, 10 et 18 syllabes en éliminant les valeurs associées aux énoncés
monosyllabiques (qui n’ont pas mené à des taux acceptables d’identifications). La figure 1
montre qu’un très haut taux de réussite à la tâche d’identification (100%) est obtenu avec un
index de familiarité de niveau 4. Notons que les identifications à partir d’énoncés
monosyllabiques n’ont démontré aucune tendance particulière.
FIGURE 1 – Pourcentage global d’identifications correctes en fonction du niveau
de familiarité. Les énoncés monosyllabiques ont été exclus.
Quant aux variations associées à la longueur des énoncés, la figure 2 démontre que les taux
d’identification diffèrent très peu pour les longs énoncés (10 et 18 syllabes). Par contre, il s’avère
que l’identification de voix, même très familière, n’est pas possible avec de courts énoncés de
moins de quatre syllabes.
FIGURE 2 – Pourcentage d’identifications correctes en fonction du niveau
de familiarité pour chaque longueur d’énoncé.
Notons par rapport à la Figure 1 que, la probabilité que tous les participants ayant un niveau 4 de
familiarité (n=12) identifient la voix cible par hasard est de p < 0,000001.
Le tableau I illustre les coefficients de corrélation entre la réussite à la tâche expérimentale et le
pointage obtenu pour chaque paramètre évalué par le questionnaire de familiarité 1 . Ces
coefficients sont statistiquement significatifs pour les paramètres de fréquence, durée et période.
Paramètres
rs
p
Récence
-0.052
< 0.743
Fréquence
0.542
< 0.001
Durée
0.494
< 0.01
Période
0.686
< 0.001
TABLEAU I – Coefficients de corrélation entre le pointage obtenu pour les
paramètres de la familiarité et le pourcentage moyen d’identifications.
4
Discussion et conclusion
Les résultats ci-dessus permettent d’affirmer que de hauts taux d’identification approchant 100%
peuvent être obtenus dans le cadre d’une parade vocale élaborée selon les recommandations en
vigueur si on contrôle le niveau de familiarité des voix. Notons que les taux rapportés ont été
obtenus pour des enregistrements reflétant les conditions d’écoute de téléphones cellulaires, ce
qui permet d’espérer que les résultats soient généralisables à des situations d’écoutes difficiles.
Par ailleurs, l’analyse indique que le facteur de la longueur des énoncés a peu d’influence sur les
1
Pour des raisons de confidentialité et de propriété intellectuelle, veuillez contacter l’auteur pour plus de
détails concernant le barème de pointage utilisé
taux d’identification : c’est-à-dire, avec un index de familiarité de 4, on obtient des taux d’
identification s’approchant 100% avec des énoncés de quatre syllabes ou plus. Par conséquent,
contrairement à certaines recherches (Eriksson, 2007), il ne semble pas y avoir d’effet majeur de
longueur de stimuli lorsque les voix entendues sont familières. En conclusion, cette étude indique
que le critère de familiarité joue un rôle majeur dans l’identification d’individu par la voix en
contexte de parade vocale. La quantification de la familiarité serait donc primordiale surtout
dans un contexte d’application légal. Par contre, un problème qui nuit à l’application du critère de
familiarité est le fait que les plus hauts taux d’identification sont obtenus avec des personnes qui
connaissent bien les individus associés aux voix cibles. Rappelons qu’un index 4 de familiarité
est un individu avec qui il y a un contact très fréquent (plus d’une fois semaine) et un contact de
longue durée (un ami de longue date, un membre de la famille, etc.) et un contact récent (dans le
dernier mois). Or, dans un contexte d’application légal où un individu serait amené à identifier
une voix d’un proche, il serait probable que l’individu évite de répondre afin d’éviter une possible
incrimination. Nos travaux ultérieurs visent à répondre à cette difficulté en exploitant des
techniques d’identification axées sur les potentiels évoqués.
Références
CAMBELL, J. 2009. Forensic speaker identification: A need for caution. IEEE Signal Processing
Magazine.03: 95-103
ERIKSSON, E. 2007. That voice sounds familiar. Factors in speaker recognition. Umeä Studies
in Cognitive Science 1.
FERNANDEZ GALLARNO, L. 2012. Comparison of Human Speaker Identification of Known
Voices Transmitted through Narrowband and Wideband Communication Systems. ITG
Fachbericht 236 : Sprachkommunikation.
FOULKES, P. 2000. Telephone speaker recognition amongst members of a close social network.
Forensic Linguistics. 7(2) : 180-198.
HUDSON, T. 2007. F0 statistic for 100 young male speaker of standard southern brithish english.
XVI International Conference od Phonetic Sciences (ICPhS 2007). Saarbrücken, Allemagne.
INTERPOL. 2001. Forensic speech and audio analysis forensic linguistics. Forensic Science
Symposium (2001). Lyon, France.
JESSEN, M. 2008. Forensic Phonetics. Language and Linguisitcs Compass. 2(4) : 671-711.
JOHNSON, K. 1997. Speech Perception without Speaker Normalization : An Exemplar Model.
Talker variability in speech processing. Acamdemic Press.
NOLAN, F. 2003. A recent Voice Parade. Speech, Language and the Law.10(2) : 277-291.
YARMEY, D. 1995. Earwitness Speaker Identification. Psychology, Public policy and Law, 1(4) :
792-816.
YARMEY, D. 2001. Commonsens Beliefs and the Identification of Familiar Voices. Applied
Cognitive Psychology. 15 : 283-299.