Ein Fragebogen zur Stimmenbeschreibung für Laien Benjamin
Transcription
Ein Fragebogen zur Stimmenbeschreibung für Laien Benjamin
Ein Fragebogen zur Stimmenbeschreibung für Laien Benjamin Weiss und Florian Hinterleitner Quality & Usability Lab, Technische Universität Berlin Abstract: Das Ziel war es, einen zuvor entwickelten Fragebogen für Laien (also keine Experten aus den Bereichen Phonetik, Forensik oder Logopädie) [8,9] zu validieren und im Vorfeld bekannte Beschreibungsdimensionen zu verifizieren [1–7]. 13 Sprecherinnen und 13 Sprecher wurden auf einem einheitlichen Fragebogen anhand von 34 Gegensatzpaaren mit einer 7-stufigen Skala bewertet. Jeweils zwei vorgelesene Sätze aus dem Phondat 1 Korpus wurden für beide Geschlechter ausgewählt und Hörern gleichen Geschlechts über AKG K-601 Kopfhörer präsentiert. Die Teilnehmer waren 30 Frauen (18–39 Jahre; M=25,9; SD=5,3) und 31 Männer (18–65 Jahre; M=31,2; SD=10,5) und wurden für Ihren Aufwand entschädigt. Eine Session dauerte ca. eine Stunde. Nur wenige Items mussten für das abschließende Itemset auf Basis der Intra-Rater-Correlation und der nachfolgenden Faktorenanalysen ausgeschlossen werden. Die durchgeführten Analysen zeigen gute Kennwerte und resultieren in 5 Faktoren für die männlichen Sprecher/Hörer, sowie 6 Faktoren für die Weiblichen (Parallelanalyse, Oblimin-Rotation). Auf allen Faktoren finden sich signifikante Unterschiede zwischen den Sprechern bzw. Sprecherinnen. Die Faktoren wurden folgendermaßen benannt: Aktivität, Flüssigkeit, Präzision, Weichheit und Dunkelheit sind für beide Gruppen gleich, während für die weiblichen Sprecher/Hörer zusätzlich noch Tempo auftritt. Dies kann jedoch in einer geringen Tempovarianz für die 26 Stimuli der männlichen Sprecher liegen. Items, die diesen sechs Faktoren zugeordnet wurden, sind für beide Gruppen weitestgehend identisch. Nur für Flüssigkeit und Weichheit besteht die Möglichkeit, lediglich ähnliche anstatt identischer Konzepte darzustellen. Die Ergebnisse der Faktorenanalyse wurden mit bestehenden Ergebnissen verglichen [1–9] und weisen hohe Ähnlichkeiten auf. Allerdings sind Items zu artikulatorische Settings wie Behauchung, Laryngalisierung, Rauigkeit oder Nasalität uneinheitlich bewertet worden und – zumindest für diese 26 nicht pathologischen Stimmen – vermutlich nicht für Laien beschreibbar. Die Items „tief–hoch“ und „dunkel–hell“ fallen auf dem Faktor Dunkelheit zusammen. Der hier vorgestellte Fragebogen bietet sich als Instrument an, akustische Korrelate für die bestätigten Beschreibungsdimensionen zu finden. [1] K. Scherer, “Voice quality analysis of American and German speakers,” Journal of Psycholinguistie Research, vol. 3, pp. 281–298, 1974. [2] W. D. Voiers, “Perceptual bases of speaker identity,” Journal of the Acoustical Society of America, vol. 36, pp. 1065–1073, 1964. [3] W. Fagel and L. V. Herpt, “Analysis of the perceptual qualities of Dutch speakers’ voice and pronunciation,” Speech Communication, vol. 1, pp. 315–326, 1983. [4] L. Boves, The Phonetic Basis of Perceptual Ratings of Running Speech. Dordrecht: Foris Publications, 1984. [5] T. Murry and S. Singh, “Multidimensional analysis of male and female voices,” Journal of the Acoustical Society of America, vol. 68, pp. 1294–1300, 1980. [6] S. Singh and T. Murry, “Multidimensional classification of normal voice qualities,” Journal of the Acoustical Society of America, vol. 64, no. 1, pp. 81–87, 1978. [7] J. Kreiman and G. Papcun, “Comparing discrimination and recognition of unfamiliar voices,” Speech Communication, vol. 10, pp. 265–275, 1991. [8] B. Weiss and S. Möller, “Wahrnehmungsdimensionen von Stimme und Sprechweise,” in Proc. Elektronische Sprachsignalverarbeitung (ESSV), 2011, p. 261–268. [9] B. Weiss, F. Burkhardt, and M. Geier, “Towards perceptual dimensions of speakers’ voices: Eliciting individual descriptions,” in Proc. Workshop on Affective Social Speech Signals, 2013, p. 5p.