Ein Fragebogen zur Stimmenbeschreibung für Laien Benjamin

Transcription

Ein Fragebogen zur Stimmenbeschreibung für Laien Benjamin
Ein Fragebogen zur Stimmenbeschreibung für Laien
Benjamin Weiss und Florian Hinterleitner
Quality & Usability Lab, Technische Universität Berlin
Abstract:
Das Ziel war es, einen zuvor entwickelten Fragebogen für Laien (also keine Experten aus den Bereichen
Phonetik, Forensik oder Logopädie) [8,9] zu validieren und im Vorfeld bekannte
Beschreibungsdimensionen zu verifizieren [1–7].
13 Sprecherinnen und 13 Sprecher wurden auf einem einheitlichen Fragebogen anhand von 34
Gegensatzpaaren mit einer 7-stufigen Skala bewertet. Jeweils zwei vorgelesene Sätze aus dem Phondat 1
Korpus wurden für beide Geschlechter ausgewählt und Hörern gleichen Geschlechts über AKG K-601
Kopfhörer präsentiert. Die Teilnehmer waren 30 Frauen (18–39 Jahre; M=25,9; SD=5,3) und 31 Männer
(18–65 Jahre; M=31,2; SD=10,5) und wurden für Ihren Aufwand entschädigt. Eine Session dauerte ca.
eine Stunde.
Nur wenige Items mussten für das abschließende Itemset auf Basis der Intra-Rater-Correlation und der
nachfolgenden Faktorenanalysen ausgeschlossen werden. Die durchgeführten Analysen zeigen gute
Kennwerte und resultieren in 5 Faktoren für die männlichen Sprecher/Hörer, sowie 6 Faktoren für die
Weiblichen (Parallelanalyse, Oblimin-Rotation). Auf allen Faktoren finden sich signifikante Unterschiede
zwischen den Sprechern bzw. Sprecherinnen.
Die Faktoren wurden folgendermaßen benannt: Aktivität, Flüssigkeit, Präzision, Weichheit und
Dunkelheit sind für beide Gruppen gleich, während für die weiblichen Sprecher/Hörer zusätzlich noch
Tempo auftritt. Dies kann jedoch in einer geringen Tempovarianz für die 26 Stimuli der männlichen
Sprecher liegen. Items, die diesen sechs Faktoren zugeordnet wurden, sind für beide Gruppen
weitestgehend identisch. Nur für Flüssigkeit und Weichheit besteht die Möglichkeit, lediglich ähnliche
anstatt identischer Konzepte darzustellen.
Die Ergebnisse der Faktorenanalyse wurden mit bestehenden Ergebnissen verglichen [1–9] und weisen
hohe Ähnlichkeiten auf. Allerdings sind Items zu artikulatorische Settings wie Behauchung,
Laryngalisierung, Rauigkeit oder Nasalität uneinheitlich bewertet worden und – zumindest für diese 26
nicht pathologischen Stimmen – vermutlich nicht für Laien beschreibbar. Die Items „tief–hoch“ und
„dunkel–hell“ fallen auf dem Faktor Dunkelheit zusammen.
Der hier vorgestellte Fragebogen bietet sich als Instrument an, akustische Korrelate für die bestätigten
Beschreibungsdimensionen zu finden.
[1] K. Scherer, “Voice quality analysis of American and German speakers,” Journal of Psycholinguistie
Research, vol. 3, pp. 281–298, 1974.
[2] W. D. Voiers, “Perceptual bases of speaker identity,” Journal of the Acoustical Society of America, vol.
36, pp. 1065–1073, 1964.
[3] W. Fagel and L. V. Herpt, “Analysis of the perceptual qualities of Dutch speakers’ voice and
pronunciation,” Speech Communication, vol. 1, pp. 315–326, 1983.
[4] L. Boves, The Phonetic Basis of Perceptual Ratings of Running Speech. Dordrecht: Foris Publications,
1984.
[5] T. Murry and S. Singh, “Multidimensional analysis of male and female voices,” Journal of the
Acoustical Society of America, vol. 68, pp. 1294–1300, 1980.
[6] S. Singh and T. Murry, “Multidimensional classification of normal voice qualities,” Journal of the
Acoustical Society of America, vol. 64, no. 1, pp. 81–87, 1978.
[7] J. Kreiman and G. Papcun, “Comparing discrimination and recognition of unfamiliar voices,” Speech
Communication, vol. 10, pp. 265–275, 1991.
[8] B. Weiss and S. Möller, “Wahrnehmungsdimensionen von Stimme und Sprechweise,” in Proc.
Elektronische Sprachsignalverarbeitung (ESSV), 2011, p. 261–268.
[9] B. Weiss, F. Burkhardt, and M. Geier, “Towards perceptual dimensions of speakers’ voices: Eliciting
individual descriptions,” in Proc. Workshop on Affective Social Speech Signals, 2013, p. 5p.

Documents pareils