modele articulatoire pour la synthese de voix chantee

Transcription

modele articulatoire pour la synthese de voix chantee
MODELE ARTICULATOIRE POUR LA SYNTHESE DE VOIX CHANTEE
Contexte : De nos jours, les modèles utilisés en synthèse vocale demandent à être révisés afin d’améliorer le naturel de la synthèse. La méthode
de synthèse vocale dite « parallèle » est privilégiée à la méthode dite « cascade » ; faudrait-il une meilleure modélisation de la source glottique ou
bien des interactions source-filtre permettrait-elle d’obtenir des résultats aussi bons avec la méthode cascade qu’avec la méthode parallèle ?
Objectifs : - Concevoir l’Artica, un synthétiseur de voix chantée à partir d’un modèle géométrique du conduit vocal
- Comparer les méthodes de synthèse vocale cascade et parallèle afin de définir les améliorations à apporter à la synthèse cascade
Modèle Géométrique de Brad Story [1]:
Modèle Acoustique - le filtre en treillis :
L’Artica a été conçu à partir du modèle
géométrique proposé par Brad Story, permettant
d’obtenir la fonction d’aire du conduit vocal pour
toutes les voyelles orales et quelques consonnes,
avec une vitesse de calcul très rapide : très peu
de paramètres permettent de contrôler ce
modèle. Une fonction d’aire de conduit vocal
pour la voyelle neutre [Ø] est représentée cidessous :
Le filtre en treillis permet de filtrer le son émis par la vibration des plis vocaux selon la
forme du conduit vocal afin d’obtenir la voyelle correspondante. La figure suivante
montre le schéma d’un tel filtre :
e
Ici, le conduit vocal est discrétisé en 44 sections,
la section 1 étant proche de la glotte et la section
44 correspondant aux lèvres.
rc(i) est le coefficient de réflexion de la i section du conduit vocal, et est calculé de la
manière suivante :
()
(
)
()
()
(
)
e
Avec A(i) l’aire de la i section du conduit vocal.
Modélisation des pertes visco-thermiques :
e
La figure ci-contre montre la n section du filtre en treillis avec modélisation des pertes visco-thermiques. D’après
Rémi Mignot [2], un filtre du deuxième ordre serait suffisant pour modéliser ces pertes. Voici la fonction de transfert
du filtre P modélisant les pertes visco-thermiques :
Avec b = 0.013 et c = 0.1. Augmenter ces coefficients crée un effet d’allongement du conduit vocal. Ces pertes
permettent également d’éviter des résonnances importantes lors de la production de fricatives.
Conclusion : l’Artica a été comparé au Cantor Digitalis, un synthétiseur parallèle. Les voyelles du Cantor Digitalis sont de meilleure qualité, mais le
naturel de l’articulation est meilleur dans l’Artica. Une modélisation des pertes visco-thermiques variables selon la forme du conduit vocal serait à
envisager afin d’obtenir des voyelles de meilleure qualité.
Comparaison des méthodes de synthèse cascade et parallèle :
Méthode : Le Cantor Digitalis est un synthétiseur vocal parallèle conçu au LIMSI à partir des travaux de Christophe d'Alessandro, Boris Doval et
Sylvain Le Beux, développé principalement par Lionel Feugère [3] et Olivier Perrotin. Nous l’avons reprogrammé afin d’en obtenir une version
cascade, puis avons comparé les amplitudes des formants des deux versions.
Résultats : la version cascade fournissait un signal moins bien défini dans les hautes fréquences que la version parallèle. De plus, certaines
voyelles avaient un niveau sonore plus élevé que d’autres. Un filtre correcteur a été mis en place afin d’améliorer la version cascade. Le résultat
était satisfaisant à l’écoute, mais les mesures ont montré qu’il était nécessaire de faire varier ce filtre selon la voyelle prononcée, et donc selon la
forme du conduit vocal.
Conclusion : le fait que le filtre correcteur doive varier selon la forme du conduit vocal montre que les interactions source-filtre devraient être
mieux modélisées. Une solution pour obtenir des informations sur ces interactions serait d’avoir un système silencieux capable de mesurer la
forme de conduit vocal d’un locuteur réel et d’enregistrer le son produit par ce dernier simultanément ; il suffirait ensuite de synthétiser un son à
partir des géométries ainsi obtenues, et de comparer le signal de synthèse au signal réel.
Sources :
[1] B. H. Story, “A parametric model of the vocal tract area function for vowel
and consonant simulation”, J. Acoust. Soc. Am., vol. 117, no. 5, pp. 3231–3254,
Apr. 2005.
[2] R. Mignot, “Réalisation en guides d’ondes numériques stables d’un modèle
acoustique réaliste pour la simulation en temps-réel d’instruments à vent”,
Télécom ParisTech, 2009.
[3] L. Feugère, “Synthèse par règles de la voix chantée contrôlée par le geste et
applications musicales”, LIMSI / Université Paris-Sud XI, 2013.