modele articulatoire pour la synthese de voix chantee
Transcription
modele articulatoire pour la synthese de voix chantee
MODELE ARTICULATOIRE POUR LA SYNTHESE DE VOIX CHANTEE Contexte : De nos jours, les modèles utilisés en synthèse vocale demandent à être révisés afin d’améliorer le naturel de la synthèse. La méthode de synthèse vocale dite « parallèle » est privilégiée à la méthode dite « cascade » ; faudrait-il une meilleure modélisation de la source glottique ou bien des interactions source-filtre permettrait-elle d’obtenir des résultats aussi bons avec la méthode cascade qu’avec la méthode parallèle ? Objectifs : - Concevoir l’Artica, un synthétiseur de voix chantée à partir d’un modèle géométrique du conduit vocal - Comparer les méthodes de synthèse vocale cascade et parallèle afin de définir les améliorations à apporter à la synthèse cascade Modèle Géométrique de Brad Story [1]: Modèle Acoustique - le filtre en treillis : L’Artica a été conçu à partir du modèle géométrique proposé par Brad Story, permettant d’obtenir la fonction d’aire du conduit vocal pour toutes les voyelles orales et quelques consonnes, avec une vitesse de calcul très rapide : très peu de paramètres permettent de contrôler ce modèle. Une fonction d’aire de conduit vocal pour la voyelle neutre [Ø] est représentée cidessous : Le filtre en treillis permet de filtrer le son émis par la vibration des plis vocaux selon la forme du conduit vocal afin d’obtenir la voyelle correspondante. La figure suivante montre le schéma d’un tel filtre : e Ici, le conduit vocal est discrétisé en 44 sections, la section 1 étant proche de la glotte et la section 44 correspondant aux lèvres. rc(i) est le coefficient de réflexion de la i section du conduit vocal, et est calculé de la manière suivante : () ( ) () () ( ) e Avec A(i) l’aire de la i section du conduit vocal. Modélisation des pertes visco-thermiques : e La figure ci-contre montre la n section du filtre en treillis avec modélisation des pertes visco-thermiques. D’après Rémi Mignot [2], un filtre du deuxième ordre serait suffisant pour modéliser ces pertes. Voici la fonction de transfert du filtre P modélisant les pertes visco-thermiques : Avec b = 0.013 et c = 0.1. Augmenter ces coefficients crée un effet d’allongement du conduit vocal. Ces pertes permettent également d’éviter des résonnances importantes lors de la production de fricatives. Conclusion : l’Artica a été comparé au Cantor Digitalis, un synthétiseur parallèle. Les voyelles du Cantor Digitalis sont de meilleure qualité, mais le naturel de l’articulation est meilleur dans l’Artica. Une modélisation des pertes visco-thermiques variables selon la forme du conduit vocal serait à envisager afin d’obtenir des voyelles de meilleure qualité. Comparaison des méthodes de synthèse cascade et parallèle : Méthode : Le Cantor Digitalis est un synthétiseur vocal parallèle conçu au LIMSI à partir des travaux de Christophe d'Alessandro, Boris Doval et Sylvain Le Beux, développé principalement par Lionel Feugère [3] et Olivier Perrotin. Nous l’avons reprogrammé afin d’en obtenir une version cascade, puis avons comparé les amplitudes des formants des deux versions. Résultats : la version cascade fournissait un signal moins bien défini dans les hautes fréquences que la version parallèle. De plus, certaines voyelles avaient un niveau sonore plus élevé que d’autres. Un filtre correcteur a été mis en place afin d’améliorer la version cascade. Le résultat était satisfaisant à l’écoute, mais les mesures ont montré qu’il était nécessaire de faire varier ce filtre selon la voyelle prononcée, et donc selon la forme du conduit vocal. Conclusion : le fait que le filtre correcteur doive varier selon la forme du conduit vocal montre que les interactions source-filtre devraient être mieux modélisées. Une solution pour obtenir des informations sur ces interactions serait d’avoir un système silencieux capable de mesurer la forme de conduit vocal d’un locuteur réel et d’enregistrer le son produit par ce dernier simultanément ; il suffirait ensuite de synthétiser un son à partir des géométries ainsi obtenues, et de comparer le signal de synthèse au signal réel. Sources : [1] B. H. Story, “A parametric model of the vocal tract area function for vowel and consonant simulation”, J. Acoust. Soc. Am., vol. 117, no. 5, pp. 3231–3254, Apr. 2005. [2] R. Mignot, “Réalisation en guides d’ondes numériques stables d’un modèle acoustique réaliste pour la simulation en temps-réel d’instruments à vent”, Télécom ParisTech, 2009. [3] L. Feugère, “Synthèse par règles de la voix chantée contrôlée par le geste et applications musicales”, LIMSI / Université Paris-Sud XI, 2013.