Voici les questions telles quelles de l`examen de notre ami
Transcription
Voici les questions telles quelles de l`examen de notre ami
Voici les questions telles quelles de l'examen de notre ami belge Mister Bourlard, personnage montois, tu sais ou c'est, de Mons, dans le Hainaux, Belgique. Vi vi il y a aussi une polytechnique la-bàs. Elle est petite j'ai été la visiter lorsque je me suis rétrouvé la-bàs un ete, hasard de la chose! Bourlard y a même étudié... (pas 100% sur) Bon, voilà le monstre, n'ai pas peur, toutes les questions ont du être traitées au cours, du moins c'était mon cas. L'examen est assez long et il faut être au point avec les petits détails qui montrent si tu as bien capté la chose ou pas. Bourlard est cool, il faut tout simplement le comprendre :-) Dans ses 4 questions il pose la question générale, et nous aide à la developper en specifiant les sous-points sur lesquels il veut qu'on parle dans la dite question. Il est fort sympa tout de même, à moi ça m'a bien aidé. Merci Bourlard :-)))) Aucune doc permise! Bonne lecture et préparation! [email protected] jf question 1 ---------Quels sont les principes de l'analyse LPC et de la synthèse LPC de la parole (20pts/100)? (a) Définir l'analyse LPC(principé, stationarité, fenêtre de coulissage, etc). (b) Definir la synthèse LPC (c) Quels sont les caracteristiques importantes du signal de parole qui sont modelisées par cette analyse. question 2 ---------Décrivez le principe des modèles de Markov discret et un modèle de Markov cachés(HMM) et discutez de leur utilisation respective en reconnaissance de la parole (20pts/100)? (a) Principe des modèles de Markov discrets et des HMMs? Donnez un exemple d'utilisation de chacun de ces modèles en reconnaissance de la parole. (b) Quelle est la difference entre un modèle de Markov discret et un modèle de Markov caché? Quels en sont les paramètres? (c) Comment les paramètres en sont-ils estimés? Quels sont les bases de l'algorithme EM? question 3 ---------Quel est le principe de l'algorithme de programmation dynamique comme appliqué à la reconnaissance de la parole et quand est-il utilisé(20pts/100)? (a) Principe(équation)? (b) Utilisation en reconnaissance "DTW" (dynamic time warping) (c) Utilisation en HMM (d) Quelle est la difference fondamentale entre DTW et HMM et comme cela se répercute-il sur la programmation dynamique? (e) En conséquence, citez et discutez trois des avantages principaux de la reconnaissance de la parole HMM(statistique) par rapport à la recurrence DTW(déterministe). question 4 ---------Décrire succintement et clairement le principe de la reconnaissance HMM de la parole continue et les differents blocs qui interviennent(40pts/100)? (a) Description générale (b) Comment les differents blocs interviennent-ils lors de la reconnaissance, au niveau théorique(équation fondamental?) et au niveau fonctionnel? (c) Comment sont représentées et utilisées les contraintes syntaxiques? D'ou viennent-elles et comment sont-elles estimées? (d) Comment sont répresentées et utilisées les contraintes lexicales? D'ou viennent-elles et comment sont-elles estimées? (e) A quoi servent les modules HMM et comment estime-t-on leur paramètres? OUFFF Enfin, voilà, tout l'examen, il faut être clair dans les réponses qui ne doivent pas raconter toute ta vie, mais l'essentiel... si tu ne bosses que sur cet examen tu auras 4 à coup sur, car les parties les plus importantes du cours y sont... Bonne chance... Jf ……………………………………………………………………………………………………………………………………………………………………. Hehe, sacré Bourlard... L'année passée ceux qui passaient l'exa avaient le droit à tous les documents, mais il a vraiment été vache et les élèves ont pas trop aimé. Cette année il revient donc à la méthode "aucun document autorisé" mais avec des questions simples.... D'ailleur pendant l'exa il s'est écrié "Haha, vous pouvez pas dire que je suis méchant, ca sera pas pareil toutes les années!" suivi de son rire mythique. Le test durait 3h mais presque tout le monde est parti avant. have phun! ;D ----------------------------------------------------------------------------Examen de Traitement de la Parole, 2ième cycle le 17 février 2003 Professeur: Hervé Bourlard Votre nom: Faculté: 1. Quels sont les propriétés principales d'un signal de parole et comment celles-ci sont-elles extraites à partir du signal échantillonné? (30/100) (a) Caractéristiques d'un signal de parole (b) Dépendant du contenu lexical, dépendant du locuteur ? (c) Quelles sont les systèmes d'analyse de signaux de parole les plus connus, et quelles en sont les principes et caractéristiques ? 2. Quel est le principe de l'algorithme de programmation dynamique comme appliqué à la reconnaissance de la parole et quand est-il utilisé? (30/100) (a) Principe (équation générale?) (b) Utilisation en reconnaissance "DTW" (dynamic time warping) (c) Utilisation en HMM (d) Quelle est la différence fondamentale entre DTW et HMM, et comme cela se répercute-il sur la programmation dynamique ? (e) En conséquence, citez et discutez trois des avantages principaux de la reconnaissance de la parole HMM (statistique) par rapport à la reconnaissance DTW (déterministe). 3. Décrire succintement et clairement les différents modules intervenant dans un système de reconnaissance de la parole continue? (40/100) (a) Quelles en sont les différentes sources d'information et comment celles-ci sont-elles représentées ? (b) Où sont utilisés les modèles de Markov discrets et les modèles de Markov cachés ? (c) Quelles sont les composantes qui sont obtenues par apprentissage automatique ? (d) Dans ce cas, quelles sont les bases de données nécessaires à leur apprentissage ? ………………………………………………………………………………………………………………………………………………………………………… Un des assistants nous a envoyé ce mail, mais il semblerait que pas tous l'ont reçu. --------------------------------------------------------------------------In this mail you can find the general comments on the TP Exam. Due to problems with my mailing list I couldnot forward to you all last Friday itself. Sorry for the delay. I don't know whether this mail is being sent to all the students who took the course, if someone doesnot receives it kindly forward it to him/her. Enjoy the spring semester. All the best Best Regards Mathew =========================================================== A few comments regarding the "Speech Processing" exam ===================================================== First of all, there were 5 questions. Each of them were assigned a mark on 20, adding up to a mark on 100, then transformed into a mark on 6. The main points I was expecting to see for each question are briefly given below. 1) Quelles sont les particularités majeures d'un signal de parole en conparaison à d'autres signaux (acoustiques)? Here, I wanted to hear about: - voiced/unvoiced sounds, - pitch - formants Detecting speech from general audio is a difficult problem, but one may try to use the above properties to differentiate speech from audio, e.g., by check the presence of pitch and formants (some instruments also generate "voiced-like" signals) and their rate of change over time... I also wanted to read about LPC analysis/synthesis and its relationships with the above parameters: LPC filter coefficients coding formants, etc, and (inverse) filter excited by an approximation of the residual error, typically the pitch frequency for voice sounds and white noise for unvoiced sounds. In general, this question was more or less well answered. 2) Principe des modèles de Markov cachés Nothing special here. I wanted to read about Markov models, hidden Markov models and the fact that the difference between the two is that in HMMs one doesn't observe the HMM states directly but through a stochastic process describing the relation between states and observations. Note: most of you mentioned emission probabilities as the parameters of HMM (on top of transition probabilities). But these are not the parameters, and emission probability distributions are described in terms of *parameters* depending on the distribution (e.g., means and variances in the case of Gaussian distributions). 3) Principe de l'algorithme de programmation dynamique comme appliqué la reconnaissance de la parole, et quand est-il utilisé? Application aux HMMs, et différences/avantages avec DTW? This question has been more or less well answered by many of you, but often missed important details... What I expected to see: - Very brief description of dynamic programming - Its use in DTW for comparing (and computing the distances between) two acoustic sequences. Ideally, I wanted to see the DP recurrence where the local distances are Euclidian distances between two acoustic vectors. - Its use in HMM, with basically the same recurrence where the "local distances" are -log of emission probabilities. Regarding the differences/advantages of HMM versus DTW, I have seen only once the complete list of advantages (and many of you missed several of them!). The main differences are: - DTW is performing deterministic pattern matching (based, e.g., on Euclidian distance) while HMM is based on stochastic matching (where local "distances" are probabilities, or log probabs). - Consequently, HMM systems are *trained* (on large databases) while in DTW training simply boils down to memorizing patterns. - Consequently, HMMs can be trained on large databases, e.g., to yield speaker independent models, while DTW systems would need more and more reference patterns. - Given the fact that HMM are trained, they can also be used to model sub-word units such as phonemes (which is not possible with HMMs) and are thus much more flexible... There are many other advantages but these were the main ones I expected to read about. 4) Décrire succintement et clairement le principe de la reconnaissance HMM de parole continue et les différents blocs qui interviennent. In general, this was quite OK, with more or less details. I expected to see the general block diagram of a recognition system, a brief description of each module, and their interaction. I didn't need the description of the training phase... especially when recognition was not presented! Note: I realized that some of you confused training and recognition. Parameters (nor acoustic vectors) are adapted during recognition. Parameter adaptation can take place while doing e.g. on line speaker adaptation, but this was not explained in the course... 5) Quelles seraient les tâches à accomplir (cahier des charges) pour développer (à partir de rien) un système d'accès aux services de réservation de SwissAir? En faire une liste très brève, et la mettre en relation avec le système décrit à la question~4. This was certainly the worst question, and I hardly saw any satisfactory answers here... just very small pieces of answers here and there! I didn't want to see (again) the description of a speech recognition system, nor its training, nor very generic statements regarding the particularities of the recognizer. What I was actually looking for was (cahier des charges) of what has to be done In other words, what would you tell were the boss and had to build such statement like "build a speech recognition system" enough!). a clear "job description" to build the system. your employees to do if you a system (for instance, a is certainly not clear So, what I basically expected to see here was: - Study the system, and make large recordings in the application field. - From these recordings, collect acoustic and language model databases. - These databases then have to be labeled (transcription into word sequences) - From the databases, extract a lexicon of all the words, eventually keywords - Get a phonetic transcription of the lexicon - From these labeled databases (and their transcription into words, and therefore into phonemes, given the lexicon): - Train (phonetic) acoustic models - Train a language model (bi-gram) - Build a first Wizard-of-Oz system to test the application, optimize the dialog model, and eventually collect more data. - Eventually refine all the models (lexicon, grammar, dialog) based on these data, etc. Of course, I also expected to read a bit about the "extra" modules such as: - database management - knowledge extraction (constraint satisfaction) - speech synthesis - etc Sometimes, these modules were indeed mentioned. Given the general weakness of this last question, I have tried to be quite "generous" here.., as long as some pertinent information was indeed given! Examen de Traitement de la Parole, le 18 février 2002 Professeur: Hervé Bourlard Votre nom: Departement: 1. Quels sont les principes de l'analyse LPC et de la synthèse LPC de la parole (20 points/100)? (a) Définir l'analyse LPC (principe, stationarité, fenêtre d'analyse, etc) (b) Définir la synthèse LPC (c) Quels sont les caractéristiques importantes du signal de parole qui sont modélisées par cette analyse? 2. Décrivez le principe des modèles de Markov discrets et des modèles de Markov cachés (HMM), et discutez de leur utilisation respective en reconnaissance de la parole (20 points/100). en (a) Principe des modèles de Markov discrets et des HMMs? Donnez un exemple d'utilisation de chacun de ces modèles reconnaissance de la parole. (b) Quelle est la différence entre un modèle de Markov discret et un modèle de Markov caché? Quels en sont les paramètres? (c) Comment les paramètres HMM sont-ils estimés? Quels sont les principes de base de l'algorithme EM? 3. Quel est le principe de l'algorithme de programmation dynamique comme appliqué à la reconnaissance de la parole et quand est-il utilisé (20 points/100)? (a) Principe (equation)? (b) Utilisation en reconnaissance "DTW" (dynamic time warping) (c) Utilisation en HMM (d) Quelle est la différence fondamentale entre DTW et HMM, et comme cela se répercute-il sur la programmation dynamique? (e) En conséquence, citez et discutez trois des avantages principaux de la reconnaissance de la parole HMM (statistique) par rapport à la reconnaissance DTW (déterministe). 4. Décrire succintement et clairement le principe de la reconnaissance HMM de parole continue et les différents blocs qui interviennent (40 points/100). (a) Description générale (b) Comment les différents blocs interagissent-ils lors de la reconnaissance, au niveau théorique (equation fondamentale?) et au niveau fonctionnel? (c) Comment sont représentées et utilisées les contraintes syntaxiques? D'où viennent-elles et comment sont-elles estimées? (d) Comment sont représentées et utilisées les contraintes lexicales? D'où viennent-elles et comment sont-elles estimées? (e) A quoi servent les modèles HMM et comment estime-t-on leurs paramètres? Hello, Bon, je n'ai pas pu sortir la donnée et je ne me rappelle pas de tout. J'étais la seule informaticienne à le passer. L'exa durait 3heures mais pouvait être fini en 1heure. Il y avait 5 questions générales avec des sous-questions pour nous diriger. IL fallait en gros répondre une page par question. 1ère question: décrivez un signal de parole et ses caractéristiques. 2ème question donner les différence entre modèle de markov discter et HMM 3ème question décriver un système de traitement de la parole. Quelle serait la diffénce pour des mots isolés ? 4ème question: Je ne me rappelle plus 5ème question: donner la description d'un système de réservation de vols pour Swissair voilà, bonne chance Laurence ---------------------------------------------------------------voilà un mail de l'assistant que l'on a reçu après l'exa. Bonne lecture LAurence Hi, In this mail you can find the general comments on the TP Exam. Due to problems with my mailing list I couldnot forward to you all last Friday itself. Sorry for the delay. I don't know whether this mail is being sent to all the students who took the course, if someone doesnot receives it kindly forward it to him/her. Enjoy the spring semester. All the best Best Regards Mathew =========================================================== A few comments regarding the "Speech Processing" exam ===================================================== First of all, there were 5 questions. Each of them were assigned a mark on 20, adding up to a mark on 100, then transformed into a mark on 6. The main points I was expecting to see for each question are briefly given below. 1) Quelles sont les particularités majeures d'un signal de parole en conparaison à d'autres signaux (acoustiques)? Here, I wanted to hear about: - voiced/unvoiced sounds, - pitch - formants Detecting speech from general audio is a difficult problem, but one may try to use the above properties to differentiate speech from audio, e.g., by check the presence of pitch and formants (some instruments also generate "voiced-like" signals) and their rate of change over time... I also wanted to read about LPC analysis/synthesis and its relationships with the above parameters: LPC filter coefficients coding formants, etc, and (inverse) filter excited by an approximation of the residual error, typically the pitch frequency for voice sounds and white noise for unvoiced sounds. In general, this question was more or less well answered. 2) Principe des modèles de Markov cachés and Nothing special here. I wanted to read about Markov models, hidden Markov models and the fact that the difference between the two is that in HMMs one doesn't observe the HMM states directly but through a stochastic process describing the relation between states observations. Note: most of you mentioned emission probabilities as the parameters of HMM (on top of transition probabilities). But these are not the parameters, and emission probability distributions are described in terms of *parameters* depending on the distribution (e.g., means and variances in the case of Gaussian distributions). 3) Principe de l'algorithme de programmation dynamique comme appliqué à la reconnaissance de la parole, et quand est-il utilisé? Application aux HMMs, et différences/avantages avec DTW? This question has been more or less well answered by many of you, but often missed important details... What I expected to see: - Very brief description of dynamic programming - Its use in DTW for comparing (and computing the distances between) two acoustic sequences. Ideally, I wanted to see the DP recurrence where the local distances are Euclidian distances between two acoustic vectors. - Its use in HMM, with basically the same recurrence where the "local distances" are -log of emission probabilities. Regarding the differences/advantages of HMM versus DTW, I have seen only once the complete list of advantages (and many of you missed several of them!). The main differences are: - DTW is performing deterministic pattern matching (based, e.g., on Euclidian distance) while HMM is based on stochastic matching (where local "distances" are probabilities, or log probabs). - Consequently, HMM systems are *trained* (on large databases) while in DTW training simply boils down to memorizing patterns. - Consequently, HMMs can be trained on large databases, e.g., to yield speaker independent models, while DTW systems would need more and more reference patterns. - Given the fact that HMM are trained, they can also be used to model sub-word units such as phonemes (which is not possible with HMMs) and are thus much more flexible... There are many other advantages but these were the main ones I expected to read about. 4) Décrire succintement et clairement le principe de la reconnaissance HMM de parole continue et les différents blocs qui interviennent. In general, this was quite OK, with more or less details. I expected to see the general block diagram of a recognition system, a brief description of each module, and their interaction. I didn't need the description of the training phase... especially when recognition was not presented! Note: I realized that some of you confused training and recognition. Parameters (nor acoustic vectors) are adapted during recognition. Parameter adaptation can take place while doing e.g. on line speaker adaptation, but this was not explained in the course... 5) Quelles seraient les tâches à accomplir (cahier des charges) pour développer (à partir de rien) un système d'accès aux services de réservation de SwissAir? En faire une liste très brève, et la mettre en relation avec le système décrit à la question~4. This was certainly the worst question, and I hardly saw any satisfactory answers here... just very small pieces of answers here and there! I didn't want to see (again) the description of a speech recognition system, nor its training, nor very generic statements regarding the particularities of the recognizer. What I was actually looking for was (cahier des charges) of what has to be done In other words, what would you tell you were the boss and had to build such statement like "build a speech recognition system" enough!). a clear "job description" to build the system. your employees to do if a system (for instance, a is certainly not clear So, what I basically expected to see here was: - Study the system, and make large recordings in the application field. - From these recordings, collect acoustic and language model databases. - These databases then have to be labeled (transcription into word sequences) - From the databases, extract a lexicon of all the words, eventually keywords - Get a phonetic transcription of the lexicon - From these labeled databases (and their transcription into words, and therefore into phonemes, given the lexicon): - Train (phonetic) acoustic models - Train a language model (bi-gram) - Build a first Wizard-of-Oz system to test the application, optimize the dialog model, and eventually collect more data. - Eventually refine all the models (lexicon, grammar, dialog) based on these data, etc. Of course, I also expected to read a bit about the "extra" modules such as: - database management - knowledge extraction (constraint satisfaction) - speech synthesis - etc Sometimes, these modules were indeed mentioned. Given the general weakness of this last question, I have tried to be quite "generous" here... as long as some pertinent information was indeed given! Salut, Le sujet que j'ai tiré est: "Introduction des contraintes syntaxiques dans un système de reconnaissance de la parole continue". Bof, j'ai dessiné l'architecture classique d'un sytème de reconnaissance de la parole, j'ai rajouté en plus un parser qui utilise une grammaire formelle. J'ai dû expliquer toutes les étapes. Rajman et Bourlard m'interrompaient sans arrêt, Chaps m'aidait un peu. Je pense que je m'en suis bien sorti. Je sais qu'une autre question était : "Introduction des contraintes lexicale dans un........". Peace and Love, Karim J'ai discuté un peu avec Chaps avant l'examen : il m'a dit, qu'avant, c'était toujours un peu les mêmes questions qui revenaient à l'examen. C'est pour cela qu'ils ont décidé de changer un peu de stratégie et de "varier un peu les questions". Il y avait donc 17 petits billets, Chaps en a enlevé 2 au hasard (je ne sais pas pourquoi). La question que j'ai tiré : (formualtion pas absolument exacte) décrire un système général de reconnaissance de la parole continue; décrire ce qui le distingue d'un système pour des mots isolés Bref, facile. J'ai fait un diagramme avec toutes les unités importantes: -auditiory front-end : signal processing entrée: signal sonore sortie: vecteurs acoustiques -phone likelihood estimator : gaussian or ANN classifier entrée: vecteurs acoustiques sortie: probabiltiés de phonèmes -decoder utilisation d'un lexique (HMM) et d'une grammaire sous forme de bigramme sortie: mots reconnus (-parser pas évoqué) Et je les ai décrites. Ca n'a pas été facile, car Rajman m'intérrompait chaque 20 sec pour me demander (pourquoi ? concrétement, qu'est ce que ça veut dire ? comment ? ...) et Bourlard n'arretait pas de me dire que ce n'était pas ce qu'il a dit au cours (du moins, pas exactement). Finalement, concernant le système avec mots isolés, j'ai évoqué les points suivants: -plus de problème pour savoir où se fait la coupure entre les mots -problème : la prononciation n'est plus la même (à cause des liaison entre les mots) -dans le décodeur : plus besoin de tenir compte de probabilité de de transition d'un mot à un autre (bigramme). Les mots sont traités individuellement. Finalement, ça s'est bien passé. Bourlard et Rajman sont pointilleux mais sympas. Chaps était également sympa (il m'aidait quand j'étais un peu bloqué). L'experte n'a rien dit. Bonne chance aux candidats des prochaines années. Michel