Voici les questions telles quelles de l`examen de notre ami

Transcription

Voici les questions telles quelles de l'examen de notre
ami belge Mister Bourlard, personnage montois,
tu sais ou c'est, de Mons, dans le Hainaux,
Belgique. Vi vi il y a aussi une polytechnique la-bàs.
Elle est petite j'ai été la visiter lorsque je me
suis rétrouvé la-bàs un ete, hasard de la chose!
Bourlard y a même étudié... (pas 100% sur)
Bon, voilà le monstre, n'ai pas peur, toutes les questions
ont du être traitées au cours, du moins c'était mon cas.
L'examen est assez long et il faut être au point avec les
petits détails qui montrent si tu as bien capté la chose
ou pas.
Bourlard est cool, il faut tout simplement le comprendre :-)
Dans ses 4 questions il pose la question générale, et nous aide
à
la developper en specifiant les sous-points sur lesquels
il veut qu'on parle dans la dite question. Il est fort sympa
tout de même, à moi ça m'a bien aidé. Merci Bourlard :-))))
Aucune doc permise!
Bonne lecture et préparation!
[email protected]
jf
question 1
---------Quels sont les principes de l'analyse LPC et de la synthèse LPC
de la parole
(20pts/100)?
(a) Définir l'analyse LPC(principé, stationarité, fenêtre de
coulissage, etc).
(b) Definir la synthèse LPC
(c) Quels sont les caracteristiques importantes du signal de
parole qui sont
modelisées par cette analyse.
question 2
---------Décrivez le principe des modèles de Markov discret et un modèle
de Markov
cachés(HMM)
et discutez de leur utilisation respective en reconnaissance de
la parole
(20pts/100)?
(a) Principe des modèles de Markov discrets et des HMMs?
Donnez un exemple d'utilisation de chacun de ces modèles en
reconnaissance
de la
parole.
(b) Quelle est la difference entre un modèle de Markov discret
et un modèle
de Markov caché?
Quels en sont les paramètres?
(c) Comment les paramètres en sont-ils estimés? Quels sont les
bases de
l'algorithme EM?
question 3
---------Quel est le principe de l'algorithme de programmation dynamique
comme appliqué à
la reconnaissance de la parole et quand est-il
utilisé(20pts/100)?
(a) Principe(équation)?
(b) Utilisation en reconnaissance "DTW" (dynamic time warping)
(c) Utilisation en HMM
(d) Quelle est la difference fondamentale entre DTW et HMM et
comme cela
se répercute-il sur la programmation dynamique?
(e) En conséquence, citez et discutez trois des avantages
principaux de la
reconnaissance
de la parole HMM(statistique) par rapport à la recurrence
DTW(déterministe).
question 4
---------Décrire succintement et clairement le principe de la
reconnaissance HMM de la
parole
continue et les differents blocs qui interviennent(40pts/100)?
(a) Description générale
(b) Comment les differents blocs interviennent-ils lors de la
reconnaissance, au
niveau
théorique(équation fondamental?) et au niveau fonctionnel?
(c) Comment sont représentées et utilisées les contraintes
syntaxiques?
D'ou viennent-elles et comment sont-elles estimées?
(d) Comment sont répresentées et utilisées les contraintes
lexicales?
D'ou viennent-elles et comment sont-elles estimées?
(e) A quoi servent les modules HMM et comment estime-t-on leur
paramètres?
OUFFF
Enfin, voilà, tout l'examen, il faut être clair dans les
réponses qui ne doivent
pas
raconter toute ta vie, mais l'essentiel... si tu ne bosses que
sur cet examen
tu auras 4 à coup sur, car les parties les plus importantes du
cours y sont...
Bonne chance...
Jf
…………………………………………………………………………………………………………………………………………………………………….
Hehe, sacré Bourlard... L'année passée ceux qui passaient l'exa
avaient le
droit à tous les documents, mais il a vraiment été vache et les
élèves ont
pas trop aimé. Cette année il revient donc à la méthode "aucun
document
autorisé" mais avec des questions simples....
D'ailleur pendant l'exa il s'est écrié "Haha, vous pouvez pas
dire que je
suis méchant, ca sera pas pareil toutes les années!" suivi de
son rire mythique.
Le test durait 3h mais presque tout le monde est parti avant.
have phun!
;D
----------------------------------------------------------------------------Examen de Traitement de la Parole, 2ième cycle le 17 février
2003
Professeur: Hervé Bourlard
Votre nom:
Faculté:
1. Quels sont les propriétés principales d'un signal de parole
et comment
celles-ci sont-elles extraites à partir du signal
échantillonné? (30/100)
(a) Caractéristiques d'un signal de parole
(b) Dépendant du contenu lexical, dépendant du locuteur ?
(c) Quelles sont les systèmes d'analyse de signaux de parole
les plus
connus, et quelles en sont les principes et
caractéristiques ?
2. Quel est le principe de l'algorithme de programmation
dynamique comme
appliqué à la reconnaissance de la parole et quand est-il
utilisé? (30/100)
(a) Principe (équation générale?)
(b) Utilisation en reconnaissance "DTW" (dynamic time
warping)
(d) Quelle est la différence fondamentale entre DTW et HMM,
et comme cela
se répercute-il sur la programmation dynamique ?
principaux de la
reconnaissance de la parole HMM (statistique) par rapport
à la
reconnaissance DTW (déterministe).
3. Décrire succintement et clairement les différents modules
intervenant dans
un système de reconnaissance de la parole continue? (40/100)
(a) Quelles en sont les différentes sources d'information et
comment
celles-ci sont-elles représentées ?
(b) Où sont utilisés les modèles de Markov discrets et les
modèles de
Markov cachés ?
(c) Quelles sont les composantes qui sont obtenues par
apprentissage
automatique ?
(d) Dans ce cas, quelles sont les bases de données
nécessaires à leur
apprentissage ?
…………………………………………………………………………………………………………………………………………………………………………
Un des assistants nous a envoyé ce mail, mais il semblerait que
pas
tous l'ont reçu.
--------------------------------------------------------------------------In this mail you can find the general comments on the TP
Exam.
Due to problems with my mailing list I couldnot forward to you
all last
Friday itself. Sorry for the delay. I don't know whether this
mail is
being sent to all the students who took the course, if someone
doesnot
receives it kindly forward it to him/her.
Enjoy the spring semester. All the best
Best Regards
Mathew
===========================================================
A few comments regarding the "Speech Processing" exam
=====================================================
First of all, there were 5 questions. Each of them were
assigned a mark on 20, adding up to a mark on 100, then
transformed into a mark on 6.
The main points I was expecting to see for each question
are briefly given below.
1) Quelles sont les particularités majeures d'un signal de
parole
en conparaison à d'autres signaux (acoustiques)?
Here, I wanted to hear about:
- voiced/unvoiced sounds,
- pitch
- formants
Detecting speech from general audio is a difficult problem, but
one
may try to use the above properties to differentiate speech from
audio, e.g., by check the presence of pitch and formants (some
instruments also generate "voiced-like" signals) and their rate
of
change over time...
I also wanted to read about LPC analysis/synthesis and its
relationships
with the above parameters: LPC filter coefficients coding
formants, etc,
and (inverse) filter excited by an approximation of the residual
error,
typically the pitch frequency for voice sounds and white noise
for
unvoiced sounds.
In general, this question was more or less well answered.
2) Principe des modèles de Markov cachés
Nothing special here.
I wanted to read about Markov models, hidden Markov models
and the fact that the difference between the two is that in
HMMs one doesn't observe the HMM states directly but through
a stochastic process describing the relation between states and
observations.
Note: most of you mentioned emission probabilities as the
parameters of HMM (on top of transition probabilities).
But these are not the parameters, and emission probability
distributions are described in terms of *parameters* depending
on the distribution (e.g., means and variances in the case of
Gaussian distributions).
3) Principe de l'algorithme de programmation dynamique comme
appliqué la reconnaissance de la parole, et quand est-il
utilisé?
Application aux HMMs, et différences/avantages avec DTW?
This question has been more or less well answered by many of
you, but often missed important details...
What I expected to see:
- Very brief description of dynamic programming
- Its use in DTW for comparing (and computing the distances
between)
two acoustic sequences. Ideally, I wanted to see the DP
recurrence
where the local distances are Euclidian distances between two
acoustic vectors.
- Its use in HMM, with basically the same recurrence where the
"local distances" are -log of emission probabilities.
Regarding the differences/advantages of HMM versus DTW, I have
seen
only once the complete list of advantages (and many of you
missed
several of them!). The main differences are:
- DTW is performing deterministic pattern matching (based, e.g.,
on Euclidian
distance) while HMM is based on stochastic matching (where
local "distances"
are probabilities, or log probabs).
- Consequently, HMM systems are *trained* (on large databases)
while
in DTW training simply boils down to memorizing patterns.
- Consequently, HMMs can be trained on large databases, e.g., to
yield
speaker independent models, while DTW systems would need more
and more
reference patterns.
- Given the fact that HMM are trained, they can also be used to
model
sub-word units such as phonemes (which is not possible with
HMMs) and are
thus much more flexible...
There are many other advantages but these were the main ones I
expected to
read about.
4) Décrire succintement et clairement le principe de la
reconnaissance
HMM de parole continue et les différents blocs qui
interviennent.
In general, this was quite OK, with more or less details.
I expected to see the general block diagram of a recognition
system,
a brief description of each module, and their interaction.
I didn't need the description of the training phase...
especially
when recognition was not presented!
Note: I realized that some of you confused training and
recognition.
Parameters (nor acoustic vectors) are adapted during
recognition.
Parameter adaptation can take place while doing e.g. on line
speaker
adaptation, but this was not explained in the course...
5) Quelles seraient les tâches à accomplir (cahier des charges)
pour développer (à partir de rien) un système d'accès aux
services de
réservation de SwissAir? En faire une liste très brève, et la
mettre en
relation avec le système décrit à la question~4.
This was certainly the worst question, and I hardly saw any
satisfactory
answers here... just very small pieces of answers here and
there!
I didn't want to see (again) the description of a speech
recognition
system, nor its training, nor very generic statements regarding
the particularities of the recognizer.
What I was actually looking for was
(cahier
des charges) of what has to be done
In other words, what would you tell
were the boss and had to build such
statement like
"build a speech recognition system"
enough!).
a clear "job description"
to build the system.
your employees to do if you
a system (for instance, a
is certainly not clear
So, what I basically expected to see here was:
- Study the system, and make large recordings in the application
field.
- From these recordings, collect acoustic and language model
databases.
- These databases then have to be labeled (transcription into
word sequences)
- From the databases, extract a lexicon of all the words,
eventually keywords
- Get a phonetic transcription of the lexicon
- From these labeled databases (and their transcription into
words, and
therefore into phonemes, given the lexicon):
- Train (phonetic) acoustic models
- Train a language model (bi-gram)
- Build a first Wizard-of-Oz system to test the application,
optimize
the dialog model, and eventually collect more data.
- Eventually refine all the models (lexicon, grammar, dialog)
based
on these data, etc.
Of course, I also expected to read a bit about the "extra"
modules such
as:
- database management
- knowledge extraction (constraint satisfaction)
- speech synthesis
- etc
Sometimes, these modules were indeed mentioned.
Given the general weakness of this last question, I have tried
to
be quite "generous" here.., as long as some pertinent
information
was indeed given!
Examen de Traitement de la Parole, le 18 février 2002
Professeur: Hervé Bourlard
Votre nom:
Departement:
1. Quels sont les principes de l'analyse LPC et de la synthèse
LPC de la
parole (20 points/100)?
(a) Définir l'analyse LPC (principe, stationarité, fenêtre
d'analyse, etc)
(b) Définir la synthèse LPC
(c) Quels sont les caractéristiques importantes du signal de
parole qui
sont modélisées par cette analyse?
2. Décrivez le principe des modèles de Markov discrets et des
modèles de
Markov cachés (HMM), et discutez de leur utilisation
respective en
reconnaissance de la parole (20 points/100).
en
(a) Principe des modèles de Markov discrets et des HMMs?
Donnez un exemple d'utilisation de chacun de ces modèles
reconnaissance de la parole.
(b) Quelle est la différence entre un modèle de Markov
discret et un
modèle de Markov caché? Quels en sont les paramètres?
(c) Comment les paramètres HMM sont-ils estimés? Quels sont
les principes
de base de l'algorithme EM?
3. Quel est le principe de l'algorithme de programmation
dynamique comme
appliqué à la reconnaissance de la parole et quand est-il
utilisé (20
points/100)?
(a) Principe (equation)?
(b) Utilisation en reconnaissance "DTW" (dynamic time
warping)
(d) Quelle est la différence fondamentale entre DTW et HMM,
et comme cela
se répercute-il sur la programmation dynamique?
principaux de
la reconnaissance de la parole HMM (statistique) par
rapport à la
reconnaissance DTW (déterministe).
4. Décrire succintement et clairement le principe de la
reconnaissance HMM de
parole continue et les différents blocs qui interviennent (40
points/100).
(a) Description générale
(b) Comment les différents blocs interagissent-ils lors de la
reconnaissance,
au niveau théorique (equation fondamentale?) et au niveau
fonctionnel?
(c) Comment sont représentées et utilisées les contraintes
syntaxiques? D'où
viennent-elles et comment sont-elles estimées?
(d) Comment sont représentées et utilisées les contraintes
lexicales? D'où
viennent-elles et comment sont-elles estimées?
(e) A quoi servent les modèles HMM et comment estime-t-on
leurs paramètres?
Hello,
Bon, je n'ai pas pu sortir la donnée et je ne me rappelle pas de
tout.
J'étais la seule informaticienne à le passer.
L'exa durait 3heures mais pouvait être fini en 1heure.
Il y avait 5 questions générales avec des sous-questions pour
nous
diriger. IL fallait en gros répondre une page par question.
1ère question:
décrivez un signal de parole et ses caractéristiques.
2ème question
donner les différence entre modèle de markov discter et HMM
3ème question
décriver un système de traitement de la parole.
Quelle serait la diffénce pour des mots isolés ?
4ème question:
Je ne me rappelle plus
5ème question:
donner la description d'un système de réservation de vols pour
Swissair
voilà, bonne chance
Laurence
---------------------------------------------------------------voilà un mail de l'assistant que l'on a reçu après l'exa.
Bonne lecture
LAurence
Hi,
In this mail you can find the general comments on the
TP Exam.
Due to problems with my mailing list I couldnot forward to
you all last
Friday itself. Sorry for the delay. I don't know whether this
mail is
being sent to all the students who took the course, if
someone doesnot
receives it kindly forward it to him/her.
Enjoy the spring semester. All the best
Best Regards
Mathew
===========================================================
A few comments regarding the "Speech Processing" exam
=====================================================
First of all, there were 5 questions. Each of them were
assigned a mark on 20, adding up to a mark on 100, then
transformed into a mark on 6.
The main points I was expecting to see for each question
are briefly given below.
1) Quelles sont les particularités majeures d'un signal de
parole
en conparaison à d'autres signaux (acoustiques)?
Here, I wanted to hear about:
- voiced/unvoiced sounds,
- pitch
- formants
Detecting speech from general audio is a difficult problem,
but one
may try to use the above properties to differentiate speech
from
audio, e.g., by check the presence of pitch and formants
(some
instruments also generate "voiced-like" signals) and their
rate of
change over time...
I also wanted to read about LPC analysis/synthesis and its
relationships
with the above parameters: LPC filter coefficients coding
formants, etc,
and (inverse) filter excited by an approximation of the
residual error,
typically the pitch frequency for voice sounds and white
noise for
unvoiced sounds.
In general, this question was more or less well answered.
2) Principe des modèles de Markov cachés
and
Nothing special here.
I wanted to read about Markov models, hidden Markov models
and the fact that the difference between the two is that in
HMMs one doesn't observe the HMM states directly but through
a stochastic process describing the relation between states
observations.
Note: most of you mentioned emission probabilities as the
parameters of HMM (on top of transition probabilities).
But these are not the parameters, and emission probability
distributions are described in terms of *parameters*
depending
on the distribution (e.g., means and variances in the case of
Gaussian distributions).
3) Principe de l'algorithme de programmation dynamique comme
appliqué à la reconnaissance de la parole, et quand est-il
utilisé?
Application aux HMMs, et différences/avantages avec DTW?
This question has been more or less well answered by many of
you, but often missed important details...
What I expected to see:
- Very brief description of dynamic programming
- Its use in DTW for comparing (and computing the distances
between)
two acoustic sequences. Ideally, I wanted to see the DP
recurrence
where the local distances are Euclidian distances between
two
acoustic vectors.
- Its use in HMM, with basically the same recurrence where
the
"local distances" are -log of emission probabilities.
Regarding the differences/advantages of HMM versus DTW, I
have seen
only once the complete list of advantages (and many of you
missed
several of them!). The main differences are:
- DTW is performing deterministic pattern matching (based,
e.g., on
Euclidian
distance) while HMM is based on stochastic matching (where
local
"distances"
are probabilities, or log probabs).
- Consequently, HMM systems are *trained* (on large
databases) while
in DTW training simply boils down to memorizing patterns.
- Consequently, HMMs can be trained on large databases, e.g.,
to yield
speaker independent models, while DTW systems would need
more and more
reference patterns.
- Given the fact that HMM are trained, they can also be used
to model
sub-word units such as phonemes (which is not possible with
HMMs) and
are
thus much more flexible...
There are many other advantages but these were the main ones
I expected
to
read about.
4) Décrire succintement et clairement le principe de la
reconnaissance
HMM de parole continue et les différents blocs qui
interviennent.
In general, this was quite OK, with more or less details.
I expected to see the general block diagram of a recognition
system,
a brief description of each module, and their interaction.
I didn't need the description of the training phase...
especially
when recognition was not presented!
Note: I realized that some of you confused training and
recognition.
Parameters (nor acoustic vectors) are adapted during
recognition.
Parameter adaptation can take place while doing e.g. on line
speaker
adaptation, but this was not explained in the course...
5) Quelles seraient les tâches à accomplir (cahier des
charges)
pour développer (à partir de rien) un système d'accès aux
services de
réservation de SwissAir? En faire une liste très brève, et la
mettre en
relation avec le système décrit à la question~4.
This was certainly the worst question, and I hardly saw any
satisfactory
answers here... just very small pieces of answers here and
there!
I didn't want to see (again) the description of a speech
recognition
system, nor its training, nor very generic statements
regarding
the particularities of the recognizer.
What I was actually looking for was
(cahier
des charges) of what has to be done
In other words, what would you tell
you
were the boss and had to build such
statement
like
"build a speech recognition system"
enough!).
a clear "job description"
to build the system.
your employees to do if
a system (for instance, a
is certainly not clear
So, what I basically expected to see here was:
- Study the system, and make large recordings in the
application field.
- From these recordings, collect acoustic and language model
databases.
- These databases then have to be labeled (transcription into
word
sequences)
- From the databases, extract a lexicon of all the words,
eventually
keywords
- Get a phonetic transcription of the lexicon
- From these labeled databases (and their transcription into
words, and
therefore into phonemes, given the lexicon):
- Train (phonetic) acoustic models
- Train a language model (bi-gram)
- Build a first Wizard-of-Oz system to test the application,
optimize
the dialog model, and eventually collect more data.
- Eventually refine all the models (lexicon, grammar, dialog)
based
on these data, etc.
Of course, I also expected to read a bit about the "extra"
modules
such
as:
- database management
- knowledge extraction (constraint satisfaction)
- speech synthesis
- etc
Sometimes, these modules were indeed mentioned.
Given the general weakness of this last question, I have
tried to
be quite "generous" here... as long as some pertinent
information
was indeed given!
Salut,
Le sujet que j'ai tiré est:
"Introduction des contraintes syntaxiques dans un système de
reconnaissance
de la parole continue".
Bof, j'ai dessiné l'architecture classique d'un sytème de
reconnaissance
de la parole, j'ai rajouté en plus un parser qui utilise une
grammaire
formelle.
J'ai dû expliquer toutes les étapes. Rajman et Bourlard
m'interrompaient
sans arrêt, Chaps m'aidait un peu.
Je pense que je m'en suis bien sorti.
Je sais qu'une autre question était :
"Introduction des contraintes lexicale dans un........".
Peace and Love,
Karim
J'ai discuté un peu avec Chaps avant l'examen : il m'a dit,
qu'avant,
c'était toujours un peu les mêmes questions qui revenaient à
l'examen.
C'est pour cela qu'ils ont décidé de changer un peu de stratégie
et
de "varier un peu les questions".
Il y avait donc 17 petits billets, Chaps en a enlevé 2 au hasard
(je ne sais pas pourquoi).
La question que j'ai tiré : (formualtion pas absolument exacte)
décrire un système général de reconnaissance de la parole
continue;
décrire ce qui le distingue d'un système pour des mots isolés
Bref, facile.
J'ai fait un diagramme avec toutes les unités importantes:
-auditiory front-end : signal processing
entrée: signal sonore
sortie: vecteurs acoustiques
-phone likelihood estimator : gaussian or ANN classifier
entrée: vecteurs acoustiques
sortie: probabiltiés de phonèmes
-decoder
utilisation d'un lexique (HMM) et d'une grammaire
sous forme de bigramme
sortie: mots reconnus
(-parser pas évoqué)
Et je les ai décrites. Ca n'a pas été facile, car Rajman
m'intérrompait
chaque 20 sec pour me demander (pourquoi ? concrétement, qu'est
ce que
ça veut dire ? comment ? ...) et Bourlard n'arretait pas de me
dire
que ce n'était pas ce qu'il a dit au cours (du moins, pas
exactement).
Finalement, concernant le système avec mots isolés, j'ai évoqué
les
points suivants:
-plus de problème pour savoir où se fait la coupure entre les
mots
-problème : la prononciation n'est plus la même (à cause des
liaison
entre les mots)
-dans le décodeur : plus besoin de tenir compte de probabilité
de
de transition d'un mot à un autre (bigramme). Les mots sont
traités
individuellement.
Finalement, ça s'est bien passé. Bourlard et Rajman sont
pointilleux
mais sympas. Chaps était également sympa (il m'aidait quand
j'étais
un peu bloqué). L'experte n'a rien dit.
Bonne chance aux candidats des prochaines années.
Michel

Voici les questions telles quelles de l`examen de notre ami

Transcription

Documents pareils

Page blanche poque lace et eur

Masque Initiatique - Kuba / Kete - RDC Zaire

Velours du Kasai - Kuba / Shoowa - RDC Zaire

Reconnaissance automatique de la parole

Rép. Pop. Dém. de Corée

ELLE A FAIT UN BEBE TOUTE SEULE

Projet Reconnaissance Automatique de la Parole - LRDE