Question 1

Transcription

Question 1
Math-F-105
Examen
Interrogation de Math-F-105, Prof. F.T. Bruss
Juin 2012
Nom :
Prénom :
Section :
Question 1 (25 points)
Enoncer ou définir les notions suivantes :
1. Le paradoxe de Simpson (3 points)
2. Le tableau des quatre modèles d’urnes classiques (4 points)
3. L’espérance d’une variable aléatoire continue X de densité gX (x) (2 points)
4. La covariance de deux variables aléatoires (2 points)
5. La formule de Bayes (3 points)
6. Inférence statistique (2 points)
7. Interview randomisée pour “questions délicates” (6 points)
8. Pourquoi est-ce que la réputation d’un médecin et le taux de ses succès de traitement ne sont
pas si clairement positivement corrélés ? (1 point)
Cocher, sans justification, les affirmations correctes.
9. Juger la corrélation de
– la fiabilité d’une voiture et de son âge (1 point)
( ) plutôt positif
(×) plutôt négatif
– la capacité de lire et la longueur de la jambe droite d’un être humain (1 point)
(×) positif
( ) négatif
Question 2 (12 points)
Cocher, sans justification, les affirmations correctes. Dans cette question, une bonne réponse
vaut deux points, une abstention un point, une mauvaise réponse zéro point. Une réponse sera jugée
correcte si toutes et seules les affirmations correctes ont été cochées.
1. Soit (Ω, A, P ) un espace probabilisé et soient A, B, C ∈ A trois événements de probabilité
strictement positive et indépendants deux à deux. Alors,
P (A ∩ B) = P (A|C)P (B|C).
1
Math-F-105
Examen
(×) Vrai.
( ) Faux.
2. Soit (Ω, A, P ) un espace probabilisé et soient A, B, C ∈ A trois événements de probabilité
strictement positive et indépendants. Alors,
P (A ∩ B|C) = P (A|C)P (B|C).
(×) Vrai.
( ) Faux.
3. Soient X1 , . . . , Xn des observations. On pose n = 100. Le quantile d’ordre 0.995 est
( ) X̄
( ) X(n−2)
( ) min (X1 , . . . , Xn )
(×) max (X1 , . . . , Xn )
4. La condition d’indépendance entre les variables aléatoires X et Y est
( ) nécessaire
(×) suffisante
( ) nécessaire et suffisante
( ) ni nécessaire ni suffisante
pour la propriété E[X + Y ] = E[X] + E[Y ].
5. Soient X et Y deux variables aléatoires indépendantes uniformes sur l’ensemble {1, . . . , 6}.
Soit l’événement E selon lequel la matrice
X 1
A = A(X, Y ) =
Y 1
admet le vecteur (1, 1) comme vecteur propre, on a
(×) P (Y = X|E) = 1.
( ) P (Y = 1 + X|E) = 1/3.
( ) P (Y = 3 + X|E) = 1.
6. Une variable aléatoire X suit une loi appelée chi carrée à k degrés de liberté si X est la somme
de k variables aléatoires gaussiennes centrées réduites au carré, c’est-à-dire,
X=
k
X
Xi2 ,
i=1
où les v.a. Xi sont iid N (0, 1). L’espérance de X est
( ) 0.
(×) k.
( ) 2k.
( ) 4k.
2
Math-F-105
Examen
Question 3 (15 points)
(a) Démontrer par un argument calculatoire l’identité suivante
n
X
n
k
= n2n−1 .
k
k=1
(b) Donner un argument d’analyse combinatoire permettant de démontrer l’identité ci-dessus :
Considérer un ensemble de n personnes et déterminer de 2 manières le nombre de compositions
possibles pour un comité assorti d’un président.
Astuce : Vous pouvez considérer les étapes intermédiaires suivantes :
– combien de comités de taille k avec son président peut-on composer ?
– combien y a-t-il de choix possibles pour un président et les autres membres du comité ?
Solution : L’égalité se vérifie rapidement (en utilisant le binôme de Newton sur la fin) :
X
n
n
n−1
n
n X
X n − 1
X
X
n
n!
n−1
n × (n − 1)!
k
=
k
= n2n−1
=n
=
=n
k
k
k−1
k!(n − k)!
(k − 1)!((n − 1) − (k − 1))!
k=1
k=1
k=1
k=1
k=0
Le membre de gauche de cet égalité fait une somme sur toutes les tailles possibles
de comités
n
(k allant de 1 à n) du nombre de comités de taille k avec président. Ce nombre, k k , correspond
à la formation du comité (le coefficient binomial) multiplié par le nombre de manières de choisir le
président dans le comité (k).
Le membre de droite n’impose aucune contrainte sur la taille du comité et le forme directement.
Après avoir choisi un président (facteur n), chacune des (n − 1) personnes restantes est ajoutée au
non au comité (2 choix par personne, 2n−1 choix au total.
Question 4 (15 points)
La couleur des yeux est déterminée par un gène, disposant de deux phénotypes : bleu et marron.
Le gène “b” étant récessif, il faut le génotype “bb” afin d’avoir les yeux bleus. Les génotypes “bM”
et “MM” menant quant à eux à des yeux marrons. On suppose que les parents transmettent
indifféremment un de leurs gènes à leur enfant. Le frère et le mari d’Isabelle ont les yeux bleus,
mais ses parents ont les yeux marrons.
(a) Quelle est la probabilité qu’Isabelle ait les yeux bleus ?
(b) Quelle est la probabilité que le premier enfant d’Isabelle ait les yeux bleus sachant qu’Isabelle
a les yeux marron ?
(c) Quelle est la probabilité que le deuxième enfant d’Isabelle ait les yeux bleus sachant que le
premier enfant ait les yeux marron ?
Solution : Tout d’abord, il convient de remarquer qu’il est possible de déterminer les gènes
des parents d’Isabelle. En effet, ceux-ci ayant les yeux marrons et un enfant aux yeux bleus, ils
3
Math-F-105
Examen
ont nécessairement le gène “bM”. Dans cet exercice, on notera Ibb (resp. IbM , etc. . .) l’événement
“Isabelle est de phénotype bb” (resp. bM, etc. . .). Notons P et M le gène transmis respectivement
par le père et la mère d’Isabelle. Alors, par indépendance,
1 1
1
P (Isabelle a les yeux bleus) = P (Ibb ) = P (P = “b”∩M = “b”) = P (P = “b”)P (M = “b”) = ∗ = .
2 2
4
Le mari d’Isabelle transmet un gène bleu obligatoirement. On notera E l’événement “l’enfant
d’Isabelle a les yeux bleus” et I l’événement ‘Isabelle a les yeux marrons”. Il est vrai que
P (E|I) =
P (E ∩ I)
.
P (I)
La probabilité P (I) n’est rien d’autre que 3/4 (puisque l’événement est le complémentaire de celui
de l’exercice précédent. En conditionnant par rapport au phénotype d’Isabelle, on trouve
P (E ∩ I) = P (E ∩ I|Ibb )P (Ibb ) + . . .
On trouve P (E ∩ I) = 0 ∗ 1/4 + 1/2 ∗ 1/2 + 0 ∗ 1/4. Ainsi,
P (E|I) = 1/4 ∗ 4/3 = 1/3
La solution de la troisième partie utilise les mêmes idées. Comme dans l’exercice précédent,
nous allons conditionner par rapport au phénotype d’Isabelle. Notons E2 l’événement “le second
enfant a les yeux bleus”. Notons E1 l’événement “Le premier enfant a les yeux bruns”. La formule
des probas totales donne
P (E2 |E1 ) = P (E2 |E1 ∩ Ibb ) P (Ibb |E1 )+P (E2 |E1 ∩ IbM ) P (IbM |E1 )+P (E2 |E1 ∩ IM M ) P (IM M |E1 ).
Ces dernières quantités ont déjà été calculées ou peuvent l’être aisément :
P (E2 |E1 ∩ Ibb ) = 1
P (E2 |E1 ∩ IbM ) = 1/2
P (E2 |E1 ∩ IM M ) = 0
P (Ibb |E1 ) = 0
P (IbM |E1 ) = 1/2
P (IM M |E1 ) = 1/2
Ces deux dernières quantités sont calculées à l’aide de la formule de Bayes :
P (IbM |E1 ) =
=
P (E1 |IbM )P (IbM )
P (E1 |Ibb )P (Ibb ) + P (E1 |IbM )P (IbM ) + P (E1 |IM M )P (IM M )
0 14 +
= 1/2.
11
22
11
22
+ 1 14
Ainsi,
P (E2 |E1 ) = 1 ∗ 0 + 1/2 ∗ 1/2 + 0 ∗ 1/2 = 1/4.
4
Math-F-105
Examen
Question 5 (20 points)
Les chercheurs du IHESL, l’Institut des Hautes Etudes Sur la Limace, ont déterminé que la
durée de gestation de cet animal fascinant est une variable aléatoire X (en jours) dont la densité
est
Cx si 0 ≤ x ≤ 10
fX (x) =
.
0 sinon
Par ailleurs, ils estiment que chaque portée de limaces compte un nombre aléatoire Y de limaçons,
de loi de Poisson P(2). Par ailleurs, ils affirment que X et Y sont indépendants.
(a) Déterminer la valeur de C
(b) A quelle durée moyenne de gestation peut-on s’attendre d’un individu ?
(c) Un éleveur affirme que sa limace fétiche a engendré une portée de 10 individus après 9 jours.
Les chercheurs affirment cela peu raisonnable. Pour corroborer leur affirmation, calculer la
probabilité qu’un individu aléatoire engendre une portée d’au moins 10 individus ou ait un
temps de gestation supérieur ou égal à 9 jours.
(d) Disposant d’un parc de 400 limaces (supposées indépendantes), les chercheurs s’intéressent au
temps de gestation moyen de celles-ci. Quelle est la probabilité que celui-ci soit strictement
supérieur à 7 jours ?
Dans cette question, vous veillerez à justifier toutes vos affirmations et à énoncer les théorèmes
utilisés.
Solution :
(a) La valeur de C est déterminée par la condition d’intégralité à 1 de la densité. C’est-à-dire
Z
Z
10
1
1
⇔C= .
C
50
0
R
(b) On demande ici l’espérance de X. Pour rappel, E[X] = xf (x)dx. Dans ce cas,
fX (x)dx = 1 ⇔
xdx =
Z
10
E[X] =
0
1 2
20
x dx = .
50
3
(c) Soient A et B les événements “La portée engendre au moins 10 individus” et “Le temps de
gestation est supérieur à 9 jours”. On demande ici de calculer P (A ∪ B). Par indépendance et
les propriétés des lois de probabilité,
P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = P (A) + P (B) − P (A)P (B).
Dans notre cas, en se référant à la table donnée en annexe,
P (A) = P (Y ≥ 10) = 1 − P (Y ≤ 9) ≈ 1 − 1 = 0,
et
Z
P (B) = P (X ≥ 9) =
10
f (x)dx =
9
5
1 102 92
1 19
(
− )=
= 0.19.
50 2
2
50 2
Math-F-105
Examen
(d) On s’intéresse ici au temps moyen de gestation d’un parc de 400 limaces. Plus précisément, on
dispose de X1 , . . . , X4 00, copies indépendantes et identiquement distribuées de densité fX (.).
La quantité à calculer ici est P (X̄ > 7). La variance de X est également nécessaire pour cet
exercice. Proprement :
Z 10
1 3
104
100
2
E[X ] =
x dx =
=
= 50,
50
4 ∗ 50
2
0
et donc
50
400
=
9
9
On utilisera le théorème central-limite (proprement énoncé dans votre examen bien entendu ! ! !)
pour obtenir :


!
20
20
1
√
7− 3
X̄ − 3
3
≈P Z≤ √
P (X̄ > 7) = 1 − P  q
≤q
= P (Z < 2 2),
V ar(X) = 50 −
50/9
400
50
60
50/9
400
où Z suit une loi normale centrée réduite. La table donnée en annexe donne la valeur de cette
dernière quantité.
Question 6 (13 points)
(a) Qu’est-ce qu’un estimateur sans bais d’un paramètre, et quand est-il appelé efficace ?
(b) Soit X1 , X2 , . . . , Xn un échantillon indépendant d’une variable aléatoire X ∼ exp(λ). Calculer
l’estimateur de vraisemblance maximale λ̂n de λ.
Solution : Un estimateur d’un paramètre θ est dit sans biais pour θ si, lorsque X ∼ Pθ
E[X] = θ, ∀θ.
Pour calculer l’estimateur maximum de vraisemblance pour un paramètre λ, il faut maximiser
la vraisemblance (ou la log-vraisemblance). On a :
L(λ; X1 , . . . , Xn ) =
=
n
Y
i=1
n
Y
P (X = Xi )
e−λ
i=1
= e−nλ λ
λXi
Xi !
Pn
logL(λ; X1 , . . . , Xn ) = −nλ +
i=1
Xi Q 1
Xi !
n
X
Y
Xi log(λ) − log( Xi !))
i=1
Cette quantité doit être maximisée en λ. On dérive et on égalise à 0.
Pn
Xi
∂logL(λ; X1 , . . . , Xn )
= 0 ⇔ −n + i=1
=0
∂λ
λ
⇔ λ = X̄
L’estimateur maximum de vraisemblance est donc λ̂ = X̄. On vérifiera que c’est bien un maximum, en prenant la dérivée seconde par exemple.
6
Math-F-105
Examen
Figure 1 – Fonction de répartition de la loi de Poisson P(α).
7
Math-F-105
Examen
Figure 2 – Fonction de répartition d’une loi normale centrée-réduite.
8