Mise `a niveau en R 1 Statistiques descriptives (4 points) 2 Tests (3

Transcription

Mise `a niveau en R 1 Statistiques descriptives (4 points) 2 Tests (3
Université Pierre et Marie Curie
Master Mathématiques et Applications
Spécialité Statistique
2 octobre 2015
durée : 1 heure 30
Tous documents autorisés
Mise à niveau en R
Vous devez préparer un message à mon adresse ([email protected]) dans lequel vous mettrez votre
script. Vous prendrez soin de numéroter les exercices et les questions comme dans l’énoncé. La clarté et la
concision seront prises en compte dans la notation.
1
Statistiques descriptives (4 points)
On considère le jeu de données exo1.txt, qui correspond à un échantillon d’enfants en petite section de
maternelle. Les variables considérées sont les suivantes : le sexe (F pour fille, G pour garçon), si l’école est
située en zone d’éducation prioritaire ou non (variable zep, O pour oui, N pour non), le poids en kg, l’âge en
années et mois (variables an et mois), la taille en cm.
1. Importer les données et les résumer. Quelle est la taille de l’échantillon ?
2. Pour l’ensemble des individus de l’étude, déterminer :
(a) le poids médian ;
(b) l’âge moyen ;
(c) le nombre d’enfants en zone d’éducation prioritaire.
3. Représenter la taille en fonction du poids. Ajouter la droite de régression en rouge.
4. A l’aide de boxplots, représenter la distribution de la variable poids en fonction du sexe, avec un titre
et des légendes aux axes. Interpréter en quelques mots.
2
Tests (3 points)
1. Fisher s’est intéressé à la couleur des cheveux de garçons et de filles d’un district écossais à partir des
données suivantes :
Garçon
Fille
Blond
592
544
Roux
119
97
Châtain
849
677
Brun
504
451
Noir de jais
36
14
On veut savoir si la couleur des cheveux est indépendante du sexe : proposer un test, l’appliquer et
conclure.
2. Un couple de cochons d’Inde à pelage gris et lisse a donné naissance à 64 descendants dont les pelages
se répartissent comme suit :
Pelage
Nombre de cas
gris et lisse
33
blanc et lisse
13
gris et rude
15
blanc et rude
3
Le modèle de Mendel prédit une répartition (9/16, 3/16, 3/16, 1/16) pour les descendants : proposer
un test, l’appliquer et conclure.
1
3
Régression polynomiale (7 points)
1. Etude sur données simulées
(a) Simuler un échantillon de taille n = 100 selon le modèle suivant :
Y = X + 2X 2 + 3.5X 3 − 2.3X 4 + ε
où X suit une loi uniforme sur [−2, +2] et ε suit une loi N (0, 10).
(b) Tracer sur la même figure le nuage de points et, en rouge, le polynôme simulé.
(c) Ajuster un modèle de régression linéaire simple. Représenter les résidus studentisés : conclusion ?
(d) Ajuster une régression polynomiale en prenant un polynôme de degré 4, autrement dit une
régression linéaire multiple en fonction des variables 1, X, X 2 , X 3 , X 4 . Représenter sur la même
figure le nuage de points, le polynôme simulé (en rouge) et le polynôme estimé (en vert).
(e) Représenter les résidus studentisés : conclusion ?
2. Ajustement d’un nuage de points par un polynôme
(a) Importer le jeu de données exo3.txt.
(b) Tracer le nuage de points de la variable Y en fonction de la variable X. Existe-t-il à votre avis une
liaison linéaire entre ces deux variables ?
(c) Effectuer une régression polynomiale pour ajuster les données grâce à un polynôme de degré 3.
(d) Représenter sur la même figure le nuage de points et le polynôme ainsi estimé.
4
Test de Kolmogorov-Smirnov (6 points)
On veut vérifier qu’un échantillon (X1 , . . . , Xn ) est tiré suivant une loi normale N (0, 1), de fonction de
répartition notée F . On note X(1) < · · · < X(n) l’échantillon ordonné. Pour tout réel x, on note Fn (x) la
fonction de répartition empirique, c’est-à-dire avec la convention X(n+1) = +∞ :
n
Fn (x) =
n
Xj
1X
1]−∞,x] (Xi ) =
1[X(j) ,X(j+1) [ (x)
n i=1
n
j=1
C’est donc une fonction en escalier, qui présente des sauts d’amplitude 1/n aux points X(j) .
1. Simuler un échantillon (X1 , . . . , Xn ) de taille n = 100 suivant une loi normale N (0, 1). Ordonner cet
échantillon et représenter la fonction de répartition empirique Fn (x) (on pourra utiliser type=’’s’’).
2. Superposer au graphe précédent la fonction de répartition F de la loi normale N (0, 1) (en rouge).
3. Sur une seule fenêtre graphique, représenter à gauche la même figure qu’à la question précédente pour
n = 100, et pour n = 1000 à droite.
4. Si on note kFn − F k∞ = supx∈R |Fn (x) − F (x)|, on peut voir que
j j − 1 F
(X
)
−
kFn − F k∞ = max max F (X(j) ) −
,
.
(1)
(j)
1≤j≤n
n n
De plus, on montre que, sous H0 : “(X1 , . . . , Xn ) est un échantillon iid de loi N (0, 1)”, on a pour tout
c>0:
√
2
P nkFn − F k∞ ≥ c ≤ 2e−2c ,
tandis que sous H1 : “(X1 , . . . , Xn ) est un échantillon iid selon une autre loi”, on a
√
p.s.
nkFn − F k∞ −−−−→ +∞.
n→∞
(a) Simuler (X1 , . . . , Xn ) de taille n = 100 suivant une loi normale N (0.5, 1), calculer kFn − F k∞
grâce à la formule (1) et, en utilisant ce qui précède, donner la p-value du test permettant de
décider entre H0 et H1 .
(b) Sur le même échantillon, retrouver (approximativement) le résultat précédent grâce à la fonction
ks.test.
2

Documents pareils