Mise `a niveau en R 1 Statistiques descriptives (4 points) 2 Tests (3

Transcription

Université Pierre et Marie Curie
Master Mathématiques et Applications
Spécialité Statistique
2 octobre 2015
durée : 1 heure 30
Tous documents autorisés
Mise à niveau en R
Vous devez préparer un message à mon adresse ([email protected]) dans lequel vous mettrez votre
script. Vous prendrez soin de numéroter les exercices et les questions comme dans l’énoncé. La clarté et la
concision seront prises en compte dans la notation.
1
Statistiques descriptives (4 points)
On considère le jeu de données exo1.txt, qui correspond à un échantillon d’enfants en petite section de
maternelle. Les variables considérées sont les suivantes : le sexe (F pour fille, G pour garçon), si l’école est
située en zone d’éducation prioritaire ou non (variable zep, O pour oui, N pour non), le poids en kg, l’âge en
années et mois (variables an et mois), la taille en cm.
1. Importer les données et les résumer. Quelle est la taille de l’échantillon ?
2. Pour l’ensemble des individus de l’étude, déterminer :
(a) le poids médian ;
(b) l’âge moyen ;
(c) le nombre d’enfants en zone d’éducation prioritaire.
3. Représenter la taille en fonction du poids. Ajouter la droite de régression en rouge.
4. A l’aide de boxplots, représenter la distribution de la variable poids en fonction du sexe, avec un titre
et des légendes aux axes. Interpréter en quelques mots.
2
Tests (3 points)
1. Fisher s’est intéressé à la couleur des cheveux de garçons et de filles d’un district écossais à partir des
données suivantes :
Garçon
Fille
Blond
592
544
Roux
119
97
Châtain
849
677
Brun
504
451
Noir de jais
36
14
On veut savoir si la couleur des cheveux est indépendante du sexe : proposer un test, l’appliquer et
conclure.
2. Un couple de cochons d’Inde à pelage gris et lisse a donné naissance à 64 descendants dont les pelages
se répartissent comme suit :
Pelage
Nombre de cas
gris et lisse
33
blanc et lisse
13
gris et rude
15
blanc et rude
3
Le modèle de Mendel prédit une répartition (9/16, 3/16, 3/16, 1/16) pour les descendants : proposer
un test, l’appliquer et conclure.
1
3
Régression polynomiale (7 points)
1. Etude sur données simulées
(a) Simuler un échantillon de taille n = 100 selon le modèle suivant :
Y = X + 2X 2 + 3.5X 3 − 2.3X 4 + ε
où X suit une loi uniforme sur [−2, +2] et ε suit une loi N (0, 10).
(b) Tracer sur la même figure le nuage de points et, en rouge, le polynôme simulé.
(c) Ajuster un modèle de régression linéaire simple. Représenter les résidus studentisés : conclusion ?
(d) Ajuster une régression polynomiale en prenant un polynôme de degré 4, autrement dit une
régression linéaire multiple en fonction des variables 1, X, X 2 , X 3 , X 4 . Représenter sur la même
figure le nuage de points, le polynôme simulé (en rouge) et le polynôme estimé (en vert).
(e) Représenter les résidus studentisés : conclusion ?
2. Ajustement d’un nuage de points par un polynôme
(a) Importer le jeu de données exo3.txt.
(b) Tracer le nuage de points de la variable Y en fonction de la variable X. Existe-t-il à votre avis une
liaison linéaire entre ces deux variables ?
(c) Effectuer une régression polynomiale pour ajuster les données grâce à un polynôme de degré 3.
(d) Représenter sur la même figure le nuage de points et le polynôme ainsi estimé.
4
Test de Kolmogorov-Smirnov (6 points)
On veut vérifier qu’un échantillon (X1 , . . . , Xn ) est tiré suivant une loi normale N (0, 1), de fonction de
répartition notée F . On note X(1) < · · · < X(n) l’échantillon ordonné. Pour tout réel x, on note Fn (x) la
fonction de répartition empirique, c’est-à-dire avec la convention X(n+1) = +∞ :
n
Fn (x) =
n
Xj
1X
1]−∞,x] (Xi ) =
1[X(j) ,X(j+1) [ (x)
n i=1
n
j=1
C’est donc une fonction en escalier, qui présente des sauts d’amplitude 1/n aux points X(j) .
1. Simuler un échantillon (X1 , . . . , Xn ) de taille n = 100 suivant une loi normale N (0, 1). Ordonner cet
échantillon et représenter la fonction de répartition empirique Fn (x) (on pourra utiliser type=’’s’’).
2. Superposer au graphe précédent la fonction de répartition F de la loi normale N (0, 1) (en rouge).
3. Sur une seule fenêtre graphique, représenter à gauche la même figure qu’à la question précédente pour
n = 100, et pour n = 1000 à droite.
4. Si on note kFn − F k∞ = supx∈R |Fn (x) − F (x)|, on peut voir que
j j − 1 F
(X
)
−
kFn − F k∞ = max max F (X(j) ) −
,
.
(1)
(j)
1≤j≤n
n n
De plus, on montre que, sous H0 : “(X1 , . . . , Xn ) est un échantillon iid de loi N (0, 1)”, on a pour tout
c>0:
√
2
P nkFn − F k∞ ≥ c ≤ 2e−2c ,
tandis que sous H1 : “(X1 , . . . , Xn ) est un échantillon iid selon une autre loi”, on a
√
p.s.
nkFn − F k∞ −−−−→ +∞.
n→∞
(a) Simuler (X1 , . . . , Xn ) de taille n = 100 suivant une loi normale N (0.5, 1), calculer kFn − F k∞
grâce à la formule (1) et, en utilisant ce qui précède, donner la p-value du test permettant de
décider entre H0 et H1 .
(b) Sur le même échantillon, retrouver (approximativement) le résultat précédent grâce à la fonction
ks.test.
2

Mise `a niveau en R 1 Statistiques descriptives (4 points) 2 Tests (3

Transcription

Documents pareils

TD1 Analyse descriptive des données Tests de normalité

Enoncé du TP1

INTRODUCTION AU LOGICIEL R QUELQUES EXERCICES

Corrigé de la séance 07

TP sur les test de Kolmogorov.

enoncé

1 Manipulation de données

Statistiques I: Séance informatique Exercices sur Excel

1 Arbres de décision

Exercices de travaux pratiques

T E S Exercices de statistique. Séries simples Une série simple X

Impossible à dire de Patricia Reilly Giff Un vrai coup de coeur! C`est

B - Ceremade - Université Paris

TD1

Tests d`hypothèse : fréquence d`un caractère dans une population

Devoir en temps libre n 3

TME 4 : Régression logisitique

Exercice 1 Exercice 2 Exercice 3

Test du χ (Khi-deux) d`indépendance

Notes de cours de statistiques univariees

polycopié - Université de Bordeaux

Cours : droite de régression par la méthode des moindres carrés