Mise `a niveau en R 1 Statistiques descriptives (4 points) 2 Tests (3
Transcription
Mise `a niveau en R 1 Statistiques descriptives (4 points) 2 Tests (3
Université Pierre et Marie Curie Master Mathématiques et Applications Spécialité Statistique 2 octobre 2015 durée : 1 heure 30 Tous documents autorisés Mise à niveau en R Vous devez préparer un message à mon adresse ([email protected]) dans lequel vous mettrez votre script. Vous prendrez soin de numéroter les exercices et les questions comme dans l’énoncé. La clarté et la concision seront prises en compte dans la notation. 1 Statistiques descriptives (4 points) On considère le jeu de données exo1.txt, qui correspond à un échantillon d’enfants en petite section de maternelle. Les variables considérées sont les suivantes : le sexe (F pour fille, G pour garçon), si l’école est située en zone d’éducation prioritaire ou non (variable zep, O pour oui, N pour non), le poids en kg, l’âge en années et mois (variables an et mois), la taille en cm. 1. Importer les données et les résumer. Quelle est la taille de l’échantillon ? 2. Pour l’ensemble des individus de l’étude, déterminer : (a) le poids médian ; (b) l’âge moyen ; (c) le nombre d’enfants en zone d’éducation prioritaire. 3. Représenter la taille en fonction du poids. Ajouter la droite de régression en rouge. 4. A l’aide de boxplots, représenter la distribution de la variable poids en fonction du sexe, avec un titre et des légendes aux axes. Interpréter en quelques mots. 2 Tests (3 points) 1. Fisher s’est intéressé à la couleur des cheveux de garçons et de filles d’un district écossais à partir des données suivantes : Garçon Fille Blond 592 544 Roux 119 97 Châtain 849 677 Brun 504 451 Noir de jais 36 14 On veut savoir si la couleur des cheveux est indépendante du sexe : proposer un test, l’appliquer et conclure. 2. Un couple de cochons d’Inde à pelage gris et lisse a donné naissance à 64 descendants dont les pelages se répartissent comme suit : Pelage Nombre de cas gris et lisse 33 blanc et lisse 13 gris et rude 15 blanc et rude 3 Le modèle de Mendel prédit une répartition (9/16, 3/16, 3/16, 1/16) pour les descendants : proposer un test, l’appliquer et conclure. 1 3 Régression polynomiale (7 points) 1. Etude sur données simulées (a) Simuler un échantillon de taille n = 100 selon le modèle suivant : Y = X + 2X 2 + 3.5X 3 − 2.3X 4 + ε où X suit une loi uniforme sur [−2, +2] et ε suit une loi N (0, 10). (b) Tracer sur la même figure le nuage de points et, en rouge, le polynôme simulé. (c) Ajuster un modèle de régression linéaire simple. Représenter les résidus studentisés : conclusion ? (d) Ajuster une régression polynomiale en prenant un polynôme de degré 4, autrement dit une régression linéaire multiple en fonction des variables 1, X, X 2 , X 3 , X 4 . Représenter sur la même figure le nuage de points, le polynôme simulé (en rouge) et le polynôme estimé (en vert). (e) Représenter les résidus studentisés : conclusion ? 2. Ajustement d’un nuage de points par un polynôme (a) Importer le jeu de données exo3.txt. (b) Tracer le nuage de points de la variable Y en fonction de la variable X. Existe-t-il à votre avis une liaison linéaire entre ces deux variables ? (c) Effectuer une régression polynomiale pour ajuster les données grâce à un polynôme de degré 3. (d) Représenter sur la même figure le nuage de points et le polynôme ainsi estimé. 4 Test de Kolmogorov-Smirnov (6 points) On veut vérifier qu’un échantillon (X1 , . . . , Xn ) est tiré suivant une loi normale N (0, 1), de fonction de répartition notée F . On note X(1) < · · · < X(n) l’échantillon ordonné. Pour tout réel x, on note Fn (x) la fonction de répartition empirique, c’est-à-dire avec la convention X(n+1) = +∞ : n Fn (x) = n Xj 1X 1]−∞,x] (Xi ) = 1[X(j) ,X(j+1) [ (x) n i=1 n j=1 C’est donc une fonction en escalier, qui présente des sauts d’amplitude 1/n aux points X(j) . 1. Simuler un échantillon (X1 , . . . , Xn ) de taille n = 100 suivant une loi normale N (0, 1). Ordonner cet échantillon et représenter la fonction de répartition empirique Fn (x) (on pourra utiliser type=’’s’’). 2. Superposer au graphe précédent la fonction de répartition F de la loi normale N (0, 1) (en rouge). 3. Sur une seule fenêtre graphique, représenter à gauche la même figure qu’à la question précédente pour n = 100, et pour n = 1000 à droite. 4. Si on note kFn − F k∞ = supx∈R |Fn (x) − F (x)|, on peut voir que j j − 1 F (X ) − kFn − F k∞ = max max F (X(j) ) − , . (1) (j) 1≤j≤n n n De plus, on montre que, sous H0 : “(X1 , . . . , Xn ) est un échantillon iid de loi N (0, 1)”, on a pour tout c>0: √ 2 P nkFn − F k∞ ≥ c ≤ 2e−2c , tandis que sous H1 : “(X1 , . . . , Xn ) est un échantillon iid selon une autre loi”, on a √ p.s. nkFn − F k∞ −−−−→ +∞. n→∞ (a) Simuler (X1 , . . . , Xn ) de taille n = 100 suivant une loi normale N (0.5, 1), calculer kFn − F k∞ grâce à la formule (1) et, en utilisant ce qui précède, donner la p-value du test permettant de décider entre H0 et H1 . (b) Sur le même échantillon, retrouver (approximativement) le résultat précédent grâce à la fonction ks.test. 2