Option Mathématiques et applications – Centrale Nantes
Transcription
Option Mathématiques et applications – Centrale Nantes
Option Mathématiques et applications – Centrale Nantes Régression et Séries Temporelles. Anne Philippe Université de Nantes, LMJL Fiche 2 Exercice 1. Test de Fisher On propose un modèle de régression pour modéliser la relation entre Y , le salaire (en milliers de dollars) et x, le nombre d’années d’expérience. En terme de qualité de prévision, les modèles — Yi = β1 + β2 xi + β3 x2i + εi — Yi = β1 + β2 xi + β3 x2i + β4 x3i + εi possèdent des propriétés très similaires. (Voir TP précédent). Mettre en oeuvre un test de Fisher pour tester le modèle quadratique contre le modèle polynomial d’ordre 3. Indication : utiliser la fonction anova Exercice 2. Test de Normalité et modèle linéaire On évalue numériquement les performances du test de Shapiro et du test de Kolmogorov pour tester l’hypothèse nulle suivantes : H0 : La loi des résidus standardisés est la loi gaussienne N (0, 1) Commande R . Soit mod un objet R contenant une sortie de la fonction lm — La fonction rstandard(mod) retourne les résidus standardisés — lm.influence(mod)$hat retourne la diagonale de la matrice de projection H — ks.test : test de Kolmogorov — shapiro.test test de normalité de Shapiro (basé sur les quantiles empiriques) 1) Construire un générateur de temps de traitement des factures à partir du modèle estimé sur les données invoices.txt . On suppose que les résidus sont gaussiens Autrement dit on simule un vecteurs aléatoire T ∗ suivant la loi gaussienne de moyenne β̂1 + β̂2 NF et de variance σ̂ 2 où — NF est le vecteur contenant les nombres de factures observés — β̂ et σ̂ sont les estimations obtenues sur les données invoices.txt 2) Simuler N échantillons de même loi que T ∗ , puis pour chaque échantillon — Estimer le modèle de regression T ∗ = β1 + β2 NF + ε — Tester l’hypothèse H0 par les tests de Shapiro et de Kolmogorov. Stocker les pvalues dans des vecteurs PvalS et PvalK. 3) Tracer les fonctions de répartition empirique des vecteur PvalS et PvalK. Ajouter la droite y=x 4) Quel test pouvez recommander ? 5) Pour évaluer la performance sous H1 du test retenu, reprendre les questions précédentes en simulant T ∗ suivant la loi définie par β̂1 + β̂2 NF + σ̂η où η est un vecteur de variables aléatoires iid suivant la loi de student à ν pour ν ∈ {1, ..., 15} 6) Commenter et expliquer les résultats obtenus. 1 2 Anne PHILIPPE, Université de Nantes Exercice 3. Illustration des propriétés des estimateurs Sur les données simulées dans l’exercice précédent pour le modèle gaussien 1) Tracer l’histogramme des N valeurs de l’estimateur des moindres carrés de β. Comparer avec les lois théoriques. 2) Valider par simulation que l’estimateur des moindres carrés σ 2 suit une loi du χ2 . 3) Valider par la simulation que les estimateurs de σ 2 et β sont indépendants. Exercice 4. Construction et validation d’un modèle On veut prévoir le prix du données (Y= Price en $ US )d’un menu dans un nouveau restaurant italien à New York Les variables explicatives sont sous la forme de notes (sur 30) données par des clients — x1 = food : Evaluation par le client de la nourriture (sur 30) — x2 = Décor : Evaluation par le client du décor (sur 30) — x3 = service : Evaluation par le client du service (sur 30) — x4 = East : variable nominale = 1 (0) si le restaurant est à l’est (ouest) de la Cinquième Avenue Les données sont dans le fichier Restaurant_NY.csv. 1) Proposer quelques représentations graphiques et quels indicateurs numériques pour résumer ce jeu de données. 2) Explorer graphiquement les données pour motiver le choix d’un modèle linéaire. 3) Comparer graphiquement les sous populations définies par la variable East (x4). 4) Développer un modèle de régression qui modélise le prix du dîner en utilisant un sous-ensemble ou la totalité des 4 variables énumérés ci-dessus. 5) La position géographique du restaurant par rapport à la Cinquième Avenue a-t-elle un effet sur le prix ? Exercice 5. Modèle non linéaire et transformation de variables Les données concernent le salaire maximum pour 495 catégories d’emplois dans une unité du gouvernement américain. Les données sont stockées dans le fichier salarygov.txt. On développe un modèle de régression pour prédire la variable MaxSalary (salaire maximum en $) en utilisant une seule variable explicative Score. Cette variable est un score/note qui prend en compte la difficulté de l’emploi, le niveau de compétence, le niveau de responsabilité. 1) Explorer graphiquement les données pour motiver le choix d’un modèle de regression. 2) Deux fonctions de régression ont été proposé par des stagiaires — MaxSalary = β1 + β2 √ Score — MaxSalary = β1 + β2 Score Comparer les qualités d’ajustement des deux modèles à l’aide des résidus 3) Quel modèle retenez-vous ? 4) Proposer une modélisation de la variables log(MaxSalary) utilisant la variable explicative Score. 5) Quels sont les effets de cette transformation sur les résidus estimés standardisés ? 6) Sélectionner un modèle pour expliquer la variable MaxSalary et représenter pour ce modèle, l’estimation de la fonction de regression avec un intervalle de confiance.