Option Mathématiques et applications – Centrale Nantes

Transcription

Option Mathématiques et applications – Centrale Nantes
Option Mathématiques et applications – Centrale Nantes
Régression et Séries Temporelles.
Anne Philippe
Université de Nantes, LMJL
Fiche 2
Exercice 1. Test de Fisher
On propose un modèle de régression pour modéliser la relation entre Y , le salaire (en milliers
de dollars) et x, le nombre d’années d’expérience. En terme de qualité de prévision, les modèles
— Yi = β1 + β2 xi + β3 x2i + εi
— Yi = β1 + β2 xi + β3 x2i + β4 x3i + εi
possèdent des propriétés très similaires. (Voir TP précédent). Mettre en oeuvre un test de Fisher
pour tester le modèle quadratique contre le modèle polynomial d’ordre 3.
Indication : utiliser la fonction anova
Exercice 2. Test de Normalité et modèle linéaire
On évalue numériquement les performances du test de Shapiro et du test de Kolmogorov pour
tester l’hypothèse nulle suivantes :
H0 : La loi des résidus standardisés est la loi gaussienne N (0, 1)
Commande R .
Soit mod un objet R contenant une sortie de la fonction lm
— La fonction rstandard(mod) retourne les résidus standardisés
— lm.influence(mod)$hat retourne la diagonale de la matrice de projection H
— ks.test : test de Kolmogorov
— shapiro.test test de normalité de Shapiro (basé sur les quantiles empiriques)
1) Construire un générateur de temps de traitement des factures à partir du modèle estimé sur les
données invoices.txt . On suppose que les résidus sont gaussiens Autrement dit on simule
un vecteurs aléatoire T ∗ suivant la loi gaussienne de moyenne β̂1 + β̂2 NF et de variance σ̂ 2 où
— NF est le vecteur contenant les nombres de factures observés
— β̂ et σ̂ sont les estimations obtenues sur les données invoices.txt
2) Simuler N échantillons de même loi que T ∗ , puis pour chaque échantillon
— Estimer le modèle de regression T ∗ = β1 + β2 NF + ε
— Tester l’hypothèse H0 par les tests de Shapiro et de Kolmogorov. Stocker les pvalues dans
des vecteurs PvalS et PvalK.
3) Tracer les fonctions de répartition empirique des vecteur PvalS et PvalK. Ajouter la droite
y=x
4) Quel test pouvez recommander ?
5) Pour évaluer la performance sous H1 du test retenu, reprendre les questions précédentes en
simulant T ∗ suivant la loi définie par
β̂1 + β̂2 NF + σ̂η
où η est un vecteur de variables aléatoires iid suivant la loi de student à ν pour ν ∈ {1, ..., 15}
6) Commenter et expliquer les résultats obtenus.
1
2
Anne PHILIPPE, Université de Nantes
Exercice 3. Illustration des propriétés des estimateurs
Sur les données simulées dans l’exercice précédent pour le modèle gaussien
1) Tracer l’histogramme des N valeurs de l’estimateur des moindres carrés de β. Comparer avec
les lois théoriques.
2) Valider par simulation que l’estimateur des moindres carrés σ 2 suit une loi du χ2 .
3) Valider par la simulation que les estimateurs de σ 2 et β sont indépendants.
Exercice 4. Construction et validation d’un modèle
On veut prévoir le prix du données (Y= Price en $ US )d’un menu dans un nouveau restaurant
italien à New York
Les variables explicatives sont sous la forme de notes (sur 30) données par des clients
— x1 = food : Evaluation par le client de la nourriture (sur 30)
— x2 = Décor : Evaluation par le client du décor (sur 30)
— x3 = service : Evaluation par le client du service (sur 30)
— x4 = East : variable nominale = 1 (0) si le restaurant est à l’est (ouest) de la Cinquième
Avenue
Les données sont dans le fichier Restaurant_NY.csv.
1) Proposer quelques représentations graphiques et quels indicateurs numériques pour résumer ce
jeu de données.
2) Explorer graphiquement les données pour motiver le choix d’un modèle linéaire.
3) Comparer graphiquement les sous populations définies par la variable East (x4).
4) Développer un modèle de régression qui modélise le prix du dîner en utilisant un sous-ensemble
ou la totalité des 4 variables énumérés ci-dessus.
5) La position géographique du restaurant par rapport à la Cinquième Avenue a-t-elle un effet sur
le prix ?
Exercice 5. Modèle non linéaire et transformation de variables
Les données concernent le salaire maximum pour 495 catégories d’emplois dans une unité du
gouvernement américain. Les données sont stockées dans le fichier salarygov.txt.
On développe un modèle de régression pour prédire la variable MaxSalary (salaire maximum
en $) en utilisant une seule variable explicative Score. Cette variable est un score/note qui prend
en compte la difficulté de l’emploi, le niveau de compétence, le niveau de responsabilité.
1) Explorer graphiquement les données pour motiver le choix d’un modèle de regression.
2) Deux fonctions de régression ont été proposé par des stagiaires
— MaxSalary = β1 + β2 √
Score
— MaxSalary = β1 + β2 Score
Comparer les qualités d’ajustement des deux modèles à l’aide des résidus
3) Quel modèle retenez-vous ?
4) Proposer une modélisation de la variables log(MaxSalary) utilisant la variable explicative
Score.
5) Quels sont les effets de cette transformation sur les résidus estimés standardisés ?
6) Sélectionner un modèle pour expliquer la variable MaxSalary et représenter pour ce modèle,
l’estimation de la fonction de regression avec un intervalle de confiance.