Introduction aux modèles statistiques
Transcription
Introduction aux modèles statistiques
U. Paris Ouest, M1 - Cours de Modélisation Appliquée Introduction aux modèles statistiques Laurent Ferrara Février 2012 U. Paris Ouest L. Ferrara, 20112011-12 Plan de la présentation 1. Concepts 2. Modèles statistiques 3 Exemples 3. E l de d modèles dèl U. Paris Ouest L. Ferrara, 20112011-12 1 C 1. Concepts t Objectif Prendre des décisions à partir de l’observation d’un ensemble de données Méthode Construction d’un modèle statistique pour chaque type d’étude Outils 1) Théorie de l ’information information et concepts dd’optimalité optimalité → construction d’une population exhaustive : pas tjs facile …. → Solution : échantillonnage U. Paris Ouest L. Ferrara, 20112011-12 2) Modèles statistiques: Modèles statistiques probabilistes : loi de l’échantillon Modèles statistiques paramétriques : modèles de régression linéaire et non-linéaire, modèles de séries chronologiques, …. → Chaque type de modèle fait appel à des paramètres (de la loi et / ou du modèle), a priori inconnus qu qu’il il faudra estimer. On peut identifier de 2 types de paramètres : paramètres de loi ou de structure. 3)) Estimation et tests : Inférence statistique basée sur l’échantillon observé → Co Contrôle ô e de laa qualité qua é de l ’information o a o et e de laa décision déc s o prise p se associée au test U. Paris Ouest L. Ferrara, 20112011-12 Exemple de modèles statistiques : - Etude d’une population par sondage - Explication de phénomènes macro-économiques et microéconomiques - Prévision (variables macro macro, taux de change, change actifs financiers, …) U. Paris Ouest L. Ferrara, 20112011-12 2 M 2. Modèles dèl statistiques t ti ti Définition On appelle modèle statistique la donnée dd’un un triplet (Ω, F , IP) où : Ω est ll’ensemble ensemble (les données) F est une tribu sur Ω IP est une famille de lois de proba. proba sur (Ω, F) tq : IP→ (IPθ )θ ∈Θ qui dépend dd’un un paramètre vectoriel U. Paris Ouest θ ∈ Θ ⊂ ℜk L. Ferrara, 20112011-12 Hypothèse clé de travail : Les individus interrogés sont assimilés à des variables aléatoires X1 , …, Xn , à valeurs dans Ω (Ω = R ou Rd ), ) indépendantes et de même loi de distribution Pθ (i.i.d.) Remarques : R1: En général, Ω ⊂ Rd , on travaille alors avec la tribu des boréliens B d R d R2 : Quand Θ ⊂ ( R , BRd ) on parle de modèle paramétrique probabiliste. On connaît la loi Pθ mais θ est inconnu. → On va donc se servir de l’échantillon qu ’on aura construit à partir des individus pour identifier ce paramètre θ. U. Paris Ouest L. Ferrara, 20112011-12 Définition: On appelle n-échantillon, le vecteur aléatoire : X = (X1 , …, Xn ) de loi Pθn , suite finie de v.a. v a indépendantes et identiquement distribuées (iid) de loi Pθ . Définition: On appelle observation une réalisation du vecteur aléatoire X, X notée : x = (x1 , …, xn ). Remarques : n n n R1: Le modèle statistique associé à X est : (Ω , F , IPθ ) U. Paris Ouest L. Ferrara, 20112011-12 R2: La famille de lois Pθ est supposée posséder une densité continue fθ (x) ou discrète p( x,θ ) (abus de language) R3 : Δθ = {x; fθ ( x) > 0} est le support de la loi Pθ . R4 : Sous l’hypothèse l hypothèse dd’indépendance indépendance : U. Paris Ouest Pθn = Pθ ×... × × Pθ L. Ferrara, 20112011-12 Définition: On appelle statistique toute fonction mesurable f tq: f: (X1 , …, Xn ) → f(X1 , …, Xn ) ∈ Rk , k étant la dimension de la statistique. Exemples E l : • (X1 , …, Xn ) statistique de dimension n • (X(1) , …, X(n) ) statistique de dimension n • X1 statistique de dimension 1 • 1/n ∑i Xi statistique de dimension 1 U. Paris Ouest L. Ferrara, 20112011-12 3 E 3. Exemples l de d modèles dèl statistiques t ti ti Modèle Binomial Ω = {données} = {réponses à une question binaire (oui/non)} On interroge n individus, individus Xi est la réponse de l ’individu individu i : Xi = 1 si oui et Xi = 0 si non → Xi est une vv.a. a qui suit une loi de Bernouilli de paramètre θ inconnu tq : θ = probabilité que ll’individu individu réponde oui Le modèle statistique associé au vecteur aléatoire X est : n n { } ( 0,1 , F , B(θ , n)) Exemples ? U. Paris Ouest θ? L. Ferrara, 20112011-12 Modèle Multinomial Ω = {données} = {réponses à une question à plusieurs modalités} = {Aj , j = 1, …, J } θj = probabilité que l’individu i réponde Aj On suppose pp qqu ’il n ’yy a pas p de non réponses p ((= abstention)) ie : ∑j θj = 1 On interroge g n individus,, Xi est la réponse p de l ’individu i : Xi ∈ {Aj , j = 1, …, J } Le modèle statistique associé au vecteur aléatoire X est : ({A1 ,..., AJ } , F n , M n (θ1 ,...,θ J )) n Exemples ? Rem : L L’estimation estimation de J-1paramètres suffit U. Paris Ouest L. Ferrara, 20112011-12 Modèle Log-Normal g Sur n individus, on mesure une variable Ri . On suppose pp qqu ’il s ’agit g d ’une variable continue ppositive Ri ~ LogN (m,σ2 ) ie Log( g(Ri ) ~ N (m, ( σ2 ) On a 2 paramètres d ’intérêt intérêt m et σ2 Le modèle statistique associé au vecteur aléatoire X est : ( R n , BRn , ( LogN L N) n ) Exemples ? U. Paris Ouest L. Ferrara, 20112011-12 Modèles de séries chronologiques gq Indice de la production industrielle en zone euro 130 120 110 100 90 80 70 60 1970 1972 1974 1976 1978 1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002 0.015 0 010 0.010 0.005 0.000 -0.005 -0.010 -0.015 -0.020 1970 1972 1974 1976 1978 1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002 U. Paris Ouest L. Ferrara, 20112011-12 Modèles de séries chronologiques gq Les n individus i deviennent n dates t, On mesure une variable Rt ppour t = 1,, …,, T Pb: b: Qu’en Qu e est-il es de l’hypothèse ypo èse i.i.d. . .d. ? 1/ Indépendance : Hypothèse pas raisonnable 2/ Identiquement distribué : Hypothèse nécessaire U. Paris Ouest L. Ferrara, 20112011-12 Conclusion →Répondre Ré d à un problème blè statistique, t ti ti c’est ’ t faire f i un choix h i à partir d’un ensemble d’information Algorithme de modélisation statistique: • Définir Défi i l’ensemble l’ bl d’information d’i f i • Spécifier le modèle statistique (= identifier Pθn ) • Construire une statistique pour le paramètre à estimer • Etude de cette statistique (estimation et distribution) • Validation / Contrôle • Prise de décision / Prévision U. Paris Ouest L. Ferrara, 20112011-12 Conclusion Outils: O til • Eléments de la théorie des probabilités • Construction i d’échantillon d h ill • Choix de la classe de modèle paramétrique • Méthodes de spécification du modèle • Estimation des paramètres • Tests d’hypothèses U. Paris Ouest L. Ferrara, 20112011-12