Introduction aux modèles statistiques

Transcription

Introduction aux modèles statistiques
U. Paris Ouest,
M1 - Cours de Modélisation Appliquée
Introduction aux modèles statistiques
Laurent Ferrara
Février 2012
U. Paris Ouest
L. Ferrara, 20112011-12
Plan de la présentation
1. Concepts
2. Modèles statistiques
3 Exemples
3.
E
l de
d modèles
dèl
U. Paris Ouest
L. Ferrara, 20112011-12
1 C
1.
Concepts
t
Objectif
Prendre des décisions à partir de l’observation d’un ensemble de
données
Méthode
Construction d’un modèle statistique pour chaque type d’étude
Outils
1) Théorie de l ’information
information et concepts dd’optimalité
optimalité
→ construction d’une population exhaustive : pas tjs facile ….
→ Solution : échantillonnage
U. Paris Ouest
L. Ferrara, 20112011-12
2) Modèles statistiques:
Modèles statistiques probabilistes : loi de l’échantillon
Modèles statistiques paramétriques : modèles de régression
linéaire et non-linéaire, modèles de séries chronologiques, ….
→ Chaque type de modèle fait appel à des paramètres (de la loi
et / ou du modèle), a priori inconnus qu
qu’il
il faudra estimer.
On peut identifier de 2 types de paramètres : paramètres de
loi ou de structure.
3)) Estimation et tests :
Inférence statistique basée sur l’échantillon observé
→ Co
Contrôle
ô e de laa qualité
qua é de l ’information
o a o et
e de laa décision
déc s o prise
p se
associée au test
U. Paris Ouest
L. Ferrara, 20112011-12
Exemple de modèles statistiques :
- Etude d’une population par sondage
- Explication de phénomènes macro-économiques et microéconomiques
- Prévision (variables macro
macro, taux de change,
change actifs
financiers, …)
U. Paris Ouest
L. Ferrara, 20112011-12
2 M
2.
Modèles
dèl statistiques
t ti ti
Définition
On appelle modèle statistique la donnée dd’un
un triplet (Ω, F , IP)
où :
Ω est ll’ensemble
ensemble (les données)
F est une tribu sur Ω
IP est une famille de lois de proba.
proba sur (Ω, F) tq : IP→ (IPθ )θ ∈Θ
qui dépend dd’un
un paramètre vectoriel
U. Paris Ouest
θ ∈ Θ ⊂ ℜk
L. Ferrara, 20112011-12
Hypothèse clé de travail :
Les individus interrogés sont assimilés à des variables
aléatoires X1 , …, Xn , à valeurs dans Ω (Ω = R ou Rd ),
)
indépendantes et de même loi de distribution Pθ (i.i.d.)
Remarques :
R1: En général, Ω ⊂ Rd , on travaille alors avec la tribu des
boréliens B d
R
d
R2 : Quand Θ ⊂ ( R , BRd ) on parle de modèle paramétrique
probabiliste. On connaît la loi Pθ mais θ est inconnu.
→ On va donc se servir de l’échantillon qu ’on aura
construit à partir des individus pour identifier ce paramètre θ.
U. Paris Ouest
L. Ferrara, 20112011-12
Définition:
On appelle n-échantillon, le vecteur aléatoire :
X = (X1 , …, Xn ) de loi Pθn , suite finie de v.a.
v a indépendantes
et identiquement distribuées (iid) de loi Pθ .
Définition:
On appelle observation une réalisation du vecteur aléatoire X,
X
notée : x = (x1 , …, xn ).
Remarques :
n
n
n
R1: Le modèle statistique associé à X est : (Ω , F , IPθ )
U. Paris Ouest
L. Ferrara, 20112011-12
R2: La famille de lois Pθ est supposée posséder une densité
continue fθ (x)
ou discrète p( x,θ ) (abus de language)
R3 : Δθ = {x; fθ ( x) > 0}
est le support de la loi Pθ .
R4 : Sous l’hypothèse
l hypothèse dd’indépendance
indépendance :
U. Paris Ouest
Pθn = Pθ ×...
× × Pθ
L. Ferrara, 20112011-12
Définition:
On appelle statistique toute fonction mesurable f tq:
f: (X1 , …, Xn ) → f(X1 , …, Xn ) ∈ Rk ,
k étant la dimension de la statistique.
Exemples
E
l :
• (X1 , …, Xn ) statistique de dimension n
• (X(1) , …, X(n) ) statistique de dimension n
• X1 statistique de dimension 1
• 1/n ∑i Xi statistique de dimension 1
U. Paris Ouest
L. Ferrara, 20112011-12
3 E
3.
Exemples
l de
d modèles
dèl statistiques
t ti ti
Modèle Binomial
Ω = {données} = {réponses à une question binaire (oui/non)}
On interroge n individus,
individus Xi est la réponse de l ’individu
individu i :
Xi = 1 si oui et Xi = 0 si non
→ Xi est une vv.a.
a qui suit une loi de Bernouilli de paramètre
θ inconnu tq :
θ = probabilité que ll’individu
individu réponde oui
Le modèle statistique associé au vecteur aléatoire X est :
n
n
{
}
( 0,1 , F , B(θ , n))
Exemples ?
U. Paris Ouest
θ?
L. Ferrara, 20112011-12
Modèle Multinomial
Ω = {données} = {réponses à une question à plusieurs
modalités} = {Aj , j = 1, …, J }
θj = probabilité que l’individu i réponde Aj
On suppose
pp
qqu ’il n ’yy a pas
p de non réponses
p
((= abstention))
ie : ∑j θj = 1
On interroge
g n individus,, Xi est la réponse
p
de l ’individu i :
Xi ∈ {Aj , j = 1, …, J }
Le modèle statistique associé au vecteur aléatoire X est :
({A1 ,..., AJ } , F n , M n (θ1 ,...,θ J ))
n
Exemples ?
Rem : L
L’estimation
estimation de J-1paramètres suffit
U. Paris Ouest
L. Ferrara, 20112011-12
Modèle Log-Normal
g
Sur n individus, on mesure une variable Ri .
On suppose
pp
qqu ’il s ’agit
g d ’une variable continue ppositive
Ri ~ LogN (m,σ2 )
ie
Log(
g(Ri ) ~ N (m,
( σ2 )
On a 2 paramètres d ’intérêt
intérêt m et σ2
Le modèle statistique associé au vecteur aléatoire X est :
( R n , BRn , ( LogN
L N) n )
Exemples ?
U. Paris Ouest
L. Ferrara, 20112011-12
Modèles de séries chronologiques
gq
Indice de la production industrielle en zone euro
130
120
110
100
90
80
70
60
1970 1972 1974 1976 1978 1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002
0.015
0 010
0.010
0.005
0.000
-0.005
-0.010
-0.015
-0.020
1970 1972 1974 1976 1978 1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002
U. Paris Ouest
L. Ferrara, 20112011-12
Modèles de séries chronologiques
gq
Les n individus i deviennent n dates t,
On mesure une variable Rt ppour t = 1,, …,, T
Pb:
b: Qu’en
Qu e est-il
es de l’hypothèse
ypo èse i.i.d.
. .d. ?
1/ Indépendance : Hypothèse pas raisonnable
2/ Identiquement distribué : Hypothèse nécessaire
U. Paris Ouest
L. Ferrara, 20112011-12
Conclusion
→Répondre
Ré
d à un problème
blè statistique,
t ti ti
c’est
’ t faire
f i un choix
h i
à partir d’un ensemble d’information
Algorithme de modélisation statistique:
• Définir
Défi i l’ensemble
l’
bl d’information
d’i f
i
• Spécifier le modèle statistique (= identifier Pθn )
• Construire une statistique pour le paramètre à estimer
• Etude de cette statistique (estimation et distribution)
• Validation / Contrôle
• Prise de décision / Prévision
U. Paris Ouest
L. Ferrara, 20112011-12
Conclusion
Outils:
O
til
• Eléments de la théorie des probabilités
• Construction
i d’échantillon
d h ill
• Choix de la classe de modèle paramétrique
• Méthodes de spécification du modèle
• Estimation des paramètres
• Tests d’hypothèses
U. Paris Ouest
L. Ferrara, 20112011-12

Documents pareils