Statistique décisionnelle ou aide à la décision sous

Transcription

Statistique décisionnelle ou aide à la décision sous
STATISTIQUE DECISIONNELLE
ou
AIDE A LA DECISION
SOUS INCERTITUDE ?
par J. Bernier
en hommage à Georges Morlat
et Etienne Halphen
Un peu d'histoire
LE MODELE STATISTIQUE DECISIONNEL
Abraham Wald (Statistical Decision Functions - Wiley 1950)
I
OBJECTIF DE WALD
Unifier les classes de problèmes statistiques :
*estimation ponctuelle
*estimation par intervalles
*théorie des tests, etc...
2
LES APPLICATIONS OPERATIONNELLES
Howard Raiffa et Robert Schlaifer
(Applied Statistical Decision Theory - Wiley,1961)
LE MODELE DE WALD : son cadre formel
Ensemble des Décisions:
Ensemble des Etats de la Nature:
Fonction de Coût: A×Θ → R:
a∈ A
θ ∈Θ
W(a,θ)
La conception ensembliste est cruciale
Information (observable): y
Densité sur Y (p.r. µ) :
Espace des observables: Y
(exemple : R⁽ⁿ⁾)
g(y|θ)
Concept de base : règle de décision δ
définie comme une application : Y → A : a = δ(y)
Extension aux règles mixtes δm : distributions de proba sur A
Mesure de Performance de δ :
Fonction de risque r(δ,θ)
r(δ,θ) =∫W(δ(y),θ)g(y|θ)dµ(y)
W(a,θ) : Fonction de Coût à valeurs réelles (Wald)
Ou (dés)Utilité (Von Neumann puis Savage)
Nécessité rationnelle ou commodité de langage ?
Importance de l'attitude du Décideur devant
le risque ?
The Foundations of Decision Under Uncertainty
An Elementary Exposition
John W. Pratt, Howard Raiffa, Robert Schlaifer
Journal of the Amer. Stat. Asso. Vol. 59 (1964)
LES CRITERES DE WALD
δ domine δ′
Critères descriptifs
r(δ,θ) ≤ r(δ′,θ)
∀ θ∈Θ
inégalité stricte pour un θ au moins
δ est admissible dans ∆
Dans ∆,  δ′ dominant δ
Critères constructifs
Règle de Bayes
π(θ) prior sur Θ
Risque de Bayes
δπ
RGB
Rπ{δ}=∫Θr(δ,θ)π(θ)dμ(θ)
Rπ(δπ) = InfΔ Rπ(δ)
Règle Minimax
Risque maximal
r₀(δ)=SupΘ r(δ,θ)
δ0
r₀(δ₀) = InfΔr0(δ)
PARADOXE DE STEIN (1956)
Problème de l'estimation d'un vecteur de moyennes
Y={Y₁,Y₂,..Yk} ~ N(k)(θ,σ²I)
θ∈R(k)
σ² est connu
Soit la fonction de coût aggrégée : W(a,θ)=∑(aj-θj)²
Soit la règle de décision δG : yj→ θj ∀j
(estimation classique depuis Gauss)
Cette règle est inadmissible
vis à vis du coût quadratique aggrégé si k ≥ 3
Estimateur de James-Stein δJS DOMINANT δG
THEOREMES FONDAMENTAUX
Une classe C ∈ Δ est dite complète si pour toute règle δ′ non dans C,
il existe δ dans C qui domine δ′
(essentiellement complète si inégalité non stricte)
(minimale si aucune sous classe de C n'est complète)
Théorème de la classe complète (sous conditions)
Si Θ est fini :
la classe des RGB est complète
minimale complète si RGB admissibles
Plus généralement la classe des RGB dites "étendues"
est essentiellement complète
pour être opérationnelle cette propriété nécessite de donner un contenu quantifié "sensible" aux "probabilités a priori" π(θ)
THEOREMES FONDAMENTAUX (suite)
Problème décisionnel statistique vu comme un jeu :
« Décideur contre La Nature » au sens de Von Neumann
RAPPEL :
Rπ{δ}=∫Θr(δ,θ)π(θ)dμ(θ)
SupΠ Rπ(δ) = SupΘ r(δ,θ)
Théorème du Minimax (sous conditions)
Si Θ est fini et borné inf. alors
Inf∆ SupΠ Rπ(δ) = Supπ Inf∆ Rπ(δ) = V
Implication :
Il existe π₀ "distribution la plus défavorable" telle que:
δ₀ est règle de Bayes pour π₀
Commentaires
L
LES CONCEPTS DE WALD :
Admissibilité, Classe complète, Règle de Bayes, etc...
sont des concepts fréquentistes
(les priors π(θ) ne sont que des instruments mathématiques
à l'exemple de la construction de son Test Séquentiel)
Le Théorème de la Classe Complète
Fait le lien entre Analyses Décisionnelles
Fréquentistes et Bayesiennes
Le Théorème de la Classe Complète est rassurant pour qui ?
Raiffa et Schlaifer (Applied Statistical Decision Theory)
Arbres de Décisions (→ DAG)
Dans les états de la Nature on distinguera :
- Z : aléas naturels prédictifs
- θ : éléments incertains par ignorance
(paramètres , modèles, etc...)
Si θ est supposé connu → cas d'information parfaite
Introduction du Regret (θ ou Z)
Si aθ est tel que W(aθ,θ) = InfΘ W(a,θ)
On appelle regret le coût RE(a,θ) = W(a,θ) - W(aθ,θ)
RE(a,θ) est interprété comme la Valeur de l'information θ
Introduction des Conjuguées Naturelles
Arbre de Décision et Analyse Extensive
(Raiffa et Schlaifer)
Decision
e
Echant.
y
e∈E
y∈Y
Decision
a
a∈A
COUPURE
Prédictif
Z
Coût
W(e,a,Z)
Incertitude
θ
θ∈Θ
Décision terminale
ou intermédiaire ?
Analyse bayesienne dite extensive
(descente de l'arbre)
Soit W(e,a,θ) = ∫W(e,a,z)[z|θ]dz
Choix de a et calcul de W(e,y) = MinA ∫W(e,a,θ)[θ|y,e]dθ
Puis Choix de e : MinE ∫W(e,y)[y|e]dy
La coupure peut simplifier l'analyse par le choix de :
Fonctions de coût instrumentales (ex. quadratiques....) arbitraires (?)
1000
1200
EXEMPLE : La Digue de Jacquou, producteur de canards
(premier cas : information parfaite : θ connu)
Jacquou (2010)
200
400
600
W
800
c/kd = 0.02
0.001
0
50
100
150
a
a : niveau de la digue --> débit max du CEOU
Z > 0 → ρexp(-ρz)
W(a,z) = c.a+k.d.I[z>a](z)
200
250
300
m=1/ρ
W(a,ρ) = c.a +k.d.e-ρa /ρ
1000
Distributions
a posterior de m
800
Coût a posteriori
Rπ(a)
0.000
200
400
0.002
600
WEx
0.004
PPip
0.006
1200
0.008
1400
Les distributions a posteriori de Jacquou
0
20
40
60
80
100
0
50
100
m
150
200
250
300
a
Décision de Bayes pour un prior sur m : π(m) = dunif(0,100)
Information :
max(y)=104 m3/s ou moyenne(y) = 30 m3/s
δ(moyenne(y)) = 127 m3/s
δ(max(y)) = 119 m3/s
Si coût linéaire par morceaux (avec ratio = A/(A+B) = 0,80),
δ(moyenne(y)) = 140 m3/s
Différence entre fonction de risque et coût a posteriori
Théorème de représentation (de Finetti, Savage, Hewitt)
(1937 , 1955)
1968
2007
2060
Hypothèse de Jacquou et Occurrence des événements
Echangeabilité des observables annuels :
Invariance de [y1,y2,..y2007,z2008...z2060] par permutations
Remplace l'hypothèse I I D des fréquentistes
Enonçé du Théorème :
La séquence est échangeable si et seulement si :
∀ ni, nj , Il existe θ et π(θ) tels que :
[y1,y2,..yni,z2008...znj] = ∫ (∏if(yi|θ)).(∏jf(zj|θ)).π(θ)dθ
Interprétation du Théorème de représentation
Par le bayesien Jacquou
f(y ou z|θ) → son modèle : ρe−ρy(ou z) et π(.) → son prior
π(ρ)
[y1,y2,..y2007,z2008...z2060] = ∫ (∏ iρe−ρyi).(∏ jρe-ρzj).π(ρ)dρ
Mais [z2008 ,...z2060|y1,...y2007] = [y1,...z2060] / [y1,..y2007]
[z2008,...z2060|y1968,..,y2007]=∫(∏jρe-ρzj})πy(ρ)dρ
avec πy(ρ) = π(ρ)∗(∏ρe-ρyi) / [y₁₉₆₈,...y₂₀₀₇]
C'est la formule de Bayes
Conséquences de l'attitude bayésienne de Jacquou
1 La règle de Bayes : corrolaire de l'échangeabilité des
observables
2 Concept bayesien de probabilité prédictive
Distribution prédictive: Prpred(Z<z|y) = ∫F(z|θ))πy(θ)dθ
Soit P = Prpred(Z ≥ z0) = ∫z0dz ∫f(z|θ)πy(θ)dθ
Temps de retour τ : Prpred(intervalle τ=n) = ∫(1-e-ρy₀)ⁿ⁻¹e-ρy₀πy(ρ)dρ
Durée de retour : Epred (τ) = ∫eρy₀ πy(ρ)dρ ≠ T = 1/P
3 Importance du raisonnement conditionnel bayesien
- critère conditionnel à l'info existante :
Rπ(y)(δ),
- plutôt que critère moyen | info hypothètique : r(δ,θ)
4 Retour au Paradoxe de Stein (Efron)
Problème, soit : Y∈ R(k) ~ N(k)(θ,σ2I) θ∈ R(k) σ2 connu
Estimation bayesienne des θ avec priors échangeables :
[θj] = N1(µ, v2) et coût aggrégé :
Solution du Coût a posteriori minimal :
Si maintenant on souhaite estimer, en fréquentiste,
µ, 1/(σ2+v2) par des estimations sans biais,
alors on obtient l'estimateur de James Stein âj=1,,,,k = δJS
C'est la méthode dite « Bayes empirique » (Efron)
L'échangeabilité des θ et sa représentation bayesienne
éclairent le « paradoxe de Stein »
IMPORTANCE DE L'ECHANGEABILITE
EN MODELISATION BAYESIENNE
→ Modèles hiérarchiques, couches latentes, etc...
LES CONCEPTS DECISIONNELS EN PREVISION METEO
- Etats de la nature : Aléas naturels réels Ζ ou séquences d'aléas.
Mais coupure de l'arbre car :
- les Décisions sont vues comme des distributions Q sur Z
conception qui ouvre la porte aux prévisions d'ensembles
2
D. Brier
(1950) introduit
Score
Brier (1950)
→ Scores :
S(Q,z) le
=∑
∑
(Q
–
E
)
/n
j i
ij
ij
où Eij = 1 si zi ∈ classe i, = 0 sinon
En continu S(Q,z) = CRPS = ∫{Q(t) – H(t-z)}2dt
Score : S(Q,z) = r(δ,z) = fonction de risque de δ = Q
L'interprétation décisionnelle ne date que de 2005 (Gneiting et Raftery)
et Dawid (2006)
Problèmes spécifiques de la prévision interprétée
comme décision statistique
- interprétation et élicitation du prior (distributions historiques)
- calibration de la prévision (le fréquentiste intervient par la bande)
- robustesse du choix d'un score particulier
INVENTAIRE DES SCORES SELON GNEITING ET RAFTERY
Notation : S(Q,P) = ∫ S(Q,θ)dP(θ)
Score → Fonction de Coût W(Q,P) = S(Q,P)
Score propre : S(P,P) ≥ S(Q,P) avec égalité ssi Q = P
Entropie : H(P) := S(P, P)
Divergence : D(Q,P) := S(Q,P) - H(P)
EXEMPLES
Score logarithmique S(Q,z) = - log(q(z))
H est l'entropie de Shannon
D est la divergence de Kullback Leibler
Score quadratique S(Q,z) = 2q(z) - ||q(z||2
H = ||p(z||2
D est la distance d'Hellinger
Les Scores de quantiles
(un pas vers des « scores terminaux »)
Θ = {θ1,...,θk} niveaux (∈[0,1]) de quantiles de Z prédictifs
Distribution Q représentée par {a1,...,ak}
Soit S(a1,...,ak, z) = ∑i {θi.s(ai)+(s(z) – s(ai)).I(z < ai)}
Score : S(a1,...,ak, P) =∫ S(a1,...,ak, z)dP(z)
Choix de Q prédictive vu comme
Choix bayesien de modèle (selon Raftery)
Q1 ~ L(y|H1)
Q2 ~ L(y|H2)
Log (rapport de Bayes) = Log(L2) – Log(L1) = diff. de scores logarit.
étendu aux vraisemblances marginales ∫ L(y|θ,Hj).[θ]dθ
( Bayesian Model Averaging – BMA en «prévisions d'ensemble»)
Importance des Scores au delà de la Prévision
- lien entre coûts terminaux et coûts instrumentaux
- permet les études de robustesse de la coupure
Ce n'est qu'en 2006 que DAWID a rassemblé les
problêmes de prévision, de planification d'experience
sous l'angle décisionnel, cependant dans un contexte
théorique et même abstrait.
Pour DAWID, un problème de décision (Y, A, W) est
posé par :
- Un espace d'observables (outcomes) Y,
- un espace d'actions A,(choix d'un modèle
probabiliste Q)
- une fonction de pertes L(y,a), ≡ Score Propre S(aQ,y)
Retour au concret avec
Les plans d'expériences bayesiens ?
Plans d'expérience bayesiens
et Décisions statistiques
1 – Avant la « révolution » du Calcul Bayesien
(Raiffa et Schlaifer, de Groot,etc...)
Inventaire de Chaloner et Verdinelli (1995)
2 – Après la « révolution » du Calcul Bayesien
(MCMC, particules, optimisation, etc...)
Müller (1999) : Simulation-based Optimal Design
Bayesian Statistics. n°6
Parent et al. (2008) : Investigations particulaires
pour l'inference statistiques et l'optimisation de
plans d'expériences. Journal de la SfdS. n°149
L'ANALYSE DECISIONNELLE BAYESIENNE
DES PLANS D'EXPERIENCE
selon Chaloner et Verdinelli (1995)
Elaguage des branches prédictives et Maximisation de l'Utilité
Ū(e)=∫[y|e]dy∫U(e,ây,θ)[θ|y,e]dθ
Hypothèse : Utilité additive vis à vis du coût d'expérimentation
Lindley (1956) →
Modèles et hypothèses notamment asymptotiques
→ approximation de Berger (1985)
1
[θ|e,y] ∝ exp(-( ).tr((I(θ,e)+R)(θ-θ)(θ-θ)T)
2
I(θ,e) désigne la matrice d'Information de Fisher
R matrice de précision a priori sur θ
PLANS D'EXPERIENCE (suite)
Critère K L + Norm. Asympt. → Plan D-Optimal :
UD(e) = ∫ log[det(I(θ,e)+R)][θ]dθ
maximal
Si a ∈ Θ (estimation) et Coût : W = (a-θ)TA(a-θ) → Plan A-Optimal :
UA = - ∫ tr[A.I(θ,e)+R)-1][θ]dθ
maximal
… Autres variétés alphabétiques : A', C, G, etc...
Problème de la Robustesse de la Fonction de Coût
Remontée de l'arbre : θ → ϕ = g(θ)
Autres aspects de la robustesse du modèle décisionnel ?
(notamment celle de l'approximation asymptotique de Berger)
RETOUR A JACQUOU
place à l'imaginaire
Jacquou investit dans les couveuses de canards gras ?
Y, Z : durée (jours) avant éclosion d'un œuf de cane
Distribution de Weibull
[y|α, β, ρ] = βρ(y −α)β−1 .exp( -ρ(y −α)β)
y,z ≥ α
Simplification β = 1
[y|α, ρ] = ρ .exp( -ρ(y −α))
Exponentielle bornée inf.
Problématique de Jacquou
La qualité de production ↔ durée de couvaison :
Le foie du caneton considéré comme impropre si Z > a
Doit il utiliser ou non les réglages standard (température,
hygrométrie) ?
Il investit dans une couveuse (n œufs) qu'il règle autrement:
α, ρ sont les paramètres incertains de ce règlage personnel
Analyse d'un n-échantillon indépendant de y
(information gracieusement offerte par le conseiller de Jacquou)
ym = min(y1, y2,...,yn)
S = ∑(yi-ym) exhaustifs pour {α,ρ }
Pas de matrice d'information I ET ym est « super-efficace »
Conditionnelles complètes :
(priors peu informatifs)
[α|ρ,y] = nρ.exp( nρ(α – ym)) α ≤ ym
[ρ|α ,y] = dgamma(ρ, n-1, rate = ∑(yi-α))
« Marginale a posteriori » :
La distribution marginale de y1, y2,...,yn , impose
des priors propres
GIBBS (10000 tirages dont 3000 supposés stabilisés)
DISTRIBUTIONS A POSTERIORI (MCMC GIBBS)
Sur 2 échantillons d'une même couveuse
n = 6 et 12 ( α0 = 25 , µ0 = 1/ρ0 = 3, Q0=31.9 )
Histogram of alphaX
2.0
1.0
Density
1.0
0.0
0.5
0.0
Density
1.5
3.0
Histogram of alphaX
20
21
22
23
24
20
25
21
22
24
25
alphaX
alphaX
Histogram of muX
0.00
0.2
0.0
0.10
Density
0.20
0.30
0.4
Histogram of muX
Density
23
0
5
10
muX
15
0
5
10
15
muX
moyenne Ec_type Q_2.5% Q_50% Q_97.5% moyenne Ec_type Q_2.5% Q_50% Q_97.5%
α 24.97 0.374
23.95 25.09
25.29
24.51
1.05
21.68
24.84 25.3
µ
3.88
1.295
2.11
3.64
6.97
4.04
2.86
1.41
3.29 11.2
Expression des conséquences pour Jacquou
Deux fonctions de coût possibles parmi d'autres
(réglages standards : α0 , ρ 0 )
1 – Coupure au niveau des paramètres :
estimation des écarts : ∆α = α−α0 , ∆ρ = ρ −ρ 0
fonction de coût (f. c.) instrumentale
2 – Prise en compte des conséquences terminales
en termes de distribution prédictive de Z
Seuil de décision de mise au rebût a ,
Jacquou est sensibilisé à la fréquence des rejets :
f.c. : W( a, α, ρ) = ca + k.Pr(z > a|α, ρ) = ca + k.exp( -ρ( a− α))
optimum en information parfaite : âα,ρ = α + log(kρ/c)/ρ
f. c. égale au regret approché :
WZ = REW ≈ cρ(âα,ρ – a0 )2
où a0 = α0 + log(kρ 0 /c)/ρ 0
« Coûts prédictifs d'échantillons WA(e) et WZ(e)» comparés
Hypothèse simplificatrice : cas de référence α0, ρ0 supposés connus
α0=25, ρ0=0.33, k = 10 et Z0 (décile sup.) = 31.9, A = matrix(c(1,0,0,1),2,2)
(Calculs particulaires et Importance Sampling)
(10000 – 1000)
(ICWZ, ICWA : Intervalles intercentiles relatifs)
Taille : n
30
20
10
WZ
117.4
87.7
87.6
n = 30
ICWZ
0.95
0.50
0.30
WA
632.7
250.3
42.8
ICWA
A=c(5,0,0,1)
632.9
2.35
A=c(1,0,0,5)
3162
2.31
2.35
2,54
3.28
Exemple partiel : pas de coût d'expérimentation→pas d'optimisation
Problèmes avec le critère A
ELEMENTS DE CONCLUSION
Robustesse du modèle
Décisionnel Statistique Bayesien ?
Au delà des aspects philosophiques du
comportement du décideur devant l'incertitude,
la théorie de la décision statistique est un modèle
dont la robustesse doit être jugée
vis à vis du Réel et des Besoins de la Pratique
- réalisme des fonctions de coût ou utilités,
- réalisme de la coupure,
- réalisme du modèle probabiliste des Y et Z,
- prise en compte réaliste des contraintes du client.
Attention aux choix basés sur
des arguments mathématiques ou de commodité
(Au delà même des préférences « fréquentistes - bayesiennes »
mentionnées notamment par Halphen déjà en 1947)

Documents pareils