Statistique décisionnelle ou aide à la décision sous
Transcription
Statistique décisionnelle ou aide à la décision sous
STATISTIQUE DECISIONNELLE ou AIDE A LA DECISION SOUS INCERTITUDE ? par J. Bernier en hommage à Georges Morlat et Etienne Halphen Un peu d'histoire LE MODELE STATISTIQUE DECISIONNEL Abraham Wald (Statistical Decision Functions - Wiley 1950) I OBJECTIF DE WALD Unifier les classes de problèmes statistiques : *estimation ponctuelle *estimation par intervalles *théorie des tests, etc... 2 LES APPLICATIONS OPERATIONNELLES Howard Raiffa et Robert Schlaifer (Applied Statistical Decision Theory - Wiley,1961) LE MODELE DE WALD : son cadre formel Ensemble des Décisions: Ensemble des Etats de la Nature: Fonction de Coût: A×Θ → R: a∈ A θ ∈Θ W(a,θ) La conception ensembliste est cruciale Information (observable): y Densité sur Y (p.r. µ) : Espace des observables: Y (exemple : R⁽ⁿ⁾) g(y|θ) Concept de base : règle de décision δ définie comme une application : Y → A : a = δ(y) Extension aux règles mixtes δm : distributions de proba sur A Mesure de Performance de δ : Fonction de risque r(δ,θ) r(δ,θ) =∫W(δ(y),θ)g(y|θ)dµ(y) W(a,θ) : Fonction de Coût à valeurs réelles (Wald) Ou (dés)Utilité (Von Neumann puis Savage) Nécessité rationnelle ou commodité de langage ? Importance de l'attitude du Décideur devant le risque ? The Foundations of Decision Under Uncertainty An Elementary Exposition John W. Pratt, Howard Raiffa, Robert Schlaifer Journal of the Amer. Stat. Asso. Vol. 59 (1964) LES CRITERES DE WALD δ domine δ′ Critères descriptifs r(δ,θ) ≤ r(δ′,θ) ∀ θ∈Θ inégalité stricte pour un θ au moins δ est admissible dans ∆ Dans ∆, δ′ dominant δ Critères constructifs Règle de Bayes π(θ) prior sur Θ Risque de Bayes δπ RGB Rπ{δ}=∫Θr(δ,θ)π(θ)dμ(θ) Rπ(δπ) = InfΔ Rπ(δ) Règle Minimax Risque maximal r₀(δ)=SupΘ r(δ,θ) δ0 r₀(δ₀) = InfΔr0(δ) PARADOXE DE STEIN (1956) Problème de l'estimation d'un vecteur de moyennes Y={Y₁,Y₂,..Yk} ~ N(k)(θ,σ²I) θ∈R(k) σ² est connu Soit la fonction de coût aggrégée : W(a,θ)=∑(aj-θj)² Soit la règle de décision δG : yj→ θj ∀j (estimation classique depuis Gauss) Cette règle est inadmissible vis à vis du coût quadratique aggrégé si k ≥ 3 Estimateur de James-Stein δJS DOMINANT δG THEOREMES FONDAMENTAUX Une classe C ∈ Δ est dite complète si pour toute règle δ′ non dans C, il existe δ dans C qui domine δ′ (essentiellement complète si inégalité non stricte) (minimale si aucune sous classe de C n'est complète) Théorème de la classe complète (sous conditions) Si Θ est fini : la classe des RGB est complète minimale complète si RGB admissibles Plus généralement la classe des RGB dites "étendues" est essentiellement complète pour être opérationnelle cette propriété nécessite de donner un contenu quantifié "sensible" aux "probabilités a priori" π(θ) THEOREMES FONDAMENTAUX (suite) Problème décisionnel statistique vu comme un jeu : « Décideur contre La Nature » au sens de Von Neumann RAPPEL : Rπ{δ}=∫Θr(δ,θ)π(θ)dμ(θ) SupΠ Rπ(δ) = SupΘ r(δ,θ) Théorème du Minimax (sous conditions) Si Θ est fini et borné inf. alors Inf∆ SupΠ Rπ(δ) = Supπ Inf∆ Rπ(δ) = V Implication : Il existe π₀ "distribution la plus défavorable" telle que: δ₀ est règle de Bayes pour π₀ Commentaires L LES CONCEPTS DE WALD : Admissibilité, Classe complète, Règle de Bayes, etc... sont des concepts fréquentistes (les priors π(θ) ne sont que des instruments mathématiques à l'exemple de la construction de son Test Séquentiel) Le Théorème de la Classe Complète Fait le lien entre Analyses Décisionnelles Fréquentistes et Bayesiennes Le Théorème de la Classe Complète est rassurant pour qui ? Raiffa et Schlaifer (Applied Statistical Decision Theory) Arbres de Décisions (→ DAG) Dans les états de la Nature on distinguera : - Z : aléas naturels prédictifs - θ : éléments incertains par ignorance (paramètres , modèles, etc...) Si θ est supposé connu → cas d'information parfaite Introduction du Regret (θ ou Z) Si aθ est tel que W(aθ,θ) = InfΘ W(a,θ) On appelle regret le coût RE(a,θ) = W(a,θ) - W(aθ,θ) RE(a,θ) est interprété comme la Valeur de l'information θ Introduction des Conjuguées Naturelles Arbre de Décision et Analyse Extensive (Raiffa et Schlaifer) Decision e Echant. y e∈E y∈Y Decision a a∈A COUPURE Prédictif Z Coût W(e,a,Z) Incertitude θ θ∈Θ Décision terminale ou intermédiaire ? Analyse bayesienne dite extensive (descente de l'arbre) Soit W(e,a,θ) = ∫W(e,a,z)[z|θ]dz Choix de a et calcul de W(e,y) = MinA ∫W(e,a,θ)[θ|y,e]dθ Puis Choix de e : MinE ∫W(e,y)[y|e]dy La coupure peut simplifier l'analyse par le choix de : Fonctions de coût instrumentales (ex. quadratiques....) arbitraires (?) 1000 1200 EXEMPLE : La Digue de Jacquou, producteur de canards (premier cas : information parfaite : θ connu) Jacquou (2010) 200 400 600 W 800 c/kd = 0.02 0.001 0 50 100 150 a a : niveau de la digue --> débit max du CEOU Z > 0 → ρexp(-ρz) W(a,z) = c.a+k.d.I[z>a](z) 200 250 300 m=1/ρ W(a,ρ) = c.a +k.d.e-ρa /ρ 1000 Distributions a posterior de m 800 Coût a posteriori Rπ(a) 0.000 200 400 0.002 600 WEx 0.004 PPip 0.006 1200 0.008 1400 Les distributions a posteriori de Jacquou 0 20 40 60 80 100 0 50 100 m 150 200 250 300 a Décision de Bayes pour un prior sur m : π(m) = dunif(0,100) Information : max(y)=104 m3/s ou moyenne(y) = 30 m3/s δ(moyenne(y)) = 127 m3/s δ(max(y)) = 119 m3/s Si coût linéaire par morceaux (avec ratio = A/(A+B) = 0,80), δ(moyenne(y)) = 140 m3/s Différence entre fonction de risque et coût a posteriori Théorème de représentation (de Finetti, Savage, Hewitt) (1937 , 1955) 1968 2007 2060 Hypothèse de Jacquou et Occurrence des événements Echangeabilité des observables annuels : Invariance de [y1,y2,..y2007,z2008...z2060] par permutations Remplace l'hypothèse I I D des fréquentistes Enonçé du Théorème : La séquence est échangeable si et seulement si : ∀ ni, nj , Il existe θ et π(θ) tels que : [y1,y2,..yni,z2008...znj] = ∫ (∏if(yi|θ)).(∏jf(zj|θ)).π(θ)dθ Interprétation du Théorème de représentation Par le bayesien Jacquou f(y ou z|θ) → son modèle : ρe−ρy(ou z) et π(.) → son prior π(ρ) [y1,y2,..y2007,z2008...z2060] = ∫ (∏ iρe−ρyi).(∏ jρe-ρzj).π(ρ)dρ Mais [z2008 ,...z2060|y1,...y2007] = [y1,...z2060] / [y1,..y2007] [z2008,...z2060|y1968,..,y2007]=∫(∏jρe-ρzj})πy(ρ)dρ avec πy(ρ) = π(ρ)∗(∏ρe-ρyi) / [y₁₉₆₈,...y₂₀₀₇] C'est la formule de Bayes Conséquences de l'attitude bayésienne de Jacquou 1 La règle de Bayes : corrolaire de l'échangeabilité des observables 2 Concept bayesien de probabilité prédictive Distribution prédictive: Prpred(Z<z|y) = ∫F(z|θ))πy(θ)dθ Soit P = Prpred(Z ≥ z0) = ∫z0dz ∫f(z|θ)πy(θ)dθ Temps de retour τ : Prpred(intervalle τ=n) = ∫(1-e-ρy₀)ⁿ⁻¹e-ρy₀πy(ρ)dρ Durée de retour : Epred (τ) = ∫eρy₀ πy(ρ)dρ ≠ T = 1/P 3 Importance du raisonnement conditionnel bayesien - critère conditionnel à l'info existante : Rπ(y)(δ), - plutôt que critère moyen | info hypothètique : r(δ,θ) 4 Retour au Paradoxe de Stein (Efron) Problème, soit : Y∈ R(k) ~ N(k)(θ,σ2I) θ∈ R(k) σ2 connu Estimation bayesienne des θ avec priors échangeables : [θj] = N1(µ, v2) et coût aggrégé : Solution du Coût a posteriori minimal : Si maintenant on souhaite estimer, en fréquentiste, µ, 1/(σ2+v2) par des estimations sans biais, alors on obtient l'estimateur de James Stein âj=1,,,,k = δJS C'est la méthode dite « Bayes empirique » (Efron) L'échangeabilité des θ et sa représentation bayesienne éclairent le « paradoxe de Stein » IMPORTANCE DE L'ECHANGEABILITE EN MODELISATION BAYESIENNE → Modèles hiérarchiques, couches latentes, etc... LES CONCEPTS DECISIONNELS EN PREVISION METEO - Etats de la nature : Aléas naturels réels Ζ ou séquences d'aléas. Mais coupure de l'arbre car : - les Décisions sont vues comme des distributions Q sur Z conception qui ouvre la porte aux prévisions d'ensembles 2 D. Brier (1950) introduit Score Brier (1950) → Scores : S(Q,z) le =∑ ∑ (Q – E ) /n j i ij ij où Eij = 1 si zi ∈ classe i, = 0 sinon En continu S(Q,z) = CRPS = ∫{Q(t) – H(t-z)}2dt Score : S(Q,z) = r(δ,z) = fonction de risque de δ = Q L'interprétation décisionnelle ne date que de 2005 (Gneiting et Raftery) et Dawid (2006) Problèmes spécifiques de la prévision interprétée comme décision statistique - interprétation et élicitation du prior (distributions historiques) - calibration de la prévision (le fréquentiste intervient par la bande) - robustesse du choix d'un score particulier INVENTAIRE DES SCORES SELON GNEITING ET RAFTERY Notation : S(Q,P) = ∫ S(Q,θ)dP(θ) Score → Fonction de Coût W(Q,P) = S(Q,P) Score propre : S(P,P) ≥ S(Q,P) avec égalité ssi Q = P Entropie : H(P) := S(P, P) Divergence : D(Q,P) := S(Q,P) - H(P) EXEMPLES Score logarithmique S(Q,z) = - log(q(z)) H est l'entropie de Shannon D est la divergence de Kullback Leibler Score quadratique S(Q,z) = 2q(z) - ||q(z||2 H = ||p(z||2 D est la distance d'Hellinger Les Scores de quantiles (un pas vers des « scores terminaux ») Θ = {θ1,...,θk} niveaux (∈[0,1]) de quantiles de Z prédictifs Distribution Q représentée par {a1,...,ak} Soit S(a1,...,ak, z) = ∑i {θi.s(ai)+(s(z) – s(ai)).I(z < ai)} Score : S(a1,...,ak, P) =∫ S(a1,...,ak, z)dP(z) Choix de Q prédictive vu comme Choix bayesien de modèle (selon Raftery) Q1 ~ L(y|H1) Q2 ~ L(y|H2) Log (rapport de Bayes) = Log(L2) – Log(L1) = diff. de scores logarit. étendu aux vraisemblances marginales ∫ L(y|θ,Hj).[θ]dθ ( Bayesian Model Averaging – BMA en «prévisions d'ensemble») Importance des Scores au delà de la Prévision - lien entre coûts terminaux et coûts instrumentaux - permet les études de robustesse de la coupure Ce n'est qu'en 2006 que DAWID a rassemblé les problêmes de prévision, de planification d'experience sous l'angle décisionnel, cependant dans un contexte théorique et même abstrait. Pour DAWID, un problème de décision (Y, A, W) est posé par : - Un espace d'observables (outcomes) Y, - un espace d'actions A,(choix d'un modèle probabiliste Q) - une fonction de pertes L(y,a), ≡ Score Propre S(aQ,y) Retour au concret avec Les plans d'expériences bayesiens ? Plans d'expérience bayesiens et Décisions statistiques 1 – Avant la « révolution » du Calcul Bayesien (Raiffa et Schlaifer, de Groot,etc...) Inventaire de Chaloner et Verdinelli (1995) 2 – Après la « révolution » du Calcul Bayesien (MCMC, particules, optimisation, etc...) Müller (1999) : Simulation-based Optimal Design Bayesian Statistics. n°6 Parent et al. (2008) : Investigations particulaires pour l'inference statistiques et l'optimisation de plans d'expériences. Journal de la SfdS. n°149 L'ANALYSE DECISIONNELLE BAYESIENNE DES PLANS D'EXPERIENCE selon Chaloner et Verdinelli (1995) Elaguage des branches prédictives et Maximisation de l'Utilité Ū(e)=∫[y|e]dy∫U(e,ây,θ)[θ|y,e]dθ Hypothèse : Utilité additive vis à vis du coût d'expérimentation Lindley (1956) → Modèles et hypothèses notamment asymptotiques → approximation de Berger (1985) 1 [θ|e,y] ∝ exp(-( ).tr((I(θ,e)+R)(θ-θ)(θ-θ)T) 2 I(θ,e) désigne la matrice d'Information de Fisher R matrice de précision a priori sur θ PLANS D'EXPERIENCE (suite) Critère K L + Norm. Asympt. → Plan D-Optimal : UD(e) = ∫ log[det(I(θ,e)+R)][θ]dθ maximal Si a ∈ Θ (estimation) et Coût : W = (a-θ)TA(a-θ) → Plan A-Optimal : UA = - ∫ tr[A.I(θ,e)+R)-1][θ]dθ maximal … Autres variétés alphabétiques : A', C, G, etc... Problème de la Robustesse de la Fonction de Coût Remontée de l'arbre : θ → ϕ = g(θ) Autres aspects de la robustesse du modèle décisionnel ? (notamment celle de l'approximation asymptotique de Berger) RETOUR A JACQUOU place à l'imaginaire Jacquou investit dans les couveuses de canards gras ? Y, Z : durée (jours) avant éclosion d'un œuf de cane Distribution de Weibull [y|α, β, ρ] = βρ(y −α)β−1 .exp( -ρ(y −α)β) y,z ≥ α Simplification β = 1 [y|α, ρ] = ρ .exp( -ρ(y −α)) Exponentielle bornée inf. Problématique de Jacquou La qualité de production ↔ durée de couvaison : Le foie du caneton considéré comme impropre si Z > a Doit il utiliser ou non les réglages standard (température, hygrométrie) ? Il investit dans une couveuse (n œufs) qu'il règle autrement: α, ρ sont les paramètres incertains de ce règlage personnel Analyse d'un n-échantillon indépendant de y (information gracieusement offerte par le conseiller de Jacquou) ym = min(y1, y2,...,yn) S = ∑(yi-ym) exhaustifs pour {α,ρ } Pas de matrice d'information I ET ym est « super-efficace » Conditionnelles complètes : (priors peu informatifs) [α|ρ,y] = nρ.exp( nρ(α – ym)) α ≤ ym [ρ|α ,y] = dgamma(ρ, n-1, rate = ∑(yi-α)) « Marginale a posteriori » : La distribution marginale de y1, y2,...,yn , impose des priors propres GIBBS (10000 tirages dont 3000 supposés stabilisés) DISTRIBUTIONS A POSTERIORI (MCMC GIBBS) Sur 2 échantillons d'une même couveuse n = 6 et 12 ( α0 = 25 , µ0 = 1/ρ0 = 3, Q0=31.9 ) Histogram of alphaX 2.0 1.0 Density 1.0 0.0 0.5 0.0 Density 1.5 3.0 Histogram of alphaX 20 21 22 23 24 20 25 21 22 24 25 alphaX alphaX Histogram of muX 0.00 0.2 0.0 0.10 Density 0.20 0.30 0.4 Histogram of muX Density 23 0 5 10 muX 15 0 5 10 15 muX moyenne Ec_type Q_2.5% Q_50% Q_97.5% moyenne Ec_type Q_2.5% Q_50% Q_97.5% α 24.97 0.374 23.95 25.09 25.29 24.51 1.05 21.68 24.84 25.3 µ 3.88 1.295 2.11 3.64 6.97 4.04 2.86 1.41 3.29 11.2 Expression des conséquences pour Jacquou Deux fonctions de coût possibles parmi d'autres (réglages standards : α0 , ρ 0 ) 1 – Coupure au niveau des paramètres : estimation des écarts : ∆α = α−α0 , ∆ρ = ρ −ρ 0 fonction de coût (f. c.) instrumentale 2 – Prise en compte des conséquences terminales en termes de distribution prédictive de Z Seuil de décision de mise au rebût a , Jacquou est sensibilisé à la fréquence des rejets : f.c. : W( a, α, ρ) = ca + k.Pr(z > a|α, ρ) = ca + k.exp( -ρ( a− α)) optimum en information parfaite : âα,ρ = α + log(kρ/c)/ρ f. c. égale au regret approché : WZ = REW ≈ cρ(âα,ρ – a0 )2 où a0 = α0 + log(kρ 0 /c)/ρ 0 « Coûts prédictifs d'échantillons WA(e) et WZ(e)» comparés Hypothèse simplificatrice : cas de référence α0, ρ0 supposés connus α0=25, ρ0=0.33, k = 10 et Z0 (décile sup.) = 31.9, A = matrix(c(1,0,0,1),2,2) (Calculs particulaires et Importance Sampling) (10000 – 1000) (ICWZ, ICWA : Intervalles intercentiles relatifs) Taille : n 30 20 10 WZ 117.4 87.7 87.6 n = 30 ICWZ 0.95 0.50 0.30 WA 632.7 250.3 42.8 ICWA A=c(5,0,0,1) 632.9 2.35 A=c(1,0,0,5) 3162 2.31 2.35 2,54 3.28 Exemple partiel : pas de coût d'expérimentation→pas d'optimisation Problèmes avec le critère A ELEMENTS DE CONCLUSION Robustesse du modèle Décisionnel Statistique Bayesien ? Au delà des aspects philosophiques du comportement du décideur devant l'incertitude, la théorie de la décision statistique est un modèle dont la robustesse doit être jugée vis à vis du Réel et des Besoins de la Pratique - réalisme des fonctions de coût ou utilités, - réalisme de la coupure, - réalisme du modèle probabiliste des Y et Z, - prise en compte réaliste des contraintes du client. Attention aux choix basés sur des arguments mathématiques ou de commodité (Au delà même des préférences « fréquentistes - bayesiennes » mentionnées notamment par Halphen déjà en 1947)