Introduction au traitement des incertitudes dans les codes numeriques

Transcription

Introduction au traitement des incertitudes
• Problème général :
Comment modéliser les incertitudes et leur propagation dans les modèles
physiques ou numériques ?
Comment estimer (quantifier) la dispersion de la sortie d’un code ou d’une
expérience en fonction de la dispersion des paramètres d’entrée ?
Comment estimer (quantifier) la sensibilité de la sortie d’un code ou d’une
expérience vis-à-vis d’un paramètre d’entrée particulier ?
• But de l’exposé : faire un rapide survol de l’état de l’art.
1
✬
Étape B
✩
✬
Étape A
Quantification
des sources
✫
✻
Étape C
✲
Tendances centrales,
Entrées X
✪
✫
✤
Étape C’
d’incertitudes
✲
Y = f (X)
Sortie Y
probabilité de
dépassement de Y
✪
✫
✜
Analyse de sensibilité
✛
Approche variationnelle locale
✣
Approche stochastique globale
2
✩
Propagation
Choix du modèle
d’incertitudes
Loi de X
✬
✩
✢
✪
✬
Étape B
✩
✬
Étape A
Quantification
des sources
✫
✻
Étape C
✲
Entrées X
✪
✫
✤
Étape C’
d’incertitudes
✲
Y = f (X)
Sortie Y
probabilité de
dépassement de Y
✪
✫
✜
✛
✣
3
✩
Propagation
Choix du modèle
d’incertitudes
Loi de X
✬
✩
✢
✪
Partie I. Les sources d’incertitudes
• Deux types d’entrée ”incertaines” :
- variables stochastiques : ces variables ont une variabilité naturelle résultant de
phénomènes aléatoires (typiquement, une quantité soumise à des fluctuations dans
un procédé de fabrication).
- variables épistémiques : ces variables possèdent une valeur mais elle nous est
inconnue, à cause d’un manque de connaissance (typiquement, une constante
d’une loi physique).
Traitement des incertitudes
4
Sources d’incertitudes
• Modélisation par des variables aléatoires.
• Les variables d’entrées sont traitées comme des variables aléatoires, de lois de
probabilités données.
• La loi de probabilité d’une variable aléatoire réelle X caractérise la probabilité
P(X ∈ [a, b]) pour tout a < b.
Dans le cas d’une variable aléatoire continue (prend ses valeurs sur R ou un
intervalle de R) : la loi est donnée par la densité (p(x))x∈R
Z b
P(X ∈ [a, b]) =
p(x)dx,
P(X ∈ [x, x + δx]) ≃ p(x) δx
a
0.8
0.8
0.6
0.3
X
X
0.6
0.4
p (x)
1
p (x)
X
p (x)
0.5
1
0.4
0.4
0.2
0.2
0.2
0.1
0
−0.5
0
0.5
x
1
uniforme
1.5
0
0
1
2
3
x
exponentielle
5
4
5
0
−5
0
x
5
gaussienne
• Modélisation par des variables aléatoires.
• Les variables d’entrées sont traitées comme des variables aléatoires, de lois de
probabilités données.
• Pour déterminer la densité de la loi d’une variable aléatoire :
- méthodes non-paramétriques à noyaux,
- méthodes paramétriques d’ajustement à une loi analytique,
- méthodes entropiques.
• Extensions : modèles hiérarchiques (classiques en analyse bayésienne).
• La modélisation est basée sur la théorie des probabilités.
D’autres modélisations sont possibles; elles sont basées sur des théories de
l’incertain dédiées à l’information imprécise :
- distributions de possibilité, aussi appelées intervalles flous,
- intervalles aléatoires utilisant les fonctions de croyance de Dempster-Shafer.
Cf: T. Hastie, R. Tibshirani et J. Friedman, The Elements of Statistical Learning,
Springer, 2001.
6
• Méthodes à noyaux. Aussi appelée méthode de Parzen-Rozenblatt.
• Méthode non-paramétrique d’estimation de la densité d’une variable aléatoire.
- se base sur un échantillon (xi )i=1,...,n de réalisations indépendantes de la variable
(on suppose la variable d’entrée de dimension un).
- nécessite un nombre suffisant de données.
- permet d’estimer la densité en tout point du support.
- généralise la méthode d’estimation par un histogramme.
• Formule
n
1 X x − xi K
p̂(x) =
nh i=1
h
K est le noyau (souvent gaussien), h la fenêtre (régit le niveau de lissage).
7
• Exemple. Soit un échantillon de 200 données tirées selon une loi gaussienne :
0.5
0.4
0.3
density of X
histogram of X
0.4
0.3
0.2
0.1
0.1
0
−4
0.2
−2
0
x
2
4
0
−4
histogramme
−2
0
x
2
4
méthode à noyaux
• Résultats :
- Il n’existe pas d’estimateur non-paramétrique qui converge plus vite que
l’estimateur à noyaux (avec le choix de la fenêtre h ≃ n−1/5 ).
- La vitesse de convergence (n−4/5 pour le risque quadratique) est plus faible que
la vitesse typique des méthodes paramétriques (n−1 , voire plus rapide encore).
8
• Méthodes d’ajustement à une loi analytique.
Etant donné un échantillon (xi )i=1,...,n de réalisations indépendantes de la
variable.
On cherche à ajuster les paramètres d’une famille paramétrique de lois de
probabilités aux données.
Exemple : famille de loi gaussiennes de densités de probabilités
(x − µ)2 1
exp −
pµ,σ (x) = √
2
2σ 2
2πσ
(gaussienne de moyenne µ et de variance σ 2 ).
Nécessite un peu moins de données (xi )i=1,...,n que la méthode à noyaux.
9
• Méthode des moments : on ajuste les paramètres de la loi analytique pour que
ses premiers moments correspondent aux moments empiriques de l’échantillon.
Exemple :
n
n
X
1
1X
xi ,
σ̂ 2 =
(xi − µ̂)2
µ̂ =
n i=1
n i=1
0.5
0.5
0.4
0.4
density of X
histogram of X
Exemple. Soit un échantillon de 200 données tirées selon une loi gaussienne :
0.3
0.2
0.1
0
−4
0.3
0.2
0.1
−2
0
x
2
4
0
−4
histogramme
−2
0
x
2
4
méthode des moments
Résultat : risque quadratique converge en 1/n si la famille paramétrique contient
la loi originale.
10
• Méthode du maximum de vraisemblance : on ajuste les paramètres θ de la loi
analytique pour que la log-vraisemblance soit maximale (en θ):
Lx (θ) =
n
Y
pθ (xi ),
ln Lx (θ) =
n
X
ln pθ (xi )
i=1
i=1
- Lx (θ) est la vraisemblance des données x = (xi )i=1,...,n sachant le paramètre θ.
Par le théorème de Bayes, c’est aussi la vraisemblance du paramètre θ sachant les
données x (sans a priori sur θ).
- L’estimateur du maximum de vraisemblance peut exister et être unique, ne pas
être unique, ou ne pas exister.
- Dans les cas standards, il converge, son risque quadratique est en 1/n, il est
asymptotiquement normal, asymptotiquement efficace (i.e., on ne peut pas faire
mieux, asymptotiquement).
- Exemple : famille gaussienne θ = (µ, σ 2 ):
n
1X
xi ,
µ̂ =
n i=1
n
1X
σ̂ =
(xi − µ̂)2
n i=1
2
- Possibilité de prendre en compte un a priori (avis d’expert ou étude antérieure)
sur θ (→ méthode du maximum a posteriori).
11
• On termine par un test de qualité d’ajustement, qui permet de dire si les
données (xi )i=1,...,n sont compatibles avec la famille paramétrique pθ .
Attention avec les tests : la réponse du test est ”je ne peux pas rejeter l’hypothèse
que les données sont compatibles avec la famille de lois” ou ”je rejette l’hypothèse
que les données sont compatibles avec la famille de lois”.
• Le choix de la famille est un jugement d’expert; peut-être motivée par des
considérations théoriques, un théorème central limite pour justifier une gaussienne,
un principe d’entropie, ...
12
• Méthode du maximum d’entropie.
On choisit la loi (densité p(x)) qui maximise l’entropie (le manque d’information)
Z
E(p) = − p(x) ln p(x)dx
étant données certaines informations (moyenne, variance, intervalles de définition).
Exemples :
- la loi qui maximise l’entropie d’une variable aléatoire de moyenne et de variance
prescrites est une loi gaussienne.
- la loi qui maximise l’entropie d’une variable aléatoire à valeurs dans un intervalle
prescrit est une loi uniforme.
- la loi qui maximise l’entropie d’une variable aléatoire à valeurs positives et à
moyenne prescrite est une loi exponentielle.
Joue un rôle dans les méthodes bayésiennes pour définir les lois a priori.
13
✩
✬
✬
Étape B
✲
✻
d’incertitudes
✲
Y = f (X)
d’incertitudes
✩
Propagation
Choix du modèle
des sources
✫
Étape C
Étape A
Quantification
Loi de X
✬
✩
Entrées X
probabilité de
✪
✫
✤
dépassement de Y
✪
✫
✜
Sortie Y
Étape C’
✪
✛
✣
14
✢
Partie II. Propagation d’incertitudes
• Contexte : code de calcul informatique ou expérience modélisé par
Y = f (X)
avec
Y =variable de sortie
X = (Xi )i=1,...,d variables d’entrée
f = boı̂te noire déterministe
On se donne : la loi de X.
• But : estimation d’une quantité
E[ψ(Y )]
avec une barre d’erreur et le minimum de simulations/expériences.
• Exemples (pour Y à valeurs réelles) :
ψ(y) = y → moyenne de Y , i.e. E[Y ]
ψ(y) = y 2 → variance de Y , i.e. Var(Y ) = E[(Y − E[Y ])2 ] = E[Y 2 ] − E[Y ]2
ψ(y) = 1[a,∞) (y) → probabilité de dépasser le seuil a, i.e. P(Y ≥ a).
15
Propagation d’incertitudes
Méthodes de quadrature
La quantité à estimer est une intégrale d-dimensionnelle :
Z
I = E[ψ(Y )] = E[ψ(f (X))] =
ψ(f (x))p(x)dx
Rd
Les méthodes de quadrature réclament
- x → ψ(f (x)) régulier,
- une dimension d pas trop grande.
Méthodes très gourmandes en nombres d’appels au code.
Q
Si p(x) = di=1 p0 (xi ), alors on peut appliquer une méthode de quadrature
gaussienne avec grille pleine de nd points :
Iˆ =
n
X
j1 =1
···
n
X
jd =1
wj1 · · · wjd ψ(f (xj1 , . . . , xjd ))
avec (wj )j=1,...,n poids et (xj )j=1,...,n nœuds de quadrature gaussienne associée à
la densité p0 .
Il existe aussi des méthodes de quadrature avec des grilles creuses (Smolyak).
16
Développements de Taylor - cumul quadratique
- Rapide, analytique, permet de calculer approximativement des tendances
centrales de la sortie (moyenne, variance).
- Convenable pour des petites variations des paramètres d’entrée et un modèle
régulier.
- Approche ”locale”. En général, pas de contrôle de l’erreur.
- Exemple : on veut estimer E[Y ] et Var(Y ) avec Xi décorrélées, E[Xi ] = µi et
Var(Xi ) = σi2 connus, σi2 petits. Alors on a juste besoin de f (µ) et ∇f (µ)
E[Y ] ≃ f (µ),
Var(Y ) ≃
d
X
∂xi f (µ)2 σi2
i=1
Preuve : Y = f (µ) + ∇f (µ) · (X − µ) + · · · .
Calcul du gradient par différences finies, ou par différentiation automatique, ou
par calcul adjoint.
17
Méthode de Monte Carlo
On tire un n-échantillon (X (k) )k=1,...,n (des réalisations indépendantes de X).
Estimateur de I = E[ψ(Y )], Y = f (X) :
n
X
1
Iˆn =
ψ(f (X (k) ))
n
k=1
Estimation non-biaisée :
E[Iˆn ] = I
Convergence :
n→∞
Iˆn −→ I
pour tout n
avec probabilité 1
Erreur (risque quadratique) :
1
2
ˆ
E (In − I) = Var(Iˆn ) = Var(ψ(Y ))
n
Erreur relative :
2 1/2
ˆ
E (In − I)
1 Var(ψ(Y ))1/2
= √
I
n E[ψ(Y )]
Avantages :
1) possibilité d’obtenir des intervalles de confiance,
2) pas de régularité requise sur f , ψ,
3) vitesse de convergence indépendante de la dimension (mais lente).
18
Méthodes de Monte Carlo accéléré
• Techniques de réduction de variance
√
On cherche à réduire la constante dans l’erreur relative (qui reste en 1/ n).
- Echantillonnage préférentiel (importance sampling) : on tire les X (k) selon une
densité ”biaisée” qui favorise les valeurs de X dans la zone d’importance.
- Variables de contrôle : on dispose d’un modèle réduit et on travaille sur la
différence.
- Stratification : on force l’échantillon à respecter exactement des proportions
imposées dans certaines ”strates”.
• Suite à discrépance faible (quasi Monte Carlo).
√
On cherche à diminuer le facteur 1/ n de l’erreur.
Principe : On tire l’échantillon de manière moins aléatoire que Monte Carlo, pour
combler les trous qui se forment naturellement dans un échantillon aléatoire.
- réduit l’erreur si x → ψ(f (x)) a un peu de régularité; on peut aller jusqu’à une
erreur en Cd (log n)d/2 /n,
- marche en dimension pas trop grande,
- représente un intermédiaire entre Monte Carlo et quadrature usuelle,
- ne donne pas d’intervalle de confiance.
Cf: R. Y. Rubinstein, Simulation and the Monte Carlo Method, Wiley, 1981.
19
Estimation particulière : probabilité de défaillance
On cherche à estimer
ps = P(Y ≥ ys )
avec ys grand si bien que ps ≪ 1.
• Possible par Monte Carlo :
n
1X
1f (X (k) )≥ys
p̂s =
n
k=1
Erreur relative :
2 1/2
E[(p̂s − ps ) ]
ps
√
1 − ps
= √ √
ps n
Il faut donc nps > 1 pour avoir une erreur relative plus petite que 1.
֒→ Utiliser une technique de réduction de variance.
20
Probabilité à évaluer :
ps = P(Y ≥ ys ) = P(X ∈ F ) =
Z
F = {x ∈ Rd , f (x) ≥ ys }
p(x)dx,
F
• Méthode FORM-SORM, analytique mais approchée, sans contrôle d’erreur.
• on suppose que les Xi sont indépendants et de loi gaussienne de moyenne zéro et
de variance un (ou on se ramène à ce cas par transformation isoprobabiliste).
• on trouve par optimisation (sous contrainte) le point xs de dépassement de seuil
(i.e. f (xs ) = ys ) le plus proche de l’origine.
• on approche la surface de défaillance {x ∈ Rd , f (x) = ys } par une surface
R
régulière F̂ qui permette de faire un calcul analytique p̂s = F̂ p(x)dx :
- un hyperplan pour FORM
5
(et alors p̂s = Φ(−|xs |)),
f(x)>y
4 FORM
- une forme quadratique pour SORM
s
3
(et alors p̂s ≃Breitung’s formula).
x
2
1
Cf: O. Ditlevsen et H.O. Madsen,
s
f(x)<y
s
0
Structural reliability methods, Wiley, 1996.
SORM
21
0
2
4
6
✩
✬
✬
Étape B
Étape A
Quantification
✲
✻
✪
✫
✤
Étape C’
d’incertitudes
✲
Entrées X
Sortie Y
✩
Propagation
Y = f (X)
d’incertitudes
✫
Étape C
Choix du modèle
des sources
Loi de X
✬
✩
probabilité de
dépassement de Y
✪
✫
✜
✪
✛
✣
22
✢
Partie III. Analyse de sensibilité
• Contexte : code de calcul informatique ou expérience modélisé par
Y = f (X)
avec
Y =variable de sortie réelle
X = (X1 , ..., Xd ) variables d’entrée
f = boı̂te noire déterministe
• But : expliquer la variabilité de la réponse Y en fonction des Xi .
• Objectifs principaux :
- améliorer la compréhension du phénomène.
- réduire l’incertitude d’un modèle, en identifiant les variables les plus influentes
dans un domaine de valeurs de la sortie (→ il devient prioritaire de réduire la
variabilité de ces entrées).
- simplifier ou alléger le modèle, en fixant les variables les moins influentes.
On se donne : la loi des Xi (gaussienne, uniforme,...).
23
But de l’analyse de sensibilité :
- qualitative : identifier les paramètres importants parmi les nombreux paramètres
(screening ou criblage).
- quantitative : déterminer la part de la variance de la sortie Y due à une variable
d’entrée ou un sous-ensemble de variables d’entrée Xi .
Références :
A. Saltelli, K. Chan et E. M. Scott, Sensitivity analysis, Wiley, 2001
A. Saltelli et S. Tarantola, Sensivity analysis in practice, Wiley, 2004
24
Criblage
• Un modèle comportant beaucoup de variables d’entrée est difficile à explorer.
Souvent, seulement quelques entrées sont influentes.
Objectif : identifier rapidement les quelques h entrées influentes parmi les d
entrées, avec n calculs.
• Méthodes possibles :
- méthode OAT (One factor At a Time) : calcul de gradient avec n = d + 1.
Rapide mais dangereux.
- méthode de Morris avec n = R(d + 1). Permet de classer les entrées en trois
groupes selon leurs effets (effets négligeables, effets linéaires et sans interaction,
effets non-linéaires et/ou avec interactions).
- criblage par groupes, bifurcation séquentielle (avec des hypothèses de monotonie)
avec n < d et h ≪ d. Permet d’identifier les quelques h paramètres importants en
très grande dimension.
25
Indices de sensibilité pour un modèle linéaire
• Soit le modèle linéaire
Y =f (X1 , ..., Xd ) = α0 +
d
X
αi X i
i=1
avec Xi ∈ R décorrélés.
• La variance de Y s’écrit
Var(Y ) =
d
X
α2i Var(Xi )
i=1
La part de variance de Y due à Xi est α2i Var(Xi ).
→ On obtient une décomposition de la variance de Y en fonction des Xi .
• La sensibilité de Y à Xi est quantifiée par l’indice SRC (Standardized
Regression Coefficient) :
α2i Var(Xi )
SRCi =
Var(Y )
26
• Avec le modèle linéaire Y = α0 +
Pd
i=1
αi X i ,
α2i Var(Xi )
SRCi =
Var(Y )
de manière équivalente :
Cov(Xi , Y )2
SRCi =
Var(Xi )Var(Y )
• Estimation :
- estimation des αi (OAT différences finies, régression linéaire).
- Monte Carlo : on tire X (k) , on calcule Y (k) = f (X (k) ), et on estime
2
Pn
(k)
(k)
− X̂i )(Y
− Ŷ )
k=1 (Xi
di= P
,
SRC
Pn
(k)
n
(k)
2
2
− Ŷ )
− X̂i )
k=1 (Y
k=1 (Xi
n
1 X (k)
Xi ,
X̂i =
n
k=1
n
1 X (k)
Ŷ =
Y ,
n
k=1
27
Indices de sensibilité pour un modèle monotone
• Soit le modèle monotone
Y =f (X1 , ..., Xd )
avec Xi ∈ R décorrélés et f monotone.
• Coefficient de corrélation basé sur les rangs :
- On tire avec MC X (k) et on calcule Y (k) = f (X (k) ), k = 1, . . . , n.
(k)
- A chaque k on associe son rang rY selon la valeur Y (k) (rang 1 attribué à la
(k)
plus petite valeur, rang n associé à la plus grande valeur) et son rang rXi selon la
(k)
valeur de Xi .
- La sensibilité de Y à Xi est quantifiée par l’indice SRRC (Standardized
Regression Rank Coefficient) qui est le SRC pour les rangs :
Pn
(k)
(k)
n+1
n+1 2
k=1 (rXi − 2 )(rY − 2 )
\
SRRCi = Pn
Pn
(k)
(k)
n+1 2
n+1 2
(r
)
)
−
(r
−
Y
X
k=1
k=1
2
2
i
28
Indices de sensibilité pour un modèle arbitraire (Sobol)
• Lorsqu’il n’est pas possible de faire d’hypothèse sur le modèle (cas général), on
définit des indices de sensibilité à partir d’une décomposition de la variance de Y .
• Soit le modèle Y = f (X1 , ..., Xd ) avec Xi ∈ R et Xi ⊥ Xj , i 6= j.
• Le modèle peut se décomposer (Sobol) en
f (X1 , ..., Xd ) = f0 +
d
X
fi (Xi ) +
i=1
avec
X
1≤i<j≤d
fij (Xi , Xj ) + · · · + f1...d (X1 , ..., Xd )
E[fi1 ...is (Xi1 , ..., Xis )fj1 ...jt (Xj1 , ..., Xjt )] = 0 si (i1 ...is ) 6= (j1 ...jt )
En fait, un seul choix possible :
f0
=
E[Y ]
fi (Xi )
=
E[Y |Xi ] − f0
fij (Xi , Xj )
=
E[Y |Xi , Xj ] − fi (Xi ) − fj (Xj ) − f0
..
.
29
En utilisant cette décomposition, la variance de Y se décompose en :
Var(Y ) = D =
d
X
Di +
i=1
X
1≤i<j≤p
Dij + · · · + D1...p
où
Di
=
Var(E[Y |Xi ])
Dij
=
Var(E[Y |Xi , Xj ] − E[Y |Xi ] − E[Y |Xj ])
• Indices de sensibilité :
Si =
Di
,
D
Sij =
Dij
D
avec
Si ≥ 0 ,
Sij ≥ 0 ,
et
d
X
i=1
Si +
X
1≤i<j≤p
Sij + · · · + S1...p = 1
• Si est la sensibilité au 1er ordre de Y par rapport à la variable Xi (la part de la
variance de Y expliquée par les fluctuations de Xi )
• Sij est la sensibilité de Y par rapport à l’interaction des variables Xi et Xj (la
part de la variance Y expliquée par l’interaction de Xi et Xj ) .
30
• Le nombre d’indices de sensibilité 2d − 1 devient vite grand avec d.
On introduit alors l’indice de sensibilité total
ST i = somme de tous les indices relatifs à Xi
qui exprime la sensibilité de Y à Xi sous toutes ses formes, i.e. à Xi seule et en
interaction avec d’autres variables.
On donne en général l’indice du premier ordre Si et l’indice total ST i .
- Si ST i petit : la variable Xi a des effets négligeables,
- Si Si grand : la variable Xi a des effets propres importants,
- Si Si petit et ST i grand : la variable Xi a des effets importants en interaction
avec d’autres variables.
31
• Méthodes d’estimation des indices de Sobol.
• Méthodes particulières :
- Mc Kay
- FAST (Fourier Amplitude Sensitivity Test)
• Méthode de Sobol
→ basée sur des estimations de Monte Carlo,
→ des améliorations existent (avec des techniques de réduction de variance) :
- échantillonnage stratifié,
- échantillonnage par plans space-filling (Hypercubes Latins),
- suites à discrépance faible (suites de Sobol LPτ ).
• Estimations gourmandes en nombre d’appels.
֒→ Utilisation d’un métamodèle (en particulier, polynômes de chaos). Mais on
estime alors la sensibilité du métamodèle.
32
• Questions complémentaires (largement ouvertes).
Incertitude de modèle :
Que deviennent les indices de sensibilité estimés si le modèle change (mutation) ?
7→ quelques résultats sur quelques modèles de mutation (additifs).
Comment prendre en compte, dans les résultats de sensibilité, l’utilisation d’un
modèle simplifié ?
7→ pour l’estimation Monte Carlo des indices, pour des approches multi-fidélité.
Modèles à entrées corrélées :
Comment réaliser (interpréter) une analyse de sensibilité lorsque les variables
d’entrée ne sont pas indépendantes ?
7→ se ramener à des variables décorrélées.
Références :
A. Saltelli, K. Chan et E. M. Scott, Sensitivity analysis
A. Saltelli et S. Tarantola, Sensivity analysis in practice
33
Partie IV. Plans d’expériences et métamodèles
Planification d’expériences : Mise au point d’une suite d’expériences (de
simulations numériques) en fonction d’un but :
- criblage (détermination des paramètres d’entrée importants)
- étude quantitative de l’influence des paramètres d’entrée
- construction d’une surface de réponse, optimisation, ...
Référence :
J. J. Droesbeke, J. Fine et G. Saporta, Plans d’expériences, application à
l’entreprise.
Ici : construction d’un métamodèle (ou surface de réponse).
34
Métamodèles et plans
Type de métamodèles (fonction fr destinée à approcher la fonction f ) :
• Polynômes
• Splines (fonctions définies par morceaux par des polynômes)
• Modèles linéaires généralisés
• Polynômes de chaos
• Krigeage (la fonction f est représentée comme une réalisation d’un processus
gaussien; utilise la théorie des processus gaussiens)
• Réseaux de neurones (optimisés par méthodes d’apprentissage à des fins de
mémorisation et de généralisation).
mémorisation : le fait d’assimiler des exemples éventuellement nombreux,
généralisation : le fait d’être capable, grâce aux exemples appris, de traiter des
exemples distincts, encore non rencontrés, mais similaires.
• Machines à vecteurs de support (en anglais Support Vector Machine SVM) sont
destinées à résoudre des problèmes de discrimination (à l’origine, classifieur
linéaire).
֒→ Chaque méthode a un (des) plan(s) d’expériences approprié(s).
35
Plans pour des surfaces de réponse polynomiales
• Supposons X de dimension d à moyenne nulle. La ”vraie” fonction est :
Y = f (X) = β0 +
d
X
X
βj X j +
j=1
1≤i<j≤d
βij Xi Xj + · · ·
βj Xj : effet principal; βij Xi Xj : interaction d’ordre 2; etc.
Modèle polynomial (degré 1) :
fr (X) = b0 +
d
X
bj Xj
j=1
Modèle polynomial (degré 2) :
fr (X) = b0 +
d
X
j=1
bj Xj +
X
bij Xi Xj
1≤i<j≤d
• Résolution : une méthode est dite de résolution L si aucune interaction d’ordre
m n’est confondue avec des interactions d’ordre L − m − 1.
Résolution III : aucun effet principal (d’ordre 1) n’est confondu (aliasing) avec un
autre effet principal (mais un effet principal peut être confondu avec un effet
d’interaction d’ordre 2).
36
Plans pour des surfaces de réponse paramétriques
Pas de plan d’expérience universel !
Dépend de la forme de la surface de réponse et du domaine de variation (loi) des
entrées Xi .
Plusieurs sens d’optimalité sont possibles (minimiser la variance d’estimation des
coefficients du métamodèle, minimiser la variance de prédiction intégrée sur un
domaine).
Nécessité de valider sur des points de validation (et donc de construire la surface
de réponse avec seulement une partie des simulations/des expériences à
disposition, ou bien d’utiliser des méthodes de validation croisée).
Attention aux extrapolations.
37
Plans space-filling
Quand la forme de la surface n’est pas a priori connue (en particulier, pour des
surfaces de réponse non-paramétriques de type krigeage) : plans space-filling (pour
balayer le domaine d’intérêt).
• Typiquement hypercubes latins (HL) (domaine d’intérêt : hypercube) :
- Chaque facteur a le même nombre de niveaux (n).
- Chacun des niveaux est pris une fois et une seule par chaque facteur.
• Critères de sélection parmi les plans space-filling (xj )j=1,...,n :
- Remplissage (maximin) : indicateur Dmin = min1≤i6=j≤n d(xi , xj ) à maximiser.
- Indépendance des facteurs : déterminant R de la matrice de corrélation à
maximiser.
- Uniformité (discrépance) : distance à la répartition uniforme à minimiser;
discrépance L2 à la loi uniforme sur l’hypercube [0, 1]d :
d
Q
P
|x
−0.5|
|x
−0.5|
d
n
13
− n2 i=1 k=1 1 + ik 2
− ik 2
CL2 =
12
Qd Pn
|xjk −0.5|
|xik −xjk |
|xik −0.5|
1
+
−
+ n2 i,j=1 k=1 1 +
2
2
2
38
• Méthodes de sélection :
- Méthode exploratoire : On génère un grand nombre de plans et on retient le
meilleur selon le critère retenu.
- Méthodes évoluées : Il existe dans la littérature différentes heuristiques (recuit
simulé, algorithmes d’échanges) pour optimiser les plans selon le critère que l’on
souhaite.
֒→ on recommande souvent le critère maximin.
39
Polynômes de chaos
P
• Représentation de la solution Y = f (X) sous la forme d’une série j aj Φj (X)
construite grâce à une projection sur une base spectrale; les coefficients aj sont
calculés par le biais de projections.
R. Ghanem et P. Spanos, Stochastic finite elements: a spectral approach, Springer
Verlag, 1991. (Dover Publications, 2004).
40
• Polynôme de chaos (de Wiener).
Supposons que X = (Xi )i=1,...,d avec Xi variables aléatoires gaussiennes centrées
réduites indépendantes.
Les polynômes d’Hermite φ. sont orthonormaux:

 1 si (i1 ...is ) = (j1 ...jt )
E [φi1 ...is (Xi1 , ..., Xis )φj1 ...jt (Xj1 , ..., Xjt )] =
 0 sinon
La variable aléatoire Y = f (X) s’écrit
Y = a0 φ0 +
d
X
ai1 φi1 (Xi1 ) +
i=1
X
ai1 i2 φi1 i2 (Xi1 , Xi2 ) + ...
1≤i1 ≤i2 ≤d
→ La variable aléatoire Y est caractérisée par les constantes a. .
En renumérotant les polynômes (Φj )j≥0 = (φi1 ,...,in )i1 ,··· ,in :
Y =
∞
X
j=0
aj Φj (X) ≃
M
X
aj Φj (X)
j=0
d : dimension de l’espace probabiliste
q : ordre le plus élevé du polynôme pour représenter Y
M + 1 = (d + q)!/d!q! termes dans la somme
41
• Quelques remarques.
• Décomposition bien adaptée pour représenter les entrées ou une combinaison
linéaire des entrées, mais pas forcément une fonction non-linéaire de ceux-ci. La
décomposition converge d’autant plus vite que la fonction est régulière.
• Le travail consiste à estimer les coefficients (aj )j par méthodes intrusives ou
non-intrusives.
• Généralisation à des distributions autres que gaussiennes. Les polynômes φ. sont
alors modifiés.
• Avantages :
- Calcul efficace de la sensibilité de la solution aux paramètres d’entrée incertains
- Obtention d’une forme explicite de la solution (calcul de moments et de densité
de probabilité)
• Inconvénients.
- Pas de contrôle de l’erreur de troncation.
- Méthode mal adaptée à des cas où le nombre de paramètres d’entrée incertains
est grand.
42
• Estimation des coefficients des polynômes de chaos.
Y = f (X)
1) On suppose que les entrées aléatoires sont des variables aléatoires (gaussiennes)
indépendantes (Xi )di=1 .
2) On écrit la solution sous forme de sommes finies de PC :
Y =
M
X
ai Φi (X)
i=1
3) On substitue dans l’équation, et on projette sur la base des polynômes
orthogonaux :
#
"
M
X
ai Φi (X) = E [Φk (X)f (X)] ,
k = 0, ..., M
E Φk (X)
i=1
ak = E [Φk (X)f (X)] ,
k = 0, ..., M
→ estimation des ak par régression ou par quadratures numériques (déterministes
ou Monte Carlo ou quasi Monte Carlo).
43
✩
✬
✬
Étape B
✲
✻
d’incertitudes
✲
Y = f (X)
d’incertitudes
✩
Propagation
Choix du modèle
des sources
✫
Étape C
Étape A
Quantification
Loi de X
✬
✩
Entrées X
probabilité de
✪
✫
✤
dépassement de Y
✪
✫
✜
Sortie Y
Étape C’
✪
✛
✣
44
✢

Introduction au traitement des incertitudes dans les codes numeriques

Transcription

Documents pareils

Choix de l`instant de début des manœuvres pour la

Le rapport de TP

Planification sous incertitudes de la maintenance des Hélicoptères

237 Méthodes de calcul des valeurs approchées d`une intégrale.

Introduction `a R

En savoir plus

Dimension économique et industrielle des cartes à puces

Contrôle continu Probabilités - IRMA

Intro Excel TP

Ingénieur Simulations Numériques et Calcul de structures