Archives EIVL/Niveau ingenieur/Macro excel en RSM

Transcription

Archives EIVL/Niveau ingenieur/Macro excel en RSM
Expérimentique
Orléans, Jeudi 30 mars 2003
Macro Excel en méthodologie des surfaces de réponses (RSM)
L. Gulli
Introduction :
Cette macro sous excel est destinée à tous ceux qui utilisent la méthodologie des
surfaces de réponses , pour éviter de faire certains calculs habituels, mais lourds, qu’un
tableur peut réaliser par lui-même.
Elle m’a été très utile , entre autres , pour vérifier les résultats obtenus par les
étudiants ayant réalisé des plans d’expériences utilisant la RSM.
Le résultats calculés par la macro sont présentés sous forme de tableaux , que l’on
retrouve dans la thèse de Gupta , présentée l’an dernier à expérimentique par F. Louvet.
Gupta avait lui même choisi pour standard la présentation du livre de Raymond
H.MYERS & Douglas C.Montgomery ;
« Response Surface Methodology :Process and Product Optimization Using Dsigned
Experiments» (Whiley) second edition 2002.
Fonctionnement de la Macro RSM
A l’ouverture du fichier macro « RSM » cliquer sur « Activer les macros »
Il apparaît alors la feuille excel suivante :
E XE CU T E R LES CALCU LS
données
Analyse Réponse
soufflerie
Gupta
ultrasons
transistor
MOM
Vous pouvez remarquer les onglets :
« données » « Analyse Réponse » « soufflerie » « Gupta » « ultrasons » « transistor »
« MOM »
L.Gulli Macro Excel RSM
Page 1 sur 10
Orléans 30/03/2003
Les feuilles « soufflerie » « Gupta » « ultrasons » « transistor » « MOM » contiennent
des données relatives à des plans d’expériences déjà réalisés , ces données vous
permettront de vous familiariser avec la macro sans avoir à entrer des données à la main.
La feuille « données » est celle dans laquelle vous allez déclarer les données du plan
d’expériences que vous voulez étudier, c’est pourquoi elle ne contient pas de données à
l’ouverture mais simplement le bouton de commande
EXECUTER LES CALCULS
La feuille « Analyse Réponse » est vide à l’ouverture
Du fichier c’est dans cette feuille que la macro
Affichera les résultats des calculs effectués à l’aide
Des données que vous aurez déclarées dans la feuille « données »
ETUDE D’UN EXEMPLE
1°) Copier les données qui se situent dans la feuille « soufflerie »
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
X1
1,0000
-1,0000
-0,5
0,5
0,5
-0,5
0
0
0
X2
0,0000
0,0000
-0,866
0,866
-0,866
0,866
0
0
0
X1X2
0,0000
0,0000
0,4330
0,4330
-0,4330
-0,4330
0,0000
0,0000
0,0000
X1²
1,0000
1,0000
0,2500
0,2500
0,2500
0,2500
0,0000
0,0000
0,0000
X2²
0,0000
0,0000
0,7500
0,7500
0,7500
0,7500
0,0000
0,0000
0,0000
Y
40,4000
3,6000
5,6000
46,0000
13,6000
17,6000
22,0000
21,5000
21,5000
2°) Collez ces données dans la feuille « données »
E XE CU T E R LES CALCU LS
X1
X2
X1X2
X1²
X2²
1,0000
1,0000
0,0000
0,0000
1,0000
0,0000
1,0000
-1,0000
0,0000
0,0000
1,0000
0,0000
1,0000
-0,5
-0,866
0,4330
0,2500
0,7500
1,0000
0,5
0,866
0,4330
0,2500
0,7500
1,0000
0,5
-0,866
-0,4330
0,2500
0,7500
1,0000
-0,5
0,866
-0,4330
0,2500
0,7500
1,0000
0
0
0,0000
0,0000
0,0000
1,0000
0
0
0,0000
0,0000
0,0000
1,0000
0
0
0,0000
0,0000
0,0000
3°) définir les données contenues dans le tableau X dans le menu
L.Gulli Macro Excel RSM
Page 2 sur 10
Orléans 30/03/2003
Y
40,4000
3,6000
5,6000
46,0000
13,6000
17,6000
22,0000
21,5000
21,5000
insertion, nom , definir
taper X puis ok
4°) définir les données contenues dans le tableau Y dans le menu
insertion, nom , definir
taper Y puis ok
5°) cliquez sur le bouton de commandes
EXECUTER LES CALCULS
La macro exécute alors les calculs à vous de les interpréter :
Signification des termes du tableau « Analyse de la régression » qui se trouve en haut de
la page « Analyse Réponse » :
Analyse de la
regression
Source
SCE
Modèle
1608,0356
Residus
0,19333333
Total
1608,22889
ddl
5,0000
3
8
n
SCE Modèle = SCE Re g = ∑ ( yˆ i − y )
CM
321,6071
0,06444444
F
4990,4552
Prob>F
0,0000
2
i =1
où ŷ i = réponse estimée par le modèle pour l’essai N°i
et y =moyenne des réponses du plan
n
SCE Résidus = SCE Rés = ∑ ei2
i =1
n
SCE Total = SCE tot = ∑ ( y i − y ) (somme des carrés des écarts à la moyenne des y i )
2
i =1
ddl Modèle = p-1 et p = nombre de colonnes de X
ddl Total = n-1 et n = nombre de lignes de X
ddl Résidus = n-p= ddl Total- ddl Modèle
CM Modèle = SCE Modèle / ddl Modèle
CM Résidus = SCE Résidus / ddl Résidus
F= CM Modèle/ CM Résidus
Prob>F=LoiF (F,ddl Modèle,ddl Total)
C’est la probabilité pour que tous les coefficients du modèle étudié soient nuls excepté le
terme constant , en d’autre termes c’est la probabilité pour que le modèle qui se réduit au
L.Gulli Macro Excel RSM
Page 3 sur 10
Orléans 30/03/2003
seul terme constant soit meilleur que le modèle comprenant tous les autres termes
polynomiaux étudiés. Certains auteurs l’appellent le test d’utilité du modèle, (1-Prob)
étant la probabilité pour que le modèle étudié soit meilleur que le modèle se réduisant au
seul terme constant ici 100%)
Signification des termes du tableau « Analyse du lack of fit » qui suit le tableau
« Analyse de la régression » :
Analyse
du
Lack of fit
Source
SCE
LOF
0,02666667
Erreur pure 0,16666667
Residus
0,19333333
ddl
1
2
3
CM
0,02666667
0,08333333
0,06444444
F
0,32
Prob>F
0,628609324
Remarque préliminaire : les valeurs contenues dans ce tableau ne sont définies que
lorsque le plan contient des essais répétés.
Lorsque ce n’est pas le cas les cases contiennent alors la mention « non défini »
On suppose dans ce qui suit que l’on dispose de m essais distincts, que l’essai N°i est
répliqué n i fois et que l’on note y i , j la jème réplique de l’essai N°i
m
On note n = ∑ n j le nombre total d’expériences du plan d’expériences.
i =1
(
n
j
m
)
On a = SCE res = ∑∑ y i , j − y i
i =1 j =1


=

i =1 
2
nj
∑ ∑ (y
m
On note SCE PE
)
i, j
− yi

)2 
l’indice PE signifie « PURE ERROR » ou « ERREUR

j =1
PURE » .
Remarque technique :
m

nj

i =1

j =1
Dans le calcul de SCE PE = ∑  ∑ (y i , j − y i )2  si l’essai N°i n’est pas répliqué alors n i = 1

∑ (y
1
donc y i ,1 = y i et par conséquent
i, j
− yi
)2 = 0 , c’est à dire que la
j =1

nj


j =1

somme SCE PE = ∑  ∑ (y i , j − y i )2  n’est faite que pour les valeurs de i réellement
m
i =1
répliquées , ces erreurs ne dépendent que des répliques des observations faites . Elles sont
« pures » car indépendantes du modèle.
m
) 2
On note SCE LOF = ∑ ni ( y i − yi ) = SCE Re g − SCE PE cette quantité rend compte de
i =1
l’erreur d’ajustement du modèle.
Remarque:
Afin de pouvoir faire un test d’hypothèses, nous conviendront qu’un modèle est bien
ajusté lorsque l’erreur d’ajustement SCE LOF et l’erreur pure SCE PE sont du même ordre.
L.Gulli Macro Excel RSM
Page 4 sur 10
Orléans 30/03/2003
Sous l’hypothèse nulle H 0 : « le modèle est bien ajusté » la quantité :
Fexp
SCE LOF
MSCE LOF
(m − p ) suit une loi F
=
=
m − p ,n − m
SCE PE
MSCE PE
(n − m )
(
)
le calcul de P = LOI .FISHER Fexp , m − p, n − m donne alors la probabilité pour que le
modèle soit bien ajusté. (absence de biais, ou non courbure des résidus)
ces définitions permettent alors de donner un sens aux quantités du tableau « Analyse
du Lack of fit »
Analyse
du
Lack of fit
Source
SCE
LOF
0,02666667
Erreur pure 0,16666667
Residus
0,19333333
ddl
1
2
3
CM
0,02666667
0,08333333
0,06444444
F
0,32
Prob>F
0,628609324
) 2
SCE res = ∑∑ ( y i , j − y i ) ddl Résidus =n-p
nj
m
i =1 j =1


=

i =1 
SCE PE
nj

∑ ∑ (y i , j − y i )2 
m
j =1

m
ddl PE =
∑ (n
i =1
i
− 1) = somme des ddl des répliques
m
) 2
SCE LOF = ∑ ni ( y i − yi ) = SCE Re g − SCE PE =ddl Résidus - ddl PE
i =1
CM LOF= SCE LOF/ddl LOF
CM PE=SCE PE/ddl PE
F = CM LOF/CM PE
Prob>F= Loi F (F, ddl LOF, ddl PE) , c’est la probabilité pour que l’erreur pure soit du
même ordre que l’erreur du modèle, donc que le modèle soit bien ajusté ici 63%
Remarque : l’étude du lack of fit est la partie la plus difficile à programmer, à titre
d’exemple essayez de repérer tous les essais répétés dans la thèse de Gupta, à l’ oeil nu et
le nombre de répétition par essai... il faut ensuite calculer la moyenne pour chaque essai
répété etc...
Signification des termes du tableau qui suit l’ « Analyse du lack of fit »
coef R2=
0,99987978
coef R2ajusté= 0,99967943
R2 prédictif 0,99916989
variance_est 0,06444444
ectyp_est
0,2538591
Ce tableau est classique, seul peut-être le R² prédictif mérite qu’on s’y attarde.
L.Gulli Macro Excel RSM
Page 5 sur 10
Orléans 30/03/2003
Coeff R² = SCE Modèle/SCE Total, coefficient permettant de quantifier la variabilité des
réponses expliquées par le modèle étudié, ou encore coefficient de corrélation entre
réponses du plan et réponses estimées par le modèle , ... à la convenance de chacun !
Coeff R²ajusté = CM Modèle/CM Total, autre coefficient permettant de quantifier la
variabilité des réponses expliquées par le modèle étudié , prenant en compte les degrés de
liberté, mieux éduqué que le précédent, ne gonfle pas lorsqu’on le flatte, la littérature en
parle beaucoup.
Variance _est = CM res du tableau analyse de la régression.
Ectyp_est = racine carrée de variance_estimée
Etude du R²prédictif.
Les résultats obtenus par un plan d’expérience dépendent du choix de :
a) l’emplacement des points expérimentaux
b) du polynôme P ( X 1 ,..., X k ) = β 0 + β 1 X 1 + ... + β k X k postulé à priori.
une manière de tester les qualités prédictives du polynôme considéré consiste à
)
étudier les écarts e(i ) = yi − ŷ(i ) où y(i ) est la valeur estimée par la méthode des moindres
carrés par le polynôme en excluant l’essai N°i ( on met l’essai N° i entre parenthèses )
e(i ) est donc l’écart de prédiction du modèle privé de l’observation N°i à l’observation
N°i
n
on définit alors la quantité PRESS = ∑ e(2i ) « Prediction error sum of square » (PRESS)
i =1
un PRESS faible signifie une bonne qualité prédictive du polynôme.
Le calcul direct du PRESS nécessiterait par conséquent de construire n modèles de
)
régression pour pouvoir calculer les y(i ) , cependant on montre que e(i ) =
ei
où hii
1 − hii
Est le i ème terme diagonal de la matrice des leviers.
2
On définit le coefficient R prédictif
=1−
PRESS
,
SCEtot
on interprète le R 2prédictif comme le pourcentage d’explication de la variabilité des
nouvelles prédictions par le modèle , plus la valeur de ce coefficient est proche de 1
meilleure est la qualité prédictive du polynôme.
Lorsque l’un des termes hii est égal à 1 le R 2prédictif ne sera pas défini.
L.Gulli Macro Excel RSM
Page 6 sur 10
Orléans 30/03/2003
Signification des termes du tableau « Analyse des coefficients du modèle »
Analyse des
coefficients du
modèle
coeff N°
1
2
3
4
5
6
Valeur coeff
21,6666667
18,3333333
12,817552
11,778291
0,33333333
-1,40008214
ectyp coeff
0,14656562
0,14656562
0,14656992
0,29313984
0,2317406
0,23175419
valeur-t
147,829118
125,086177
87,4500843
40,1797685
1,4383899
6,0412376
Prob Coeff=0
6,82526E-07
1,12653E-06
3,29599E-06
3,3922E-05
0,245904321
0,009095595
Valeur coeff = composantes du vecteur b estimation du vecteur β pour les n essais du plan
et donné par la méthode des moindres carrés b = ( X ' X ) X ' y .
−1
Ectyp coeff= s( b j ) = σ c i ,i où c i ,i est le terme diagonal de dispersion ( X ' X ) , σ est
−1
estimée par s = MSCEres
Les variables t =
bj − β j
Valeur – t = t exp =
s( b j )
suivent la loi de student à ( n − p ) degrés de libertés .
bi
s (bi )
Test de signification de chaque coefficient du modèle :
On teste l’hypothèse H 0 : β i = 0 contre l’hypothèse H 1 : β i ≠ 0 ,pour cela on calcule
t exp =
bi
la probabilité pour que le coefficient bi soit nul est alors
s (bi )
Prob coeff=0= loi.student (t exp , n − p )
Signification du tableau « analyse de la réponse première partie »
analyse de la Réponse
essai N°
Y observé
Y prédit
Résidu
studRés
1
40,4
40,3333333
0,06666667
0,64326752
2
3,6
3,66666667
-0,06666667
-0,64326752
3
5,6
5,53333333
0,06666667
0,64326752
4
46
46,0666667
-0,06666667
-0,64326752
5
13,6
13,6666667
-0,06666667
-0,64326752
6
17,6
17,5333333
0,06666667
0,64326752
7
22
21,6666667
0,33333333
1,6081688
8
21,5
21,6666667
-0,16666667
-0,8040844
9
21,5
21,6666667
-0,16666667
-0,8040844
Y Observé = valeur de la réponse pour l’essai i déclarée par l’utilisateur
Y Prédit = Xb =H Y Observé=réponse prédite par le modèle
Résidu=Y Observé- Y Prédit
L.Gulli Macro Excel RSM
Page 7 sur 10
Orléans 30/03/2003
StudRés = sont les résidus « studentisés internes » ou standardisés définis à l’aide des
ei
résidus précédents par : ri =
, où s est l’écart type estimé et hii le ième terme
s 1 − hii
diagonal de la matrice des leviers.
Les résidus studentisés internes ri =
ei
suivent tous la loi de student t n − p ce qui
s 1 − hii
permet alors de définir comme « observations aberrantes » (outliers)
Les observations pour lesquelles ri > t (0.025, n− p )
Signification du tableau « analyse de la réponse deuxième partie »
CookDist
0,344827586
0,344827586
0,344827586
0,344827586
0,344827586
0,344827586
0,215517241
0,05387931
0,05387931
R-Stud
0,56568542
-0,56568542
0,56568542
-0,56568542
-0,56568542
0,56568542
3,53553391
-0,74124932
-0,74124932
CookDist = Di =
Hii
0,83333333
0,83333333
0,83333333
0,83333333
0,83333333
0,83333333
0,33333333
0,33333333
0,33333333
ri2 hii
p 1 − hii
Remarque : La quantité Di (b(i ) ; b ) =
PressRés
0,4
-0,4
0,4
-0,4
-0,4
0,4
0,5
-0,25
-0,25
(b(i ) − b )' ( X ' X )(b(i ) − b )
pMSCE res
est une distance dans R p , elle est
appelée distance de COOK, elle permet de mesurer l’écart entre les coefficients des
r2
h
ii
modèles de régression b(i ) et bi de façon simple car un calcul montre que Di = i
p 1 − hii
L’expression Di =
ri2 hii
montre que cette distance est influencée de manière
p 1 − hii
simultanée par la valeur de la ième observation y i ( grâce à la quantité
ri2
) et par la
p
distance du point x i représentant l’essai N°i au centre du domaine des données restantes
( qui est égale à
hii
).
1 − hii
On considère que les points influents sont ceux tels que Di > 1
R-stud = Résidu studentisé externe est défini par : ti =
Les quantités ri =
ei
s 1 − hii
et ti =
e( i )
s( i ) 1 − h( ii )
e( i )
s( i ) 1 − h( ii )
sont définies de manières analogues mais
elles ne portent pas sur les mêmes observations.
L.Gulli Macro Excel RSM
Page 8 sur 10
Orléans 30/03/2003
ri =
ti =
ei
s 1 − hii
utilise le modèle déterminé sur l’ensemble des observations du plan.
e( i )
s( i ) 1 − h( ii )
utilise le modèle déterminé sur l’ensemble des observations du plan privé
de l’essai N°i
là encore le calcul des ti =
e( i )
s( i ) 1 − h( ii )
conduirait à un calcul fastidieux de n-1 modèles
et serait donc trop lourd, cependant on montre que R − student = t i = ri
n − p −1
n − p − (ri )2
et que ces
résidus suivent une loi de student t ( alpha / 2,n − p )
certains auteurs préfèrent utiliser le R-Stud pour définir les valeurs des « observations
aberrantes » comme étant celles pour lesquelles t i > t (alpha / 2, n − p )
hii = termes diagonaux de la matrice des leviers
Remarque :
Un hii trop proche de 1 influencera fortement un résidu studentisé ( voir définitions
précédentes), c’est un paramètre important de la mesure de l’influence de l’observation i
Sur tous les paramètres estimés par le modèle, et donc les prédictions.
2p
En pratique toute observation telle que hii >
est considérée comme influente
n
(suspecte pour certains) on doit donc repérer ces valeurs , les éliminer ou les répéter
suivant la nature de l’influence ( mauvaise ou bonne).
Press-Res= e(i) déjà défini dans l’étude du R2prédictif
Signification du tableau « matrice de dispersion»
Matrice de dispersion: DISPER=
0,33333333
0
3,1566E-18
0
0,33333333 0
3,1566E-18
0
0,33335289
-6,3132E-18
0
-1,7976E-17
-0,33333333
0
-1,5783E-18
-0,33335289
0
-7,892E-18
(
-6,3132E-18
0
-1,7976E-17
1,33341156
3,1566E-18
1,5784E-17
)
-0,33333333
0
-1,5783E-18
3,1566E-18
0,833333333
0,166676445
-0,33335289
0
-7,892E-18
1,5784E-17
0,16667645
0,83343112
−1
C’est la matrice classique Disper = t XX elle est donnée pour pouvoir être utilisée en
externe pour le calcul des valeurs estimés complémentaires des réponses en des points
quelconques du domaine expérimental
L.Gulli Macro Excel RSM
Page 9 sur 10
Orléans 30/03/2003
Signification du tableau « prévisions»
PREVISIONS
ddl=
3
Yest_inf
38,8977426
2,23107594
4,09774261
44,6310759
12,2310759
16,0977426
20,4423908
20,4423908
20,4424
N° essai
essai 1
essai 2
essai 3
essai 4
essai 5
essai 6
essai 7
essai 8
essai 9
Nelle Prévision
col 1
col 2
tc=
4,17654519
Yest
40,3333333
3,66666667
5,53333333
46,0666667
13,6666667
17,5333333
21,6666667
21,6666667
21,6667
Yest_sup
41,7689
5,10225739
6,96892406
47,5022574
15,1022574
18,9689241
22,8909426
22,8909426
22,8909
col 3
col 4
col 5
col 6
prévInf=
prév=
prévSup=
-1,06025402
0,0000
1,0603
Le calcul montre qu’au point de coordonnées x = (x1 ,..., x p ) du domaine expérimental
L’intervalle de confiance à 95% de la réponse Yest est égal à [Yest_inf ;Yest_sup]
où Yest=xb ;
Yest_inf =Yest –r ; Yest_inf =Yest –r
Et r = InvLoiStud (0.025, n − p ) * s * 1 + xDisper t x
la fonction d ( x) = 1 + xDisper t x est appelée fonction d’erreur
la macro vous offre la possibilité de calculer la prévision en un nouveau point que vous
définirez par ses coordonnées col1, col2 ,...,colp, puis exécuter les calculs.
Remarque :
Dans la feuille de Résultats vous disposez de tous les paramètres utiles au calcul de
l’intervalle de confiance précédent :
- InvLoiStud (0.025, n − p ) est le nombre tc de PREVISIONS
-s est le paramètre écartyp_est du tableau contenant le R²
-Disper est la matrice de Dispersion
vous pouvez ainsi récupérer toutes ces données pour calculer vos propres valeurs.
L.Gulli Macro Excel RSM
Page 10 sur 10
Orléans 30/03/2003

Documents pareils