Archives EIVL/Niveau ingenieur/Macro excel en RSM
Transcription
Archives EIVL/Niveau ingenieur/Macro excel en RSM
Expérimentique Orléans, Jeudi 30 mars 2003 Macro Excel en méthodologie des surfaces de réponses (RSM) L. Gulli Introduction : Cette macro sous excel est destinée à tous ceux qui utilisent la méthodologie des surfaces de réponses , pour éviter de faire certains calculs habituels, mais lourds, qu’un tableur peut réaliser par lui-même. Elle m’a été très utile , entre autres , pour vérifier les résultats obtenus par les étudiants ayant réalisé des plans d’expériences utilisant la RSM. Le résultats calculés par la macro sont présentés sous forme de tableaux , que l’on retrouve dans la thèse de Gupta , présentée l’an dernier à expérimentique par F. Louvet. Gupta avait lui même choisi pour standard la présentation du livre de Raymond H.MYERS & Douglas C.Montgomery ; « Response Surface Methodology :Process and Product Optimization Using Dsigned Experiments» (Whiley) second edition 2002. Fonctionnement de la Macro RSM A l’ouverture du fichier macro « RSM » cliquer sur « Activer les macros » Il apparaît alors la feuille excel suivante : E XE CU T E R LES CALCU LS données Analyse Réponse soufflerie Gupta ultrasons transistor MOM Vous pouvez remarquer les onglets : « données » « Analyse Réponse » « soufflerie » « Gupta » « ultrasons » « transistor » « MOM » L.Gulli Macro Excel RSM Page 1 sur 10 Orléans 30/03/2003 Les feuilles « soufflerie » « Gupta » « ultrasons » « transistor » « MOM » contiennent des données relatives à des plans d’expériences déjà réalisés , ces données vous permettront de vous familiariser avec la macro sans avoir à entrer des données à la main. La feuille « données » est celle dans laquelle vous allez déclarer les données du plan d’expériences que vous voulez étudier, c’est pourquoi elle ne contient pas de données à l’ouverture mais simplement le bouton de commande EXECUTER LES CALCULS La feuille « Analyse Réponse » est vide à l’ouverture Du fichier c’est dans cette feuille que la macro Affichera les résultats des calculs effectués à l’aide Des données que vous aurez déclarées dans la feuille « données » ETUDE D’UN EXEMPLE 1°) Copier les données qui se situent dans la feuille « soufflerie » 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 X1 1,0000 -1,0000 -0,5 0,5 0,5 -0,5 0 0 0 X2 0,0000 0,0000 -0,866 0,866 -0,866 0,866 0 0 0 X1X2 0,0000 0,0000 0,4330 0,4330 -0,4330 -0,4330 0,0000 0,0000 0,0000 X1² 1,0000 1,0000 0,2500 0,2500 0,2500 0,2500 0,0000 0,0000 0,0000 X2² 0,0000 0,0000 0,7500 0,7500 0,7500 0,7500 0,0000 0,0000 0,0000 Y 40,4000 3,6000 5,6000 46,0000 13,6000 17,6000 22,0000 21,5000 21,5000 2°) Collez ces données dans la feuille « données » E XE CU T E R LES CALCU LS X1 X2 X1X2 X1² X2² 1,0000 1,0000 0,0000 0,0000 1,0000 0,0000 1,0000 -1,0000 0,0000 0,0000 1,0000 0,0000 1,0000 -0,5 -0,866 0,4330 0,2500 0,7500 1,0000 0,5 0,866 0,4330 0,2500 0,7500 1,0000 0,5 -0,866 -0,4330 0,2500 0,7500 1,0000 -0,5 0,866 -0,4330 0,2500 0,7500 1,0000 0 0 0,0000 0,0000 0,0000 1,0000 0 0 0,0000 0,0000 0,0000 1,0000 0 0 0,0000 0,0000 0,0000 3°) définir les données contenues dans le tableau X dans le menu L.Gulli Macro Excel RSM Page 2 sur 10 Orléans 30/03/2003 Y 40,4000 3,6000 5,6000 46,0000 13,6000 17,6000 22,0000 21,5000 21,5000 insertion, nom , definir taper X puis ok 4°) définir les données contenues dans le tableau Y dans le menu insertion, nom , definir taper Y puis ok 5°) cliquez sur le bouton de commandes EXECUTER LES CALCULS La macro exécute alors les calculs à vous de les interpréter : Signification des termes du tableau « Analyse de la régression » qui se trouve en haut de la page « Analyse Réponse » : Analyse de la regression Source SCE Modèle 1608,0356 Residus 0,19333333 Total 1608,22889 ddl 5,0000 3 8 n SCE Modèle = SCE Re g = ∑ ( yˆ i − y ) CM 321,6071 0,06444444 F 4990,4552 Prob>F 0,0000 2 i =1 où ŷ i = réponse estimée par le modèle pour l’essai N°i et y =moyenne des réponses du plan n SCE Résidus = SCE Rés = ∑ ei2 i =1 n SCE Total = SCE tot = ∑ ( y i − y ) (somme des carrés des écarts à la moyenne des y i ) 2 i =1 ddl Modèle = p-1 et p = nombre de colonnes de X ddl Total = n-1 et n = nombre de lignes de X ddl Résidus = n-p= ddl Total- ddl Modèle CM Modèle = SCE Modèle / ddl Modèle CM Résidus = SCE Résidus / ddl Résidus F= CM Modèle/ CM Résidus Prob>F=LoiF (F,ddl Modèle,ddl Total) C’est la probabilité pour que tous les coefficients du modèle étudié soient nuls excepté le terme constant , en d’autre termes c’est la probabilité pour que le modèle qui se réduit au L.Gulli Macro Excel RSM Page 3 sur 10 Orléans 30/03/2003 seul terme constant soit meilleur que le modèle comprenant tous les autres termes polynomiaux étudiés. Certains auteurs l’appellent le test d’utilité du modèle, (1-Prob) étant la probabilité pour que le modèle étudié soit meilleur que le modèle se réduisant au seul terme constant ici 100%) Signification des termes du tableau « Analyse du lack of fit » qui suit le tableau « Analyse de la régression » : Analyse du Lack of fit Source SCE LOF 0,02666667 Erreur pure 0,16666667 Residus 0,19333333 ddl 1 2 3 CM 0,02666667 0,08333333 0,06444444 F 0,32 Prob>F 0,628609324 Remarque préliminaire : les valeurs contenues dans ce tableau ne sont définies que lorsque le plan contient des essais répétés. Lorsque ce n’est pas le cas les cases contiennent alors la mention « non défini » On suppose dans ce qui suit que l’on dispose de m essais distincts, que l’essai N°i est répliqué n i fois et que l’on note y i , j la jème réplique de l’essai N°i m On note n = ∑ n j le nombre total d’expériences du plan d’expériences. i =1 ( n j m ) On a = SCE res = ∑∑ y i , j − y i i =1 j =1 = i =1 2 nj ∑ ∑ (y m On note SCE PE ) i, j − yi )2 l’indice PE signifie « PURE ERROR » ou « ERREUR j =1 PURE » . Remarque technique : m nj i =1 j =1 Dans le calcul de SCE PE = ∑ ∑ (y i , j − y i )2 si l’essai N°i n’est pas répliqué alors n i = 1 ∑ (y 1 donc y i ,1 = y i et par conséquent i, j − yi )2 = 0 , c’est à dire que la j =1 nj j =1 somme SCE PE = ∑ ∑ (y i , j − y i )2 n’est faite que pour les valeurs de i réellement m i =1 répliquées , ces erreurs ne dépendent que des répliques des observations faites . Elles sont « pures » car indépendantes du modèle. m ) 2 On note SCE LOF = ∑ ni ( y i − yi ) = SCE Re g − SCE PE cette quantité rend compte de i =1 l’erreur d’ajustement du modèle. Remarque: Afin de pouvoir faire un test d’hypothèses, nous conviendront qu’un modèle est bien ajusté lorsque l’erreur d’ajustement SCE LOF et l’erreur pure SCE PE sont du même ordre. L.Gulli Macro Excel RSM Page 4 sur 10 Orléans 30/03/2003 Sous l’hypothèse nulle H 0 : « le modèle est bien ajusté » la quantité : Fexp SCE LOF MSCE LOF (m − p ) suit une loi F = = m − p ,n − m SCE PE MSCE PE (n − m ) ( ) le calcul de P = LOI .FISHER Fexp , m − p, n − m donne alors la probabilité pour que le modèle soit bien ajusté. (absence de biais, ou non courbure des résidus) ces définitions permettent alors de donner un sens aux quantités du tableau « Analyse du Lack of fit » Analyse du Lack of fit Source SCE LOF 0,02666667 Erreur pure 0,16666667 Residus 0,19333333 ddl 1 2 3 CM 0,02666667 0,08333333 0,06444444 F 0,32 Prob>F 0,628609324 ) 2 SCE res = ∑∑ ( y i , j − y i ) ddl Résidus =n-p nj m i =1 j =1 = i =1 SCE PE nj ∑ ∑ (y i , j − y i )2 m j =1 m ddl PE = ∑ (n i =1 i − 1) = somme des ddl des répliques m ) 2 SCE LOF = ∑ ni ( y i − yi ) = SCE Re g − SCE PE =ddl Résidus - ddl PE i =1 CM LOF= SCE LOF/ddl LOF CM PE=SCE PE/ddl PE F = CM LOF/CM PE Prob>F= Loi F (F, ddl LOF, ddl PE) , c’est la probabilité pour que l’erreur pure soit du même ordre que l’erreur du modèle, donc que le modèle soit bien ajusté ici 63% Remarque : l’étude du lack of fit est la partie la plus difficile à programmer, à titre d’exemple essayez de repérer tous les essais répétés dans la thèse de Gupta, à l’ oeil nu et le nombre de répétition par essai... il faut ensuite calculer la moyenne pour chaque essai répété etc... Signification des termes du tableau qui suit l’ « Analyse du lack of fit » coef R2= 0,99987978 coef R2ajusté= 0,99967943 R2 prédictif 0,99916989 variance_est 0,06444444 ectyp_est 0,2538591 Ce tableau est classique, seul peut-être le R² prédictif mérite qu’on s’y attarde. L.Gulli Macro Excel RSM Page 5 sur 10 Orléans 30/03/2003 Coeff R² = SCE Modèle/SCE Total, coefficient permettant de quantifier la variabilité des réponses expliquées par le modèle étudié, ou encore coefficient de corrélation entre réponses du plan et réponses estimées par le modèle , ... à la convenance de chacun ! Coeff R²ajusté = CM Modèle/CM Total, autre coefficient permettant de quantifier la variabilité des réponses expliquées par le modèle étudié , prenant en compte les degrés de liberté, mieux éduqué que le précédent, ne gonfle pas lorsqu’on le flatte, la littérature en parle beaucoup. Variance _est = CM res du tableau analyse de la régression. Ectyp_est = racine carrée de variance_estimée Etude du R²prédictif. Les résultats obtenus par un plan d’expérience dépendent du choix de : a) l’emplacement des points expérimentaux b) du polynôme P ( X 1 ,..., X k ) = β 0 + β 1 X 1 + ... + β k X k postulé à priori. une manière de tester les qualités prédictives du polynôme considéré consiste à ) étudier les écarts e(i ) = yi − ŷ(i ) où y(i ) est la valeur estimée par la méthode des moindres carrés par le polynôme en excluant l’essai N°i ( on met l’essai N° i entre parenthèses ) e(i ) est donc l’écart de prédiction du modèle privé de l’observation N°i à l’observation N°i n on définit alors la quantité PRESS = ∑ e(2i ) « Prediction error sum of square » (PRESS) i =1 un PRESS faible signifie une bonne qualité prédictive du polynôme. Le calcul direct du PRESS nécessiterait par conséquent de construire n modèles de ) régression pour pouvoir calculer les y(i ) , cependant on montre que e(i ) = ei où hii 1 − hii Est le i ème terme diagonal de la matrice des leviers. 2 On définit le coefficient R prédictif =1− PRESS , SCEtot on interprète le R 2prédictif comme le pourcentage d’explication de la variabilité des nouvelles prédictions par le modèle , plus la valeur de ce coefficient est proche de 1 meilleure est la qualité prédictive du polynôme. Lorsque l’un des termes hii est égal à 1 le R 2prédictif ne sera pas défini. L.Gulli Macro Excel RSM Page 6 sur 10 Orléans 30/03/2003 Signification des termes du tableau « Analyse des coefficients du modèle » Analyse des coefficients du modèle coeff N° 1 2 3 4 5 6 Valeur coeff 21,6666667 18,3333333 12,817552 11,778291 0,33333333 -1,40008214 ectyp coeff 0,14656562 0,14656562 0,14656992 0,29313984 0,2317406 0,23175419 valeur-t 147,829118 125,086177 87,4500843 40,1797685 1,4383899 6,0412376 Prob Coeff=0 6,82526E-07 1,12653E-06 3,29599E-06 3,3922E-05 0,245904321 0,009095595 Valeur coeff = composantes du vecteur b estimation du vecteur β pour les n essais du plan et donné par la méthode des moindres carrés b = ( X ' X ) X ' y . −1 Ectyp coeff= s( b j ) = σ c i ,i où c i ,i est le terme diagonal de dispersion ( X ' X ) , σ est −1 estimée par s = MSCEres Les variables t = bj − β j Valeur – t = t exp = s( b j ) suivent la loi de student à ( n − p ) degrés de libertés . bi s (bi ) Test de signification de chaque coefficient du modèle : On teste l’hypothèse H 0 : β i = 0 contre l’hypothèse H 1 : β i ≠ 0 ,pour cela on calcule t exp = bi la probabilité pour que le coefficient bi soit nul est alors s (bi ) Prob coeff=0= loi.student (t exp , n − p ) Signification du tableau « analyse de la réponse première partie » analyse de la Réponse essai N° Y observé Y prédit Résidu studRés 1 40,4 40,3333333 0,06666667 0,64326752 2 3,6 3,66666667 -0,06666667 -0,64326752 3 5,6 5,53333333 0,06666667 0,64326752 4 46 46,0666667 -0,06666667 -0,64326752 5 13,6 13,6666667 -0,06666667 -0,64326752 6 17,6 17,5333333 0,06666667 0,64326752 7 22 21,6666667 0,33333333 1,6081688 8 21,5 21,6666667 -0,16666667 -0,8040844 9 21,5 21,6666667 -0,16666667 -0,8040844 Y Observé = valeur de la réponse pour l’essai i déclarée par l’utilisateur Y Prédit = Xb =H Y Observé=réponse prédite par le modèle Résidu=Y Observé- Y Prédit L.Gulli Macro Excel RSM Page 7 sur 10 Orléans 30/03/2003 StudRés = sont les résidus « studentisés internes » ou standardisés définis à l’aide des ei résidus précédents par : ri = , où s est l’écart type estimé et hii le ième terme s 1 − hii diagonal de la matrice des leviers. Les résidus studentisés internes ri = ei suivent tous la loi de student t n − p ce qui s 1 − hii permet alors de définir comme « observations aberrantes » (outliers) Les observations pour lesquelles ri > t (0.025, n− p ) Signification du tableau « analyse de la réponse deuxième partie » CookDist 0,344827586 0,344827586 0,344827586 0,344827586 0,344827586 0,344827586 0,215517241 0,05387931 0,05387931 R-Stud 0,56568542 -0,56568542 0,56568542 -0,56568542 -0,56568542 0,56568542 3,53553391 -0,74124932 -0,74124932 CookDist = Di = Hii 0,83333333 0,83333333 0,83333333 0,83333333 0,83333333 0,83333333 0,33333333 0,33333333 0,33333333 ri2 hii p 1 − hii Remarque : La quantité Di (b(i ) ; b ) = PressRés 0,4 -0,4 0,4 -0,4 -0,4 0,4 0,5 -0,25 -0,25 (b(i ) − b )' ( X ' X )(b(i ) − b ) pMSCE res est une distance dans R p , elle est appelée distance de COOK, elle permet de mesurer l’écart entre les coefficients des r2 h ii modèles de régression b(i ) et bi de façon simple car un calcul montre que Di = i p 1 − hii L’expression Di = ri2 hii montre que cette distance est influencée de manière p 1 − hii simultanée par la valeur de la ième observation y i ( grâce à la quantité ri2 ) et par la p distance du point x i représentant l’essai N°i au centre du domaine des données restantes ( qui est égale à hii ). 1 − hii On considère que les points influents sont ceux tels que Di > 1 R-stud = Résidu studentisé externe est défini par : ti = Les quantités ri = ei s 1 − hii et ti = e( i ) s( i ) 1 − h( ii ) e( i ) s( i ) 1 − h( ii ) sont définies de manières analogues mais elles ne portent pas sur les mêmes observations. L.Gulli Macro Excel RSM Page 8 sur 10 Orléans 30/03/2003 ri = ti = ei s 1 − hii utilise le modèle déterminé sur l’ensemble des observations du plan. e( i ) s( i ) 1 − h( ii ) utilise le modèle déterminé sur l’ensemble des observations du plan privé de l’essai N°i là encore le calcul des ti = e( i ) s( i ) 1 − h( ii ) conduirait à un calcul fastidieux de n-1 modèles et serait donc trop lourd, cependant on montre que R − student = t i = ri n − p −1 n − p − (ri )2 et que ces résidus suivent une loi de student t ( alpha / 2,n − p ) certains auteurs préfèrent utiliser le R-Stud pour définir les valeurs des « observations aberrantes » comme étant celles pour lesquelles t i > t (alpha / 2, n − p ) hii = termes diagonaux de la matrice des leviers Remarque : Un hii trop proche de 1 influencera fortement un résidu studentisé ( voir définitions précédentes), c’est un paramètre important de la mesure de l’influence de l’observation i Sur tous les paramètres estimés par le modèle, et donc les prédictions. 2p En pratique toute observation telle que hii > est considérée comme influente n (suspecte pour certains) on doit donc repérer ces valeurs , les éliminer ou les répéter suivant la nature de l’influence ( mauvaise ou bonne). Press-Res= e(i) déjà défini dans l’étude du R2prédictif Signification du tableau « matrice de dispersion» Matrice de dispersion: DISPER= 0,33333333 0 3,1566E-18 0 0,33333333 0 3,1566E-18 0 0,33335289 -6,3132E-18 0 -1,7976E-17 -0,33333333 0 -1,5783E-18 -0,33335289 0 -7,892E-18 ( -6,3132E-18 0 -1,7976E-17 1,33341156 3,1566E-18 1,5784E-17 ) -0,33333333 0 -1,5783E-18 3,1566E-18 0,833333333 0,166676445 -0,33335289 0 -7,892E-18 1,5784E-17 0,16667645 0,83343112 −1 C’est la matrice classique Disper = t XX elle est donnée pour pouvoir être utilisée en externe pour le calcul des valeurs estimés complémentaires des réponses en des points quelconques du domaine expérimental L.Gulli Macro Excel RSM Page 9 sur 10 Orléans 30/03/2003 Signification du tableau « prévisions» PREVISIONS ddl= 3 Yest_inf 38,8977426 2,23107594 4,09774261 44,6310759 12,2310759 16,0977426 20,4423908 20,4423908 20,4424 N° essai essai 1 essai 2 essai 3 essai 4 essai 5 essai 6 essai 7 essai 8 essai 9 Nelle Prévision col 1 col 2 tc= 4,17654519 Yest 40,3333333 3,66666667 5,53333333 46,0666667 13,6666667 17,5333333 21,6666667 21,6666667 21,6667 Yest_sup 41,7689 5,10225739 6,96892406 47,5022574 15,1022574 18,9689241 22,8909426 22,8909426 22,8909 col 3 col 4 col 5 col 6 prévInf= prév= prévSup= -1,06025402 0,0000 1,0603 Le calcul montre qu’au point de coordonnées x = (x1 ,..., x p ) du domaine expérimental L’intervalle de confiance à 95% de la réponse Yest est égal à [Yest_inf ;Yest_sup] où Yest=xb ; Yest_inf =Yest –r ; Yest_inf =Yest –r Et r = InvLoiStud (0.025, n − p ) * s * 1 + xDisper t x la fonction d ( x) = 1 + xDisper t x est appelée fonction d’erreur la macro vous offre la possibilité de calculer la prévision en un nouveau point que vous définirez par ses coordonnées col1, col2 ,...,colp, puis exécuter les calculs. Remarque : Dans la feuille de Résultats vous disposez de tous les paramètres utiles au calcul de l’intervalle de confiance précédent : - InvLoiStud (0.025, n − p ) est le nombre tc de PREVISIONS -s est le paramètre écartyp_est du tableau contenant le R² -Disper est la matrice de Dispersion vous pouvez ainsi récupérer toutes ces données pour calculer vos propres valeurs. L.Gulli Macro Excel RSM Page 10 sur 10 Orléans 30/03/2003