Décomposition de la Variance
Transcription
Décomposition de la Variance
Leçon 3 Décomposition de la Variance Nous avons choisi de représenter les écarts par un calcul de variance et non pas par un calcul d’écart absolu moyen. La principale raison que j’avais donné pour ce choix était qu’on pouvait en tirer des conséquences utiles et faciles à comprendre. Cette leçon expose deux des méthodes qui s’appuient sur directement sur ce choix. Nous présenterons tout d’abord la théorie à partir d’un exemple, puis nous démontrerons la formule de décomposition de la variannce, enfin nous montrerons comment cette formule a pu être utilisée pour traiter des cas réels dans une troisième partie. I La théorie expliquée à partir d’un exemple Faisons une petite statistique sur les éclairs au chocolat. J’observe dans, disons 50 pâtisseries, le prix de l’éclair au chocolat : 2 N° patisserie prix prix 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 1,83 1,83 1,40 1,46 1,36 1,65 1,61 1,62 1,39 1,40 1,74 1,63 1,56 1,72 1,40 1,75 1,82 1,66 1,60 1,79 1,42 1,54 1,62 1,74 1,52 3,3489 3,3489 1,9600 2,1316 1,8496 2,7225 2,5921 2,6244 1,9321 1,9600 3,0276 2,6569 2,4336 2,9584 1,9600 3,0625 3,3124 2,7556 2,5600 3,2041 2,0164 2,3716 2,6244 3,0276 2,3104 2 N° patisserie prix prix 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 total 1,55 1,56 1,79 1,58 1,64 1,23 1,22 1,23 1,30 1,26 1,32 1,26 1,31 1,16 1,27 1,19 1,35 1,33 1,20 1,23 1,31 1,34 1,24 1,33 1,20 73,46 2,4025 2,4336 3,2041 2,4964 2,7225 1,5129 1,4884 1,5129 1,6900 1,5876 1,7424 1,5876 1,7161 1,3456 1,6129 1,4161 1,8225 1,7689 1,4400 1,5129 1,7161 1,7956 1,5376 1,7689 1,4400 110,0257 Je n’ai aucune idée sur le prix "normal" de l’éclair au chocolat, car j’ai cessé de m’y intéresser depuis que ma belle mère, ... mais ça, c’est une autre histoire. Cependant, je m’aperçois assez vite qu’il y a des endroits où l’éclair est plus cher que dans d’autres : si je calcule • le prix moyen des éclairs sur mes cinquante pâtisseries, je trouve 73.46 50 = 1.4692 = 1.477 euros. • la variance du prix des éclairs, je trouve 110.0257 − (1.47)2 = 0.04196536 : c’est la preuve qu’il y a des 50 différences de prix entre les pâtisseries : certaines pâtisseries vendent plus cher que 1.47 euros, d’autres moins cher 1 Prenons des notations suivantes : numérotons les pâtisseries par un indice i variant de 1 à 50, pour chaque pâtisserie i, appelons Xi le prix de l’éclair au chocolat dans cette pâtisserie. appelons x̄ le prix moyen de l’éclair dans l’ensemble des pâtisseries. : appelons σ 2 la variance du prix de l’éclair au chocolat ici, x̄ = 1, 47 et σ 2 = 0.04196536 Pour la pâtisserie numéro i, je peux écrire : xi = x̄ + (xi − x̄) Le premier terme, c’est ce qu’il y a de commun à tous les éclairs au chocolat : le prix "normal" d’un éclair au chocolat est de x̄ = 1.47 euros. Le second terme, c’est ce qui est spécifique à la pâtisserie numéro i : si (xi − x̄) est positif, elle vend plus cher que la moyenne, si (xi − x̄) est négatif, elle vend moins cher que la moyenne. xi = x̄ + (xi − x̄) composante composante commune spécif ique Les individus un peu prétentieux diront que l’on a décomposé la variable en une composante commune et une composante spécifique. Reste que rien ne vient expliquer ces différences de prix. Evidemment, il y a les "bons" et les "mauvais" patissiers. Mais dans l’éclair au chocolat, cette explication ne tient pas longtemps, tous les éclairs sont à peu prés équivalents dans la médiocrité. Bien sur, on peut penser que ces différences de prix sont dus à • une différence entre les Boulangeries-pâtisseries d’une part et les pâtisseries-Salon-de-thé d’autre part • une différence de localisation : Rive droite - Rive gauche • une différence sur la qualité du produit : pâtisserie Industrielle - Fait Maison Certaines de ces explications ne sont pas pertinentes, sont sans intérêt, d’autres ont du sens. Le problème de cette leçon est de savoir distinguer entre ces explications. Nous donnerons ici deux approches complémentaires de cette question 1) composante commune et spécifique Reprenons le problème : ce qu’il faut expliquer ici, c’est la composante spécifique, c’est à dire pour chaque pâtisserie, l’importance de (xi − x̄). De maniére agrégée, on va mesurer ce que l’on doit expliquer par n X Doit être expliqué = (xi − x̄)2 = nσ2 i=1 Prenons l’explication de la qualité de la boutique, et distinguons les pâtisseries-salon-de-thé (qui sont au nombre de n1 = 30 dans l’échantillon) des boulangeries-pâtisserie (qui sont au nombre de n2 = 20 dans l’échantillon) 2 Patisserie-salon de thé boulangerie-patisserie 2 N° patisserie prix prix 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 total 1,83 1,83 1,40 1,46 1,36 1,65 1,61 1,62 1,39 1,40 1,74 1,63 1,56 1,72 1,40 1,75 1,82 1,66 1,60 1,79 1,42 1,54 1,62 1,74 1,52 1,55 1,56 1,79 1,58 1,64 48,18 3,3489 3,3489 1,9600 2,1316 1,8496 2,7225 2,5921 2,6244 1,9321 1,9600 3,0276 2,6569 2,4336 2,9584 1,9600 3,0625 3,3124 2,7556 2,5600 3,2041 2,0164 2,3716 2,6244 3,0276 2,3104 2,4025 2,4336 3,2041 2,4964 2,7225 78,0107 2 N° patisserie prix prix 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 total 1,23 1,22 1,23 1,30 1,26 1,32 1,26 1,31 1,16 1,27 1,19 1,35 1,33 1,20 1,23 1,31 1,34 1,24 1,33 1,20 25,28 1,5129 1,4884 1,5129 1,6900 1,5876 1,7424 1,5876 1,7161 1,3456 1,6129 1,4161 1,8225 1,7689 1,4400 1,5129 1,7161 1,7956 1,5376 1,7689 1,4400 32,0150 Pour les n1 = 30 pâtisseries-salon-de-thé, je peux calculer le prix moyen et la variance du prix de l’éclair au chocolat : x̄1 = 48.18 30 σ 21 = = 1.606 78.0107 30 − (1.606)2 = 0.02112067 Pour les n2 = 20 boulangeries-pâtisseries, je peux calculer le prix moyen et la variance du prix de l’éclair au chocolat : x̄2 = 25.28 20 σ 22 = = 1.264 32.0150 20 − (1.264)2 = 0.003054 On voit bien sur les données que dans chacun des deux groupes, il n’y a pas un prix unique. On peut trouver une évaluation de ce fait dans les variances "internes à chaque groupe" (σ 21 n’est pas nul et σ 22 non plus). Evidemment, on pourrait recommencer notre décomposition en élément commun et spécifique et considérons par exemple une pâtisserie-salon de thé repérée par l’indice i . On peut écrire : xi = x̄ composante commune à tous les établissements + (x̄1 − x̄) composante commune à toutes les pâtisseries-salon de thé + (xi − x̄1 ) composante spécifique à l’établissement i Nous avons donc "expliqué" le prix dans l’établissement i en le décomposant entre ½ une composante commune une composante spécifique x̄ + (x̄1 − x̄) (xi − x̄1 ) 3 Reste à expliquer la composante spécifique, c’est à dire, en reprenant le raisonnement précédent, pour chaque pâtisserie-salon de thé, l’importance de (xi − x̄1 ). De maniére agrégée, on va mesurer ce que l’on doit expliquer par 30 X Doit être expliqué = (xi − x̄1 )2 = 30σ 21 = n1 σ 21 i=1 Ce que nous avons fait pour les pâtisseries-salon de thé peut être fait pour les boulangeries-pâtisseries, il nous restera à expliquer la composante spécifique, et de manière agrégée : Doit être expliqué = 50 X (xi − x̄2 )2 = 20σ 22 = n2 σ 22 i=31 Résumons nous : Doit être expliqué au départ Reste à expliquer à l’arivée 50σ 2 30σ 21 + 20σ 22 nσ2 n1 σ 21 + n2 σ 22 Pour savoir dans quelle mesure le schmilblick a progressé , on calcule le rapport des deux termes : 30σ 21 +20σ 22 50σ 2 = n1 σ 21 +n2 σ 22 nσ 2 = ( nn1 σ 21 + n2 2 2 n σ 2 )/σ Dans notre exemple, le dénominateur de cette fraction vaut n1 2 n σ1 + n2 2 n σ2 = 30 50 0.02112067 + 20 50 0.003054 = 0, 013894 Il est clair que plus ce rapport est petit, plus ce qui reste à expliquer est faible devant la tache qui nous attendait au départ. 2) quelle information ? Marcel rentre à la maison et annonce fièrement qu’il a acheté des éclairs au chocolat. Il ne donne aucune information sur le prix payé, et la meilleure estimation du prix est x̄ = 1.47 euros pièce. Mais d’un coup d’oeil sur l’emballage j’apprends qu’il a acheté dans une pâtisserie-salon de thé. Mon estimation du prix change et maintenant je peux estimer qu’il a payé par x̄1 = 1.606. 4 Tout compte fait, je considère ainsi une variable fictive, Y qui assigne ½ à chaque pâtisserie-salon de thé i un prix yi = x̄1 = 1.606 à chaque boulangerie-pâtisserie i un prix yi = x̄2 = 1.264 Evidemment, cette variable Y qui donne à chaque établissement un prix estimé n’est jamais égale à la variable X qui donne à chaque établissement son prix réel, mais Y capture une certaine partie de la réalité, la preuve, c’est que Y est "dispersée" entre les établissements et reconstitue une partie de la dispersion de la variable X. Calculons alors les caractéristiques de Y : pour calculer les moyennes et vartiances de Y , il faut calculer la somme des yi et celle des yi2 . Comme Y est constante à l’intérieur du même groupe d’établissement, le calcul est très simple : Type d’établissement pâtisserie-salon de thé Boulangerie-pâtisserie valeur commune de Y x̄1 = 1.606 x̄2 = 1.264 Total La moyenne de la variable Y est de La variance de Y est de 109,331 50 73.46 50 effectif ef f ectif ∗ valeur n1 = 30 n2 = 20 n = 50 n1 x̄1 = 48.18 n2 x̄2 = 25.28 73.46 ef f ectif ∗ valeur 2 n1 x̄21 = 77.37708 n2 x̄22 = 31.95392 109.331 = 1.4692 = 1, 47 : c’est la même que précédemment. − (1, 4692)2 = 2, 18662 − 2, 15854864 = 0, 02807136 Notons qu’on aurait pu calculer la variance de Y en calculant la somme des carrés des écarts à la moyenne : Type d’établissement pâtisserie-salon de thé Boulangerie-pâtisserie valeur commune de Y x̄1 x̄2 Total effectif n1 n2 n ef f ectif ∗ (valeur − moyenne)2 n1 (x̄1 − x̄)2 = n2 (x̄2 − x̄)2 = nV (Y ) = n1 (x̄1 − x̄)2 + n2 (x̄2 − x̄)2 On aurait obtenu une formule équivalente pour la variance de Y : V (Y ) = n1 n (x̄1 − x̄)2 + n2 n (x̄2 − x̄)2 formule qui nous servira au second chapître. 3) réconciliation des points de vue Un premier raisonnement nous a fait calcule ce qu’il reste à expliquer après la distinction entre les deux types d’établissements : il reste à expliquer la quantité n1 2 n σ1 + n2 2 n σ2 = 0, 013894 le second raisonnement nous a fait calculer "ce que l’on explique" par la distinction entre les deux types d’établissement On a expliqué la quantité V (Y ) = n1 2 n x̄1 + n2 2 n x̄2 − x̄2 = n1 n (x̄1 − x̄)2 + n2 n (x̄2 − x̄)2 = 0, 02807136 Il serait de bon goût que la somme de ce qui reste à expliquer et de ce que l’on a expliqué soit égale la somme totale que l’on devait expliquer au départ , c’est à dire que 0, 013894 + 0, 02807136 = 0.04196536 5 ce qui est vrai, et c’est un miracle, connu sous le nom de formules d 0 analyse de la variance qui fait et fera l’objet de multiples applications, en particulier à l’examen. II la théorie et les formules Supposons une population répartie en deux groupes d’individus sur laquelle est définie la variable X telle que Population effectif moyenne variance Groupe 1 n1 x̄1 σ 21 Groupe 2 n2 x̄2 σ 22 Total n x̄ σ2 dans ces conditions, on a : FORMULEs d’ANALYSE DE LA VARIANCE (a) n = n1 + n2 (b) x̄ = (c) n1 n x̄1 + n2 n x̄2 2 £n 2 σ = n1 σ 1 + ou 2 £ n1 2 σ = n σ1 + n1 2 n σ2 n1 2 n σ2 ¤ ¤ + + £ n1 n £ n1 n x̄21 + n2 2 n x̄2 − x̄2 (x̄1 − x̄)2 + ¤ n2 n (x̄2 − x̄)2 ¤ La formule (a) n’appelle aucun commentaire particulier, elle exprime une tautologie : le tout est la somme de ses parties. La formule (b) exprime le fait que la moyenne totale est la "moyenne pondérée" des moyennes de groupe. Evidemment, si les groupes sont de tailles très différentes, on peut s’attendre à ce que la moyenne de l’ensemble soit plus proche de la moyenne du groupe le plus gros. Il faut se méfier de cette formule anodine. Elle peut expliquer l’existence de nombreux paradoxes dont nous donnerons deux exemples Dans la France du Nord, la consommation moyenne de pommes de terre des familles d’ouvriers est de 50 kilos par personne et par an, bien supérieure à celle des familles d’employés qui n’est que de 40 kilos par personne et par an Dans la France du Sud, la consommation moyenne de pommes de terre des ouvriers est de 30 kilos par personne et par an, bien supérieure à celle des familles d’employés qui n’est que de 20 kilos par personne et par an. Pourtant dans la France entière, la consommation moyenne de pommes de terre des familles d’ouvriers est inférieure à celle des familles d’employés Ce paradoxe tient au fait que la répartition des familles d’employés entre le Nord et le Sud de la France n’est pas la même que celle des ouvriers Supposons, en forçant le trait, la répartition suivante : Nord Sud OUVRIERS consommation effectifs moyenne 10 50 90 30 EMPLOYES consommation effectifs moyenne 90 40 10 20 Nord Sud 6 la consommation moyenne des ouvriers est de la consommation moyenne des employés est de 10 100 ∗ 50 + 90 100 90 100 ∗ 40 + ∗ 30 = 32 kilos par famille 10 100 ∗ 20 = 38 kilos par famille Le deuxième exemple est celui des elections : Rodolphe et Albert sont les seuls candidats à une élection locale pour laquelle il n’y a que deux bureaux de vote (A et B). Un sondage d’opinion a montré que pour chacun des bureaux de vote, la proportion des ouvriers favorables à Rodolphe est supérieure à celle des employés favorables à Rodolphe, comme en témoigne le tableau suivant : Bureau de vote A B Proportion des ouvriers favorables à Rodolphe 0.60 0.30 Proportion des employés favorables à Rodolphe 0.50 0.20 dans le bureau A, 60% des ouvriers sont favorables à Rodolphe, ce qui est plus important que la proportion des employés favorables à Rodolphe qui n’est que de 50%. On fait le même constat pour le bureau B avec 30% des ouvriers favorables à Rodolphe contre 20 des employés. Peut-il se faire que dans l’ensemble des bureaux, la propoortion des ouvriers favorables à Rodolphe soit inférieure à la proportion des employés favorables à Rodolphe ? Là encore, tout dépend des effectifs : supposons la répartition suivante : Bureau de vote A B Ouvriers 10 90 Employés 90 10 Il y a évidemment 100 ouvriers et 100 employés dans la population totale. Les nombres d’ouvriers votant pour Rodolphe sont de 10 ∗ 0.6 = 6 pour le bureau A et 90 ∗ 0.3 = 27 dans le bureau B. Au total, 33 ouvriers sur 100 votent en faveur de Rodolphe Les nombres d’employés votant pour Rodolphe sont de 90 ∗ 0.4 = 36 pour le bureau A et 10 ∗ 0.3 = 3 dans le bureau B. Au total, 39 employés sur 100 votent en faveur de Rodolphe Ainsi, lorsqu’une population est morcelée en différents groupes, il faut absolument tenir compte des effectifs des groupes, sinon on risque fort de proférer des résultats faux. la formule (c) est la plus astucieuse. Elle nous dit que la variance totale σ 2 est la somme de deux termes : n1 2 n σ1 + nn1 σ 22 : Ce premier terme est une moyenne des variances à l’intérieur des groupes. Nous avons vu que la décomposition de la population totale en deux groupes est d’autant plus justifiée que ce terme est faible. Cette grandeur reçoit différents noms selon les contextes, parmi lesquels : variance interne aux groupes variance intra-groupes variance résiduelle £ n1 ¤ £ ¤ x̄21 + nn2 x̄22 − x̄2 ou nn1 (x̄1 − x̄)2 + nn2 (x̄2 − x̄)2 : Ce terme, nous l’avons vu, est la variance de la variable qui serait constante sur chacun des groupes, assignant à chaque individu la valeur moyenne du groupe auquel il appartient.représente l’information que l’on peut tirer de la décomposition en deux groupes. Cette grandeur reçoit différents noms selon les contextes, parmi lesquels : n Variance entre les centres de groupe Variance Inter groupes Variance expliquée. 7 On pourra écrire, l’équation : Variance Totale = Variance Résiduelle + Variance Expliquée Reprenons notre histoire d’éclairs au chocolat : nous avons calculé : la Variance Résiduelle La Variance Expliquée La variance totale qui est la somme de ces deux résultats n1 2 n2 2 n σ 1 + n σ 2 = 0, 013894 n1 2 n2 2 2 n x̄1 + n x̄2 − x̄ = 0, 02807136 σ 2 = 0.04196536 Nous avons vu que la "qualité" de l’explication par la présence de deux groupes se mesure par le rapport de la Variance Résiduelle à la variance totale. Nous découvrons que ce coefficient est compris entre 0 et 1 : la qualité est d’autant meilleure que ce coefficient est proche de 0 Dans la pratique, on préfère donner son complément à 1 : c’est à dire le rapport de la variance expliquée à la variance totale Dans notre exemple, ce rapport vaut 0, 6689. C’est un nombre compris entre 0 et 1. La qualité de l’explication par la présence des deux groupes est d’autant meilleure que ce coefficient est proche de 1. On désigne généralement ce rapport par la notation R2 . Suivant les auteurs, on l’appelle "Rapport de corrélation" ou "Coefficient de détermination" ou ... 8 II la démonstration de la formule Le but de cette partie est de démontrer effectivement la formule de décomposition de la variance qui apparait comme miraculeuse. Commençons par rappeler un résultat que nous avons déjà vu dans la Leçon 2 : ( la célèbre formule de Konig) Considérons une population de n individus numérotés par i variant de 1 à n, sur laquelle est définieune variable quantitative Y : Pour chaque individu i on note Yi la valeur prise par Y sur cet individu. n X Yi La variance de Y est notée V ar(Y ) = 1 n La moyenne de Y est notée ȳ = 1 n i=1 n X (Yi − ȳ)2 i=1 On a alors, pour tout nombre a : n n X X (Yi − a)2 = (Yi − ȳ)2 + n(ȳ − a)2 i=1 i=1 n X (Yi − a)2 = nV ar(Y ) + n(ȳ − a)2 soit : i=1 reprenons alors nos deux groupes de personnes et les notations que nous avons utilisées au chapître précédent, ainsi que les formules que nous devons démontrer tout d’abord, les notations utilisées Population effectif moyenne variance Groupe 1 n1 x̄1 σ 21 Groupe 2 n2 x̄2 σ 22 Total n x̄ σ2 ensuite, les formules qu’il convient de démontrer : FORMULES de l’ANALYSE DE LA VARIANCE (a) n = n1 + n2 (b) x̄ = (c) σ2 = n1 n x̄1 £ n1 n + n2 n x̄2 σ21 + n1 2 n σ2 ¤ + £ n1 n x̄21 + n2 2 n x̄2 − x̄2 ¤ La formule (a) n = n1 + n2 est évidente. La formule (b) x̄ = n1 n x̄1 + n2 n x̄2 se démontre de la façon suivante : 9 Pour calculer la moyenne x̄ de la variable X, on calcule la somme des modalités observées n X xi et on i=1 la divise par l’effectif de la population. Il est facile d’en conclure que la somme des modalités observées est égale au produit n ∗ x̄ du nombre d’individus par la moyenne de la variable dans la population. Ce que nous venons de dire pour la population totale est valable pour chacune des sous populations : somme des modalités observées Groupe 1 Groupe 2 Total somme des modalités observées n1 x̄1 n2 x̄2 nx̄ = n1 x̄1 + n2 x̄2 En divisant la derniére ligne par n, on obtient la formule (b) : x̄ = La formule (c) σ2 = £ n1 n σ 21 + n1 2 n σ2 ¤ + £ n1 n x̄21 + n2 2 n x̄2 n1 n x̄1 + n2 n x̄2 ¤ − x̄2 s’obtient à partir de la formule de Koenig : Pour calculer σ2 , la variance totale de la variable X, il faut calculer la somme des carrés des écarts à la n X moyenne (xi − x̄)2 et la diviser par l’effectif de la population. Il est facile d’en conclure que la somme des i=1 carrés des écarts à la moyenne est égal au produit n ∗ σ 2 de l’effectif de la population par la variance. Pour le groupe 1, nous voulons calculer la somme des carrés des écarts, non pas à la moyenne x̄1 du groupe 1, mais la somme des carrés des écarts à la moyenne x̄ générale. Heureusement, la formule de Konig appliquée au Groupe 1 nous dit que pour tout nombre a, n1 n1 X X (Xi − a)2 = n1 (Xi − x̄1 )2 + n1 (x̄1 − a)2 = n1 σ 21 + n1 (x̄1 − a)2 i=1 i=1 Cette formule est valable pour tout nombre a, et en particulier pour x̄ : on obtient alors n1 X (Xi − x̄)2 = n1 σ 21 + n1 (x̄1 − x̄)2 i=1 C’est dire que nous pouvons écrire : Population Somme des carrés des écarts à la moyenne générale x̄ Groupe 1 n1 σ21 + n1 (x̄1 − x̄)2 Groupe 2 n2 σ22 + n2 (x̄2 − x̄)2 Totale £ ¤ £ ¤ nσ 2 = n1 σ 21 + n1 (x̄1 − x̄)2 + n2 σ 22 + n2 (x̄2 − x̄)2 En divisant la dernière ligne par l’effectif n, et en réarrangeant les différents termes, nous obtenons : σ2 = £ n1 n σ 21 + n2 2 n σ2 ¤ + £ n1 n (x̄1 − x̄)2 + n2 n (x̄2 − x̄)2 ¤ La variance totale est somme de deux termes : le premier, nous le connaissons, c’est ce que nous avons appelé la Variance Résiduelle. Le second, nous le connaissons aussi, c’est la variance expliquée. La formule de décomposition de la variance est donc démontrée 10 III A quoi sert cette formule : exemples d’applications Cette formule est d’un emploi très général en statistiques. Nous montrerons des exemples d’application directe en plusieurs méthodes de statistiques descriptives "avancées", qui sont enseignées dans le cours d’Analyse des Données, et qui sont une des suites logiques de ce programme. Nous survolerons ici des exemples de Construction de Typologie, d’Analyse Discriminante, car on peut comprendre l’application de ces méthodes avec les outils que nous avons développés. Il ne faut pas se cacher que dans la vie réelle comme on dit, la mise en oeuvre de ces méthodes demande de gros volumes de calcul et donc presque nécessairement l’utilisation d’un ordinateur. Ces méthodes sont programmées, et nombreux sont les logiciels qui proposent l’accés à ces ces méthodes de calcul. Certains sont gratuits, par exemple le logiciel ADE4 que l’on trouve gratuitement sur Internet, d’autres proposent un tarif "quasi gratuit" pour les étudiants (SPADN ) d’autres enfin sont des solutions professionnelles onéreuses (SAS, SPSS, ...) Cette formule est aussi d’un emploi tout à fait courant dans des domaines où l’on fait usage du cacul des probabilités : par exemple pour la construction de Sondages (d’opinion, ...) ou pour ce que l’on appelle l’Annalyse de la Variance. Helas, il faudrait avoir des connaissances plus importantes en théorie des probabilités (mais celles du cours A4 suffisent) pour comprendre où intervient réellement cette formule Reprenons les ingrédients de la formule : on a une population découpée en deux sous populations, une variable quantitative définie sur cette population et la formule permet de recalculer la moyenne et la variance de la population totale à partir de moyennes et variances des sous populations. Un coefficient, R2 , permet d’apprécier l’intérêt du découpage : il y a ici deux interprétations qui peuvent nous servir : a) soit, ce qui nous intéresse, c’est l’explication de la variable quantitative : on se demande donc en quoi le découpage en groupes permet d’expliquer les différentes valeurs de la variable quantitative. b) soit ce qui nous intéresse, c’est l’explication de la variable qualitative : on se demande donc en quoi la connaissance de la valeur prise par la variable quantitative permet d’inférer l’appartenance au groupe. 11 III.1 Typologie, Classifications Ici, on veut expliquer les écarts interindividuels d’une variable par la présence dans la population de plusieurs sous-groupes d’individus aux caractéristiques très différentes. Supposons, comme dans l’exemple suivant, que l’on dispose de 7 façons de découper la population en 2 groupes d’individus : Aprés un premier découpage, on peut récidiver, et obtenir ainsi 42 découpages différents, pui recommencer ,... Il n’est pas question d’explorer "à la main" les différents découpages, on va plutôt rechercher les découpages les plus pertinents à l’aide du critère précédent. L’exemple proposé ici est purement fictif : pour 95 logements à la vente, on dispose des variables suivantes : P A B C D E F G le prix au mètre carré Nombre de pièces (1= ≤ 2 piéces, 2 = 3 pièces ou plus ) proximité d’un espace naturel ( un parc, un bois, ..) (1 = NON, 2 = OUI) proximité des transports collectifs (1 = NON, 2 = OUI) proximité de l’école (1 = NON, 2 = OUI) Parking privatif (1 = NON, 2 = OUI) proximité des commerces (1 = NON, 2 = OUI) Etage (1 = rez de chaussée, 2 = étage ) le tableau ci dessous propose un extait du fichier des données, en annexe de cette leçon, on trouvera le tableau complet pour ceux qui voudraient refaire les calculs. N° 1 2 3 4 prix/m2 nb piece P A 1,293 2 1,820 2 1,754 2 2,112 1 parc B 1 2 2 1 trans C 2 1 2 2 ecole D 2 1 1 2 park E 1 2 1 1 comm F 1 1 2 2 étage G 1 2 2 1 Ainsi, l’appartement n◦ 3 est un appartement dont le prix au mètre carré est de 1.754, situé à proximité d’un espace vert, qui comporte au moins 3 pièces situé à proximité des transports collectifs situé plutôt loin de l’école ne dispose pas d’un parking privatif situé à proximité des commerces situé à l’étage et non au rez de chaussée. L’histogramme de la variable P, "prix au mètre carré", montre à l’évidence (encore le réflexe plusieurs modes, plusieurs populations ) qu’il y aurait en fait trois groupes d’appartements. 12 12 10 8 6 4 2 2, 46 9 2, 31 9 2, 16 9 2, 01 9 1, 86 9 1, 71 9 1, 56 9 1, 41 9 1, 26 9 1, 11 9 0 Pour identifier ces différents groupes, s’ils existent, il faudrait regarder les histogrammes de chacun des découpages en sous groupes proposés par les variables dichotomiques. Ici, le tavail n’est pas insurmontable, dans la mesure où l’on ne dispose que de 7 de ces variables, imaginez le cas où l’on disposerait d’une centaine de variables! Prenons par exemple le cas de la variable A, nombre de pièces du logement : 21 logements ont 2 pièces au plus, et 74 logements ont au moins trois pièces. les histogrammes de la distribution des prix dans chacun des groupes sont les suivants : 2 piéces au plus au moins trois pièces 1, 11 9 1, 26 9 1, 41 9 1, 56 9 1, 71 9 1, 86 9 2, 01 9 2, 16 9 2, 31 9 2, 46 9 0 2, 46 9 0 2, 31 9 2 2, 16 9 2 2, 01 9 4 1, 86 9 6 4 1, 71 9 6 1, 56 9 8 1, 41 9 10 8 1, 26 9 12 10 1, 11 9 12 On n’a pas vraiment l’impression d’avoir trouvé une explication à la dispersion des prix au mètre carré. Regardons alors avec le critère de la variance expliquée : Le tableau suivant donne tous les renseignements souhaités, : Population au plus au moins totale 2 pièces 3 pièces effectif 95 21 74 moyenne 1, 745041832 1, 781165048 1, 734790649 variance 0, 130594093 0, 131721498 0, 129798762 La variance expliquée par le découpage en 2 groupes selon le nombre de pièces est égale à 2 21∗74 952 (1, 781165048 − 1, 734790649) = 0, 000370306 ce qui conduit à un R2 = 0,000370306 0,130594093 = 0, 002835547 le nombre de pièces du logement n’explique en rien le prix au mètre carré. Examinons maintenant les autres variables dichotomiques selon le critére de la variance expliquée : effectif moyenne rappelons que dans la population totale, on a variance 13 95 1, 745041832 0, 130594093 variable effectifs moyennes variances % variance expliquée 1 21 1.781 0.1317 0.0028 2 74 1.735 0.1297 1 31 2.108 0.0547 B (espace vert) 0.4879 2 64 1.569 0.0728 1 13 1.405 0.0443 C (transports) 0.1403 2 82 1.799 0.1230 1 21 1.477 0.0480 D (école) 0.1557 2 74 1.821 0.1279 1 29 1.879 0.1592 E (parking) 0.0602 2 66 1.686 0.1067 1 35 1.404 0.0437 F (commerce) 0.5194 2 60 1.944 0.0739 1 37 1.453 0.0551 G (étage) 0.4178 2 58 1.932 0.0894 La "meilleure dichotomie" est obtenue en prenant la variable F (commerce), elle conduit à un R2 de 0.52. A (nbre piéces) pas de commerce à proximité commerces à proximité 10 12 8 10 8 6 6 4 4 2 46 9 2, 24 4 2, 01 9 2, 79 4 1, 56 9 1, 34 4 1, 11 9 1, 1, 11 9 1, 34 4 1, 56 9 1, 79 4 2, 01 9 2, 24 4 2, 46 9 2 0 0 Le découpage proposé permet d’identifier les appartements dont le prix au mètre caré est le plus bas. Reste la population des 60 logements qui n’ont pas d’espace vert à proximité. Dans cette population, la distribution du prix au mètre carré est clairement bimodale. Il va falloir redécouper l’ensemble des logements qui ont des commerces à proximité. On recommence donc l’opération précédente pour cette sous population. 14 effectif rappelons les caractéristiques de cette population : moyenne variance 60 1, 9440 0, 0739 La pertinence des découpages est calculée dans le tableau suivant : variable A (nbre piéces) B (espace vert) C (transports) D (école) E (parking) G (étage) effectifs moyennes variances 17 43 28 32 2 58 8 52 20 40 5 55 1.8813 1.9872 2.1722 1.7442 1.5222 1.9585 1.6572 1.9881 2.1104 1.8607 1.7682 1.9599 0.09223 0.06448 0.01145 0.04035 0.00605 0.06989 0.00833 0.06939 0.03668 0.07172 0.03913 0.07389 1 2 1 2 1 2 1 2 1 2 1 2 % variance expliquée 0.02099 0.6170 0.0830 0.1712 0.1875 0.0380 La variable B (proximité des espaces verts) est la variable la plus pertinente : les histogrammes des deux sous population viennent confirmer ce fait : commerces à proximité espaces verts à proximité 12 10 8 6 4 2 15 2, 46 9 2, 24 4 2, 01 9 1, 79 4 1, 56 9 1, 34 4 1, 11 9 2, 46 9 2, 24 4 2, 01 9 1, 79 4 1, 56 9 0 1, 34 4 1, 11 9 9 8 7 6 5 4 3 2 1 0 commerces à proximité pas d’espaces verts à proximité Le résultat final de notre étude peut se résumer ainsi : population totale commerce à proximité pas de commerce à proximité espace verts à proximité pas d’espace verts à proximité On doit donc considérer qu’il y a trois groupes d’appartements homogènes : ceux qui n’ont pas de commerces à proximité et qui sont les moins chers (au prix de mètre carré), ceux qui ont des commerces et des espaces verts à proximité, dont le prix est "moyen" et ceux qui sont proche des commerces et loin des espaces verts et qui sont les plus onéreux. On pourrait penser que l’on décrit ainsi le prix des logements d’une cité avec un centre historique très attractif (?) 16 III.2 Analyse discriminante Ici, nous faisons la démarche inverse de la précédente : nous voulons nous servir de la connaissance de la valeur prise par des variables quantitatives sur une population pour déduire l’appartenance d’un individu à un groupe. Pour comprendre comment fonctionne la méthode, donnons un exemple avec deux variables : on dispose de deux types de fleurs des roses de Tasmanie et des roses du Queensland. Rien ne les distingue si ce n’est la longueur du pétale (X) et la longueur du sépale (Y). Pour chaque rose i, je connais donc sa provenance (Tasmanie ou Queensland) la longueur de son pétale xi et la longueur de son sépale yi Représentons chacune des roses par un point sur le dessin : 180 y 160 140 120 100 Queensland Tasmanie 80 60 40 20 x 0 0 10 20 30 40 50 60 Evidemment, la connaissance de la valeur prise par la longueur du pétale xi ne permet pas de décider si une rose provient de Tasmanie ou du Queensland, il en est de mêm lorsqu’on connait la longueur yi du sépale. Par contre, il est clair que l’on peut tracer sur ce dessin une droite qui sépare le plan en deux parties : chacune de ces parties ne contient qu’un seul type de rose : 17 180 y 160 140 120 100 Queensland Tasmanie 80 60 40 20 x 0 0 10 20 30 40 50 60 cette droite passe visiblement par les points A(xA = 0; yA = 40) et B(xB = 60; yB = 160). Comme nous l’avons vu dans le cours A1, nous pouvons calculer l’équation de cette droite qui est y = 2x + 40 Cette droite sépare le plan en deux parties : la première contient les rose de Tasmanie : pour tous les points de ce demi-plan, on a y > 2x + 40 et la seconde partie contient toutes les roses du Queensland : pour tous les points de ce demi-plan, on a y < 2x + 40 : Ainsi, pour savoir si une rose i vient de Tasmanie ou du Queensland, il me suffit de calculer wi = yi − 2xi si cette quantité est inférieure à 40, la rose vient du Queensland, si wi est supérieur à 40, elle vient de Tasmanie. On obtient ici un exemple dans lequel chacune des deux variables X et Y ne discrimine pas entre les deux groupes (donne un R2 faible) alors qu’une nouvelle variable W calculée comme une combinaison linéaire de ces deux variables permet de discriminer parfaitement (R2 proche de 1) entre les deux groupes. Cette technique a été appliquée avec succés dans le cas du crédit scoring dont le principe est le suivant : Vous demandez un crédit à la consommation à une banque. Au guichet, on vous fait remplir un questionnaire sommaire demandant les valeurs d’un certain nombre de variables : X, le viveau de vos revenus (fiche de paye),Y le nombre de vos enfants,Z le loyer ou la valeur locative de votre habitation, ... Au vu du résultat de votre questionnaire, la réponse tombe : oui, vous avez le crédit, non vous ne l’avez pas. Comment cela fonctionne-t-il ? Evidemment, vous n’êtes pas le premier à demander un crédit. La banque possède un fichier comportant plusieurs milliers de questionaires rempli par des personnes qui ont déja fait des transactions avec la banque : A chacun de ces questionnaires on a pu rajouter un renseignement : appartient au groupe des personnes qui ont remboursé l’emprunt, appartient au groupe des personnes défaillantes. Pour chacune des variables du fichier, la banque peut calculer le R2 qui explique en quoi la connaissance de la variable peut renseigner sur l’appartenance au groupe. On peut très bien obtenir des résultats de la forme : 18 Variable Revenu Nbre d’enfants Valeur locative sigle X Y Z R2 0,21 0,14 0,17 Au vu de ces résultats, il apparait que chacune de ces variables n’explique que très faiblement l’appartenance au groupe. Cependant, on peut aussi utiliser une variable composite par exemple U = 0.4X + O.8Y − 0.3Z ; ou encore V = 0.2X − 0.4y + 0.3Z et obtenir variable composite 0.4X + O.8Y − 0.3Z 0.2X − 0.4y + 0.7Z −0.3X + 0.2y − 0.4Z R2 0.14 0.37 0.69 Ainsi la troisième variable "est celle qui dicscrimine le mieux" entre les deux groupes. Evidemment, vous allez me demander comment on fait pour trouver les coefficients. Je vous répondrai que d’une part, on explique dans le cours de cycle C d’analyse des données comment on fait pratiquement pour résoudre le problème mathématique de trouver "le ,jeu de coefficients" qui conduit au plus grand R2 .D’autre part, je vous répondrai que l’important ici, c’est de poser le problème : je cherche les valeurs que je dois donner aux trois nombres a, b et c pour que le R2 associé à la variable W = aX + bY + cZ soit le plus grand possible. Le reste, c’est affaire d’un mathématicien. Une fois que j’ai le "bon jeu de coefficients", je regarde si la variable que j’ai créée permet effectivement de discriminer entre les groupes : sur un échantillon test, je regarde la proportion de dossiers j’aurais accepté à tort en utilisant cette variable (pertes dues au non remboursement) et la proportion de dossiers que j’aurais refusé à tort (manque à gagner). Si ces deux proportions sont raisonnables, j’utilise ce critère pour accepter ou refuser un dossier On a essayé d’appliquer cette méthode comme comme une aide au diagnostic en milieu médical : le principe est le même, on prend un groupe de personnes saines et un groupe de personnes atteintes d’une maladie. Sur chacune de ces personnes, on mesure un certain nombre de variables (stature, poids, pression artérielle, température, ...) on cherche une combinaaison de ces critères qui permet de séparer les malades des personnes saines. Mais un médecin ne raisonne pas de la même façon qu’un banquier : vous me dites qu’il faut prendre le poids, enlever 0.47 fois la température et rajouter 1.48 fois la pression systolique : que faites vous de l’age du capitaine ? En général les formules que l’on trouve par ce procédé reçoivent peu d’interprétation concrètes. Je veux comprendre de quoi il s’agit dit le médecin, si je ne comprends pas, je n’autilise pas. Je ne suis pas intéressé à comprendre, je veux simplement être efficace et ne pas perdre d’argent pense le banquier, même si je ne comprends pas bien, j’utilise. Dans le même ordre d’idées, on a donné des procédures pour prendre en compte des variables qualitatives : ici, on a évidemment un problème du genre soit xi le stratut (célibataire, marié, divorcé, PACS, ... ) de la personne observée et yi son lieu d’habitation (commune rurale, commune urbaine, agglomération de moins de 20000 habitants, ..) qu’est-ce que cela veut dire de calculer 0.2xi + 0.78yi et surtout comment faire cette opération ? Laissons un peu de magie pour le cours de cycle C d’analyse des données. 19 N° 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 prix/m2 nb piece P A 1,293 2 1,820 2 1,754 2 2,112 1 1,892 1 2,200 2 2,168 2 1,981 2 1,392 2 1,671 2 2,278 2 1,284 2 1,989 1 1,305 2 1,427 2 2,260 2 2,099 2 1,780 2 2,128 2 2,165 2 2,115 1 1,385 2 1,280 1 1,325 2 1,653 2 1,460 2 1,669 2 2,383 2 1,989 1 1,300 2 1,789 1 2,241 2 1,044 1 1,840 2 2,256 2 2,224 1 2,049 1 1,670 2 1,389 2 1,754 1 1,118 2 2,069 2 2,187 2 1,531 2 2,152 2 1,500 2 1,444 2 1,933 1 parc B 1 2 2 1 1 2 1 2 2 2 1 2 1 2 2 1 1 2 1 1 1 1 2 2 2 2 2 1 1 2 2 1 2 1 1 1 1 2 2 2 2 2 1 2 1 2 2 2 trans C 2 1 2 2 2 2 2 2 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 1 2 2 2 2 2 1 2 ecole D 2 1 1 2 2 2 2 2 2 1 2 2 2 1 2 2 2 2 2 2 2 2 2 2 1 2 1 2 2 2 2 2 1 2 2 2 2 2 1 1 1 2 2 2 2 2 1 2 park E 1 2 1 1 2 1 1 2 1 2 1 2 2 2 1 1 1 2 2 1 1 2 2 2 2 2 2 1 2 1 2 2 1 1 1 2 2 2 2 2 2 2 1 2 1 2 2 2 20 comm F 1 1 2 2 2 2 2 2 1 1 2 1 2 1 1 2 2 2 2 2 2 1 2 1 2 1 2 2 2 1 1 2 1 1 2 2 2 2 1 2 1 2 2 2 2 1 2 2 étage G 1 2 2 1 2 2 2 2 1 1 2 2 2 1 1 2 2 2 2 2 2 1 2 1 2 1 2 2 2 1 1 2 1 1 2 2 2 1 1 2 1 2 2 1 2 1 2 2