Analyse de données – examen final
Transcription
Analyse de données – examen final
Analyse de données – examen final durée : 2 heures — documents non autorisés lundi 4 janvier 2016 Note les parties 1 et 2 sont indépendantes, mais les données en sont les mêmes. On s’attachera à justifier autant que possible les réponses, tout en évitant de faire du « remplissage » ; la note tiendra compte de la qualité de la rédaction. 1 ACM : enquête sur les clients d’une banque (10 points) On veut analyser des données relatives à une enquête réalisée sur 810 clients d’une banque. On s’intéresse tout d’abord aux variables suivantes — crcon : a des crédits à la consommation ? (0 (non), 1 (<20000F), 3 (≥20000F)) — crhab : a des crédits immobiliers ? (0 (non), 1 (oui)) — port : a un portefeuille de titres boursiers ? (0 (non), 1 (<20000F), 2 (≥20000F et<100000F), 3 (≥100000F)) — epliv : possède un livret d’épargne ? (0 (non), 1 (<20000F), 3 (≥20000F)) — eplog : possède un plan d’épargne logement ? (0 (non), 1 (<20000F), 3 (≥20000F)) — prfin : prélèvements par un organisme financier (0 (non), 1 (<1000F), 2 (≥1000F)) — prtre : prélèvement par le trésor public (0 (non), 1 (<1000F), 2 (≥1000F)) On donne ci-dessous un tableau de Burt partiel (variables crcon, crhab et port) avec des valeurs manquantes et les effectifs de toutes les modalités, variable par variable. crcon.0 crcon.1 crcon.3 crhab.0 crhab.1 port.0 port.1 port.2 port.3 1.1 crcon.0 crcon.1 crcon.3 crhab.0 crhab.1 port.0 port.1 port.2 port.3 685 0 NA NA 72 517 63 56 49 0 68 NA NA 8 66 1 1 0 NA NA NA NA NA 47 5 4 1 NA NA NA 718 0 565 54 54 45 72 8 NA 0 92 65 15 7 5 517 66 47 565 65 630 0 0 0 63 1 5 54 15 0 69 0 0 56 1 4 54 7 0 0 61 0 49 0 1 45 5 0 0 0 50 crcon crhab port epliv eplog prfin prtre 0:685 0:718 0:630 0:622 0:702 0:707 0:728 1: 68 1: 92 1: 69 1:144 1: 44 1: 47 1: 47 3: 57 2: 3: 3: 2: 2: 61 44 64 56 35 3: 50 Étude rapide des données (3 points) Question 1: Calculez les valeurs manquantes du tableau de Burt. Question 2: Citez 3 catégories dont on peut supposer qu’elles seront très importantes si on fait une ACM. On donnera les formules sur lesquelles on s’appuie. Question 3: On considère la paire de variables (port, crcon), pour laquelle on obtient une valeur de χ2 égale à 18.998. À partir de quelles données cette valeur a-t-elle été calculée ? À l’aide de la table donnée à la fin du sujet, déterminez avec la méthode habituelle si les variables sont liées. On expliquera le raisonnement suivi. 1.2 Analyse des correspondances multiples (4,5 points) On réalise une ACM sur les données complètes. Les 8 premières valeurs propres sont : [1] 0.2314 0.2168 0.1846 0.1562 0.1474 0.1391 0.1352 0.1318 On fournit ci-dessous les coordonnées sur les axes, les contributions aux axes et la qualité de la représentation par les sous-espaces factoriels (en 10000ièmes pour ces deux derniers) pour les catégories. J.-M. Lasgouttes — Cours d’analyse de données 2015-2016 — Université Paris I Panthéon–Sorbonne 1 crcon.0 crcon.1 crcon.3 crhab.0 crhab.1 port.0 port.1 port.2 port.3 epliv.0 epliv.1 epliv.3 eplog.0 eplog.1 eplog.3 prfin.0 prfin.1 prfin.2 prtre.0 prtre.1 prtre.2 Comp1 -0.15 1.42 0.11 0.07 -0.55 0.35 -1.23 -0.90 -1.62 0.24 -0.37 -2.21 0.20 -0.96 -1.58 -0.14 1.30 0.66 -0.07 1.64 -0.69 Comp2 0.23 -1.32 -1.18 0.13 -0.99 0.05 -0.19 -0.57 0.40 0.29 -1.26 0.03 0.17 -0.65 -1.43 0.15 -1.20 -0.93 0.20 -1.78 -1.71 Comp3 -0.02 -0.78 1.21 -0.18 1.39 0.07 0.71 -0.48 -1.23 0.21 -0.52 -1.28 0.01 1.15 -0.93 0.01 -1.49 1.12 -0.03 -0.95 1.86 Comp4 0.04 -0.62 0.26 0.06 -0.48 -0.02 0.11 1.38 -1.61 -0.06 0.67 -1.32 -0.09 2.08 -0.48 0.06 0.95 -1.57 0.08 -0.61 -0.85 crcon.0 crcon.1 crcon.3 crhab.0 crhab.1 port.0 port.1 port.2 port.3 epliv.0 epliv.1 epliv.3 eplog.0 eplog.1 eplog.3 prfin.0 prfin.1 prfin.2 prtre.0 prtre.1 prtre.2 Comp1 Comp2 Comp3 Comp4 118 293 4 12 1044 959 395 296 5 650 803 45 27 94 219 31 209 737 1708 241 588 10 26 2 792 21 332 10 377 162 132 1305 995 64 724 1462 278 421 265 26 151 1851 372 720 1637 0 692 867 224 169 1 60 311 154 554 2153 1219 1071 530 166 104 135 1 30 607 546 996 480 188 392 675 1561 29 230 5 53 967 1206 409 197 128 834 1157 284 crcon.0 crcon.1 crcon.3 crhab.0 crhab.1 port.0 port.1 port.2 port.3 epliv.0 epliv.1 epliv.3 eplog.0 eplog.1 eplog.3 prfin.0 prfin.1 prfin.2 prtre.0 prtre.1 prtre.2 Comp1 Comp2 Comp3 Comp4 1234 4114 4145 4232 1846 3435 3992 4346 9 1071 2186 2239 382 1644 4135 4432 382 1644 4135 4432 4285 4356 4509 4520 1402 1437 1906 1918 661 927 1112 2655 1718 1822 2819 4523 1943 4698 6174 6296 298 3714 4300 5257 2805 2805 3751 4753 2719 4637 4648 5137 533 779 1536 4026 2144 3909 4653 4850 1329 2934 2941 3198 1044 1925 3292 3849 327 966 1903 3737 470 3913 3982 4552 1664 3607 4168 4397 217 1540 3103 3427 Question 4: Combien d’axes propres faut-il normalement conserver ? Quelle proportion de l’inertie est expliquée par le sous-espace propre correspondant ? Question 5: Quelles sont les catégories qui déterminent les quatre premiers axes principaux ? (on détaillera les critères et on cherchera à être précis dans la réponse). Question 6: Que peut-on dire de la qualité de la représentation des catégories par les quatre premiers axes ? On expliquera les critères utilisés. 1.3 Catégories supplémentaires (3 points) On cherche à préciser les caractéristiques des axes en termes de type de client. On s’intéresse donc aux variables supplémentaires suivantes : — csp : agric (agriculteur), artis (artisan), cadsu (cadre supérieur), emplo (employé), etudi (étudiant), inact (inactif), inter (profession intermédiaire), ouvri (ouvrier), retra (retraité) ; — age du client : ai25 [18, 25[, ai35 [25, 35[, ai45 [35, 45[, ai55 [45, 55[, ai75 [55, 75[ ; — sexe du client : hom, fem ; — duree depuis laquelle la personne est cliente : dm2 (moins de 2 ans), d24 (de 2 à 4 ans), d48 (de 4 à 8 ans), d812 (de 8 à 12 ans), dp12 (plus de 12 ans) ; — oppo : a déjà fait opposition à un chèque ? (oui, non) ; — interdit : a déjà été interdit bancaire ? (oui, non) ; — cableue : possède une carte bleue ? (oui, non) Les effectifs des catégories supplémentaires et les valeurs test correspondantes sont données ci-dessous. csp.agric csp.artis csp.cadsu csp.emplo csp.etudi csp.inact csp.inter csp.ouvri csp.retra age.ai25 age.ai35 age.ai45 age.ai55 age.ai75 Eff 29 48 103 151 57 85 102 183 52 90 156 212 174 178 sexe.fem sexe.hom duree.dm2 duree.d24 duree.d48 duree.d812 duree.dp12 oppo.non oppo.oui interdit.non interdit.oui cableue.non cableue.oui Eff 252 558 91 132 207 144 236 752 58 752 58 567 243 csp.agric csp.artis csp.cadsu csp.emplo csp.etudi csp.inact csp.inter csp.ouvri csp.retra age.ai25 age.ai35 age.ai45 age.ai55 age.ai75 Axis1 -1.54 -2.05 -2.47 2.45 1.31 -2.04 -1.72 5.82 -3.80 2.01 5.12 1.67 -0.27 -7.91 Axis2 -2.23 0.98 -0.05 -1.17 3.70 2.76 -4.14 -0.15 1.20 4.95 -0.85 -2.78 -1.19 1.19 Axis3 0.11 2.33 1.93 -0.75 0.68 -1.90 1.15 0.18 -3.95 1.10 0.86 1.57 0.56 -3.87 Axis4 -1.13 -0.78 -0.17 0.99 2.18 1.34 -0.04 -1.76 -0.63 2.07 0.46 -1.54 0.64 -1.01 sexe.fem sexe.hom duree.dm2 duree.d24 duree.d48 duree.d812 duree.dp12 oppo.non oppo.oui interdit.non interdit.oui cableue.non cableue.oui Axis1 -1.57 1.57 1.60 0.30 0.76 1.49 -3.33 -0.33 0.33 -1.57 1.57 -1.00 1.00 Axis2 2.33 -2.33 4.78 4.02 -0.09 -2.04 -4.79 4.00 -4.00 -3.29 3.29 8.19 -8.19 Axis3 -4.12 4.12 1.33 -0.60 0.28 0.06 -0.75 -0.03 0.03 1.30 -1.30 -2.72 2.72 Axis4 3.51 -3.51 1.25 0.80 0.22 0.18 -1.88 2.16 -2.16 0.76 -0.76 -1.05 1.05 Question 7: À quoi servent les valeurs test ? Peut-on les utiliser ici ? Question 8: Quelles sont les catégories supplémentaires qui sont significatives sur les 4 premiers axes ? On précisera les critères utilisés. Question 9: Comment peut-on interpréter les 4 premiers axes ? J.-M. Lasgouttes — Cours d’analyse de données 2015-2016 — Université Paris I Panthéon–Sorbonne 2 Question 10: Expliquez en quoi il est intéressant d’avoir l’age sous forme de variable qualitative plutôt que quantitative. Quels phénomènes différents cela permet-il de mesurer ? 2 Relation entre la catégorie socio-professionnelle et l’ancienneté du client (4,5 points) On regarde ici uniquement les variables duree et csp déjà décrites en section 1.3. Le tableau de contingence correspondant et le tableau des contributions au χ2 sont donnés ci-dessous. dm2 d24 d48 d812 dp12 2.1 agric artis cadsu emplo etudi inact inter ouvri retra 3 7 13 13 12 15 12 12 4 6 3 19 19 23 14 14 26 8 6 15 32 38 20 22 19 46 9 3 13 9 28 1 15 25 43 7 11 10 30 53 1 19 32 56 24 dm2 d24 d48 d812 dp12 agric artis cadsu emplo etudi inact inter ouvri retra 0.0 0.5 0.2 0.9 4.9 3.1 0.0 3.6 0.6 0.3 3.0 0.3 1.3 20.2 0.0 0.4 0.5 0.0 0.3 0.6 1.2 0.0 2.0 0.0 1.9 0.0 1.4 0.9 2.3 4.7 0.0 8.2 0.0 2.6 3.4 0.5 0.8 1.1 0.0 1.8 14.7 1.3 0.2 0.1 5.2 Analyse rapide des données (1,5 points) Question 11: Montrer que la proportion d’étudiants qui sont clients depuis moins de 4 ans est plus grande que la proportion de retraités qui sont clients depuis plus de 12 ans. Question 12: Expliquez pourquoi la variable etudi va probablement être un problème dans l’analyse. On propose de retirer la colonne correspondante du tableau. À quoi cela correspond-il sur les données initiales de clients ? 2.2 Analyse factorielle des correspondances (3 points) On réalise une analyse factorielle des correspondances de ce tableau. On donne ci-dessous, pour les deux premiers axes, la représentation des modalités, leurs poids, leurs contributions aux axes et leur qualité de représentation par les axes. d = 0.2 retra dp12 d812 ouvri dm2 d24 d48 d812 dp12 Poids 1049 1448 2483 1899 3121 emplo inter agric d24 d48 cadsu artis inact agric artis cadsu emplo inact inter ouvri retra Poids 385 637 1368 2005 1129 1355 2430 691 dm2 d24 d48 d812 dp12 Axis1 Axis2 0 4266 1837 71 0 1489 6874 495 1288 3679 agric artis cadsu emplo inact inter ouvri retra Comp1 Comp2 1284 44 2713 990 3013 1894 13 574 4 3447 736 179 895 971 1341 1902 dm2 d24 d48 d812 dp12 Axis1 Axis2 0 7791 6641 244 0 4569 9206 633 2545 6935 agric artis cadsu emplo inact inter ouvri retra Comp1 Comp2 8833 288 6650 2317 5825 3495 140 5827 12 8646 3756 871 3324 3445 3796 5137 dm2 Question 13: Quelles sont les catégories qui déterminent les 2 premiers axes principaux ? (on détaillera les critères et on cherchera à être précis dans la réponse). Question 14: Comment peut-on réintroduire la variable etudi dans l’analyse ? On expliquera comment on pourrait calculer ses coordonnées par analogie avec les catégories supplémentaires de l’ACM. Question 15: Commentez pour le premier plan principal la qualité de représentation de inter et ouvri d’une part, et d48 et dp12 d’autre part. Que peut-on dire de la proximité de inter et emplo ? 3 Calcul de variables supplémentaires via un tableau de Burt (5 points) On considère une analyse des correspondances multiples d’un tableau disjonctif X représentant p variables dont les effectifs marginaux sont donnés par la matrice diagonale D. On a vu dans le cours qu’il est possible de placer des variables supplémentaires qualitatives directement sur la projection sur un plan factoriel en utilisant la formule de barycentre des individus : si on veut placer une variable supplémentaire de tableau disjonctif Xsup et d’effectifs marginaux Dsup , on calcule les coordonnées de ses modalités sur un axe principal (associé à la valeur propre µ) par 1 asup = √ D−1 X0 c, µ sup sup J.-M. Lasgouttes — Cours d’analyse de données 2015-2016 — Université Paris I Panthéon–Sorbonne 3 où c = (c1 , . . . , cn ) représente les coordonnées des individus sur ce même axe. On sait que cette formule peut se réécrire plus simplement, pour une catégorie s de la variable supplémentaire sup, d’effectif total ns , comme as = 1 √ X ns µ ci . i dans la catégorie s On voudrait obtenir ici une nouvelle formule en fonction des tables de contingences entre les variables actives et la variable supplémentaire, c’est-à-dire sans utiliser les ci détaillés des individus. On demande d’être très précis dans les notations mathématiques employées Question 16: Exprimez la seconde formule barycentrique c = d’une somme. √1 1 Xa µp comme ci-dessus en écrivant ci sous forme Question 17: En déduire que 1 as = pns µ X X i dans la catég. s aj . j catég. de i Question 18: En déduire comment exprimer as en fonction de µ, p, ns , des effectifs croisés njs entre la catégorie supplémentaire s et les catégories actives j et bien sûr des coordonnées factorielles des catégories aj . χ 2 TABLE DU CHI-DEUX : χ2(n) n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 p p 0.90 0.80 0.70 0.50 0.30 0.20 0.10 0.05 0.02 0.01 0,0158 0,211 0,584 1,064 1,610 2,204 2,833 3,490 4,168 4,865 0,0642 0,446 1,005 1,649 2,343 3,070 3,822 4,594 5,380 6,179 0,148 0,713 1,424 2,195 3,000 3,828 4,671 5,527 6,393 7,267 0,455 1,386 2,366 3,357 4,351 5,348 6,346 7,344 8,343 9,342 1,074 2,408 3,665 4,878 6,064 7,231 8,383 9,524 10,656 11,781 1,642 3,219 4,642 5,989 7,289 8,558 9,803 11,030 12,242 13,442 2,706 4,605 6,251 7,779 9,236 10,645 12,017 13,362 14,684 15,987 3,841 5,991 7,815 9,488 11,070 12,592 14,067 15,507 16,919 18,307 5,412 7,824 9,837 11,668 13,388 15,033 16,622 18,168 19,679 21,161 6,635 9,210 11,341 13,277 15,086 16,812 18,475 20,090 21,666 23,209 5,578 6,304 7,042 7,790 8,547 9,312 10,085 10,865 11,651 12,443 6,989 7,807 8,634 9,467 10,307 11,152 12,002 12,857 13,716 14,578 8,148 9,034 9,926 10,821 11,721 12,624 13,531 14,440 15,352 16,266 10,341 11,340 12,340 13,339 14,339 15,338 16,338 17,338 18,338 19,337 12,899 14,011 15,119 16,222 17,322 18,418 19,511 20,601 21,689 22,775 14,631 15,812 16,985 18,151 19,311 20,465 21,615 22,760 23,900 25,038 17,275 18,549 19,812 21,064 22,307 23,542 24,769 25,989 27,204 28,412 19,675 21,026 22,362 23,685 24,996 26,296 27,587 28,869 30,144 31,410 22,618 24,054 25,472 26,873 28,259 29,633 30,995 32,346 33,687 35,020 24,725 26,217 27,688 29,141 30,578 32,000 33,409 34,805 36,191 37,566 13,240 14,041 14,848 15,659 16,473 17,292 18,114 18,939 19,768 20,599 15,445 16,314 17,187 18,062 18,940 19,820 20,703 21,588 22,475 23,364 17,182 18,101 19,021 19,943 20,867 21,792 22,719 23,647 24,577 25,508 20,337 21,337 22,337 23,337 24,337 25,336 26,336 27,336 28,336 29,336 23,858 24,939 26,018 27,096 28,172 29,246 30,319 31,391 32,461 33,530 26,171 27,301 28,429 29,553 30,675 31,795 32,912 34,027 35,139 36,250 29,615 30,813 32,007 33,196 34,382 35,563 36,741 37,916 39,087 40,256 32,671 33,924 35,172 36,415 37,652 38,885 40,113 41,337 42,557 43,773 36,343 37,659 38,968 40,270 41,566 42,856 44,140 45,419 46,693 47,962 38,932 40,289 41,638 42,980 44,314 45,642 46,963 48,278 49,588 50,892 Pour n > 30, on peut admettre que 2χ2 - 2n-1 ≈ N(0,1) J.-M. Lasgouttes — Cours d’analyse de données 2015-2016 — Université Paris I Panthéon–Sorbonne 4