Analyse de données – examen final

Transcription

Analyse de données – examen final
Analyse de données – examen final
durée : 2 heures — documents non autorisés
lundi 4 janvier 2016
Note les parties 1 et 2 sont indépendantes, mais les données en sont les mêmes. On s’attachera à justifier autant que
possible les réponses, tout en évitant de faire du « remplissage » ; la note tiendra compte de la qualité de la rédaction.
1
ACM : enquête sur les clients d’une banque (10 points)
On veut analyser des données relatives à une enquête réalisée sur 810 clients d’une banque. On s’intéresse tout
d’abord aux variables suivantes
— crcon : a des crédits à la consommation ? (0 (non), 1 (<20000F), 3 (≥20000F))
— crhab : a des crédits immobiliers ? (0 (non), 1 (oui))
— port : a un portefeuille de titres boursiers ? (0 (non), 1 (<20000F), 2 (≥20000F et<100000F), 3 (≥100000F))
— epliv : possède un livret d’épargne ? (0 (non), 1 (<20000F), 3 (≥20000F))
— eplog : possède un plan d’épargne logement ? (0 (non), 1 (<20000F), 3 (≥20000F))
— prfin : prélèvements par un organisme financier (0 (non), 1 (<1000F), 2 (≥1000F))
— prtre : prélèvement par le trésor public (0 (non), 1 (<1000F), 2 (≥1000F))
On donne ci-dessous un tableau de Burt partiel (variables crcon, crhab et port) avec des valeurs manquantes et les
effectifs de toutes les modalités, variable par variable.
crcon.0
crcon.1
crcon.3
crhab.0
crhab.1
port.0
port.1
port.2
port.3
1.1
crcon.0 crcon.1 crcon.3 crhab.0 crhab.1 port.0 port.1 port.2 port.3
685
0
NA
NA
72
517
63
56
49
0
68
NA
NA
8
66
1
1
0
NA
NA
NA
NA
NA
47
5
4
1
NA
NA
NA
718
0
565
54
54
45
72
8
NA
0
92
65
15
7
5
517
66
47
565
65
630
0
0
0
63
1
5
54
15
0
69
0
0
56
1
4
54
7
0
0
61
0
49
0
1
45
5
0
0
0
50
crcon
crhab
port
epliv
eplog
prfin
prtre
0:685
0:718
0:630
0:622
0:702
0:707
0:728
1: 68
1: 92
1: 69
1:144
1: 44
1: 47
1: 47
3: 57
2:
3:
3:
2:
2:
61
44
64
56
35
3: 50
Étude rapide des données (3 points)
Question 1: Calculez les valeurs manquantes du tableau de Burt.
Question 2: Citez 3 catégories dont on peut supposer qu’elles seront très importantes si on fait une ACM. On donnera
les formules sur lesquelles on s’appuie.
Question 3: On considère la paire de variables (port, crcon), pour laquelle on obtient une valeur de χ2 égale à 18.998.
À partir de quelles données cette valeur a-t-elle été calculée ? À l’aide de la table donnée à la fin du sujet, déterminez
avec la méthode habituelle si les variables sont liées. On expliquera le raisonnement suivi.
1.2
Analyse des correspondances multiples (4,5 points)
On réalise une ACM sur les données complètes. Les 8 premières valeurs propres sont :
[1] 0.2314 0.2168 0.1846 0.1562 0.1474 0.1391 0.1352 0.1318
On fournit ci-dessous les coordonnées sur les axes, les contributions aux axes et la qualité de la représentation par
les sous-espaces factoriels (en 10000ièmes pour ces deux derniers) pour les catégories.
J.-M. Lasgouttes — Cours d’analyse de données 2015-2016 — Université Paris I Panthéon–Sorbonne
1
crcon.0
crcon.1
crcon.3
crhab.0
crhab.1
port.0
port.1
port.2
port.3
epliv.0
epliv.1
epliv.3
eplog.0
eplog.1
eplog.3
prfin.0
prfin.1
prfin.2
prtre.0
prtre.1
prtre.2
Comp1
-0.15
1.42
0.11
0.07
-0.55
0.35
-1.23
-0.90
-1.62
0.24
-0.37
-2.21
0.20
-0.96
-1.58
-0.14
1.30
0.66
-0.07
1.64
-0.69
Comp2
0.23
-1.32
-1.18
0.13
-0.99
0.05
-0.19
-0.57
0.40
0.29
-1.26
0.03
0.17
-0.65
-1.43
0.15
-1.20
-0.93
0.20
-1.78
-1.71
Comp3
-0.02
-0.78
1.21
-0.18
1.39
0.07
0.71
-0.48
-1.23
0.21
-0.52
-1.28
0.01
1.15
-0.93
0.01
-1.49
1.12
-0.03
-0.95
1.86
Comp4
0.04
-0.62
0.26
0.06
-0.48
-0.02
0.11
1.38
-1.61
-0.06
0.67
-1.32
-0.09
2.08
-0.48
0.06
0.95
-1.57
0.08
-0.61
-0.85
crcon.0
crcon.1
crcon.3
crhab.0
crhab.1
port.0
port.1
port.2
port.3
epliv.0
epliv.1
epliv.3
eplog.0
eplog.1
eplog.3
prfin.0
prfin.1
prfin.2
prtre.0
prtre.1
prtre.2
Comp1 Comp2 Comp3 Comp4
118
293
4
12
1044
959
395
296
5
650
803
45
27
94
219
31
209
737 1708
241
588
10
26
2
792
21
332
10
377
162
132 1305
995
64
724 1462
278
421
265
26
151 1851
372
720
1637
0
692
867
224
169
1
60
311
154
554 2153
1219 1071
530
166
104
135
1
30
607
546
996
480
188
392
675 1561
29
230
5
53
967 1206
409
197
128
834 1157
284
crcon.0
crcon.1
crcon.3
crhab.0
crhab.1
port.0
port.1
port.2
port.3
epliv.0
epliv.1
epliv.3
eplog.0
eplog.1
eplog.3
prfin.0
prfin.1
prfin.2
prtre.0
prtre.1
prtre.2
Comp1 Comp2 Comp3 Comp4
1234 4114 4145 4232
1846 3435 3992 4346
9 1071 2186 2239
382 1644 4135 4432
382 1644 4135 4432
4285 4356 4509 4520
1402 1437 1906 1918
661
927 1112 2655
1718 1822 2819 4523
1943 4698 6174 6296
298 3714 4300 5257
2805 2805 3751 4753
2719 4637 4648 5137
533
779 1536 4026
2144 3909 4653 4850
1329 2934 2941 3198
1044 1925 3292 3849
327
966 1903 3737
470 3913 3982 4552
1664 3607 4168 4397
217 1540 3103 3427
Question 4: Combien d’axes propres faut-il normalement conserver ? Quelle proportion de l’inertie est expliquée par
le sous-espace propre correspondant ?
Question 5: Quelles sont les catégories qui déterminent les quatre premiers axes principaux ? (on détaillera les critères
et on cherchera à être précis dans la réponse).
Question 6: Que peut-on dire de la qualité de la représentation des catégories par les quatre premiers axes ? On
expliquera les critères utilisés.
1.3
Catégories supplémentaires (3 points)
On cherche à préciser les caractéristiques des axes en termes de type de client. On s’intéresse donc aux variables
supplémentaires suivantes :
— csp : agric (agriculteur), artis (artisan), cadsu (cadre supérieur), emplo (employé), etudi (étudiant), inact
(inactif), inter (profession intermédiaire), ouvri (ouvrier), retra (retraité) ;
— age du client : ai25 [18, 25[, ai35 [25, 35[, ai45 [35, 45[, ai55 [45, 55[, ai75 [55, 75[ ;
— sexe du client : hom, fem ;
— duree depuis laquelle la personne est cliente : dm2 (moins de 2 ans), d24 (de 2 à 4 ans), d48 (de 4 à 8 ans),
d812 (de 8 à 12 ans), dp12 (plus de 12 ans) ;
— oppo : a déjà fait opposition à un chèque ? (oui, non) ;
— interdit : a déjà été interdit bancaire ? (oui, non) ;
— cableue : possède une carte bleue ? (oui, non)
Les effectifs des catégories supplémentaires et les valeurs test correspondantes sont données ci-dessous.
csp.agric
csp.artis
csp.cadsu
csp.emplo
csp.etudi
csp.inact
csp.inter
csp.ouvri
csp.retra
age.ai25
age.ai35
age.ai45
age.ai55
age.ai75
Eff
29
48
103
151
57
85
102
183
52
90
156
212
174
178
sexe.fem
sexe.hom
duree.dm2
duree.d24
duree.d48
duree.d812
duree.dp12
oppo.non
oppo.oui
interdit.non
interdit.oui
cableue.non
cableue.oui
Eff
252
558
91
132
207
144
236
752
58
752
58
567
243
csp.agric
csp.artis
csp.cadsu
csp.emplo
csp.etudi
csp.inact
csp.inter
csp.ouvri
csp.retra
age.ai25
age.ai35
age.ai45
age.ai55
age.ai75
Axis1
-1.54
-2.05
-2.47
2.45
1.31
-2.04
-1.72
5.82
-3.80
2.01
5.12
1.67
-0.27
-7.91
Axis2
-2.23
0.98
-0.05
-1.17
3.70
2.76
-4.14
-0.15
1.20
4.95
-0.85
-2.78
-1.19
1.19
Axis3
0.11
2.33
1.93
-0.75
0.68
-1.90
1.15
0.18
-3.95
1.10
0.86
1.57
0.56
-3.87
Axis4
-1.13
-0.78
-0.17
0.99
2.18
1.34
-0.04
-1.76
-0.63
2.07
0.46
-1.54
0.64
-1.01
sexe.fem
sexe.hom
duree.dm2
duree.d24
duree.d48
duree.d812
duree.dp12
oppo.non
oppo.oui
interdit.non
interdit.oui
cableue.non
cableue.oui
Axis1
-1.57
1.57
1.60
0.30
0.76
1.49
-3.33
-0.33
0.33
-1.57
1.57
-1.00
1.00
Axis2
2.33
-2.33
4.78
4.02
-0.09
-2.04
-4.79
4.00
-4.00
-3.29
3.29
8.19
-8.19
Axis3
-4.12
4.12
1.33
-0.60
0.28
0.06
-0.75
-0.03
0.03
1.30
-1.30
-2.72
2.72
Axis4
3.51
-3.51
1.25
0.80
0.22
0.18
-1.88
2.16
-2.16
0.76
-0.76
-1.05
1.05
Question 7: À quoi servent les valeurs test ? Peut-on les utiliser ici ?
Question 8: Quelles sont les catégories supplémentaires qui sont significatives sur les 4 premiers axes ? On précisera
les critères utilisés.
Question 9: Comment peut-on interpréter les 4 premiers axes ?
J.-M. Lasgouttes — Cours d’analyse de données 2015-2016 — Université Paris I Panthéon–Sorbonne
2
Question 10: Expliquez en quoi il est intéressant d’avoir l’age sous forme de variable qualitative plutôt que quantitative.
Quels phénomènes différents cela permet-il de mesurer ?
2
Relation entre la catégorie socio-professionnelle et l’ancienneté du client (4,5 points)
On regarde ici uniquement les variables duree et csp déjà décrites en section 1.3. Le tableau de contingence
correspondant et le tableau des contributions au χ2 sont donnés ci-dessous.
dm2
d24
d48
d812
dp12
2.1
agric artis cadsu emplo etudi inact inter ouvri retra
3
7
13
13
12
15
12
12
4
6
3
19
19
23
14
14
26
8
6
15
32
38
20
22
19
46
9
3
13
9
28
1
15
25
43
7
11
10
30
53
1
19
32
56
24
dm2
d24
d48
d812
dp12
agric artis cadsu emplo etudi inact inter ouvri retra
0.0
0.5
0.2
0.9
4.9
3.1
0.0
3.6
0.6
0.3
3.0
0.3
1.3 20.2
0.0
0.4
0.5
0.0
0.3
0.6
1.2
0.0
2.0
0.0
1.9
0.0
1.4
0.9
2.3
4.7
0.0
8.2
0.0
2.6
3.4
0.5
0.8
1.1
0.0
1.8 14.7
1.3
0.2
0.1
5.2
Analyse rapide des données (1,5 points)
Question 11: Montrer que la proportion d’étudiants qui sont clients depuis moins de 4 ans est plus grande que la
proportion de retraités qui sont clients depuis plus de 12 ans.
Question 12: Expliquez pourquoi la variable etudi va probablement être un problème dans l’analyse. On propose de
retirer la colonne correspondante du tableau. À quoi cela correspond-il sur les données initiales de clients ?
2.2
Analyse factorielle des correspondances (3 points)
On réalise une analyse factorielle des correspondances de ce tableau. On donne ci-dessous, pour les deux premiers
axes, la représentation des modalités, leurs poids, leurs contributions aux axes et leur qualité de représentation par les
axes.
d = 0.2
retra
dp12
d812
ouvri
dm2
d24
d48
d812
dp12
Poids
1049
1448
2483
1899
3121
emplo
inter
agric
d24
d48
cadsu
artis
inact
agric
artis
cadsu
emplo
inact
inter
ouvri
retra
Poids
385
637
1368
2005
1129
1355
2430
691
dm2
d24
d48
d812
dp12
Axis1 Axis2
0 4266
1837
71
0 1489
6874
495
1288 3679
agric
artis
cadsu
emplo
inact
inter
ouvri
retra
Comp1 Comp2
1284
44
2713
990
3013 1894
13
574
4 3447
736
179
895
971
1341 1902
dm2
d24
d48
d812
dp12
Axis1 Axis2
0 7791
6641
244
0 4569
9206
633
2545 6935
agric
artis
cadsu
emplo
inact
inter
ouvri
retra
Comp1 Comp2
8833
288
6650 2317
5825 3495
140 5827
12 8646
3756
871
3324 3445
3796 5137
dm2
Question 13: Quelles sont les catégories qui déterminent les 2 premiers axes principaux ? (on détaillera les critères et
on cherchera à être précis dans la réponse).
Question 14: Comment peut-on réintroduire la variable etudi dans l’analyse ? On expliquera comment on pourrait
calculer ses coordonnées par analogie avec les catégories supplémentaires de l’ACM.
Question 15: Commentez pour le premier plan principal la qualité de représentation de inter et ouvri d’une part,
et d48 et dp12 d’autre part. Que peut-on dire de la proximité de inter et emplo ?
3
Calcul de variables supplémentaires via un tableau de Burt (5 points)
On considère une analyse des correspondances multiples d’un tableau disjonctif X représentant p variables dont
les effectifs marginaux sont donnés par la matrice diagonale D. On a vu dans le cours qu’il est possible de placer
des variables supplémentaires qualitatives directement sur la projection sur un plan factoriel en utilisant la formule
de barycentre des individus : si on veut placer une variable supplémentaire de tableau disjonctif Xsup et d’effectifs
marginaux Dsup , on calcule les coordonnées de ses modalités sur un axe principal (associé à la valeur propre µ) par
1
asup = √ D−1
X0 c,
µ sup sup
J.-M. Lasgouttes — Cours d’analyse de données 2015-2016 — Université Paris I Panthéon–Sorbonne
3
où c = (c1 , . . . , cn ) représente les coordonnées des individus sur ce même axe. On sait que cette formule peut se réécrire
plus simplement, pour une catégorie s de la variable supplémentaire sup, d’effectif total ns , comme
as =
1
√
X
ns µ
ci .
i dans la catégorie s
On voudrait obtenir ici une nouvelle formule en fonction des tables de contingences entre les variables actives et la
variable supplémentaire, c’est-à-dire sans utiliser les ci détaillés des individus.
On demande d’être très précis dans les notations mathématiques employées
Question 16: Exprimez la seconde formule barycentrique c =
d’une somme.
√1 1 Xa
µp
comme ci-dessus en écrivant ci sous forme
Question 17: En déduire que

1
as =
pns µ

X
X

i dans la catég. s
aj  .
j catég. de i
Question 18: En déduire comment exprimer as en fonction de µ, p, ns , des effectifs croisés njs entre la catégorie
supplémentaire s et les catégories actives j et bien sûr des coordonnées factorielles des catégories aj .
χ 2
TABLE DU CHI-DEUX : χ2(n)
n
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
p
p
0.90
0.80
0.70
0.50
0.30
0.20
0.10
0.05
0.02
0.01
0,0158
0,211
0,584
1,064
1,610
2,204
2,833
3,490
4,168
4,865
0,0642
0,446
1,005
1,649
2,343
3,070
3,822
4,594
5,380
6,179
0,148
0,713
1,424
2,195
3,000
3,828
4,671
5,527
6,393
7,267
0,455
1,386
2,366
3,357
4,351
5,348
6,346
7,344
8,343
9,342
1,074
2,408
3,665
4,878
6,064
7,231
8,383
9,524
10,656
11,781
1,642
3,219
4,642
5,989
7,289
8,558
9,803
11,030
12,242
13,442
2,706
4,605
6,251
7,779
9,236
10,645
12,017
13,362
14,684
15,987
3,841
5,991
7,815
9,488
11,070
12,592
14,067
15,507
16,919
18,307
5,412
7,824
9,837
11,668
13,388
15,033
16,622
18,168
19,679
21,161
6,635
9,210
11,341
13,277
15,086
16,812
18,475
20,090
21,666
23,209
5,578
6,304
7,042
7,790
8,547
9,312
10,085
10,865
11,651
12,443
6,989
7,807
8,634
9,467
10,307
11,152
12,002
12,857
13,716
14,578
8,148
9,034
9,926
10,821
11,721
12,624
13,531
14,440
15,352
16,266
10,341
11,340
12,340
13,339
14,339
15,338
16,338
17,338
18,338
19,337
12,899
14,011
15,119
16,222
17,322
18,418
19,511
20,601
21,689
22,775
14,631
15,812
16,985
18,151
19,311
20,465
21,615
22,760
23,900
25,038
17,275
18,549
19,812
21,064
22,307
23,542
24,769
25,989
27,204
28,412
19,675
21,026
22,362
23,685
24,996
26,296
27,587
28,869
30,144
31,410
22,618
24,054
25,472
26,873
28,259
29,633
30,995
32,346
33,687
35,020
24,725
26,217
27,688
29,141
30,578
32,000
33,409
34,805
36,191
37,566
13,240
14,041
14,848
15,659
16,473
17,292
18,114
18,939
19,768
20,599
15,445
16,314
17,187
18,062
18,940
19,820
20,703
21,588
22,475
23,364
17,182
18,101
19,021
19,943
20,867
21,792
22,719
23,647
24,577
25,508
20,337
21,337
22,337
23,337
24,337
25,336
26,336
27,336
28,336
29,336
23,858
24,939
26,018
27,096
28,172
29,246
30,319
31,391
32,461
33,530
26,171
27,301
28,429
29,553
30,675
31,795
32,912
34,027
35,139
36,250
29,615
30,813
32,007
33,196
34,382
35,563
36,741
37,916
39,087
40,256
32,671
33,924
35,172
36,415
37,652
38,885
40,113
41,337
42,557
43,773
36,343
37,659
38,968
40,270
41,566
42,856
44,140
45,419
46,693
47,962
38,932
40,289
41,638
42,980
44,314
45,642
46,963
48,278
49,588
50,892
Pour n > 30, on peut admettre que
2χ2 -
2n-1 ≈ N(0,1)
J.-M. Lasgouttes — Cours d’analyse de données 2015-2016 — Université Paris I Panthéon–Sorbonne
4