Analyse des Données Questions de cours Exercice no 1

Transcription

Analyse des Données Questions de cours Exercice no 1
STID 2ème année
Année Universitaire 2002-2003
I.U.T de Caen
Département STID
Responsable de cours : Alain LUCAS
1. Indiquer dans quel espace sera représenté le nuage des points-individus. Justifier votre réponse.
2. Indiquer dans quel espace sera représenté le nuage des points-variables. Justifier votre réponse.
3. Compléter le tableau suivant :
Analyse des Données
Variable
S
QS
QT
A
FU
Examen terminal - Durée 3h
–
–
–
–
–
Seule la calculatrice type collège est autorisée.
Seul le cours est autorisé.
On rappelera les formules utilisées.
On conservera quatre chiffres après la virgule.
On pourra répondre directement sur le document.
Ecart type
0.2179
0.3808
·
·
0.5644
Commenter succinctement, selon le contexte, les valeurs numériques obtenues.
4. En déduire les coordonnées du barycentre du nuage des individus ainsi que la matrice Ds−1 .
Questions de cours
1. Dans le cadre d’une ACPN, peut-on, en observant uniquement le nuage des individus dans le plan factoriel
principal, déterminer les individus qui contribuent à la formation du premier axe factoriel ? Justifier votre réponse
en l’accompagnant d’une représentation graphique succincte.
2. Dans le cadre d’une ACPN, peut-on, en observant uniquement le nuage des variables dans le premier plan
factoriel, déterminer les variables qui sont bien représentées ? Justifier votre réponse en l’accompagnant d’une
représentation graphique succincte.
3. Dans le cadre d’une ACPN, peut-on, en observant que deux points-variables sont proches dans le premier plan
factoriel, en déduire que les variables associées sont fortement corrélées positivement ? Justifier votre réponse en
l’accompagnant d’une ou plusieurs représentation(s) graphique(s) succincte(s).
4. Dans le cadre d’une AFC, peut-on, en observant uniquement le nuage des profils-lignes dans le plan factoriel
principal, déterminer les profils qui contribuent à la formation du premier axe factoriel ? Justifier votre réponse
en l’accompagnant d’une ou plusieurs représentation(s) graphique(s) succincte(s).
QS
6.7
5.8
6.2
5.8
6.6
5.6
5.8
5.9
1
QT
8.8
6.1
7.8
5.4
7.0
5.6
5.6
6.9
A
7.5
4.0
6.9
8.6
6.3
9.3
4.0
7.0
suivante :
0.8381
0.8460
1.0000
0.0677
−.2285

−.2423 0.1575
−.0018 0.0785 

0.0677 −.2285 

1.0000 −.5455 
−.5455 1.0000
Commenter succinctement, selon le contexte, ces coefficients, puis indiquer le rôle joué par cette matrice dans le
cadre de l’ACP normée.
6. La réalisation de l’ACP sous SAS a donné les valeurs propres et les vecteurs propres suivants :
VP
2.5837
1.6248
0.5060
0.2668
0.0187
u1
u2
0.5688 −.1324
0.5627 0.0362
0.5953 0.1986
−.0701 0.6785
0.0227 −.6938
u3
u4
−.1772 0.6594
0.3754 −.6300
−.1349 0.0004
0.6358 0.3611
0.6366 0.1946
u5
−.4389
−.3798
0.7668
−.0097
0.2740
7. Calculer pour chacun des axes les pourcentages d’inertie. En déduire les pourcentages d’inertie cumulés.
On souhaite effectuer une analyse de satisfaction via une ACP normée de marques de téléphones sans fil. Les
caractéristiques retenues sont les suivantes :
– Sonnerie (S)
– Qualité sonore (QS)
– Qualité de transmission (QT)
– Autonomie (A)
– Facilité d’utilisation (FU)
La sonnerie a été évaluée selon une échelle allant de 1 à 3 (1=faible, 2=moyen, 3=élevé) tandis que les autres
variables ont été évaluées selon une échelle allant de 1 à 10 (1=très mauvais,..., 10=excellent). Les résultats moyens
obtenus sont les suivants :
S
2.1
1.9
2.0
1.4
2.0
1.7
1.7
2.0
5. Après calculs, on a obtenu la matrice des corrélations

1.0000 0.6778
 0.6778 1.0000

∆ := 
 0.8381 0.8460
 −.2423 −.0018
0.1575 0.0785
Calculer la somme des valeurs propres ? Cette valeur est-elle en accord avec les résultats du cours ? Justifier votre
réponse.
Exercice no 1
Marque
1
2
3
4
5
6
7
8
Moyenne
·
6.05
6.65
·
·
FU
6.0
7.0
6.8
6.2
7.9
6.7
7.3
6.6
8. Selon le critère de la moyenne combien d’axe doit-on conserver ? Justifier votre réponse.
9. Donner la formule permettant de calculer les composantes principales. Sachant que le tableau de données centréréduit est représenté par la matrice


1.1471
1.7070
1.9041
0.4448 −1.4395
 0.2294 −0.6565 −0.4871 −1.5012 0.3322 


 0.6883
0.3939
1.0185
0.1112 −0.0222 


 −2.0647 −0.6565 −1.1070 1.0564 −1.0851 

Z := 
 0.6883
1.4444
0.3100 −0.2224 1.9267 


 −0.6883 −1.1818 −0.9300 1.4456 −0.1993 


 −0.6883 −0.6565 −0.9300 −1.5012 0.8637 
0.6883 −0.3939 0.2214
0.1668 −0.3765
compléter les composantes principales suivantes :

2.6827

·

 1.2112

 −2, 3015
Ψ1 = 

·

 −1.7160

 −1.1897
0.2814












2

1.5886


·


 0.2163 




·

Ψ2 = 


·


 0.9828 


 −1.7351 
0.3130

10. Représenter graphiquement le nuage des individus dans le plan principal.
11. Déduire de cette représentation graphique (c’est-à-dire sans calculs !) les individus qui contribuent significativement à la formation de chacun des axes. Justifier votre réponse.
12. Compléter le tableau ci-dessous
individus
1
2
3
4
5
6
7
8
Cri (1)
·
0.0084
0.0710
0.2563
0.1015
·
0.0685
0.0038
Cri (2)
0.1942
0.1508
·
0.1730
0.1651
0.0743
·
0.0075
A partir des valeurs numériques obtenues ci-dessus, déterminer explicitement les individus qui contribuent significativement à la formation des deux premiers axes. Retrouvez-vous les individus énumérés à la question
précédente ?
13. Compléter le tableau ci-dessous
individus
1
2
3
4
5
6
7
8
Qual1 (i)
0.7108
0.0561
·
0.6450
0.3267
·
0.2968
0.0935
Qual2 (i)
·
0.6353
0.0279
0.2737
0.3344
0.1986
0.6313
·
Qual1×2 (i)
·
·
·
·
·
·
·
·
En déduire les individus qui sont bien représentés dans le plan principal.
Exercice no 2
On dispose d’un fichier de données (cf. Annexe 1) contenant 31 étudiants de STID1 sur lesquels on a observé quatre
notes :
–
–
–
–
Informatique (Note1)
Algorithmique (Note2)
Bases mathématiques (Note3)
Techniques mathématiques (Note4)
N.B : le dernier élève identifié sous le label 99 est un élève fictif représentant un individu moyen dans les quatre
matières citées ci-dessus. En d’autres mots, c’est un individu supplémentaire ne participant pas à la construction des
axes.
On a réalisé, sous SAS, une Analyse en Composantes Principales Normée (ACPN) de ce tableau de données, dont
les résultats sont donnés dans les annexes. Réaliser l’interprétation de cette ACPN, en vous aidant des questions
suivantes :
1. Commenter succintement la moyenne et l’écart type de chacune des quatre variables.
2. Commenter brièvement les coefficients de corrélation linéaire.
3. Interpréter les valeurs de la table “Eigenvalues of the Correlation Matrix”. Combien d’axes doit-on théoriquement
conserver pour obtenir une représentation graphique synthétique des nuages de points. Justifier votre réponse.
4. Interpréter la table “Eigenvectors”.
5. Quels sont les individus qui contribuent de manière significative à la formation des deux premiers facteurs. Dans
chacun des cas, caractériser le facteur.
6. Quels sont les individus qu’il faudra éliminer lors de l’interprétation ? Justifier votre réponse.
7. A l’aide de la représentation graphique du cercle des corrélations dans le plan factoriel 1×2, déterminer les
variables qui sont bien représentées.
8. Déterminer puis classer selon leur importance les variables corrélées avec le premier facteur (resp. avec le deuxième
facteur).
9. Donner une interprétation contextuelle du premier facteur. Interpréter la position des individus selon ce premier
facteur.
14. En faisant usage des relations de transition, calculer les deux premiers facteurs liés aux variables. En déduire les
variables corrélées avec chacun des axes. Justifier votre réponse.
10. Donner une interprétation contextuelle du second facteur. Interpréter la position des individus selon ce deuxième
facteur.
15. Représenter graphiquement le nuage des variables dans le plan principal.
11. En tenant compte de l’interprétation contextuelle donnée à chacun des axes, étudier la position des individus
dans le plan factoriel principal. Peut-on mettre en évidence des groupes d’individus, et si oui, lesquels ?
16. A quoi mesure-t-on la qualité de représentation des variables dans le plan principal ? En déduire les variables
très bien représentées.
17. Compléter le tableau ci-dessous
variables
V1
V2
V3
V4
V5
Qual1 (j)
·
0.8180
·
0.0127
0.0013
Qual2 (j)
·
·
0.0641
· 0.7480
·
Qual1×2 (j)
·
·
·
·
·
On a réalisé une Classification Ascendante Hiérarchique (CAH) sous SAS avec la méthode Ward. Cette classification
a fourni trois diagrammes : le dendrogramme, la représentation graphique de la fonction de Ward ainsi la représentation
graphique de la fonction d’inertie inter-classes (cf Annexes).
1. En observant la fonction d’inertie inter-classes, déterminer le nombre de classes à conserver pour réaliser une
partition la plus homogène possible des élèves. Justifier votre réponse.
2. En observant la fonction de Ward, déterminer le nombre de classes à conserver pour réaliser une partition
la plus homogène possible des élèves. Justifier votre réponse. Ce dernier résultat confirme-t-il celui obtenu
précédemment ?
3. Couper l’arbre en fonction du nombre de classes retenues. Encadrer sur le dendrogramme les classes ainsi formées.
A partir des valeurs numériques obtenues ci-dessus, déterminer explicitement les variables qui sont bien représentées
dans le plan principal. Retrouvez-vous les variables énumérées à la question précédente ?
18. A l’aide du nuage des variables, donner une interprétation contextuelle à chacun des axes du plan principal.
19. En déduire une explication quant à la position des individus dans le premier plan factoriel.
3
4
Annexe 1
Annexe 2
Données brutes
Résultats ACP
5
6
Annexe 3
Annexe 4
Aides à interprétations
Nuage des observations
7
8
Annexe 5
Annexe 6
Nuage des variables
Inertie interclasses
9
10
Annexe 7
Annexe 8
Perte d’inertie interclasses
Dendrogramme
11
12