Analyse des Données Questions de cours Exercice no 1
Transcription
Analyse des Données Questions de cours Exercice no 1
STID 2ème année Année Universitaire 2002-2003 I.U.T de Caen Département STID Responsable de cours : Alain LUCAS 1. Indiquer dans quel espace sera représenté le nuage des points-individus. Justifier votre réponse. 2. Indiquer dans quel espace sera représenté le nuage des points-variables. Justifier votre réponse. 3. Compléter le tableau suivant : Analyse des Données Variable S QS QT A FU Examen terminal - Durée 3h – – – – – Seule la calculatrice type collège est autorisée. Seul le cours est autorisé. On rappelera les formules utilisées. On conservera quatre chiffres après la virgule. On pourra répondre directement sur le document. Ecart type 0.2179 0.3808 · · 0.5644 Commenter succinctement, selon le contexte, les valeurs numériques obtenues. 4. En déduire les coordonnées du barycentre du nuage des individus ainsi que la matrice Ds−1 . Questions de cours 1. Dans le cadre d’une ACPN, peut-on, en observant uniquement le nuage des individus dans le plan factoriel principal, déterminer les individus qui contribuent à la formation du premier axe factoriel ? Justifier votre réponse en l’accompagnant d’une représentation graphique succincte. 2. Dans le cadre d’une ACPN, peut-on, en observant uniquement le nuage des variables dans le premier plan factoriel, déterminer les variables qui sont bien représentées ? Justifier votre réponse en l’accompagnant d’une représentation graphique succincte. 3. Dans le cadre d’une ACPN, peut-on, en observant que deux points-variables sont proches dans le premier plan factoriel, en déduire que les variables associées sont fortement corrélées positivement ? Justifier votre réponse en l’accompagnant d’une ou plusieurs représentation(s) graphique(s) succincte(s). 4. Dans le cadre d’une AFC, peut-on, en observant uniquement le nuage des profils-lignes dans le plan factoriel principal, déterminer les profils qui contribuent à la formation du premier axe factoriel ? Justifier votre réponse en l’accompagnant d’une ou plusieurs représentation(s) graphique(s) succincte(s). QS 6.7 5.8 6.2 5.8 6.6 5.6 5.8 5.9 1 QT 8.8 6.1 7.8 5.4 7.0 5.6 5.6 6.9 A 7.5 4.0 6.9 8.6 6.3 9.3 4.0 7.0 suivante : 0.8381 0.8460 1.0000 0.0677 −.2285 −.2423 0.1575 −.0018 0.0785 0.0677 −.2285 1.0000 −.5455 −.5455 1.0000 Commenter succinctement, selon le contexte, ces coefficients, puis indiquer le rôle joué par cette matrice dans le cadre de l’ACP normée. 6. La réalisation de l’ACP sous SAS a donné les valeurs propres et les vecteurs propres suivants : VP 2.5837 1.6248 0.5060 0.2668 0.0187 u1 u2 0.5688 −.1324 0.5627 0.0362 0.5953 0.1986 −.0701 0.6785 0.0227 −.6938 u3 u4 −.1772 0.6594 0.3754 −.6300 −.1349 0.0004 0.6358 0.3611 0.6366 0.1946 u5 −.4389 −.3798 0.7668 −.0097 0.2740 7. Calculer pour chacun des axes les pourcentages d’inertie. En déduire les pourcentages d’inertie cumulés. On souhaite effectuer une analyse de satisfaction via une ACP normée de marques de téléphones sans fil. Les caractéristiques retenues sont les suivantes : – Sonnerie (S) – Qualité sonore (QS) – Qualité de transmission (QT) – Autonomie (A) – Facilité d’utilisation (FU) La sonnerie a été évaluée selon une échelle allant de 1 à 3 (1=faible, 2=moyen, 3=élevé) tandis que les autres variables ont été évaluées selon une échelle allant de 1 à 10 (1=très mauvais,..., 10=excellent). Les résultats moyens obtenus sont les suivants : S 2.1 1.9 2.0 1.4 2.0 1.7 1.7 2.0 5. Après calculs, on a obtenu la matrice des corrélations 1.0000 0.6778 0.6778 1.0000 ∆ := 0.8381 0.8460 −.2423 −.0018 0.1575 0.0785 Calculer la somme des valeurs propres ? Cette valeur est-elle en accord avec les résultats du cours ? Justifier votre réponse. Exercice no 1 Marque 1 2 3 4 5 6 7 8 Moyenne · 6.05 6.65 · · FU 6.0 7.0 6.8 6.2 7.9 6.7 7.3 6.6 8. Selon le critère de la moyenne combien d’axe doit-on conserver ? Justifier votre réponse. 9. Donner la formule permettant de calculer les composantes principales. Sachant que le tableau de données centréréduit est représenté par la matrice 1.1471 1.7070 1.9041 0.4448 −1.4395 0.2294 −0.6565 −0.4871 −1.5012 0.3322 0.6883 0.3939 1.0185 0.1112 −0.0222 −2.0647 −0.6565 −1.1070 1.0564 −1.0851 Z := 0.6883 1.4444 0.3100 −0.2224 1.9267 −0.6883 −1.1818 −0.9300 1.4456 −0.1993 −0.6883 −0.6565 −0.9300 −1.5012 0.8637 0.6883 −0.3939 0.2214 0.1668 −0.3765 compléter les composantes principales suivantes : 2.6827 · 1.2112 −2, 3015 Ψ1 = · −1.7160 −1.1897 0.2814 2 1.5886 · 0.2163 · Ψ2 = · 0.9828 −1.7351 0.3130 10. Représenter graphiquement le nuage des individus dans le plan principal. 11. Déduire de cette représentation graphique (c’est-à-dire sans calculs !) les individus qui contribuent significativement à la formation de chacun des axes. Justifier votre réponse. 12. Compléter le tableau ci-dessous individus 1 2 3 4 5 6 7 8 Cri (1) · 0.0084 0.0710 0.2563 0.1015 · 0.0685 0.0038 Cri (2) 0.1942 0.1508 · 0.1730 0.1651 0.0743 · 0.0075 A partir des valeurs numériques obtenues ci-dessus, déterminer explicitement les individus qui contribuent significativement à la formation des deux premiers axes. Retrouvez-vous les individus énumérés à la question précédente ? 13. Compléter le tableau ci-dessous individus 1 2 3 4 5 6 7 8 Qual1 (i) 0.7108 0.0561 · 0.6450 0.3267 · 0.2968 0.0935 Qual2 (i) · 0.6353 0.0279 0.2737 0.3344 0.1986 0.6313 · Qual1×2 (i) · · · · · · · · En déduire les individus qui sont bien représentés dans le plan principal. Exercice no 2 On dispose d’un fichier de données (cf. Annexe 1) contenant 31 étudiants de STID1 sur lesquels on a observé quatre notes : – – – – Informatique (Note1) Algorithmique (Note2) Bases mathématiques (Note3) Techniques mathématiques (Note4) N.B : le dernier élève identifié sous le label 99 est un élève fictif représentant un individu moyen dans les quatre matières citées ci-dessus. En d’autres mots, c’est un individu supplémentaire ne participant pas à la construction des axes. On a réalisé, sous SAS, une Analyse en Composantes Principales Normée (ACPN) de ce tableau de données, dont les résultats sont donnés dans les annexes. Réaliser l’interprétation de cette ACPN, en vous aidant des questions suivantes : 1. Commenter succintement la moyenne et l’écart type de chacune des quatre variables. 2. Commenter brièvement les coefficients de corrélation linéaire. 3. Interpréter les valeurs de la table “Eigenvalues of the Correlation Matrix”. Combien d’axes doit-on théoriquement conserver pour obtenir une représentation graphique synthétique des nuages de points. Justifier votre réponse. 4. Interpréter la table “Eigenvectors”. 5. Quels sont les individus qui contribuent de manière significative à la formation des deux premiers facteurs. Dans chacun des cas, caractériser le facteur. 6. Quels sont les individus qu’il faudra éliminer lors de l’interprétation ? Justifier votre réponse. 7. A l’aide de la représentation graphique du cercle des corrélations dans le plan factoriel 1×2, déterminer les variables qui sont bien représentées. 8. Déterminer puis classer selon leur importance les variables corrélées avec le premier facteur (resp. avec le deuxième facteur). 9. Donner une interprétation contextuelle du premier facteur. Interpréter la position des individus selon ce premier facteur. 14. En faisant usage des relations de transition, calculer les deux premiers facteurs liés aux variables. En déduire les variables corrélées avec chacun des axes. Justifier votre réponse. 10. Donner une interprétation contextuelle du second facteur. Interpréter la position des individus selon ce deuxième facteur. 15. Représenter graphiquement le nuage des variables dans le plan principal. 11. En tenant compte de l’interprétation contextuelle donnée à chacun des axes, étudier la position des individus dans le plan factoriel principal. Peut-on mettre en évidence des groupes d’individus, et si oui, lesquels ? 16. A quoi mesure-t-on la qualité de représentation des variables dans le plan principal ? En déduire les variables très bien représentées. 17. Compléter le tableau ci-dessous variables V1 V2 V3 V4 V5 Qual1 (j) · 0.8180 · 0.0127 0.0013 Qual2 (j) · · 0.0641 · 0.7480 · Qual1×2 (j) · · · · · On a réalisé une Classification Ascendante Hiérarchique (CAH) sous SAS avec la méthode Ward. Cette classification a fourni trois diagrammes : le dendrogramme, la représentation graphique de la fonction de Ward ainsi la représentation graphique de la fonction d’inertie inter-classes (cf Annexes). 1. En observant la fonction d’inertie inter-classes, déterminer le nombre de classes à conserver pour réaliser une partition la plus homogène possible des élèves. Justifier votre réponse. 2. En observant la fonction de Ward, déterminer le nombre de classes à conserver pour réaliser une partition la plus homogène possible des élèves. Justifier votre réponse. Ce dernier résultat confirme-t-il celui obtenu précédemment ? 3. Couper l’arbre en fonction du nombre de classes retenues. Encadrer sur le dendrogramme les classes ainsi formées. A partir des valeurs numériques obtenues ci-dessus, déterminer explicitement les variables qui sont bien représentées dans le plan principal. Retrouvez-vous les variables énumérées à la question précédente ? 18. A l’aide du nuage des variables, donner une interprétation contextuelle à chacun des axes du plan principal. 19. En déduire une explication quant à la position des individus dans le premier plan factoriel. 3 4 Annexe 1 Annexe 2 Données brutes Résultats ACP 5 6 Annexe 3 Annexe 4 Aides à interprétations Nuage des observations 7 8 Annexe 5 Annexe 6 Nuage des variables Inertie interclasses 9 10 Annexe 7 Annexe 8 Perte d’inertie interclasses Dendrogramme 11 12