explorer un fichier spss - GRIP
Transcription
explorer un fichier spss - GRIP
2015-11-10 Explorer un fichier SPSS Hélène Paradis et Nadine Forget-Dubois GRIP-Laval 10 novembre 2015 Se procurer SPSS • Licence étudiante • SPSS Premium: 39$/session (DTI) Wow! • Location pour 6 ou 12 mois: www.onthehub.com/spss/ 1 2015-11-10 Confidentialité • Protection de l’identité des participants • Les fichiers sont dénominalisés, pas de dates de naissance • Pas de partage ni de fusion de fichiers entre étudiants • Attention si vous manipulez directement des questionnaires, vidéos, etc. Vous avez reçu un fichier… 2 2015-11-10 Sauvegarde • Conservez une copie intacte de votre fichier d’origine, facile à retrouver • Créez une copie de travail du fichier sous un autre nom • Sauvegardez vos syntaxes! Pour travailler efficacement 3 2015-11-10 Pour clarifier les sorties Réduire le fichier • Conserver seulement les variables nécessaires à l’analyse dans un autre fichier SAVE OUTFILE='\\serveur\dossier\Fichier.sav' /KEEP id to V2 V5 to V20. EXECUTE. GET FILE ='\\serveur\dossier\Fichier.sav'. 4 2015-11-10 Définir les manquants • Les valeurs manquantes sont parfois représentées par un code aberrant (99, -4, etc.) • Il faut définir ces codes, sans quoi les valeurs seront comptées dans les analyses MISSING VALUES v1 (-4)/ v2 (99). Exploration au niveau univarié 5 2015-11-10 Objectifs • Connaître la matière brute de vos analyses: vos variables • • • Est-ce que les variables sont prêtes? • • Scores à créer Recodage de catégories Est-ce qu’il y a de la variance interindividuelle? • • Quelles-sont les fréquences des variables catégorielles? Quelles sont la moyenne et la variance des variables continues? Est-ce que les variables respectent les prémisses? • • Quelle est la forme de la distribution? Y a-t-il des valeurs extrêmes? Examen des variables nominales et ordinales FREQUENCIES sexe v1 v2 v3. • Quelles sont les fréquences des catégories ou échelons? • Le codage des catégories est-il logique? • Exemple: une réponse oui/non pourrait être codée 1=oui et 2=non • • • Coder à partir de 0 Recoder pour que les nombres représentent une échelle croissante Distance égale entre les échelons • Le codage est-il utilisable? 6 2015-11-10 Recodage de variables • Syntaxe /* Recoder le sexe en 0-Masculin et 1-féminin */ RECODE sexe (1=0)(2=1). EXECUTE. VALUE LABELS sexe 0 "masculin" 1 "féminin". /* Recoder des valeur manquantes en cases vides */ RECODE v1 (-4=SYSMIS)(99=SYSMIS). EXECUTE. Recodage de facteurs de risque • Recodage logique: on veut que risque = 1 et non-risque = 0 • Exemple: «pas de DES» = 0 et «DES» = 1 dans codage original /* Recoder une variable pour que risque = 1*/ RECODE education (1=0)(0=1). EXECUTE. VALUE LABELS education 0 "DES" 1 "pas de DES". 7 2015-11-10 Recoder en moins de catégories /* METHODE 1 */ RECODE v5 (0=0) (1=0) (2=0) (3=0) (4=0) (9=2) (10=2) (5 thru 8=1) INTO v5r. EXECUTE. /* METHODE 2 */ IF(v5 >=0 & v5<=4) v5r=0. IF(v5 >=5 & v5 <=8) v5r=1. IF(v5=9 | v5=10) v5r=2. EXECUTE. VARIABLE LABELS v5r "v5 en 3 catégories". VALUE LABELS v5r 0 "0 à 4" 1 "5 à 8" 2 "9 à 10". Crée variable v5r Crée variable v5r Toujours faire une fréquence sur l’ancienne et la nouvelle variable FREQ v5 v5r. Créer des scores moyens • Score moyen à partir de 10 items (var1-var10 consécutifs) • Score moyen calculé dès qu’un item est présent COMPUTE Sco_moy = MEAN(var1 to var10). EXECUTE. • Contrôle du nombre d’items manquants sur l’échelle • Nombre minimal d’items requis COMPUTE Sco_moy = MEAN.8(var1 to var10). EXECUTE. ou 2 manquants sur 10 permis COMPUTE Sco_moy = MEAN.8(var1,var2,var3,var4,var5,var6,var7,var8,var9,var10). EXECUTE. 8 2015-11-10 Créer des sommes • Somme de 10 items consécutifs • Va calculer une somme dès qu’un item est disponible COMPUTE Sco_tot = SUM(var1 to var10). • Permettre des items manquants tout en gardant tous les participants sur la même échelle • Moyenne des items * nombre max d’items, arrondi COMPUTE Sco_tot = RND(MEAN.8(var1 to var10)*10). EXECUTE. ou COMPUTE Sco_tot = RND(MEAN.8(var1, var2, var3, var4, var5, var6, var7, var8, var9, var10)*10). EXECUTE. Examen des variables continues • Variables continues: statistiques descriptives et distributions FREQUENCIES VARIABLES= v6 v7 v8 /PERCENTILES=95.0 /STATISTICS=STDDEV MINIMUM MAXIMUM MEAN SKEWNESS SESKEW KURTOSIS SEKURT /HISTOGRAM NORMAL /ORDER=ANALYSIS. 9 2015-11-10 Autre méthode pour variables continues EXAMINE VARIABLES= v6 v7 v8 /PLOT BOXPLOT STEMLEAF HISTOGRAM /COMPARE GROUPS /STATISTICS DESCRIPTIVES /CINTERVAL 95 /MISSING PAIRWISE /NOTOTAL. Le boxplot démystifié 10 2015-11-10 À surveiller • Les N sont-ils tels qu’attendus? • L’étendue de la distribution et les statistiques descriptives sontelles possibles pour la variable? • • La distribution est-elle normale? • Si non: quelle est sa forme? Il y a des lignes directrices pour identifier les problèmes mais pas de recette infaillible Voyez-vous des valeurs extrêmes? Valeurs qui se détachent de la distribution Obtenir les scores Z • Transformer des scores continus en proportions d’écart• type (moyenne =0, écart-type=1) Manière d’identifier les valeurs extrêmes (> 3 écarts-types) DESCRIPTIVES VARIABLES= V8 /SAVE /STATISTICS=MEAN STDDEV MIN MAX. Crée variable zV8 11 2015-11-10 Transformation • • • Regarder: asymétrie (skewness) de la distribution: devrait être près de 0 • Acceptable entre -0.5 et 0.5 (critère variable selon les sources!) Examen visuel de la forme des distributions La transformation affecte les valeurs mais pas l’ordre Asymétrie positive Asymétrie négative Asymétrie positive • Transformation habituelle: log base 10 ou log naturel base 10 COMPUTE lv6 = LG10(v6). EXECUTE. log naturel COMPUTE lv6 = LN(v6). EXECUTE. • Si la plus petite valeur de la distribution < 1: COMPUTE lv6 = LG10(v6+1) EXECUTE. ou COMPUTE lv6 = LN(v6+1) EXECUTE. Vérifiez l’effet de la transformation! 12 2015-11-10 Asymétrie négative • Transformation : reflect & log (lg10 ou ln) 1) 2) 3) Obtenir une image miroir de la distribution et appliquer la transformation log Remettre la distribution dans son sens d’origine Vérifier l’effet de la transformation et le sens de l’échelle Reflect & log: étape 1 • Syntaxe: /* Transformer la variable avec un LG10 en inversant la distribution */ COMPUTE rlv7 = LG10(101-v7). EXECUTE. Valeur max de la distribution + 1 FREQUENCIES VARIABLES= v7 rlv7 /STATISTICS=STDDEV MINIMUM MAXIMUM MEAN SKEWNESS SESKEW KURTOSIS SEKURT Vérifier N et effet /ORDER=ANALYSIS. de log CORRELATIONS /VARIABLES= v7 rlv7 /PRINT=TWOTAIL NOSIG /MISSING=PAIRWISE. Corrélation négative forte 13 2015-11-10 Reflect & log: étape 2 /* Remettre la distribution dans son sens original*/ COMPUTE rlrv7= rlv7*-1. VARIABLE LABELS rlrv7 'v7 reflect log reflect'. EXECUTE. Reflect & log: étape 3 /* Vérification*/ CORRELATIONS /VARIABLES= v7 rlrv7 /PRINT=TWOTAIL NOSIG /MISSING=PAIRWISE. Corrélation positive forte • Vérifier le N de la variable finale et l’effet sur la distribution 14 2015-11-10 Winsorisation • Technique pour remplacer les valeurs extrêmes par des valeurs moins extrêmes • Les valeurs extrêmes restent les plus élevées ou les plus basses mais se rapprochent des valeurs jugées normales • Conserve l’échelle de la distribution • Particulièrement utile lorsqu’un petit nombre de cas se détachent de la distribution Syntaxe pour la winsorisation • Exemple: ramener les valeurs au-dessus du 95e percentile à la valeur du 95e percentile • Identifier la valeur au 95e percentile: FREQUENCIES VARIABLES= v1 /FORMAT=NOTABLE /PERCENTILES=95.0 /ORDER=ANALYSIS. • Créer la variable winsorisée si 95e percentile = 9 COMPUTE Wv1 = v1. IF (Wv1 > 9) Wv1 = 9. EXECUTE. 15 2015-11-10 Exploration au niveau bivarié Objectifs • Est-ce que vous retrouvez les associations attendues? • Est-ce que vous retrouvez des associations inattendues? • Ces associations sont-elles faibles, moyennes ou fortes? • Certaines associations sont-elles trop fortes? 16 2015-11-10 Associations entre les variables • Quel est le test d’association approprié? • • • • • Variables continues normalement distribuées: corrélation de Pearson Variables continues mais avec distributions anormales: corrélations de Spearman 1 variable continue et 1 variable binaire: corrélation bisériale de point Variables ordinales, ou continues et ordinales: corrélation de Spearman Variables nominales: Khi-carré Syntaxes • Corrélations de Pearson: CORRELATIONS /VARIABLES= v1 v2 v3 /PRINT=TWOTAIL NOSIG /MISSING=PAIRWISE. • Corrélations de Spearman: NONPAR CORR /VARIABLES= v4 v5 v6 /PRINT=SPEARMAN TWOTAIL NOSIG /MISSING=PAIRWISE. 17 2015-11-10 • Corrélation bisériale de point: CORRELATIONS /VARIABLES= v7 v8 /PRINT=TWOTAIL NOSIG /MISSING=PAIRWISE. • Khi-carré: CROSSTABS /TABLES= v12 BY v13 /FORMAT=AVALUE TABLES /STATISTICS=CHISQ /CELLS=COUNT EXPECTED ROW COLUMN TOTAL ASRESID /COUNT ROUND CELL. multicolinéarité? • Vous ne pouvez pas entrer dans le même modèle des variables trop fortement associées • multicolinéarité: relation linéaire entre des variables • • • Introduit de l’information redondante dans le modèle La reconnaître • • Corrélations de .80-.90 entre deux variables Statistiques de multicolinéarité des modèles multivariés La traiter • • Choisir une variable Combiner les variables 18 2015-11-10 Exploration au niveau multivarié Objectifs • Vérifier les prémisses des modèles multivariés • Valeurs extrêmes multivariées • Multicolinéarité • Décompte des données manquantes • Tester les hypothèses de recherche (enfin!) 19 2015-11-10 Valeurs extrêmes multivariées • Définition: combinaison inhabituelle de valeurs sur plusieurs variables • Exemple: un individu au 10e percentile pour la taille et au 90e percentile pour le poids • Problème: trop d’influence sur les résultats des analyses • Meilleure défense: réduire les valeurs extrêmes univariées Identification • Distance de Mahalanobis: distance de chaque sujet par rapport à un centroïde représentant la moyenne de toutes les variables • La valeur de la distance pour chaque sujet devrait être petite; on s’inquiète des valeurs qui se détachent de la distribution • Distance de Cook: Mesure de l’influence d’un sujet sur le modèle testé • On s’inquiète si > 1 • Résidus standardisés: distance entre la valeur du sujet pour Y et la valeur prédite par le modèle, ramenée en scores Z • On s’inquiète si Z < -3 ou Z > 3. 20 2015-11-10 Distance de Mahalanobis REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA COLLIN TOL /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT v1 /METHOD=ENTER v2 v3 v4 /SAVE MAHAL COOK. COMPUTE p_mah_1 = 1-CDF.CHISQ(mah_1,3) . EXECUTE . SORT CASES BY p_mah_1 (A) . FREQUENCIES VARIABLES=p_mah_1 /STATISTICS=MINIMUM MAXIMUM /ORDER=ANALYSIS. Surveillez les p < 0,001 et les grandes valeurs de mah_1 par rapport à la distribution. Que faire des cas extrêmes identifiés? • Refaire l’analyse en omettant ces cas: TEMPORARY. SELECT IF (id ne 0001). REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA COLLIN TOL /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN Les résultats sont-ils différents? /DEPENDENT v1 /METHOD=ENTER v2 v3 v4 Oui: poursuivre l’analyse sans ces cas /SAVE MAHAL COOK. Non: les conserver 21 2015-11-10 Multicolinéarité • Statistiques pour les modèles de régression • • Tolérance Statistiques de multicolinéarité VIF REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA COLLIN TOL /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT V1 /METHOD=ENTER V2 V3 V4. Interprétation • Critères officiels: lorsqu’ils sont atteints, la multicolinéarité nuit à l’inversion des matrices. • • Tolérance: multicolinéarité si proche de 0 VIF: multicolinéarité si > 10 • En pratique: les associations des VIs avec la VD peuvent être affectées bien avant d’atteindre ces critères VI1 VI2 VD Variance commune 22 2015-11-10 Décompte des données manquantes • Obtenir le décompte des données manquantes • • • Utiliser la syntaxe EXAMINE avec l’option LISTWISE Regarder la matrice de corrélation Faire un modèle multivarié Vous renseigne sur l’ampleur de votre problème de données manquantes (premier tableau de la sortie SPSS). • Quoi faire? La suite dans un prochain épisode… Maintenant vous pouvez commencer à penser aux analyses… Sauvegardez vos syntaxes! 23