explorer un fichier spss - GRIP

Transcription

explorer un fichier spss - GRIP
2015-11-10
Explorer un fichier
SPSS
Hélène Paradis et Nadine Forget-Dubois
GRIP-Laval
10 novembre 2015
Se procurer SPSS
• Licence étudiante
• SPSS Premium: 39$/session (DTI)
Wow!
• Location pour 6 ou 12 mois: www.onthehub.com/spss/
1
2015-11-10
Confidentialité
• Protection de l’identité des participants
• Les fichiers sont dénominalisés, pas de dates de
naissance
• Pas de partage ni de fusion de fichiers entre étudiants
• Attention si vous manipulez directement des
questionnaires, vidéos, etc.
Vous avez reçu un fichier…
2
2015-11-10
Sauvegarde
• Conservez une copie intacte de votre fichier
d’origine, facile à retrouver
• Créez une copie de travail du fichier sous un autre
nom
• Sauvegardez vos syntaxes!
Pour travailler efficacement
3
2015-11-10
Pour clarifier les sorties
Réduire le fichier
• Conserver seulement les variables nécessaires à
l’analyse dans un autre fichier
SAVE OUTFILE='\\serveur\dossier\Fichier.sav'
/KEEP id to V2 V5 to V20.
EXECUTE.
GET FILE ='\\serveur\dossier\Fichier.sav'.
4
2015-11-10
Définir les manquants
• Les valeurs manquantes sont parfois représentées par un
code aberrant (99, -4, etc.)
• Il faut définir ces codes, sans quoi les valeurs seront
comptées dans les analyses
MISSING VALUES
v1
(-4)/
v2
(99).
Exploration au niveau
univarié
5
2015-11-10
Objectifs
• Connaître la matière brute de vos analyses: vos
variables
•
•
•
Est-ce que les variables sont prêtes?
•
•
Scores à créer
Recodage de catégories
Est-ce qu’il y a de la variance interindividuelle?
•
•
Quelles-sont les fréquences des variables catégorielles?
Quelles sont la moyenne et la variance des variables continues?
Est-ce que les variables respectent les prémisses?
•
•
Quelle est la forme de la distribution?
Y a-t-il des valeurs extrêmes?
Examen des variables nominales et
ordinales
FREQUENCIES sexe v1 v2 v3.
• Quelles sont les fréquences des catégories ou échelons?
• Le codage des catégories est-il logique?
•
Exemple: une réponse oui/non pourrait être codée 1=oui et 2=non
•
•
•
Coder à partir de 0
Recoder pour que les nombres représentent une échelle croissante
Distance égale entre les échelons
• Le codage est-il utilisable?
6
2015-11-10
Recodage de variables
• Syntaxe
/* Recoder le sexe en 0-Masculin et 1-féminin */
RECODE
sexe (1=0)(2=1).
EXECUTE.
VALUE LABELS sexe 0 "masculin" 1 "féminin".
/* Recoder des valeur manquantes en cases vides */
RECODE
v1 (-4=SYSMIS)(99=SYSMIS).
EXECUTE.
Recodage de facteurs de risque
• Recodage logique: on veut que risque = 1 et non-risque = 0
•
Exemple: «pas de DES» = 0 et «DES» = 1 dans codage original
/* Recoder une variable pour que risque = 1*/
RECODE
education (1=0)(0=1).
EXECUTE.
VALUE LABELS
education 0 "DES"
1
"pas de DES".
7
2015-11-10
Recoder en moins de catégories
/* METHODE 1 */
RECODE v5 (0=0) (1=0) (2=0) (3=0) (4=0) (9=2) (10=2) (5 thru 8=1) INTO v5r.
EXECUTE.
/* METHODE 2 */
IF(v5 >=0 & v5<=4) v5r=0.
IF(v5 >=5 & v5 <=8) v5r=1.
IF(v5=9 | v5=10) v5r=2.
EXECUTE.
VARIABLE LABELS
v5r "v5 en 3 catégories".
VALUE LABELS
v5r 0 "0 à 4"
1 "5 à 8"
2 "9 à 10".
Crée
variable v5r
Crée
variable
v5r
Toujours faire une
fréquence sur l’ancienne
et la nouvelle variable
FREQ v5 v5r.
Créer des scores moyens
•
Score moyen à partir de 10 items (var1-var10 consécutifs)
•
Score moyen calculé dès qu’un item est présent
COMPUTE Sco_moy = MEAN(var1 to var10).
EXECUTE.
•
Contrôle du nombre d’items manquants sur l’échelle
•
Nombre minimal d’items requis
COMPUTE Sco_moy = MEAN.8(var1 to var10).
EXECUTE.
ou
2 manquants sur 10
permis
COMPUTE Sco_moy =
MEAN.8(var1,var2,var3,var4,var5,var6,var7,var8,var9,var10).
EXECUTE.
8
2015-11-10
Créer des sommes
•
Somme de 10 items consécutifs
•
Va calculer une somme dès qu’un item est disponible
COMPUTE Sco_tot = SUM(var1 to var10).
•
Permettre des items manquants tout en gardant tous les participants sur
la même échelle
•
Moyenne des items * nombre max d’items, arrondi
COMPUTE Sco_tot = RND(MEAN.8(var1 to var10)*10).
EXECUTE.
ou
COMPUTE Sco_tot = RND(MEAN.8(var1, var2, var3, var4, var5,
var6, var7, var8, var9, var10)*10).
EXECUTE.
Examen des variables continues
• Variables continues: statistiques descriptives et
distributions
FREQUENCIES VARIABLES= v6 v7 v8
/PERCENTILES=95.0
/STATISTICS=STDDEV MINIMUM MAXIMUM MEAN SKEWNESS
SESKEW KURTOSIS SEKURT
/HISTOGRAM NORMAL
/ORDER=ANALYSIS.
9
2015-11-10
Autre méthode pour variables continues
EXAMINE VARIABLES= v6 v7 v8
/PLOT BOXPLOT STEMLEAF
HISTOGRAM
/COMPARE GROUPS
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING PAIRWISE
/NOTOTAL.
Le boxplot démystifié
10
2015-11-10
À surveiller
•
Les N sont-ils tels qu’attendus?
•
L’étendue de la distribution et les statistiques descriptives sontelles possibles pour la variable?
•
•
La distribution est-elle normale?
•
Si non: quelle est sa forme?
Il y a des lignes
directrices pour
identifier les
problèmes mais pas de
recette infaillible
Voyez-vous des valeurs extrêmes?
Valeurs qui se détachent de la distribution
Obtenir les scores Z
• Transformer des scores continus en proportions d’écart•
type (moyenne =0, écart-type=1)
Manière d’identifier les valeurs extrêmes (> 3 écarts-types)
DESCRIPTIVES VARIABLES= V8
/SAVE
/STATISTICS=MEAN STDDEV MIN MAX.
Crée variable zV8
11
2015-11-10
Transformation
•
•
•
Regarder: asymétrie (skewness) de la distribution: devrait être près de 0
•
Acceptable entre -0.5 et 0.5 (critère variable selon les sources!)
Examen visuel de la forme des distributions
La transformation affecte les valeurs mais pas l’ordre
Asymétrie positive
Asymétrie négative
Asymétrie positive
• Transformation habituelle: log base 10 ou log naturel
base 10
COMPUTE lv6 = LG10(v6).
EXECUTE.
log naturel
COMPUTE lv6 = LN(v6).
EXECUTE.
• Si la plus petite valeur de la distribution < 1:
COMPUTE lv6 = LG10(v6+1)
EXECUTE.
ou
COMPUTE lv6 = LN(v6+1)
EXECUTE.
Vérifiez l’effet de la
transformation!
12
2015-11-10
Asymétrie négative
• Transformation : reflect & log (lg10 ou ln)
1)
2)
3)
Obtenir une image miroir de la distribution et
appliquer la transformation log
Remettre la distribution dans son sens d’origine
Vérifier l’effet de la transformation et le sens de
l’échelle
Reflect & log: étape 1
•
Syntaxe:
/* Transformer la variable avec un LG10 en inversant la distribution */
COMPUTE rlv7 = LG10(101-v7).
EXECUTE.
Valeur max de la
distribution + 1
FREQUENCIES VARIABLES= v7 rlv7
/STATISTICS=STDDEV MINIMUM MAXIMUM MEAN SKEWNESS
SESKEW KURTOSIS SEKURT
Vérifier N et effet
/ORDER=ANALYSIS.
de log
CORRELATIONS
/VARIABLES= v7 rlv7
/PRINT=TWOTAIL NOSIG
/MISSING=PAIRWISE.
Corrélation
négative forte
13
2015-11-10
Reflect & log: étape 2
/* Remettre la
distribution dans son sens original*/
COMPUTE rlrv7= rlv7*-1.
VARIABLE LABELS rlrv7 'v7 reflect log reflect'.
EXECUTE.
Reflect & log: étape 3
/* Vérification*/
CORRELATIONS
/VARIABLES= v7 rlrv7
/PRINT=TWOTAIL NOSIG
/MISSING=PAIRWISE.
Corrélation
positive forte
• Vérifier le N de la variable finale et l’effet sur la
distribution
14
2015-11-10
Winsorisation
• Technique pour remplacer les valeurs extrêmes par des
valeurs moins extrêmes
• Les valeurs extrêmes restent les plus élevées ou les plus
basses mais se rapprochent des valeurs jugées normales
• Conserve l’échelle de la distribution
• Particulièrement utile lorsqu’un petit nombre de cas se
détachent de la distribution
Syntaxe pour la winsorisation
• Exemple: ramener les valeurs au-dessus du 95e percentile à
la valeur du 95e percentile
• Identifier la valeur au 95e percentile:
FREQUENCIES VARIABLES= v1
/FORMAT=NOTABLE
/PERCENTILES=95.0
/ORDER=ANALYSIS.
• Créer la variable winsorisée si 95e percentile = 9
COMPUTE Wv1 = v1.
IF (Wv1 > 9) Wv1 = 9.
EXECUTE.
15
2015-11-10
Exploration au niveau
bivarié
Objectifs
• Est-ce que vous retrouvez les associations
attendues?
• Est-ce que vous retrouvez des associations
inattendues?
• Ces associations sont-elles faibles, moyennes ou
fortes?
• Certaines associations sont-elles trop fortes?
16
2015-11-10
Associations entre les variables
• Quel est le test d’association approprié?
•
•
•
•
•
Variables continues normalement distribuées: corrélation de
Pearson
Variables continues mais avec distributions anormales:
corrélations de Spearman
1 variable continue et 1 variable binaire: corrélation bisériale de
point
Variables ordinales, ou continues et ordinales: corrélation de
Spearman
Variables nominales: Khi-carré
Syntaxes
• Corrélations de Pearson:
CORRELATIONS
/VARIABLES= v1 v2 v3
/PRINT=TWOTAIL NOSIG
/MISSING=PAIRWISE.
• Corrélations de Spearman:
NONPAR CORR
/VARIABLES= v4 v5 v6
/PRINT=SPEARMAN TWOTAIL NOSIG
/MISSING=PAIRWISE.
17
2015-11-10
• Corrélation bisériale de point:
CORRELATIONS
/VARIABLES= v7 v8
/PRINT=TWOTAIL NOSIG
/MISSING=PAIRWISE.
• Khi-carré:
CROSSTABS
/TABLES= v12 BY v13
/FORMAT=AVALUE TABLES
/STATISTICS=CHISQ
/CELLS=COUNT EXPECTED ROW COLUMN TOTAL ASRESID
/COUNT ROUND CELL.
multicolinéarité?
•
Vous ne pouvez pas entrer dans le même modèle des variables
trop fortement associées
•
multicolinéarité: relation linéaire entre des variables
•
•
•
Introduit de l’information redondante dans le modèle
La reconnaître
•
•
Corrélations de .80-.90 entre deux variables
Statistiques de multicolinéarité des modèles multivariés
La traiter
•
•
Choisir une variable
Combiner les variables
18
2015-11-10
Exploration au niveau
multivarié
Objectifs
• Vérifier les prémisses des modèles multivariés
• Valeurs extrêmes multivariées
• Multicolinéarité
• Décompte des données manquantes
• Tester les hypothèses de recherche (enfin!)
19
2015-11-10
Valeurs extrêmes multivariées
• Définition: combinaison inhabituelle de
valeurs sur plusieurs variables
• Exemple: un individu au 10e percentile pour la
taille et au 90e percentile pour le poids
• Problème: trop d’influence sur les résultats des
analyses
• Meilleure défense: réduire les valeurs extrêmes
univariées
Identification
• Distance de Mahalanobis: distance de chaque sujet par
rapport à un centroïde représentant la moyenne de toutes
les variables
•
La valeur de la distance pour chaque sujet devrait être petite; on
s’inquiète des valeurs qui se détachent de la distribution
• Distance de Cook: Mesure de l’influence d’un sujet sur le
modèle testé
•
On s’inquiète si > 1
• Résidus standardisés: distance entre la valeur du sujet pour
Y et la valeur prédite par le modèle, ramenée en scores Z
•
On s’inquiète si Z < -3 ou Z > 3.
20
2015-11-10
Distance de Mahalanobis
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA COLLIN TOL
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT v1
/METHOD=ENTER v2 v3 v4
/SAVE MAHAL COOK.
COMPUTE p_mah_1 = 1-CDF.CHISQ(mah_1,3) .
EXECUTE .
SORT CASES BY
p_mah_1 (A) .
FREQUENCIES VARIABLES=p_mah_1
/STATISTICS=MINIMUM MAXIMUM
/ORDER=ANALYSIS.
Surveillez les p < 0,001 et
les grandes valeurs de
mah_1 par rapport à la
distribution.
Que faire des cas extrêmes identifiés?
• Refaire l’analyse en omettant ces cas:
TEMPORARY.
SELECT IF (id ne 0001).
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA COLLIN TOL
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
Les résultats sont-ils différents?
/DEPENDENT v1
/METHOD=ENTER v2 v3 v4
Oui: poursuivre l’analyse
sans ces cas
/SAVE MAHAL COOK.
Non: les conserver
21
2015-11-10
Multicolinéarité
• Statistiques pour les modèles de régression
•
•
Tolérance
Statistiques de
multicolinéarité
VIF
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA COLLIN TOL
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT V1
/METHOD=ENTER V2 V3 V4.
Interprétation
• Critères officiels: lorsqu’ils sont atteints, la
multicolinéarité nuit à l’inversion des matrices.
•
•
Tolérance: multicolinéarité si proche de 0
VIF: multicolinéarité si > 10
• En pratique: les associations des VIs avec la VD peuvent
être affectées bien avant d’atteindre ces critères
VI1
VI2
VD
Variance
commune
22
2015-11-10
Décompte des données manquantes
• Obtenir le décompte des données manquantes
•
•
•
Utiliser la syntaxe EXAMINE avec l’option LISTWISE
Regarder la matrice de corrélation
Faire un modèle multivarié
Vous renseigne sur l’ampleur de votre problème de données
manquantes (premier tableau de la sortie SPSS).
• Quoi faire? La suite dans un prochain épisode…
Maintenant vous pouvez commencer à penser
aux analyses…
Sauvegardez vos syntaxes!
23