Analyse de corrélation

Transcription

Analyse de corrélation
Analyse de corrélation
L'analyse de corrélation permet de quantifier la force du lien entre des
variables. Elle ne permet pas cependant de parler de cause-effet mais
seulement d’association. Par exemple, soit le nombre de questions de
référence reçues par un bibliothécaire dans une semaine, le nombre de
recherches automatisées que ce même bibliothécaire a faites, et finalement
le nombre d'heures passées au comptoir de référence par jour (cf tableau à
droite). Y a-t-il un lien entre le nombre de recherches automatisées et le
nombre de questions de référence? Entre le nombre de recherches et le temps
passé au comptoir? Si oui, est-ce un lien fort ou faible?
nombre de
questions de
référence
10
8
6
4
11
Données
nombre de nombre d'heures
recherches
au comptoir de
automatisées
référence
7
3
7
2
8
5
2
5
10
6
Pour le savoir, il faut faire une analyse de corrélation en utilisant les données des variables qui nous intéressent.
Analyse de corrélation dans Excel [Utilitaire d'analyse – Analyse de corrélation]
Utilitaire d'analyse de corrélation – Fenêtre de dialogue
Plage de données
Titres des colonnes
sélectionnés?
Résultats retournés par Excel (matrice de corrélation)
nombre de questions de référence
nombre de recherches automatisées
nombre d'heures au comptoir de référence
nombre de questions de
référence
1,0
0,8
-0,1
nombre de recherches
automatisées
nombre d'heures au
comptoir de référence
1,0
0,1
1,0
Interprétation de la matrice de corrélation retournée par Excel
Explications
Exemple tiré des résultats ci-dessus
Chaque cellule présente une valeur correspondant à la force
et le sens du lien entre la variable de la ligne où la cellule se
trouve et la variable de la colonne où la cellule se trouve
o Par exemple, la valeur 0,8 est la force du lien entre le
nombre de recherches automatisées et le nombre
de questions de référence
Interprétation de la force du lien
o Signe de la valeur (positif/négatif) : sens du lien
o

Valeur positive : lien direct (i.e. si une variable
augmente, l'autre augmente)

Valeur négative : lien inverse (i.e. si une variable
augmente, l'autre diminue)
Valeur (en valeur absolue i.e. sans tenir compte du +
ou du -) : force du lien

Repères (valeur arrondie; entre 0 et 1)




De 0 à 0,1 : Aucun lien ou très faible
De 0,2 à 0,3 : Lien faible
De 0,4 à 0,5 : Lien modéré
De 0,6 à 0,7 : Lien fort
0,8 et plus : Lien très fort (multicolinéarité i.e.
le lien est tellement fort que les variables
sont presque identiques et l'une peut être
pratiquement remplacée par l'autre)
SCI6060 (Hiver 2012)
Professeurs : Christine Dufour & Vincent Larivière

Lien entre le nombre de questions de référence
et le nombre de recherches automatisées
o Valeur (arrondie) : 0,8
o Sens du lien : direct car valeur positive
o Force du lien : Lien très fort

Lien entre le nombre de questions de référence
et le nombre d'heures au comptoir de référence
o Valeur (arrondie) : -0,1
o Sens du lien : inverse car valeur négative
o Force du lien : Aucun lien ou très faible

Lien entre le nombre de recherches automatisées
et le nombre d'heures au comptoir de référence
o Valeur (arrondie) : 0,1
o Sens du lien : direct car valeur positive
o Force du lien : Aucun lien ou très faible
Conclusion? On observe, dans nos données, un lien direct
très fort entre le nombre de questions de référence et le
nombre de recherches automatisées. Cependant, il n'y a
aucun lien (ou un lien très faible) entre le nombre de
questions de référence et le nombre d'heures au comptoir de
référence, de même qu'entre le nombre de recherches
automatisées et le nombre d'heures au comptoir de
référence.

Documents pareils