GUIDE POUR LA MESURE DES VARIABLES ET LE

Transcription

GUIDE POUR LA MESURE DES VARIABLES ET LE
i
LES THÉORIES SOCIALES COGNITIVES: GUIDE POUR LA MESURE DES
VARIABLES ET LE DÉVELOPPEMENT DE QUESTIONNAIRE
Camille Gagné, Ph. D.
Gaston Godin, Ph. D.
Groupe de recherche sur les aspects psychosociaux de la santé
École des sciences infirmières, Université Laval
FÉVRIER 1999
ii
Dépôt légal, Bibliothèque nationale du Québec, 1999
Dépôt légal, Bibliothèque nationale du Canada, 1999
ISBN 2-9804226-4-9
iii
Table des matières
page
Liste des figures ............................................................................................................
v
Avant-propos ……………………………………………………………………………
vi
Introduction ...............................................................................................…...............
1
1. Détermination de ce que l'on veut mesurer et à quelle fin ………...………………….
1.1 La TCP et les objectifs de la recherche ……………………………………...
1.2 La TCP et la définition des construits ……………………………………….
3
3
3
2. Inclusion ou non d'items étrangers aux construits mesurés …………………………..
4
3. Définition et analyse de la population cible …………………………………………..
5
4. Implication de juges ou d'experts dans le processus ………………………………….
6
5. Détermination du format de l'échelle …………………………………………………
5.1 L'échelonnement selon la méthode de Likert (1932) ………………………..
5.1.1 L'analyse des items ………………………………………………...
5.1.2 L'évaluation de la méthode de Likert ……………………………...
5.2 Le différenciateur sémantique ……………………………………………….
5.2.1 L'analyse des items ………………………………………………...
5.2.2 L'évaluation du différenciateur sémantique ………………………..
6
7
7
10
10
11
12
6. Détermination de l'échelle d'appréciation …………………………………………….. 12
6.1 Nombre d'options de réponse ………………………………………………. 13
6.2 Contenu des descripteurs …………………………………………………… 13
7. Formulation des items ………………………………………………………………... 15
7.1 Clarté des items …………………………………………………………….. 15
7.2 Formulation qui favorise la justesse des réponses ……………………..……. 17
iv
page
8. Les mesures à item unique versus celles constituées de plusieurs items ………….….. 18
9. Production d'une banque initiale d'items ……………………………………………...
9.1 Démarche pour constituer une banque d'items pour la mesure des construits
indirects ( bxe, nbxmc, cxp) de la TCP …………….………………..……..
9.1.1 Identification des croyances saillantes personnelles ……………….
9.1.2 Analyse du contenu des croyances saillantes personnelles ………...
9.1.3 Identification des croyances saillantes modales ……………………
9.1.4 Élaboration des items visant la mesure des construits indirects de la
TCP ……………………………………………………….……………..
9.2 Items couramment utilisés pour la mesure de l'intention et des construits
directs (Aact, SN, PBC) de la TCP……………………………………………...
9.2.1 Mesure de l'attitude envers la réalisation du comportement (Aact)..
9.2.2 Mesure de la norme subjective (SN) .....…....................….............
9.2.3 Mesure de la perception du contrôle (PBC) ...............……............
9.2.4 Mesure de l'intention (I) ..........................................................…..
9.3 Mesure des variables de la théorie des comportements interpersonnels ….
21
32
32
34
36
38
40
10. Séquence de présentation des items et des construits ..….....................……............
45
11. Mise au point du questionnaire .....…………………………………….....................
11.1 Les préexpérimentations .................................……...................................
11.2 L'évaluation des items ..................................…..........................................
11.2.1 Critères pour estimer la qualité d'un item .......………...................
46
46
47
53
Conclusion ……………………………………………………………..………………..
57
Notes ............................................................................................................................
58
Références ....................................................................................................................
64
22
23
25
27
27
v
Liste des figures
page
Figure 1.
Figure 2.
Courbes caractéristiques idéales pour des items positifs d'une échelle de
type Likert. La probabilité d'accord ou le niveau d'accord (le score à l'item)
doit augmenter avec le score total à l'échelle...................................................
9
Fidélité à l'échelle totale en fonction du nombre d'items que comporte
l'échelle pour des valeurs de fidélité interitem de .2, .4, .6 et .8 .....................
20
vi
Avant-propos
Quelles sont les qualités d’un questionnaire? Comment développer un bon questionnaire?
Comment mesurer une attitude? Voilà autant de questions auxquelles sont confrontés les
étudiant(e)s, les chercheur(e)s et les intervenant(e)s des milieux de pratique. Ce document
s’adresse à ces personnes qui s’intéressent à la compréhension et à la prédiction des
comportements, en particulier dans le domaine de la santé. Ils y trouveront une démarche pour
développer un questionnaire répondant aux critères de mesure de trois théories sociales
cognitives (la théorie de l’action raisonnée, la théorie du comportement planifié, la théorie des
comportements interpersonnels), mais aussi une liste d’items qui ont à maintes reprises démontré
leur efficacité pour mesurer les construits visés. La brève incursion dans le domaine de l’analyse
des données devrait en outre fournir quelques pistes pour estimer la qualité d’un instrument de
mesure.
1
Introduction
Le présent document vise à guider le développement de questionnaire pour la mesure des
variables de trois théories sociales cognitives ayant comme objet la prédiction de l'intention et du
comportement: la théorie de l'action raisonnée (TAR), la théorie du comportement planifié
(TCP) et la théorie des comportements interpersonnels (TCI). Le document est structuré en
fonction principalement de la mesure des variables de la TCP. Nous avons supposé qu'une fois
connus les principes de mesure de la TCP, il serait relativement facile de procéder à la mesure
des variables de la TAR et de la TCI.
L'utilisation de ce document suppose une connaissance minimale de la TAR, de la TCP
ou de la TCI. Aussi est-il nécessaire de prendre connaissance des articles de Fishbein & Ajzen
(1975), Ajzen (1991) ou Triandis (1980) pour l'acquisition des notions de base relatives
respectivement à la TAR, la TCP et la TCI. Un résumé de ces trois théories est aussi disponible
dans Godin (1991). On note depuis quelques années un intérêt grandissant pour la mesure des
variables de la TAR et de la TCP. Un certain nombre d'articles vient d'ailleurs nuancer ou
remettre en question les propos tenus dans les articles de base mentionnés précédemment. Nous
ferons allusion aux résultats de quelques-unes de ces études en espérant qu'ils sensibiliseront le
lecteur aux limites de sa démarche. Nous encourageons le lecteur à prendre connaissance des
dernières découvertes dans le domaine et à les intégrer au besoin et à juste escient à sa démarche.
La démarche proposée pour le développement d'un questionnaire s'inspire de celle
suggérée par Ajzen & Fishbein (1980) et DeVellis (1991). Rappelons cependant qu'il n'existe pas
de règles absolues qui garantissent le succès dans le développement d'un instrument de qualité.
D'ailleurs, plusieurs auteurs s'entendent pour affirmer que la démarche d'élaboration d'un
questionnaire relève davantage de l'art que de la technique. La démarche proposée tolère donc
des variantes. Néanmoins, nous osons croire que les 11 rubriques suivantes et les sous-rubriques
qu'elles contiennent contribueront au développement de questionnaires valides et fidèles
satisfaisant les critères de mesure de la TAR, de la TCP ou de la TCI. Les rubriques
correspondent aux suivantes:
1) Détermination précise ce que l'on veut mesurer et à quelle fin
2) Inclusion ou non d'items étrangers aux construits mesurés
3) Définition et analyse de la population cible
4) Implication de juges ou d'experts dans le processus
2
5) Détermination du format de l’échelle
6) Détermination de l’échelle d’appréciation
7) Formulation des items
8) Les mesures à item unique versus celles constituées de plusieurs items
9) Production d'une banque initiale d'items
10) Séquence de présentation des items et des construits
11) Mise au point du questionnaire
Enfin, dans le but de faciliter la compréhension du texte, nous avons introduit des notes
qui fournissent une description sommaire de certains concepts de base. Il est suggéré
d'approfondir ces notions en consultant d'autres ouvrages; certains, que nous estimons
particulièrement intéressants, sont mentionnés dans le texte.
3
1. Détermination de ce que l'on veut mesurer et à quelle fin
Un instrument de mesure ne saura jamais être valide et utile sans une connaissance
approfondie de ce qui doit être mesuré et de ce qui sera fait de l'information obtenue. Aussi
faudra-t-il tôt dans le processus définir précisément et les objectifs et les construits1 à mesurer.
La théorie du comportement planifié (TCP) offre des repères quant à la clarification de chacun
de ces deux aspects.
1.1 La TCP et les objectifs de la recherche
Dans son intégralité, la TCP implique la mesure de 11 variables: l'intention (I), le
comportement (Co), l'attitude envers le comportement (Aact), la norme subjective (SN), la
perception du contrôle (PBC), les croyances comportementales (b), l'évaluation des croyances
comportementales (e), les croyances normatives (nb), la motivation à se conformer (mc), les
croyances liées au contrôle (c), l'évaluation de l'intensité avec laquelle les croyances liées au
contrôle peuvent faciliter ou nuire à l'adoption du comportement (p). Or, la souplesse dont fait
preuve cette théorie est telle qu'un nombre plus ou moins important des variables qu'elle
comporte pourront faire l'objet d'une mesure. Ce sont les objectifs de la recherche qui guideront
le choix des variables à mesurer. Une mesure de l'intention et de la perception du contrôle
pourront suffire dans le cas où le but d'une étude viserait essentiellement à prédire le
comportement. On cherche parfois à mieux comprendre pourquoi les individus agissent tel qu'ils
le font; dans ce cas, Ajzen (1991) suggère de mesurer l'attitude envers le comportement (Aact),
la norme subjective (SN) et la perception du contrôle (PBC). Une connaissance plus approfondie
des facteurs influençant le comportement suppose l'examen des déterminants de Aact, SN, PBC
et implique la mesure de b, e, nb, mc, c et p. Ces dernières variables pourront être utilisées pour
définir le contenu d'un programme d'intervention visant à changer le comportement de la
clientèle cible de l'étude.
1.2 La TCP et la définition des construits
Derrière l'utilisation de la TCP se trouve un intérêt pour l'étude d'un comportement2.
Chacun des construits de la TCP devra en fait être défini et mesurer en référence à un
comportement. Or, l'idée qu'on se fait du comportement à étudier est généralement vague au
début. Pourtant et comme nous l'avons déjà mentionné, un instrument de mesure ne pourra être
valide et utile sans une connaissance approfondie de ce qui doit être mesuré. Aussi faudra-t-il
4
chercher à nuancer le comportement, à déterminer ce qu'il est et ce qu'il n'est pas. À cet effet, la
théorie et les connaissances accumulées constituent le principal recours. Elles permettront de
bien appréhender le comportement visé et cerner les variables qui pourraient être utilisées
ultérieurement pour démontrer la validité3 de l'instrument de mesure. Ce travail de clarification
devrait déboucher sur une définition du comportement à l'étude.
Ajzen & Fishbein (1980) fournissent des repères pour la définition du comportement. Ils
recommandent de le définir en précisant les quatre éléments suivants: l’action, l'objet, le contexte
et le temps. L'action fait référence à un verbe (e.g. brosser) qui sera dirigé vers un objet (e.g. ses
dents). Il importe d'amener le répondant à se prononcer sur son comportement personnel plutôt
que sur un comportement en général. Les réponses d'un individu pourraient en effet varier selon
qu'il se sent plus ou moins impliqué dans la définition du comportement. Par exemple, un
individu pourrait se montrer favorable envers la pratique d'activités physiques mais pour diverses
raisons être défavorable à sa pratique personnelle. Selon Ajzen & Fishbein (1980), la prédiction
du comportement sera d'autant plus exacte que le contexte dans lequel il se déroule et le moment
auquel il peut se réaliser auront été spécifiés. L'importance de ces deux derniers aspects est
manifeste lorsqu'on prend en considération qu'ils peuvent exercer une influence sur la réalisation
d’un comportement. Par exemple, l'intention d'utiliser un préservatif pourra varier selon le
contexte spécifié (partenaire régulier ou nouveau partenaire). De même, l'intention de cesser de
fumer pourra différer selon le moment auquel il est fait référence (immédiatement ou au cours de
la prochaine année). Une revue de la littérature permettra de cerner les conditions (action, objet,
contexte, temps) dans lesquelles un comportement donné peut avoir une incidence sur la santé. Il
est à noter que chacune des variables de la TCP devra être mesurée en référence aux critères
spécifiés (action, objet, temps et contexte) pour définir le comportement.
2. Inclusion ou non d'items étrangers aux construits mesurés
Il arrive que des chercheurs insèrent dans le questionnaire des items visant à vérifier la
présence de certains biais de réponse4 dont celui de la désirabilité sociale, cette tendance des
sujets à répondre d'une manière approuvée socialement. Comme le mentionne Voyer (1996), le
problème de l'utilisation de telles mesures réside dans l'importance à leur accorder au moment de
l'analyse des données. S'il est jugé nécessaire d'inclure une mesure de la désirabilité sociale, par
exemple, c'est qu'elle semble être en lien avec le construit d'intérêt. Or, en rejetant de
l'échantillon les individus apparemment fragiles à cette source de biais, nous augmentons les
risques d'une mésestimation de la valeur du construit dans la population... Cette façon de faire
5
aura aussi comme conséquence de diminuer la taille de l'échantillon, ce qui peut s'avérer
problématique lorsque celle-ci n'est pas élevée au départ. En somme, s'il est jugé opportun
d'inclure une mesure de la désirabilité sociale ou toute autre mesure de biais de réponse, il est
recommandé de connaître la valeur des indices utilisés et de prévoir très exactement ce qui sera
fait de l'information obtenue (Voyer, 1996).
Parfois, des chercheurs incluent aussi dans un questionnaire des items destinés à vérifier
la validité de l'instrument de mesure. Le problème dans un tel cas réside dans l'influence que
peuvent avoir l'une sur l'autre les deux mesures. Plusieurs études démontrent en effet que la
réponse à une question peut être influencée par les items présentés auparavant (e.g. Payne, 1951;
Schuman & Presser, 1981; Tourangeau, Rasinski, Bradbun & D'andrade, 1989a, b). Aussi est-il
préférable de faire appel à des instruments de mesure différents pour mesurer la variable d'intérêt
et celle servant à la valider (Voyer, 1996).
Il faut retenir du contenu de cette section qu'on ne devrait retrouver dans un questionnaire
que des items dont l'utilisation est justifiée et planifiée. Nous désirons donc mettre en garde
contre une approche trop souvent rencontrée qui consiste à inclure des items <<au cas où on en
aurait besoin>>. Non seulement l'utilisation de tels items demeure-t-elle souvent ambiguë même
après l'administration du questionnaire, mais ils peuvent affecter la qualité des données
recueillies. Comme nous l'avons déjà mentionné, plusieurs études ont démontré que la réponse
d'un sujet à un item peut être influencée par les items précédents. En outre, en augmentant la
durée d'administration du questionnaire, le nombre d'items présenté peut affecter la fatigue et la
motivation du répondant influençant par là même sa capacité et/ou sa volonté à fournir les efforts
attendus de lui (Krosnick, 1991). Enfin, dans certains contextes, un nombre élevé d'items
pourrait rendre relativement long le temps d'administration du questionnaire limitant ainsi le
nombre de répondants pouvant prendre part à l'étude à l'intérieur d'une période de temps donnée.
3. Définition et analyse de la population cible
Relativement tôt dans le processus il importe de définir la population à laquelle on
s'intéresse. Une bonne connaissance de la population cible permettra d'adapter l'étude aux
caractéristiques des individus qui la composent augmentant ainsi les chances que ces derniers
acceptent de répondre au questionnaire, qu'ils comprennent les directives et les questions et qu'ils
fournissent une réponse exacte aux questions posées.
6
4. Implication de juges ou d'experts dans le processus
Dans une perspective de validation mais aussi pour favoriser la fidélité des résultats de
l'étude, il est souhaitable de soumettre la définition des construits ainsi que les items ciblés pour
les mesurer à l'examen critique d'un certain nombre de personnes (deux ou trois) spécialistes
dans le domaine d'étude dans lequel s'insère l'objet de la mesure. Dans un premier temps, les
experts seront appelés à se prononcer sur: a) l'acceptabilité de la définition des construits et de
ses dimensions s'il y lieu; b) l'exhaustivité des dimensions retenues pour cerner ou représenter le
construit; c) la pertinence des variables retenues pour procéder à la validation des construits de
l'étude. Dans un deuxième temps, les experts qui peuvent ou non différer des premiers, pourront
se prononcer sur la pertinence, la clarté et l'exhaustivité des items visant la mesure des construits.
Lorsque plusieurs construits sont mesurés, comme dans le cas de l'application de la TCP, il est
souhaitable que les experts parviennent à associer les construits aux items destinés à les mesurer.
5. Détermination du format de l'échelle
Avant de procéder à la formulation des items, il est préférable de déterminer le type
d'échelle5 qui sera utilisé puisque celui-ci aura une incidence sur la nature et le format des items
à développer. Abstraction faite des techniques de <<multi-scaling>>, il existe deux principales
catégories de stratégies pour élaborer une échelle: celle qui accorde d'emblée un poids identique
à chaque item (échelle additive) et celle qui attribue une importance différente aux items selon
qu'ils traduisent un niveau de possession plus ou moins élevé de la caractéristique mesurée
(échelle différentielle). A l'intérieur de chacune de ces catégories se trouvent des techniques
particulières parmi lesquelles on retrouve la méthode de Likert (Likert, 1932), le différenciateur
sémantique (Osgood, Suci & Tanembaum, 1957), les techniques de Thurstone (Thurstone,
1927a, b) et de Guttman (Guttman, 1941, 1944). La méthode de Likert et le différenciateur
sémantique consistent en des échelles additives alors que les techniques de Thurstone et de
Guttman prennent plutôt la forme d'échelles différentielles. Bien qu'élégantes sur le plan
théorique, les échelles différentielles s'avèrent très peu utilisées en pratique parce ce que leur
mise au point est exigeante sans pour autant déboucher sur des instruments de meilleure qualité
que ceux obtenus avec les échelles additives.
La majorité des études utilisant la TCP font appel au différenciateur sémantique pour
mesurer l'attitude envers le comportement. La méthode de Likert s'avère quant à elle fort utilisée
pour mesurer les croyances et les construits cognitifs comme la norme subjective, la perception
du contrôle et l'intention. Aussi allons-nous présenter plus en détail ces deux dernières stratégies.
Certains volumes fournissent une bonne description des méthodes de Guttman et de Thurstone
7
(e.g. Himmelfarb 1993). La description qui suit consiste en une traduction et une adaptation de
certaines parties du texte de Himmelfarb (1993).
5.1 L'échelonnement selon la méthode de Likert (1932)
Le développement d'une échelle de type Likert suppose au départ l'existence d'une
banque importante d'items choisis de façon plus ou moins intuitive en fonction de leur relation
potentielle avec l'objet d'étude. Les items d'une échelle de type Likert consistent généralement en
des énoncés favorables ou défavorables envers l'objet d'étude. Le degré de faveur ou de défaveur
des items est cependant inconnu. Chaque item est accompagné d'un choix de réponse pouvant
prendre une forme ressemblant à la suivante: a) fortement en désaccord; b) légèrement en
désaccord; c) indécis(e); d) légèrement en accord; e) fortement en accord. Les répondants
doivent sélectionner l'option de réponse traduisant le mieux leur degré d'accord ou de désaccord
avec l'item. Une valeur d'échelle (e.g. 1 à 5) est attribuée à chacune des options selon: a) le
niveau d'accord ou de désaccord exprimé par l'option de réponse; b) la position favorable ou
défavorable de l'item envers l'objet d'étude. Ainsi, l'option de réponse traduisant le plus haut
niveau d'accord avec un énoncé favorable à l'objet d'étude recevra la valeur d'échelle la plus
élevée. Par contre, lorsqu'un item exprime une position défavorable envers l'objet d'étude, on
associera à l'option de réponse traduisant le plus fortement le désaccord la valeur d'échelle la
plus élevée. Le score total d'un individu correspond à la sommation des résultats obtenus à
chacun des items.
5.1.1 L'analyse des items
Pour élaborer une échelle Likert, la banque initiale d'items doit faire l'objet d'une
préexpérimentation auprès de sujets issus de la population cible afin d'éliminer les items
ambigus ou non discriminants. Avant l'avènement des ordinateurs, le pouvoir de discrimination
des items était étudié en vérifiant la présence d'une différence statistiquement significative entre
les moyennes de deux groupes de sujets: l'un composé de 27% des sujets ayant obtenus les
scores les plus élevés à l'échelle et l'autre constitué de 27% des sujets présentant les résultats les
plus faibles
(Kelly, 1939). Avec les moyens dont on dispose aujourd'hui, cette façon de faire est moins
justifiée et l'on procède plutôt au calcul de la corrélation entre chacun des items et le total. On
8
prend généralement soin d'exclure du total l'item impliqué dans la corrélation, ce qui revient à
calculer la corrélation entre un item et la sommation des autres items visant à mesurer le même
construit. De façon générale, les items fortement reliés avec le total sont considérés comme de
bons items alors que les items présentant une faible corrélation ou une corrélation nulle avec le
total sont habituellement rejetés.
Une analyse d'items complète suppose d'examiner la courbe caractéristique de chacun des
items, laquelle présente la relation entre la probabilité d'être en accord avec un item et le score
total à l'échelle. Étant donné qu'une échelle Likert comprend des options de réponse exprimant
différents degrés d'accord, on estimera la proportion de sujets en accord avec un item en
combinant les réponses obtenues à ces différentes options de réponse exprimant l'accord. Une
façon plus facile et tout aussi valable d'étudier le comportement d'un item consiste à tracer un
graphique illustrant la relation entre les résultats à un item et le score total à l'échelle. La courbe
caractéristique idéale d'un item d'une échelle de type Likert prend la forme d'une fonction
monotone6 où, pour des items exprimant une position favorable, la probabilité d'être en accord
avec un item ou le score à l'item augmente avec le score total à l'échelle.
La figure 1 illustre deux courbes caractéristiques d'items idéales d'une échelle Likert. La
forme exacte de la fonction dépend de la distribution des scores à l'item et à l'échelle totale et
varie aussi selon le caractère plus ou moins favorable de l'item. La pente constitue l'aspect le
plus critique de la fonction. Une courbe caractéristique d'items dont la pente est faible ou nulle
suggère que l'item est ambigu ou non pertinent parce qu'il est endossé par des individus n'ayant
pas le même niveau de possession de la caractéristique mesurée.
9
Figure 1.
Courbes caractéristiques idéales pour des items positifs d'une échelle de type
Likert. La probabilité d'accord ou le niveau d'accord (le score à l'item) doit
augmenter avec le score total à l'échelle.
Étant donné que les postulats de mesure de la méthode d'échelonnement de Likert sont
semblables à ceux de certains tests psychométriques (e.g. les tests de connaissance), les critères
de sélection des items de ces derniers tests peuvent être utilisés pour maximiser la puissance
discriminante, la fidélité et la validité des échelles de type Likert. Il sera question plus loin de
quelques-uns de ces critères, dont le coefficient alpha de Cronbach (Cronbach, 1951). Certains
volumes, dont ceux de Allen & Yen, (1979), de Crocker & Algina, (1986) ou de Nunnally,
(1978) fournissent une description détaillée des critères de sélection des items.
Il n'est pas rare de retrouver dans la littérature des échelles considérées à tort comme des
échelles de type Likert. En effet, il ne suffit pas de présenter un ensemble d'énoncés et de leur
adjoindre des options de réponse pour affirmer être en présence d'une échelle de type Likert.
L'élaboration d'une échelle de qualité, quel qu'en soit le type, suppose d'effectuer une analyse
d'items afin de ne retenir que les items considérés pertinents pour la mesure d'une caractéristique
bien déterminée.
10
5.1.2 L'évaluation de la méthode de Likert
Le principal désavantage des échelles Likert tient à l'ignorance du niveau de mesure des
résultats obtenus. En fait, il est difficile d'établir si l'on est présence d'une échelle ordinale ou
d'intervalle. Des développements récents dans la théorie des réponses aux items (e.g. Birnbaum,
1968; Rasch, 1960) fournissent cependant une base pour déterminer les propriétés métriques de
différents tests psychométriques (Weiss & Davidson, 1981). La méthode de Likert ne permet pas
non plus de déterminer le caractère unidimensionnel de l'échelle produite. Bien que l'approche de
Likert tente de localiser les individus sur une dimension défavorable-favorable, il n'est pas
possible de se prononcer sur le caractère unidimensionnel de l'échelle sans procéder à des
analyses statistiques plus poussées. En complément à l'analyse d'items, les auteurs font donc
souvent appel à l'analyse factorielle7, particulièrement l'analyse factorielle confirmatoire, pour
évaluer le caractère unidimensionnel de l'échelle. Les résultats de l'analyse factorielle démontre
que les échelles de type Likert portent souvent plus d'une dimension.
5.2 Le différenciateur sémantique
Le différenciateur sémantique d'Osgood, Suci & Tanenbaum (1957) représente
aujourd'hui l'une des méthodes les plus populaires pour mesurer les attitudes. Le différenciateur
sémantique consiste en une série d'adjectifs opposés séparés par une échelle comportant un
nombre plus ou mois élevé de catégories de réponse. L'objet d'étude est placé bien à la vue, au
haut de l'échelle et les sujets doivent évaluer l'objet en choisissant l'une des catégories de
réponse entre les deux adjectifs. On demande en fait aux sujets d'évaluer dans quelle mesure l'un
des deux adjectifs décrit l'objet. Les répondants doivent sélectionner le point milieu de l'échelle
s'ils considèrent qu'aucun des deux adjectifs ne décrit adéquatement l'objet ou si ces adjectifs
leur apparaissent non pertinents pour évaluer l'objet. Les options de réponse sont habituellement
cotées de -3 à +3 lorsque l'échelle comporte 7 niveaux de réponse. Mais on pourrait tout autant
leur attribuer des valeurs d'échelle entre 1 et 7. Le score total d'un individu correspond à la
sommation ou à la moyenne des scores obtenus à l'ensemble des échelles bipolaires.
À l'origine, le différenciateur sémantique fut développé pour mesurer la signification des
concepts. Osgood et ses collaborateurs (1957) menèrent plusieurs études dans lesquelles des
individus de différentes cultures étaient appelés à évaluer des concepts à l'aide d'items constitués
d'adjectifs opposés. Osgood et al. effectuèrent des analyses factorielles afin de déterminer si les
interrelations entre les échelles, c'est-à-dire les items, pouvaient être expliquées par un nombre
11
plus petit de facteurs ou de dimensions que le nombre initial d'échelles ou d'items. Sur la base
des résultats de ces diverses analyses, ils identifièrent trois facteurs: l'évaluation, la puissance et
l'activité. Le facteur évaluation expliquait généralement la plus grande part de la variance entre
les paires d'adjectifs et selon Osgood et al. ce facteur correspondrait à l'attitude. Aussi les paires
d'adjectifs opposés qui saturent le plus fortement par rapport au facteur évaluation sont-elles
souvent utilisées pour la mesure des attitudes.
5.2.1 L'analyse des items
En dépit de l'importance des travaux d'Osgood et de ses collaborateurs démontrant que
des adjectifs portent une signification évaluative, certains adjectifs pourraient prendre une
signification particulière en regard d'objets d'attitude. Considérons par exemple la paire
d'adjectifs <<chaud-froid>>. Cette paire d'adjectifs portent une connotation évaluative lorsqu'il
s'agit d'étudier un individu, mais sa signification devient davantage cognitive pour l'évaluation
d'objets d'étude tels l'Alaska ou le désert du Sahara. Osgood et ses collègues qualifièrent
d'interaction concept-échelle cette tendance des paires d'adjectifs à prendre des significations
particulières en regard de certains objets d'étude. Étant donné la possibilité de telles interactions,
il est préférable de vérifier si les échelles bipolaires peuvent former une échelle générale pour
l'évaluation d'un objet d'étude donné. Comme dans le cas d'une échelle Likert, cette évaluation
peut être réalisée en examinant la courbe caractéristique des items ou en analysant la corrélation
entre chacun des items et le score total ou moyen obtenu à l'ensemble des items. La courbe
caractéristique idéale d'un item prend la même forme que celle d'un item d'une échelle Likert:
une augmentation du score total devrait être accompagnée d'une augmentation du niveau de
réponse favorable à l'item. Enfin la structure factorielle des échelles bipolaires peut être analysée
de façon plus formelle par le biais d'une analyse factorielle (voir la note 7).
Suite à l'analyse d'un certain nombre d'études ayant utilisé le différenciateur sémantique,
Heise (1970) prétend que les intercorrélations entre les différentes paires d'adjectifs sont en
général assez élevées pour que 4 ou 5 d'entre elles suffisent pour assurer une fidélité adéquate de
l'échelle. Il semble en outre que les scores d'attitudes générés à l'aide du différenciateur
sémantique seraient en forte corrélation avec les résultats obtenus par d'autres techniques de
mesure des attitudes (Breckler, 1984; Fishbein & Ajzen, 1974; Jaccard,Weber & Lundmank,
1975; Osgood et al., 1957).
12
5.2.2 L'évaluation du différenciateur sémantique
Le différenciateur sémantique s'avère la méthode de mesure des attitudes la plus
populaire présentement. Cette popularité est sans doute attribuable à la facilité avec laquelle il
est possible d'obtenir une mesure d'attitude. Parce que le différenciateur sémantique fait appel à
des adjectifs qui ont un caractère très général et qui saturent fortement avec la dimension
évaluative, les chercheurs considèrent souvent les échelles bipolaires du différenciateur
sémantique comme des batteries tout usage. Une étude de Valois et Godin (1991) démontre
cependant que certaines paires d'adjectifs se révèlent peu pertinentes pour mesurer des objets
d'attitude. De tels résultats remettent en question l'idée de considérer le différenciateur
sémantique comme une échelle maîtresse ou universelle.
Le principal inconvénient de la méthode du différenciateur sémantique tient à ce qu'il est
difficile de déterminer le niveau de mesure des résultats et les propriétés exactes des scores
d'attitude obtenus. Comme nous l'avons souligné dans le cas de l'échelonnement de type Likert,
des développements s'inscrivant dans le cadre de la théorie des réponses aux items peuvent
cependant fournir des indications concernant la métrique des échelles qui, comme le
différenciateur sémantique, s'inscrivent dans la tradition psychométrique.
6. Détermination de l'échelle d'appréciation
On retrouve deux principaux types de questions, les questions fermées, accompagnées
d'une liste préétablie de réponses possibles et les questions ouvertes auxquelles les sujets
répondent en formulant eux-mêmes une réponse. Les chercheurs utilisant la TCP comme cadre
de référence font généralement appel à des questions fermées pour l'étude d'un comportement
spécifique. Dans un tel cas, le recours à des questions ouvertes s'avérerait non approprié dans la
perspective où ce type de question pourrait introduire une variation en regard de l'action, l'objet,
le contexte, le temps, la fréquence ou la quantité d'un comportement; paramètres que Ajzen &
Fishbein (1980) supposent constants pour l'étude d'un comportement spécifique. Aussi ne sera-til question ici que des items fermés.
L'utilisation de questions ou d'items fermés implique de déterminer le nombre et le
contenu des options de réponse. Ces deux variables sont présentées plus en détail ci-dessous.
13
6.1 Nombre d'options de réponse
Plusieurs facteurs peuvent influencer la décision d'offrir un nombre plus ou moins élevé
d'options de réponse: la capacité des sujets à discriminer de façon significative entre différentes
options de réponse, le désir de favoriser la variabilité des scores8, la pertinence d'offrir ou non
une option de réponse permettant au sujet d'exprimer son incertitude ou son absence d'opinion, le
mode d'administration qui exige un effort plus ou moins important de mémorisation des options
de réponse présentées etc. Il n'existe donc pas un nombre d'options de réponse qui soit optimal,
tout dépend en fait des visées de l'étude, des sujets impliqués et du contexte de la recherche.
La majorité des études menées avec la théorie de l'action raisonnée (TAR) ou la TCP font
appel à cinq ou sept options de réponse, dont l'une offre aux répondants la possibilité d'exprimer
leur ambivalence. ll s'agit en fait d'une option de réponse permettant au sujet d'indiquer qu'il est
ni en accord, ni en désaccord avec le contenu d'un énoncé. Il est à noter que certains auteurs sont
plus ou moins favorables à cette approche qui consiste à offrir une option de réponse neutre. Le
problème réside en fait dans la difficulté d'estimer si l'option de réponse neutre est utilisée pour
exprimer l'ambivalence ou si elle ne représente pas plutôt un moyen pour le répondant de se
désister afin de minimiser ses efforts ou protéger son image etc. En outre, le fait que plusieurs
répondants choisissent une option de réponse neutre tend à diminuer la taille des groupes de
sujets favorables et défavorables à un objet d'étude, ce qui peut contribuer à diminuer la
puissance statistique des analyses effectuées pour comparer ces groupes.
6.2 Contenu des descripteurs
Ajzen & Fishbein (1980) font allusion à deux principaux types d'échelle: les échelles
bipolaires et unipolaires. Les premières laissent aux répondants la possibilité de faire connaître
leur faveur ou leur défaveur envers un énoncé. Il s'agit en fait d'échelles comportant à leurs pôles
des termes exprimant des idées opposées (e.g. très en désaccord à très en accord). Une échelle
unipolaire offre la possibilité d'exprimer à des degrés divers une opinion mais qu'en regard d'une
position spécifique par rapport à l'objet d'étude (e.g. jamais-parfois-souvent-presque toujourstoujours). Ajzen & Fishbein (1980) et Ajzen (1991) recommandent d'utiliser une échelle
unipolaire pour la mesure de la motivation à se conformer (mc) et de recourir plutôt à une
échelle bipolaire pour rendre compte des autres variables de la TAR ou de la TCP. Ces auteurs
justifient l'utilisation d'une échelle unipolaire pour la mesure de mc en soutenant que les sujets
sont nécessairement motivés à agir dans le sens attendue de référents saillants. Nous désirons
14
souligner que les résultats d'une analyse détaillée de cet aspect (Gagné & Godin, soumis pour
publication) tend à démontrer qu'une proportion importante de sujets se disent plus ou moins
motivés à se conformer à plusieurs des référents saillants mentionnés dans le questionnaire, ce
qui remet en question l'utilisation d'une échelle unipolaire pour la mesure de la motivation à se
conformer. Toutefois, d'autres études s'avèrent nécessaires afin de déterminer l'impact réel de
l'utilisation d'échelle unipolaire et bipolaire.
Fishbein & Ajzen (1975) ne font pas de recommandations précises concernant le contenu
des options de réponse. Selon ces derniers auteurs, une échelle exprimant le désaccord et l'accord
ferait aussi bien l'affaire qu'une autre exprimant la probabilité et l'improbabilité etc. Il importe de
savoir que l'interprétation donnée à de telles options de réponse, qui prennent essentiellement la
forme d'adjectifs ou d'adverbes relativement vagues, peut varier avec des variables comme l'âge,
le genre (homme, femme), la culture, le niveau de scolarité, l'objet d'étude et l'humeur (e.g.
Goocher, 1965, Pepper & Prytulak, 1974; Schaeffer, 1991). Mais quiconque s'intéresse de près à
la TAR ou à la TCP constatera vite qu'en ce domaine, le débat entourant les options de réponse a
davantage porté sur les valeurs d'échelles à leur attribuer pour l'analyse des données (assigner
des valeurs d'échelles positives e.g. 1 à 7 ou des valeurs d'échelle passant du négatif au positif
e.g. -3 à +3) que sur leur contenu. Aussi les termes unipolaire et bipolaire sont-ils souvent
retrouvés pour désigner non pas le fait que les échelles offrent ou non la possibilité de soutenir la
contrepartie d'une position mais pour faire état des scores attribués aux options de réponse. Nous
verrons plus loin que ce problème affecte seulement l'analyse des construits reposant sur la
multiplication des résultats obtenus à deux variables. Disons simplement pour l'instant que s'il
est souhaitable que des nombres soient assignés aux options de réponse lors de l'analyse des
données, il est discutable cependant de les voir apparaître dans le questionnaire. Des études
démontrent en effet que le fait d'associer des nombres aux options de réponse, et
particulièrement des nombres négatifs, peut exercer une influence sur les réponses des sujets
(e.g. Schwarz, Knäuper, Hippler, Noelle-Neumann, & Clark, 1991 ).
Mentionnons pour terminer que plusieurs études tendent à démontrer que la position
d'une option de réponse peut influencer la probabilité qu'elle soit sélectionnée (e.g. Schuman &
Presser, 1981). En d'autres termes, il semble que l'ordre de présentation des options de réponse
pourrait exercer une influence sur les réponses des sujets. Selon Krosnick & Alwin (1987) le
mode d'administration ainsi que le principe de satisficing, cette stratégie qui consiste à
rechercher la solution satisfaisante ou acceptable la moins exigeante, pourraient intervenir dans
l'effet d'ordre des items. À cet effet, une étude de Gagné (1997) tend à démontrer que l'influence
15
de la séquence de présentation des options pourrait varier en fonction du nombre d'options de
réponse, leur type (énoncés indépendants ou présentant une relation d'ordre entre eux) et le mode
d'administration des questionnaires. Il semble par exemple que le fait de présenter sans support
visuel un nombre relativement élevé (six) d'options indépendantes les unes des autres augmente
la probabilité que les deux dernières soient sélectionnées.
7. Formulation des items
Il n'est pas possible de dresser une liste exhaustive des caractéristiques des bons et des
mauvais items. Nous allons néanmoins présenter certaines caractéristiques propres aux items qui
se révèlent habituellement les meilleurs. Ces caractéristiques ont trait à la clarté des items, à leur
non-ambiguïté ou sont plutôt en lien avec le fait de favoriser la justesse des réponses.
7.1 Clarté des items
En principe, les items devraient être formulés de façon à ce que les sujets leur donnent
une même interprétation, soit celle attendue du chercheur. Pour ce faire, il faut chercher à:
-utiliser des phrases courtes, qui s'avèrent généralement moins complexes à analyser et à
comprendre que les phrases plus longues.
-utiliser des mots simples. L'intérêt porté à un objet d'étude amène souvent les chercheurs à
développer un jargon dont la signification ou les nuances échappent à un bon nombre d'individus
de la population cible. Il semble en outre que les responsables d'enquête tendent à surestimer le
vocabulaire de ceux qui seront interrogés. Il importe donc de prendre conscience de ces biais et
chercher à utiliser des mots simples qui permettront de se faire comprendre des sujets à qui l'on
s'adresse. Le recours à des mots simples implique d'éviter l'usage d'abréviation, de sigles, de
termes techniques ou de mots empruntés à une langue étrangère, à moins de les définir au
préalable.
16
-inclure une seule idée par question. Un item du type suivant: <<Partagez-vous l'opinion de
ceux qui pensent que l'utilisation d'un préservatif diminue le plaisir et nuit à la spontanéité de la
relation sexuelle?>> s'avère problématique en ce qu'un répondant pourrait être en accord avec
une partie seulement de l'énoncé. Les réponses à un tel item seraient ambiguës parce qu'elles ne
nous indiqueraient pas l'opinion du répondant envers chacun des deux aspects que comporte la
question. Il aurait été préférable de poser une question concernant la diminution du plaisir sexuel
et une autre portant sur la spontanéité de la relation sexuelle.
-éviter les mots transportant plusieurs significations. Nous avons déjà mentionné que le sens
donné aux adverbes indéfinis (e.g. quelquefois, régulièrement, généralement) pouvait varier
selon les répondants et l'objet d'une étude. Ainsi, à la question <<Fumez-vous beaucoup?>> des
sujets fumant cinq cigarettes par jour pourraient répondre de façon différente selon qu'ils
estiment cette fréquence plus ou moins élevée. Il n'y a pas que les adverbes indéfinis qui peuvent
donner lieu à des interprétations différentes. Allaire (1988) fournit quelques exemples de mots
pouvant prendre un sens différent selon les régions ou les milieux. Il y a de fortes chances par
exemple que des québécois associent le mot <<dîner>> aux repas du midi et que des français le
lient davantage aux repas du soir. Le mot <<liqueur>> pourra quant à lui correspondre à du
Coca-Cola ou plutôt à du Grand Marnier selon les individus. Il semblerait que dans une étude
menée dans la région de Sherbrooke, des sujets à qui on avait demandé s'ils prenaient un <<petit
déjeuner>> le matin auraient répondu par la négative prétextant qu'ils prenaient un <<gros>>
déjeuner... (Allaire, 1988). Retenons qu'une question donnant lieu à plusieurs interprétations
occasionnera nécessairement des réponses difficilement interprétables.
-utiliser avec parcimonie les formulations négatives. Les questions négatives sont en général
plus difficiles à interpréter (e.g. On ne peut pas considérer que l'augmentation de l'âge légal pour
conduire une automobile constitue une mesure valable pour diminuer les accidents de la route).
Il n'est pas rare cependant d'insérer ce type d'items dans le questionnaire afin de réduire les biais
d'acquiescement, cette tendance des sujets à se montrer en accord avec un item indépendamment
de son contenu. Ce type de question peut cependant provoquer de la confusion chez les
répondants.
17
7.2 Formulation qui favorise la justesse des réponses
Il faut non seulement chercher à ce que les répondants interprètent de façon appropriée
les items mais aussi qu'ils y répondent justement. Aux efforts de clarification des items s'ajoutent
donc ceux qui encourageront les sujets à dire la vérité ou qui les aideront à mieux traduire leur
attitude, leur comportement etc. Cet aspect est d'autant plus important que l'objet d'une étude
sera sujet à l'influence de la désirabilité sociale, cette tendance rappelons-le qui consiste à fournir
des réponses approuvées socialement. Aussi est-il souvent suggéré de:
-faire référence à l'expérience immédiate ou récente des sujets.
-préciser le temps et le contexte auxquels le sujet doit faire référence. Cette recommandation
rejoint directement celle de Ajzen & Fishbein (1980) qui suggèrent, rappelons-le, de définir le
comportement non pas seulement en spécifiant l'action et l'objet mais aussi le contexte et le
temps.
-laisser au sujet la possibilité de signifier son absence d'opinion (e.g. je ne sais pas ou je n'ai
pas d'opinion) ou son ambivalence (e.g. ni en accord ni en désaccord). Il importe de préciser
que les avis sont partagés concernant la pertinence d'offrir ainsi aux répondants la possibilité de
se désister. Une telle avenue pourrait en effet encourager les sujets à ne pas se concentrer à la
tâche et à adopter la stratégie la plus facile qui consiste à choisir une option de réponse neutre ou
celle traduisant une absence d'opinion. En outre, on peut se demander comment établir la
différence entre un refus de répondre, l'indifférence, une absence d'opinion, ou une ambivalence
du répondant (Voyer, 1996)
-éviter de suggérer la réponse. Les questions doivent être formulées de façon à ne pas orienter
les réponses dans une direction donnée. Allaire (1988) énumère plusieurs facteurs pouvant
intervenir et favoriser une réponse au détriment d'une autre. Il semble notamment que certains
mots se révèlent plus paralysants ou plus chargés émotivement. Par exemple, une étude de Smith
(1987) démontre que des résultats différents peuvent être obtenus selon qu'il est fait référence
aux pauvres et aux sans-emploi plutôt qu'à des gens étiquetés <<sur le bien-être>>. Associer une
opinion à une personne qui inspire le respect pourrait aussi influencer les réponses (<<Les
experts pensent que...>> ou <<Un jugement de la Cour Suprême stipule que...>>) tout comme le
fait de formuler une question en ne mentionnant que l'un des choix possibles (<<Êtes-vous en
18
faveur d'une réglementation visant à interdire de fumer dans les lieux publics>> plutôt que
<<Êtes-vous favorable ou défavorable à une réglementation visant à interdire de fumer dans les
lieux publics>). Pour ne pas influencer les sujets dans une direction particulière, des auteurs
proposent d'utiliser une formule semblable à la suivante: <<Certaines personnes pensent que...
d'autres pensent que... Qu'en pensez-vous personnellement?>>. Des questions peuvent aussi
biaiser les réponses en ce qu'elles ne présentent pas la contrepartie d'une position. Offrir des
arguments pour et contre une position ne réglerait pas le problème; les réponses des sujets
pourraient en effet être influencées par la nature des arguments retenus. L'une des difficultés
réside aussi dans le fait de trouver des arguments favorables et défavorables qui s'équilibrent. Si
l'un des contre-arguments ne fait pas le poids ou s'il est trop extrême, la question demeura
biaisée.
Mentionnons pour terminer que les résultats de quelques études tendent à démontrer que
le fait de ne pas respecter l'une ou l'autre des recommandations énoncées ci-dessus n'occasionne
pas nécessairement des résultats biaisés (e.g. Schuman & Presser, 1981). En outre, Allaire (1988)
avance qu'il peut parfois être souhaitable d'orienter les réponses des sujets, dans le cas
notamment où l'objet d'étude pourrait occasionner un grand nombre de réponses désirables
socialement. Il s'agirait alors de favoriser les réponses considérées les moins souhaitables en
fournissant par exemple des arguments favorables à cette position moins désirable, en suggérant
que tout le monde le fait etc.
8. Les mesures à item unique versus celles constituées de plusieurs items
N.B. Cette section consiste en une traduction et une adaptation d'une partie du texte de
Himmelfarb (1993).
La mesure d'un construit repose parfois sur un seul item. Des raisons économiques
justifient souvent cette façon de faire: mener une enquête est dispendieux et le coût croît en
fonction du nombre d'items. Des considérations méthodologiques justifient néanmoins le recours
à un score composite, c'est-à-dire un score total composé de plusieurs items.
Les mesures faisant appel à plusieurs items permettent de compenser en partie pour les
limites inhérentes à chacun des items pris individuellement. Chaque item apporte des nuances de
19
signification et de ton pouvant exercer une influence indue sur les réponses des répondants. En
effet, des études ont démontré l'impact de l'introduction de légères variations dans la formulation
d'un item sur les réponses des sujets. Par exemple, dans une étude désormais classique de Rugg
(1941), on demanda à un échantillon national de répondants: <<Croyez-vous que les États-Unis
devraient autoriser les discours publics contre la démocratie>> La question suivante fut posée à
un échantillon comparable de sujets: <<Croyez-vous que les États-Unis devraient défendre les
discours publics contre la démocratie?>>. Plus de 20% des répondants s'avouèrent enclins à ne
pas autoriser les discours publics comparativement à ceux se disant favorables à les interdire.
Ces résultats furent reproduits à plusieurs reprises (Schuman & Presser, 1981).
On a également démontré que l'ajout de détails (e.g. phrases, notes, etc.) manifestement
non pertinents par rapport à l'objet principal de l'étude pouvait aussi exercer une influence sur
les réponses des sujets Par exemple, Cantril (1940) demanda à un groupe de répondants:
<<Croyez-vous que les États-Unis devraient faire plus qu'il ne le font présentement pour aider
l'Anglettere et la France?>>. Lorsqu'on ajoutait à la fin de la question <<dans leur lutte contre
Hitler>> le pourcentage de réponses <<oui>> augmentait de 13% à 20%.
En dépit des résultats de recherches ayant démontré l'effet exercé par une légère variation
de la formulation des items, l'influence exact du langage utilisé sur les réponses des sujets
demeure mal connue. En effet, pour le moment aucun modèle n'est disponible pour expliquer
quand et pourquoi surviennent les effets associés à la formulation des questions (Schuman &
Kalton, 1985).
Lorsque nous avons présenté la méthode de Likert et le différenciateur sémantique, nous
avons vu qu'une analyse d'items permettait de rejeter les items de mauvaise qualité. En
examinant la courbe caractéristique d'un item, il devient possible de déterminer si un item est
pertinent ou non. La courbe caractéristique d'un item associe les scores à un item aux résultats
obtenus à l'ensemble des autres items destinés à mesurer le même construit. Avec un seul item,
on ne peut évidemment plus déterminer la courbe caractéristique d'un item ou mettre en relation
les scores d'un item avec l'ensemble des autres qui déterminent le score total. En d'autres termes,
nous ne disposons plus de test interne permettant de différencier les bons items des mauvais. Le
test-retest devient en fait la principale méthode permettant d'estimer la fidélité d'une mesure
composée d'un seul item.
20
Le recours à plus d'un item pour la mesure d'une caractéristique présente un avantage sur
le plan de la fidélité. En effet, tel que l'illustre la figure 2, même si la relation entre la fidélité
d'un instrument et le nombre d'items qu'il comporte n'est pas linéaire, il semble néanmoins que la
fidélité augmente toujours avec un accroissement du nombre d'items lorsque la corrélation
moyenne entre les items demeure constante.
Figure 2.
Fidélité à l'échelle totale en fonction du nombre d'items que comporte l'échelle
pour des valeurs de fidélité interitems de .2, .4, .6 et .8 .
La validité d'une mesure est en partie déterminée par la fidélité de la mesure. En effet,
des mesures plus ou moins fidèles atténuent les relations entre les variables et rendent par le fait
même plus obscures les relations réelles qui existent entre ces variables. Une mesure fidèle
permet non seulement d'obtenir des résultats plus consistants d'une observation à l'autre, mais
elle rend également possible des relations plus étroites avec d'autres variables. La supériorité des
mesures composites à fournir des relations plus étroites avec d'autres variables est mise en
évidence dans les études de Fishbein & Ajzen (1974, 1975) concernant la relation entre les
attitudes et le comportement.
21
En référence à des principes psychométriques bien connus, nous avons insisté sur
l'importance de faire appel à plus d'un item pour la mesure d'un construit. Force est de
reconnaître cependant que des études ont, avec succès, mesuré des construits à l'aide d'un ou
deux items seulement. Par exemple, une étude de Valois, Godin & Bertrand (1992) démontre
que l'intention comportementale peut être mesurée de façon stable par le biais d'un seul item.
Ces réussites indiquent que les mesures reposant sur un seul item peuvent être suffisamment
fidèles pour détecter des différences moyennes entre des groupes de taille raisonnable lorsque
les variables sont manipulées dans des conditions soigneusement contrôlées. Cependant, les
mesures comportant un seul item peuvent ne pas être suffisamment fidèles pour déboucher sur
des relations relativement élevées avec d'autres variables comme des variables modératrices. La
fidélité des mesures peut être améliorée et par le fait même la corrélation entre les variables
bonifiées par l'utilisation de mesures comportant plusieurs items.
9. Production d'une banque initiale d'items
La construction d'un instrument de mesure suppose l'élaboration d'une banque initiale
d'items qui seront analysés, expérimentés, modifiés au besoin afin de ne garder que ceux qui
semblent les plus appropriés pour mesurer le construit à l'étude. Étant donné que certains items
pourraient en fin d'analyse se révéler de mauvais items et être par le fait même rejetés, il importe
de prévoir dans la banque initiale plus d'items que le nombre souhaité dans la forme finale de
l'instrument.
De façon générale, on élabore une banque initiale d'items en consultant la littérature
(articles scientifiques qui font parfois état des items utilisés, volumes spécialisés qui regroupent
des échelles déjà existantes ou qui reproduisent les questions utilisées par les firmes de sondage),
en consultant des questionnaires déjà existants, en menant des entrevues avec des experts ou des
enquêtes auprès d'un échantillon de sujets. La TAR et la TCP fournissent cependant des
indications précises concernant la façon de constituer une banque initiale d’items. Comme nous
le verrons, ces indications font en fait référence à l'une ou l'autre des sources d'informations
auxquelles nous venons de faire allusion.
Les construits de la TAR et TCP peuvent être classifiés en deux catégories selon que les
items utilisés pour les mesurer ont un contenu relativement fixe ou variable selon les échantillons
étudiés (Fishbein, Bandura, Triandis, Kanfer, Becker, & Middletadt, 1992). La première
22
catégorie regroupe l'intention, le comportement ainsi que les construits directs9 de la TCP (Aact,
SN, PBC) alors que la deuxième catégorie rassemble les construits indirects ( bxe, nbxmc,
cxp). Nous allons présenter ci-dessous la démarche proposée par Ajzen & Fishbein (1980)
pour élaborer une banque initiale d'items pour la mesure des construits indirects et suggérer un
certain nombre d'items pouvant être utilisés pour la mesure de I, Aact, SN et PBC.
Il est à noter que les questions présentées à titre d'exemples dans cette section sont tirées
de diverses études réalisées par Godin et ses collaborateurs. Nous avons adapté ces items pour la
mesure du comportement suivant: utiliser un préservatif lors de chaque relation sexuelle avec un
nouveau partenaire au cours des trois prochains mois.
9.1 Démarche pour constituer une banque d'items pour la mesure des construits indirects ( bxe, nbxmc, cxp) de la TCP
La TCP identifie trois types de croyances susceptibles d'exercer une influence sur
l'intention et le comportement: les croyances comportementales, normatives et de contrôle. Selon
Ajzen (1991), seulement un nombre limité de chacun de ces trois types de croyances
déterminerait l'intention et le comportement. Il s'agit des croyances saillantes et elles ne seraient
disponibles qu'à un moment donné chez un individu. Pour les déterminer, le chercheur doit donc
faire appel au témoignage du répondant. En d'autres termes, le contenu des items visant la
mesure des construits indirects, qui repose essentiellement sur les croyances des individus, ne
devrait pas être déterminé par le chercheur mais provenir des sujets eux-mêmes. Dans le cas
contraire, il ne pourrait être prétendu que les items mesurent des croyances saillantes, ce qui
remettrait directement en question leur capacité à prédire l'attitude, la norme subjective, la
perception du contrôle et, de façon ultime, l'intention et le comportement.
Quelques méthodes ont été proposées pour identifier les croyances saillantes des
individus (e.g. Agnew, 1998; Van der Pligt & De Vries, 1998). En fait, ces méthodes visent
chacune à leur façon à contrer le problème qui consiste à identifier toutes et seulement les
croyances saillantes d'un individu ou d'un groupe de sujets. Néanmoins, la démarche suggérée
par Ajzen & Fishbein (1980) que nous présentons ci-dessous, demeure à ce jour la référence
première et celle qui par le fait même s'avère la plus utilisée.
Contrairement à certains auteurs qui cherchent à ce que les sujets ne répondent qu'à des
items formulés sur la base de leurs croyances saillantes personnelles, Ajzen & Fishbein (1980)
23
proposent de mesurer les construits indirects à partir des croyances saillantes modales, soient les
croyances saillantes chez une population donnée. Cette façon de faire implique que des sujets
seront appelés à se prononcer sur des items référant à des croyances non saillantes pour eux.
Notons néanmoins qu'il est supposé qu'un nombre important des croyances saillantes
personnelles de chacun des individus se retrouvera dans la liste des croyances saillantes modales.
Nous avons mentionné dans une section précédente que les échelles de réponses offertes aux
items visant la mesure des construits de la TCP prennent généralement la forme d'un continuum
dont les pôles expriment des opinions opposées. Nous sommes en mesure de comprendre
maintenant que cette façon de faire est justifiée dans la perspective où l'utilisation de croyances
saillantes modales entraîne que des sujets pourront être appelés à se prononcer sur des croyances
plus ou moins saillantes pour eux, d'où la nécessité de leur offrir la possibilité d’exprimer leur
accord ou leur désaccord envers le contenu des items.
La démarche suggérée par Ajzen & Fishbein (1980) pour la mesure des construits
indirects peut être divisée en quatre étapes. La première implique d'identifier les croyances
saillantes personnelles des sujets. Au cours de la deuxième étape, ces croyances seront analysées
et comparées afin d'obtenir une liste résumant les croyances saillantes personnelles de l'ensemble
des sujets. Cette liste sera utilisée à la troisième étape pour identifier les croyances saillantes
modales, lesquelles constitueront une source de référence pour la formulation des items, tâche
inhérente à la quatrième étape. Le détail de chacune de ces étapes apparaît ci-dessous.
9.1.1
Identification des croyances saillantes personnelles
L'approche suggérée par Ajzen & Fishbein (1980) implique d'abord d'identifier les
croyances saillantes personnelles des individus. Pour ce faire, les auteurs proposent d'obtenir les
informations suivantes: a) la liste des avantages et des désavantages perçus associés à l'adoption
du comportement; b) la liste des personnes ou groupes de personnes qui approuveraient ou
désapprouveraient la réalisation du comportement; c) la liste des barrières perçues et des
conditions facilitantes à l'adoption du comportement. Ces listes seront utilisées pour identifier
respectivement: les croyances comportementales, normatives et de contrôle. Notons qu'afin de
susciter un plus grand éventail de réponses, il arrive parfois qu'on fasse référence à la nonadoption du comportement. Nous insistons à nouveau sur le fait que les informations
mentionnées ne doivent pas être obtenues du chercheur ou de ses collaborateurs mais d'un
échantillon de sujets (au moins trente individus) issu de la population visée. Différentes
méthodes peuvent être utilisées pour la collecte de ces informations: questionnaire dont les
24
questions appellent une réponse à développement court; l'interview; le focus group; la technique
du groupe nominal; la technique delphi; etc. Quelle que soit la méthode retenue, il importera de
susciter des réponses en regard de chacune des caractéristiques qui apparaissent en italique aux
points a, b, c. Une façon d'y parvenir consiste à présenter une question pour chacun des aspects
en regard desquels on désire obtenir des réponses. Pour identifier par exemple les croyances
saillantes comportementales, il serait souhaitable de présenter deux questions: une interrogeant
le sujet sur les avantages que présentent l'adoption du comportement et l'autre visant à recueillir
la perception des désavantages liés à la réalisation du comportement.
On retrouve ci-dessous un exemple des questions pouvant être utilisées pour la collecte
des informations en lien avec les croyances comportementales, normatives et de contrôle.
Croyances comportementales:
Quel(s) avantage(s) voyez-vous à utiliser un préservatif lors de chaque relation sexuelle que vous
pourriez avoir avec un nouveau partenaire au cours des trois prochains mois?
Quel(s) désavantage(s) voyez-vous à utiliser un préservatif lors de chaque relation sexuelle que
vous pourriez avoir avec un nouveau partenaire au cours des trois prochains mois?
Croyances normatives:
Selon vous, quelle(s) personne(s) ou groupe(s) de personne(s) approuverait(ent) que vous
utilisiez un préservatif lors de chaque relation sexuelle que vous pourriez avoir avec un nouveau
partenaire au cours des trois prochains mois?
Selon vous, quelle(s) personne(s) ou groupe(s) de personne(s) désapprouverait(ent) que vous
utilisiez un préservatif lors de chaque relation sexuelle que vous pourriez avoir avec un nouveau
partenaire au cours des trois prochains mois?
Croyances liées au contrôle:
25
Indiquez les facteurs (conditions, contextes etc.) qui pourraient vous inciter à utiliser un
préservatif lors de chaque relation sexuelle que vous pourriez avoir avec un nouveau partenaire
au cours des trois prochains mois.
Indiquez les facteurs (conditions, contextes etc.) qui pourraient vous inciter à ne pas utiliser un
préservatif lors de chaque relation sexuelle que vous pourriez avoir avec un nouveau partenaire
au cours des trois prochains mois.
Il est à noter qu'une même croyance comportementale peut être perçue comme un
avantage ou un désavantage selon les sujets. De la même façon, la perception du comportement
attendu d'un référent pourra varier d'un individu à l'autre. La même logique s'applique aux
croyances de contrôle; selon les individus, un facteur pourra donc être considéré comme une
condition facilitante ou une barrière à l'adoption d'un comportement.
9.1.2 Analyse du contenu des croyances saillantes personnelles
Il est fort probable -et il est souhaitable qu'il en soit ainsi!- que les individus interrogés
aient un certain nombre de croyances en commun. Il se peut cependant qu'ils ne les aient pas
exprimées de la même façon. Aussi sera-t-il nécessaire de procéder à une analyse du contenu des
croyances. À la fin de cette deuxième étape, on devrait disposer de trois listes faisant état des
croyances comportementales, normatives et de contrôle de l'ensemble des sujets. Précisons
d'emblée qu'au moins deux individus devraient, de façon indépendante, effectuer l'analyse de
contenu. Ces derniers devraient parvenir à un accord concernant le libellé et l'ordonnancement
des croyances apparaissant dans chacune des trois listes mentionnées précédemment (Godin &
Kok, 1996).
Pour procéder à l'analyse de contenu, il est d'abord suggéré de regrouper les croyances
exprimant la même idée ou une idée semblable et d'indiquer la fréquence de chacune de ces
croyances. Cette première classification devra être effectuée en considérant indépendamment les
trois types de croyances (comportementales, normatives et de contrôle). En d'autres termes, à
l'intérieur de chacun des trois types de croyances, on devra retrouver des croyances regroupées
26
sur la base de leur similitude. Il est à noter que cette tâche et celles qui suivent seront facilitées si
les questionnaires sont numérotés au départ. On regroupera donc les croyances semblables en
prenant soin d'indiquer le numéro du questionnaire d'où elles proviennent.
Les croyances à l'intérieur de chacun des regroupements obtenus seront ensuite
comparées afin de déterminer si elles sont ou non distinctes. Dans les cas où il s'avère difficile de
déterminer si deux croyances font référence à un même contenu, il est suggéré de vérifier si elles
apparaissent simultanément dans les listes originales. Si un nombre important de sujets ont
mentionné les deux croyances, il est préférable de les considérer de façon indépendante. Notons
que cette vérification de la similitude des croyances sera d'autant plus facile qu'on aura indiqué,
comme suggéré précédemment, le numéro du questionnaire d'où proviennent les croyances.
Il est admissible de formuler une nouvelle croyance si elle permet de traduire l'idée ou le
thème commun à un certain nombre de croyances spécifiques exprimées par un nombre
relativement peu élevé de sujets. Par exemple, la croyance suivante: <<Prendre un contraceptif
oral entraîne des effets secondaires>> pourrait être formulée pour rendre compte des croyances
des sujets ayant indiqué que l'utilisation d'un contraceptif oral entraîne des crampes, des maux de
tête ou un gain de poids. Le travail d'analyse devrait déboucher sur trois listes, soit une pour
chaque type de croyances (comportementale, normative et de contrôle) en présentant les
croyances de l'ensemble des sujets et la fréquence de chacune des croyances.
Il est à noter qu'il est possible de retrouver une même croyance dans la liste des
désavantages et dans celle des obstacles liés à l'adoption du comportement. Il revient au
chercheur de déterminer si une croyance donnée doit être considérée comme une croyance
comportementale ou une croyance liée au contrôle. Pour faciliter cette décision, rappelons qu'une
croyance est associée au contrôle lorsqu'elle prend la forme d'un obstacle empêchant la
réalisation d'un comportement. Une croyance comportementale peut amener à associer un
comportement à certains désavantages mais ces derniers n'empêchent pas l'adoption du
comportement.
27
9.1.3 Identification des croyances saillantes modales
La liste des croyances saillantes personnelles ayant été identifiée vient le moment de
déterminer celles qui seront retenues et considérées comme des croyances saillantes modales.
Ajzen & Fishbein (1980) suggèrent trois critères à cet effet. L'une des possibilités consiste à
choisir les 10 ou les 12 croyances les plus souvent exprimées. Une autre façon de faire consiste à
retenir les croyances dont la fréquence atteint un pourcentage donné (par exemple 10% ou 20%).
En d'autres termes, on retiendra toutes les croyances dont la fréquence atteint au moins 10% ou
20% selon le critère fixé. Enfin la méthode la plus populaire consiste à retenir les croyances les
plus souvent mentionnées jusqu'à ce qu'un pourcentage donné (généralement 75%) du nombre
total de croyances soit atteint. Par exemple, supposons que 30 sujets ont exprimé en moyenne six
croyances générant ainsi 180 mentions. Nous conserverons alors les croyances les plus
populaires dont la somme des fréquences atteint 75% des mentions, soit 135 mentions.
Comme nous l'avons déjà mentionné, des auteurs suggèrent d'autres façons de faire pour
sélectionner les croyances saillantes modales. Nous n'étonnerons probablement personne en
déclarant que les divers procédés ne débouchent pas nécessairement sur les mêmes résultats. En
attendant qu'une méthode se soit révélée particulièrement efficace ou meilleure que les autres, la
méthode suggérée ci-dessus demeure la principale référence.
9.1.4 Élaboration des items visant la mesure des construits indirects de la
TCP
Chacun des items visant la mesure des construits indirects (b, e, nb, mc, c, p) devra être
formulé en fonction du contenu des croyances saillantes modales tout en respectant les critères
retenus pour la définition du comportement (action, objet, contexte, temps). Afin d'éviter les
répétitions inutiles, il est courant que les items visant la mesure de certaines variables soient
précédés d'un énoncé général qui s'applique à chacun des items. Dans le cas de la mesure des
croyances comportementales (b), le tout pourrait prendre une forme ressemblant à la suivante:
28
SI J'UTILISAIS UN PRÉSERVATIF LORS DE CHAQUE RELATION SEXUELLE QUE JE
POURRAIS AVOIR AVEC UN NOUVEAU PARTENAIRE AU COURS DES TROIS
PROCHAINS MOIS...
1. cela serait pour moi un bon moyen de contraception
très
assez
légèrement
ni l'un
légèrement
assez
très
improbable
improbable
improbable
ni l'autre
probable
probable
probable
2. cela nuirait à la spontanéité de la relation sexuelle
très
assez
légèrement
ni l'un
légèrement
assez
très
improbable
improbable
improbable
ni l'autre
probable
probable
probable
L'énoncé apparaissant en lettres capitales correspond à la définition du comportement et
chacun des items fait référence à une croyance saillante modale identifiée à la troisième étape
(section 9.1.3).
De l'analyse de contenu, des items ressemblant à ceux qui suivent pourraient être
formulés pour la mesure des variables des autres construits indirects de la TCP.
Mesure de e (évaluation du sujet des conséquences associées à l'adoption du
comportement)
PERSONNELLEMENT, QUELLE VALEUR ACCORDEZ-VOUS AU FAIT
3. d'avoir un bon moyen de contraception?
très
assez
légèrement
ni l'un
légèrement
assez
très
désirable
désirable
désirable
ni l'autre
indésirable
indésirable
indésirable
29
4. de ne pas nuire à la spontanéité de la relation sexuelle?
très
assez
légèrement
ni l'un
légèrement
assez
très
désirable
désirable
désirable
ni l'autre
indésirable
indésirable
indésirable
Mesure de nb (croyances du sujet concernant les chances qu'une personne ou groupe de
personnes pense qu'elle devrait adopter ou non le comportement):
5. Mes parents approuveraient/désapprouveraient que j'utilise un préservatif lors de chaque
relation sexuelle que je pourrais avoir avec un nouveau partenaire au cours des trois prochains
mois.
désapprouveraient
désapprouveraient
désapprouveraient
ni l'un
approuveraient
approuveraient
approuveraient
fortement
assez
légèrement
ni l'autre
légèrement
assez
fortement
6. Mes amis approuveraient/désapprouveraient que j'utilise un préservatif lors de chaque relation
sexuelle que je pourrais avoir avec un nouveau partenaire au cours des trois prochains mois.
désapprouveraient
désapprouveraient
désapprouveraient
ni l'un
approuveraient
approuveraient
approuveraient
fortement
assez
légèrement
ni l'autre
légèrement
assez
fortement
Mesure de mc (motivation du sujet à se conformer ou non à ce que pense une personne ou
un groupe de personnes):
CONCERNANT L'USAGE DU PRÉSERVATIF, J'AI TENDANCE À AGIR SELON LES
ATTENTES DE:
7. mes parents
très
assez
légèrement
ni l'un ni
légèrement
assez
très
improbable
improbable
improbable
l'autre
probable
probable
probable
30
8. mes amis
très
assez
légèrement
ni l'un ni
légèrement
assez
très
improbable
improbable
improbable
l'autre
probable
probable
probable
Mesure de c (croyances du sujet concernant les chances que certains facteurs facilitant ou
nuisant à l'adoption du comportement seraient présents ou absents au moment d'adopter
un comportement):
9. Au cours des trois prochains mois, j'aurai des préservatifs à la portée de la main lors de chaque
relation sexuelle que je pourrais avoir avec un nouveau partenaire
très
assez
légèrement
ni l'un ni
légèrement
assez
très
improbable
improbable
improbable
l'autre
probable
probable
probable
10. Au cours des trois prochains mois, mon (mes) nouveau(x) partenaire(s) refusera(ront)
d'utiliser le préservatif lors de chaque relation sexuelle que je pourrais avoir
très
assez
légèrement
ni l'un ni
légèrement
assez
très
improbable
improbable
improbable
l'autre
probable
probable
probable
Mesure de p (évaluation de l'intensité avec laquelle certains facteurs peuvent inciter ou
nuire à l'adoption du comportement):
11. Si j'avais des préservatifs à la portée de la main, je les utiliserais lors de chaque relation
sexuelle que je pourrais avoir avec un nouveau partenaire au cours des trois prochains mois
très
assez
légèrement
ni l'un ni
légèrement
assez
très
improbable
improbable
improbable
l'autre
probable
probable
probable
31
12. Si mon(mes) nouveau(x) partenaire(s) ne voulaient(ent) pas utiliser un préservatif, je
refuserais d'avoir une relation sexuelle au cours des trois prochains mois
très
assez
légèrement
ni l'un ni
légèrement
assez
très
improbable
improbable
improbable
l'autre
probable
probable
probable
Notons que ce dernier item ne respecte pas le critère <<action>> de la définition des
construits. En effet, l'action de l'item 12 consiste à <<refuser d'avoir une relation sexuelle>>
alors que les items des autres construits font référence à <<utiliser un préservatif>>. Bien
qu'indésirable, cette situation est néanmoins inévitable dans certain cas. L'item 12 aurait eu en
effet peu de sens en le formulant en fonction de l'action <<utiliser un préservatif>> (e.g. Même
si mon(mes) nouveau(x) partenaire(s) refusait(ent) d'utiliser un préservatif, j'en utiliserais un
quand même.)
Un examen des items présentés ci-dessus révèle une correspondance entre certaines
paires d'entre eux. On remarque notamment une ressemblance entre les items 1 et 3, 2 et 4, 5 et
7, 6 et 8, 9 et 11, 10 et 12. Cette association est tout à fait souhaitable. Rappelons en effet que les
construits indirects résultent de la multiplication de deux variables: b et e dans le cas de la
mesure indirecte de l'attitude, nb et mc pour la mesure indirecte de la norme subjective, c et p en
ce qui concerne la mesure indirecte de la perception du contrôle. Il est donc nécessaire que des
paires d'items visant la mesure des variables d'un même construit partagent le même contenu. Si
on fait référence aux paires 1 et 3, 2 et 4, 5 et 7, 6 et 8, 9 et 11, 10 et 12, on constate que les deux
premières visent à mesurer bxe, les deuxième et troisième paires visent à rendre compte de
nbxmc alors que les deux dernières paires consistent en une mesure de cxp. Les réponses
obtenues à chaque paire d'items visant la mesure d'un même construit seront multipliées et la
sommation ou la moyenne des produits obtenus constituera une mesure du construit. Par
exemple, pour obtenir une mesure indirecte de l'attitude, les réponses obtenues aux items 1 et 3
seront multipliées pour chacun des sujets. Il en sera de même aux items 2 et 4. Les produits
résultants seront additionnés ou la valeur moyenne de ces produits sera calculée. Nous
obtiendrons alors un score présentant le niveau de possession de l'attitude ( bxe).
32
9.2 Items couramment utilisés pour la mesure de l'intention et des construits
directs (Aact, SN, PBC) de la TCP
Nous présentons ci-dessous un certain nombre d'items qui pourraient être utilisés pour la
mesure de l'intention et des construits directs (Aact, SN, PBC) de la TCP. Il s'agit d'items tirés
d'études menées par Godin et ses collaborateurs et qui satisfont aux recommandations de Ajzen
& Fishbein (1980). Il est néanmoins très important que ces items soient soumis à l'attention d'un
certain nombre d'experts (section 4), qu'ils fassent l'objet de préexpérimentations (section 11.1)
et d'une analyse d'items (section 11.2) afin de s'assurer de leur pertinence pour un échantillon
donné de sujets.
On notera parfois une similitude entre certains des items visant la mesure d'un même
construit. Cette redondance n'est pas nécessairement mauvaise en ce que chacun des items amène
une nuance, révèle le concept de façon différente permettant ainsi de mieux le préciser. Le
jugement des experts, les préexpérimentations et l'analyse d'items aideront à déterminer lesquels
des items devraient ou non se retrouver dans la forme finale de l'instrument de mesure.
9.2.1 Mesure de l'attitude envers la réalisation du comportement
(Aact)
Aact désigne l'évaluation plus ou moins favorable de l'adoption d'un comportement. Pour
la mesure de Aact, Ajzen & Fishbein (1980) suggèrent d'utiliser l'une des méthodes classiques
d'échelonnement (différenciateur sémantique, méthodes de Likert, de Thurstone ou de Guttman).
En pratique cependant, les auteurs ont plus souvent utilisé le différenciateur sémantique pour
mesurer Aact. Nous avons déjà présenté cette technique dans une section précédente. Aussi
allons-nous nous limiter ici à la présentation d'un exemple d'utilisation du différenciateur
sémantique:
33
Pour moi, utiliser un préservatif lors de chaque relation sexuelle que je pourrais avoir
avec un nouveau partenaire au cours des trois prochains mois serait...
1.
très
assez
légèrement
ni l'un
légèrement
assez
très
agréable
agréable
agréable
ni l'autre
désagréable
désagréable
désagréable
très
assez
légèrement
ni l'un
légèrement
assez
très
utile
utile
utile
ni l'autre
inutile
inutile
inutile
très
assez plaisant
légèrement
ni l'un
légèrement
assez
très
plaisant
ni l'autre
déplaisant
déplaisant
déplaisant
2.
3.
plaisant
4.
très
assez
légèrement
ni l'un ni
légèrement
assez
très
prudent
prudent
prudent
l'autre
imprudent
imprudent
imprudent
La plupart des auteurs reconnaissent trois types de réponses évaluatives par lesquelles
peuvent se manifester une attitude: une affective, une cognitive et une autre comportementale
(e.g. Himmelfarb, 1993). Ces réponses évaluatives sont souvent considérées comme des
dimensions ou des composantes de l'attitude. Dans l'exemple présenté ci-dessus, le caractère des
items 1 et 3 semble davantage affectif alors que celui des items 2 et 4 apparaît plutôt de nature
cognitive. Ajzen & Fishbein (1980) n'établissent cependant pas de distinction entre les
différentes composantes de l'attitude. Notons toutefois que plusieurs études, dont celle de Godin
(1987), tendent à démontrer que la dimension affective de l'attitude permettrait une aussi bonne
prédiction de l'intention qu'une mesure composée des dimensions affective et cognitive de
l'attitude.
34
9.2.2 Mesure de la norme subjective (SN)
La norme subjective correspond à la perception du sujet que des personnes ou groupes de
personnes importantes pour lui approuveraient ou désapprouveraient l'adoption du
comportement. On retrouve généralement un item prenant une forme semblable à la suivante
pour mesurer la norme subjective:
1. Les personnes les plus importantes pour moi pensent que je devrais utiliser un préservatif lors
de chaque relation sexuelle que je pourrais avoir avec un nouveau partenaire au cours des trois
prochains mois
très en
assez en
légèrement en
ni l'un
légèrement en
assez en
très en
désaccord
désaccord
désaccord
ni l'autre
accord
accord
accord
Nous avons déjà insisté sur l'importance de faire appel à plus d'un item pour mesurer un
construit (section 8). À l'item précédent pourrait donc s'ajouter un ou plusieurs de ceux qui
suivent:
2. Si j'utilisais un préservatif lors de chaque relation sexuelle que je pourrais avoir avec un
nouveau partenaire au cours des trois prochains mois, la plupart des personnes qui sont
importantes pour moi
approuveraient
approuveraient
approuveraient
ni l'un
désapprouveraient
désapprouveraient
désapprouveraient
fortement
modérément
légèrement
ni l'autre
légèrement
modérément
fortement
3. Les personnes qui sont importantes pour moi pensent que c'est correct d'utiliser un préservatif
lors de chaque relation sexuelle que je pourrais avoir avec un nouveau partenaire au cours des
trois prochains mois
très en
assez en
légèrement en
ni l'un
légèrement en
assez en
très en
désaccord
désaccord
désaccord
ni l'autre
accord
accord
accord
35
4. La plupart des personnes qui sont importantes pour moi me recommanderaient d'utiliser un
préservatif lors de chaque relation sexuelle que je pourrais avoir avec un nouveau partenaire au
cours des trois prochains mois
très
assez
légèrement
ni l'un
légèrement
assez en
très en
probable
probable
probable
ni l'autre
improbable
accord
accord
Selon Ajzen (1991), la norme subjective, tout comme l'attitude et la perception du
contrôle, pourront se révéler des prédicteurs plus ou moins importants de l'intention selon le
comportement, le contexte et les sujets d'une étude. De façon générale cependant, les résultats
des recherches démontrent que la norme subjective s'avère un prédicteur peu ou pas efficace de
l'intention, du moins en comparaison de l'attitude et de la perception du contrôle (Ajzen, 1991).
On retrouve au moins trois hypothèses pour expliquer cette situation. Certains auteurs
interrogent la pertinence de considérer la norme subjective comme un déterminant de l'intention.
Un tel point de vue n'est pas sans laisser pour compte les résultats de certaines études ayant
démontré la supériorité de la norme subjective en tant que prédicteur de l'intention. D'autres
auteurs prétendent que la norme subjective ne constituerait pas un concept différent de l'attitude.
Les résultats des études menées en ce sens ne permettent pas de se prononcer formellement pour
l'instant sur le caractère distinctif des deux construits. Mentionnons néanmoins que suite à une
revue de la littérature sur le sujet, Trafimow (1998) conclut que les preuves accumulées à ce jour
tendent à favoriser une distinction entre le concept d'attitude et celui de la norme subjective.
Enfin, d'autres auteurs (e.g. Courneya & McAuley, 1995, Green, 1998) questionnent la clarté des
questions formulées pour mesurer la norme subjective. Cette dernière explication n'est pas
indépendante des deux autres. En effet, une définition opérationnelle moins ambiguë de la norme
subjective rendrait peut-être moins obscure ses relations avec l'attitude et l'intention. Nous allons
nous attarder quelque peu sur cet aspect de la formulation de SN, puisqu'il s'agit précisément du
thème de cette section.
Comme nous avons eu l'occasion de le constater, les questions visant la mesure de la
norme subjective font référence à la perception que se fait le sujet de l'opinion de personnes ou
groupes de personnes jugées importantes. Donc, ces items impliquent non seulement que le
répondant établisse quelles sont les personnes ou groupes de personnes importantes pour lui,
mais qu'il estime aussi les attentes de ces personnes en regard du comportement à adopter. Mais
au fait, qui devrait être considéré comme une personne importante? Comment devrait répondre
36
un sujet lorsqu'il perçoit que les personnes jugées importantes ne partagent pas la même opinion
concernant la réalisation du comportement? En fait, il est possible que les répondants d'une étude
ne donnent pas la même interprétation aux items et qu'ils s'y prennent différemment pour
répondre. Des études permettraient de vérifier si tel est le cas et tester le cas échéant l'impact de
directives et de formulations moins ambiguës sur la capacité de la norme subjective à prédire
l'intention comportementale.
9.2.3 Mesure de la perception du contrôle (PBC)
La perception du contrôle comportemental est définie comme la perception du degré de
facilité ou de difficulté avec lequel un comportement peut être adopté (Ajzen, 1988; Ajzen &
Madden, 1986). Cette variable est comparable au concept de conditions facilitantes de la théorie
des comportements interpersonnels de Triandis (1977, 1980) et à celui de l'efficacité personnelle
de la théorie sociale cognitive de Bandura (1977a, b).
On retrouve souvent des items du type suivant pour mesurer la perception du contrôle
comportemental:
1. Pour moi, utiliser un préservatif lors de chaque relation sexuelle que je pourrais avoir avec un
nouveau partenaire au cours des trois prochains mois serait:
très
assez
légèrement
ni l'un
légèrement
assez
très
difficile
difficile
difficile
ni l'autre
facile
facile
facile
2. À quel point croyez-vous exercer un contrôle sur le fait d'utiliser un préservatif lors de chaque
relation sexuelle que vous pourriez avoir avec un nouveau partenaire au cours des trois prochains
mois?
très
assez
légèrement
ni l'un
légèrement
assez
très
incontrôlable
incontrôlable
incontrôlable
ni l'autre
contrôlable
contrôlable
contrôlable
37
3. Si je le voulais, je pourrais facilement utiliser un préservatif lors de chaque relation sexuelle
que je pourrais avoir avec un nouveau partenaire au cours des trois prochains mois.
très
assez
légèrement
ni l'un
légèrement
assez
très
improbable
improbable
improbable
ni l'autre
probable
probable
probable
4. Il n'en tient qu'à moi d'utiliser un préservatif lors de chaque relation sexuelle que je pourrais
avoir avec un nouveau partenaire au cours des trois prochains mois.
très en
assez en
légèrement en
ni l'un
légèrement en
assez en
très en
désaccord
désaccord
désaccord
ni l'autre
accord
accord
accord
5. Je me sens capable d'utiliser un préservatif lors de chaque relation sexuelle que je pourrais
avoir avec un nouveau partenaire au cours des trois prochains mois.
très en
assez en
légèrement en
ni l'un
légèrement en
assez en
très en
désaccord
désaccord
désaccord
ni l'autre
accord
accord
accord
Il est à noter que quelques auteurs ont comparé des items évaluant la perception de la
difficulté à adopter un comportement (e.g. item 1 ci-dessus) à d'autres estimant la perception du
contrôle sur la réalisation du comportement (e.g. item 2 de la liste). Les résultats d'analyse
factorielle révèlent que les deux groupes d'items saturent sur des facteurs différents et que seul le
groupe d'items estimant la perception de la difficulté à adopter le comportement prédit l'intention
comportementale. Les raisons invoquées pour expliquer de tels résultats varient selon les auteurs.
Alors que Sparks, Guthrie & Shepherd (1997) attribuent les résultats au fait que les sujets
interpréteraient de façon différente les deux types d'items, Terry et ses collaborateurs (Terry,
1994; Terry & O'Learly, 1995; White, Terry & Hogg, 1994) prétendent plutôt qu'ils reflètent une
distinction entre des facteurs internes et externes de contrôle. Il importe de mentionner que des
problèmes conceptuels et méthodologiques entachent les études de Terry et al., ce qui amènent à
interroger les conclusions formulées. Quoi qu'il en soit, d'autres études s'avèrent nécessaires pour
38
que l'on puisse se prononcer sur la pertinence de combiner les items évaluant la perception de la
difficulté et ceux traduisant la perception du contrôle pour la mesure de PBC.
9.2.4 Mesure de l'intention (I)
L'intention représente la motivation ou la volonté du sujet à réaliser un comportement et
est défini par Ajzen & Fishbein (1980, p. 42) et Fishbein & Ajzen (1975, p. 288) comme la
perception de la probabilité d'adopter un comportement. Un item du type suivant est
généralement utilisé pour la mesure de l'intention:
1. J'ai l'intention d'utiliser un préservatif pour chaque relation sexuelle que je pourrais avoir avec
un nouveau partenaire au cours des trois prochains mois.
très
assez
légèrement
ni l'un
légèrement
assez
très
improbable
improbable
improbable
ni l'autre
probable
probable
probable
Mais il n'est pas rare de trouver aussi un ou plusieurs items semblables à ceux-ci:
2. Au cours des trois prochains mois, j'utiliserai un préservatif pour chaque relation sexuelle que
je pourrais avoir avec un nouveau partenaire
totalement en
fortement en
légèrement en
ni l'un
légèrement en
fortement en
totalement en
désaccord
désaccord
désaccord
ni l'autre
accord
accord
accord
3. J'évalue que mes chances d'utiliser un préservatif pour chaque relation sexuelle que je pourrais
avoir avec un nouveau partenaire au cours des trois prochains mois sont...
extrêmement
très
assez
ni l'un
assez
très
extrêmement
faibles
faibles
faibles
ni l'autre
fortes
fortes
fortes
39
Des auteurs utilisent plutôt la forme suivante du dernier item:
4. Les chances sur 100 que j'utilise un préservatif pour chaque relation sexuelle que je pourrais
avoir avec un nouveau partenaire au cours des trois prochains mois sont...
0-10%
11-20%
21-30%
31-40%
41-50%
51-60%
61-70%
71-80%
81-90%
91-100%
Warshaw & Davis (1985, 1986) et Davis &Warshaw (1992) insistent sur la nécessité
d'établir une distinction entre le concept d'intention et celui d'autoprédiction. Selon ces auteurs,
les trois derniers items présentés ci-dessus ne mesureraient pas l'intention mais consisteraient
plutôt en une autoprédiction du comportement. Selon Warshaw et al., l'intention suppose d'avoir
planifié l'adoption d'un comportement alors que l'autoprédiction consiste à prédire son
comportement futur. Ils prétendent que l'autoprédiction constituerait un meilleur prédicteur du
comportement en ce que son estimation amènerait les répondants à considérer un plus grand
nombre de facteurs susceptibles d'influencer leur comportement (e.g. changement d'intention,
contraintes de divers ordres etc.). Toutefois, les résultats des études ayant comparé la capacité de
l'intention et de l'autoprédiction à prédire le comportement sont contradictoires et ce aussi bien
pour les comportements considérés volitifs que plus ou moins volitifs (e.g. Courneya &
McAuley, 1994; Godin & Kok, 1996; Netemeyer & Burton, 1990; Randall & Wolff, 1994;
Sheeran & Orbell, 1998; Sheppard, Hartwick & Warshaw, 1988; Warshaw & Davis, 1885,
1986). Mentionnons de plus que les auteurs ayant comparé l'intention et l'autoprédiction ne
fournissent généralement pas aux sujets une définition précise de chacun des deux concepts et de
ce qui les différencie. Aussi est-il difficile d'estimer si les sujets établissent une distinction -celle
souhaitée- entre les deux mesures. En outre, les études ayant comparé l'intention et
l'autoprédiction dans le cas de comportements partiellement sous le contrôle de l'individu ne
prennent pas en compte l'influence de la perception du contrôle sur le comportement. Plusieurs
études ont pourtant démontré que cette dernière variable joue un rôle important dans la
prédiction de comportements non-volitifs (Ajzen, 1988; Ajzen, 1991; Godin & Kok, 1996). En
somme, les résultats des études menées à ce jour ne permettent pas de se prononcer sur la
pertinence de distinguer l'intention et une mesure d'autoprédiction lors de la prédiction du
comportement.
40
9.3 Mesure des variables de la théorie des comportements interpersonnels
Sur le plan de la mesure, certaines variables de la théorie des comportements
interpersonnels (TCI) de Triandis (1977, 1980) sont ou semblables ou identiques à celles de la
TCP. Nous allons passer en revue les variables de la TCI en les comparant à celles de la TCP
lorsqu'une telle comparaison peut être établie. Nous présentons également des items pouvant être
utilisés pour mesurer certains construits de la TCI. Précisons d'emblée que ces items devraient:
a) être soumis au jugement critique d'experts (voir la section 4); b) faire l'objet de
préexpérimentations auprès de sujets issus de la population cible (voir la section 11.1); c) être
soumis à une analyse d'items (voir la section 11.2).
Bien que certaines variables de la TCI et de la TCP sont mesurées de façon semblable, le
rôle de ces variables et leurs relations avec d'autres construits peuvent varier selon la théorie
considérée. Aussi l'utilisation des items suggérés ci-dessous suppose-t-elle une certaine
connaissance de la TCI (voir Triandis, 1977, 1980).
La TCI identifie quatre déterminants principaux du comportement: l'intention (I),
l'habitude de réaliser le comportement (H), la présence de conditions qui facilitent ou nuisent à
l'adoption du comportement (F) et l'état physiologique (P).
Dans la TCI, l'intention consiste en une consigne personnelle concernant la façon d'agir.
Cette variable peut être mesurée de la même façon que le concept d'intention de la TCP (voir la
section 9.2.4).
Les conditions facilitant ou nuisant à la manifestation d'un comportement (F) est
semblable à la variable p de la TCP. Théoriquement, F et p diffèrent en ce que F fait
exclusivement référence à des facteurs de contrôle environnementaux ou externes à l'individu
alors que p désigne aussi bien des facteurs de contrôle internes et externes à l'individu. En
pratique cependant, il est courant de mesurer F en référant aussi bien à des facteurs internes et
externes de contrôle. La mesure des conditions facilitant ou nuisant à la manifestation d'un
comportement (F) correspond donc à celle de p dans la TCP (voir la section 9.1).
41
La variable P de la TCI désigne un état physiologique de l'individu susceptible de
favoriser la réalisation du comportement. Par exemple, plusieurs individus sont enclins à acheter
plus de nourriture (comportement) s'ils ressentent la faim (état physiologique) lorsqu'ils font leur
épicerie. Plusieurs auteurs utilisant la TCI comme cadre de référence omettent de mesurer P. Des
études s'avèrent nécessaires pour déterminer la ou les façons de rendre compte de cette variable.
La force de l'habitude à réaliser un comportement (H) désigne le degré d'automatisme
d'un comportement dans une situation donnée. Cette variable est généralement mesurée en
questionnant les répondants au sujet de leur fréquence d'adoption du comportement dans le
passé. Un item du type suivant peut être utilisé pour la mesure de H:
1. Pour toutes relations sexuelles que vous avez eues avec un nouveau partenaire au cours des
trois derniers mois, combien de fois avez-vous utilisé le préservatif?
aucune fois
environ une fois
environ une fois
environ trois fois
tout le temps
(0%)
sur 4 (25%)
sur 2 (50%)
sur 4 (75%)
(100%)
Les réponses numériques devraient être déterminées en utilisant une question ouverte lors
d'une préexpérimentation menée auprès de sujets issus de la population cible. Une telle stratégie
permet d'offrir des options de réponse signifiantes pour les sujets en même temps qu'elle tend à
diminuer le risque d'oublier certaines options de réponse pertinentes. Il est à noter que des études
démontrent que l'étendue des réponses numériques offertes peut influencer les réponses des
sujets (e.g. Schwarz, Hippler, Deutsch & Strack, 1985).
Selon Triandis, l'intention serait déterminée par l'influence sociale (S), la norme sociale
(PNB) ainsi que par les composantes affective (A) et cognitive (C) de l'attitude.
La dimension cognitive de l'attitude (C) résulte d'une analyse subjective des avantages et
des désavantages associés à l'adoption du comportement. Tout comme pour la mesure indirecte
de l'attitude dans la TCP ( bxe), la dimension cognitive de l'attitude suppose de mesurer les
42
avantages et les désavantages perçus liés à l'adoption d'un comportement (Pci) ainsi que la valeur
accordée à chacun de ces bénéfices et inconvénients (Vci) (voir la section 9.1).
La composante affective de l'attitude (A) représente la réponse émotionnelle de l'individu
à la pensée d'adopter un comportement. La composante affective est généralement mesurée en
utilisant le différenciateur sémantique, en prenant soin de choisir des paires d'adjectifs ayant une
connotation affective (voir les sections 5.2 et 9.2.1).
La norme sociale (PNB) correspond à l'obligation morale ressentie par le répondant de
réaliser le comportement. À l'origine, cette variable faisait partie intégrante de la théorie de
l'action raisonnée. Elle fut ensuite rejetée parce que Ajzen et Fishbein (1969, 1970) la
considéraient trop semblable au concept d'intention. On retrouve généralement des items du type
suivant pour la mesure de la norme morale (PNB):
1. Il est dans mes principes d'utiliser un préservatif lors de chaque relation sexuelle que je
pourrais avoir avec un nouveau partenaire au cours des trois prochains mois
fortement en
assez en
légèrement en
ni l'un ni
légèrement en
assez en
fortement en
désaccord
désaccord
désaccord
l'autre
accord
accord
accord
2. Je me sentirais coupable de ne pas utiliser un préservatif lors de chaque relation sexuelle que
je pourrais avoir avec un nouveau partenaire au cours des trois prochains mois
fortement en
assez en
légèrement en
ni l'un ni
légèrement en
assez en
fortement en
désaccord
désaccord
désaccord
l'autre
accord
accord
accord
43
3. Je pense que ce serait moralement inacceptable de ne pas utiliser un préservatif lors de chaque
relation sexuelle que je pourrais avoir avec un nouveau partenaire au cours des trois prochains
mois
fortement en
assez en
légèrement en
ni l'un ni
légèrement en
assez en
fortement en
désaccord
désaccord
désaccord
l'autre
accord
accord
accord
Enfin, l'influence sociale (S) consiste à analyser ce que des personnes ou groupes de
personnes spécifiques pensent de l'adoption du comportement. lI est à noter que la norme morale
(PNB) et la norme sociale (S) diffèrent en ce que la première fait référence à des règles
personnelles que se donne l'individu et n'est pas fonction de l'opinion perçue des autres, comme
c'est le cas pour la norme sociale. L'influence sociale est définie par un certain nombre de
déterminants que le chercheur choisira en fonction du comportement étudié. Les déterminants les
plus souvent mesurés sont la croyance normative (NB) et la croyance en l'existence de rôles
sociaux spécifiques (RB). La croyance normative de la TCI correspond à celle de la TCP (voir la
section 9.1). La croyance en l'existence de rôles sociaux spécifiques (RB) désigne le degré
auquel un répondant perçoit qu'il est approprié de réaliser le comportement pour des individus
occupant une position donnée (pouvant être similaire à la sienne) dans la structure sociale.
Notons d'emblée qu'il est souhaitable que les items utilisés pour mesurer RB proviennent d'une
banque d'items constitués suite à une enquête menée auprès de sujets issus de la population cible
(voir la section 9.1). L'une ou l'autre des questions suivantes pourraient être utilisées pour
élaborer une banque initiale d'items visant la mesure de RB:
Selon vous, quelle(s) personne(s) ou groupe(s) de personne(s) utiliserait(ent) un condom lors de
chaque relation sexuelle avec un nouveau partenaire au cours des trois prochains mois?
Comment décririez-vous les personnes ou groupe(s) de personne(s) qui utiliserait(ent) un
condom lors de chaque relation sexuelle avec un nouveau partenaire au cours des trois prochains
mois?
44
De l'analyse de contenu de l'étude qualitative, des items ressemblant aux suivants
pourraient être formulés pour la mesure de la croyance en l'existence de rôles sociaux spécifiques
(RB):
1. De façon générale, il serait approprié pour une personne de mon âge d'utiliser un préservatif
lors de chaque sexuelle avec un nouveau partenaire
fortement en
assez en
légèrement en
ni l'un ni
légèrement en
assez en
fortement en
désaccord
désaccord
désaccord
l'autre
accord
accord
accord
2. De façon générale, il serait approprié pour une personne de mon sexe d'utiliser un préservatif
lors de chaque sexuelle avec un nouveau partenaire
fortement en
assez en
légèrement en
ni l'un ni
légèrement en
assez en
fortement en
désaccord
désaccord
désaccord
l'autre
accord
accord
accord
3. De façon générale, il serait approprié pour une personne québécoise d'utiliser un préservatif
lors de chaque sexuelle avec un nouveau partenaire
fortement en
assez en
légèrement en
ni l'un ni
légèrement en
assez en
fortement en
désaccord
désaccord
désaccord
l'autre
accord
accord
accord
Notons que NB diffère de RB en ce que NB fait référence à la perception de l'individu
concernant ce que des individus ou groupes d'individus pensent qu'il devrait faire. La variable
RB vise plutôt à cerner la perception du répondant quant à la pertinence que des individus ou
groupes d'individus pouvant lui ressembler réalisent le comportement.
45
10. Séquence de présentation des items et des construits
Nous avons déjà mentionné que dans son intégralité, la TCP implique la mesure de 11
variables (I, Co, Aact, SN, PBC, b, e, nb, mc, c, p). Ajzen & Fishbein (1980) ne font pas de
recommandations précises concernant l'ordre dans lequel les variables doivent apparaître dans le
questionnaire. Une revue de la littérature permet d'ailleurs de constater des différences entre les
études concernant la séquence d'apparition des items et des construits de la TCP. De telles
différences peuvent-elles affecter la valeur prédictive du modèle? Les résultats de plusieurs
études menées en psychologie et en marketing laissent croire que tel pourrait être le cas. Il
semble en effet que l'ordre de présentation des items est susceptible d'exercer une influence sur
les réponses des sujets (e.g. Payne, 1951; Schuman & Presser, 1981; Tourangeau, Rasinski,
Bradbun & D'andrade, 1989a, b). Nous avons recensé deux études menées spécifiquement dans
le cadre de la TAR visant à estimer l'effet de l'ordre des items sur les réponses des sujets (Budd,
1987; Ellen & Madden, 1990). Les résultats de ces études tendent à démontrer que la séquence
d'apparition des items peut affecter la corrélation entre les items et les construits de la TAR. Les
résultats de la recherche de Ellen & Madden (1990) indiquent que l'effet de l'ordre des items
pourrait varier selon le comportement étudié. Selon Budd (1987), le fait de présenter des items
semblables de façon successive plutôt qu’aléatoirement augmenterait la probabilité que les sujets
perçoivent les relations entre les items ce qui pourrait les amener à répondre de façon
consistante, d'où une augmentation de la corrélation entre les items. Ellen & Madden (1990)
associent plutôt leurs résultats à l'accessibilité des informations à la mémoire. Cette dernière
variable est l'élément principal des modèles proposés ces dernières années pour expliquer l'effet
de l'ordre des items sur les réponses des sujets (e.g. Schwarz & Bless, 1992, Schwarz, Strack &
Mai, 1991; Strack & Martin, 1987; Tourangeau & Rasinski, 1988). De façon générale, ces
modèles suggèrent que les items présentés rendraient accessibles à la mémoire certaines
informations qui pourraient ou non être utilisées pour répondre à un item subséquent. Selon
certains de ces modèles (e.g, Schwarz, Strack et Mai, 1991) l'effet d'ordre des items pourrait
dépendre du nombre d'items, de leur position et de leur niveau de généralité. De telles variables
n'ont pas été prises en compte dans les études de Budd (1987) et Ellen & Madden (1990) ce qui
n'est pas surprenant dans la perspective où le modèle théorique mentionné apparut
subséquemment aux études de Budd et Ellen & Madden. En somme, les résultats des recherches
menées à ce jour dans le cadre de la TAR laissent supposer que l’ordre de présentation des items
peut affecter les réponses des sujets mais ils ne permettent pas d'établir s'il est préférable ou non
de présenter simultanément les items d'un même construit ou d'adopter une séquence quelconque
dans la présentation des construits.
46
11. Mise au point du questionnaire
Nous proposons de procéder en trois étapes pour mettre au point le questionnaire. Il s'agit
d'effectuer deux préexpérimentations auprès d'un nombre limité de sujets issus de la population
cible et de déterminer, une fois terminée la collecte des données de l'étude principale, les items
qui seront utilisés pour mesurer les construits. Cette façon de faire comporte évidemment
certains désavantages dont celui que les sujets auraient pu répondre différemment au
questionnaire si les items que nous ne gardons pas en fin d'analyse n'étaient pas apparus. Le fait
d'utiliser un nombre restreint de sujets lors des préexpérimentations présente aussi des limites en
regard notamment de la représentation des divers niveaux de possession de la variable mesurée
dans la population. La démarche proposée s'avère néanmoins plus adaptée aux contextes
pratiques des recherches que celle suggérée par certains auteurs et qui consiste à expérimenter et
à mettre au point la forme finale de l'instrument auprès d'un échantillon de 300 sujets...(e.g.
DeVellis, 1991). Lorsque le budget et le temps le permettent, il est néanmoins souhaitable que la
mise au point définitive de l'instrument de mesure se fasse préalablement à la collecte des
données de l'étude principale.
11.1 Les préexpérimentations
La première préexpérimentation poursuit plusieurs buts. Il s'agit de vérifier la clarté des
questions et des directives, la pertinence, l'exhaustivité et le caractère distinctif des options de
réponse offertes. Pour ce faire, on peut demander à cinq ou dix sujets issus de la population
visée:
-de lire les directives et d'exprimer ce qu'ils en comprennent;
-de préciser le sens qu'ils donnent aux questions;
-faire état des mots ambigus ou complexes;
-d'indiquer s'il est facile ou difficile de répondre aux questions et d'exprimer les difficultés
éprouvées à répondre;
-d'identifier les questions les plus difficiles à comprendre;
-d'indiquer s'ils établissent une différence entre chacune des options de réponse et dans la
négative, d'identifier celles qu'ils estiment trop semblables;
-d'inscrire une nouvelle réponse si aucune de celles proposées ne permet de traduire précisément
leur pensée.
47
Après avoir effectué les ajustements nécessaires, une deuxième préexpérimentation peut
être entreprise en administrant le questionnaire à un échantillon d'au moins 30 sujets présentant
des caractéristiques semblables à celles de la clientèle visée. Une étude de la fidélité (test-retest)
peut être menée en administrant le questionnaire à deux reprises au même échantillon.
Cette deuxième préexpérimentation permettra d'examiner:
-le respect des directives;
-les réactions en regard des items ou de certains mots. On pourra à cet effet noter les hésitations
et les questions posées par les sujets. Ces informations pourront être utiles au moment de
l'interprétation des résultats;
-le temps que nécessite l'administration du questionnaire;
-la dispersion des réponses à chacun des items afin de modifier ou d'écarter les options de
réponse ou les items présentant une faible variabilité;
-les liens entre les items (voir la section ci-dessous portant sur l'évaluation des items).
11.2 L'évaluation des items
La compréhension et une lecture critique de cette section nécessite la connaissance de
certaines notions de base en statistique et en traitement de données. Les ouvrages de Bertrand &
Valiquette (1986), Glass & Hopkins (1996) et Miller (1987) constituent à cet effet de bonnes
références. Nous désirons aussi insister sur le fait qu'il existe des différences parfois importantes
entre les chercheurs concernant la façon d'analyser des données et d'estimer la qualité d'un item
ou d'un instrument de mesure. Il n'est pas dans nos visées de présenter les avantages et les
désavantages des différentes alternatives possibles. Nous ferons parfois allusion à plus d'une
façon de faire et laissons au lecteur le soin de déterminer la stratégie la plus appropriée à sa
situation particulière.
Avant de présenter les critères pouvant être utilisés pour estimer la qualité d'un item, nous
désirons aborder certains aspects en lien avec l'analyse de données.
Niveaux de mesure des variables de la TCP. Les variables de la TCP sont généralement
mesurées à partir du différenciateur sémantique ou avec des échelles de type Likert. Comme
48
nous l'avons déjà mentionné, nous ne connaissons pas le niveau de mesure exact des résultats
obtenus à ces échelles. En fait, il est difficile d'établir si elles correspondent à une échelle
ordinale ou d'intervalle (Himmelfarb, 1993). Le niveau de mesure des variables de la TCP et la
nature des tests statistiques à utiliser pour les traiter ne font donc pas l'unanimité chez les
auteurs. Nous ne raviverons pas le débat ici et considérerons, comme la majorité des auteurs, que
nous sommes en présence d'échelles d'intervalle.
Assignation de nombres aux options de réponse. Fishbein & Ajzen (1980) proposent
d'assigner, aux options de réponse formant une échelle bipolaire, des valeurs d'échelle passant du
négatif au positif (ex.: -3 à +3). Ils suggèrent en outre d'interpréter un score négatif comme la
négation d'un concept. Considérons l'exemple suivant:
Si je consomme toujours des aliments faibles en gras et en cholestérol au cours des trois
prochains mois, cela m'aidera à perdre du poids
X
très
assez
légèrement
ni l'un ni
légèrement
assez
très
improbable
improbable
improbable
l'autre
probable
probable
probable
Perdre du poids est:
X
très
assez
légèrement
ni l'un ni
légèrement
assez
très
indésirable
indésirable
indésirable
l'autre
désirable
désirable
désirable
La réponse obtenue au premier item (-3) suggère que le répondant estime qu'il est très
probable que la consommation d'aliments faibles en gras et en cholestérol ne l'aidera pas à
perdre du poids alors que la réponse au deuxième item (-3) indique que le sujet considère qu'il
est très désirable de ne pas perdre de poids.
49
Ajzen & Fishbein (1980) font allusion à la mesure indirecte de l'attitude ( bxe) pour
justifier l'assignation de valeurs d'échelle passant du négatif au positif. Cette façon de faire
permettrait d'attribuer un score positif à des individus croyant qu'un comportement n'entraîne pas
une conséquence qu'ils évaluent négativement. Dans l'exemple précédent, on constate que la
multiplication des réponses obtenues aux items b (=-3) et e (=-3) donne lieu à un score positif
(+9) traduisant, comme il se doit, une attitude positive envers la consommation d'aliments faibles
en gras et en cholestérol. Cette façon de faire entraîne néanmoins un problème que Valiquette,
Valois, Desharnais & Godin (1988) ont mis en lumière. Ces derniers auteurs ont démontré que la
multiplication de deux scores négatifs peut, selon le comportement étudié, occasionner un faux
score positif. Prenons l'exemple d'un individu croyant que la pratique d'activités physiques ne
permet pas d'augmenter l'espérance de vie (-3) et qui évalue négativement une augmentation de
l'espérance de vie (-3). Ce répondant obtiendrait un score d'attitude (bxe) positif (+9) alors que
ses réponses ne témoignent pas d'une attitude positive envers la pratique d'activités physiques.
Aussi Valiquette et ses collaborateurs recommandent-ils d'accorder une attention particulière aux
scores résultant de la multiplication de deux réponses négatives.
Nous désirons souligner que les faux scores positifs sont, du moins dans les études que
nous avons analysées, relativement peu fréquents. Dans plusieurs cas ils surviennent lorsque des
individus (généralement un nombre très limité) évaluent négativement une conséquence
comportementale considérée désirable par la majorité des autres répondants. Ce sont des
individus qui évaluent négativement le fait par exemple de se sentir bien. Il est conseillé
d'accorder une attention particulière à la façon dont ces individus répondent à l'ensemble des
items du questionnaire. Il peut s'agir de sujets ayant adopté une façon déviante de répondre (e.g.
choix systématique de réponses extrêmes). L'expérience révèle que dans bien des cas, ces
individus dont les réponses donnent lieu à de faux positifs omettent de répondre à un nombre
important d'items, ce qui amène à reconsidérer leur inclusion dans l'échantillon ou du moins à
reconsidérer leurs réponses à la mesure de certains construits. Pour terminer, nous désirons
insister sur le fait que les scores positifs qui résultent de la multiplication de deux réponses
négatives ne sont pas nécessairement de faux positifs, le contenu de l'item permet de déterminer
si tel est le cas. En outre, les individus présentant de faux scores positifs ne doivent pas être
systématiquement éliminés de l'échantillon. Il importe d'apporter une attention particulière à
chaque cas en considérant notamment les réponses obtenues aux autres items. Enfin, c'est la
pertinence de l'item qui devrait être reconsidérée lorsqu'il occasionne chez plusieurs sujets un
faux score positif.
50
Plusieurs auteurs n'appliquent pas les recommandations de Ajzen & Fishbein (1980) et
attribuent aux options de réponse des valeurs d'échelles exclusivement positives (e.g. 1 à 7)
plutôt que des valeurs d'échelles passant du négatif au positif (e.g. -3 à +3). Cette situation est
problématique en ce qu'elle peut, notamment, affecter la corrélation entre un construit indirect et
une autre variable. En d'autres termes, on pourrait obtenir une corrélation plus ou moins élevée
entre par exemple bxe et Aact selon les nombres assignés aux options de réponses des items
utilisés pour la mesure de b et e. Le lecteur peut consulter Schmidt (1973) pour une
démonstration empirique de ce fait et Arnold & Evans (1979) ou Bagozzi (1984) pour une
démonstration mathématique. Il importe de savoir que les valeurs d'échelle assignées aux options
de réponse n'affectent pas la corrélation entre les construits de la TCP n'impliquant pas la
multiplication de deux variables.
Des stratégies ont été proposées pour contrôler le fait que la corrélation entre deux
construits, dont l'un résulte de la multiplication de deux variables, peut varier selon les valeurs
d'échelle assignées aux options de réponse. Par exemple, Thurstone & Jones (1957) ont proposé
une méthode pour élaborer des échelles de ratio. Cette approche s'avère cependant laborieuse
(Schmidt, 1973) et très peu de chercheurs l'utilisent (Bagozzi, 1984). D'autres auteurs proposent
de recourir à la régression hiérarchique (e.g. Arnold & Evans, 1979; Evans, 1991). La pertinence
de cette méthode pour contourner le problème de l'influence des valeurs d'échelle assignées aux
options de réponse est toutefois controversée (Birnbaum, 1973, 1974; Busemeyer & Jones,
1983). En outre, pour obtenir une certaine stabilité des paramètres, la régression hiérarchique
suppose un nombre important de sujets, ce qui rend la méthode relativement moins attrayante
(Valois, Desharnais, Godin, Perron, & Lecompte, 1993). Finalement, Holbrook (1977) propose
une formule mathématique permettant de déterminer laquelle des façons d'attribuer des valeurs
d'échelles aux options de réponse conduit à une plus forte corrélation entre les construits. Cette
méthode fut aussi critiquée par quelques auteurs (e.g. Bagozzi, 1984; Evans, 1991). Nous
remettons en question le principe de cette dernière approche en ce que la maximisation de la
corrélation ne devrait pas être l'objectif premier; il faut chercher avant tout à ce que des scores
plus élevés soient attribués aux individus sélectionnant des réponses traduisant une plus forte
possession de la caractéristique mesurée. Nous faisons référence ici à la notion de validité des
résultats.
Il n'existe donc pas de solution qui fait l'unanimité chez les auteurs en ce qui concerne la
façon de résoudre le problème de l'influence des valeurs d'échelle sur la corrélation entre les
construits indirects et d'autres variables. Il importe de spécifier cependant que certains auteurs
51
ont comparé la corrélation entre les construits directs et indirects en attribuant différentes valeurs
d'échelle aux options de réponse (e.g. Ajzen, 1991; Hewstone & Young, 1988; Sparks,
Hedderley & Shepherd, 1991, Budd, North & Spencer, 1984; Fishbein & Ajzen, 1981; Loken &
Fishbein, 1980). L'étude de Gagné & Godin (soumis pour publication) indique que dans le cas de
la mesure de comportements liés à la santé, les échelles suivantes permettent le plus souvent
d'obtenir une plus forte corrélation entre les construits directs et indirects: bbeb, nbbmcu, cupu
[u=assignation de valeurs d'échelle positives seulement (e.g. 1 à 7), b=assignation de valeurs
d'échelle passant du négatif au positif (e.g. -3 à +3)]. Cette dernière étude démontre également
qu'indépendamment des valeurs d'échelles assignées, le fait d'utiliser b, nb, p plutôt que
bxe, nbxmc, cxp permet d'obtenir des corrélations similaires ou supérieures avec le
construits direct correspondant. Ces résultats tendent à confirmer, comme l'a suggéré Ajzen
(1991), que le modèle des attentes x valeurs (expectancy x value model) pourrait ne pas être le
meilleur pour décrire la relation entre les construits directs et indirects.
Pondération du score total en fonction du nombre d'items répondus. Plus souvent
qu'autrement, nous retrouvons des individus ayant omis de répondre à un nombre plus ou moins
important d'items. Cette situation est problématique en ce que si nous avons fait appel à plusieurs
items, c'est que nous avons cru qu'ils étaient nécessaires pour cerner le construit à l'étude. Que
signifie le score d'un individu ayant répondu à 7 des 10 items présentés? Ce répondant pourrait
en fait obtenir un score aussi élevé qu'un individu ayant fourni une réponse aux 10 items. On ne
pourrait pourtant pas conclure que ces deux individus ont le même niveau de possession de la
caractéristique mesurée. Aussi serait-il pertinent de procéder à des ajustements pour rendre plus
comparables leurs résultats (Voyer, 1996). Une pratique consiste à déterminer le nombre
d'omissions que nous sommes prêts à tolérer pour accepter de considérer les réponses d'un
répondant. Pour notre part, nous fixons généralement qu'un sujet doit avoir répondu à environ
75% des items présentés pour considérer ses réponses à un construit. Ce critère implique que
nous ne tolérons aucune valeur manquante à un construit mesuré à partir de deux items
seulement. En postulant qu'un sujet répondrait aux items omis de la même façon qu'aux autres
items visant la mesure du même construit, on pourrait attribuer aux items omis la moyenne
obtenue par le sujet aux autres items se rapportant au construit. Une autre méthode consiste à
attribuer à un sujet n'ayant pas répondu à un item la valeur moyenne obtenue par l'ensemble des
autres répondants à cet item.
Comme le mentionne Voyer (1996), les approches décrites ci-dessus posent problème en
ce que nous connaissons généralement en fin d'analyse les items qui composeront la forme finale
52
de l'instrument. Aussi est-il pertinent de procéder à un examen attentif des observations afin
d'écarter les cas douteux et d'étudier la distribution des fréquences des résultats bruts des items
afin de déterminer la proportion d'omissions que nous sommes prêts à tolérer aux items initiaux.
Inversion de l'échelle de réponse. Certains items sont formulés de façon telle que le fait de se
montrer tout en fait en accord avec leur contenu ne suppose pas la possession de la
caractéristique mesurée. Considérons l'exemple suivant:
Si je consomme toujours des aliments faibles en gras et en cholestérol au cours des trois
prochains mois, les aliments m'apparaîtront sans saveur
très
assez
légèrement
ni l'un
légèrement
assez
très
improbable
improbable
improbable
ni l'autre
probable
probable
probable
L'option de réponse <<très probable>> ne traduit pas une attitude positive envers la
consommation d'aliments faibles en gras et en cholestérol. Cette option de réponse devrait donc
recevoir la valeur d'échelle la plus faible, soit 1 ou -3 lorsque l'échelle comporte sept niveaux de
réponse. Retenons que les valeurs d'échelles devraient être attribuées de façon à ce qu'un score
total élevé à la sommation de l'ensemble des items mesurant un construit donné traduise un
niveau de possession plus important de la caractéristique mesurée.
Vérification des données. Nous désirons insister sur un aspect souvent passé sous silence mais
non moins important au sujet de la vérification des données. Le questionnaire ayant été
administré, on compilera les données sur un support quelconque qui consiste généralement en un
progiciel d'analyse de données (e.g. SAS, SPSS, BMDP, TESTAT etc.). Cette opération
occasionne souvent des erreurs (erreurs de transcription, erreurs de lecture des réponses etc.). Il
importe de scruter attentivement les données afin de détecter les erreurs. Nous encourageons
l'utilisation de stratégies permettant de minimiser ces erreurs (e.g. entrée de données effectuée
par des individus différents avec comparaison systématique des résultats, programmation
informatique qui permet d'émettre un signal lorsqu'une donnée excède les valeurs permises,
sélection au hasard de quelques questionnaires et vérification systématique de toutes les réponses
53
enregistrées afin de vérifier si elles ne font pas l'objet d'erreurs, examen de la distribution de
fréquences des résultats pour vérifier si l'étendue des scores excède les valeurs permises etc.).
11.2.1 Critères pour estimer la qualité d'un item
Plusieurs critères peuvent être utilisés pour évaluer la qualité d'un item ou d'un instrument
de mesure. Ces critères et le nom qu'ils portent ne sont pas indépendants de la théorie de la
mesure à laquelle ils se rattachent (théorie classique de la mesure, théorie de la généralisabilité et
théorie des réponses aux items). Ces théories consistent en des modèles d'interprétation
statistique des résultats. La description et la comparaison de ces théories dépassent largement les
objectifs fixés pour ce document. Notons néanmoins que c'est en référence à la théorie classique
de la mesure que nous abordons cette section.
Il existe donc plusieurs critères pour estimer la valeur d'un item et il importe d'en
considérer plus d'un pour se faire une idée de la qualité d'un item. Il faut donc voir le processus
de façon globale et éviter de se braquer sur un seul critère. Nous allons présenter un certain
nombre de ces critères, il ne s'agit cependant pas d'une liste exhaustive.
Il est suggéré en tout premier lieu d'étudier la distribution de chacun des items. Quelle
forme prend-t-elle? Les sujets ont-il préféré certaines réponses plutôt que d'autres? Dans la
perspective où l'on tente de mettre en évidence des différences entre les individus ou des groupes
d'individus, un item auquel les sujets auraient répondu de la même façon serait inutile en soi. Un
tel item ne pourrait d'ailleurs être en relation avec d'autres variables. Est-ce qu'un nombre
important de sujets ont omis de répondre à l'item? Un item auquel les sujets refusent de répondre
est nécessairement un mauvais item. Un examen visuel des résultats obtenus à chacun des items
permet en fait de <<prendre le pouls>> des données et de choisir la statistique (e.g. mode,
médiane, moyenne) ou les tests statistiques les plus appropriés aux résultats obtenus. Cette
première étape devrait permettre d'identifier les items accusant une forte proportion de nonréponses et ceux présentant une faible variabilité des réponses.
54
Ce premier examen des données pourrait être suivi de l'étude de la relation entre les items
visant la mesure d'un même construit. Les construits de la TCP sont généralement mesurés avec
un nombre relativement peu élevé d'items, il n'est donc pas trop ardu d'étudier la matrice de
corrélation des items se rapportant au même construit. Mentionnons au passage que le calcul du
coefficient de corrélation varie selon que les variables sont dichotomiques ou continues. Le
coefficient de corrélation de Pearson est généralement calculé pour rendre compte de la relation
entre les items ou les construits de la TCP. En théorie, un coefficient de corrélation peut prendre
une valeur entre -1 et 1. En pratique, les erreurs inhérentes à toutes mesures ne permettent pas
d'atteindre ces valeurs limites. Le coefficient de corrélation est en effet limité par la fidélité
respective des variables mises en relation, mais nous nous éloignons là de l'essentiel de nos
propos (pour plus de détail, voir e.g. Laurencelle, 1998). Retenons donc qu'il faut porter attention
au sens (+ ou -) et à l'ordre de grandeur du coefficient de corrélation. Selon certains auteurs, il
est souhaitable que le coefficient de corrélation atteigne une valeur d'au moins +.30 lorsqu'il est
question de la relation entre des items visant la mesure d'un même construit. Il s'agit là d'un
repère et on ne devrait pas rejeter systématiquement un item dont la relation avec les autres items
n'atteint pas cette valeur. D'ailleurs, il se peut qu'un item soit en forte relation avec certains items
et qu'il entretienne une relation plutôt modérée avec d'autres items visant la mesure du même
construit. Il est à noter que les items très fortement corrélés devrait, au même titre que les items
peu reliés, attirer notre attention. À ce stade-ci, on note donc les items semblant bien aller
ensemble et ceux qui apparaissent faire défaut.
Notons que la majorité des auteurs utilisant la TCP comme cadre de référence reconnaît
une seule dimension à chacun des construits. En fait, les résultats des études ayant testé le
caractère unidimensionnel des construits s'avèrent souvent contradictoires. Sachons néanmoins
que si l'on reconnaît plus d'une dimension à une échelle, l'analyse des interrelations devra être
effectuée en fonction de chacune des composantes.
Dans une perspective de validation des résultats, il convient d'étudier la relation entre les
items de chacun des construits indirects et le construit direct correspondant. En ce qui concerne
la mesure de l'attitude, par exemple, il s'agirait d'observer la relation entre chaque item visant la
mesure de bxe et Aact (une fois bien entendu que la mesure de Aact aura été estimée valide
et fidèle. On peut considérer à cet effet la valeur du coefficient alpha et la relation que le
construit direct entretient avec l'intention; sur la base de la TCP, cette relation devrait être forte).
D'un point de vue théorique, il est raisonnable de s'attendre à observer une corrélation
relativement élevée entre les mesures directes et indirectes puisqu'elles visent essentiellement à
55
rendre compte du même construit (l'attitude envers le comportement, la norme subjective ou la
perception du contrôle). Or, les faits révèlent que la relation entre les construits directs et
indirects est plus souvent modérée qu'élevée (Ajzen, 1991). On ne devrait donc pas se surprendre
que les items visant la mesure des construits indirects ne corrèlent pas fortement avec la mesure
directe correspondante. N'oublions pas en outre que la relation postulée entre les construits
directs et indirects concerne l'ensemble des items se rapportant à un construit; aussi ne faut-il pas
être trop sévère en regard de chacun des items pris individuellement. Il importe néanmoins
d'accorder une attention spéciale aux items de la mesure indirecte qui corrèlent négativement
avec le construit direct correspondant. L'expérience révèle que cette situation est plutôt rare
lorsqu'on assigne aux options de réponses les valeurs d'échelles suggérées précédemment (bbxeb,
nbbxmcu, cuxpu). Les items entretenant une corrélation très faible ou négative avec le construit
direct correspondant devrait donc être identifiés. Il en est de même des items dont la corrélation
avec le construit direct correspondant est plus faible que celle observée avec l'un des construits
directs visant la mesure d'un autre construit. Il est à noter que les propos tenus ici valent aussi
lorsqu’on fait appel à un critère externe pour juger de la validité de notre instrument, c'est-à-dire
qu'il faut se préoccuper davantage des résultats à l'ensemble des items visant la mesure du même
construit plutôt qu'à chacun des items en particulier.
Toujours dans une perspective de validation des résultats, il est aussi approprié
d'examiner la relation entre chacun des items visant la mesure des construits indirects et les
autres construit indirects de la TCP. En principe, la corrélation entre un item et le construit dont
il vise la mesure devrait être plus élevée que celle entre l'item et tout autre construit de la théorie.
Il est raisonnable de s'attendre par exemple à ce qu'un item visant la mesure de bxe soit plus lié à
bxe qu'à nbxmc ou cxp. La même logique s'applique au construit direct. Un item visant la
mesure de Aact devrait être davantage lié à Aact qu'à SN ou PBC. L'expérience révèle que
les items entretiennent avec le construit qu'ils mesurent une relation plus forte ou du moins
semblable à celle les liant aux autres construits de la TCP. On devrait noter les items plus
fortement corrélés avec un autre construit que celui dont il vise la mesure.
Les étapes précédentes devraient avoir aidé à l'identification d'items potentiellement
problématiques. Nous poursuivons dans le même sens avec l'étude des relations entre chacun des
items et le score obtenu à la sommation des autres items visant la mesure du même construit
(corrélation item-total). Les programmes informatiques spécialisés (SAS, SPSS, BMDP,
TESTAT etc.) fournissent automatiquement ces valeurs. Ils indiquent également l'incidence du
retrait de chaque item sur la valeur du coefficient alpha (voir la note 3). L'interprétation et
56
l'utilisation des résultats de ces sorties informatiques demandent une certaine vigilance. Il ne
serait pas approprié par exemple de rejeter systématiquement un item sans apporter attention à
son contenu. À cet effet, nous avons remarqué que les items visant la mesure de bxe se divisent
parfois en deux groupes: ceux qui font référence à des avantages et ceux traduisant plutôt les
désavantages perçus associés à l'adoption d'un comportement. Lorsque les uns se retrouvent en
plus grand nombre que les autres, on constate qu'on profiterait d'une augmentation du coefficient
alpha en rejetant ceux se retrouvant en plus petit nombre. Une telle façon de faire contribuerait
certes à augmenter la fidélité de la mesure, au détriment cependant de la validité...
Il n'existe pas de critère absolu en ce qui concerne l'ordre de grandeur du coefficient de
corrélation entre un item et la sommation des autres items visant la mesure du même construit.
Certains auteurs indiquent qu'il serait souhaitable qu'il se situe au moins autour de +.30. Il s'agit
encore là d'un point de repère. Les items peu reliés avec les autres visant la mesure du même
construit devrait attirer notre attention. Ces items apparaissent certes problématiques, mais il est
conseillé d'examiner leur contenu et leur relation avec le construit direct avant de les rejeter.
Comme nous l'avons déjà mentionné, il ne faudrait pas sacrifier la validité au profit de la fidélité.
En ce qui concerne la valeur que devrait atteindre le coefficient alpha, il n'existe pas,
encore là, de critère absolu (en principe, le coefficient alpha peut prendre une valeur se situant
entre 0 et 1). Les valeurs tolérées varient en fait d'un chercheur à l'autre. De façon générale, les
auteurs utilisant la TAR ou la TCP comme cadre de référence acceptent des valeurs oscillant au
minimum entre .60 et .70. Il ne faut pas oublier que deux principaux facteurs exercent une
influence sur la valeur du coefficient alpha: le nombre d'items et leur covariation. Ainsi et toutes
choses étant égales par ailleurs, il serait possible d'obtenir un coefficient alpha relativement élevé
avec un très grand nombre d'items entretenant des relations modérées. De la même façon, un
nombre limité d'items fortement corrélés permettrait d'aboutir à une valeur relativement élevée
au coefficient alpha.
57
Conclusion
Bien que la démarche que nous avons proposée vise d'abord à satisfaire les critères de
mesure de trois théories sociales cognitives (la TAR, la TCP et la TCI), elle peut aussi être
adaptée et utilisée pour la mesure des construits psychologiques de d'autres théories. On aura
compris cependant qu'à plusieurs questions concernant l'élaboration de questionnaire et la
mesure des construits psychologiques n'existent pas de réponse unique, valable pour toutes les
situations. Aussi est-il souhaitable de recourir à plusieurs sources d'informations et de prendre
connaissance de ce qui se fait dans son milieu. Ainsi pourra-t-on estimer les forces et les
faiblesses des différentes façons de faire et choisir celle la plus susceptible de satisfaire aux
besoins de sa situation particulière.
58
Notes
1. Un construit est une variable qui n'existe que par définition. Il s'agit d'une structure latente
inventée pour décrire et expliquer ce que nous percevons. Puisque les construits ne sont pas
observables directement, il faut faire appel à des indicateurs de leur présence. Un indicateur
consiste en une manifestation observable duquel nous inférons la présence d'un construit ou
d'une caractéristique donnée.
2. Fishbein & Ajzen (1975) définissent le comportement comme une action observable. Partant
de cette définition, les distinctions suivantes doivent être apportées. Il importe tout d'abord de
différencier un comportement de ses conséquences. Perdre du poids n'est pas un comportement
mais le résultat de certaines actions telles consommer des aliments faibles en calories, suivre un
programme d'exercices physiques, éviter de grignoter entre les repas etc. Cette nuance apparaît
d'autant plus importante que certains facteurs autres que le comportement adopté par un individu
pourrait exercer une influence sur les résultats observés. Ainsi, la perte de poids d'un sujet
pourrait être induite non pas seulement par une réduction de la consommation d'aliments faibles
en calories ou en matières grasses mais aussi par la maladie. Par ailleurs, il importe de distinguer
un comportement général (non observable directement) des comportements spécifiques qui y
sont associés. Par exemple, manger sainement consiste en un comportement général pouvant se
traduire par un ensemble de comportements spécifiques tels manger des fruits à chaque jour,
préparer ses aliments avec peu ou pas de matières grasses etc. De la même façon, l'activité
physique est un comportement général; nous ne voyons pas une pratique d'activité physique mais
des individus qui font du vélo, qui nagent à la piscine etc. Selon Ajzen & Fishbein (1980) ce sont
des comportements spécifiques qui devraient préférablement faire l'objet de la mesure. Il n'est
pas dit que les comportements généraux ne peuvent être estimés; ils pourront l'être en combinant
par exemple les mesures d'un nombre relativement élevé de comportements spécifiques reconnus
comme des indicateurs valables du comportement général (voir Ajzen & Fishbein, 1980, pour
plus de détail). Cela dit, mentionnons qu'il n'est pas rare de retrouver des questionnaires
mesurant directement un comportement général. Dans ce cas cependant, on aura tôt fait de
fournir une définition précise du comportement général et de spécifier au besoin les
comportements spécifiques que l'on désire associer au comportement général. En principe, la
définition du comportement général devrait être suffisamment précise pour que les sujets ne lui
prêtent pas des interprétations différentes. En spécifiant par exemple le type d'activité physique
auquel on s'intéresse (e.g. activité aérobique pratiquée à 70% de sa capacité maximale,) le risque
diminue qu'un individu s'adonnant au jardinage associe son loisir à la mesure comportementale
recherchée. Mentionnons pour terminer que le fait de définir un comportement général en
59
référant à des comportements spécifiques comportera toujours le risque que les sujets ne
répondent pas aux questions en référence aux critères spécifiés. Par exemple, en dépit de la
précision du comportement suivant <<une alimentation faible en gras et en cholestérol consiste à
toujours consommer des produits laitiers écrémés et des viandes maigres prises en petite quantité
et cuites sans gras, puis manger quotidiennement du pain et des céréales à grains entiers et des
fruits et des légumes frais>>, il se peut que les sujets répondent au questionnaire en ne référant
qu'à un ou deux des comportements spécifiques décrits, ce qui peut contribuer à fausser les
résultats.
3. Certains volumes, dont celui de Laurencelle (1998), fournissent une description détaillée des
concepts de fidélité et de validité. Nous présentons ci-dessous un aperçu de ces concepts de base.
La fidélité et la validité sont les deux principales qualités attendues d'un instrument de
mesure. La fidélité réfère à la constance ou à la consistance des résultats fournis par un
instrument de mesure alors que la validité se préoccupe de la pertinence de l'instrument, du degré
auquel il mesure ce qu'il prétend mesurer. Dans la théorie classique des tests, on retrouve trois
principales méthodes pour rendre compte de la fidélité d'une mesure ou d'un instrument de
mesure: la stabilité, l'équivalence et la consistance interne. Le test-retest consiste à administrer le
même instrument de mesure au même échantillon de sujets à deux occasions différentes et à
calculer la corrélation entre les résultats obtenus à ces deux administrations. La méthode de
l'équivalence consiste à élaborer et à présenter simultanément deux formes équivalentes d'un
même instrument et à calculer la corrélation entre les résultats obtenus à ces deux mesures qui se
veulent la même. Il existe plus d'une approche pour rendre compte de la consistance interne d'un
instrument. Nous allons présenter celles dont il est le plus souvent fait mention: la méthode des
moitiés et celle de Cronbach. La méthode des moitiés consiste à séparer en deux groupes égaux
les items d’un même instrument et à calculer la corrélation entre les deux moitiés ainsi obtenues.
En principe, les items devraient être répartis de façon à obtenir deux moitiés équivalentes.
Puisqu'elle implique de travailler avec la moitié des items initiaux, la méthode des moitiés
conduit à une sous-estimation de la fidélité. En effet, toutes choses étant égales par ailleurs, la
fidélité d'un instrument croît en fonction du nombre d'items qu'il comporte. Il est possible de
corriger le biais ou la sous-estimation en appliquant la formule développée par SpearmanBrown, laquelle permet de rendre compte de la fidélité d’un instrument comportant un nombre
donné d’items. La méthode des moitiés comporte le désavantage de conduire à des estimations
différentes de la fidélité selon le critère retenu pour composer les deux groupes d’items qui
seront comparés. La méthode de Cronbach permet de contourner ce problème. Cette dernière
60
méthode consiste en un estimé de la fidélité fondé sur la moyenne des coefficients
d'interrelations entre plusieurs parties d’un instrument. Chaque item est généralement considéré
comme l’une des subdivisions possibles de l'instrument. Le coefficient de corrélation obtenu est
appelé coefficient alpha. Le calcul du coefficient alpha suppose que les items de l'instrument
visent la mesure d'un même construit et que le poids accordé à chacun de ces items est le même.
Pour terminer, notons qu'un coefficient alpha élevé n'implique pas que l'échelle présente une
structurelle factorielle unique (voir la note 7). En effet, le coefficient alpha, comme les autres
indices de fidélité, est fonction du nombre d'items qui composent l'échelle. Ainsi un coefficient
alpha élevé pourrait être obtenu avec un nombre important d'items dont la valeur moyenne des
interrelations est modérée. De la même façon, un petit nombre d'items en très forte association
pourrait conduire à une valeur élevée au coefficient alpha.
Le fait qu'une échelle soit fidèle n'implique pas qu'elle est valide; un instrument peut en
effet mesurer de façon constante ou consistante une caractéristique autre que celle prétendue par
le chercheur. La plupart des auteurs reconnaissent trois classes principales de stratégies pour
estimer la validité d'un instrument de mesure: la validité de construit, la validité par association
avec un critère et la validité de contenu. La description qui suit de chacun des trois types de
validité consiste en une traduction et une adaptation de certaines parties du texte de Himmelfarb
(1993). La validité de construit d'une échelle est déterminée sur la base de prédictions théoriques
au sujet des relations que l'instrument devrait entretenir avec des mesures du même construit ou
des construits avec lesquels il est logiquement associé. Dans plusieurs cas, ces prédictions
prennent appui sur un certain nombre d'idées généralement acceptées quant à la nature et au
mode de fonctionnement de l'objet d'étude. Selon Campbell & Fiske (1959), la validité de
convergence et la validité discriminante constitueraient deux composantes essentielles de la
validité de construit. La validité de convergence repose sur l'idée qu'un instrument mesurant une
caractéristique donnée devrait être en forte relation avec d'autres échelles visant à rendre compte
du même construit ou des construits semblables. Il importe de savoir cependant que des mesures
alternatives d'un même construit peuvent être en forte association non seulement parce qu'elles
visent à rendre compte de la même caractéristique mais aussi en raison du fait qu'elles partagent
des sources communes de biais ou de variance liées à la méthode (Campbell & Fiske, 1959). La
validité de discrimination rappelle, quant à elle, qu'un instrument ne devrait pas être en trop forte
relation avec des mesures de construits différents.
Comme son nom l'indique, la validité par association avec un critère externe réfère au
degré auquel les scores d'un instrument de mesure sont en corrélation avec un critère externe.
61
Lorsque les scores de la mesure du critère sont recueillis au même moment que ceux de
l'instrument à valider, on fait référence à la validité concourante. Par contre, si les données visant
à mesurer la variable servant de critère sont obtenues ultérieurement, on parle plutôt de validité
prédictive.
Enfin, la validité de contenu réfère à la représentativité des items retenus pour mesurer le
construit à l'étude. Ce type de validité se préoccupe de vérifier si l'échantillon d'items retrouvés
dans un instrument de mesure représente bien l'univers de contenu visé.
4. <<Dans la littérature, on retrouve diverses expressions, plus ou moins précises, qui
s'apparentent à celle de biais de réponse. Les plus répandues ou les mieux connues sont sans
doute celles de response effect, response style et response set. Chacune de ces expressions
désigne cette tendance qu'ont certains individus à répondre aux items d'un questionnaire d'une
certaine façon, quel qu'en soit le contenu. Il semble que cette tendance pourrait dépendre, en
partie du moins, du format des questions et qu'elle se manifeste lorsque le sujet éprouve un
sentiment d'incertitude concernant la façon de répondre aux items présentés. Ce malaise pourrait
tenir à plusieurs facteurs dont l'ambiguïté ou le manque de structuration de la situation
(Cronbach, 1946; Shulman, 1973), l'absence d'indice quant à la réponse attendue (Berg &
Rapaport, 1954), le niveau de difficulté des questions (Cronbach, 1950) ou la difficulté de bien
interpréter l'échelle utilisée (Shulman, 1973). Cette forme de comportement pourrait encore se
manifester lorsque le répondant éprouve une certaine fatigue, de l'ennui ou un manque d'intérêt
pour l'objet d'étude (Hui & Triandis, 1985; Sudman & Bradburn, 1982) ou lorsque, pour une
raison ou une autre, il considère une question menaçante (Sudman & Bradburn, 1974). Ne
pouvant ou ne cherchant pas à se prononcer en fonction du contenu des items, le sujet adopterait
alors une façon de répondre que certains auteurs appellent un patron de réponse. Au nombre des
patrons de réponse auxquels font le plus souvent référence les auteurs, on retrouve la tendance à
choisir les options de réponse plus neutres (tendance à ne pas se compromettre), la prédisposition
à être en accord, c'est-à-dire la tendance à se montrer favorable ou en accord avec un énoncé
indépendamment de son contenu et son antagoniste, la propension à répondre de façon négative
ou provocatrice (Cronbach, 1946, 1950).>> (Tiré de Gagné, 1997).
62
5. << Dans le sens le plus large qui nous intéresse, une échelle fait référence à une suite
progressive de degrés ou de niveaux. Cette définition commune convient pour caractériser la
graduation des divisions, des repères ou des échelons d'un continuum de réponses possibles à
une question. On parle ainsi d'une échelle à 2 (oui-non), à 4 ou à 5 niveaux de réponse (tout-àfait d'accord à pas d'accord du tout) ou même davantage. Par extension, le terme échelle désigne
également les instruments de mesure constitués de plusieurs items et destinés à évaluer chez des
individus le niveau de possession d'un trait ou d'une caractéristique particulière par rapport à un
continuum donné. C'est en ce sens que nous affirmons avoir recours à des échelles d'attitudes,
des échelles de personnalité, de désirabilité sociale, d'hypocondrie ou même d'intelligence.
Derrière l'utilisation de ce type d'instruments se profile la volonté d'échelonner des gens, des
choses ou des objets, c'est-à-dire de les répartir ou de les disposer par degrés ou à une certaine
distance les uns des autres par rapport à un attribut particulier. Nous faisons enfin appel au
concept d'échelle de mesure pour désigner chacun des degrés successifs de nos classifications en
regard des propriétés des nombres réels. Ces derniers possèdent en effet en eux-mêmes des
propriétés que nos façons de faire pour les attribuer respectent à des degrés divers. Ainsi
parlerons-nous d'échelles de mesure de niveau ordinal ou de niveau d'intervalle ou, plus
simplement, d'échelles ordinales et d'échelles d'intervalle.>> (Tiré de Voyer & Gagné, 1995, p.
3)
6. Une fonction monotone exprime une relation croissante ou décroissante. Une relation est
croissante si pour tout couple de points (x1, y1), (x2, y2), un accroissement de x1 à x2 entraîne
un accroissement de y1 à y2. D'autre part, elle sera décroissante si un accroissement de x1 à x2
entraîne une diminution de y1 à y2 (Bertrand & Valiquette, 1986, p. 331).
7. L'analyse factorielle est une technique statistique qui tente d'expliquer les relations entre des
variables par un plus petit nombre de facteurs. Cette technique cherche à former des
regroupements d'items de façon à ce que les items d'un regroupement soit en forte relation entre
eux et peu reliés avec les items d'autres regroupements. Ces regroupements d'items sont appelés
des facteurs ou des dimensions. L'analyse factorielle confirmatoire vise à déterminer les relations
entre les variables et les facteurs qui leur sont sous-jacents ainsi que les liens entre les facteurs
eux-mêmes. La plupart des programmes comportent un indice d'ajustement linéaire (goodness of
fit) permettant d'estimer jusqu'à quel point le modèle rend compte des relations entre les
variables. Pour déterminer si un ensemble d'items a une structure factorielle commune, il faut
spécifier que les items doivent saturer sur un seul facteur commun. L'adéquation du modèle à un
63
seul facteur devrait être comparée à celui obtenu par le modèle comportant plusieurs facteurs.
(Traduction de Himmelfarb, 1993, p. 86).
8. Dans une perspective où l'on souhaite établir des différences entre les individus ou des
groupes d'individus, il est souhaitable d'obtenir une certaine variabilité des résultats. En outre,
une plus grande variation des résultats augmente la probabilité d'observer une relation entre des
variables. Le chercheur peut favoriser la variance des réponses en augmentant notamment le
nombre d'items composant une échelle et/ou le nombre d'options de réponse. Il faudrait éviter
cependant d'administrer un très grand nombre d'items comportant plusieurs options de réponse,
cela risquerait de fatiguer ou de rendre moindre la motivation des sujets ce qui pourrait
contribuer à diminuer la fiabilité des réponses fournies.
9. L'une des particularités de la TCP réside dans l'existence de mesures directes (Aact, SN, PBC)
et indirectes ( bxe, nbxmc, cxp) des déterminants de l'intention. Ainsi Aact et bxe visentils à rendre compte de l'attitude envers le comportement, SN et nbxmc consistent en deux
indicateurs de la norme subjective alors que PBC et cxp visent la mesure de la perception du
contrôle. Les mesures directes et indirectes des construits se différencient principalement par le
fait que les secondes résultent de la multiplication de deux variables reposant sur les croyances
des individus. Aussi parle-t-on aussi bien de mesures indirectes que de mesures basées sur les
croyances pour désigner bxe, nbxmc et cxp. Précisons en outre qu'une mesure indirecte
peut être utilisée pour prédire l'intention que s'il a été démontré: a) qu'elle est en forte relation
avec la variable directe correspondante; b) que la variable directe prédit l'intention (Ajzen &
Fishbein, 1980).
64
Références
Agnew, C. R. (1998). Modal versus individually-derived beliefs about condom use: measuring
the cognitive underpinnings of the theory of reasoned action. Psychology and Health, 13, 271287.
Ajzen, I. (1988). Attitudes, personality and behavior. Open University Press. Milton Keynes.
Ajzen, I. (1991). The theory of planned behavior. Organizational Behavior and Human Decision
processes, 50, 179-211.
Ajzen, I., & Fishbein, M. (1969). The prediction of behavioral intentions in a choice situation.
Journal of Experimental Social Psychology, 5, 400-416.
Ajzen, I., & Fishbein, M. (1970). The prediction of behavior from attitudinal and normative
variables. Journal of Experimental Social Psychology, 6, 466-487.
Ajzen, I., & Fishbein, M. (1980). Understanding attitudes and predicting social behavior.
Englewood Cliffs, New Jersey: Prentice Hall.
Ajzen, I., & Madden, T. J. (1986). Prediction of goal-directed behavior: Attitudes, intentions and
perceived behavioral control. Journal of Experimental Social Psychology, 22?, 453-474.
Allaire, D. (1988). Questionnaires: mesure verbale du comportement. Dans: Robert, M.
Fondements et étapes de la recherche scientifique en psychologie. Troisième édition. Edisem. StHyacinthe, Québec.
Allen, M. J., & Yen, W. M. ( 1979). Introduction to measurement theory. Monterey, CA:
Brooks/Cole.
Arnold, H. J., & Evans, M. G. (1979). Testing multiplicative models does not require ratio
scales. Organizational behavior and human performance, 24, 41-59.
Bagozzi, R. P. (1984). Expectancy-value attitudes models an analysis of critical measurement
issues. International Journal of Research in Marketing, VOL, 295-310.
Bandura, A. (1977a). Social learning theory. Englewood Cliffs, N. J., Prentice-Hall.
65
Bandura, A. (1977b). Self-efficacy: Toward a unifying theory of behavior change. Psychological
Review, 84, 191-215.
Berg, I. A., & Rapaport, G. M. (1954). Response bias in an unstructured questionnaire. The
Journal of Psychology, 38, 475-481.
Bertrand, R., & Valiquette, C. (1986). Pratique de l'analyse statistique des données. Presses de
l'Université du Québec. Sillery, Québec.
Birnbaum, A. (1968). Some latent trait models and their use in inferring an examinee's ability. In
F.M. Lord & M.R. Novick, Statistical theories of mental test scores (pp. 397-479). Reading, MA:
Addison-Wesley.
Birnbaum, M. H. (1973). The devil rides again: correlation as an index of fit. Psychological
Bulletin, 79, 4, 239-242.
Birnbaum, M. H. (1974). Reply to the devil's advocates: Don't confound model testing and
measurement. Psychological Bulletin, 81, 11, 854-859.
Breckler, S.J. (1984). Empirical validation of affect, behavior, and cognition as distinct
components of attitude. Journal of Personality and Social Psychology, 47, 1191-1205.
Budd, R. J. (1987). Response bias and the theory of reasoned action. Social Cognition, 5, 2, 95107.
Budd, R. J., North, D., & Spencer, C. (1984). Understanding seal-belt use: A test of Bentler and
Speckart's extension of the 'theory of reasoned action'. European Journal of Social Psychology,
14, 69-78.
Busemeyer, J. R., & Jones, L. E. (1983). Analysis of multiplicative combination rules when the
causal variables are measured with error. Psychological Bulletin, 93, 3, 549-562.
Campbell, D. T., & Fiske, D. W. (1959). Convergent and discriminant validation by the
multitrait-multimethod matrix. Psychological Bulletin, 56, 81-105.
Cantril, H. (1940). Experiments in the wording of questions. Public Opinion Quarterly, 4, 330332.
66
Courneya, K. S., & McAuley, E. (1994). Factors affecting the intention-physical activity
relationship: intention versus expectation and scale correspondence. Research Quarterly for
Exercise and Sport, 65, 3, 280-285.
Courneya, K. S., & McAuley, E. (1995). Cognitive mediators of the social influence-exercise
adherence relationship: a test of the theory of planned behavior. Journal of behavioral medicine,
18, 5, 499-515.
Crocker, L., & Algina, J. (1986). Introduction to classical and modern test theory. New York:
Holt, Rinehart, & Winston.
Cronbach, L. J. (1946). Response sets and test validity. Educational and Psychological
Measurement, 6, 475-493.
Cronbach, L. J. (1950). Further evidence on response sets and test design. Educational and
Psychological Measurement, 10, 3-31.
Cronbach, L.J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16,
297-334.
Davis, F. D., & Warshaw, P. R. (1992). What do intention scales measure? Journal of General
Psychology, 119(4), 391-407.
DeVellis, R. B. (1991). Guidelines in Scale Development. Dans: Scale Development: Theory and
Applications. Applied Social Research Methods Series, vol. 26. Newbury Park: Sage
Publications.
Ellen, P. M., & Madden, T. J. (1990). The impact of response format on relations among
intentions, attitudes and social norms. Marketing Letters, 1, 2, 161-170.
Evans, M. G. (1991). The problem of analyzing multiplicative composites. American
Psychologist, VO VOL 6-13.
Fishbein, M., & Ajzen, I. (1974). Attitudes toward objects as predictors of single and multiple
behavioral criteria. Psychological Review, 81, 59-74.
67
Fishbein, M., & Ajzen, I. (1975). Belief, attitude, intention and behavior: An introduction to
theory and research. Reading, Mass.: Addison-Wesley.
Fishbein, M., & Ajzen, I. (1981). Attitudes and voting behavior: An application of the theory of
reasoned action. Dans: Stephenson, G. M., & Davis, J. M. (Eds.). Progress in applied social
psychology (Vol. 1). Chichester: J. Wiley.
Fishbein, M., Bandura, A., Triandis, H. C., Kanfer, F. H., Becker, M. H., & Middlestadt, E.
(1992). Factors influencing behavior and behavior change: Theorist's workshop. Final report
prepared for the National Institute of Mental Health (HIMH). Bethesda, MD: NIMH.
Gagné, G. (1997). Niveau de sollicitation de la mémoire, importance du traitement de
l'information et effets de réponse. Thèse de doctorat non publié. Département d'orientation,
d'administration et d'évaluation. Faculté des sciences de l'éducation. Université Laval. Ste-Foy.
Gagné, C., & Godin, G. The theory of planned behavior: some measurement issues concerning
belief-based variables. Soumis pour publication.
Glass, G. V., & Hopkins, K. D. (1996). Statistical methods in education and psychology. Third
edition. Allyn and Bacon.
Godin, G. (1987). Importance of the emotional aspect of attitude to predict intention.
Psychological Reports, 61, 719-723.
Godin, G. (1991). L'éducation pour la santé: les fondements psychosociaux de la définition des
messages éducatifs. Sciences Sociales et Santé, IX, 1, 67-94.
Godin, G. & Kok, G. (1996). The theory of planned behavior: a review of its application to
health-related behaviors. American Journal of Health Promotion, 11(2), 87-98.
Goocher, B. E. (1965). Effects of attitude and experience on the selection of frequency adverbs.
Journal of verbal learning and verbal behavior, 4, 193-195.
Green, C.W. (1998). Normative influence on the acceptance of information technology.
Measurement and effects. Small Group Research, 29, 1, 85-123.
68
Guttman, L. (1941). The quantification of a class of attributes: A theory and method of scale
construction. In, Horst, P. The prediction of personal adjustment. (Bulletin No. 48, pp. 319-348).
New-York: Social Science Research Council.
Guttman, L. (1944). A basis for scaling qualitative data. American Sociological Review, 9, 139150.
Heise, D.R. (1970). The semantic differential and attitude research. In G.F. Summers (Ed.),
Attitude measurement (pp. 235-253). Chicago: Rand McNally.
Hewstone, M., & Young, L. (1988). Expectancy-value models of attitude: Measurement and
combination of evaluations and beliefs. Journal of Applied Social Psychology, 18, 11, 958-971.
Himmelfarb, S. (1993). The measurement of attitudes, in Eagly, A. H., & Chaiken, S. The
psychology of attitudes. Montreal: Harcourt Brace Jovanovich College Publishers.
Holbrook, M. B. (1977). Comparing multiattribute attitude models by optimal scaling. Journal of
Consumer Research, ?, 165-171.
Hui, C.H., & Triandis, H.C. (1985). The instability of response sets. Public Opinion Quarterly,
49, 253-260.
Jaccard, J., Weber, J., & Lundmark, J. (1975). A multitraitmultimethod analysis of four attitude
assessment procedures. Journal of Experimental Social Psychology, 11, 149-154.
Kelley, T. L. (1939). The selection of upper and lower groups for the validation of test items.
Journal of Educational Psychology, 30, 1 7-24.
Krosnick, J. A. (1991). Response strategies for coping with the cognitive demands of attitude
measures in surveys. Applied Cognitive Psychology, 5, 213-236.
Krosnick, J. A., & Alwin, D. F. (1987). An evaluation of a cognitive theory of response-order
effects in survey measurement. Public Opinion Quarterly, 51, 201-219.
Laurencelle, L. (1998). Théorie et techniques de la mesure instrumentale. Presses de l'Université
du Québec. Sainte-Foy.
69
Likert, R. (1932). A technique for the measurement of attitudes. Archives of Psychology, 140, 553.
Loken, B., & Fishbein, M. (1980). An analysis of the effects of occupational variables on
childbearing intentions. Journal of Applied Social Psychology, 10, 3, 202-223.
Miller, S. (1987). Schèmes expérimentaux et statistiques. Traduction de Bolduc, M. Les Éditions
Saint-Yves, inc.
Netemeyer, R. G., & Burton, S. (1990). Examing the relationships between voting behavior,
intention, perceived behavioral control and expectation. Journal of Applied Social Psychology,
20, 8, 661-680.
Nunnaly, J.C. (1978). Psychometric theory (2nd ed.). New York: McGraw-Hill.
Osgood, C.E., Suci, G.J., & Tannenbaum, P.H. (1957). The measurement of meaning. Urbana:
University of Illinois Press.
Payne, S. L. (1951). The art of asking questions. Princeton, N.J.: Princeton University Press.
Pepper, S., & Prytulak, L. S. (1974). Sometimes frequently means seldom: context effects in the
interpretation of quantitative expressions. Journal of research in personality, 8, 95-101.
Randall, D. M., & Wolff, J. A. (1994). The time interval in the intention-behaviour relationship:
Meta-analysis. British Journal of Social Psychology, 33, 405-418.
Rasch, G. ( 1960). Probabilistic models for some inteUigence and attainment tests. Copenhagen:
Danish Institute of Educational Research.
Rugg, D. ( 1941). Experiments in wording questions: II. Public Opinion Quarterly, 5, 91-92.
Schaeffer, N. C. (1991). Hardly ever or constantly? Group comparisons using vague quantifiers.
Public Opinion Quarterly, 55, 395-423.
Schmidt, F. L. (1973). Implications of a measurement problem for expectancy theory research.
Organizational Behavior and Human Decision processes, 10, 243-251.
70
Shulman, A. (1973). A comparaison of two scales on extremity response bias. Public Opinion
Quarterly, 37, 407-412.
Schuman, H., & Kalton, G. (1985). Survey methods. In G. Lindzey & E. Aronson (Eds.),
Handbook of soclal psychology (3rd ed., Vol. 1, pp. 635-697). New York: Random House.
Schuman, H., & Presser, S. (1981). Questions and answers in attitude surveys. Experiments on
question form, wording and content. Academic Press.
Schwarz, N., & Bless, H. (1992). Constructing reality and its alternatives: Assimilation and
contrast effects in social judgment. Dans: Martin, L. L., & Tesser, A. (Eds.). The construction of
social judgments. Hillsdale, NJ: Erlbaum.
Schwarz, N., Hippler, H.-J., Deutsch., & Strack. (1985). Response scales: Effects of category
range on reported behavior and comparative judgments. Public Opinion Quarterly, 49, 388-395.
Schwarz, N., Knäuper, B., Hippler, H.-J., Noelle-Neumann, E., & Clark, L. (1991). Rating
scales. Numeric values may change the meaning of scale labels. Public Opinion Quarterly, 55,
570-582.
Schwarz, N., Strack, F., & Mai, H.-P. (1991). Assimilation and constrast effects in part-whole
question sequences: a conversational logic analysis. Public Opinion Quarterly, 55, 3-23.
Sheeran, P., & Orbell, S. (1998). Do intentions predict condom use? Meta-analysis and
examination of six moderator variables. British Journal of Social Psychology, 37, 231-250.
Sheppard, Hartwick, & Warshaw (1988). The theory of reasoned action: A meta-analysis of past
research with recommendations for modifications and future research. Journal of Consumer
Research, 15, 325-343.
Smith, T. W. (1987). That which we call welfare by any other name would smell sweeter: An
analysis of the impact of question wording on response patterns. Public Opinion Quarterly, 51,
75-83.
Sparks, P., Guthrie, C. A., & Shepherd, R. (1997). The dimensional structure of the perceived
behavioral control construct. Journal of Applied Social Psychology, 27, 5, 418-438.
71
Sparks, P., Hedderley, D., & Shepherd, R. (1991). Expectancy-value models of attitudes: A note
on the relationship between theory and methodology. European Journal of social Psychology, 21,
261-271.
Strack, F., & Martin, L. L. (1987). Thinking, judging, and communicating: a process account of
context effects in attitude surveys. Dans: Hippler, H.-J., Schwarz, N., Sudman, S. Social
information processing and survey methodology. Springer-Verlag. New-York.
Sudman, S., & Bradburn, N.M. (1974). Response effects in surveys. A review and Synthesis.
Aldine publishing company. Chicago.
Sudman, S., & Bradburn, N.M. (1982). Asking questions. Jossey-Bass Publishers. San Fransisco.
Terry, D. (1994). Self-efficacy expectancies and the theory of reasoned action. Dans: Terry, D.,
Gallois, C., & McCamish, M. (1994). The theory of reasoned action. Its application to AIDSPreventive behavior. International series in experimental social psychology. Pergamon Press.
Terry, D. J., & O'Leary, J. E. (1995). The theory of planned behaviour: The effects of perceived
behavioural control and self-efficacy. British Journal of Social Psychology, 34, 199-220.
Thurstone, L. L. (1927a). A law of comparative judgment. Psychological Review, 34, 273-286.
Thurstone, L. L. (1927b). Psychophysical analysis. American Journal of Psychology, 38, 368389.
Thurstone, L. L., & Jones, L. V. (1957). The rational origin for measuring subjective values.
Journal of American Statistical Association, 52, 458-471.
Tourangeau, R., & Rasinski, K. A. (1988). Cognitive processes underlying context effects in
attitude measurement. Psychological Bulletin, 103, 3, 299-314.
Tourangeau, R., Rasinski, K. A., Bradburn, N., & D'Andrade, R. (1989a). Belief accessibility
and context effects in attitude measurement. Journal of Experimental Social Psychology, 25,
401-421.
Tourangeau, R., Rasinski, K. A., Bradburn, N., & D'Andrade, R. (1989b). Carryover effects in
attitude survey. Public Opinion Quartery, 53, 495-524.
72
Trafimow, D. (1998). Attitudinal and normative processes in health behavior. Psychological and
Health, 13, 307-317.
Triandis, H. C. (1977). Interpersonal behavior. Brook/Cote, Monterey, CA.
Triandis, H. C. (1980). Values, attitudes and interpersonal behavior. In H. Howe & M. Page
(Eds.), Nebraska Symposium on Motivation, 1979, Lincoln: University of Nebraska Press.
Valiquette, C. A. M., Valois, P., Desharnais, R., & Godin, G. (1988). An item-analytic
investigation of the Fishbein and Ajzen multiplicative scale: the problem of a simultaneous
negative evaluation of belief and outcome. Psychological Reports, 63, 723-728.
Valois, P., Desharnais, R., Godin, G., Perron, J., & Lecompte, C. (1993). Psychometric
properties of a perceived behavioral control multiplicative scale developped according to Ajzen's
theory of planned behavior. Psychological Reports, 72, 1079-1083.
Valois, P., & Godin, G. (1991). The importance of selecting appropriate adjective pairs for
measuring attitude based on the semantic differential method. Quality & Quantity, 25, 57-68.
Valois, P., Godin, G., & Bertrand, R. (1992). The reliability of constructs derived from attitudebehavior theories: an application of generalisability theory in health sector. Quality & Quantity,
26, 291-305.
Van Der Pligt, J., & De Vries, N. K. (1998). Expectancy-value models of health behaviour: The
role of salience and anticipated affect. Psychology and Health, 13, 289-305.
Voyer, J. P., & Gagné, C. (1995). La mesure des attitudes. Document inédit. Département
d'orientation, d'administration et d'évaluation. Faculté des Sciences de l'éducation. Université
Laval. Ste-Foy.
Voyer, J. P. (1996). L'élaboration d'une échelle pour la mesure d'une attitude ou d'un construit
psychologique. Document inédit. Département d'orientation, d'administration et d'évaluation.
Faculté des Sciences de l'éducation. Université Laval. Ste-Foy.
73
Warshaw, P. R., & Davis, F. D. (1985). Disentangling behavioral intention and behavioral
expectation. Journal of Experimental Social Psychology, 21, 213-228.
Warshaw, P. R., & Davis, F. D. (1986). The accuracy of behavioral intention versus behavioral
expectation for predicting behavioral goals. Journal of Psychology, 119(6), 599-602.
Weiss, D. J., & Davison, M. L. ( 1981). Test theory and methods. Annual Review of Psychology,
32, 629-658.
White, K. M., Terry, D. J., & Hogg, M. A. (1994). Safer sex behavior: The role of attitudes,
norms and control factors. Journal of Applied Social Psychology, 24, 24, 2164-2192.