GUIDE POUR LA MESURE DES VARIABLES ET LE
Transcription
GUIDE POUR LA MESURE DES VARIABLES ET LE
i LES THÉORIES SOCIALES COGNITIVES: GUIDE POUR LA MESURE DES VARIABLES ET LE DÉVELOPPEMENT DE QUESTIONNAIRE Camille Gagné, Ph. D. Gaston Godin, Ph. D. Groupe de recherche sur les aspects psychosociaux de la santé École des sciences infirmières, Université Laval FÉVRIER 1999 ii Dépôt légal, Bibliothèque nationale du Québec, 1999 Dépôt légal, Bibliothèque nationale du Canada, 1999 ISBN 2-9804226-4-9 iii Table des matières page Liste des figures ............................................................................................................ v Avant-propos …………………………………………………………………………… vi Introduction ...............................................................................................…............... 1 1. Détermination de ce que l'on veut mesurer et à quelle fin ………...…………………. 1.1 La TCP et les objectifs de la recherche ……………………………………... 1.2 La TCP et la définition des construits ………………………………………. 3 3 3 2. Inclusion ou non d'items étrangers aux construits mesurés ………………………….. 4 3. Définition et analyse de la population cible ………………………………………….. 5 4. Implication de juges ou d'experts dans le processus …………………………………. 6 5. Détermination du format de l'échelle ………………………………………………… 5.1 L'échelonnement selon la méthode de Likert (1932) ……………………….. 5.1.1 L'analyse des items ………………………………………………... 5.1.2 L'évaluation de la méthode de Likert ……………………………... 5.2 Le différenciateur sémantique ………………………………………………. 5.2.1 L'analyse des items ………………………………………………... 5.2.2 L'évaluation du différenciateur sémantique ……………………….. 6 7 7 10 10 11 12 6. Détermination de l'échelle d'appréciation …………………………………………….. 12 6.1 Nombre d'options de réponse ………………………………………………. 13 6.2 Contenu des descripteurs …………………………………………………… 13 7. Formulation des items ………………………………………………………………... 15 7.1 Clarté des items …………………………………………………………….. 15 7.2 Formulation qui favorise la justesse des réponses ……………………..……. 17 iv page 8. Les mesures à item unique versus celles constituées de plusieurs items ………….….. 18 9. Production d'une banque initiale d'items ……………………………………………... 9.1 Démarche pour constituer une banque d'items pour la mesure des construits indirects ( bxe, nbxmc, cxp) de la TCP …………….………………..…….. 9.1.1 Identification des croyances saillantes personnelles ………………. 9.1.2 Analyse du contenu des croyances saillantes personnelles ………... 9.1.3 Identification des croyances saillantes modales …………………… 9.1.4 Élaboration des items visant la mesure des construits indirects de la TCP ……………………………………………………….…………….. 9.2 Items couramment utilisés pour la mesure de l'intention et des construits directs (Aact, SN, PBC) de la TCP……………………………………………... 9.2.1 Mesure de l'attitude envers la réalisation du comportement (Aact).. 9.2.2 Mesure de la norme subjective (SN) .....…....................…............. 9.2.3 Mesure de la perception du contrôle (PBC) ...............……............ 9.2.4 Mesure de l'intention (I) ..........................................................….. 9.3 Mesure des variables de la théorie des comportements interpersonnels …. 21 32 32 34 36 38 40 10. Séquence de présentation des items et des construits ..….....................……............ 45 11. Mise au point du questionnaire .....……………………………………..................... 11.1 Les préexpérimentations .................................……................................... 11.2 L'évaluation des items ..................................….......................................... 11.2.1 Critères pour estimer la qualité d'un item .......………................... 46 46 47 53 Conclusion ……………………………………………………………..……………….. 57 Notes ............................................................................................................................ 58 Références .................................................................................................................... 64 22 23 25 27 27 v Liste des figures page Figure 1. Figure 2. Courbes caractéristiques idéales pour des items positifs d'une échelle de type Likert. La probabilité d'accord ou le niveau d'accord (le score à l'item) doit augmenter avec le score total à l'échelle................................................... 9 Fidélité à l'échelle totale en fonction du nombre d'items que comporte l'échelle pour des valeurs de fidélité interitem de .2, .4, .6 et .8 ..................... 20 vi Avant-propos Quelles sont les qualités d’un questionnaire? Comment développer un bon questionnaire? Comment mesurer une attitude? Voilà autant de questions auxquelles sont confrontés les étudiant(e)s, les chercheur(e)s et les intervenant(e)s des milieux de pratique. Ce document s’adresse à ces personnes qui s’intéressent à la compréhension et à la prédiction des comportements, en particulier dans le domaine de la santé. Ils y trouveront une démarche pour développer un questionnaire répondant aux critères de mesure de trois théories sociales cognitives (la théorie de l’action raisonnée, la théorie du comportement planifié, la théorie des comportements interpersonnels), mais aussi une liste d’items qui ont à maintes reprises démontré leur efficacité pour mesurer les construits visés. La brève incursion dans le domaine de l’analyse des données devrait en outre fournir quelques pistes pour estimer la qualité d’un instrument de mesure. 1 Introduction Le présent document vise à guider le développement de questionnaire pour la mesure des variables de trois théories sociales cognitives ayant comme objet la prédiction de l'intention et du comportement: la théorie de l'action raisonnée (TAR), la théorie du comportement planifié (TCP) et la théorie des comportements interpersonnels (TCI). Le document est structuré en fonction principalement de la mesure des variables de la TCP. Nous avons supposé qu'une fois connus les principes de mesure de la TCP, il serait relativement facile de procéder à la mesure des variables de la TAR et de la TCI. L'utilisation de ce document suppose une connaissance minimale de la TAR, de la TCP ou de la TCI. Aussi est-il nécessaire de prendre connaissance des articles de Fishbein & Ajzen (1975), Ajzen (1991) ou Triandis (1980) pour l'acquisition des notions de base relatives respectivement à la TAR, la TCP et la TCI. Un résumé de ces trois théories est aussi disponible dans Godin (1991). On note depuis quelques années un intérêt grandissant pour la mesure des variables de la TAR et de la TCP. Un certain nombre d'articles vient d'ailleurs nuancer ou remettre en question les propos tenus dans les articles de base mentionnés précédemment. Nous ferons allusion aux résultats de quelques-unes de ces études en espérant qu'ils sensibiliseront le lecteur aux limites de sa démarche. Nous encourageons le lecteur à prendre connaissance des dernières découvertes dans le domaine et à les intégrer au besoin et à juste escient à sa démarche. La démarche proposée pour le développement d'un questionnaire s'inspire de celle suggérée par Ajzen & Fishbein (1980) et DeVellis (1991). Rappelons cependant qu'il n'existe pas de règles absolues qui garantissent le succès dans le développement d'un instrument de qualité. D'ailleurs, plusieurs auteurs s'entendent pour affirmer que la démarche d'élaboration d'un questionnaire relève davantage de l'art que de la technique. La démarche proposée tolère donc des variantes. Néanmoins, nous osons croire que les 11 rubriques suivantes et les sous-rubriques qu'elles contiennent contribueront au développement de questionnaires valides et fidèles satisfaisant les critères de mesure de la TAR, de la TCP ou de la TCI. Les rubriques correspondent aux suivantes: 1) Détermination précise ce que l'on veut mesurer et à quelle fin 2) Inclusion ou non d'items étrangers aux construits mesurés 3) Définition et analyse de la population cible 4) Implication de juges ou d'experts dans le processus 2 5) Détermination du format de l’échelle 6) Détermination de l’échelle d’appréciation 7) Formulation des items 8) Les mesures à item unique versus celles constituées de plusieurs items 9) Production d'une banque initiale d'items 10) Séquence de présentation des items et des construits 11) Mise au point du questionnaire Enfin, dans le but de faciliter la compréhension du texte, nous avons introduit des notes qui fournissent une description sommaire de certains concepts de base. Il est suggéré d'approfondir ces notions en consultant d'autres ouvrages; certains, que nous estimons particulièrement intéressants, sont mentionnés dans le texte. 3 1. Détermination de ce que l'on veut mesurer et à quelle fin Un instrument de mesure ne saura jamais être valide et utile sans une connaissance approfondie de ce qui doit être mesuré et de ce qui sera fait de l'information obtenue. Aussi faudra-t-il tôt dans le processus définir précisément et les objectifs et les construits1 à mesurer. La théorie du comportement planifié (TCP) offre des repères quant à la clarification de chacun de ces deux aspects. 1.1 La TCP et les objectifs de la recherche Dans son intégralité, la TCP implique la mesure de 11 variables: l'intention (I), le comportement (Co), l'attitude envers le comportement (Aact), la norme subjective (SN), la perception du contrôle (PBC), les croyances comportementales (b), l'évaluation des croyances comportementales (e), les croyances normatives (nb), la motivation à se conformer (mc), les croyances liées au contrôle (c), l'évaluation de l'intensité avec laquelle les croyances liées au contrôle peuvent faciliter ou nuire à l'adoption du comportement (p). Or, la souplesse dont fait preuve cette théorie est telle qu'un nombre plus ou moins important des variables qu'elle comporte pourront faire l'objet d'une mesure. Ce sont les objectifs de la recherche qui guideront le choix des variables à mesurer. Une mesure de l'intention et de la perception du contrôle pourront suffire dans le cas où le but d'une étude viserait essentiellement à prédire le comportement. On cherche parfois à mieux comprendre pourquoi les individus agissent tel qu'ils le font; dans ce cas, Ajzen (1991) suggère de mesurer l'attitude envers le comportement (Aact), la norme subjective (SN) et la perception du contrôle (PBC). Une connaissance plus approfondie des facteurs influençant le comportement suppose l'examen des déterminants de Aact, SN, PBC et implique la mesure de b, e, nb, mc, c et p. Ces dernières variables pourront être utilisées pour définir le contenu d'un programme d'intervention visant à changer le comportement de la clientèle cible de l'étude. 1.2 La TCP et la définition des construits Derrière l'utilisation de la TCP se trouve un intérêt pour l'étude d'un comportement2. Chacun des construits de la TCP devra en fait être défini et mesurer en référence à un comportement. Or, l'idée qu'on se fait du comportement à étudier est généralement vague au début. Pourtant et comme nous l'avons déjà mentionné, un instrument de mesure ne pourra être valide et utile sans une connaissance approfondie de ce qui doit être mesuré. Aussi faudra-t-il 4 chercher à nuancer le comportement, à déterminer ce qu'il est et ce qu'il n'est pas. À cet effet, la théorie et les connaissances accumulées constituent le principal recours. Elles permettront de bien appréhender le comportement visé et cerner les variables qui pourraient être utilisées ultérieurement pour démontrer la validité3 de l'instrument de mesure. Ce travail de clarification devrait déboucher sur une définition du comportement à l'étude. Ajzen & Fishbein (1980) fournissent des repères pour la définition du comportement. Ils recommandent de le définir en précisant les quatre éléments suivants: l’action, l'objet, le contexte et le temps. L'action fait référence à un verbe (e.g. brosser) qui sera dirigé vers un objet (e.g. ses dents). Il importe d'amener le répondant à se prononcer sur son comportement personnel plutôt que sur un comportement en général. Les réponses d'un individu pourraient en effet varier selon qu'il se sent plus ou moins impliqué dans la définition du comportement. Par exemple, un individu pourrait se montrer favorable envers la pratique d'activités physiques mais pour diverses raisons être défavorable à sa pratique personnelle. Selon Ajzen & Fishbein (1980), la prédiction du comportement sera d'autant plus exacte que le contexte dans lequel il se déroule et le moment auquel il peut se réaliser auront été spécifiés. L'importance de ces deux derniers aspects est manifeste lorsqu'on prend en considération qu'ils peuvent exercer une influence sur la réalisation d’un comportement. Par exemple, l'intention d'utiliser un préservatif pourra varier selon le contexte spécifié (partenaire régulier ou nouveau partenaire). De même, l'intention de cesser de fumer pourra différer selon le moment auquel il est fait référence (immédiatement ou au cours de la prochaine année). Une revue de la littérature permettra de cerner les conditions (action, objet, contexte, temps) dans lesquelles un comportement donné peut avoir une incidence sur la santé. Il est à noter que chacune des variables de la TCP devra être mesurée en référence aux critères spécifiés (action, objet, temps et contexte) pour définir le comportement. 2. Inclusion ou non d'items étrangers aux construits mesurés Il arrive que des chercheurs insèrent dans le questionnaire des items visant à vérifier la présence de certains biais de réponse4 dont celui de la désirabilité sociale, cette tendance des sujets à répondre d'une manière approuvée socialement. Comme le mentionne Voyer (1996), le problème de l'utilisation de telles mesures réside dans l'importance à leur accorder au moment de l'analyse des données. S'il est jugé nécessaire d'inclure une mesure de la désirabilité sociale, par exemple, c'est qu'elle semble être en lien avec le construit d'intérêt. Or, en rejetant de l'échantillon les individus apparemment fragiles à cette source de biais, nous augmentons les risques d'une mésestimation de la valeur du construit dans la population... Cette façon de faire 5 aura aussi comme conséquence de diminuer la taille de l'échantillon, ce qui peut s'avérer problématique lorsque celle-ci n'est pas élevée au départ. En somme, s'il est jugé opportun d'inclure une mesure de la désirabilité sociale ou toute autre mesure de biais de réponse, il est recommandé de connaître la valeur des indices utilisés et de prévoir très exactement ce qui sera fait de l'information obtenue (Voyer, 1996). Parfois, des chercheurs incluent aussi dans un questionnaire des items destinés à vérifier la validité de l'instrument de mesure. Le problème dans un tel cas réside dans l'influence que peuvent avoir l'une sur l'autre les deux mesures. Plusieurs études démontrent en effet que la réponse à une question peut être influencée par les items présentés auparavant (e.g. Payne, 1951; Schuman & Presser, 1981; Tourangeau, Rasinski, Bradbun & D'andrade, 1989a, b). Aussi est-il préférable de faire appel à des instruments de mesure différents pour mesurer la variable d'intérêt et celle servant à la valider (Voyer, 1996). Il faut retenir du contenu de cette section qu'on ne devrait retrouver dans un questionnaire que des items dont l'utilisation est justifiée et planifiée. Nous désirons donc mettre en garde contre une approche trop souvent rencontrée qui consiste à inclure des items <<au cas où on en aurait besoin>>. Non seulement l'utilisation de tels items demeure-t-elle souvent ambiguë même après l'administration du questionnaire, mais ils peuvent affecter la qualité des données recueillies. Comme nous l'avons déjà mentionné, plusieurs études ont démontré que la réponse d'un sujet à un item peut être influencée par les items précédents. En outre, en augmentant la durée d'administration du questionnaire, le nombre d'items présenté peut affecter la fatigue et la motivation du répondant influençant par là même sa capacité et/ou sa volonté à fournir les efforts attendus de lui (Krosnick, 1991). Enfin, dans certains contextes, un nombre élevé d'items pourrait rendre relativement long le temps d'administration du questionnaire limitant ainsi le nombre de répondants pouvant prendre part à l'étude à l'intérieur d'une période de temps donnée. 3. Définition et analyse de la population cible Relativement tôt dans le processus il importe de définir la population à laquelle on s'intéresse. Une bonne connaissance de la population cible permettra d'adapter l'étude aux caractéristiques des individus qui la composent augmentant ainsi les chances que ces derniers acceptent de répondre au questionnaire, qu'ils comprennent les directives et les questions et qu'ils fournissent une réponse exacte aux questions posées. 6 4. Implication de juges ou d'experts dans le processus Dans une perspective de validation mais aussi pour favoriser la fidélité des résultats de l'étude, il est souhaitable de soumettre la définition des construits ainsi que les items ciblés pour les mesurer à l'examen critique d'un certain nombre de personnes (deux ou trois) spécialistes dans le domaine d'étude dans lequel s'insère l'objet de la mesure. Dans un premier temps, les experts seront appelés à se prononcer sur: a) l'acceptabilité de la définition des construits et de ses dimensions s'il y lieu; b) l'exhaustivité des dimensions retenues pour cerner ou représenter le construit; c) la pertinence des variables retenues pour procéder à la validation des construits de l'étude. Dans un deuxième temps, les experts qui peuvent ou non différer des premiers, pourront se prononcer sur la pertinence, la clarté et l'exhaustivité des items visant la mesure des construits. Lorsque plusieurs construits sont mesurés, comme dans le cas de l'application de la TCP, il est souhaitable que les experts parviennent à associer les construits aux items destinés à les mesurer. 5. Détermination du format de l'échelle Avant de procéder à la formulation des items, il est préférable de déterminer le type d'échelle5 qui sera utilisé puisque celui-ci aura une incidence sur la nature et le format des items à développer. Abstraction faite des techniques de <<multi-scaling>>, il existe deux principales catégories de stratégies pour élaborer une échelle: celle qui accorde d'emblée un poids identique à chaque item (échelle additive) et celle qui attribue une importance différente aux items selon qu'ils traduisent un niveau de possession plus ou moins élevé de la caractéristique mesurée (échelle différentielle). A l'intérieur de chacune de ces catégories se trouvent des techniques particulières parmi lesquelles on retrouve la méthode de Likert (Likert, 1932), le différenciateur sémantique (Osgood, Suci & Tanembaum, 1957), les techniques de Thurstone (Thurstone, 1927a, b) et de Guttman (Guttman, 1941, 1944). La méthode de Likert et le différenciateur sémantique consistent en des échelles additives alors que les techniques de Thurstone et de Guttman prennent plutôt la forme d'échelles différentielles. Bien qu'élégantes sur le plan théorique, les échelles différentielles s'avèrent très peu utilisées en pratique parce ce que leur mise au point est exigeante sans pour autant déboucher sur des instruments de meilleure qualité que ceux obtenus avec les échelles additives. La majorité des études utilisant la TCP font appel au différenciateur sémantique pour mesurer l'attitude envers le comportement. La méthode de Likert s'avère quant à elle fort utilisée pour mesurer les croyances et les construits cognitifs comme la norme subjective, la perception du contrôle et l'intention. Aussi allons-nous présenter plus en détail ces deux dernières stratégies. Certains volumes fournissent une bonne description des méthodes de Guttman et de Thurstone 7 (e.g. Himmelfarb 1993). La description qui suit consiste en une traduction et une adaptation de certaines parties du texte de Himmelfarb (1993). 5.1 L'échelonnement selon la méthode de Likert (1932) Le développement d'une échelle de type Likert suppose au départ l'existence d'une banque importante d'items choisis de façon plus ou moins intuitive en fonction de leur relation potentielle avec l'objet d'étude. Les items d'une échelle de type Likert consistent généralement en des énoncés favorables ou défavorables envers l'objet d'étude. Le degré de faveur ou de défaveur des items est cependant inconnu. Chaque item est accompagné d'un choix de réponse pouvant prendre une forme ressemblant à la suivante: a) fortement en désaccord; b) légèrement en désaccord; c) indécis(e); d) légèrement en accord; e) fortement en accord. Les répondants doivent sélectionner l'option de réponse traduisant le mieux leur degré d'accord ou de désaccord avec l'item. Une valeur d'échelle (e.g. 1 à 5) est attribuée à chacune des options selon: a) le niveau d'accord ou de désaccord exprimé par l'option de réponse; b) la position favorable ou défavorable de l'item envers l'objet d'étude. Ainsi, l'option de réponse traduisant le plus haut niveau d'accord avec un énoncé favorable à l'objet d'étude recevra la valeur d'échelle la plus élevée. Par contre, lorsqu'un item exprime une position défavorable envers l'objet d'étude, on associera à l'option de réponse traduisant le plus fortement le désaccord la valeur d'échelle la plus élevée. Le score total d'un individu correspond à la sommation des résultats obtenus à chacun des items. 5.1.1 L'analyse des items Pour élaborer une échelle Likert, la banque initiale d'items doit faire l'objet d'une préexpérimentation auprès de sujets issus de la population cible afin d'éliminer les items ambigus ou non discriminants. Avant l'avènement des ordinateurs, le pouvoir de discrimination des items était étudié en vérifiant la présence d'une différence statistiquement significative entre les moyennes de deux groupes de sujets: l'un composé de 27% des sujets ayant obtenus les scores les plus élevés à l'échelle et l'autre constitué de 27% des sujets présentant les résultats les plus faibles (Kelly, 1939). Avec les moyens dont on dispose aujourd'hui, cette façon de faire est moins justifiée et l'on procède plutôt au calcul de la corrélation entre chacun des items et le total. On 8 prend généralement soin d'exclure du total l'item impliqué dans la corrélation, ce qui revient à calculer la corrélation entre un item et la sommation des autres items visant à mesurer le même construit. De façon générale, les items fortement reliés avec le total sont considérés comme de bons items alors que les items présentant une faible corrélation ou une corrélation nulle avec le total sont habituellement rejetés. Une analyse d'items complète suppose d'examiner la courbe caractéristique de chacun des items, laquelle présente la relation entre la probabilité d'être en accord avec un item et le score total à l'échelle. Étant donné qu'une échelle Likert comprend des options de réponse exprimant différents degrés d'accord, on estimera la proportion de sujets en accord avec un item en combinant les réponses obtenues à ces différentes options de réponse exprimant l'accord. Une façon plus facile et tout aussi valable d'étudier le comportement d'un item consiste à tracer un graphique illustrant la relation entre les résultats à un item et le score total à l'échelle. La courbe caractéristique idéale d'un item d'une échelle de type Likert prend la forme d'une fonction monotone6 où, pour des items exprimant une position favorable, la probabilité d'être en accord avec un item ou le score à l'item augmente avec le score total à l'échelle. La figure 1 illustre deux courbes caractéristiques d'items idéales d'une échelle Likert. La forme exacte de la fonction dépend de la distribution des scores à l'item et à l'échelle totale et varie aussi selon le caractère plus ou moins favorable de l'item. La pente constitue l'aspect le plus critique de la fonction. Une courbe caractéristique d'items dont la pente est faible ou nulle suggère que l'item est ambigu ou non pertinent parce qu'il est endossé par des individus n'ayant pas le même niveau de possession de la caractéristique mesurée. 9 Figure 1. Courbes caractéristiques idéales pour des items positifs d'une échelle de type Likert. La probabilité d'accord ou le niveau d'accord (le score à l'item) doit augmenter avec le score total à l'échelle. Étant donné que les postulats de mesure de la méthode d'échelonnement de Likert sont semblables à ceux de certains tests psychométriques (e.g. les tests de connaissance), les critères de sélection des items de ces derniers tests peuvent être utilisés pour maximiser la puissance discriminante, la fidélité et la validité des échelles de type Likert. Il sera question plus loin de quelques-uns de ces critères, dont le coefficient alpha de Cronbach (Cronbach, 1951). Certains volumes, dont ceux de Allen & Yen, (1979), de Crocker & Algina, (1986) ou de Nunnally, (1978) fournissent une description détaillée des critères de sélection des items. Il n'est pas rare de retrouver dans la littérature des échelles considérées à tort comme des échelles de type Likert. En effet, il ne suffit pas de présenter un ensemble d'énoncés et de leur adjoindre des options de réponse pour affirmer être en présence d'une échelle de type Likert. L'élaboration d'une échelle de qualité, quel qu'en soit le type, suppose d'effectuer une analyse d'items afin de ne retenir que les items considérés pertinents pour la mesure d'une caractéristique bien déterminée. 10 5.1.2 L'évaluation de la méthode de Likert Le principal désavantage des échelles Likert tient à l'ignorance du niveau de mesure des résultats obtenus. En fait, il est difficile d'établir si l'on est présence d'une échelle ordinale ou d'intervalle. Des développements récents dans la théorie des réponses aux items (e.g. Birnbaum, 1968; Rasch, 1960) fournissent cependant une base pour déterminer les propriétés métriques de différents tests psychométriques (Weiss & Davidson, 1981). La méthode de Likert ne permet pas non plus de déterminer le caractère unidimensionnel de l'échelle produite. Bien que l'approche de Likert tente de localiser les individus sur une dimension défavorable-favorable, il n'est pas possible de se prononcer sur le caractère unidimensionnel de l'échelle sans procéder à des analyses statistiques plus poussées. En complément à l'analyse d'items, les auteurs font donc souvent appel à l'analyse factorielle7, particulièrement l'analyse factorielle confirmatoire, pour évaluer le caractère unidimensionnel de l'échelle. Les résultats de l'analyse factorielle démontre que les échelles de type Likert portent souvent plus d'une dimension. 5.2 Le différenciateur sémantique Le différenciateur sémantique d'Osgood, Suci & Tanenbaum (1957) représente aujourd'hui l'une des méthodes les plus populaires pour mesurer les attitudes. Le différenciateur sémantique consiste en une série d'adjectifs opposés séparés par une échelle comportant un nombre plus ou mois élevé de catégories de réponse. L'objet d'étude est placé bien à la vue, au haut de l'échelle et les sujets doivent évaluer l'objet en choisissant l'une des catégories de réponse entre les deux adjectifs. On demande en fait aux sujets d'évaluer dans quelle mesure l'un des deux adjectifs décrit l'objet. Les répondants doivent sélectionner le point milieu de l'échelle s'ils considèrent qu'aucun des deux adjectifs ne décrit adéquatement l'objet ou si ces adjectifs leur apparaissent non pertinents pour évaluer l'objet. Les options de réponse sont habituellement cotées de -3 à +3 lorsque l'échelle comporte 7 niveaux de réponse. Mais on pourrait tout autant leur attribuer des valeurs d'échelle entre 1 et 7. Le score total d'un individu correspond à la sommation ou à la moyenne des scores obtenus à l'ensemble des échelles bipolaires. À l'origine, le différenciateur sémantique fut développé pour mesurer la signification des concepts. Osgood et ses collaborateurs (1957) menèrent plusieurs études dans lesquelles des individus de différentes cultures étaient appelés à évaluer des concepts à l'aide d'items constitués d'adjectifs opposés. Osgood et al. effectuèrent des analyses factorielles afin de déterminer si les interrelations entre les échelles, c'est-à-dire les items, pouvaient être expliquées par un nombre 11 plus petit de facteurs ou de dimensions que le nombre initial d'échelles ou d'items. Sur la base des résultats de ces diverses analyses, ils identifièrent trois facteurs: l'évaluation, la puissance et l'activité. Le facteur évaluation expliquait généralement la plus grande part de la variance entre les paires d'adjectifs et selon Osgood et al. ce facteur correspondrait à l'attitude. Aussi les paires d'adjectifs opposés qui saturent le plus fortement par rapport au facteur évaluation sont-elles souvent utilisées pour la mesure des attitudes. 5.2.1 L'analyse des items En dépit de l'importance des travaux d'Osgood et de ses collaborateurs démontrant que des adjectifs portent une signification évaluative, certains adjectifs pourraient prendre une signification particulière en regard d'objets d'attitude. Considérons par exemple la paire d'adjectifs <<chaud-froid>>. Cette paire d'adjectifs portent une connotation évaluative lorsqu'il s'agit d'étudier un individu, mais sa signification devient davantage cognitive pour l'évaluation d'objets d'étude tels l'Alaska ou le désert du Sahara. Osgood et ses collègues qualifièrent d'interaction concept-échelle cette tendance des paires d'adjectifs à prendre des significations particulières en regard de certains objets d'étude. Étant donné la possibilité de telles interactions, il est préférable de vérifier si les échelles bipolaires peuvent former une échelle générale pour l'évaluation d'un objet d'étude donné. Comme dans le cas d'une échelle Likert, cette évaluation peut être réalisée en examinant la courbe caractéristique des items ou en analysant la corrélation entre chacun des items et le score total ou moyen obtenu à l'ensemble des items. La courbe caractéristique idéale d'un item prend la même forme que celle d'un item d'une échelle Likert: une augmentation du score total devrait être accompagnée d'une augmentation du niveau de réponse favorable à l'item. Enfin la structure factorielle des échelles bipolaires peut être analysée de façon plus formelle par le biais d'une analyse factorielle (voir la note 7). Suite à l'analyse d'un certain nombre d'études ayant utilisé le différenciateur sémantique, Heise (1970) prétend que les intercorrélations entre les différentes paires d'adjectifs sont en général assez élevées pour que 4 ou 5 d'entre elles suffisent pour assurer une fidélité adéquate de l'échelle. Il semble en outre que les scores d'attitudes générés à l'aide du différenciateur sémantique seraient en forte corrélation avec les résultats obtenus par d'autres techniques de mesure des attitudes (Breckler, 1984; Fishbein & Ajzen, 1974; Jaccard,Weber & Lundmank, 1975; Osgood et al., 1957). 12 5.2.2 L'évaluation du différenciateur sémantique Le différenciateur sémantique s'avère la méthode de mesure des attitudes la plus populaire présentement. Cette popularité est sans doute attribuable à la facilité avec laquelle il est possible d'obtenir une mesure d'attitude. Parce que le différenciateur sémantique fait appel à des adjectifs qui ont un caractère très général et qui saturent fortement avec la dimension évaluative, les chercheurs considèrent souvent les échelles bipolaires du différenciateur sémantique comme des batteries tout usage. Une étude de Valois et Godin (1991) démontre cependant que certaines paires d'adjectifs se révèlent peu pertinentes pour mesurer des objets d'attitude. De tels résultats remettent en question l'idée de considérer le différenciateur sémantique comme une échelle maîtresse ou universelle. Le principal inconvénient de la méthode du différenciateur sémantique tient à ce qu'il est difficile de déterminer le niveau de mesure des résultats et les propriétés exactes des scores d'attitude obtenus. Comme nous l'avons souligné dans le cas de l'échelonnement de type Likert, des développements s'inscrivant dans le cadre de la théorie des réponses aux items peuvent cependant fournir des indications concernant la métrique des échelles qui, comme le différenciateur sémantique, s'inscrivent dans la tradition psychométrique. 6. Détermination de l'échelle d'appréciation On retrouve deux principaux types de questions, les questions fermées, accompagnées d'une liste préétablie de réponses possibles et les questions ouvertes auxquelles les sujets répondent en formulant eux-mêmes une réponse. Les chercheurs utilisant la TCP comme cadre de référence font généralement appel à des questions fermées pour l'étude d'un comportement spécifique. Dans un tel cas, le recours à des questions ouvertes s'avérerait non approprié dans la perspective où ce type de question pourrait introduire une variation en regard de l'action, l'objet, le contexte, le temps, la fréquence ou la quantité d'un comportement; paramètres que Ajzen & Fishbein (1980) supposent constants pour l'étude d'un comportement spécifique. Aussi ne sera-til question ici que des items fermés. L'utilisation de questions ou d'items fermés implique de déterminer le nombre et le contenu des options de réponse. Ces deux variables sont présentées plus en détail ci-dessous. 13 6.1 Nombre d'options de réponse Plusieurs facteurs peuvent influencer la décision d'offrir un nombre plus ou moins élevé d'options de réponse: la capacité des sujets à discriminer de façon significative entre différentes options de réponse, le désir de favoriser la variabilité des scores8, la pertinence d'offrir ou non une option de réponse permettant au sujet d'exprimer son incertitude ou son absence d'opinion, le mode d'administration qui exige un effort plus ou moins important de mémorisation des options de réponse présentées etc. Il n'existe donc pas un nombre d'options de réponse qui soit optimal, tout dépend en fait des visées de l'étude, des sujets impliqués et du contexte de la recherche. La majorité des études menées avec la théorie de l'action raisonnée (TAR) ou la TCP font appel à cinq ou sept options de réponse, dont l'une offre aux répondants la possibilité d'exprimer leur ambivalence. ll s'agit en fait d'une option de réponse permettant au sujet d'indiquer qu'il est ni en accord, ni en désaccord avec le contenu d'un énoncé. Il est à noter que certains auteurs sont plus ou moins favorables à cette approche qui consiste à offrir une option de réponse neutre. Le problème réside en fait dans la difficulté d'estimer si l'option de réponse neutre est utilisée pour exprimer l'ambivalence ou si elle ne représente pas plutôt un moyen pour le répondant de se désister afin de minimiser ses efforts ou protéger son image etc. En outre, le fait que plusieurs répondants choisissent une option de réponse neutre tend à diminuer la taille des groupes de sujets favorables et défavorables à un objet d'étude, ce qui peut contribuer à diminuer la puissance statistique des analyses effectuées pour comparer ces groupes. 6.2 Contenu des descripteurs Ajzen & Fishbein (1980) font allusion à deux principaux types d'échelle: les échelles bipolaires et unipolaires. Les premières laissent aux répondants la possibilité de faire connaître leur faveur ou leur défaveur envers un énoncé. Il s'agit en fait d'échelles comportant à leurs pôles des termes exprimant des idées opposées (e.g. très en désaccord à très en accord). Une échelle unipolaire offre la possibilité d'exprimer à des degrés divers une opinion mais qu'en regard d'une position spécifique par rapport à l'objet d'étude (e.g. jamais-parfois-souvent-presque toujourstoujours). Ajzen & Fishbein (1980) et Ajzen (1991) recommandent d'utiliser une échelle unipolaire pour la mesure de la motivation à se conformer (mc) et de recourir plutôt à une échelle bipolaire pour rendre compte des autres variables de la TAR ou de la TCP. Ces auteurs justifient l'utilisation d'une échelle unipolaire pour la mesure de mc en soutenant que les sujets sont nécessairement motivés à agir dans le sens attendue de référents saillants. Nous désirons 14 souligner que les résultats d'une analyse détaillée de cet aspect (Gagné & Godin, soumis pour publication) tend à démontrer qu'une proportion importante de sujets se disent plus ou moins motivés à se conformer à plusieurs des référents saillants mentionnés dans le questionnaire, ce qui remet en question l'utilisation d'une échelle unipolaire pour la mesure de la motivation à se conformer. Toutefois, d'autres études s'avèrent nécessaires afin de déterminer l'impact réel de l'utilisation d'échelle unipolaire et bipolaire. Fishbein & Ajzen (1975) ne font pas de recommandations précises concernant le contenu des options de réponse. Selon ces derniers auteurs, une échelle exprimant le désaccord et l'accord ferait aussi bien l'affaire qu'une autre exprimant la probabilité et l'improbabilité etc. Il importe de savoir que l'interprétation donnée à de telles options de réponse, qui prennent essentiellement la forme d'adjectifs ou d'adverbes relativement vagues, peut varier avec des variables comme l'âge, le genre (homme, femme), la culture, le niveau de scolarité, l'objet d'étude et l'humeur (e.g. Goocher, 1965, Pepper & Prytulak, 1974; Schaeffer, 1991). Mais quiconque s'intéresse de près à la TAR ou à la TCP constatera vite qu'en ce domaine, le débat entourant les options de réponse a davantage porté sur les valeurs d'échelles à leur attribuer pour l'analyse des données (assigner des valeurs d'échelles positives e.g. 1 à 7 ou des valeurs d'échelle passant du négatif au positif e.g. -3 à +3) que sur leur contenu. Aussi les termes unipolaire et bipolaire sont-ils souvent retrouvés pour désigner non pas le fait que les échelles offrent ou non la possibilité de soutenir la contrepartie d'une position mais pour faire état des scores attribués aux options de réponse. Nous verrons plus loin que ce problème affecte seulement l'analyse des construits reposant sur la multiplication des résultats obtenus à deux variables. Disons simplement pour l'instant que s'il est souhaitable que des nombres soient assignés aux options de réponse lors de l'analyse des données, il est discutable cependant de les voir apparaître dans le questionnaire. Des études démontrent en effet que le fait d'associer des nombres aux options de réponse, et particulièrement des nombres négatifs, peut exercer une influence sur les réponses des sujets (e.g. Schwarz, Knäuper, Hippler, Noelle-Neumann, & Clark, 1991 ). Mentionnons pour terminer que plusieurs études tendent à démontrer que la position d'une option de réponse peut influencer la probabilité qu'elle soit sélectionnée (e.g. Schuman & Presser, 1981). En d'autres termes, il semble que l'ordre de présentation des options de réponse pourrait exercer une influence sur les réponses des sujets. Selon Krosnick & Alwin (1987) le mode d'administration ainsi que le principe de satisficing, cette stratégie qui consiste à rechercher la solution satisfaisante ou acceptable la moins exigeante, pourraient intervenir dans l'effet d'ordre des items. À cet effet, une étude de Gagné (1997) tend à démontrer que l'influence 15 de la séquence de présentation des options pourrait varier en fonction du nombre d'options de réponse, leur type (énoncés indépendants ou présentant une relation d'ordre entre eux) et le mode d'administration des questionnaires. Il semble par exemple que le fait de présenter sans support visuel un nombre relativement élevé (six) d'options indépendantes les unes des autres augmente la probabilité que les deux dernières soient sélectionnées. 7. Formulation des items Il n'est pas possible de dresser une liste exhaustive des caractéristiques des bons et des mauvais items. Nous allons néanmoins présenter certaines caractéristiques propres aux items qui se révèlent habituellement les meilleurs. Ces caractéristiques ont trait à la clarté des items, à leur non-ambiguïté ou sont plutôt en lien avec le fait de favoriser la justesse des réponses. 7.1 Clarté des items En principe, les items devraient être formulés de façon à ce que les sujets leur donnent une même interprétation, soit celle attendue du chercheur. Pour ce faire, il faut chercher à: -utiliser des phrases courtes, qui s'avèrent généralement moins complexes à analyser et à comprendre que les phrases plus longues. -utiliser des mots simples. L'intérêt porté à un objet d'étude amène souvent les chercheurs à développer un jargon dont la signification ou les nuances échappent à un bon nombre d'individus de la population cible. Il semble en outre que les responsables d'enquête tendent à surestimer le vocabulaire de ceux qui seront interrogés. Il importe donc de prendre conscience de ces biais et chercher à utiliser des mots simples qui permettront de se faire comprendre des sujets à qui l'on s'adresse. Le recours à des mots simples implique d'éviter l'usage d'abréviation, de sigles, de termes techniques ou de mots empruntés à une langue étrangère, à moins de les définir au préalable. 16 -inclure une seule idée par question. Un item du type suivant: <<Partagez-vous l'opinion de ceux qui pensent que l'utilisation d'un préservatif diminue le plaisir et nuit à la spontanéité de la relation sexuelle?>> s'avère problématique en ce qu'un répondant pourrait être en accord avec une partie seulement de l'énoncé. Les réponses à un tel item seraient ambiguës parce qu'elles ne nous indiqueraient pas l'opinion du répondant envers chacun des deux aspects que comporte la question. Il aurait été préférable de poser une question concernant la diminution du plaisir sexuel et une autre portant sur la spontanéité de la relation sexuelle. -éviter les mots transportant plusieurs significations. Nous avons déjà mentionné que le sens donné aux adverbes indéfinis (e.g. quelquefois, régulièrement, généralement) pouvait varier selon les répondants et l'objet d'une étude. Ainsi, à la question <<Fumez-vous beaucoup?>> des sujets fumant cinq cigarettes par jour pourraient répondre de façon différente selon qu'ils estiment cette fréquence plus ou moins élevée. Il n'y a pas que les adverbes indéfinis qui peuvent donner lieu à des interprétations différentes. Allaire (1988) fournit quelques exemples de mots pouvant prendre un sens différent selon les régions ou les milieux. Il y a de fortes chances par exemple que des québécois associent le mot <<dîner>> aux repas du midi et que des français le lient davantage aux repas du soir. Le mot <<liqueur>> pourra quant à lui correspondre à du Coca-Cola ou plutôt à du Grand Marnier selon les individus. Il semblerait que dans une étude menée dans la région de Sherbrooke, des sujets à qui on avait demandé s'ils prenaient un <<petit déjeuner>> le matin auraient répondu par la négative prétextant qu'ils prenaient un <<gros>> déjeuner... (Allaire, 1988). Retenons qu'une question donnant lieu à plusieurs interprétations occasionnera nécessairement des réponses difficilement interprétables. -utiliser avec parcimonie les formulations négatives. Les questions négatives sont en général plus difficiles à interpréter (e.g. On ne peut pas considérer que l'augmentation de l'âge légal pour conduire une automobile constitue une mesure valable pour diminuer les accidents de la route). Il n'est pas rare cependant d'insérer ce type d'items dans le questionnaire afin de réduire les biais d'acquiescement, cette tendance des sujets à se montrer en accord avec un item indépendamment de son contenu. Ce type de question peut cependant provoquer de la confusion chez les répondants. 17 7.2 Formulation qui favorise la justesse des réponses Il faut non seulement chercher à ce que les répondants interprètent de façon appropriée les items mais aussi qu'ils y répondent justement. Aux efforts de clarification des items s'ajoutent donc ceux qui encourageront les sujets à dire la vérité ou qui les aideront à mieux traduire leur attitude, leur comportement etc. Cet aspect est d'autant plus important que l'objet d'une étude sera sujet à l'influence de la désirabilité sociale, cette tendance rappelons-le qui consiste à fournir des réponses approuvées socialement. Aussi est-il souvent suggéré de: -faire référence à l'expérience immédiate ou récente des sujets. -préciser le temps et le contexte auxquels le sujet doit faire référence. Cette recommandation rejoint directement celle de Ajzen & Fishbein (1980) qui suggèrent, rappelons-le, de définir le comportement non pas seulement en spécifiant l'action et l'objet mais aussi le contexte et le temps. -laisser au sujet la possibilité de signifier son absence d'opinion (e.g. je ne sais pas ou je n'ai pas d'opinion) ou son ambivalence (e.g. ni en accord ni en désaccord). Il importe de préciser que les avis sont partagés concernant la pertinence d'offrir ainsi aux répondants la possibilité de se désister. Une telle avenue pourrait en effet encourager les sujets à ne pas se concentrer à la tâche et à adopter la stratégie la plus facile qui consiste à choisir une option de réponse neutre ou celle traduisant une absence d'opinion. En outre, on peut se demander comment établir la différence entre un refus de répondre, l'indifférence, une absence d'opinion, ou une ambivalence du répondant (Voyer, 1996) -éviter de suggérer la réponse. Les questions doivent être formulées de façon à ne pas orienter les réponses dans une direction donnée. Allaire (1988) énumère plusieurs facteurs pouvant intervenir et favoriser une réponse au détriment d'une autre. Il semble notamment que certains mots se révèlent plus paralysants ou plus chargés émotivement. Par exemple, une étude de Smith (1987) démontre que des résultats différents peuvent être obtenus selon qu'il est fait référence aux pauvres et aux sans-emploi plutôt qu'à des gens étiquetés <<sur le bien-être>>. Associer une opinion à une personne qui inspire le respect pourrait aussi influencer les réponses (<<Les experts pensent que...>> ou <<Un jugement de la Cour Suprême stipule que...>>) tout comme le fait de formuler une question en ne mentionnant que l'un des choix possibles (<<Êtes-vous en 18 faveur d'une réglementation visant à interdire de fumer dans les lieux publics>> plutôt que <<Êtes-vous favorable ou défavorable à une réglementation visant à interdire de fumer dans les lieux publics>). Pour ne pas influencer les sujets dans une direction particulière, des auteurs proposent d'utiliser une formule semblable à la suivante: <<Certaines personnes pensent que... d'autres pensent que... Qu'en pensez-vous personnellement?>>. Des questions peuvent aussi biaiser les réponses en ce qu'elles ne présentent pas la contrepartie d'une position. Offrir des arguments pour et contre une position ne réglerait pas le problème; les réponses des sujets pourraient en effet être influencées par la nature des arguments retenus. L'une des difficultés réside aussi dans le fait de trouver des arguments favorables et défavorables qui s'équilibrent. Si l'un des contre-arguments ne fait pas le poids ou s'il est trop extrême, la question demeura biaisée. Mentionnons pour terminer que les résultats de quelques études tendent à démontrer que le fait de ne pas respecter l'une ou l'autre des recommandations énoncées ci-dessus n'occasionne pas nécessairement des résultats biaisés (e.g. Schuman & Presser, 1981). En outre, Allaire (1988) avance qu'il peut parfois être souhaitable d'orienter les réponses des sujets, dans le cas notamment où l'objet d'étude pourrait occasionner un grand nombre de réponses désirables socialement. Il s'agirait alors de favoriser les réponses considérées les moins souhaitables en fournissant par exemple des arguments favorables à cette position moins désirable, en suggérant que tout le monde le fait etc. 8. Les mesures à item unique versus celles constituées de plusieurs items N.B. Cette section consiste en une traduction et une adaptation d'une partie du texte de Himmelfarb (1993). La mesure d'un construit repose parfois sur un seul item. Des raisons économiques justifient souvent cette façon de faire: mener une enquête est dispendieux et le coût croît en fonction du nombre d'items. Des considérations méthodologiques justifient néanmoins le recours à un score composite, c'est-à-dire un score total composé de plusieurs items. Les mesures faisant appel à plusieurs items permettent de compenser en partie pour les limites inhérentes à chacun des items pris individuellement. Chaque item apporte des nuances de 19 signification et de ton pouvant exercer une influence indue sur les réponses des répondants. En effet, des études ont démontré l'impact de l'introduction de légères variations dans la formulation d'un item sur les réponses des sujets. Par exemple, dans une étude désormais classique de Rugg (1941), on demanda à un échantillon national de répondants: <<Croyez-vous que les États-Unis devraient autoriser les discours publics contre la démocratie>> La question suivante fut posée à un échantillon comparable de sujets: <<Croyez-vous que les États-Unis devraient défendre les discours publics contre la démocratie?>>. Plus de 20% des répondants s'avouèrent enclins à ne pas autoriser les discours publics comparativement à ceux se disant favorables à les interdire. Ces résultats furent reproduits à plusieurs reprises (Schuman & Presser, 1981). On a également démontré que l'ajout de détails (e.g. phrases, notes, etc.) manifestement non pertinents par rapport à l'objet principal de l'étude pouvait aussi exercer une influence sur les réponses des sujets Par exemple, Cantril (1940) demanda à un groupe de répondants: <<Croyez-vous que les États-Unis devraient faire plus qu'il ne le font présentement pour aider l'Anglettere et la France?>>. Lorsqu'on ajoutait à la fin de la question <<dans leur lutte contre Hitler>> le pourcentage de réponses <<oui>> augmentait de 13% à 20%. En dépit des résultats de recherches ayant démontré l'effet exercé par une légère variation de la formulation des items, l'influence exact du langage utilisé sur les réponses des sujets demeure mal connue. En effet, pour le moment aucun modèle n'est disponible pour expliquer quand et pourquoi surviennent les effets associés à la formulation des questions (Schuman & Kalton, 1985). Lorsque nous avons présenté la méthode de Likert et le différenciateur sémantique, nous avons vu qu'une analyse d'items permettait de rejeter les items de mauvaise qualité. En examinant la courbe caractéristique d'un item, il devient possible de déterminer si un item est pertinent ou non. La courbe caractéristique d'un item associe les scores à un item aux résultats obtenus à l'ensemble des autres items destinés à mesurer le même construit. Avec un seul item, on ne peut évidemment plus déterminer la courbe caractéristique d'un item ou mettre en relation les scores d'un item avec l'ensemble des autres qui déterminent le score total. En d'autres termes, nous ne disposons plus de test interne permettant de différencier les bons items des mauvais. Le test-retest devient en fait la principale méthode permettant d'estimer la fidélité d'une mesure composée d'un seul item. 20 Le recours à plus d'un item pour la mesure d'une caractéristique présente un avantage sur le plan de la fidélité. En effet, tel que l'illustre la figure 2, même si la relation entre la fidélité d'un instrument et le nombre d'items qu'il comporte n'est pas linéaire, il semble néanmoins que la fidélité augmente toujours avec un accroissement du nombre d'items lorsque la corrélation moyenne entre les items demeure constante. Figure 2. Fidélité à l'échelle totale en fonction du nombre d'items que comporte l'échelle pour des valeurs de fidélité interitems de .2, .4, .6 et .8 . La validité d'une mesure est en partie déterminée par la fidélité de la mesure. En effet, des mesures plus ou moins fidèles atténuent les relations entre les variables et rendent par le fait même plus obscures les relations réelles qui existent entre ces variables. Une mesure fidèle permet non seulement d'obtenir des résultats plus consistants d'une observation à l'autre, mais elle rend également possible des relations plus étroites avec d'autres variables. La supériorité des mesures composites à fournir des relations plus étroites avec d'autres variables est mise en évidence dans les études de Fishbein & Ajzen (1974, 1975) concernant la relation entre les attitudes et le comportement. 21 En référence à des principes psychométriques bien connus, nous avons insisté sur l'importance de faire appel à plus d'un item pour la mesure d'un construit. Force est de reconnaître cependant que des études ont, avec succès, mesuré des construits à l'aide d'un ou deux items seulement. Par exemple, une étude de Valois, Godin & Bertrand (1992) démontre que l'intention comportementale peut être mesurée de façon stable par le biais d'un seul item. Ces réussites indiquent que les mesures reposant sur un seul item peuvent être suffisamment fidèles pour détecter des différences moyennes entre des groupes de taille raisonnable lorsque les variables sont manipulées dans des conditions soigneusement contrôlées. Cependant, les mesures comportant un seul item peuvent ne pas être suffisamment fidèles pour déboucher sur des relations relativement élevées avec d'autres variables comme des variables modératrices. La fidélité des mesures peut être améliorée et par le fait même la corrélation entre les variables bonifiées par l'utilisation de mesures comportant plusieurs items. 9. Production d'une banque initiale d'items La construction d'un instrument de mesure suppose l'élaboration d'une banque initiale d'items qui seront analysés, expérimentés, modifiés au besoin afin de ne garder que ceux qui semblent les plus appropriés pour mesurer le construit à l'étude. Étant donné que certains items pourraient en fin d'analyse se révéler de mauvais items et être par le fait même rejetés, il importe de prévoir dans la banque initiale plus d'items que le nombre souhaité dans la forme finale de l'instrument. De façon générale, on élabore une banque initiale d'items en consultant la littérature (articles scientifiques qui font parfois état des items utilisés, volumes spécialisés qui regroupent des échelles déjà existantes ou qui reproduisent les questions utilisées par les firmes de sondage), en consultant des questionnaires déjà existants, en menant des entrevues avec des experts ou des enquêtes auprès d'un échantillon de sujets. La TAR et la TCP fournissent cependant des indications précises concernant la façon de constituer une banque initiale d’items. Comme nous le verrons, ces indications font en fait référence à l'une ou l'autre des sources d'informations auxquelles nous venons de faire allusion. Les construits de la TAR et TCP peuvent être classifiés en deux catégories selon que les items utilisés pour les mesurer ont un contenu relativement fixe ou variable selon les échantillons étudiés (Fishbein, Bandura, Triandis, Kanfer, Becker, & Middletadt, 1992). La première 22 catégorie regroupe l'intention, le comportement ainsi que les construits directs9 de la TCP (Aact, SN, PBC) alors que la deuxième catégorie rassemble les construits indirects ( bxe, nbxmc, cxp). Nous allons présenter ci-dessous la démarche proposée par Ajzen & Fishbein (1980) pour élaborer une banque initiale d'items pour la mesure des construits indirects et suggérer un certain nombre d'items pouvant être utilisés pour la mesure de I, Aact, SN et PBC. Il est à noter que les questions présentées à titre d'exemples dans cette section sont tirées de diverses études réalisées par Godin et ses collaborateurs. Nous avons adapté ces items pour la mesure du comportement suivant: utiliser un préservatif lors de chaque relation sexuelle avec un nouveau partenaire au cours des trois prochains mois. 9.1 Démarche pour constituer une banque d'items pour la mesure des construits indirects ( bxe, nbxmc, cxp) de la TCP La TCP identifie trois types de croyances susceptibles d'exercer une influence sur l'intention et le comportement: les croyances comportementales, normatives et de contrôle. Selon Ajzen (1991), seulement un nombre limité de chacun de ces trois types de croyances déterminerait l'intention et le comportement. Il s'agit des croyances saillantes et elles ne seraient disponibles qu'à un moment donné chez un individu. Pour les déterminer, le chercheur doit donc faire appel au témoignage du répondant. En d'autres termes, le contenu des items visant la mesure des construits indirects, qui repose essentiellement sur les croyances des individus, ne devrait pas être déterminé par le chercheur mais provenir des sujets eux-mêmes. Dans le cas contraire, il ne pourrait être prétendu que les items mesurent des croyances saillantes, ce qui remettrait directement en question leur capacité à prédire l'attitude, la norme subjective, la perception du contrôle et, de façon ultime, l'intention et le comportement. Quelques méthodes ont été proposées pour identifier les croyances saillantes des individus (e.g. Agnew, 1998; Van der Pligt & De Vries, 1998). En fait, ces méthodes visent chacune à leur façon à contrer le problème qui consiste à identifier toutes et seulement les croyances saillantes d'un individu ou d'un groupe de sujets. Néanmoins, la démarche suggérée par Ajzen & Fishbein (1980) que nous présentons ci-dessous, demeure à ce jour la référence première et celle qui par le fait même s'avère la plus utilisée. Contrairement à certains auteurs qui cherchent à ce que les sujets ne répondent qu'à des items formulés sur la base de leurs croyances saillantes personnelles, Ajzen & Fishbein (1980) 23 proposent de mesurer les construits indirects à partir des croyances saillantes modales, soient les croyances saillantes chez une population donnée. Cette façon de faire implique que des sujets seront appelés à se prononcer sur des items référant à des croyances non saillantes pour eux. Notons néanmoins qu'il est supposé qu'un nombre important des croyances saillantes personnelles de chacun des individus se retrouvera dans la liste des croyances saillantes modales. Nous avons mentionné dans une section précédente que les échelles de réponses offertes aux items visant la mesure des construits de la TCP prennent généralement la forme d'un continuum dont les pôles expriment des opinions opposées. Nous sommes en mesure de comprendre maintenant que cette façon de faire est justifiée dans la perspective où l'utilisation de croyances saillantes modales entraîne que des sujets pourront être appelés à se prononcer sur des croyances plus ou moins saillantes pour eux, d'où la nécessité de leur offrir la possibilité d’exprimer leur accord ou leur désaccord envers le contenu des items. La démarche suggérée par Ajzen & Fishbein (1980) pour la mesure des construits indirects peut être divisée en quatre étapes. La première implique d'identifier les croyances saillantes personnelles des sujets. Au cours de la deuxième étape, ces croyances seront analysées et comparées afin d'obtenir une liste résumant les croyances saillantes personnelles de l'ensemble des sujets. Cette liste sera utilisée à la troisième étape pour identifier les croyances saillantes modales, lesquelles constitueront une source de référence pour la formulation des items, tâche inhérente à la quatrième étape. Le détail de chacune de ces étapes apparaît ci-dessous. 9.1.1 Identification des croyances saillantes personnelles L'approche suggérée par Ajzen & Fishbein (1980) implique d'abord d'identifier les croyances saillantes personnelles des individus. Pour ce faire, les auteurs proposent d'obtenir les informations suivantes: a) la liste des avantages et des désavantages perçus associés à l'adoption du comportement; b) la liste des personnes ou groupes de personnes qui approuveraient ou désapprouveraient la réalisation du comportement; c) la liste des barrières perçues et des conditions facilitantes à l'adoption du comportement. Ces listes seront utilisées pour identifier respectivement: les croyances comportementales, normatives et de contrôle. Notons qu'afin de susciter un plus grand éventail de réponses, il arrive parfois qu'on fasse référence à la nonadoption du comportement. Nous insistons à nouveau sur le fait que les informations mentionnées ne doivent pas être obtenues du chercheur ou de ses collaborateurs mais d'un échantillon de sujets (au moins trente individus) issu de la population visée. Différentes méthodes peuvent être utilisées pour la collecte de ces informations: questionnaire dont les 24 questions appellent une réponse à développement court; l'interview; le focus group; la technique du groupe nominal; la technique delphi; etc. Quelle que soit la méthode retenue, il importera de susciter des réponses en regard de chacune des caractéristiques qui apparaissent en italique aux points a, b, c. Une façon d'y parvenir consiste à présenter une question pour chacun des aspects en regard desquels on désire obtenir des réponses. Pour identifier par exemple les croyances saillantes comportementales, il serait souhaitable de présenter deux questions: une interrogeant le sujet sur les avantages que présentent l'adoption du comportement et l'autre visant à recueillir la perception des désavantages liés à la réalisation du comportement. On retrouve ci-dessous un exemple des questions pouvant être utilisées pour la collecte des informations en lien avec les croyances comportementales, normatives et de contrôle. Croyances comportementales: Quel(s) avantage(s) voyez-vous à utiliser un préservatif lors de chaque relation sexuelle que vous pourriez avoir avec un nouveau partenaire au cours des trois prochains mois? Quel(s) désavantage(s) voyez-vous à utiliser un préservatif lors de chaque relation sexuelle que vous pourriez avoir avec un nouveau partenaire au cours des trois prochains mois? Croyances normatives: Selon vous, quelle(s) personne(s) ou groupe(s) de personne(s) approuverait(ent) que vous utilisiez un préservatif lors de chaque relation sexuelle que vous pourriez avoir avec un nouveau partenaire au cours des trois prochains mois? Selon vous, quelle(s) personne(s) ou groupe(s) de personne(s) désapprouverait(ent) que vous utilisiez un préservatif lors de chaque relation sexuelle que vous pourriez avoir avec un nouveau partenaire au cours des trois prochains mois? Croyances liées au contrôle: 25 Indiquez les facteurs (conditions, contextes etc.) qui pourraient vous inciter à utiliser un préservatif lors de chaque relation sexuelle que vous pourriez avoir avec un nouveau partenaire au cours des trois prochains mois. Indiquez les facteurs (conditions, contextes etc.) qui pourraient vous inciter à ne pas utiliser un préservatif lors de chaque relation sexuelle que vous pourriez avoir avec un nouveau partenaire au cours des trois prochains mois. Il est à noter qu'une même croyance comportementale peut être perçue comme un avantage ou un désavantage selon les sujets. De la même façon, la perception du comportement attendu d'un référent pourra varier d'un individu à l'autre. La même logique s'applique aux croyances de contrôle; selon les individus, un facteur pourra donc être considéré comme une condition facilitante ou une barrière à l'adoption d'un comportement. 9.1.2 Analyse du contenu des croyances saillantes personnelles Il est fort probable -et il est souhaitable qu'il en soit ainsi!- que les individus interrogés aient un certain nombre de croyances en commun. Il se peut cependant qu'ils ne les aient pas exprimées de la même façon. Aussi sera-t-il nécessaire de procéder à une analyse du contenu des croyances. À la fin de cette deuxième étape, on devrait disposer de trois listes faisant état des croyances comportementales, normatives et de contrôle de l'ensemble des sujets. Précisons d'emblée qu'au moins deux individus devraient, de façon indépendante, effectuer l'analyse de contenu. Ces derniers devraient parvenir à un accord concernant le libellé et l'ordonnancement des croyances apparaissant dans chacune des trois listes mentionnées précédemment (Godin & Kok, 1996). Pour procéder à l'analyse de contenu, il est d'abord suggéré de regrouper les croyances exprimant la même idée ou une idée semblable et d'indiquer la fréquence de chacune de ces croyances. Cette première classification devra être effectuée en considérant indépendamment les trois types de croyances (comportementales, normatives et de contrôle). En d'autres termes, à l'intérieur de chacun des trois types de croyances, on devra retrouver des croyances regroupées 26 sur la base de leur similitude. Il est à noter que cette tâche et celles qui suivent seront facilitées si les questionnaires sont numérotés au départ. On regroupera donc les croyances semblables en prenant soin d'indiquer le numéro du questionnaire d'où elles proviennent. Les croyances à l'intérieur de chacun des regroupements obtenus seront ensuite comparées afin de déterminer si elles sont ou non distinctes. Dans les cas où il s'avère difficile de déterminer si deux croyances font référence à un même contenu, il est suggéré de vérifier si elles apparaissent simultanément dans les listes originales. Si un nombre important de sujets ont mentionné les deux croyances, il est préférable de les considérer de façon indépendante. Notons que cette vérification de la similitude des croyances sera d'autant plus facile qu'on aura indiqué, comme suggéré précédemment, le numéro du questionnaire d'où proviennent les croyances. Il est admissible de formuler une nouvelle croyance si elle permet de traduire l'idée ou le thème commun à un certain nombre de croyances spécifiques exprimées par un nombre relativement peu élevé de sujets. Par exemple, la croyance suivante: <<Prendre un contraceptif oral entraîne des effets secondaires>> pourrait être formulée pour rendre compte des croyances des sujets ayant indiqué que l'utilisation d'un contraceptif oral entraîne des crampes, des maux de tête ou un gain de poids. Le travail d'analyse devrait déboucher sur trois listes, soit une pour chaque type de croyances (comportementale, normative et de contrôle) en présentant les croyances de l'ensemble des sujets et la fréquence de chacune des croyances. Il est à noter qu'il est possible de retrouver une même croyance dans la liste des désavantages et dans celle des obstacles liés à l'adoption du comportement. Il revient au chercheur de déterminer si une croyance donnée doit être considérée comme une croyance comportementale ou une croyance liée au contrôle. Pour faciliter cette décision, rappelons qu'une croyance est associée au contrôle lorsqu'elle prend la forme d'un obstacle empêchant la réalisation d'un comportement. Une croyance comportementale peut amener à associer un comportement à certains désavantages mais ces derniers n'empêchent pas l'adoption du comportement. 27 9.1.3 Identification des croyances saillantes modales La liste des croyances saillantes personnelles ayant été identifiée vient le moment de déterminer celles qui seront retenues et considérées comme des croyances saillantes modales. Ajzen & Fishbein (1980) suggèrent trois critères à cet effet. L'une des possibilités consiste à choisir les 10 ou les 12 croyances les plus souvent exprimées. Une autre façon de faire consiste à retenir les croyances dont la fréquence atteint un pourcentage donné (par exemple 10% ou 20%). En d'autres termes, on retiendra toutes les croyances dont la fréquence atteint au moins 10% ou 20% selon le critère fixé. Enfin la méthode la plus populaire consiste à retenir les croyances les plus souvent mentionnées jusqu'à ce qu'un pourcentage donné (généralement 75%) du nombre total de croyances soit atteint. Par exemple, supposons que 30 sujets ont exprimé en moyenne six croyances générant ainsi 180 mentions. Nous conserverons alors les croyances les plus populaires dont la somme des fréquences atteint 75% des mentions, soit 135 mentions. Comme nous l'avons déjà mentionné, des auteurs suggèrent d'autres façons de faire pour sélectionner les croyances saillantes modales. Nous n'étonnerons probablement personne en déclarant que les divers procédés ne débouchent pas nécessairement sur les mêmes résultats. En attendant qu'une méthode se soit révélée particulièrement efficace ou meilleure que les autres, la méthode suggérée ci-dessus demeure la principale référence. 9.1.4 Élaboration des items visant la mesure des construits indirects de la TCP Chacun des items visant la mesure des construits indirects (b, e, nb, mc, c, p) devra être formulé en fonction du contenu des croyances saillantes modales tout en respectant les critères retenus pour la définition du comportement (action, objet, contexte, temps). Afin d'éviter les répétitions inutiles, il est courant que les items visant la mesure de certaines variables soient précédés d'un énoncé général qui s'applique à chacun des items. Dans le cas de la mesure des croyances comportementales (b), le tout pourrait prendre une forme ressemblant à la suivante: 28 SI J'UTILISAIS UN PRÉSERVATIF LORS DE CHAQUE RELATION SEXUELLE QUE JE POURRAIS AVOIR AVEC UN NOUVEAU PARTENAIRE AU COURS DES TROIS PROCHAINS MOIS... 1. cela serait pour moi un bon moyen de contraception très assez légèrement ni l'un légèrement assez très improbable improbable improbable ni l'autre probable probable probable 2. cela nuirait à la spontanéité de la relation sexuelle très assez légèrement ni l'un légèrement assez très improbable improbable improbable ni l'autre probable probable probable L'énoncé apparaissant en lettres capitales correspond à la définition du comportement et chacun des items fait référence à une croyance saillante modale identifiée à la troisième étape (section 9.1.3). De l'analyse de contenu, des items ressemblant à ceux qui suivent pourraient être formulés pour la mesure des variables des autres construits indirects de la TCP. Mesure de e (évaluation du sujet des conséquences associées à l'adoption du comportement) PERSONNELLEMENT, QUELLE VALEUR ACCORDEZ-VOUS AU FAIT 3. d'avoir un bon moyen de contraception? très assez légèrement ni l'un légèrement assez très désirable désirable désirable ni l'autre indésirable indésirable indésirable 29 4. de ne pas nuire à la spontanéité de la relation sexuelle? très assez légèrement ni l'un légèrement assez très désirable désirable désirable ni l'autre indésirable indésirable indésirable Mesure de nb (croyances du sujet concernant les chances qu'une personne ou groupe de personnes pense qu'elle devrait adopter ou non le comportement): 5. Mes parents approuveraient/désapprouveraient que j'utilise un préservatif lors de chaque relation sexuelle que je pourrais avoir avec un nouveau partenaire au cours des trois prochains mois. désapprouveraient désapprouveraient désapprouveraient ni l'un approuveraient approuveraient approuveraient fortement assez légèrement ni l'autre légèrement assez fortement 6. Mes amis approuveraient/désapprouveraient que j'utilise un préservatif lors de chaque relation sexuelle que je pourrais avoir avec un nouveau partenaire au cours des trois prochains mois. désapprouveraient désapprouveraient désapprouveraient ni l'un approuveraient approuveraient approuveraient fortement assez légèrement ni l'autre légèrement assez fortement Mesure de mc (motivation du sujet à se conformer ou non à ce que pense une personne ou un groupe de personnes): CONCERNANT L'USAGE DU PRÉSERVATIF, J'AI TENDANCE À AGIR SELON LES ATTENTES DE: 7. mes parents très assez légèrement ni l'un ni légèrement assez très improbable improbable improbable l'autre probable probable probable 30 8. mes amis très assez légèrement ni l'un ni légèrement assez très improbable improbable improbable l'autre probable probable probable Mesure de c (croyances du sujet concernant les chances que certains facteurs facilitant ou nuisant à l'adoption du comportement seraient présents ou absents au moment d'adopter un comportement): 9. Au cours des trois prochains mois, j'aurai des préservatifs à la portée de la main lors de chaque relation sexuelle que je pourrais avoir avec un nouveau partenaire très assez légèrement ni l'un ni légèrement assez très improbable improbable improbable l'autre probable probable probable 10. Au cours des trois prochains mois, mon (mes) nouveau(x) partenaire(s) refusera(ront) d'utiliser le préservatif lors de chaque relation sexuelle que je pourrais avoir très assez légèrement ni l'un ni légèrement assez très improbable improbable improbable l'autre probable probable probable Mesure de p (évaluation de l'intensité avec laquelle certains facteurs peuvent inciter ou nuire à l'adoption du comportement): 11. Si j'avais des préservatifs à la portée de la main, je les utiliserais lors de chaque relation sexuelle que je pourrais avoir avec un nouveau partenaire au cours des trois prochains mois très assez légèrement ni l'un ni légèrement assez très improbable improbable improbable l'autre probable probable probable 31 12. Si mon(mes) nouveau(x) partenaire(s) ne voulaient(ent) pas utiliser un préservatif, je refuserais d'avoir une relation sexuelle au cours des trois prochains mois très assez légèrement ni l'un ni légèrement assez très improbable improbable improbable l'autre probable probable probable Notons que ce dernier item ne respecte pas le critère <<action>> de la définition des construits. En effet, l'action de l'item 12 consiste à <<refuser d'avoir une relation sexuelle>> alors que les items des autres construits font référence à <<utiliser un préservatif>>. Bien qu'indésirable, cette situation est néanmoins inévitable dans certain cas. L'item 12 aurait eu en effet peu de sens en le formulant en fonction de l'action <<utiliser un préservatif>> (e.g. Même si mon(mes) nouveau(x) partenaire(s) refusait(ent) d'utiliser un préservatif, j'en utiliserais un quand même.) Un examen des items présentés ci-dessus révèle une correspondance entre certaines paires d'entre eux. On remarque notamment une ressemblance entre les items 1 et 3, 2 et 4, 5 et 7, 6 et 8, 9 et 11, 10 et 12. Cette association est tout à fait souhaitable. Rappelons en effet que les construits indirects résultent de la multiplication de deux variables: b et e dans le cas de la mesure indirecte de l'attitude, nb et mc pour la mesure indirecte de la norme subjective, c et p en ce qui concerne la mesure indirecte de la perception du contrôle. Il est donc nécessaire que des paires d'items visant la mesure des variables d'un même construit partagent le même contenu. Si on fait référence aux paires 1 et 3, 2 et 4, 5 et 7, 6 et 8, 9 et 11, 10 et 12, on constate que les deux premières visent à mesurer bxe, les deuxième et troisième paires visent à rendre compte de nbxmc alors que les deux dernières paires consistent en une mesure de cxp. Les réponses obtenues à chaque paire d'items visant la mesure d'un même construit seront multipliées et la sommation ou la moyenne des produits obtenus constituera une mesure du construit. Par exemple, pour obtenir une mesure indirecte de l'attitude, les réponses obtenues aux items 1 et 3 seront multipliées pour chacun des sujets. Il en sera de même aux items 2 et 4. Les produits résultants seront additionnés ou la valeur moyenne de ces produits sera calculée. Nous obtiendrons alors un score présentant le niveau de possession de l'attitude ( bxe). 32 9.2 Items couramment utilisés pour la mesure de l'intention et des construits directs (Aact, SN, PBC) de la TCP Nous présentons ci-dessous un certain nombre d'items qui pourraient être utilisés pour la mesure de l'intention et des construits directs (Aact, SN, PBC) de la TCP. Il s'agit d'items tirés d'études menées par Godin et ses collaborateurs et qui satisfont aux recommandations de Ajzen & Fishbein (1980). Il est néanmoins très important que ces items soient soumis à l'attention d'un certain nombre d'experts (section 4), qu'ils fassent l'objet de préexpérimentations (section 11.1) et d'une analyse d'items (section 11.2) afin de s'assurer de leur pertinence pour un échantillon donné de sujets. On notera parfois une similitude entre certains des items visant la mesure d'un même construit. Cette redondance n'est pas nécessairement mauvaise en ce que chacun des items amène une nuance, révèle le concept de façon différente permettant ainsi de mieux le préciser. Le jugement des experts, les préexpérimentations et l'analyse d'items aideront à déterminer lesquels des items devraient ou non se retrouver dans la forme finale de l'instrument de mesure. 9.2.1 Mesure de l'attitude envers la réalisation du comportement (Aact) Aact désigne l'évaluation plus ou moins favorable de l'adoption d'un comportement. Pour la mesure de Aact, Ajzen & Fishbein (1980) suggèrent d'utiliser l'une des méthodes classiques d'échelonnement (différenciateur sémantique, méthodes de Likert, de Thurstone ou de Guttman). En pratique cependant, les auteurs ont plus souvent utilisé le différenciateur sémantique pour mesurer Aact. Nous avons déjà présenté cette technique dans une section précédente. Aussi allons-nous nous limiter ici à la présentation d'un exemple d'utilisation du différenciateur sémantique: 33 Pour moi, utiliser un préservatif lors de chaque relation sexuelle que je pourrais avoir avec un nouveau partenaire au cours des trois prochains mois serait... 1. très assez légèrement ni l'un légèrement assez très agréable agréable agréable ni l'autre désagréable désagréable désagréable très assez légèrement ni l'un légèrement assez très utile utile utile ni l'autre inutile inutile inutile très assez plaisant légèrement ni l'un légèrement assez très plaisant ni l'autre déplaisant déplaisant déplaisant 2. 3. plaisant 4. très assez légèrement ni l'un ni légèrement assez très prudent prudent prudent l'autre imprudent imprudent imprudent La plupart des auteurs reconnaissent trois types de réponses évaluatives par lesquelles peuvent se manifester une attitude: une affective, une cognitive et une autre comportementale (e.g. Himmelfarb, 1993). Ces réponses évaluatives sont souvent considérées comme des dimensions ou des composantes de l'attitude. Dans l'exemple présenté ci-dessus, le caractère des items 1 et 3 semble davantage affectif alors que celui des items 2 et 4 apparaît plutôt de nature cognitive. Ajzen & Fishbein (1980) n'établissent cependant pas de distinction entre les différentes composantes de l'attitude. Notons toutefois que plusieurs études, dont celle de Godin (1987), tendent à démontrer que la dimension affective de l'attitude permettrait une aussi bonne prédiction de l'intention qu'une mesure composée des dimensions affective et cognitive de l'attitude. 34 9.2.2 Mesure de la norme subjective (SN) La norme subjective correspond à la perception du sujet que des personnes ou groupes de personnes importantes pour lui approuveraient ou désapprouveraient l'adoption du comportement. On retrouve généralement un item prenant une forme semblable à la suivante pour mesurer la norme subjective: 1. Les personnes les plus importantes pour moi pensent que je devrais utiliser un préservatif lors de chaque relation sexuelle que je pourrais avoir avec un nouveau partenaire au cours des trois prochains mois très en assez en légèrement en ni l'un légèrement en assez en très en désaccord désaccord désaccord ni l'autre accord accord accord Nous avons déjà insisté sur l'importance de faire appel à plus d'un item pour mesurer un construit (section 8). À l'item précédent pourrait donc s'ajouter un ou plusieurs de ceux qui suivent: 2. Si j'utilisais un préservatif lors de chaque relation sexuelle que je pourrais avoir avec un nouveau partenaire au cours des trois prochains mois, la plupart des personnes qui sont importantes pour moi approuveraient approuveraient approuveraient ni l'un désapprouveraient désapprouveraient désapprouveraient fortement modérément légèrement ni l'autre légèrement modérément fortement 3. Les personnes qui sont importantes pour moi pensent que c'est correct d'utiliser un préservatif lors de chaque relation sexuelle que je pourrais avoir avec un nouveau partenaire au cours des trois prochains mois très en assez en légèrement en ni l'un légèrement en assez en très en désaccord désaccord désaccord ni l'autre accord accord accord 35 4. La plupart des personnes qui sont importantes pour moi me recommanderaient d'utiliser un préservatif lors de chaque relation sexuelle que je pourrais avoir avec un nouveau partenaire au cours des trois prochains mois très assez légèrement ni l'un légèrement assez en très en probable probable probable ni l'autre improbable accord accord Selon Ajzen (1991), la norme subjective, tout comme l'attitude et la perception du contrôle, pourront se révéler des prédicteurs plus ou moins importants de l'intention selon le comportement, le contexte et les sujets d'une étude. De façon générale cependant, les résultats des recherches démontrent que la norme subjective s'avère un prédicteur peu ou pas efficace de l'intention, du moins en comparaison de l'attitude et de la perception du contrôle (Ajzen, 1991). On retrouve au moins trois hypothèses pour expliquer cette situation. Certains auteurs interrogent la pertinence de considérer la norme subjective comme un déterminant de l'intention. Un tel point de vue n'est pas sans laisser pour compte les résultats de certaines études ayant démontré la supériorité de la norme subjective en tant que prédicteur de l'intention. D'autres auteurs prétendent que la norme subjective ne constituerait pas un concept différent de l'attitude. Les résultats des études menées en ce sens ne permettent pas de se prononcer formellement pour l'instant sur le caractère distinctif des deux construits. Mentionnons néanmoins que suite à une revue de la littérature sur le sujet, Trafimow (1998) conclut que les preuves accumulées à ce jour tendent à favoriser une distinction entre le concept d'attitude et celui de la norme subjective. Enfin, d'autres auteurs (e.g. Courneya & McAuley, 1995, Green, 1998) questionnent la clarté des questions formulées pour mesurer la norme subjective. Cette dernière explication n'est pas indépendante des deux autres. En effet, une définition opérationnelle moins ambiguë de la norme subjective rendrait peut-être moins obscure ses relations avec l'attitude et l'intention. Nous allons nous attarder quelque peu sur cet aspect de la formulation de SN, puisqu'il s'agit précisément du thème de cette section. Comme nous avons eu l'occasion de le constater, les questions visant la mesure de la norme subjective font référence à la perception que se fait le sujet de l'opinion de personnes ou groupes de personnes jugées importantes. Donc, ces items impliquent non seulement que le répondant établisse quelles sont les personnes ou groupes de personnes importantes pour lui, mais qu'il estime aussi les attentes de ces personnes en regard du comportement à adopter. Mais au fait, qui devrait être considéré comme une personne importante? Comment devrait répondre 36 un sujet lorsqu'il perçoit que les personnes jugées importantes ne partagent pas la même opinion concernant la réalisation du comportement? En fait, il est possible que les répondants d'une étude ne donnent pas la même interprétation aux items et qu'ils s'y prennent différemment pour répondre. Des études permettraient de vérifier si tel est le cas et tester le cas échéant l'impact de directives et de formulations moins ambiguës sur la capacité de la norme subjective à prédire l'intention comportementale. 9.2.3 Mesure de la perception du contrôle (PBC) La perception du contrôle comportemental est définie comme la perception du degré de facilité ou de difficulté avec lequel un comportement peut être adopté (Ajzen, 1988; Ajzen & Madden, 1986). Cette variable est comparable au concept de conditions facilitantes de la théorie des comportements interpersonnels de Triandis (1977, 1980) et à celui de l'efficacité personnelle de la théorie sociale cognitive de Bandura (1977a, b). On retrouve souvent des items du type suivant pour mesurer la perception du contrôle comportemental: 1. Pour moi, utiliser un préservatif lors de chaque relation sexuelle que je pourrais avoir avec un nouveau partenaire au cours des trois prochains mois serait: très assez légèrement ni l'un légèrement assez très difficile difficile difficile ni l'autre facile facile facile 2. À quel point croyez-vous exercer un contrôle sur le fait d'utiliser un préservatif lors de chaque relation sexuelle que vous pourriez avoir avec un nouveau partenaire au cours des trois prochains mois? très assez légèrement ni l'un légèrement assez très incontrôlable incontrôlable incontrôlable ni l'autre contrôlable contrôlable contrôlable 37 3. Si je le voulais, je pourrais facilement utiliser un préservatif lors de chaque relation sexuelle que je pourrais avoir avec un nouveau partenaire au cours des trois prochains mois. très assez légèrement ni l'un légèrement assez très improbable improbable improbable ni l'autre probable probable probable 4. Il n'en tient qu'à moi d'utiliser un préservatif lors de chaque relation sexuelle que je pourrais avoir avec un nouveau partenaire au cours des trois prochains mois. très en assez en légèrement en ni l'un légèrement en assez en très en désaccord désaccord désaccord ni l'autre accord accord accord 5. Je me sens capable d'utiliser un préservatif lors de chaque relation sexuelle que je pourrais avoir avec un nouveau partenaire au cours des trois prochains mois. très en assez en légèrement en ni l'un légèrement en assez en très en désaccord désaccord désaccord ni l'autre accord accord accord Il est à noter que quelques auteurs ont comparé des items évaluant la perception de la difficulté à adopter un comportement (e.g. item 1 ci-dessus) à d'autres estimant la perception du contrôle sur la réalisation du comportement (e.g. item 2 de la liste). Les résultats d'analyse factorielle révèlent que les deux groupes d'items saturent sur des facteurs différents et que seul le groupe d'items estimant la perception de la difficulté à adopter le comportement prédit l'intention comportementale. Les raisons invoquées pour expliquer de tels résultats varient selon les auteurs. Alors que Sparks, Guthrie & Shepherd (1997) attribuent les résultats au fait que les sujets interpréteraient de façon différente les deux types d'items, Terry et ses collaborateurs (Terry, 1994; Terry & O'Learly, 1995; White, Terry & Hogg, 1994) prétendent plutôt qu'ils reflètent une distinction entre des facteurs internes et externes de contrôle. Il importe de mentionner que des problèmes conceptuels et méthodologiques entachent les études de Terry et al., ce qui amènent à interroger les conclusions formulées. Quoi qu'il en soit, d'autres études s'avèrent nécessaires pour 38 que l'on puisse se prononcer sur la pertinence de combiner les items évaluant la perception de la difficulté et ceux traduisant la perception du contrôle pour la mesure de PBC. 9.2.4 Mesure de l'intention (I) L'intention représente la motivation ou la volonté du sujet à réaliser un comportement et est défini par Ajzen & Fishbein (1980, p. 42) et Fishbein & Ajzen (1975, p. 288) comme la perception de la probabilité d'adopter un comportement. Un item du type suivant est généralement utilisé pour la mesure de l'intention: 1. J'ai l'intention d'utiliser un préservatif pour chaque relation sexuelle que je pourrais avoir avec un nouveau partenaire au cours des trois prochains mois. très assez légèrement ni l'un légèrement assez très improbable improbable improbable ni l'autre probable probable probable Mais il n'est pas rare de trouver aussi un ou plusieurs items semblables à ceux-ci: 2. Au cours des trois prochains mois, j'utiliserai un préservatif pour chaque relation sexuelle que je pourrais avoir avec un nouveau partenaire totalement en fortement en légèrement en ni l'un légèrement en fortement en totalement en désaccord désaccord désaccord ni l'autre accord accord accord 3. J'évalue que mes chances d'utiliser un préservatif pour chaque relation sexuelle que je pourrais avoir avec un nouveau partenaire au cours des trois prochains mois sont... extrêmement très assez ni l'un assez très extrêmement faibles faibles faibles ni l'autre fortes fortes fortes 39 Des auteurs utilisent plutôt la forme suivante du dernier item: 4. Les chances sur 100 que j'utilise un préservatif pour chaque relation sexuelle que je pourrais avoir avec un nouveau partenaire au cours des trois prochains mois sont... 0-10% 11-20% 21-30% 31-40% 41-50% 51-60% 61-70% 71-80% 81-90% 91-100% Warshaw & Davis (1985, 1986) et Davis &Warshaw (1992) insistent sur la nécessité d'établir une distinction entre le concept d'intention et celui d'autoprédiction. Selon ces auteurs, les trois derniers items présentés ci-dessus ne mesureraient pas l'intention mais consisteraient plutôt en une autoprédiction du comportement. Selon Warshaw et al., l'intention suppose d'avoir planifié l'adoption d'un comportement alors que l'autoprédiction consiste à prédire son comportement futur. Ils prétendent que l'autoprédiction constituerait un meilleur prédicteur du comportement en ce que son estimation amènerait les répondants à considérer un plus grand nombre de facteurs susceptibles d'influencer leur comportement (e.g. changement d'intention, contraintes de divers ordres etc.). Toutefois, les résultats des études ayant comparé la capacité de l'intention et de l'autoprédiction à prédire le comportement sont contradictoires et ce aussi bien pour les comportements considérés volitifs que plus ou moins volitifs (e.g. Courneya & McAuley, 1994; Godin & Kok, 1996; Netemeyer & Burton, 1990; Randall & Wolff, 1994; Sheeran & Orbell, 1998; Sheppard, Hartwick & Warshaw, 1988; Warshaw & Davis, 1885, 1986). Mentionnons de plus que les auteurs ayant comparé l'intention et l'autoprédiction ne fournissent généralement pas aux sujets une définition précise de chacun des deux concepts et de ce qui les différencie. Aussi est-il difficile d'estimer si les sujets établissent une distinction -celle souhaitée- entre les deux mesures. En outre, les études ayant comparé l'intention et l'autoprédiction dans le cas de comportements partiellement sous le contrôle de l'individu ne prennent pas en compte l'influence de la perception du contrôle sur le comportement. Plusieurs études ont pourtant démontré que cette dernière variable joue un rôle important dans la prédiction de comportements non-volitifs (Ajzen, 1988; Ajzen, 1991; Godin & Kok, 1996). En somme, les résultats des études menées à ce jour ne permettent pas de se prononcer sur la pertinence de distinguer l'intention et une mesure d'autoprédiction lors de la prédiction du comportement. 40 9.3 Mesure des variables de la théorie des comportements interpersonnels Sur le plan de la mesure, certaines variables de la théorie des comportements interpersonnels (TCI) de Triandis (1977, 1980) sont ou semblables ou identiques à celles de la TCP. Nous allons passer en revue les variables de la TCI en les comparant à celles de la TCP lorsqu'une telle comparaison peut être établie. Nous présentons également des items pouvant être utilisés pour mesurer certains construits de la TCI. Précisons d'emblée que ces items devraient: a) être soumis au jugement critique d'experts (voir la section 4); b) faire l'objet de préexpérimentations auprès de sujets issus de la population cible (voir la section 11.1); c) être soumis à une analyse d'items (voir la section 11.2). Bien que certaines variables de la TCI et de la TCP sont mesurées de façon semblable, le rôle de ces variables et leurs relations avec d'autres construits peuvent varier selon la théorie considérée. Aussi l'utilisation des items suggérés ci-dessous suppose-t-elle une certaine connaissance de la TCI (voir Triandis, 1977, 1980). La TCI identifie quatre déterminants principaux du comportement: l'intention (I), l'habitude de réaliser le comportement (H), la présence de conditions qui facilitent ou nuisent à l'adoption du comportement (F) et l'état physiologique (P). Dans la TCI, l'intention consiste en une consigne personnelle concernant la façon d'agir. Cette variable peut être mesurée de la même façon que le concept d'intention de la TCP (voir la section 9.2.4). Les conditions facilitant ou nuisant à la manifestation d'un comportement (F) est semblable à la variable p de la TCP. Théoriquement, F et p diffèrent en ce que F fait exclusivement référence à des facteurs de contrôle environnementaux ou externes à l'individu alors que p désigne aussi bien des facteurs de contrôle internes et externes à l'individu. En pratique cependant, il est courant de mesurer F en référant aussi bien à des facteurs internes et externes de contrôle. La mesure des conditions facilitant ou nuisant à la manifestation d'un comportement (F) correspond donc à celle de p dans la TCP (voir la section 9.1). 41 La variable P de la TCI désigne un état physiologique de l'individu susceptible de favoriser la réalisation du comportement. Par exemple, plusieurs individus sont enclins à acheter plus de nourriture (comportement) s'ils ressentent la faim (état physiologique) lorsqu'ils font leur épicerie. Plusieurs auteurs utilisant la TCI comme cadre de référence omettent de mesurer P. Des études s'avèrent nécessaires pour déterminer la ou les façons de rendre compte de cette variable. La force de l'habitude à réaliser un comportement (H) désigne le degré d'automatisme d'un comportement dans une situation donnée. Cette variable est généralement mesurée en questionnant les répondants au sujet de leur fréquence d'adoption du comportement dans le passé. Un item du type suivant peut être utilisé pour la mesure de H: 1. Pour toutes relations sexuelles que vous avez eues avec un nouveau partenaire au cours des trois derniers mois, combien de fois avez-vous utilisé le préservatif? aucune fois environ une fois environ une fois environ trois fois tout le temps (0%) sur 4 (25%) sur 2 (50%) sur 4 (75%) (100%) Les réponses numériques devraient être déterminées en utilisant une question ouverte lors d'une préexpérimentation menée auprès de sujets issus de la population cible. Une telle stratégie permet d'offrir des options de réponse signifiantes pour les sujets en même temps qu'elle tend à diminuer le risque d'oublier certaines options de réponse pertinentes. Il est à noter que des études démontrent que l'étendue des réponses numériques offertes peut influencer les réponses des sujets (e.g. Schwarz, Hippler, Deutsch & Strack, 1985). Selon Triandis, l'intention serait déterminée par l'influence sociale (S), la norme sociale (PNB) ainsi que par les composantes affective (A) et cognitive (C) de l'attitude. La dimension cognitive de l'attitude (C) résulte d'une analyse subjective des avantages et des désavantages associés à l'adoption du comportement. Tout comme pour la mesure indirecte de l'attitude dans la TCP ( bxe), la dimension cognitive de l'attitude suppose de mesurer les 42 avantages et les désavantages perçus liés à l'adoption d'un comportement (Pci) ainsi que la valeur accordée à chacun de ces bénéfices et inconvénients (Vci) (voir la section 9.1). La composante affective de l'attitude (A) représente la réponse émotionnelle de l'individu à la pensée d'adopter un comportement. La composante affective est généralement mesurée en utilisant le différenciateur sémantique, en prenant soin de choisir des paires d'adjectifs ayant une connotation affective (voir les sections 5.2 et 9.2.1). La norme sociale (PNB) correspond à l'obligation morale ressentie par le répondant de réaliser le comportement. À l'origine, cette variable faisait partie intégrante de la théorie de l'action raisonnée. Elle fut ensuite rejetée parce que Ajzen et Fishbein (1969, 1970) la considéraient trop semblable au concept d'intention. On retrouve généralement des items du type suivant pour la mesure de la norme morale (PNB): 1. Il est dans mes principes d'utiliser un préservatif lors de chaque relation sexuelle que je pourrais avoir avec un nouveau partenaire au cours des trois prochains mois fortement en assez en légèrement en ni l'un ni légèrement en assez en fortement en désaccord désaccord désaccord l'autre accord accord accord 2. Je me sentirais coupable de ne pas utiliser un préservatif lors de chaque relation sexuelle que je pourrais avoir avec un nouveau partenaire au cours des trois prochains mois fortement en assez en légèrement en ni l'un ni légèrement en assez en fortement en désaccord désaccord désaccord l'autre accord accord accord 43 3. Je pense que ce serait moralement inacceptable de ne pas utiliser un préservatif lors de chaque relation sexuelle que je pourrais avoir avec un nouveau partenaire au cours des trois prochains mois fortement en assez en légèrement en ni l'un ni légèrement en assez en fortement en désaccord désaccord désaccord l'autre accord accord accord Enfin, l'influence sociale (S) consiste à analyser ce que des personnes ou groupes de personnes spécifiques pensent de l'adoption du comportement. lI est à noter que la norme morale (PNB) et la norme sociale (S) diffèrent en ce que la première fait référence à des règles personnelles que se donne l'individu et n'est pas fonction de l'opinion perçue des autres, comme c'est le cas pour la norme sociale. L'influence sociale est définie par un certain nombre de déterminants que le chercheur choisira en fonction du comportement étudié. Les déterminants les plus souvent mesurés sont la croyance normative (NB) et la croyance en l'existence de rôles sociaux spécifiques (RB). La croyance normative de la TCI correspond à celle de la TCP (voir la section 9.1). La croyance en l'existence de rôles sociaux spécifiques (RB) désigne le degré auquel un répondant perçoit qu'il est approprié de réaliser le comportement pour des individus occupant une position donnée (pouvant être similaire à la sienne) dans la structure sociale. Notons d'emblée qu'il est souhaitable que les items utilisés pour mesurer RB proviennent d'une banque d'items constitués suite à une enquête menée auprès de sujets issus de la population cible (voir la section 9.1). L'une ou l'autre des questions suivantes pourraient être utilisées pour élaborer une banque initiale d'items visant la mesure de RB: Selon vous, quelle(s) personne(s) ou groupe(s) de personne(s) utiliserait(ent) un condom lors de chaque relation sexuelle avec un nouveau partenaire au cours des trois prochains mois? Comment décririez-vous les personnes ou groupe(s) de personne(s) qui utiliserait(ent) un condom lors de chaque relation sexuelle avec un nouveau partenaire au cours des trois prochains mois? 44 De l'analyse de contenu de l'étude qualitative, des items ressemblant aux suivants pourraient être formulés pour la mesure de la croyance en l'existence de rôles sociaux spécifiques (RB): 1. De façon générale, il serait approprié pour une personne de mon âge d'utiliser un préservatif lors de chaque sexuelle avec un nouveau partenaire fortement en assez en légèrement en ni l'un ni légèrement en assez en fortement en désaccord désaccord désaccord l'autre accord accord accord 2. De façon générale, il serait approprié pour une personne de mon sexe d'utiliser un préservatif lors de chaque sexuelle avec un nouveau partenaire fortement en assez en légèrement en ni l'un ni légèrement en assez en fortement en désaccord désaccord désaccord l'autre accord accord accord 3. De façon générale, il serait approprié pour une personne québécoise d'utiliser un préservatif lors de chaque sexuelle avec un nouveau partenaire fortement en assez en légèrement en ni l'un ni légèrement en assez en fortement en désaccord désaccord désaccord l'autre accord accord accord Notons que NB diffère de RB en ce que NB fait référence à la perception de l'individu concernant ce que des individus ou groupes d'individus pensent qu'il devrait faire. La variable RB vise plutôt à cerner la perception du répondant quant à la pertinence que des individus ou groupes d'individus pouvant lui ressembler réalisent le comportement. 45 10. Séquence de présentation des items et des construits Nous avons déjà mentionné que dans son intégralité, la TCP implique la mesure de 11 variables (I, Co, Aact, SN, PBC, b, e, nb, mc, c, p). Ajzen & Fishbein (1980) ne font pas de recommandations précises concernant l'ordre dans lequel les variables doivent apparaître dans le questionnaire. Une revue de la littérature permet d'ailleurs de constater des différences entre les études concernant la séquence d'apparition des items et des construits de la TCP. De telles différences peuvent-elles affecter la valeur prédictive du modèle? Les résultats de plusieurs études menées en psychologie et en marketing laissent croire que tel pourrait être le cas. Il semble en effet que l'ordre de présentation des items est susceptible d'exercer une influence sur les réponses des sujets (e.g. Payne, 1951; Schuman & Presser, 1981; Tourangeau, Rasinski, Bradbun & D'andrade, 1989a, b). Nous avons recensé deux études menées spécifiquement dans le cadre de la TAR visant à estimer l'effet de l'ordre des items sur les réponses des sujets (Budd, 1987; Ellen & Madden, 1990). Les résultats de ces études tendent à démontrer que la séquence d'apparition des items peut affecter la corrélation entre les items et les construits de la TAR. Les résultats de la recherche de Ellen & Madden (1990) indiquent que l'effet de l'ordre des items pourrait varier selon le comportement étudié. Selon Budd (1987), le fait de présenter des items semblables de façon successive plutôt qu’aléatoirement augmenterait la probabilité que les sujets perçoivent les relations entre les items ce qui pourrait les amener à répondre de façon consistante, d'où une augmentation de la corrélation entre les items. Ellen & Madden (1990) associent plutôt leurs résultats à l'accessibilité des informations à la mémoire. Cette dernière variable est l'élément principal des modèles proposés ces dernières années pour expliquer l'effet de l'ordre des items sur les réponses des sujets (e.g. Schwarz & Bless, 1992, Schwarz, Strack & Mai, 1991; Strack & Martin, 1987; Tourangeau & Rasinski, 1988). De façon générale, ces modèles suggèrent que les items présentés rendraient accessibles à la mémoire certaines informations qui pourraient ou non être utilisées pour répondre à un item subséquent. Selon certains de ces modèles (e.g, Schwarz, Strack et Mai, 1991) l'effet d'ordre des items pourrait dépendre du nombre d'items, de leur position et de leur niveau de généralité. De telles variables n'ont pas été prises en compte dans les études de Budd (1987) et Ellen & Madden (1990) ce qui n'est pas surprenant dans la perspective où le modèle théorique mentionné apparut subséquemment aux études de Budd et Ellen & Madden. En somme, les résultats des recherches menées à ce jour dans le cadre de la TAR laissent supposer que l’ordre de présentation des items peut affecter les réponses des sujets mais ils ne permettent pas d'établir s'il est préférable ou non de présenter simultanément les items d'un même construit ou d'adopter une séquence quelconque dans la présentation des construits. 46 11. Mise au point du questionnaire Nous proposons de procéder en trois étapes pour mettre au point le questionnaire. Il s'agit d'effectuer deux préexpérimentations auprès d'un nombre limité de sujets issus de la population cible et de déterminer, une fois terminée la collecte des données de l'étude principale, les items qui seront utilisés pour mesurer les construits. Cette façon de faire comporte évidemment certains désavantages dont celui que les sujets auraient pu répondre différemment au questionnaire si les items que nous ne gardons pas en fin d'analyse n'étaient pas apparus. Le fait d'utiliser un nombre restreint de sujets lors des préexpérimentations présente aussi des limites en regard notamment de la représentation des divers niveaux de possession de la variable mesurée dans la population. La démarche proposée s'avère néanmoins plus adaptée aux contextes pratiques des recherches que celle suggérée par certains auteurs et qui consiste à expérimenter et à mettre au point la forme finale de l'instrument auprès d'un échantillon de 300 sujets...(e.g. DeVellis, 1991). Lorsque le budget et le temps le permettent, il est néanmoins souhaitable que la mise au point définitive de l'instrument de mesure se fasse préalablement à la collecte des données de l'étude principale. 11.1 Les préexpérimentations La première préexpérimentation poursuit plusieurs buts. Il s'agit de vérifier la clarté des questions et des directives, la pertinence, l'exhaustivité et le caractère distinctif des options de réponse offertes. Pour ce faire, on peut demander à cinq ou dix sujets issus de la population visée: -de lire les directives et d'exprimer ce qu'ils en comprennent; -de préciser le sens qu'ils donnent aux questions; -faire état des mots ambigus ou complexes; -d'indiquer s'il est facile ou difficile de répondre aux questions et d'exprimer les difficultés éprouvées à répondre; -d'identifier les questions les plus difficiles à comprendre; -d'indiquer s'ils établissent une différence entre chacune des options de réponse et dans la négative, d'identifier celles qu'ils estiment trop semblables; -d'inscrire une nouvelle réponse si aucune de celles proposées ne permet de traduire précisément leur pensée. 47 Après avoir effectué les ajustements nécessaires, une deuxième préexpérimentation peut être entreprise en administrant le questionnaire à un échantillon d'au moins 30 sujets présentant des caractéristiques semblables à celles de la clientèle visée. Une étude de la fidélité (test-retest) peut être menée en administrant le questionnaire à deux reprises au même échantillon. Cette deuxième préexpérimentation permettra d'examiner: -le respect des directives; -les réactions en regard des items ou de certains mots. On pourra à cet effet noter les hésitations et les questions posées par les sujets. Ces informations pourront être utiles au moment de l'interprétation des résultats; -le temps que nécessite l'administration du questionnaire; -la dispersion des réponses à chacun des items afin de modifier ou d'écarter les options de réponse ou les items présentant une faible variabilité; -les liens entre les items (voir la section ci-dessous portant sur l'évaluation des items). 11.2 L'évaluation des items La compréhension et une lecture critique de cette section nécessite la connaissance de certaines notions de base en statistique et en traitement de données. Les ouvrages de Bertrand & Valiquette (1986), Glass & Hopkins (1996) et Miller (1987) constituent à cet effet de bonnes références. Nous désirons aussi insister sur le fait qu'il existe des différences parfois importantes entre les chercheurs concernant la façon d'analyser des données et d'estimer la qualité d'un item ou d'un instrument de mesure. Il n'est pas dans nos visées de présenter les avantages et les désavantages des différentes alternatives possibles. Nous ferons parfois allusion à plus d'une façon de faire et laissons au lecteur le soin de déterminer la stratégie la plus appropriée à sa situation particulière. Avant de présenter les critères pouvant être utilisés pour estimer la qualité d'un item, nous désirons aborder certains aspects en lien avec l'analyse de données. Niveaux de mesure des variables de la TCP. Les variables de la TCP sont généralement mesurées à partir du différenciateur sémantique ou avec des échelles de type Likert. Comme 48 nous l'avons déjà mentionné, nous ne connaissons pas le niveau de mesure exact des résultats obtenus à ces échelles. En fait, il est difficile d'établir si elles correspondent à une échelle ordinale ou d'intervalle (Himmelfarb, 1993). Le niveau de mesure des variables de la TCP et la nature des tests statistiques à utiliser pour les traiter ne font donc pas l'unanimité chez les auteurs. Nous ne raviverons pas le débat ici et considérerons, comme la majorité des auteurs, que nous sommes en présence d'échelles d'intervalle. Assignation de nombres aux options de réponse. Fishbein & Ajzen (1980) proposent d'assigner, aux options de réponse formant une échelle bipolaire, des valeurs d'échelle passant du négatif au positif (ex.: -3 à +3). Ils suggèrent en outre d'interpréter un score négatif comme la négation d'un concept. Considérons l'exemple suivant: Si je consomme toujours des aliments faibles en gras et en cholestérol au cours des trois prochains mois, cela m'aidera à perdre du poids X très assez légèrement ni l'un ni légèrement assez très improbable improbable improbable l'autre probable probable probable Perdre du poids est: X très assez légèrement ni l'un ni légèrement assez très indésirable indésirable indésirable l'autre désirable désirable désirable La réponse obtenue au premier item (-3) suggère que le répondant estime qu'il est très probable que la consommation d'aliments faibles en gras et en cholestérol ne l'aidera pas à perdre du poids alors que la réponse au deuxième item (-3) indique que le sujet considère qu'il est très désirable de ne pas perdre de poids. 49 Ajzen & Fishbein (1980) font allusion à la mesure indirecte de l'attitude ( bxe) pour justifier l'assignation de valeurs d'échelle passant du négatif au positif. Cette façon de faire permettrait d'attribuer un score positif à des individus croyant qu'un comportement n'entraîne pas une conséquence qu'ils évaluent négativement. Dans l'exemple précédent, on constate que la multiplication des réponses obtenues aux items b (=-3) et e (=-3) donne lieu à un score positif (+9) traduisant, comme il se doit, une attitude positive envers la consommation d'aliments faibles en gras et en cholestérol. Cette façon de faire entraîne néanmoins un problème que Valiquette, Valois, Desharnais & Godin (1988) ont mis en lumière. Ces derniers auteurs ont démontré que la multiplication de deux scores négatifs peut, selon le comportement étudié, occasionner un faux score positif. Prenons l'exemple d'un individu croyant que la pratique d'activités physiques ne permet pas d'augmenter l'espérance de vie (-3) et qui évalue négativement une augmentation de l'espérance de vie (-3). Ce répondant obtiendrait un score d'attitude (bxe) positif (+9) alors que ses réponses ne témoignent pas d'une attitude positive envers la pratique d'activités physiques. Aussi Valiquette et ses collaborateurs recommandent-ils d'accorder une attention particulière aux scores résultant de la multiplication de deux réponses négatives. Nous désirons souligner que les faux scores positifs sont, du moins dans les études que nous avons analysées, relativement peu fréquents. Dans plusieurs cas ils surviennent lorsque des individus (généralement un nombre très limité) évaluent négativement une conséquence comportementale considérée désirable par la majorité des autres répondants. Ce sont des individus qui évaluent négativement le fait par exemple de se sentir bien. Il est conseillé d'accorder une attention particulière à la façon dont ces individus répondent à l'ensemble des items du questionnaire. Il peut s'agir de sujets ayant adopté une façon déviante de répondre (e.g. choix systématique de réponses extrêmes). L'expérience révèle que dans bien des cas, ces individus dont les réponses donnent lieu à de faux positifs omettent de répondre à un nombre important d'items, ce qui amène à reconsidérer leur inclusion dans l'échantillon ou du moins à reconsidérer leurs réponses à la mesure de certains construits. Pour terminer, nous désirons insister sur le fait que les scores positifs qui résultent de la multiplication de deux réponses négatives ne sont pas nécessairement de faux positifs, le contenu de l'item permet de déterminer si tel est le cas. En outre, les individus présentant de faux scores positifs ne doivent pas être systématiquement éliminés de l'échantillon. Il importe d'apporter une attention particulière à chaque cas en considérant notamment les réponses obtenues aux autres items. Enfin, c'est la pertinence de l'item qui devrait être reconsidérée lorsqu'il occasionne chez plusieurs sujets un faux score positif. 50 Plusieurs auteurs n'appliquent pas les recommandations de Ajzen & Fishbein (1980) et attribuent aux options de réponse des valeurs d'échelles exclusivement positives (e.g. 1 à 7) plutôt que des valeurs d'échelles passant du négatif au positif (e.g. -3 à +3). Cette situation est problématique en ce qu'elle peut, notamment, affecter la corrélation entre un construit indirect et une autre variable. En d'autres termes, on pourrait obtenir une corrélation plus ou moins élevée entre par exemple bxe et Aact selon les nombres assignés aux options de réponses des items utilisés pour la mesure de b et e. Le lecteur peut consulter Schmidt (1973) pour une démonstration empirique de ce fait et Arnold & Evans (1979) ou Bagozzi (1984) pour une démonstration mathématique. Il importe de savoir que les valeurs d'échelle assignées aux options de réponse n'affectent pas la corrélation entre les construits de la TCP n'impliquant pas la multiplication de deux variables. Des stratégies ont été proposées pour contrôler le fait que la corrélation entre deux construits, dont l'un résulte de la multiplication de deux variables, peut varier selon les valeurs d'échelle assignées aux options de réponse. Par exemple, Thurstone & Jones (1957) ont proposé une méthode pour élaborer des échelles de ratio. Cette approche s'avère cependant laborieuse (Schmidt, 1973) et très peu de chercheurs l'utilisent (Bagozzi, 1984). D'autres auteurs proposent de recourir à la régression hiérarchique (e.g. Arnold & Evans, 1979; Evans, 1991). La pertinence de cette méthode pour contourner le problème de l'influence des valeurs d'échelle assignées aux options de réponse est toutefois controversée (Birnbaum, 1973, 1974; Busemeyer & Jones, 1983). En outre, pour obtenir une certaine stabilité des paramètres, la régression hiérarchique suppose un nombre important de sujets, ce qui rend la méthode relativement moins attrayante (Valois, Desharnais, Godin, Perron, & Lecompte, 1993). Finalement, Holbrook (1977) propose une formule mathématique permettant de déterminer laquelle des façons d'attribuer des valeurs d'échelles aux options de réponse conduit à une plus forte corrélation entre les construits. Cette méthode fut aussi critiquée par quelques auteurs (e.g. Bagozzi, 1984; Evans, 1991). Nous remettons en question le principe de cette dernière approche en ce que la maximisation de la corrélation ne devrait pas être l'objectif premier; il faut chercher avant tout à ce que des scores plus élevés soient attribués aux individus sélectionnant des réponses traduisant une plus forte possession de la caractéristique mesurée. Nous faisons référence ici à la notion de validité des résultats. Il n'existe donc pas de solution qui fait l'unanimité chez les auteurs en ce qui concerne la façon de résoudre le problème de l'influence des valeurs d'échelle sur la corrélation entre les construits indirects et d'autres variables. Il importe de spécifier cependant que certains auteurs 51 ont comparé la corrélation entre les construits directs et indirects en attribuant différentes valeurs d'échelle aux options de réponse (e.g. Ajzen, 1991; Hewstone & Young, 1988; Sparks, Hedderley & Shepherd, 1991, Budd, North & Spencer, 1984; Fishbein & Ajzen, 1981; Loken & Fishbein, 1980). L'étude de Gagné & Godin (soumis pour publication) indique que dans le cas de la mesure de comportements liés à la santé, les échelles suivantes permettent le plus souvent d'obtenir une plus forte corrélation entre les construits directs et indirects: bbeb, nbbmcu, cupu [u=assignation de valeurs d'échelle positives seulement (e.g. 1 à 7), b=assignation de valeurs d'échelle passant du négatif au positif (e.g. -3 à +3)]. Cette dernière étude démontre également qu'indépendamment des valeurs d'échelles assignées, le fait d'utiliser b, nb, p plutôt que bxe, nbxmc, cxp permet d'obtenir des corrélations similaires ou supérieures avec le construits direct correspondant. Ces résultats tendent à confirmer, comme l'a suggéré Ajzen (1991), que le modèle des attentes x valeurs (expectancy x value model) pourrait ne pas être le meilleur pour décrire la relation entre les construits directs et indirects. Pondération du score total en fonction du nombre d'items répondus. Plus souvent qu'autrement, nous retrouvons des individus ayant omis de répondre à un nombre plus ou moins important d'items. Cette situation est problématique en ce que si nous avons fait appel à plusieurs items, c'est que nous avons cru qu'ils étaient nécessaires pour cerner le construit à l'étude. Que signifie le score d'un individu ayant répondu à 7 des 10 items présentés? Ce répondant pourrait en fait obtenir un score aussi élevé qu'un individu ayant fourni une réponse aux 10 items. On ne pourrait pourtant pas conclure que ces deux individus ont le même niveau de possession de la caractéristique mesurée. Aussi serait-il pertinent de procéder à des ajustements pour rendre plus comparables leurs résultats (Voyer, 1996). Une pratique consiste à déterminer le nombre d'omissions que nous sommes prêts à tolérer pour accepter de considérer les réponses d'un répondant. Pour notre part, nous fixons généralement qu'un sujet doit avoir répondu à environ 75% des items présentés pour considérer ses réponses à un construit. Ce critère implique que nous ne tolérons aucune valeur manquante à un construit mesuré à partir de deux items seulement. En postulant qu'un sujet répondrait aux items omis de la même façon qu'aux autres items visant la mesure du même construit, on pourrait attribuer aux items omis la moyenne obtenue par le sujet aux autres items se rapportant au construit. Une autre méthode consiste à attribuer à un sujet n'ayant pas répondu à un item la valeur moyenne obtenue par l'ensemble des autres répondants à cet item. Comme le mentionne Voyer (1996), les approches décrites ci-dessus posent problème en ce que nous connaissons généralement en fin d'analyse les items qui composeront la forme finale 52 de l'instrument. Aussi est-il pertinent de procéder à un examen attentif des observations afin d'écarter les cas douteux et d'étudier la distribution des fréquences des résultats bruts des items afin de déterminer la proportion d'omissions que nous sommes prêts à tolérer aux items initiaux. Inversion de l'échelle de réponse. Certains items sont formulés de façon telle que le fait de se montrer tout en fait en accord avec leur contenu ne suppose pas la possession de la caractéristique mesurée. Considérons l'exemple suivant: Si je consomme toujours des aliments faibles en gras et en cholestérol au cours des trois prochains mois, les aliments m'apparaîtront sans saveur très assez légèrement ni l'un légèrement assez très improbable improbable improbable ni l'autre probable probable probable L'option de réponse <<très probable>> ne traduit pas une attitude positive envers la consommation d'aliments faibles en gras et en cholestérol. Cette option de réponse devrait donc recevoir la valeur d'échelle la plus faible, soit 1 ou -3 lorsque l'échelle comporte sept niveaux de réponse. Retenons que les valeurs d'échelles devraient être attribuées de façon à ce qu'un score total élevé à la sommation de l'ensemble des items mesurant un construit donné traduise un niveau de possession plus important de la caractéristique mesurée. Vérification des données. Nous désirons insister sur un aspect souvent passé sous silence mais non moins important au sujet de la vérification des données. Le questionnaire ayant été administré, on compilera les données sur un support quelconque qui consiste généralement en un progiciel d'analyse de données (e.g. SAS, SPSS, BMDP, TESTAT etc.). Cette opération occasionne souvent des erreurs (erreurs de transcription, erreurs de lecture des réponses etc.). Il importe de scruter attentivement les données afin de détecter les erreurs. Nous encourageons l'utilisation de stratégies permettant de minimiser ces erreurs (e.g. entrée de données effectuée par des individus différents avec comparaison systématique des résultats, programmation informatique qui permet d'émettre un signal lorsqu'une donnée excède les valeurs permises, sélection au hasard de quelques questionnaires et vérification systématique de toutes les réponses 53 enregistrées afin de vérifier si elles ne font pas l'objet d'erreurs, examen de la distribution de fréquences des résultats pour vérifier si l'étendue des scores excède les valeurs permises etc.). 11.2.1 Critères pour estimer la qualité d'un item Plusieurs critères peuvent être utilisés pour évaluer la qualité d'un item ou d'un instrument de mesure. Ces critères et le nom qu'ils portent ne sont pas indépendants de la théorie de la mesure à laquelle ils se rattachent (théorie classique de la mesure, théorie de la généralisabilité et théorie des réponses aux items). Ces théories consistent en des modèles d'interprétation statistique des résultats. La description et la comparaison de ces théories dépassent largement les objectifs fixés pour ce document. Notons néanmoins que c'est en référence à la théorie classique de la mesure que nous abordons cette section. Il existe donc plusieurs critères pour estimer la valeur d'un item et il importe d'en considérer plus d'un pour se faire une idée de la qualité d'un item. Il faut donc voir le processus de façon globale et éviter de se braquer sur un seul critère. Nous allons présenter un certain nombre de ces critères, il ne s'agit cependant pas d'une liste exhaustive. Il est suggéré en tout premier lieu d'étudier la distribution de chacun des items. Quelle forme prend-t-elle? Les sujets ont-il préféré certaines réponses plutôt que d'autres? Dans la perspective où l'on tente de mettre en évidence des différences entre les individus ou des groupes d'individus, un item auquel les sujets auraient répondu de la même façon serait inutile en soi. Un tel item ne pourrait d'ailleurs être en relation avec d'autres variables. Est-ce qu'un nombre important de sujets ont omis de répondre à l'item? Un item auquel les sujets refusent de répondre est nécessairement un mauvais item. Un examen visuel des résultats obtenus à chacun des items permet en fait de <<prendre le pouls>> des données et de choisir la statistique (e.g. mode, médiane, moyenne) ou les tests statistiques les plus appropriés aux résultats obtenus. Cette première étape devrait permettre d'identifier les items accusant une forte proportion de nonréponses et ceux présentant une faible variabilité des réponses. 54 Ce premier examen des données pourrait être suivi de l'étude de la relation entre les items visant la mesure d'un même construit. Les construits de la TCP sont généralement mesurés avec un nombre relativement peu élevé d'items, il n'est donc pas trop ardu d'étudier la matrice de corrélation des items se rapportant au même construit. Mentionnons au passage que le calcul du coefficient de corrélation varie selon que les variables sont dichotomiques ou continues. Le coefficient de corrélation de Pearson est généralement calculé pour rendre compte de la relation entre les items ou les construits de la TCP. En théorie, un coefficient de corrélation peut prendre une valeur entre -1 et 1. En pratique, les erreurs inhérentes à toutes mesures ne permettent pas d'atteindre ces valeurs limites. Le coefficient de corrélation est en effet limité par la fidélité respective des variables mises en relation, mais nous nous éloignons là de l'essentiel de nos propos (pour plus de détail, voir e.g. Laurencelle, 1998). Retenons donc qu'il faut porter attention au sens (+ ou -) et à l'ordre de grandeur du coefficient de corrélation. Selon certains auteurs, il est souhaitable que le coefficient de corrélation atteigne une valeur d'au moins +.30 lorsqu'il est question de la relation entre des items visant la mesure d'un même construit. Il s'agit là d'un repère et on ne devrait pas rejeter systématiquement un item dont la relation avec les autres items n'atteint pas cette valeur. D'ailleurs, il se peut qu'un item soit en forte relation avec certains items et qu'il entretienne une relation plutôt modérée avec d'autres items visant la mesure du même construit. Il est à noter que les items très fortement corrélés devrait, au même titre que les items peu reliés, attirer notre attention. À ce stade-ci, on note donc les items semblant bien aller ensemble et ceux qui apparaissent faire défaut. Notons que la majorité des auteurs utilisant la TCP comme cadre de référence reconnaît une seule dimension à chacun des construits. En fait, les résultats des études ayant testé le caractère unidimensionnel des construits s'avèrent souvent contradictoires. Sachons néanmoins que si l'on reconnaît plus d'une dimension à une échelle, l'analyse des interrelations devra être effectuée en fonction de chacune des composantes. Dans une perspective de validation des résultats, il convient d'étudier la relation entre les items de chacun des construits indirects et le construit direct correspondant. En ce qui concerne la mesure de l'attitude, par exemple, il s'agirait d'observer la relation entre chaque item visant la mesure de bxe et Aact (une fois bien entendu que la mesure de Aact aura été estimée valide et fidèle. On peut considérer à cet effet la valeur du coefficient alpha et la relation que le construit direct entretient avec l'intention; sur la base de la TCP, cette relation devrait être forte). D'un point de vue théorique, il est raisonnable de s'attendre à observer une corrélation relativement élevée entre les mesures directes et indirectes puisqu'elles visent essentiellement à 55 rendre compte du même construit (l'attitude envers le comportement, la norme subjective ou la perception du contrôle). Or, les faits révèlent que la relation entre les construits directs et indirects est plus souvent modérée qu'élevée (Ajzen, 1991). On ne devrait donc pas se surprendre que les items visant la mesure des construits indirects ne corrèlent pas fortement avec la mesure directe correspondante. N'oublions pas en outre que la relation postulée entre les construits directs et indirects concerne l'ensemble des items se rapportant à un construit; aussi ne faut-il pas être trop sévère en regard de chacun des items pris individuellement. Il importe néanmoins d'accorder une attention spéciale aux items de la mesure indirecte qui corrèlent négativement avec le construit direct correspondant. L'expérience révèle que cette situation est plutôt rare lorsqu'on assigne aux options de réponses les valeurs d'échelles suggérées précédemment (bbxeb, nbbxmcu, cuxpu). Les items entretenant une corrélation très faible ou négative avec le construit direct correspondant devrait donc être identifiés. Il en est de même des items dont la corrélation avec le construit direct correspondant est plus faible que celle observée avec l'un des construits directs visant la mesure d'un autre construit. Il est à noter que les propos tenus ici valent aussi lorsqu’on fait appel à un critère externe pour juger de la validité de notre instrument, c'est-à-dire qu'il faut se préoccuper davantage des résultats à l'ensemble des items visant la mesure du même construit plutôt qu'à chacun des items en particulier. Toujours dans une perspective de validation des résultats, il est aussi approprié d'examiner la relation entre chacun des items visant la mesure des construits indirects et les autres construit indirects de la TCP. En principe, la corrélation entre un item et le construit dont il vise la mesure devrait être plus élevée que celle entre l'item et tout autre construit de la théorie. Il est raisonnable de s'attendre par exemple à ce qu'un item visant la mesure de bxe soit plus lié à bxe qu'à nbxmc ou cxp. La même logique s'applique au construit direct. Un item visant la mesure de Aact devrait être davantage lié à Aact qu'à SN ou PBC. L'expérience révèle que les items entretiennent avec le construit qu'ils mesurent une relation plus forte ou du moins semblable à celle les liant aux autres construits de la TCP. On devrait noter les items plus fortement corrélés avec un autre construit que celui dont il vise la mesure. Les étapes précédentes devraient avoir aidé à l'identification d'items potentiellement problématiques. Nous poursuivons dans le même sens avec l'étude des relations entre chacun des items et le score obtenu à la sommation des autres items visant la mesure du même construit (corrélation item-total). Les programmes informatiques spécialisés (SAS, SPSS, BMDP, TESTAT etc.) fournissent automatiquement ces valeurs. Ils indiquent également l'incidence du retrait de chaque item sur la valeur du coefficient alpha (voir la note 3). L'interprétation et 56 l'utilisation des résultats de ces sorties informatiques demandent une certaine vigilance. Il ne serait pas approprié par exemple de rejeter systématiquement un item sans apporter attention à son contenu. À cet effet, nous avons remarqué que les items visant la mesure de bxe se divisent parfois en deux groupes: ceux qui font référence à des avantages et ceux traduisant plutôt les désavantages perçus associés à l'adoption d'un comportement. Lorsque les uns se retrouvent en plus grand nombre que les autres, on constate qu'on profiterait d'une augmentation du coefficient alpha en rejetant ceux se retrouvant en plus petit nombre. Une telle façon de faire contribuerait certes à augmenter la fidélité de la mesure, au détriment cependant de la validité... Il n'existe pas de critère absolu en ce qui concerne l'ordre de grandeur du coefficient de corrélation entre un item et la sommation des autres items visant la mesure du même construit. Certains auteurs indiquent qu'il serait souhaitable qu'il se situe au moins autour de +.30. Il s'agit encore là d'un point de repère. Les items peu reliés avec les autres visant la mesure du même construit devrait attirer notre attention. Ces items apparaissent certes problématiques, mais il est conseillé d'examiner leur contenu et leur relation avec le construit direct avant de les rejeter. Comme nous l'avons déjà mentionné, il ne faudrait pas sacrifier la validité au profit de la fidélité. En ce qui concerne la valeur que devrait atteindre le coefficient alpha, il n'existe pas, encore là, de critère absolu (en principe, le coefficient alpha peut prendre une valeur se situant entre 0 et 1). Les valeurs tolérées varient en fait d'un chercheur à l'autre. De façon générale, les auteurs utilisant la TAR ou la TCP comme cadre de référence acceptent des valeurs oscillant au minimum entre .60 et .70. Il ne faut pas oublier que deux principaux facteurs exercent une influence sur la valeur du coefficient alpha: le nombre d'items et leur covariation. Ainsi et toutes choses étant égales par ailleurs, il serait possible d'obtenir un coefficient alpha relativement élevé avec un très grand nombre d'items entretenant des relations modérées. De la même façon, un nombre limité d'items fortement corrélés permettrait d'aboutir à une valeur relativement élevée au coefficient alpha. 57 Conclusion Bien que la démarche que nous avons proposée vise d'abord à satisfaire les critères de mesure de trois théories sociales cognitives (la TAR, la TCP et la TCI), elle peut aussi être adaptée et utilisée pour la mesure des construits psychologiques de d'autres théories. On aura compris cependant qu'à plusieurs questions concernant l'élaboration de questionnaire et la mesure des construits psychologiques n'existent pas de réponse unique, valable pour toutes les situations. Aussi est-il souhaitable de recourir à plusieurs sources d'informations et de prendre connaissance de ce qui se fait dans son milieu. Ainsi pourra-t-on estimer les forces et les faiblesses des différentes façons de faire et choisir celle la plus susceptible de satisfaire aux besoins de sa situation particulière. 58 Notes 1. Un construit est une variable qui n'existe que par définition. Il s'agit d'une structure latente inventée pour décrire et expliquer ce que nous percevons. Puisque les construits ne sont pas observables directement, il faut faire appel à des indicateurs de leur présence. Un indicateur consiste en une manifestation observable duquel nous inférons la présence d'un construit ou d'une caractéristique donnée. 2. Fishbein & Ajzen (1975) définissent le comportement comme une action observable. Partant de cette définition, les distinctions suivantes doivent être apportées. Il importe tout d'abord de différencier un comportement de ses conséquences. Perdre du poids n'est pas un comportement mais le résultat de certaines actions telles consommer des aliments faibles en calories, suivre un programme d'exercices physiques, éviter de grignoter entre les repas etc. Cette nuance apparaît d'autant plus importante que certains facteurs autres que le comportement adopté par un individu pourrait exercer une influence sur les résultats observés. Ainsi, la perte de poids d'un sujet pourrait être induite non pas seulement par une réduction de la consommation d'aliments faibles en calories ou en matières grasses mais aussi par la maladie. Par ailleurs, il importe de distinguer un comportement général (non observable directement) des comportements spécifiques qui y sont associés. Par exemple, manger sainement consiste en un comportement général pouvant se traduire par un ensemble de comportements spécifiques tels manger des fruits à chaque jour, préparer ses aliments avec peu ou pas de matières grasses etc. De la même façon, l'activité physique est un comportement général; nous ne voyons pas une pratique d'activité physique mais des individus qui font du vélo, qui nagent à la piscine etc. Selon Ajzen & Fishbein (1980) ce sont des comportements spécifiques qui devraient préférablement faire l'objet de la mesure. Il n'est pas dit que les comportements généraux ne peuvent être estimés; ils pourront l'être en combinant par exemple les mesures d'un nombre relativement élevé de comportements spécifiques reconnus comme des indicateurs valables du comportement général (voir Ajzen & Fishbein, 1980, pour plus de détail). Cela dit, mentionnons qu'il n'est pas rare de retrouver des questionnaires mesurant directement un comportement général. Dans ce cas cependant, on aura tôt fait de fournir une définition précise du comportement général et de spécifier au besoin les comportements spécifiques que l'on désire associer au comportement général. En principe, la définition du comportement général devrait être suffisamment précise pour que les sujets ne lui prêtent pas des interprétations différentes. En spécifiant par exemple le type d'activité physique auquel on s'intéresse (e.g. activité aérobique pratiquée à 70% de sa capacité maximale,) le risque diminue qu'un individu s'adonnant au jardinage associe son loisir à la mesure comportementale recherchée. Mentionnons pour terminer que le fait de définir un comportement général en 59 référant à des comportements spécifiques comportera toujours le risque que les sujets ne répondent pas aux questions en référence aux critères spécifiés. Par exemple, en dépit de la précision du comportement suivant <<une alimentation faible en gras et en cholestérol consiste à toujours consommer des produits laitiers écrémés et des viandes maigres prises en petite quantité et cuites sans gras, puis manger quotidiennement du pain et des céréales à grains entiers et des fruits et des légumes frais>>, il se peut que les sujets répondent au questionnaire en ne référant qu'à un ou deux des comportements spécifiques décrits, ce qui peut contribuer à fausser les résultats. 3. Certains volumes, dont celui de Laurencelle (1998), fournissent une description détaillée des concepts de fidélité et de validité. Nous présentons ci-dessous un aperçu de ces concepts de base. La fidélité et la validité sont les deux principales qualités attendues d'un instrument de mesure. La fidélité réfère à la constance ou à la consistance des résultats fournis par un instrument de mesure alors que la validité se préoccupe de la pertinence de l'instrument, du degré auquel il mesure ce qu'il prétend mesurer. Dans la théorie classique des tests, on retrouve trois principales méthodes pour rendre compte de la fidélité d'une mesure ou d'un instrument de mesure: la stabilité, l'équivalence et la consistance interne. Le test-retest consiste à administrer le même instrument de mesure au même échantillon de sujets à deux occasions différentes et à calculer la corrélation entre les résultats obtenus à ces deux administrations. La méthode de l'équivalence consiste à élaborer et à présenter simultanément deux formes équivalentes d'un même instrument et à calculer la corrélation entre les résultats obtenus à ces deux mesures qui se veulent la même. Il existe plus d'une approche pour rendre compte de la consistance interne d'un instrument. Nous allons présenter celles dont il est le plus souvent fait mention: la méthode des moitiés et celle de Cronbach. La méthode des moitiés consiste à séparer en deux groupes égaux les items d’un même instrument et à calculer la corrélation entre les deux moitiés ainsi obtenues. En principe, les items devraient être répartis de façon à obtenir deux moitiés équivalentes. Puisqu'elle implique de travailler avec la moitié des items initiaux, la méthode des moitiés conduit à une sous-estimation de la fidélité. En effet, toutes choses étant égales par ailleurs, la fidélité d'un instrument croît en fonction du nombre d'items qu'il comporte. Il est possible de corriger le biais ou la sous-estimation en appliquant la formule développée par SpearmanBrown, laquelle permet de rendre compte de la fidélité d’un instrument comportant un nombre donné d’items. La méthode des moitiés comporte le désavantage de conduire à des estimations différentes de la fidélité selon le critère retenu pour composer les deux groupes d’items qui seront comparés. La méthode de Cronbach permet de contourner ce problème. Cette dernière 60 méthode consiste en un estimé de la fidélité fondé sur la moyenne des coefficients d'interrelations entre plusieurs parties d’un instrument. Chaque item est généralement considéré comme l’une des subdivisions possibles de l'instrument. Le coefficient de corrélation obtenu est appelé coefficient alpha. Le calcul du coefficient alpha suppose que les items de l'instrument visent la mesure d'un même construit et que le poids accordé à chacun de ces items est le même. Pour terminer, notons qu'un coefficient alpha élevé n'implique pas que l'échelle présente une structurelle factorielle unique (voir la note 7). En effet, le coefficient alpha, comme les autres indices de fidélité, est fonction du nombre d'items qui composent l'échelle. Ainsi un coefficient alpha élevé pourrait être obtenu avec un nombre important d'items dont la valeur moyenne des interrelations est modérée. De la même façon, un petit nombre d'items en très forte association pourrait conduire à une valeur élevée au coefficient alpha. Le fait qu'une échelle soit fidèle n'implique pas qu'elle est valide; un instrument peut en effet mesurer de façon constante ou consistante une caractéristique autre que celle prétendue par le chercheur. La plupart des auteurs reconnaissent trois classes principales de stratégies pour estimer la validité d'un instrument de mesure: la validité de construit, la validité par association avec un critère et la validité de contenu. La description qui suit de chacun des trois types de validité consiste en une traduction et une adaptation de certaines parties du texte de Himmelfarb (1993). La validité de construit d'une échelle est déterminée sur la base de prédictions théoriques au sujet des relations que l'instrument devrait entretenir avec des mesures du même construit ou des construits avec lesquels il est logiquement associé. Dans plusieurs cas, ces prédictions prennent appui sur un certain nombre d'idées généralement acceptées quant à la nature et au mode de fonctionnement de l'objet d'étude. Selon Campbell & Fiske (1959), la validité de convergence et la validité discriminante constitueraient deux composantes essentielles de la validité de construit. La validité de convergence repose sur l'idée qu'un instrument mesurant une caractéristique donnée devrait être en forte relation avec d'autres échelles visant à rendre compte du même construit ou des construits semblables. Il importe de savoir cependant que des mesures alternatives d'un même construit peuvent être en forte association non seulement parce qu'elles visent à rendre compte de la même caractéristique mais aussi en raison du fait qu'elles partagent des sources communes de biais ou de variance liées à la méthode (Campbell & Fiske, 1959). La validité de discrimination rappelle, quant à elle, qu'un instrument ne devrait pas être en trop forte relation avec des mesures de construits différents. Comme son nom l'indique, la validité par association avec un critère externe réfère au degré auquel les scores d'un instrument de mesure sont en corrélation avec un critère externe. 61 Lorsque les scores de la mesure du critère sont recueillis au même moment que ceux de l'instrument à valider, on fait référence à la validité concourante. Par contre, si les données visant à mesurer la variable servant de critère sont obtenues ultérieurement, on parle plutôt de validité prédictive. Enfin, la validité de contenu réfère à la représentativité des items retenus pour mesurer le construit à l'étude. Ce type de validité se préoccupe de vérifier si l'échantillon d'items retrouvés dans un instrument de mesure représente bien l'univers de contenu visé. 4. <<Dans la littérature, on retrouve diverses expressions, plus ou moins précises, qui s'apparentent à celle de biais de réponse. Les plus répandues ou les mieux connues sont sans doute celles de response effect, response style et response set. Chacune de ces expressions désigne cette tendance qu'ont certains individus à répondre aux items d'un questionnaire d'une certaine façon, quel qu'en soit le contenu. Il semble que cette tendance pourrait dépendre, en partie du moins, du format des questions et qu'elle se manifeste lorsque le sujet éprouve un sentiment d'incertitude concernant la façon de répondre aux items présentés. Ce malaise pourrait tenir à plusieurs facteurs dont l'ambiguïté ou le manque de structuration de la situation (Cronbach, 1946; Shulman, 1973), l'absence d'indice quant à la réponse attendue (Berg & Rapaport, 1954), le niveau de difficulté des questions (Cronbach, 1950) ou la difficulté de bien interpréter l'échelle utilisée (Shulman, 1973). Cette forme de comportement pourrait encore se manifester lorsque le répondant éprouve une certaine fatigue, de l'ennui ou un manque d'intérêt pour l'objet d'étude (Hui & Triandis, 1985; Sudman & Bradburn, 1982) ou lorsque, pour une raison ou une autre, il considère une question menaçante (Sudman & Bradburn, 1974). Ne pouvant ou ne cherchant pas à se prononcer en fonction du contenu des items, le sujet adopterait alors une façon de répondre que certains auteurs appellent un patron de réponse. Au nombre des patrons de réponse auxquels font le plus souvent référence les auteurs, on retrouve la tendance à choisir les options de réponse plus neutres (tendance à ne pas se compromettre), la prédisposition à être en accord, c'est-à-dire la tendance à se montrer favorable ou en accord avec un énoncé indépendamment de son contenu et son antagoniste, la propension à répondre de façon négative ou provocatrice (Cronbach, 1946, 1950).>> (Tiré de Gagné, 1997). 62 5. << Dans le sens le plus large qui nous intéresse, une échelle fait référence à une suite progressive de degrés ou de niveaux. Cette définition commune convient pour caractériser la graduation des divisions, des repères ou des échelons d'un continuum de réponses possibles à une question. On parle ainsi d'une échelle à 2 (oui-non), à 4 ou à 5 niveaux de réponse (tout-àfait d'accord à pas d'accord du tout) ou même davantage. Par extension, le terme échelle désigne également les instruments de mesure constitués de plusieurs items et destinés à évaluer chez des individus le niveau de possession d'un trait ou d'une caractéristique particulière par rapport à un continuum donné. C'est en ce sens que nous affirmons avoir recours à des échelles d'attitudes, des échelles de personnalité, de désirabilité sociale, d'hypocondrie ou même d'intelligence. Derrière l'utilisation de ce type d'instruments se profile la volonté d'échelonner des gens, des choses ou des objets, c'est-à-dire de les répartir ou de les disposer par degrés ou à une certaine distance les uns des autres par rapport à un attribut particulier. Nous faisons enfin appel au concept d'échelle de mesure pour désigner chacun des degrés successifs de nos classifications en regard des propriétés des nombres réels. Ces derniers possèdent en effet en eux-mêmes des propriétés que nos façons de faire pour les attribuer respectent à des degrés divers. Ainsi parlerons-nous d'échelles de mesure de niveau ordinal ou de niveau d'intervalle ou, plus simplement, d'échelles ordinales et d'échelles d'intervalle.>> (Tiré de Voyer & Gagné, 1995, p. 3) 6. Une fonction monotone exprime une relation croissante ou décroissante. Une relation est croissante si pour tout couple de points (x1, y1), (x2, y2), un accroissement de x1 à x2 entraîne un accroissement de y1 à y2. D'autre part, elle sera décroissante si un accroissement de x1 à x2 entraîne une diminution de y1 à y2 (Bertrand & Valiquette, 1986, p. 331). 7. L'analyse factorielle est une technique statistique qui tente d'expliquer les relations entre des variables par un plus petit nombre de facteurs. Cette technique cherche à former des regroupements d'items de façon à ce que les items d'un regroupement soit en forte relation entre eux et peu reliés avec les items d'autres regroupements. Ces regroupements d'items sont appelés des facteurs ou des dimensions. L'analyse factorielle confirmatoire vise à déterminer les relations entre les variables et les facteurs qui leur sont sous-jacents ainsi que les liens entre les facteurs eux-mêmes. La plupart des programmes comportent un indice d'ajustement linéaire (goodness of fit) permettant d'estimer jusqu'à quel point le modèle rend compte des relations entre les variables. Pour déterminer si un ensemble d'items a une structure factorielle commune, il faut spécifier que les items doivent saturer sur un seul facteur commun. L'adéquation du modèle à un 63 seul facteur devrait être comparée à celui obtenu par le modèle comportant plusieurs facteurs. (Traduction de Himmelfarb, 1993, p. 86). 8. Dans une perspective où l'on souhaite établir des différences entre les individus ou des groupes d'individus, il est souhaitable d'obtenir une certaine variabilité des résultats. En outre, une plus grande variation des résultats augmente la probabilité d'observer une relation entre des variables. Le chercheur peut favoriser la variance des réponses en augmentant notamment le nombre d'items composant une échelle et/ou le nombre d'options de réponse. Il faudrait éviter cependant d'administrer un très grand nombre d'items comportant plusieurs options de réponse, cela risquerait de fatiguer ou de rendre moindre la motivation des sujets ce qui pourrait contribuer à diminuer la fiabilité des réponses fournies. 9. L'une des particularités de la TCP réside dans l'existence de mesures directes (Aact, SN, PBC) et indirectes ( bxe, nbxmc, cxp) des déterminants de l'intention. Ainsi Aact et bxe visentils à rendre compte de l'attitude envers le comportement, SN et nbxmc consistent en deux indicateurs de la norme subjective alors que PBC et cxp visent la mesure de la perception du contrôle. Les mesures directes et indirectes des construits se différencient principalement par le fait que les secondes résultent de la multiplication de deux variables reposant sur les croyances des individus. Aussi parle-t-on aussi bien de mesures indirectes que de mesures basées sur les croyances pour désigner bxe, nbxmc et cxp. Précisons en outre qu'une mesure indirecte peut être utilisée pour prédire l'intention que s'il a été démontré: a) qu'elle est en forte relation avec la variable directe correspondante; b) que la variable directe prédit l'intention (Ajzen & Fishbein, 1980). 64 Références Agnew, C. R. (1998). Modal versus individually-derived beliefs about condom use: measuring the cognitive underpinnings of the theory of reasoned action. Psychology and Health, 13, 271287. Ajzen, I. (1988). Attitudes, personality and behavior. Open University Press. Milton Keynes. Ajzen, I. (1991). The theory of planned behavior. Organizational Behavior and Human Decision processes, 50, 179-211. Ajzen, I., & Fishbein, M. (1969). The prediction of behavioral intentions in a choice situation. Journal of Experimental Social Psychology, 5, 400-416. Ajzen, I., & Fishbein, M. (1970). The prediction of behavior from attitudinal and normative variables. Journal of Experimental Social Psychology, 6, 466-487. Ajzen, I., & Fishbein, M. (1980). Understanding attitudes and predicting social behavior. Englewood Cliffs, New Jersey: Prentice Hall. Ajzen, I., & Madden, T. J. (1986). Prediction of goal-directed behavior: Attitudes, intentions and perceived behavioral control. Journal of Experimental Social Psychology, 22?, 453-474. Allaire, D. (1988). Questionnaires: mesure verbale du comportement. Dans: Robert, M. Fondements et étapes de la recherche scientifique en psychologie. Troisième édition. Edisem. StHyacinthe, Québec. Allen, M. J., & Yen, W. M. ( 1979). Introduction to measurement theory. Monterey, CA: Brooks/Cole. Arnold, H. J., & Evans, M. G. (1979). Testing multiplicative models does not require ratio scales. Organizational behavior and human performance, 24, 41-59. Bagozzi, R. P. (1984). Expectancy-value attitudes models an analysis of critical measurement issues. International Journal of Research in Marketing, VOL, 295-310. Bandura, A. (1977a). Social learning theory. Englewood Cliffs, N. J., Prentice-Hall. 65 Bandura, A. (1977b). Self-efficacy: Toward a unifying theory of behavior change. Psychological Review, 84, 191-215. Berg, I. A., & Rapaport, G. M. (1954). Response bias in an unstructured questionnaire. The Journal of Psychology, 38, 475-481. Bertrand, R., & Valiquette, C. (1986). Pratique de l'analyse statistique des données. Presses de l'Université du Québec. Sillery, Québec. Birnbaum, A. (1968). Some latent trait models and their use in inferring an examinee's ability. In F.M. Lord & M.R. Novick, Statistical theories of mental test scores (pp. 397-479). Reading, MA: Addison-Wesley. Birnbaum, M. H. (1973). The devil rides again: correlation as an index of fit. Psychological Bulletin, 79, 4, 239-242. Birnbaum, M. H. (1974). Reply to the devil's advocates: Don't confound model testing and measurement. Psychological Bulletin, 81, 11, 854-859. Breckler, S.J. (1984). Empirical validation of affect, behavior, and cognition as distinct components of attitude. Journal of Personality and Social Psychology, 47, 1191-1205. Budd, R. J. (1987). Response bias and the theory of reasoned action. Social Cognition, 5, 2, 95107. Budd, R. J., North, D., & Spencer, C. (1984). Understanding seal-belt use: A test of Bentler and Speckart's extension of the 'theory of reasoned action'. European Journal of Social Psychology, 14, 69-78. Busemeyer, J. R., & Jones, L. E. (1983). Analysis of multiplicative combination rules when the causal variables are measured with error. Psychological Bulletin, 93, 3, 549-562. Campbell, D. T., & Fiske, D. W. (1959). Convergent and discriminant validation by the multitrait-multimethod matrix. Psychological Bulletin, 56, 81-105. Cantril, H. (1940). Experiments in the wording of questions. Public Opinion Quarterly, 4, 330332. 66 Courneya, K. S., & McAuley, E. (1994). Factors affecting the intention-physical activity relationship: intention versus expectation and scale correspondence. Research Quarterly for Exercise and Sport, 65, 3, 280-285. Courneya, K. S., & McAuley, E. (1995). Cognitive mediators of the social influence-exercise adherence relationship: a test of the theory of planned behavior. Journal of behavioral medicine, 18, 5, 499-515. Crocker, L., & Algina, J. (1986). Introduction to classical and modern test theory. New York: Holt, Rinehart, & Winston. Cronbach, L. J. (1946). Response sets and test validity. Educational and Psychological Measurement, 6, 475-493. Cronbach, L. J. (1950). Further evidence on response sets and test design. Educational and Psychological Measurement, 10, 3-31. Cronbach, L.J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16, 297-334. Davis, F. D., & Warshaw, P. R. (1992). What do intention scales measure? Journal of General Psychology, 119(4), 391-407. DeVellis, R. B. (1991). Guidelines in Scale Development. Dans: Scale Development: Theory and Applications. Applied Social Research Methods Series, vol. 26. Newbury Park: Sage Publications. Ellen, P. M., & Madden, T. J. (1990). The impact of response format on relations among intentions, attitudes and social norms. Marketing Letters, 1, 2, 161-170. Evans, M. G. (1991). The problem of analyzing multiplicative composites. American Psychologist, VO VOL 6-13. Fishbein, M., & Ajzen, I. (1974). Attitudes toward objects as predictors of single and multiple behavioral criteria. Psychological Review, 81, 59-74. 67 Fishbein, M., & Ajzen, I. (1975). Belief, attitude, intention and behavior: An introduction to theory and research. Reading, Mass.: Addison-Wesley. Fishbein, M., & Ajzen, I. (1981). Attitudes and voting behavior: An application of the theory of reasoned action. Dans: Stephenson, G. M., & Davis, J. M. (Eds.). Progress in applied social psychology (Vol. 1). Chichester: J. Wiley. Fishbein, M., Bandura, A., Triandis, H. C., Kanfer, F. H., Becker, M. H., & Middlestadt, E. (1992). Factors influencing behavior and behavior change: Theorist's workshop. Final report prepared for the National Institute of Mental Health (HIMH). Bethesda, MD: NIMH. Gagné, G. (1997). Niveau de sollicitation de la mémoire, importance du traitement de l'information et effets de réponse. Thèse de doctorat non publié. Département d'orientation, d'administration et d'évaluation. Faculté des sciences de l'éducation. Université Laval. Ste-Foy. Gagné, C., & Godin, G. The theory of planned behavior: some measurement issues concerning belief-based variables. Soumis pour publication. Glass, G. V., & Hopkins, K. D. (1996). Statistical methods in education and psychology. Third edition. Allyn and Bacon. Godin, G. (1987). Importance of the emotional aspect of attitude to predict intention. Psychological Reports, 61, 719-723. Godin, G. (1991). L'éducation pour la santé: les fondements psychosociaux de la définition des messages éducatifs. Sciences Sociales et Santé, IX, 1, 67-94. Godin, G. & Kok, G. (1996). The theory of planned behavior: a review of its application to health-related behaviors. American Journal of Health Promotion, 11(2), 87-98. Goocher, B. E. (1965). Effects of attitude and experience on the selection of frequency adverbs. Journal of verbal learning and verbal behavior, 4, 193-195. Green, C.W. (1998). Normative influence on the acceptance of information technology. Measurement and effects. Small Group Research, 29, 1, 85-123. 68 Guttman, L. (1941). The quantification of a class of attributes: A theory and method of scale construction. In, Horst, P. The prediction of personal adjustment. (Bulletin No. 48, pp. 319-348). New-York: Social Science Research Council. Guttman, L. (1944). A basis for scaling qualitative data. American Sociological Review, 9, 139150. Heise, D.R. (1970). The semantic differential and attitude research. In G.F. Summers (Ed.), Attitude measurement (pp. 235-253). Chicago: Rand McNally. Hewstone, M., & Young, L. (1988). Expectancy-value models of attitude: Measurement and combination of evaluations and beliefs. Journal of Applied Social Psychology, 18, 11, 958-971. Himmelfarb, S. (1993). The measurement of attitudes, in Eagly, A. H., & Chaiken, S. The psychology of attitudes. Montreal: Harcourt Brace Jovanovich College Publishers. Holbrook, M. B. (1977). Comparing multiattribute attitude models by optimal scaling. Journal of Consumer Research, ?, 165-171. Hui, C.H., & Triandis, H.C. (1985). The instability of response sets. Public Opinion Quarterly, 49, 253-260. Jaccard, J., Weber, J., & Lundmark, J. (1975). A multitraitmultimethod analysis of four attitude assessment procedures. Journal of Experimental Social Psychology, 11, 149-154. Kelley, T. L. (1939). The selection of upper and lower groups for the validation of test items. Journal of Educational Psychology, 30, 1 7-24. Krosnick, J. A. (1991). Response strategies for coping with the cognitive demands of attitude measures in surveys. Applied Cognitive Psychology, 5, 213-236. Krosnick, J. A., & Alwin, D. F. (1987). An evaluation of a cognitive theory of response-order effects in survey measurement. Public Opinion Quarterly, 51, 201-219. Laurencelle, L. (1998). Théorie et techniques de la mesure instrumentale. Presses de l'Université du Québec. Sainte-Foy. 69 Likert, R. (1932). A technique for the measurement of attitudes. Archives of Psychology, 140, 553. Loken, B., & Fishbein, M. (1980). An analysis of the effects of occupational variables on childbearing intentions. Journal of Applied Social Psychology, 10, 3, 202-223. Miller, S. (1987). Schèmes expérimentaux et statistiques. Traduction de Bolduc, M. Les Éditions Saint-Yves, inc. Netemeyer, R. G., & Burton, S. (1990). Examing the relationships between voting behavior, intention, perceived behavioral control and expectation. Journal of Applied Social Psychology, 20, 8, 661-680. Nunnaly, J.C. (1978). Psychometric theory (2nd ed.). New York: McGraw-Hill. Osgood, C.E., Suci, G.J., & Tannenbaum, P.H. (1957). The measurement of meaning. Urbana: University of Illinois Press. Payne, S. L. (1951). The art of asking questions. Princeton, N.J.: Princeton University Press. Pepper, S., & Prytulak, L. S. (1974). Sometimes frequently means seldom: context effects in the interpretation of quantitative expressions. Journal of research in personality, 8, 95-101. Randall, D. M., & Wolff, J. A. (1994). The time interval in the intention-behaviour relationship: Meta-analysis. British Journal of Social Psychology, 33, 405-418. Rasch, G. ( 1960). Probabilistic models for some inteUigence and attainment tests. Copenhagen: Danish Institute of Educational Research. Rugg, D. ( 1941). Experiments in wording questions: II. Public Opinion Quarterly, 5, 91-92. Schaeffer, N. C. (1991). Hardly ever or constantly? Group comparisons using vague quantifiers. Public Opinion Quarterly, 55, 395-423. Schmidt, F. L. (1973). Implications of a measurement problem for expectancy theory research. Organizational Behavior and Human Decision processes, 10, 243-251. 70 Shulman, A. (1973). A comparaison of two scales on extremity response bias. Public Opinion Quarterly, 37, 407-412. Schuman, H., & Kalton, G. (1985). Survey methods. In G. Lindzey & E. Aronson (Eds.), Handbook of soclal psychology (3rd ed., Vol. 1, pp. 635-697). New York: Random House. Schuman, H., & Presser, S. (1981). Questions and answers in attitude surveys. Experiments on question form, wording and content. Academic Press. Schwarz, N., & Bless, H. (1992). Constructing reality and its alternatives: Assimilation and contrast effects in social judgment. Dans: Martin, L. L., & Tesser, A. (Eds.). The construction of social judgments. Hillsdale, NJ: Erlbaum. Schwarz, N., Hippler, H.-J., Deutsch., & Strack. (1985). Response scales: Effects of category range on reported behavior and comparative judgments. Public Opinion Quarterly, 49, 388-395. Schwarz, N., Knäuper, B., Hippler, H.-J., Noelle-Neumann, E., & Clark, L. (1991). Rating scales. Numeric values may change the meaning of scale labels. Public Opinion Quarterly, 55, 570-582. Schwarz, N., Strack, F., & Mai, H.-P. (1991). Assimilation and constrast effects in part-whole question sequences: a conversational logic analysis. Public Opinion Quarterly, 55, 3-23. Sheeran, P., & Orbell, S. (1998). Do intentions predict condom use? Meta-analysis and examination of six moderator variables. British Journal of Social Psychology, 37, 231-250. Sheppard, Hartwick, & Warshaw (1988). The theory of reasoned action: A meta-analysis of past research with recommendations for modifications and future research. Journal of Consumer Research, 15, 325-343. Smith, T. W. (1987). That which we call welfare by any other name would smell sweeter: An analysis of the impact of question wording on response patterns. Public Opinion Quarterly, 51, 75-83. Sparks, P., Guthrie, C. A., & Shepherd, R. (1997). The dimensional structure of the perceived behavioral control construct. Journal of Applied Social Psychology, 27, 5, 418-438. 71 Sparks, P., Hedderley, D., & Shepherd, R. (1991). Expectancy-value models of attitudes: A note on the relationship between theory and methodology. European Journal of social Psychology, 21, 261-271. Strack, F., & Martin, L. L. (1987). Thinking, judging, and communicating: a process account of context effects in attitude surveys. Dans: Hippler, H.-J., Schwarz, N., Sudman, S. Social information processing and survey methodology. Springer-Verlag. New-York. Sudman, S., & Bradburn, N.M. (1974). Response effects in surveys. A review and Synthesis. Aldine publishing company. Chicago. Sudman, S., & Bradburn, N.M. (1982). Asking questions. Jossey-Bass Publishers. San Fransisco. Terry, D. (1994). Self-efficacy expectancies and the theory of reasoned action. Dans: Terry, D., Gallois, C., & McCamish, M. (1994). The theory of reasoned action. Its application to AIDSPreventive behavior. International series in experimental social psychology. Pergamon Press. Terry, D. J., & O'Leary, J. E. (1995). The theory of planned behaviour: The effects of perceived behavioural control and self-efficacy. British Journal of Social Psychology, 34, 199-220. Thurstone, L. L. (1927a). A law of comparative judgment. Psychological Review, 34, 273-286. Thurstone, L. L. (1927b). Psychophysical analysis. American Journal of Psychology, 38, 368389. Thurstone, L. L., & Jones, L. V. (1957). The rational origin for measuring subjective values. Journal of American Statistical Association, 52, 458-471. Tourangeau, R., & Rasinski, K. A. (1988). Cognitive processes underlying context effects in attitude measurement. Psychological Bulletin, 103, 3, 299-314. Tourangeau, R., Rasinski, K. A., Bradburn, N., & D'Andrade, R. (1989a). Belief accessibility and context effects in attitude measurement. Journal of Experimental Social Psychology, 25, 401-421. Tourangeau, R., Rasinski, K. A., Bradburn, N., & D'Andrade, R. (1989b). Carryover effects in attitude survey. Public Opinion Quartery, 53, 495-524. 72 Trafimow, D. (1998). Attitudinal and normative processes in health behavior. Psychological and Health, 13, 307-317. Triandis, H. C. (1977). Interpersonal behavior. Brook/Cote, Monterey, CA. Triandis, H. C. (1980). Values, attitudes and interpersonal behavior. In H. Howe & M. Page (Eds.), Nebraska Symposium on Motivation, 1979, Lincoln: University of Nebraska Press. Valiquette, C. A. M., Valois, P., Desharnais, R., & Godin, G. (1988). An item-analytic investigation of the Fishbein and Ajzen multiplicative scale: the problem of a simultaneous negative evaluation of belief and outcome. Psychological Reports, 63, 723-728. Valois, P., Desharnais, R., Godin, G., Perron, J., & Lecompte, C. (1993). Psychometric properties of a perceived behavioral control multiplicative scale developped according to Ajzen's theory of planned behavior. Psychological Reports, 72, 1079-1083. Valois, P., & Godin, G. (1991). The importance of selecting appropriate adjective pairs for measuring attitude based on the semantic differential method. Quality & Quantity, 25, 57-68. Valois, P., Godin, G., & Bertrand, R. (1992). The reliability of constructs derived from attitudebehavior theories: an application of generalisability theory in health sector. Quality & Quantity, 26, 291-305. Van Der Pligt, J., & De Vries, N. K. (1998). Expectancy-value models of health behaviour: The role of salience and anticipated affect. Psychology and Health, 13, 289-305. Voyer, J. P., & Gagné, C. (1995). La mesure des attitudes. Document inédit. Département d'orientation, d'administration et d'évaluation. Faculté des Sciences de l'éducation. Université Laval. Ste-Foy. Voyer, J. P. (1996). L'élaboration d'une échelle pour la mesure d'une attitude ou d'un construit psychologique. Document inédit. Département d'orientation, d'administration et d'évaluation. Faculté des Sciences de l'éducation. Université Laval. Ste-Foy. 73 Warshaw, P. R., & Davis, F. D. (1985). Disentangling behavioral intention and behavioral expectation. Journal of Experimental Social Psychology, 21, 213-228. Warshaw, P. R., & Davis, F. D. (1986). The accuracy of behavioral intention versus behavioral expectation for predicting behavioral goals. Journal of Psychology, 119(6), 599-602. Weiss, D. J., & Davison, M. L. ( 1981). Test theory and methods. Annual Review of Psychology, 32, 629-658. White, K. M., Terry, D. J., & Hogg, M. A. (1994). Safer sex behavior: The role of attitudes, norms and control factors. Journal of Applied Social Psychology, 24, 24, 2164-2192.