PAST MEETINGS/REUNIONS PASSEES

Transcription

PAST MEETINGS/REUNIONS PASSEES
PAST MEETINGS/REUNIONS PASSEES
TECHNIQUES
D’ECHANTILLONNAGE PAR
QUOTAS
Cette s6ance du 7 novembre 1989 du séminalre &dquo;M6thodes d’enquêtes11 de
l’Institut National d’Etudes Démographiques (INED, 27 rue du
Commandeur, 75675 Paris cedex 14; t~l 43.20.13.45; fax 43.27.72.40) a
6t6 entierement consacr6e A 1’expose de Jean-Claude Deville, chef de la
division &dquo;M6thodes de sondage&dquo; de 1’INSEE, et A sa discussion.
Deux
approches th6oriques peuvent servir de fondement a
1’6chantillonnage dans les enqu8tes: la th6orie classique des sondages, of
seul 1’6chantiRon pr6sente un caract~re al6atoire, et la theorie des ’superpopulations&dquo;. Cette derni~re a constitu6 le support de 1’expos6.
A la maniere des 6conom~tres, on pose un mod~le de comportement
individuel dont chaque personne n’est qu’une realisation al6atoire
(exemple, &dquo;dans la super-population, la distribution des revenus est a priori
log-normale - de param6tres inconnus&dquo;). L’enqu6te permet 1’estimation de
ces
parametres (parfois implicite seulement). Celle-ci autorise une
pr6diction de chaque valeur non observ6e dans l’échantillon. Un total dans
la population est alors estime pour le total des valeurs observ6es et des
valeurs pr6dites. Dans certaines conditions, seule la distribution des
variables explicatives du mod6le est utile au calcul de festimateur. Dans le
cas de la m6thode des quotas, on peut d6velopper des mod6les of la
distribution des variables de quotas dans la population suffit au calcul de
festimateur. Ainsi, au lieu de modéliser le mode de recueil des donn6es, on
modélise le comportement individuel.
Limitons d’abord la contrainte A une seule variable de quotas (quotas
repr6sentatifs par cellule). Supposons que la variable mesurée ne d6pende,
~ un al6a pres. que de la modaht6 prise par la variable de quotas (le revenu
ne d6pend que de la CSP). L’estimateur &dquo;post- stratifl6&dquo;, respectant 1’effectif
de chaque cellule, a une variance sous modele ind6pendante de
l’échantillon obtenu et donc de la probabilit6 d’6chantillonnage des que
quotas (Gouriéroux, 1981). Ce r6sultat se
quotas marginaux de plusieurs variables quand on a pos6
un mod~le de comportement de type Anova sans interaction: &dquo;le revenu
d’un individu est determine - a un al6a pr6s - par les effets additifs de son
age et de sa CSP&dquo;. Dans ces conditions, on a calcule une variance théorique
de cet estimateur dont l’efficacité provient de 1’exactitude de toutes les
celle-ci est contrainte par les
généralise
aux
distributions
marginales.
est-il de la robustesse de
marche pas?
Qu’en
ces
estimations
quand
le modèle
ne
Il suffit de d6velopper un mod~le d’analyse de la variance avec interactions
pour rep6rer 1’existence d’un biais (sous mod81e). Il reste A esp6rer que ces
81
effets d’interaction sont
pas moins.
petits
ou se
compensent,
mais le biais n’en existe
La
critique la plus fondamentale aux quotas n’est pas 1~. C’est, par
exemple, 1’eventualite d’une s6lection de 1’6chantfllon corr6l6e aux variables
mesur6es (&dquo;seuls les pauvres r6pondraient aux enquttes sur les revenus&dquo;).
Ce type de biais est imparable; aucune estimation ne permet de le
redresser (sauf A connattre le d6tail du processus de s6lection). Tout 1’art de
la collecte consiste A s’en prot6ger, en particulier en witant de trop pr6ciser
le theme pr6alablement A 1’interview. Ce biais existe 6galement dans les
enqu6tes probabilistes, mais est nccessairement limit~ quand le taux de
refus est minime. Or, la notion de taux de refus n’a aucun sens pour une
enqudte sur quotas et c’est probablement sa limite la plus grave.
On
une th6orie des quotas non proportionnels
mod6le additif et 1’estimateur de la pr6diction. Selon l’id6e de
Neyman, on va chercher l’information 1~ o~ elle se trouve afin d’accroitre
1’efflcacit6 du sondage (&dquo;surpondérer les lnd6pendants et cadres sup6rieurs
et les personnes ägées pour une enquete sur 1’6pargne&dquo;). Il reste A d6finir
les pond6rations, mais on ne benencie d’aucune protection par rapport aux
d6fauts du mod~le. L’efflcacit6 comporte des risquesl
peut pareillement dweiopper
fond6e
sur un
Une autre
approche des 6chantfilons par quotas consiste A approximer
algorithmes de tirage avec contraintes. Dans l’abstrait, parmi tous
des
les
6chantillons, on ne retient que ceux respectant les quotas. Par exemple, on
realise des échantillons par tirage al6atoire simple et on retient le premier
qui respecte les quotas. L’avantage en est de tenir compte de variables de
stratification absentes de la base de sondage (1’annuaire t6l6phonique ne
contient pas d’information relative aux CSP).
On peut enfin s’interroger sur la compatibilit6 de cette th6orie des quotas
avec la stratification et les sondages A plusieurs degr6s, tels que les
réalisent les instituts. La stratification ne pose aucun probl~me si les
quotas sont d6finis strate par strate, ni si les quotas sont d6f[riis au niveau
de 1’unite primaire. Il reste, par contre, A d6velopper une th6orie des quotas
globaux en presence de stratification et de degr6s multiples.
En conclusion
Les quotas entrainent un gain de variance par pseudo-stratification, mais
ils generent un biais (d’interaction ou de s6lection). Les petits 6chantfllons
sont donc le domaine privil6gi6 des quotas. Avec un gros 6chantillon, le
biais deviendrait important par rapport A la variance. On est alors dans le
domaine privil6gi6 de l’al6atoire, surtout en utilisant les estimateurs poststratifi6s.
On peut proposer aussi un autre clivage. Dans un contrat entre une soci6t6
d’6tudes et un client, l’accord peut porter sur le modele qui fonde
1’6chantiUonnage par quotas. La statistique publique, pour sa part, doit
rechercher le consensus et 6viter les hypotheses d’un mod~le. C’est donc le
domaine privil6gi6 du sondage probabiliste.
82
Bibliographie
J. C. Deville, "Une amélioration de la méthode des quotas", Communication
libre au Congrès de l’IIS, Paris, 1989.
J. C. Deville, "Vous avez dit représentatif ? ou pondérer n’est pas tricher",
Colloque sur les sondages de l’Université libre de Bruxelles et de l’ASU. A
paraître. 1988.
A. M. Dussaix, "Modèles de surpopulation", Les Sondages, ASU Economica. 1987.
Benoît
ENQUETES
Riandey
PAR VOIE DE PRESSE
ou ne pas r6pondre, 1A est la question&dquo; - s6ance du 5 décembre
1989 du s6n-iinaire &dquo;M6thodes d’enqu6tes&dquo; de 1’INED
&dquo;R6pondre
Les m6dias sollicitent fréquemment les r6ponses de leurs lecteurs ou
auditeurs A des questionnaires d’enqu6tes impr1més au milieu du journal
ou enregistr6s sur le r6seau minitel. Une caracteristique essentielle de ces
enqu6tes est le caractere strictement volontaire et actif de la participation A
1’tchantillon. Les statisticiens d’enquttes se doivent d’examiner 1’incidence
de cette caract6ristique sur la fiabwt£ de ce mode de collecte, qui pr6sente
par ailleurs l’avantage d’un coft minime.
Introduction du d6bat et
exemples
Henri Leridon, chef du D6partement de socio-démographie de FINED, a
introduit le probl6me en comparant, pour trois modes de constitution des
echantillons, les filtres s6lectifs conditionnant leur repr6sentativit6. Il s’aft
du sondage al6atoire, de la m6thode des quotas, et des enqu6tes aupr s
des lecteurs, des auditeurs et assez largement des sondages par voie
postale.
Dans un sondage probabiliste, le tirage al6atoire de 1’echantillon dans une
base correcte garantit un 6chantillon a priori sans biais. L’echantlllon
effectivement obtenu peut certes 6tre defonne par les 6chees de 1’enqu6te
(en particulier les refus), mais 1’information disponible sur le nombre et sur
certaines caract6ristiques des non-r6pondants permet un contr61e interne
de 1’6chantiRon.
Dans les enquetes par quotas les enqu6teurs choisissent d’abord les
personnes qu’ils vont contacter. Les consignes de diversification des
contacts donn6es par les instituts de collecte tendent A r6duire cet effet
s6lectif, mais les professionnels estiment que certains quartiers ne sont
jamais visit6s. Dans un second temps, l’acceptation de 1’enquete d6pend
pour une part de son int6ret pour le sujet et donc de ses propres opinions
ou comportements, ce qui constitue un biais irremediable (voir la s6ance
de s6minaire du 7 novembre ci-dessus). Cependant, la contrainte des
quotas donne A 1’6chantLUon un aspect impeccable et lui confere une
83
efflcacit6 tr6s
grande,
dans la
ou la s6lection par le theme n’est pas
mesure
intervenue. La midtiphcit6 des objectifs d’une enqu6te (enqu6te omnibus) et
la pr6caution de ne pas annoncer avec pr6cision le theme de 1’enquete,
contribuent A r6duire ce risque. Mais il n’existe
interne pour l’une ou l’autre Ctape.
aucun
mode de contr61e
ne
Enfin les enqu6tes par voie de presse (ou d’autres
m6dias)
s’adressent qu’A une sous-population, le «lectorat» ou 1’auditoire, et la
r6ponse au questionnaire releve en plus de la seule initiative du r6pondant.
Si les enqu6tes du Centre d’Etude des Supports de Publicit6 (CESP) sur
le lectorat ou de M6diam6trie sur l’audience donnent les contours de cette
sous-population intermediaire (cf. 1’expos6 de Madame E. Boeswillwald), on
ne dispose d’aucun contr61e interne du processus d’auto-s6lection.
En dernier ressort, i1 est souvent possible de comparer la structure de
1’6chantillon A celle de la population vis6e (fournie par exemple par le
recensement), mais ce contr61e est inop6rant par rapport A une selection
th6matique. Une enqu6te de consommation médicale aurait beau etre
repr6sentative par rapport A tous les criteres socio-d6mographiques, si les
malades n’ont pas 6t6 en situation de rc-pondre, cette enqu6te n’aura
aucune valeur et sous-estimera la consommation m6dicale.
Mr Leridon a ensuite illustré par plusieurs
limites de ce troisi6me mode de collecte.
En 1987, la
les apports et les
d’un million de lecteurs selon la
ans) avait r6a]is6 aupr6s
de ses lectrices une enquete sur les premieres r~gles. Les r6ponses
montraient, surtout pour les plus jeunes lectrices, un age moyen
anormalement faible pour cet 6v6nement. Manifestement aux jeunes ages,
seules les lectrices deja r6gl6es avaient r6pondu A 1’enquete. Au contraire,
la variation saisonni6re mise en evidence semble solide, avec son maximum
pendant les mois d’6t6. De la m6me fagon, 1’age median aux premiers
rapports sexuels, fourni par une autre enqu~te de OK, 6tait tr6s inf6rieur
aux estimations usuelles, en particulier pour les jeunes lectrices. LA encore
les jeunes filles sans experience (sexuelle) avaient 6t6 peu port6es A
r6pondre A l’appel du journal. Dans les deux cas, cependant, les
estimations s’av6raient fiables pour la fraction la plus dgc-e des
revue
OK
exemples
Magazine (plus
CESP, principalement des femmes de
moins de 21
r6pondantes.
En dernier lieu, H. Leridon a rapport6 une experience postale concernant la
diffusion du st6rilet. Vers 1980, la stabilisation des ventes de st6rilet a
port6 A croire A un seuil dans la diffusion de ce moyen contraceptif.
Cependant, contrairement A la pilude, les ventes de st6rilet ne permettent
pas une conversion in-im6diate en nombre d’utilisatrices, qui est aussi
fonction de la dur6e moyenne d’usage d’un st6rflet. Une enquete postale
aupres de 1000 m6decins prescripteurs (essentiellement des gyn6cologues)
a permis de recueillir 300 questionnaires. Sur la base des d6clarations des
m6decins, la dur6e d’usage d’un st6rilet aurait augment6 de 26 A 33 mois
de 1978 A 1988. Un mod6le de projection elabore sur ces bases par L.
Toulemon, demographe a FINED, a permis de &dquo;prwoir&dquo; avec pr6cision le
nombre des utilisatrices jusqu’en 1988, date d’une enqu6te nationale de
1’INED sur le sujet.
84
par vole de presse
Enqu6te
sur
le
préservatif et
contr6le par
enqu6te
omnibus
Brenda Spencer, chercheuse A 1’INSERM, a pr6sent6 une comparaison
entre deux enqu6tes d’opinion sur les modes de diffusion du pr6servatif. En
d6cembre 1988, la revue T~l~ 7jours (10 millions de lecteurs selon le CESP)
a requ 7500 r6ponses A son questionnaire (les dges des enqu6t6s s’6talaient
de 10 à 90 ansl), tandis que BVA introduisait quelques questions dans une
enqu6te omnibus de 1000 personnes. La concordance des r6sultats est
relativement bonne, malgr6 une amplification des dff6rentielles dans
1’enqudte de presse. Par exemple, les deux enqu6tes indiquent un souhait
tr6s majoritaire d’une diffusion large de ce contraceptif, mais avec une
r6ticence commune pour leur diffusion dans les b~timents publics et les
lieux de travail.
des differences est tr6s sensible au ph6nom~ne
le montraient les commentaires accompagnant les lettres
r6ponses. Dans 1’enquete BVA, les femmes âgées constituent les cat6gories
les plus r6ticentes A cette diffusion, contrairement aux r6sultats de TL6lL6 7
jours. Mme Spencer y voit un effet de mobilisation (ici, contre les maladies
sexuellement transmissibles) que rev6t la r6ponse A une enqu6te par voie
de presse.
Cette
<~amy»,
amplification
comme
On constate souvent, dans les enquetes postales, que plusieurs personnes
sur le m6me questionnaire (par exemple quand les deux sexes
sont coch6s). Il s’agit alors d’une d6marche collective, difficile A int6grer
dans le mod~le ma~h6matique du sondage.
r6pondent
Les
statistiques
de reference du CESP
Elisabeth Boeswillwald, du CESP, a pr6sent6 son institut, une association
de type 1901 financ6e pour moiti6 par la presse et pour 1’autre par les
agences de pubhcitc-, qui realise depuis 1956 des 6tudes sur la presse
magazine. Chaque ann6e, 5 vagues d’enqu6tes de 3000 personnes
recueillent des informations sur la diffusion de 134 magazines grace a un
questionnaire d’environ 35 minutes.
les enqu6t6s des agglomerations de moins de 100.000
habitants 6taient tir6s sur les listes lectorales, mais le CESP a opt6 pour
des 6chantiRons int6gralement sur quotas. Apr6s stratification par region et
type d’habitat (urbain/rural) intervient un tirage al6atoire des communes,
puis un tirage des flots proportionnerement A leur taille. Les enqueteurs
ont pour consigne de varier les 6tages et de ne pas enqueter deux
immeubles cons6cutifs. Les quotas reposent sur les distributions d’~ge,
sexe, cat6gorie sociale du chef de m6nage et d’activit6 professionnelle
feminine, fournies annuellement par 1’INSEE.
Jusqu’~ 1988,
Les informations sont significatives pour les magazines atteignant 500.000
lecteurs par 6dition, et concernent 1’effectif et la structure du lectorat, son
taux de p6n6tration par cat6gorie, ainsi que le taux de circulation de la
revue (rapport du nombre de lecteurs au nombre d’exemplaires vendus), et
les caract6ristiques de l’acheteur. La mesure porte toujours sur la
«derniere p6riodc>>
(le dernier num6ro, qu’il soit hebdomadaire ou
mensuel). Les r6sultats sont envoy6s aux abonn6s mais apr6s une ou deux
85
ann6es, ils peuvent 6tre
communiques a des chercheurs,
exemple de contr61er leurs 6chantiRons.
Enqu8te par médias relative ~ la rougeole
d6sireux
par
Andr6
Langaney, sous-directeur au Mus6e de l’Homme, a présenté une
experience originale, quoique, selon lui, n6gative. En 1973 des valeurs
anormalement 6lev6es du taux de masculinit6 des naissances ont 6t6
observ6es dans des villages s6nagalais faisant suite A d’lrnportantes
épidémies de rougeole en 1972. Cette coincidence inexplicable a donn6 lieu
a un compte rendu A l’Acad6n-lie des Sciences le 17 d6cembre 1979. La
presse s’empare de l’information et M. Langaney est d6bord6 par un
courrier issu de parents de descendance unisexu6e d6sireux d’obtenir un
enfant de l’autre sexe. Les organisateurs de 1’6mission <<Cl6s
pour demaill>>
d’Antenne 2 obtiennent finalement de M. Langaney qu’il participe à une
6mission A ce sujet. Lui-m6me, 6tant A la recherche d’une m6thode pour
tester son hypoth~se, pose pour condition la pr6sentation A 1’6rriission d’un
questionnaire d’enquete, pour qu’il soit repris dans les hebdomadaires de
t6l6vision.
La validation
par enquete.
statistique de la conjecture paraissait
difficilement r6ahsable
il aurait fallu constituer un 6chantillon d’enfants n6s
moins de deux ans apr~s la contamination par rougeole d’un ain6. Or la
rougeole se diffuse en France principalement a 1’6cole A un age oil le
benjamin est le plus souvent d6jA n6. La population cible est donc tr6s
restreinte. Grace a <Cl6s
pour demain» et A la presse 6crite qui a reproduit
le questionnaire, elle a pu 6tre largement atteinte car 2000 r6ponses sont
parvenues A M. Langaney, dont 70% 6taient exploitables.
car
Il s’attendait A
un biais s6lectif consid6rable puisqu’il avait 6t6 oblig6
d’6noncer son hypoth6se, mais ce biais relatif au sexe de 1’enfant n6
pouvait dtre suppos6 lnd6pendant de l’intervalle entre la contamination par
rougeole et la naissance, tandis que le phenomene ne devait intervenir que
pour l’intervalle 9-24 mois.
De fait, les
r6ponses dcnotaient un taux de
exceptionnel (160 gar~ons pour 100 filles,
mascuhnit6 des naissances
en comparaison des 105
habituels), mais ce taux s’est avere constant sur 1’intervalle 0-5 ans.
L’hypothese 6tait totalement infirm6e contrairement A ce qu’une lecture
rapide des rc-sifltats aurait laiss6 entendre.
Deux arm6es plus tard, l’analyse des
confirmait cette absence de lien, au
apr~s
une
epidemic ayant
registres de
naissance du Gro8riland
de taux de masculinit6 normaux
infest6 70 A 80% de la population.
vu
Malgr6 la
demande de M. Langaney, 1’6n-lission <<Cl6s
pour demain» n’a pas
consacr6 la moindre minute pour informer les auditeurs et les r6pondants
du r6sultat de 1’enqudte. Cette r6action illustre le peu d’int6r6t des m6dias
pour les r6sultats n6gatifs de la recherche, et le fait qu’A la s6lection des
enqu8t6s sur leur opinion correspond une s6lection n6faste des r6sultats
diffuses en fonction de leur orientation. Cette s6lection intervient donc
aussi dans la repr6sentativit6 scientifique des r6sultats d’enqu~te diffuses
aupres du public (voir A ce propos H. Meynaud et D. Duclos, Les sondages
d’opinion,
La
D6couverte, Paris, 1985).
86
L’exp6rience
américaine des
enqu6tes
par voie de presse
Madame Thu Hoang, du Laboratoire de Statistique ma-dicale de
l’Universit6 Ren6 Descartes, a pr6sent6 la tradition amcricaine des
enqu8tes par voie de presse. De longue date, la presse 6crite et la television
se sont associ6es pour la realisation de sondages (New York Times-CBS,
Washington Post-ABC, American Press-NBC) et elles ont meme fond£ une
association, le National Council on Public Polls (NCPP) chargc- de contr6ler
la transparence de ce mode de collecte d’information. Une telle institution
n’existe pas en France, la Commission de contr61e des sondages 6lectoraux
ayant des pr6rogatives beaucoup plus limltees.
De 1916 A 1932, le Literary Digest avait organis6 avec succi3s des
prwisions du r6sultat des 6lections pr6sidentielles fond6es sur les «votes
de paille», enquetes postales diffusées par voie de presse. En 1936, c’est
un fiasco total malgrc- les 2,4 millions de «votes» enregistr6s. Certes le
resultat est acquis de fa~on massive conform6ment A la pr6vision, mais par
le candidat annonc6 perdant, Franklin Roosevelt. Pr6cis6ment, Gallup
venait d’introduire 1’enqu6te par quotas (immediatement apr~s que le
statisticien Neyman ait &dquo;d6finitivement&dquo; dénoncé cette m6thode) et, sur la
base d’un tres faible échantillon, avait annonce la victoire de Roosevelt. En
1956, Parten indiquait que 1’6chec du vote de paille n’etait pas le fait de la
mauvaise repr6sentativit6 des lecteurs contact6s - car une enqu6te postale
correctement realisee sur adresses avait conduit au meme biais - mais que
cet 6chec tenait au passage s6lectif A l’acte de r6pondre (au cours de la
s6ance du 5 mai dernier, A. Jacquart avait aussi signal6 la p6riode trop
longue de collecte des votes de paille dont l’analyse ne tenait pas compte de
1’6volution des intentions de vote). En 1980, Link montrait que ce biais 6tait
aussi intervenu en 1932, mais sans inverser le rc-sultat et que le
redressement de 1’enquete de 1936 sur la base du biais de 1932, suppose
stable, aboutissait A la pr6vision correcte de 1’61ection de Roosevelt.
Lors du duel Reagan-Carter, NBC avait organis6 une enquete-vote aupr6s
des auditeurs et publi6 son r6sultat &dquo;Reagan vainqueur du combat
t6l6visC-&dquo;. Cette publicité a 6t6 condanin6e par la NCPP jugeant qu’elle ne
pr6sentait pas les garanties d’un sondage correct. NBC a quitt6 la NCPP.
Mme. Thu Hoang a ensuite rappel6 les huit acceptions - donn6es par
Kruskal - au mot repr6sentativit6: usage rh6torique, absence de forces
s6lectives, miniature de la population, presence des cas typiques, sondage
satisfaisant, sondage couvrant 1’ensemble des cas possibles, sondage
al6atoire, situation suffisamment frequent. Il est clair que les
commentaires de presse ne se limitent pas A celui ou ceux qui fondent la
scientificit6 d’une enqu6te par sondage.
Enfin elle
pr6sent6 plusieurs lettres ou coupures d’articles illustrant
repr6sentatif des sondages par voie de presse, en particulier le
fait que 1’operation est souvent perque comme une occasion de prendre la
parole pour faire valoir son point de vue.
L’ enquête du Monde sur &dquo;les libertés
Guy Michelat, du Centre d’étude de la vie politique franealse
(CEVIPOF), a rappel6 1’enqudte du journal Le Monde sur les hbert6s,
l’usage
a
non
II
87
r6alis6e le 9 novembre 1980, lorsque ce journal 6talt en conflit avec le
Ministre de la Justice, Monsieur Peyrefitte. Les r6sultats en ont 6t6 publics
en 6 pages le 22 f6vrier 1981 et immédiatement apr6s. Cette enqu6te n’a
pas donn6 lieu A d’autres publications mais a apport6 des mat6riaux de
recherche tres intéressants.
’
G. Michelat et A. Percheron, chercheurs au CEVIPOF, avaient r6dig6 un
questionnaire tr6s long (220 informations tenant sur une double page du
quotidien). Ce questionnaire avait reru 25.000 r6ponses, sans compter 300
lettres de soutien et de nombreux ch6ques. Les commentaires associ6s aux
questionnaires exprimaient le sens militant evident du fait de r6pondre.
Les 8500 questionnaires saisis montraient 6galement l’aspect fortement
biais6 de 1’6chantiRon des r6pondants: 82% d’hommes (contre 58% dans le
lectorat), une sur-repr6sentation des r6pondants Ag6s, des cadres
sup6rieurs et des intellectuels (professeurs, instituteurs et 6tudiants
des
totalisaient la moiti6 de 1’6chantillon), une sous-repr6sentation
agriculteurs et plus encore des ouvriers par rapport A leur importance dans
le
lectorat du Monde. Ceux proches du PSU totalisaient 8% des
questionnaires. Ceux proches du PC 6taient en grande majorité dipl6m6s
de 1’ensei~nement sup6rieur... Que pouvait-on extrapoler d’un &dquo;6chantUlon&dquo;
si particulier?
fréquences des opinions Cmises ne sont nullement gEn8raHsables, mais
les structures et les m6canismes observ6s 6tabhssent des correspondances
fines qui n’ont aucune raison d’dtre mises en cause, et qui n’auraient pu
ttre mises en evidence qu’a un co~t tr6s supc-rieur (cf. 1’expos6 de M.
Langaney). Par exemple, l’ordonnancement des partis ou des groupes sur
l’axe droite-gauche 6tait tr6s coh6rent ainsi que les positionnements sur
1’axe &dquo;hb6rahsme-autorit6&dquo; ou les significations prêtées à des mots comme
Les
&dquo;hbert6&dquo;, &dquo;capitalisme&dquo;...
En conclusion provisoire, on voit que ces enqu6tes constituent des
mat6riaux d’usage délicat et riches de connaissance pour la recherche,
mais ne pouvant etre directement interpr6t6s au premier degr6. Assez
impropres A fournir des fréquences ou des moyennes, ils revelent des
structures en particulier aupr6s de populations difficilement accessibles,
comme dans les enqu6tes de Michael Pollak dans le Gai Pled Hebdo
aupr~s de la population homosexuelle et portant sur la perception du sida.
Ces enqu6tes sont souvent Ie contraire m6me d’un sondage et leurs
r6sultats ne devraient jamais etre publics sans que le lecteur ne soit tr6s
clairement avis6 de la nature profonde de ces donn6es.
B. RIANDEY
Chef du Service des enqu&ecirc;tes
&agrave; l’INED
H. LERIDON
Chef du
D&eacute;partement de
socio-d&eacute;mographie &agrave; l’INED
88
LOGISTIQUE
L’AFCET (Association Française pour la Cybern6tique Economique et
156 bd Péreire, 75017 Paris; tel 47 66 24 19) a organise les 1315 d6cembre 1989 A Paris un colloque sur le développement des sciences
et pratiques de l’organisation intitul6 &dquo;Production, Distribution, Transport&dquo;
qui 6tait en m6me temps les 4es journ6es francophones sur la logistique et
les transports. Il y avait 6 conf6rences invit6es et 11 sessions sp6cialis6es
sur des
themes tels que l’ordonnancement d’ateliers, methodologies
d’approche int6gr6e, optimisation des réseaux, gestion de production,
formes de distribution, probl~me de tourn6es et probl~me de transport.
Technique,
RECHERCHE ET ENTREPRISES
L’AFCET (adresse ci-dessus) a
la Cit6 des Sciences et de
l’Industrie de la Vffiette A Paris les Rencontres Recherche et Entreprises Les Applications de la Voix en Bureautique&dquo; le 19 d6cembre 1989. La
journ6e 6tait orgaiiis6e en deux parties. La matin6e 6tait destin6e A faire le
point sur 1’6tat de l’art sur l’avanc6e des recherches et des applications
dans le domaine. L’apr6s-n-iidi a mis en 6vidence les applications de la voix
consid6r6es comme les plus prometteuses avec de nombreux t6moignages
organis6 A
d’exp6riences
et
ANALYSE DES
d’applications
QUESTIONS
en cours.
OUVERTES
Cette s6ance du 9 janvier 1990 du séminaire &dquo;M6thodes d’enqui8tes&dquo; de
1’INED a 6t6 men6e par Ludovic Lebart (CNRS/ Télécom Paris) et Andr6
Salem (ENS Fontenay Saint-Cloud). Un large public de 80 personnes a
montr6 toute 1’attente des sp6cialistes d’enqu6tes pour les nouvelles
m6thodes d’analyse des questions ouvertes. La m6thodologie d6velopp6e
par MM. Lebart et Salem permet en effet de d6passer l’alternative entre
analyse de contenu et post-codage des questions ouvertes, d’éviter la
confrontation entre analyse qualitative et analyse quantitative. Cette
s6ance constitue ainsi notre premier pas sur l’un des champs annonc6s
pour le s6rriinaire, l’analyse qualitative, mais grace a des techniques de
1’analyse quantitative.
M. Lebart a rappel6 quelques qualit6s spécifiques des questions ouvertes:
absence d’effet de suggestion, par exemple dans l’activation de la m8moire;
richesse de l’information produite; invariance des questions, m6mes quand
les items de r6ponse 6voluent; rapidit6 d’exploration d’un champ; agr6ment
de la communication entre enqutteur et enquêté. Il en a aussi rappel6 les
89
particulier le caract6re non syst6matique de l’information
point de vue th6orique a 6t6 clairement affirm6: les r6ponses
aux questions ouvertes sont d’une nature diff6rente de celle des questions
ferm6es, tout comme se distinguent les probl6matiques qui les inspirent.
Les r6ponses A deux questions, Tune ouverte et l’autre ferm6e sur un meme
th~me, sont irr6ductiblement incomparables. Fermer une question, c’est
limites,
produite.
en
Son
une
maniere d’en modifier l’intitul6.
M.
Lebart
a
pr6occupations
cit6
du
1’exemple des r6f6rences A la violence parmi
public. Elle apparait avec une fréquence de 32%
les
en
mais seulement de 16% dans une question ouverte. De
mdme, en deux ans, la r6f6rence aux immigres a évolué de 4 A 8% dans
deux questions ouvertes, mais en sautant A 25% l’ann6e interm6diaire
dans une question ferm6e. L’auteur a encore évoqué la plus grande fiabilit6
des informations recueillies sur la drogue ou l’alcoohsme A travers des
questions ouvertes.
question ferm6e,
Que faire donc des questions
ouvertes d’une enquete, au-dela de la
technique traditionnelle du post-codage? M. Lebart a signal6 une premi6re
6tape, non statistique, celle de la simple gestion du texte. Il suffit de trier
les textes des r6ponses A une question ouverte unique par Age croissant de
1’enqu6t6, ou par CSP. Puis, il est pass6 A 1’6tude des distributions lexicales
en num6risant chaque forme lexicale du texte, et a ensuite soumis ce
corpus A 1’analyse factorielle en traitant le tableau de contingence croisant
les formes lexicales et les parties de texte of elles figurent (une partie est
par exemple constitu6e de la r6ponse de l’enquêté X A une question ouverte
6tudi6e). C’est ainsi qu’il a d6velopp6 le logiciel SPAD.T (diffuse par le
CISIA, sous la direction d’Alain Morineau, 25 avenue de 1’Europe, 92130
Sevres, qui assure aussi des stages de formation).
M. Salem a introduit l’analyse lexicale en faisant remarquer que la notion
meme de mot n’était pas claire et que le regroupement sous forme
canonique dans le lexique (lemmatisation) variait d’un dictionnaire A
I’autre: le terme de voile au masculin et au f6minin correspond-il au mdme
mot? &dquo;La libert6&dquo; et
&dquo;les hbert6s&dquo;
ont
une
telle différence
de
sens
(s6mantique) qu’on ne peut simplement ramener l’un au pluriel de l’autre.
Bref, l’analyse lexicométrique propos6e par Lebart et Salem ignore la
grammaire, si essentielle A la compr6hension du sens, comme 1’existence
meme de synonymes. Elle consiste A travailler le plus longtemps possible
sur le texte brut, avant la perte d’information introduite par le post-codage.
Qu’est ce donc qu’un texte pour un statisticien? Pour nos auteurs, une
suite ordonn6e de formes lexicales permettant de d6finir des segments de
2, 3 et plus (suite de 2, 3 formes cons6cutives dans le texte) et de
longueurdes
reperer
segments abondamment r6p6t6s dans le texte. Ainsi la forme
&dquo;politique&dquo; donne-t-elle lieu aux segments &dquo;politique 6conomique&dquo; ou &dquo;parti
politique&dquo;. Le d6coupage en segments est d’une complexité extr6me.
Signalons seulement que les segments suivants de longueur 2 et 3, &dquo;de
Gaulle&dquo; et &dquo;G6n6ral de Gaulle’, sont employ6s par des publics tr~s
diff6rents de mtme que les segments &dquo;respecter le code de la route&dquo; et &dquo;faire
respecter le code de la route&dquo;. M. Salem sugg6re que les textes sont souvent
construits A partir d’emprunts incessamment r6p6t6s. L’ensemble des
segments r6p6t6s de 4 formes constituent souvent la molti6 du texte, en
90
des textes politiques ou syndicaux qu’il a analyses a 1’Ecole
Normale de Saint-Cloud (pas m6me reduites a leur forme canonique du
masculin slngulier ou de l’1nfin1t1f).
particulier
M. Lebart
a
cit6
plusieurs exemples
de traitements:
publicitaire am6ricaine relative A une &dquo;cC-r6ale&dquo; pour
demandait A 1’enquete ce qu’il avait retenu du message
publicitaire et s’il pensait acheter le produit. Les enqu£t8s hostiles au
produit avaient retenu des mots techniques comme &dquo;polycarbonates&dquo;
contrairement aux personnes favorables qui ne se souvenaient que de
&dquo;good&dquo; ou &dquo;good for your health&dquo;. Ces formes caract6risant ces deux classes
ont un interet 6vident pour definir le message publicitaire futur (dont on
peut anticiper le contenu informatifl).
-
Lors d’une 6tude
petits-d6jeuners,
on
Dans l’une des enqu6tes &dquo;Aspirations&dquo; du CREDOC, 2.000 enqu6t6s ont
la question ouverte: &dquo;Quelles sont les raisons qui, selon vous,
peuvent faire hc-siter une femme ou un couple A avoir un enfant?&dquo;
-
r6pondu A
Les trois lignes de r6ponse obtenues en moyenne ont produit 1.569 formes
lexicales totalisant 17.495 occurrences de ces formes. L’analyse des correspondances du tableau d6nombrant les formes employ6es par chaque
individu s’est révélée d’une tr~s grande coh6rence lexicale: par exemple,
entre neuf groupes croisant trois niveaux d’instruction par trois groupes
d’âges. La projection des segments r6p6t6s en variables suppl6mentaires a
revele des formes caract6ristiques bien specifiques de ces groupes: pour les
jeunes sans dipl6me, &dquo;ch6mage&dquo;; pour les personnes de plus de 50 ans
sans dipl6me, &dquo;ils ne s’aiment pas&dquo;, &dquo;ils ne veulent pas s’embarrasser&dquo;, &dquo;je
ne
sais
pas&dquo;....
Ainsi, le simple espace des mots contient
une information consid6rable,
m6me analyser le sens des phrases comme le tente 1’intelligence
artificielle. D’ailleurs on a l’impression qu’en traduction automatique, plus
les techniques sont sophistiqu6es moins les r6sultats sont bons. Le logiciel
SPAD.T permet une &dquo;aide A la lecture des questions ouvertes des enquetes,
adapt6e A toute langue disposant d’un alphabet&dquo;.
sans
La m6thode est particuh~rement int6ressante pour les questions aux
r6ponses longues (M. Salem a d6velopp6 un logiciel adapt6 aux longs textes
litt6raires, le LEXICLOUD). Elle
est certes encore assez cofteuse, mais tout
bon micro: une question de 3 lignes pour 2.000
enqu6t6s est analys6e en 10 minutes sur un Macintosh. Le stockage du
texte demande un grand espace de m6moire. C’est le prix A mettre pour
analyser les questions ouvertes en toute objectivité.
A fait accessible
sur un
Bibliographie
L. Lebart et A. Salem,
Analyse statistique des donn&eacute;es textuelles, Dunod,
Paris, 1988, 209 pages.
H. Schuman et F. Presser, Question and Answers in Attitude Surveys,
Academic Press, New York, 1981.
C. Muller, Principe et m&eacute;thode de statistique lexicale, Hachette, Paris, 1977.
91
G. K. Zipf, The Psychobiology of Language: An Introduction to Dynamic
Philology, Houghton-Hifflin, Boston, 1935. Trad. La psycho-biologie du
langage, 1974, RETZ-CEPL,
Paris.
Beno&icirc;t RIANDEY
COMMUNICATION
Le Minist6re de la
SCIENTIFIQUE
&
TECHNIQUE
rue de Talleyrand, 75700 Paris; t6l
la Cite des Sciences et de l’Industrie A Paris les
9-10 janvier 1990 un forum de la communication scientifique et technique
&dquo;Quelles langues pour la science?&dquo;. n y avait 5 tables rondes (&dquo;Chercher,
inventer, innover dans sa langue&dquo;; &dquo;Dans quelle langue livrer les r6stdtats
de la recherche?&dquo;; &dquo;Langues, appropriation des savoirs et activit6s de
production&dquo;; &dquo;Vulgariser dans sa langue&dquo;; &dquo;Pourquoi croyons-nous A la
pluralit6 des langues de la science et de la technologie?&dquo;), 3 ateliers
transversaux (&dquo;Banques de donn6es - bibhoth~ques&dquo;; &dquo;Terminologie&dquo;;
&dquo;Industrie de la langue&dquo;), 7 ateliers sp6ciahs6s (&dquo;Physique nucl6aire et
corpusculaire&dquo;; &dquo;Math6matiques et physique de base&dquo;; &dquo;Sciences physique
pour l’ing6nieur&dquo;; &dquo;Chimie&dquo;; &dquo;Terre, oc6an, atmosphere, espace&dquo;; &dquo;Science de
la vie - m6decine&dquo;; &dquo;Science de 1’homme et de la soci6t6&dquo;), plus d’autres
pr6sentations et communications, et une exposition illustrant les diff6rents
moyens susceptibles d’améliorer la circulation de l’information scientifique.
45.56.13.13)
a
Francophonie (7
organis6 A
INFORMATION &
ORGANISATION
L’AFCET (adresse ci-dessus) a organise en janvier-f6vrier 1990 1’accueil a
Paris de personnalit6s scientifique am6ricaines dans les domaines des
sciences et techniques de l’information, de l’organisation et des syst~mes.
Du 13 au 21 janvier, le professeur R. R. Yager (Iona College, New Rochelle
NY) a donn6 quatre conf6rences. Du 19 au 23 f6vrier, le docteur D. Bobrow
(System Sciences Laboratory) a donn6 trois conf6rences dont une;A Nantes.
Du 20 au 26 février le professeur N. Dershowitz (University of Illinois,
Urbana Champaign) a donne des conferences a Paris, Orsay et Nancy.
TELEINFORMATIQUE
L’AFCET (adresse ci-dessus) a organis6 le 17 janvier 1990 la journ6e
&dquo;T616informatique&dquo; A Paris. Les themes trait6s ont 6t6 les suivants: &dquo;Point
sur la mise en place du RNIS&dquo;; &dquo;Evolution des interfaces&dquo;; &dquo;Harmonisation
92
des normes europ6ennes&dquo;; &dquo;S6curisation de bout en
informatiques - la solution propos6e par TRANSPAC&dquo;.
MATHEMATIQUES
&
bout des
6changes
SCIENCES HUMAINES
La SFHSH (Soci6t6 França1se pour 1’Histoire des Sciences de 1’Homme, 30 b
de la Gait6, 75014 Paris) a organis6 les 8-9 fwrier 1990 les joumees
d’6tudes &dquo;Mathématiques et Sciences humaines: D6mographie, Economie,
Linguistique&dquo; A Paris. Il y avait 4 sessions: J. N. Biraben, &dquo;D6mographie&dquo;;
J. C. Perrot, &dquo;Economie&dquo;; H. Guitton, &dquo;Economie&dquo;; et A. Lentin,
&dquo;Linguistique&dquo;. Lors de ces sessions un total de 11 presentations ont 6t6
&dquo;L’invention de la table de mortaht6&dquo;; H. Le Bras,
faites: J. Dup&quier,
&dquo;Nature et culture dans les mod~les
A. Blum, &dquo;Mod~les
6conon-iiques et mod~les d6mographiques&dquo;-; G. Jorland, &dquo;Les manuels de
math6matiques pour 6conomistes&dquo;; F. Etner, &dquo;Les ing6nieurs 6conomistes
et l’économie math6matique&dquo;; M. Penin & A. Zylberberg, &dquo;La r6sistance A
la math6matisation&dquo;; B. Walliser, &dquo;La g6n6rahsation syntaxique&dquo;; C.
Schmidt, &dquo;Th6orie des jeux et rationalisation 6conomique&dquo;; S. Auroux,
&dquo;Math6sabilit6 et math6matisation des objets linguistiques&dquo;; G. T.
Guilbaud, &dquo;Statistiques et linguistique&dquo;; et J. P. Descl6s, &dquo;La
math6matisation de 1950 a aujourd’hui&dquo;.
rue
d6mographiques&dquo;;
93