PAST MEETINGS/REUNIONS PASSEES
Transcription
PAST MEETINGS/REUNIONS PASSEES
PAST MEETINGS/REUNIONS PASSEES TECHNIQUES D’ECHANTILLONNAGE PAR QUOTAS Cette s6ance du 7 novembre 1989 du séminalre &dquo;M6thodes d’enquêtes11 de l’Institut National d’Etudes Démographiques (INED, 27 rue du Commandeur, 75675 Paris cedex 14; t~l 43.20.13.45; fax 43.27.72.40) a 6t6 entierement consacr6e A 1’expose de Jean-Claude Deville, chef de la division &dquo;M6thodes de sondage&dquo; de 1’INSEE, et A sa discussion. Deux approches th6oriques peuvent servir de fondement a 1’6chantillonnage dans les enqu8tes: la th6orie classique des sondages, of seul 1’6chantiRon pr6sente un caract~re al6atoire, et la theorie des ’superpopulations&dquo;. Cette derni~re a constitu6 le support de 1’expos6. A la maniere des 6conom~tres, on pose un mod~le de comportement individuel dont chaque personne n’est qu’une realisation al6atoire (exemple, &dquo;dans la super-population, la distribution des revenus est a priori log-normale - de param6tres inconnus&dquo;). L’enqu6te permet 1’estimation de ces parametres (parfois implicite seulement). Celle-ci autorise une pr6diction de chaque valeur non observ6e dans l’échantillon. Un total dans la population est alors estime pour le total des valeurs observ6es et des valeurs pr6dites. Dans certaines conditions, seule la distribution des variables explicatives du mod6le est utile au calcul de festimateur. Dans le cas de la m6thode des quotas, on peut d6velopper des mod6les of la distribution des variables de quotas dans la population suffit au calcul de festimateur. Ainsi, au lieu de modéliser le mode de recueil des donn6es, on modélise le comportement individuel. Limitons d’abord la contrainte A une seule variable de quotas (quotas repr6sentatifs par cellule). Supposons que la variable mesurée ne d6pende, ~ un al6a pres. que de la modaht6 prise par la variable de quotas (le revenu ne d6pend que de la CSP). L’estimateur &dquo;post- stratifl6&dquo;, respectant 1’effectif de chaque cellule, a une variance sous modele ind6pendante de l’échantillon obtenu et donc de la probabilit6 d’6chantillonnage des que quotas (Gouriéroux, 1981). Ce r6sultat se quotas marginaux de plusieurs variables quand on a pos6 un mod~le de comportement de type Anova sans interaction: &dquo;le revenu d’un individu est determine - a un al6a pr6s - par les effets additifs de son age et de sa CSP&dquo;. Dans ces conditions, on a calcule une variance théorique de cet estimateur dont l’efficacité provient de 1’exactitude de toutes les celle-ci est contrainte par les généralise aux distributions marginales. est-il de la robustesse de marche pas? Qu’en ces estimations quand le modèle ne Il suffit de d6velopper un mod~le d’analyse de la variance avec interactions pour rep6rer 1’existence d’un biais (sous mod81e). Il reste A esp6rer que ces 81 effets d’interaction sont pas moins. petits ou se compensent, mais le biais n’en existe La critique la plus fondamentale aux quotas n’est pas 1~. C’est, par exemple, 1’eventualite d’une s6lection de 1’6chantfllon corr6l6e aux variables mesur6es (&dquo;seuls les pauvres r6pondraient aux enquttes sur les revenus&dquo;). Ce type de biais est imparable; aucune estimation ne permet de le redresser (sauf A connattre le d6tail du processus de s6lection). Tout 1’art de la collecte consiste A s’en prot6ger, en particulier en witant de trop pr6ciser le theme pr6alablement A 1’interview. Ce biais existe 6galement dans les enqu6tes probabilistes, mais est nccessairement limit~ quand le taux de refus est minime. Or, la notion de taux de refus n’a aucun sens pour une enqudte sur quotas et c’est probablement sa limite la plus grave. On une th6orie des quotas non proportionnels mod6le additif et 1’estimateur de la pr6diction. Selon l’id6e de Neyman, on va chercher l’information 1~ o~ elle se trouve afin d’accroitre 1’efflcacit6 du sondage (&dquo;surpondérer les lnd6pendants et cadres sup6rieurs et les personnes ägées pour une enquete sur 1’6pargne&dquo;). Il reste A d6finir les pond6rations, mais on ne benencie d’aucune protection par rapport aux d6fauts du mod~le. L’efflcacit6 comporte des risquesl peut pareillement dweiopper fond6e sur un Une autre approche des 6chantfilons par quotas consiste A approximer algorithmes de tirage avec contraintes. Dans l’abstrait, parmi tous des les 6chantillons, on ne retient que ceux respectant les quotas. Par exemple, on realise des échantillons par tirage al6atoire simple et on retient le premier qui respecte les quotas. L’avantage en est de tenir compte de variables de stratification absentes de la base de sondage (1’annuaire t6l6phonique ne contient pas d’information relative aux CSP). On peut enfin s’interroger sur la compatibilit6 de cette th6orie des quotas avec la stratification et les sondages A plusieurs degr6s, tels que les réalisent les instituts. La stratification ne pose aucun probl~me si les quotas sont d6finis strate par strate, ni si les quotas sont d6f[riis au niveau de 1’unite primaire. Il reste, par contre, A d6velopper une th6orie des quotas globaux en presence de stratification et de degr6s multiples. En conclusion Les quotas entrainent un gain de variance par pseudo-stratification, mais ils generent un biais (d’interaction ou de s6lection). Les petits 6chantfllons sont donc le domaine privil6gi6 des quotas. Avec un gros 6chantillon, le biais deviendrait important par rapport A la variance. On est alors dans le domaine privil6gi6 de l’al6atoire, surtout en utilisant les estimateurs poststratifi6s. On peut proposer aussi un autre clivage. Dans un contrat entre une soci6t6 d’6tudes et un client, l’accord peut porter sur le modele qui fonde 1’6chantiUonnage par quotas. La statistique publique, pour sa part, doit rechercher le consensus et 6viter les hypotheses d’un mod~le. C’est donc le domaine privil6gi6 du sondage probabiliste. 82 Bibliographie J. C. Deville, "Une amélioration de la méthode des quotas", Communication libre au Congrès de l’IIS, Paris, 1989. J. C. Deville, "Vous avez dit représentatif ? ou pondérer n’est pas tricher", Colloque sur les sondages de l’Université libre de Bruxelles et de l’ASU. A paraître. 1988. A. M. Dussaix, "Modèles de surpopulation", Les Sondages, ASU Economica. 1987. Benoît ENQUETES Riandey PAR VOIE DE PRESSE ou ne pas r6pondre, 1A est la question&dquo; - s6ance du 5 décembre 1989 du s6n-iinaire &dquo;M6thodes d’enqu6tes&dquo; de 1’INED &dquo;R6pondre Les m6dias sollicitent fréquemment les r6ponses de leurs lecteurs ou auditeurs A des questionnaires d’enqu6tes impr1més au milieu du journal ou enregistr6s sur le r6seau minitel. Une caracteristique essentielle de ces enqu6tes est le caractere strictement volontaire et actif de la participation A 1’tchantillon. Les statisticiens d’enquttes se doivent d’examiner 1’incidence de cette caract6ristique sur la fiabwt£ de ce mode de collecte, qui pr6sente par ailleurs l’avantage d’un coft minime. Introduction du d6bat et exemples Henri Leridon, chef du D6partement de socio-démographie de FINED, a introduit le probl6me en comparant, pour trois modes de constitution des echantillons, les filtres s6lectifs conditionnant leur repr6sentativit6. Il s’aft du sondage al6atoire, de la m6thode des quotas, et des enqu6tes aupr s des lecteurs, des auditeurs et assez largement des sondages par voie postale. Dans un sondage probabiliste, le tirage al6atoire de 1’echantillon dans une base correcte garantit un 6chantillon a priori sans biais. L’echantlllon effectivement obtenu peut certes 6tre defonne par les 6chees de 1’enqu6te (en particulier les refus), mais 1’information disponible sur le nombre et sur certaines caract6ristiques des non-r6pondants permet un contr61e interne de 1’6chantiRon. Dans les enquetes par quotas les enqu6teurs choisissent d’abord les personnes qu’ils vont contacter. Les consignes de diversification des contacts donn6es par les instituts de collecte tendent A r6duire cet effet s6lectif, mais les professionnels estiment que certains quartiers ne sont jamais visit6s. Dans un second temps, l’acceptation de 1’enquete d6pend pour une part de son int6ret pour le sujet et donc de ses propres opinions ou comportements, ce qui constitue un biais irremediable (voir la s6ance de s6minaire du 7 novembre ci-dessus). Cependant, la contrainte des quotas donne A 1’6chantLUon un aspect impeccable et lui confere une 83 efflcacit6 tr6s grande, dans la ou la s6lection par le theme n’est pas mesure intervenue. La midtiphcit6 des objectifs d’une enqu6te (enqu6te omnibus) et la pr6caution de ne pas annoncer avec pr6cision le theme de 1’enquete, contribuent A r6duire ce risque. Mais il n’existe interne pour l’une ou l’autre Ctape. aucun mode de contr61e ne Enfin les enqu6tes par voie de presse (ou d’autres m6dias) s’adressent qu’A une sous-population, le «lectorat» ou 1’auditoire, et la r6ponse au questionnaire releve en plus de la seule initiative du r6pondant. Si les enqu6tes du Centre d’Etude des Supports de Publicit6 (CESP) sur le lectorat ou de M6diam6trie sur l’audience donnent les contours de cette sous-population intermediaire (cf. 1’expos6 de Madame E. Boeswillwald), on ne dispose d’aucun contr61e interne du processus d’auto-s6lection. En dernier ressort, i1 est souvent possible de comparer la structure de 1’6chantillon A celle de la population vis6e (fournie par exemple par le recensement), mais ce contr61e est inop6rant par rapport A une selection th6matique. Une enqu6te de consommation médicale aurait beau etre repr6sentative par rapport A tous les criteres socio-d6mographiques, si les malades n’ont pas 6t6 en situation de rc-pondre, cette enqu6te n’aura aucune valeur et sous-estimera la consommation m6dicale. Mr Leridon a ensuite illustré par plusieurs limites de ce troisi6me mode de collecte. En 1987, la les apports et les d’un million de lecteurs selon la ans) avait r6a]is6 aupr6s de ses lectrices une enquete sur les premieres r~gles. Les r6ponses montraient, surtout pour les plus jeunes lectrices, un age moyen anormalement faible pour cet 6v6nement. Manifestement aux jeunes ages, seules les lectrices deja r6gl6es avaient r6pondu A 1’enquete. Au contraire, la variation saisonni6re mise en evidence semble solide, avec son maximum pendant les mois d’6t6. De la m6me fagon, 1’age median aux premiers rapports sexuels, fourni par une autre enqu~te de OK, 6tait tr6s inf6rieur aux estimations usuelles, en particulier pour les jeunes lectrices. LA encore les jeunes filles sans experience (sexuelle) avaient 6t6 peu port6es A r6pondre A l’appel du journal. Dans les deux cas, cependant, les estimations s’av6raient fiables pour la fraction la plus dgc-e des revue OK exemples Magazine (plus CESP, principalement des femmes de moins de 21 r6pondantes. En dernier lieu, H. Leridon a rapport6 une experience postale concernant la diffusion du st6rilet. Vers 1980, la stabilisation des ventes de st6rilet a port6 A croire A un seuil dans la diffusion de ce moyen contraceptif. Cependant, contrairement A la pilude, les ventes de st6rilet ne permettent pas une conversion in-im6diate en nombre d’utilisatrices, qui est aussi fonction de la dur6e moyenne d’usage d’un st6rflet. Une enquete postale aupres de 1000 m6decins prescripteurs (essentiellement des gyn6cologues) a permis de recueillir 300 questionnaires. Sur la base des d6clarations des m6decins, la dur6e d’usage d’un st6rilet aurait augment6 de 26 A 33 mois de 1978 A 1988. Un mod6le de projection elabore sur ces bases par L. Toulemon, demographe a FINED, a permis de &dquo;prwoir&dquo; avec pr6cision le nombre des utilisatrices jusqu’en 1988, date d’une enqu6te nationale de 1’INED sur le sujet. 84 par vole de presse Enqu6te sur le préservatif et contr6le par enqu6te omnibus Brenda Spencer, chercheuse A 1’INSERM, a pr6sent6 une comparaison entre deux enqu6tes d’opinion sur les modes de diffusion du pr6servatif. En d6cembre 1988, la revue T~l~ 7jours (10 millions de lecteurs selon le CESP) a requ 7500 r6ponses A son questionnaire (les dges des enqu6t6s s’6talaient de 10 à 90 ansl), tandis que BVA introduisait quelques questions dans une enqu6te omnibus de 1000 personnes. La concordance des r6sultats est relativement bonne, malgr6 une amplification des dff6rentielles dans 1’enqudte de presse. Par exemple, les deux enqu6tes indiquent un souhait tr6s majoritaire d’une diffusion large de ce contraceptif, mais avec une r6ticence commune pour leur diffusion dans les b~timents publics et les lieux de travail. des differences est tr6s sensible au ph6nom~ne le montraient les commentaires accompagnant les lettres r6ponses. Dans 1’enquete BVA, les femmes âgées constituent les cat6gories les plus r6ticentes A cette diffusion, contrairement aux r6sultats de TL6lL6 7 jours. Mme Spencer y voit un effet de mobilisation (ici, contre les maladies sexuellement transmissibles) que rev6t la r6ponse A une enqu6te par voie de presse. Cette <~amy», amplification comme On constate souvent, dans les enquetes postales, que plusieurs personnes sur le m6me questionnaire (par exemple quand les deux sexes sont coch6s). Il s’agit alors d’une d6marche collective, difficile A int6grer dans le mod~le ma~h6matique du sondage. r6pondent Les statistiques de reference du CESP Elisabeth Boeswillwald, du CESP, a pr6sent6 son institut, une association de type 1901 financ6e pour moiti6 par la presse et pour 1’autre par les agences de pubhcitc-, qui realise depuis 1956 des 6tudes sur la presse magazine. Chaque ann6e, 5 vagues d’enqu6tes de 3000 personnes recueillent des informations sur la diffusion de 134 magazines grace a un questionnaire d’environ 35 minutes. les enqu6t6s des agglomerations de moins de 100.000 habitants 6taient tir6s sur les listes lectorales, mais le CESP a opt6 pour des 6chantiRons int6gralement sur quotas. Apr6s stratification par region et type d’habitat (urbain/rural) intervient un tirage al6atoire des communes, puis un tirage des flots proportionnerement A leur taille. Les enqueteurs ont pour consigne de varier les 6tages et de ne pas enqueter deux immeubles cons6cutifs. Les quotas reposent sur les distributions d’~ge, sexe, cat6gorie sociale du chef de m6nage et d’activit6 professionnelle feminine, fournies annuellement par 1’INSEE. Jusqu’~ 1988, Les informations sont significatives pour les magazines atteignant 500.000 lecteurs par 6dition, et concernent 1’effectif et la structure du lectorat, son taux de p6n6tration par cat6gorie, ainsi que le taux de circulation de la revue (rapport du nombre de lecteurs au nombre d’exemplaires vendus), et les caract6ristiques de l’acheteur. La mesure porte toujours sur la «derniere p6riodc>> (le dernier num6ro, qu’il soit hebdomadaire ou mensuel). Les r6sultats sont envoy6s aux abonn6s mais apr6s une ou deux 85 ann6es, ils peuvent 6tre communiques a des chercheurs, exemple de contr61er leurs 6chantiRons. Enqu8te par médias relative ~ la rougeole d6sireux par Andr6 Langaney, sous-directeur au Mus6e de l’Homme, a présenté une experience originale, quoique, selon lui, n6gative. En 1973 des valeurs anormalement 6lev6es du taux de masculinit6 des naissances ont 6t6 observ6es dans des villages s6nagalais faisant suite A d’lrnportantes épidémies de rougeole en 1972. Cette coincidence inexplicable a donn6 lieu a un compte rendu A l’Acad6n-lie des Sciences le 17 d6cembre 1979. La presse s’empare de l’information et M. Langaney est d6bord6 par un courrier issu de parents de descendance unisexu6e d6sireux d’obtenir un enfant de l’autre sexe. Les organisateurs de 1’6mission <<Cl6s pour demaill>> d’Antenne 2 obtiennent finalement de M. Langaney qu’il participe à une 6mission A ce sujet. Lui-m6me, 6tant A la recherche d’une m6thode pour tester son hypoth~se, pose pour condition la pr6sentation A 1’6rriission d’un questionnaire d’enquete, pour qu’il soit repris dans les hebdomadaires de t6l6vision. La validation par enquete. statistique de la conjecture paraissait difficilement r6ahsable il aurait fallu constituer un 6chantillon d’enfants n6s moins de deux ans apr~s la contamination par rougeole d’un ain6. Or la rougeole se diffuse en France principalement a 1’6cole A un age oil le benjamin est le plus souvent d6jA n6. La population cible est donc tr6s restreinte. Grace a <Cl6s pour demain» et A la presse 6crite qui a reproduit le questionnaire, elle a pu 6tre largement atteinte car 2000 r6ponses sont parvenues A M. Langaney, dont 70% 6taient exploitables. car Il s’attendait A un biais s6lectif consid6rable puisqu’il avait 6t6 oblig6 d’6noncer son hypoth6se, mais ce biais relatif au sexe de 1’enfant n6 pouvait dtre suppos6 lnd6pendant de l’intervalle entre la contamination par rougeole et la naissance, tandis que le phenomene ne devait intervenir que pour l’intervalle 9-24 mois. De fait, les r6ponses dcnotaient un taux de exceptionnel (160 gar~ons pour 100 filles, mascuhnit6 des naissances en comparaison des 105 habituels), mais ce taux s’est avere constant sur 1’intervalle 0-5 ans. L’hypothese 6tait totalement infirm6e contrairement A ce qu’une lecture rapide des rc-sifltats aurait laiss6 entendre. Deux arm6es plus tard, l’analyse des confirmait cette absence de lien, au apr~s une epidemic ayant registres de naissance du Gro8riland de taux de masculinit6 normaux infest6 70 A 80% de la population. vu Malgr6 la demande de M. Langaney, 1’6n-lission <<Cl6s pour demain» n’a pas consacr6 la moindre minute pour informer les auditeurs et les r6pondants du r6sultat de 1’enqudte. Cette r6action illustre le peu d’int6r6t des m6dias pour les r6sultats n6gatifs de la recherche, et le fait qu’A la s6lection des enqu8t6s sur leur opinion correspond une s6lection n6faste des r6sultats diffuses en fonction de leur orientation. Cette s6lection intervient donc aussi dans la repr6sentativit6 scientifique des r6sultats d’enqu~te diffuses aupres du public (voir A ce propos H. Meynaud et D. Duclos, Les sondages d’opinion, La D6couverte, Paris, 1985). 86 L’exp6rience américaine des enqu6tes par voie de presse Madame Thu Hoang, du Laboratoire de Statistique ma-dicale de l’Universit6 Ren6 Descartes, a pr6sent6 la tradition amcricaine des enqu8tes par voie de presse. De longue date, la presse 6crite et la television se sont associ6es pour la realisation de sondages (New York Times-CBS, Washington Post-ABC, American Press-NBC) et elles ont meme fond£ une association, le National Council on Public Polls (NCPP) chargc- de contr6ler la transparence de ce mode de collecte d’information. Une telle institution n’existe pas en France, la Commission de contr61e des sondages 6lectoraux ayant des pr6rogatives beaucoup plus limltees. De 1916 A 1932, le Literary Digest avait organis6 avec succi3s des prwisions du r6sultat des 6lections pr6sidentielles fond6es sur les «votes de paille», enquetes postales diffusées par voie de presse. En 1936, c’est un fiasco total malgrc- les 2,4 millions de «votes» enregistr6s. Certes le resultat est acquis de fa~on massive conform6ment A la pr6vision, mais par le candidat annonc6 perdant, Franklin Roosevelt. Pr6cis6ment, Gallup venait d’introduire 1’enqu6te par quotas (immediatement apr~s que le statisticien Neyman ait &dquo;d6finitivement&dquo; dénoncé cette m6thode) et, sur la base d’un tres faible échantillon, avait annonce la victoire de Roosevelt. En 1956, Parten indiquait que 1’6chec du vote de paille n’etait pas le fait de la mauvaise repr6sentativit6 des lecteurs contact6s - car une enqu6te postale correctement realisee sur adresses avait conduit au meme biais - mais que cet 6chec tenait au passage s6lectif A l’acte de r6pondre (au cours de la s6ance du 5 mai dernier, A. Jacquart avait aussi signal6 la p6riode trop longue de collecte des votes de paille dont l’analyse ne tenait pas compte de 1’6volution des intentions de vote). En 1980, Link montrait que ce biais 6tait aussi intervenu en 1932, mais sans inverser le rc-sultat et que le redressement de 1’enquete de 1936 sur la base du biais de 1932, suppose stable, aboutissait A la pr6vision correcte de 1’61ection de Roosevelt. Lors du duel Reagan-Carter, NBC avait organis6 une enquete-vote aupr6s des auditeurs et publi6 son r6sultat &dquo;Reagan vainqueur du combat t6l6visC-&dquo;. Cette publicité a 6t6 condanin6e par la NCPP jugeant qu’elle ne pr6sentait pas les garanties d’un sondage correct. NBC a quitt6 la NCPP. Mme. Thu Hoang a ensuite rappel6 les huit acceptions - donn6es par Kruskal - au mot repr6sentativit6: usage rh6torique, absence de forces s6lectives, miniature de la population, presence des cas typiques, sondage satisfaisant, sondage couvrant 1’ensemble des cas possibles, sondage al6atoire, situation suffisamment frequent. Il est clair que les commentaires de presse ne se limitent pas A celui ou ceux qui fondent la scientificit6 d’une enqu6te par sondage. Enfin elle pr6sent6 plusieurs lettres ou coupures d’articles illustrant repr6sentatif des sondages par voie de presse, en particulier le fait que 1’operation est souvent perque comme une occasion de prendre la parole pour faire valoir son point de vue. L’ enquête du Monde sur &dquo;les libertés Guy Michelat, du Centre d’étude de la vie politique franealse (CEVIPOF), a rappel6 1’enqudte du journal Le Monde sur les hbert6s, l’usage a non II 87 r6alis6e le 9 novembre 1980, lorsque ce journal 6talt en conflit avec le Ministre de la Justice, Monsieur Peyrefitte. Les r6sultats en ont 6t6 publics en 6 pages le 22 f6vrier 1981 et immédiatement apr6s. Cette enqu6te n’a pas donn6 lieu A d’autres publications mais a apport6 des mat6riaux de recherche tres intéressants. ’ G. Michelat et A. Percheron, chercheurs au CEVIPOF, avaient r6dig6 un questionnaire tr6s long (220 informations tenant sur une double page du quotidien). Ce questionnaire avait reru 25.000 r6ponses, sans compter 300 lettres de soutien et de nombreux ch6ques. Les commentaires associ6s aux questionnaires exprimaient le sens militant evident du fait de r6pondre. Les 8500 questionnaires saisis montraient 6galement l’aspect fortement biais6 de 1’6chantiRon des r6pondants: 82% d’hommes (contre 58% dans le lectorat), une sur-repr6sentation des r6pondants Ag6s, des cadres sup6rieurs et des intellectuels (professeurs, instituteurs et 6tudiants des totalisaient la moiti6 de 1’6chantillon), une sous-repr6sentation agriculteurs et plus encore des ouvriers par rapport A leur importance dans le lectorat du Monde. Ceux proches du PSU totalisaient 8% des questionnaires. Ceux proches du PC 6taient en grande majorité dipl6m6s de 1’ensei~nement sup6rieur... Que pouvait-on extrapoler d’un &dquo;6chantUlon&dquo; si particulier? fréquences des opinions Cmises ne sont nullement gEn8raHsables, mais les structures et les m6canismes observ6s 6tabhssent des correspondances fines qui n’ont aucune raison d’dtre mises en cause, et qui n’auraient pu ttre mises en evidence qu’a un co~t tr6s supc-rieur (cf. 1’expos6 de M. Langaney). Par exemple, l’ordonnancement des partis ou des groupes sur l’axe droite-gauche 6tait tr6s coh6rent ainsi que les positionnements sur 1’axe &dquo;hb6rahsme-autorit6&dquo; ou les significations prêtées à des mots comme Les &dquo;hbert6&dquo;, &dquo;capitalisme&dquo;... En conclusion provisoire, on voit que ces enqu6tes constituent des mat6riaux d’usage délicat et riches de connaissance pour la recherche, mais ne pouvant etre directement interpr6t6s au premier degr6. Assez impropres A fournir des fréquences ou des moyennes, ils revelent des structures en particulier aupr6s de populations difficilement accessibles, comme dans les enqu6tes de Michael Pollak dans le Gai Pled Hebdo aupr~s de la population homosexuelle et portant sur la perception du sida. Ces enqu6tes sont souvent Ie contraire m6me d’un sondage et leurs r6sultats ne devraient jamais etre publics sans que le lecteur ne soit tr6s clairement avis6 de la nature profonde de ces donn6es. B. RIANDEY Chef du Service des enquêtes à l’INED H. LERIDON Chef du Département de socio-démographie à l’INED 88 LOGISTIQUE L’AFCET (Association Française pour la Cybern6tique Economique et 156 bd Péreire, 75017 Paris; tel 47 66 24 19) a organise les 1315 d6cembre 1989 A Paris un colloque sur le développement des sciences et pratiques de l’organisation intitul6 &dquo;Production, Distribution, Transport&dquo; qui 6tait en m6me temps les 4es journ6es francophones sur la logistique et les transports. Il y avait 6 conf6rences invit6es et 11 sessions sp6cialis6es sur des themes tels que l’ordonnancement d’ateliers, methodologies d’approche int6gr6e, optimisation des réseaux, gestion de production, formes de distribution, probl~me de tourn6es et probl~me de transport. Technique, RECHERCHE ET ENTREPRISES L’AFCET (adresse ci-dessus) a la Cit6 des Sciences et de l’Industrie de la Vffiette A Paris les Rencontres Recherche et Entreprises Les Applications de la Voix en Bureautique&dquo; le 19 d6cembre 1989. La journ6e 6tait orgaiiis6e en deux parties. La matin6e 6tait destin6e A faire le point sur 1’6tat de l’art sur l’avanc6e des recherches et des applications dans le domaine. L’apr6s-n-iidi a mis en 6vidence les applications de la voix consid6r6es comme les plus prometteuses avec de nombreux t6moignages organis6 A d’exp6riences et ANALYSE DES d’applications QUESTIONS en cours. OUVERTES Cette s6ance du 9 janvier 1990 du séminaire &dquo;M6thodes d’enqui8tes&dquo; de 1’INED a 6t6 men6e par Ludovic Lebart (CNRS/ Télécom Paris) et Andr6 Salem (ENS Fontenay Saint-Cloud). Un large public de 80 personnes a montr6 toute 1’attente des sp6cialistes d’enqu6tes pour les nouvelles m6thodes d’analyse des questions ouvertes. La m6thodologie d6velopp6e par MM. Lebart et Salem permet en effet de d6passer l’alternative entre analyse de contenu et post-codage des questions ouvertes, d’éviter la confrontation entre analyse qualitative et analyse quantitative. Cette s6ance constitue ainsi notre premier pas sur l’un des champs annonc6s pour le s6rriinaire, l’analyse qualitative, mais grace a des techniques de 1’analyse quantitative. M. Lebart a rappel6 quelques qualit6s spécifiques des questions ouvertes: absence d’effet de suggestion, par exemple dans l’activation de la m8moire; richesse de l’information produite; invariance des questions, m6mes quand les items de r6ponse 6voluent; rapidit6 d’exploration d’un champ; agr6ment de la communication entre enqutteur et enquêté. Il en a aussi rappel6 les 89 particulier le caract6re non syst6matique de l’information point de vue th6orique a 6t6 clairement affirm6: les r6ponses aux questions ouvertes sont d’une nature diff6rente de celle des questions ferm6es, tout comme se distinguent les probl6matiques qui les inspirent. Les r6ponses A deux questions, Tune ouverte et l’autre ferm6e sur un meme th~me, sont irr6ductiblement incomparables. Fermer une question, c’est limites, produite. en Son une maniere d’en modifier l’intitul6. M. Lebart a pr6occupations cit6 du 1’exemple des r6f6rences A la violence parmi public. Elle apparait avec une fréquence de 32% les en mais seulement de 16% dans une question ouverte. De mdme, en deux ans, la r6f6rence aux immigres a évolué de 4 A 8% dans deux questions ouvertes, mais en sautant A 25% l’ann6e interm6diaire dans une question ferm6e. L’auteur a encore évoqué la plus grande fiabilit6 des informations recueillies sur la drogue ou l’alcoohsme A travers des questions ouvertes. question ferm6e, Que faire donc des questions ouvertes d’une enquete, au-dela de la technique traditionnelle du post-codage? M. Lebart a signal6 une premi6re 6tape, non statistique, celle de la simple gestion du texte. Il suffit de trier les textes des r6ponses A une question ouverte unique par Age croissant de 1’enqu6t6, ou par CSP. Puis, il est pass6 A 1’6tude des distributions lexicales en num6risant chaque forme lexicale du texte, et a ensuite soumis ce corpus A 1’analyse factorielle en traitant le tableau de contingence croisant les formes lexicales et les parties de texte of elles figurent (une partie est par exemple constitu6e de la r6ponse de l’enquêté X A une question ouverte 6tudi6e). C’est ainsi qu’il a d6velopp6 le logiciel SPAD.T (diffuse par le CISIA, sous la direction d’Alain Morineau, 25 avenue de 1’Europe, 92130 Sevres, qui assure aussi des stages de formation). M. Salem a introduit l’analyse lexicale en faisant remarquer que la notion meme de mot n’était pas claire et que le regroupement sous forme canonique dans le lexique (lemmatisation) variait d’un dictionnaire A I’autre: le terme de voile au masculin et au f6minin correspond-il au mdme mot? &dquo;La libert6&dquo; et &dquo;les hbert6s&dquo; ont une telle différence de sens (s6mantique) qu’on ne peut simplement ramener l’un au pluriel de l’autre. Bref, l’analyse lexicométrique propos6e par Lebart et Salem ignore la grammaire, si essentielle A la compr6hension du sens, comme 1’existence meme de synonymes. Elle consiste A travailler le plus longtemps possible sur le texte brut, avant la perte d’information introduite par le post-codage. Qu’est ce donc qu’un texte pour un statisticien? Pour nos auteurs, une suite ordonn6e de formes lexicales permettant de d6finir des segments de 2, 3 et plus (suite de 2, 3 formes cons6cutives dans le texte) et de longueurdes reperer segments abondamment r6p6t6s dans le texte. Ainsi la forme &dquo;politique&dquo; donne-t-elle lieu aux segments &dquo;politique 6conomique&dquo; ou &dquo;parti politique&dquo;. Le d6coupage en segments est d’une complexité extr6me. Signalons seulement que les segments suivants de longueur 2 et 3, &dquo;de Gaulle&dquo; et &dquo;G6n6ral de Gaulle’, sont employ6s par des publics tr~s diff6rents de mtme que les segments &dquo;respecter le code de la route&dquo; et &dquo;faire respecter le code de la route&dquo;. M. Salem sugg6re que les textes sont souvent construits A partir d’emprunts incessamment r6p6t6s. L’ensemble des segments r6p6t6s de 4 formes constituent souvent la molti6 du texte, en 90 des textes politiques ou syndicaux qu’il a analyses a 1’Ecole Normale de Saint-Cloud (pas m6me reduites a leur forme canonique du masculin slngulier ou de l’1nfin1t1f). particulier M. Lebart a cit6 plusieurs exemples de traitements: publicitaire am6ricaine relative A une &dquo;cC-r6ale&dquo; pour demandait A 1’enquete ce qu’il avait retenu du message publicitaire et s’il pensait acheter le produit. Les enqu£t8s hostiles au produit avaient retenu des mots techniques comme &dquo;polycarbonates&dquo; contrairement aux personnes favorables qui ne se souvenaient que de &dquo;good&dquo; ou &dquo;good for your health&dquo;. Ces formes caract6risant ces deux classes ont un interet 6vident pour definir le message publicitaire futur (dont on peut anticiper le contenu informatifl). - Lors d’une 6tude petits-d6jeuners, on Dans l’une des enqu6tes &dquo;Aspirations&dquo; du CREDOC, 2.000 enqu6t6s ont la question ouverte: &dquo;Quelles sont les raisons qui, selon vous, peuvent faire hc-siter une femme ou un couple A avoir un enfant?&dquo; - r6pondu A Les trois lignes de r6ponse obtenues en moyenne ont produit 1.569 formes lexicales totalisant 17.495 occurrences de ces formes. L’analyse des correspondances du tableau d6nombrant les formes employ6es par chaque individu s’est révélée d’une tr~s grande coh6rence lexicale: par exemple, entre neuf groupes croisant trois niveaux d’instruction par trois groupes d’âges. La projection des segments r6p6t6s en variables suppl6mentaires a revele des formes caract6ristiques bien specifiques de ces groupes: pour les jeunes sans dipl6me, &dquo;ch6mage&dquo;; pour les personnes de plus de 50 ans sans dipl6me, &dquo;ils ne s’aiment pas&dquo;, &dquo;ils ne veulent pas s’embarrasser&dquo;, &dquo;je ne sais pas&dquo;.... Ainsi, le simple espace des mots contient une information consid6rable, m6me analyser le sens des phrases comme le tente 1’intelligence artificielle. D’ailleurs on a l’impression qu’en traduction automatique, plus les techniques sont sophistiqu6es moins les r6sultats sont bons. Le logiciel SPAD.T permet une &dquo;aide A la lecture des questions ouvertes des enquetes, adapt6e A toute langue disposant d’un alphabet&dquo;. sans La m6thode est particuh~rement int6ressante pour les questions aux r6ponses longues (M. Salem a d6velopp6 un logiciel adapt6 aux longs textes litt6raires, le LEXICLOUD). Elle est certes encore assez cofteuse, mais tout bon micro: une question de 3 lignes pour 2.000 enqu6t6s est analys6e en 10 minutes sur un Macintosh. Le stockage du texte demande un grand espace de m6moire. C’est le prix A mettre pour analyser les questions ouvertes en toute objectivité. A fait accessible sur un Bibliographie L. Lebart et A. Salem, Analyse statistique des données textuelles, Dunod, Paris, 1988, 209 pages. H. Schuman et F. Presser, Question and Answers in Attitude Surveys, Academic Press, New York, 1981. C. Muller, Principe et méthode de statistique lexicale, Hachette, Paris, 1977. 91 G. K. Zipf, The Psychobiology of Language: An Introduction to Dynamic Philology, Houghton-Hifflin, Boston, 1935. Trad. La psycho-biologie du langage, 1974, RETZ-CEPL, Paris. Benoît RIANDEY COMMUNICATION Le Minist6re de la SCIENTIFIQUE & TECHNIQUE rue de Talleyrand, 75700 Paris; t6l la Cite des Sciences et de l’Industrie A Paris les 9-10 janvier 1990 un forum de la communication scientifique et technique &dquo;Quelles langues pour la science?&dquo;. n y avait 5 tables rondes (&dquo;Chercher, inventer, innover dans sa langue&dquo;; &dquo;Dans quelle langue livrer les r6stdtats de la recherche?&dquo;; &dquo;Langues, appropriation des savoirs et activit6s de production&dquo;; &dquo;Vulgariser dans sa langue&dquo;; &dquo;Pourquoi croyons-nous A la pluralit6 des langues de la science et de la technologie?&dquo;), 3 ateliers transversaux (&dquo;Banques de donn6es - bibhoth~ques&dquo;; &dquo;Terminologie&dquo;; &dquo;Industrie de la langue&dquo;), 7 ateliers sp6ciahs6s (&dquo;Physique nucl6aire et corpusculaire&dquo;; &dquo;Math6matiques et physique de base&dquo;; &dquo;Sciences physique pour l’ing6nieur&dquo;; &dquo;Chimie&dquo;; &dquo;Terre, oc6an, atmosphere, espace&dquo;; &dquo;Science de la vie - m6decine&dquo;; &dquo;Science de 1’homme et de la soci6t6&dquo;), plus d’autres pr6sentations et communications, et une exposition illustrant les diff6rents moyens susceptibles d’améliorer la circulation de l’information scientifique. 45.56.13.13) a Francophonie (7 organis6 A INFORMATION & ORGANISATION L’AFCET (adresse ci-dessus) a organise en janvier-f6vrier 1990 1’accueil a Paris de personnalit6s scientifique am6ricaines dans les domaines des sciences et techniques de l’information, de l’organisation et des syst~mes. Du 13 au 21 janvier, le professeur R. R. Yager (Iona College, New Rochelle NY) a donn6 quatre conf6rences. Du 19 au 23 f6vrier, le docteur D. Bobrow (System Sciences Laboratory) a donn6 trois conf6rences dont une;A Nantes. Du 20 au 26 février le professeur N. Dershowitz (University of Illinois, Urbana Champaign) a donne des conferences a Paris, Orsay et Nancy. TELEINFORMATIQUE L’AFCET (adresse ci-dessus) a organis6 le 17 janvier 1990 la journ6e &dquo;T616informatique&dquo; A Paris. Les themes trait6s ont 6t6 les suivants: &dquo;Point sur la mise en place du RNIS&dquo;; &dquo;Evolution des interfaces&dquo;; &dquo;Harmonisation 92 des normes europ6ennes&dquo;; &dquo;S6curisation de bout en informatiques - la solution propos6e par TRANSPAC&dquo;. MATHEMATIQUES & bout des 6changes SCIENCES HUMAINES La SFHSH (Soci6t6 França1se pour 1’Histoire des Sciences de 1’Homme, 30 b de la Gait6, 75014 Paris) a organis6 les 8-9 fwrier 1990 les joumees d’6tudes &dquo;Mathématiques et Sciences humaines: D6mographie, Economie, Linguistique&dquo; A Paris. Il y avait 4 sessions: J. N. Biraben, &dquo;D6mographie&dquo;; J. C. Perrot, &dquo;Economie&dquo;; H. Guitton, &dquo;Economie&dquo;; et A. Lentin, &dquo;Linguistique&dquo;. Lors de ces sessions un total de 11 presentations ont 6t6 &dquo;L’invention de la table de mortaht6&dquo;; H. Le Bras, faites: J. Dup&quier, &dquo;Nature et culture dans les mod~les A. Blum, &dquo;Mod~les 6conon-iiques et mod~les d6mographiques&dquo;-; G. Jorland, &dquo;Les manuels de math6matiques pour 6conomistes&dquo;; F. Etner, &dquo;Les ing6nieurs 6conomistes et l’économie math6matique&dquo;; M. Penin & A. Zylberberg, &dquo;La r6sistance A la math6matisation&dquo;; B. Walliser, &dquo;La g6n6rahsation syntaxique&dquo;; C. Schmidt, &dquo;Th6orie des jeux et rationalisation 6conomique&dquo;; S. Auroux, &dquo;Math6sabilit6 et math6matisation des objets linguistiques&dquo;; G. T. Guilbaud, &dquo;Statistiques et linguistique&dquo;; et J. P. Descl6s, &dquo;La math6matisation de 1950 a aujourd’hui&dquo;. rue d6mographiques&dquo;; 93