Mesures de Marché - Marketing Industriel B to B
Transcription
Mesures de Marché - Marketing Industriel B to B
JJ Croutsche UP 13 GEODE 2010 Jean-Jacques Croutsche l'a ut eu r Méthodes d’Evaluation des Marchés et de la Concurrence Approches SP EC IM EN de Quantitatives et Qualitatives 1 JJ Croutsche UP 13 GEODE 2007-2008 Introduction Ce cours a pour objectif d’aider les étudiants, les praticiens et les chercheurs à réaliser des études de marché. La constitution des bases de données à partir d’échantillons, les traitements statistiques sont réalisés sur SHINX, progiciel adapté à une utilisation facile et opérationnelle des données quantitatives et qualitatives. De nombreux illustrent les méthodes de calculs. En reprenant mes ouvrages fondamentaux, les étudiants pourront approfondir leurs connaissances en reprenant les algorithmes traités et illustrés à partir de nombreux exemple. l'a ut eu r Mieux, les étudiants pourront télécharger SPHINX et travailler sur les bases de données proposées par le concepteur du logiciel. Des études et leurs corrigés sont également proposés dans le cadre du cycle d’étude. Par ailleurs, ce cours doit être complété par une lecture approfondie de mon ouvrage intitulé : « Pratique de l’Analyse des Données » édité chez ESKA. de Cet ouvrage vous permettra d’entrer dans les algorithmes et de mieux comprendre les méthodes utilisées dans SPHINX. SP EC IM EN JJ. Croutsche 2 JJ Croutsche UP 13 GEODE 2007-2008 Plan de l’ouvrage 1) Présentation de l’entreprise par rapport à ses environnements 11) Les environnements de l’entreprise 12) Variables MIX 2) Le marché de l’entreprise (définitions) 21) Le marché : approche économique 22) Appréhension qualitative et quantitative des marchés (définitions marketing) 3) Les types d’études de marché 31) Passages obligés et étapes nécessaires au choix optimal d’une étude 32) Présentation des différentes formes d’études de 5) Elaboration du questionnaire 51) Questions fermées 52) Questions ouvertes 53) Les échelles d’attitudes 54) Les types d’enquêtes l'a ut eu r 4) Construction de l’échantillon 41) Définitions et méthodes possibles 42) Méthode des quotas (non probabiliste) 43) Méthodes aléatoires 44) Taille de l’échantillon et erreur acceptée 45) Sondages sur populations réduites (exhaustifs) IM EN 6) Etude des traitements statistiques élémentaires (tris plats) 61) Type de variable 62) Traitements des variables quantitatives 63) Traitement des variables qualitatives 64) Utilisation de Khi 2 (Pearson) sur l’étude d’une variable nominale SP EC 7) Etude de relations entre deux variables (tris croisés simples) 71) Le croisement des variables quantitatives : la méthode des moindres carrés (ajustement linéaire) 72) Application SPHINX : Etude automobile ; relation des variables « dépenses » et « kilométrage » 73) Croisement des variables qualitatives (nominales) : Test de Khi² et analyse des correspondances simples (croisement de deux variables) 74) Croisement sur sphinx des variables CSP et Marques (étude automobile) 8) Etude de relations entre plusieurs variables (tris croisés multiples) 81) Régressions et corrélations multiples 82) Analyse en composantes principales 3 JJ Croutsche UP 13 GEODE 83) Analyse discriminante 84) Analyse des correspondances multiples 2007-2008 9) Analyse lexicale, traitement des questions ouvertes, transformation en variables multiples et croisements avec d’autres variables 91) Etude des mots les plus usités (traitement des occurrences) 92) Elaboration du lexique (mots choisis sur l’ensemble des réponses) 93) Croisement 'VOITURE IDEALE' * 'POSSESSION' : Liste des mots spécifiques 94) 'VOITURE IDEALE' * 'POSSESSION' : Tableau lexical croisé 95) 'VOITURE IDEALE' * 'POSSESSION' : Bilan pour chaque modalité 96) 'VOITURE IDEALE' : Index 97) Croisement voiture idéale et CSP (AFC) Conclusion SP EC IM EN de l'a ut eu r Etude de cas 4 JJ Croutsche UP 13 GEODE 2007-2008 1) Présentation de l’entreprise par rapport à ses environnements l'a ut eu r Les environnements constituent le point de départ de l’analyse des potentialités de l’entreprise. Les prévisions économiques, en termes de marchés et de concurrence, permettant à la firme de prévoir ses propres parts de marché. Une réflexion transversale, nous permet en cheminant par les grandes fonctions de l’entreprise, d'aboutir au financement des investissements, de l'expansion et de la croissance. La prise en compte des interfaces entre les différentes fonctions, l'utilisation des différents outils du management, nous permettent d'élaborer un Marketing orienté vers un réel développement commercial. Cette forme de marketing prend en compte les interrelations entre les environnements de l'entreprise et son milieu interne, à savoir : 11) Les environnements de l’entreprise de - Les marchés, la concurrence, - Les aspects macro et micro-économiques environnementaux, - L'évolution des produits de l'entreprise - Les aspects financiers internes et externes, - L'évolution des actifs financiers de l'entreprise, résultat de sa croissance, - Les investissements de la firme au travers de ses différentes orientations stratégiques, - Les financements en regard des impératifs d'activité, de rentabilité et d'équilibre financier. EC IM EN Marchés Actifs financiers Concurrence EQUILIBRE Financement de la croissance SP Une réflexion en termes de système, nous permet d'envisager deux niveaux de transversalité : * Un premier niveau stratégique dans lequel les environnements et l'entreprise sont traités de façon transversale permettant d'aboutir à des actions stratégiques potentielles. Ce premier niveau peut être présenté graphiquement de la façon suivante : 5 JJ Croutsche UP 13 GEODE 2007-2008 Environnements institutionnels et politiques Environnements technologiques l'a ut eu r Environnements socio-culturels Marchés Concurrences EN de ENTREPRISE EC IM Actions Marketing potentielles SP D’un point de vue marketing, l’entreprise se situe au centre des environnements. Elle a ses objectifs stratégiques (long terme, financièrement importants) et tactiques (court terme de moindre importance). L’entreprise proprement dite dispose de leviers de commandes marketing. On les appelle les variables du Marketing MIX. 12) Variables MIX 6 JJ Croutsche UP 13 GEODE 2007-2008 Ces variables sont les suivantes : - Le Produit ou le Service (ce que l’on apporte au consommateur ou à l’entreprise) Le Prix (ce qu’accepte de payer le consommateur ou l’entreprise) La Distribution (GMS, Distribution en direct, Internet, marchés…) La Force de Vente (commerciaux : Marketing B to B) La communication (publicité, façon de faire connaître le produit : Internet) Pour que le système fonctionne, c'est-à-dire que les produits soient acceptés par les consommateurs et utilisateurs, il faut respecter une cohérence entre ces variables. Exemple : l'a ut eu r Si on veut vendre un produit haut de gamme, il faudra que la technologie soit sophistiquée. Le prix sera en conséquence : élevé. Le système de distribution sera spécialisé, ciblé sur une clientèle par exemple à plus haut revenu. En termes de communication, nous utiliserons des supports qui correspondent à la cible à satisfaire. de C’est en respectant les liens et les logiques entre ces variables, que l’on peut définir correctement et avec toutes les chances de succès une stratégie voire une politique marketing. l’entreprise (définitions EN 2) Le marché de économiques et marketing) IM 21) Le marché : approche économique Le marché est défini dans l'approche économique comme l'intersection entre l'offre et la demande. Nous étudierons successivement ces deux concepts. EC A) La demande Envisagée d'un point de vue individuel, le consommateur a des intentions d'achat qui dépendent du niveau de prix de ce bien. SP Si le prix est bas l'acheteur est prêt à acheter en plus grande quantité que si le prix est élevé. La courbe obtenue met en relation les quantités et les prix. Cette fonction généralement décroissante est représentée classiquement par une droite ou une branche hyperbolique. 7 JJ Croutsche UP 13 GEODE 2007-2008 Cette notion est importante en marketing car utile en matière de détermination des prix, des quantités à produire, des parts de marché que l'on veut atteindre. • La grande surface pratique des prix bas en grandes quantités se situant à droite sur la courbe ; • Le magasin de luxe recherche plutôt le prix élevé et les faibles quantités. Pour construire cette courbe, nous partons de l'idée selon laquelle pour chaque niveau de prix, la quantité demandée sur le marché est égale à la somme des quantités individuelles demandées à ce prix. Cette courbe s'obtient par sommation horizontale de l'ensemble des courbes de demande individuelle. l'a ut eu r Prix (1) P (2) p Quantités q de Q EN (1) * Pq : combinaison produits de luxe / magasin de luxe (2) * pQ : combinaison produits de bas de gamme / magasin type grande surface B) L'offre EC IM L’offre met en relation les prix et les quantités auxquels les producteurs mettent les produits sur le marché. Quand les prix sont bas les fournisseurs ne cherchent pas à commercialiser de grosses quantités ; l’intérêt est moindre. En effet les fournisseurs n’ont pas intérêt à commercialiser des produits en quantité importante à des prix bas, la rentabilité risque d’être trop faible. SP En revanche, si les producteurs peuvent augmenter leurs prix, il sont prêts à augmenter les quantités offertes, les intérêts en jeu devenant plus substantiels (part de marché en augmentation, croissance du chiffre d’affaires et augmentation possible de la rentabilité). La courbe d’offre est croissante représentée classiquement par une droite ou une tendance exponentielle. 8 JJ Croutsche UP 13 GEODE 2007-2008 Prix Quantités C) Le marché l'a ut eu r Il représente l’entente entre les offreurs et les acheteurs en termes de prix et de quantités. Géométriquement, le marché s’établit à l’intersection des courbes d’offre et de demande. Prix de Offre Marché Demande Quantités Qo EC IM EN Po SP L’intersection entre les courbes d’offre et de demande correspond au point d’entente entre acheteurs et offreurs (Po Qo). 9 JJ Croutsche UP 13 GEODE 2007-2008 Prix Offre Excédent P1 Marché Po Demande Pénurie P2 Q’2 Qo Q1 l'a ut eu r Quantités Q’1 Q2 Si les offreurs vendent au prix P1 une quantité Q1, la demande à ce prix se limite à une quantité Q’1. On observe une mévente, une chute de chiffre d’affaires, un surstockage (excédent) et une baisse de la rentabilité de l’entreprise. Cette situation n’est pas saine pour les offreurs. de A l’inverse si le produit est commercialisé au prix P2, la quantité offerte est limitée à Q’2 alors que la quantité demandée est très supérieure et on observe dans ce cas une pénurie. Cette situation n’est pas saine car les demandeurs vont rechercher des produits à l’étranger ou rechercher si possible des produits de substitution. EN C’est pour cette raison que le marché s’équilibre à l’intersection des courbes d’offre et de demande. C’est une situation économique d’équilibre. EC IM L’élaboration des courbes d’offre et de demande se réalise en pratique sur un échantillon représentatif de la population étudiée et ce dans sa globalité. SP Les modèles d’ajustement et régression permettent d’établir ces courbes. Ajoutons que ces courbes ne sont pas figées dans le temps car les marchés sont fluctuants. 10 JJ Croutsche UP 13 GEODE 22) Appréhension (définitions marketing) qualitative 2007-2008 et quantitative des marchés Le marché peut être défini comme l’ensemble des usagers institutionnels ou individuels intéressés par un type de produits ou de services, lequel se différencie en 4 catégories : - le marché que possède l’entreprise regroupant l’ensemble de ses propres clients (A) ; - le marché que possède la concurrence regroupant la clientèle des concurrents (B) ; l'a ut eu r - le marché des non-consommateurs relatifs regroupe l’ensemble des individus qui, pour des raisons qui leurs sont propres, refusent de faire l’acquisition du produit (refus d’acheter la télévision, refus de consommer) ou qui sont dans l’incapacité de le faire à court terme pour des raisons financières par exemple (C) ; ces consommateurs font partie du potentiel de l’entreprise à moyen terme. - le marché des non-consommateurs absolus regroupe l’ensemble des individus qui, pour des raisons physiques, psychologiques ou mentales, sont dans l’incapacité de consommer le produit (un aveugle : la télévision) (D). Marché Théorique IM Clientèle Entreprise (A) EN Clientèle Concurrents (B) de Nous représentons les différents marchés à l’aide du schéma suivant : Entreprise A+B + partie de C Marché Projeté De L’entreprise : A + Partie de B + Partie de C SP EC Non consommateurs relatifs (C) A +B +C Marché Profession A+B Marché Potentiel Non consommateurs absolus (D) 11 JJ Croutsche UP 13 GEODE 2007-2008 A partir de ces définitions premières, nous générons d’autres définitions de marchés : - Le marché théorique regroupant les marchés l’entreprise, de la concurrence et des non-consommateurs relatifs: M théo = A + B + C de - le marché de la profession MProf. = A + B ; MPot. = A + B + eC ; l'a ut eu r - le marché potentiel représente l’ensemble des individus susceptibles de faire l’acquisition du produit ; on peut considérer que seule une partie du marché des non-consommateurs relatifs (eC) est susceptible de faire l’acquisition de ce produit ; il subsistera toujours des consommateurs refusant d’acheter et de consommer le produit. - le marché projeté correspond à un objectif que tente d’atteindre l’entreprise débordant, d’un côté, sur la concurrence (dB) et de l’autre, sur les non-consommateurs relatifs dC, MPrj. = A + dB + gC. EN de Dans le schéma suivant, nous imaginons un marché projeté en expansion par rapport à la concurrence et aux non-consommateurs relatifs. Ajoutons qu’un marché est ouvert (porteur en langage courant) dès que le taux de croissance de ce dernier est supérieur au taux de croissance de l’économie nationale. Par opposition, nous dirons qu’un marché est fermé dès que son taux de croissance est inférieur au taux de croissance national. IM 3) Les types d’études de marché EC De façon générale les études de marché s’appuient sur un ensemble d’investigations différenciées en deux catégories d’études (exploratoires et confirmatoires), chacune d’elles correspondant à des attentes et des besoins spécifiques. SP Le schéma qui suit nous permet d’illustrer notre propos. 12 JJ Croutsche UP 13 GEODE 2007-2008 ETUDES Exploratoires Confirmatoires Marché (qualitatif) Attentes Motivations Concurrence - de concept Consommation - de prix Tests (quantitatifs) - de produit - décision d'achat Habitudes d'achat... - d'efficacité publicitaire... Création (qualitatif) - Recherche d'un nouveau concept l'a ut eu r - d'une nouvelle marque - d'une dénomination de produit... Les études peuvent intéresser l’entreprise à différents niveaux. Si les informations recherchées sont générales, l’entreprise peut avoir recours à des études documentaires et des panels. EN de A l’opposé, si l’entreprise recherche des informations spécifiques, l’étude ad’hoc s’avère indispensable. On peut représenter les différentes études de marché possibles à partir de deux vecteurs de différenciation : - Un vecteur « collectif-individuel » et - Un vecteur « général particulier ». IM Le premier vecteur « collectif-individuel » exprime le fait que l’étude peut être menée collectivement par plusieurs entreprises ou menée de façon individuelle par une seule entreprise. EC Le second vecteur « général particulier » exprime l’idée que les informations attendues sont générales ou spécifiques aux attentes de l’entreprise. SP Les différents types d’études peuvent être présentés à l’aide d’une matrice croisant les deux vecteurs précédents : 13 JJ Croutsche UP 13 GEODE pour l'entreprise général 2007-2008 Partage ou non des coûts et des résultats Niveau d'investigation étude collective étude individuelle Etude documentaire Panels Etude commune à plusieurs entreprises Etude Omnibus souscription Etude ad'hoc particulier par le même problème, les coûts et les infos peuvent être mis en commun l'a ut eu r Etude spécifique réalisée sur un plusieurs entreprises sont concernées même client Enquête permanente sur un échantillon régulier sur un thème donné même échantillon plusieurs entreprises participant à l'étude chaque demandeur propose ses questions de Ce panorama des études présenté, il reste à définir le meilleur choix du type d’étude à retenir. EN 31) Passages obligés et étapes nécessaires au choix optimal d’une étude IM Le budget et les objectifs de l’étude sont essentiels en termes de choix. Les discussions entre les offreurs et les demandeurs nécessitent des navettes avant de pouvoir aboutir à des choix définitifs. SP EC La logique générale des études suit certaines règles que l’on peut schématiser de la façon suivante : 14 JJ Croutsche UP 13 GEODE Demandeur de l'étude 2007-2008 Offreur, réalisateur de l'étude Objectifs de l'étude Valorisation du budget Etablissement du cahier des charges Durée de l'étude Coûts réels Méthode de recherche Utilisation possible des résultats l'a ut eu r Augmentation des ventes Efficacité de l'étude Augmentation de la rentabilité de Les études compte tenu des résultats attendus, peuvent faire l’objet de différents bouclages. Une étude documentaire peut suffire dans une recherche donnée. En revanche pour une étude plus approfondie, le recours à des panels et une étude ad’hoc doit être envisagée. Ainsi ces différents bouclages peuvent être présentés graphiquement de la façon suivante : EN Objectifs de l'étude SP EC FIN IM Recherche documentaire relativement faible obligatoire Panels Souscription possible Enquête OMNIBUS Enquête ad'hoc Coût de l'étude plus élevé 15 JJ Croutsche UP 13 GEODE 2007-2008 32) Présentation des différentes formes d’études De façon générale, les études peuvent prendre des formes diverses. Elles peuvent concerner des aspects qualitatifs propres au comportement des consommateurs par exemple, ou traiter des informations rigoureusement quantitatives (nombre d’individus susceptibles de consommer un produit). Les tests entrent dans ce type d’études. En marketing, et dans toute forme d’étude de marché, les tests concernent essentiellement les variables du marketing MIX (produit, prix, distribution, force de vente et communication). Les tests sont élaborés sur des micro-populations représentatives de la population étudiée. l'a ut eu r Les marchés témoins et les mini-marchés témoins représentent ces micro-populations sur lesquels il est possible de faire des ensembles de tests. Les marchés témoins sont élaborés sur des zones géographiques. Les mini marchés témoins sont élaborés à partir d’un petit nombre de détaillants. EN de Ainsi les études qualitatives sont réalisées sur de petits échantillons (inférieurs à 50 personnes). Elles permettent d’étudier les attentes des consommateurs. Elles permettent de mettre en valeur les composantes d’une question d'un questionnaire. On utilise ces études dans les pré-enquêtes. De même les études de motivations entrent dans cette catégorie d'études qualitatives. Elles ne cherchent pas la représentativité des résultats. SP EC IM Les études quantitatives sont réalisées sur des échantillons plus importants (supérieurs à 400 personnes). Ainsi les risques d’erreurs associés aux résultats sont inférieurs à 5% (marketing de grande consommation). 16 JJ Croutsche UP 13 GEODE 2007-2008 Plan de travail d’une étude ad’hoc Définition des objectifs de l'étude par rapport aux ressources Etude documentaire interne externe Fin Définition de la population mère cibleée quantifiée localisée Pré-enquête qualitative Echantillonnage taille, Intervalle Confiance l'a ut eu r Questionnaire Test du questionnaire Choix Méthode de sondage de Administration des questionnaires Traitements statistiques des données choix des outils stat et du logiciel EN Saisie Synthèse des données IM Conclusions et préconisations 4) Construction de l’échantillon EC L’échantillonnage est un des facteurs de succès de l’étude. Il apparaît de façon intuitive que plus la taille de l’échantillon est élevée, et plus le risque d’erreur est faible. SP Cette forme de statistique est dite inductive. 17 JJ Croutsche UP 13 GEODE 2007-2008 Probabilité de se situer dans l'intervalle de confiance taille échantillon (n) Intervalle de confiance Risque d'erreur 41) Définitions et méthodes possibles l'a ut eu r Population étudiée : liste de tous les éléments que l’on envisage d'étudier. Cette liste - ou fichier - est également appelé base de sondage. Echantillon : c’est un sous-ensemble d’éléments tirés de la population étudiée. Echantillonnage : connaissant la valeur de certains paramètres dans l’échantillon on cherche à induire des renseignements sur les valeurs que peuvent prendre ces paramètres dans la population étudiée. EN de Taux de sondage : il est égal au rapport t = n / N, sachant que n correspond à l’effectif de l’échantillon et N à la taille de la population si elle est connue. Méthodes non probabilistes IM Méthodes probabilistes SP EC Méthodes combinées 18 JJ Croutsche UP 13 GEODE 2007-2008 42) Méthode des quotas (non probabiliste) • Principe de la méthode des quotas Cette méthode repose sur l’hypothèse qu’un certain nombre de facteurs influencent le phénomène étudié. L’échantillon est structuré de façon identique à la structure -connue- de la population étudiée. Exemple On étudie un échantillon sur une population sachant que dans cette population on observe les quotas suivants (pourcentages de populations) : 51% de personnes adultes de sexe féminin et 49% de personnes de sexe masculin ; - 10% de personnes résidant en ville, 30% en agglomération et 60% en campagne ; - Sur la population masculine, on observe 10% de cadres supérieurs, 40% de cadres moyens ; - Sur la population féminine, on observe 5% de cadres supérieurs, 10% de cadres moyens. l'a ut eu r - de Comment distribuer l’échantillon sachant que sa taille doit être de 2000 individus ? SP EC IM EN Nous utilisons un schéma arborescent nous permettant de définir et comptabiliser les différentes catégories d’individus à interroger. 19 JJ Croutsche UP 13 GEODE 2007-2008 Echantillon : 2000 personnes Hommes 49% Femmes 51% 2000 x 49% = 980 2000 x 51% = 1020 Hommes Villes : 10% = 98 Femmes ville 10% = 102 Cadres supérieurs villes 10% = 9,8 Cadres moyens 40% = 39,2 Autres 50% = 49 Cadres supérieurs villes 5% = 5,1 Cadres moyens 10% = 10,2 Autres 85% = 86,7 Femmes agglomérations 30% = 306 Cadres supérieurs agglomération 10% = 29,4 Cadres moyens 40% = 117,6 Autres 50% = 147 Cadres supérieurs agglomération 5% = 15,3 Cadres moyens 10% = 30,6 Autres 85% = 260,1 l'a ut eu r Hommes agglomération :30% = 294 Hommes campagnes : 60% = 588 Femmes campagne 60% = 612 Cadres supérieurs campagne 10% = 58,8 Cadres moyens 40% = 235,2 Autres 50% = 294 Cadres supérieurs campagnes 5% = 30,6 Cadres moyens 10% = 61,2 Autres 85% = 520,2 de Dans l’élaboration finale de l’échantillon, nous arrondissons à l’unité supérieure pour chaque sous groupe, ce qui peut augmenter de quelques unités la taille globale de l’échantillon définitif. EN 43) Méthodes aléatoires A. Sondages sur populations étendues (non exhaustifs) EC IM Un sondage est dit non exhaustif lorsque la taille de l’échantillon est petite par rapport à la taille de la population mère : de l’ordre de 7 fois plus petite. Dans ce cas la population étudiée est importante, définie comme étendue. SP Imaginons que nous sélectionnons un échantillon de 1000 personnes sur l’ensemble de la population de la région parisienne. Cette population est de taille importante. Il n’est pas nécessaire de la dénombrer. Nous posons à la population de l’échantillon la question suivante : Appréciez-vous le Jazz ? Nous obtenons à l’issue de l’enquête 35,2% de réponses favorables (352 oui). 20 JJ Croutsche UP 13 GEODE 2007-2008 Cette proportion (p’ = 35,2%), (proportion estimée sur échantillon), est sans doute proche de la vraie proportion (p) que l’on aurait obtenue en interrogeant l’intégralité de la population étudiée. De façon intuitive on accepte le fait que plus la taille de l’échantillon augmente, et plus (p’) se rapproche de (p). On pourrait montrer que la distribution (p’) suit une loi gaussienne d’espérance p’ et d’écart-type p ' (1 − p ' ) n p’ = 0,352, nous donne le l'a ut eu r Le calcul de l’écart-type sachant que résultat suivant : S = 0,352(1 − 0,352) = 0,0151 1000 S= La distribution étant gaussienne, on calcule la probabilité pour que ( p) se situe dans - l’intervalle (p’) moins deux écart-types et de - (p’) plus deux écarts-types, EN C’est à dire avec 95% de chances (caractéristique de la loi de Gauss) : p '− 2 S < p < p '+ 2 S EC IM Ou p’ – E <p< avec 95% de chances. p’ + E SP 2 S correspond au risque d’erreur noté E = = 2 E = 2S = 2 p ' (1 − p ' ) n p ' (1 − p ' ) n => E² = 4 p’ (1 – p’) / n => n = 4 p’ (1 – p’)/ E² 21 JJ Croutsche UP 13 GEODE 2007-2008 On illustre cet intervalle à l’aide du schéma suivant : 95% 2,5% l'a ut eu r 2,5% p’ p’ = 0,352 p'− 2 0,352 (1 − 0,352 ) = 0,3217 1000 p'+ 2 0,352 (1 − 0,352 ) = 0,3822 1000 de (p’ ) est la proportion observée sur échantillon. Cette proportion est proche de (p) vraie proportion que l’on aurait observée en interrogeant l’ensemble de la population totale étudiée. EN En conséquence, la vraie proportion (p), si l’on interroge l’ensemble de la population, peut être comprise dans l’intervalle 0,3217 et 0,3822 et ce avec 95% de chances. EC IM En conséquence, cette vraie proportion (p) peut se situer à l’extérieur de l’intervalle de confiance, la probabilité de voir apparaître ce cas de figure étant de 5% (95% + 5% = 100%) SP De façon intuitive on montre que plus la taille de l’échantillon augmente et plus le risque d’erreur diminue. Taille de l’échantillon et erreur acceptée sur population étendue En reprenant les formulations précédentes, on observe qu’il existe une relation entre la taille et l’erreur acceptée. 22 JJ Croutsche UP 13 GEODE 2007-2008 Dans le cas où la population mère est importante, la formulation mettant en relation la taille de l’échantillon et l’erreur acceptée est la suivante : E = 2S = 2 p ' (1 − p ' ) 4 p ' (1 − p ' ) 4 p ' (1 − p ' ) => E ² = => n = n n E² n= - sachant que 4 p' (1 − p ' ) E2 (p’) correspond au nombre de réponses en l’échantillon. - sachant que E = 1,96 écart-type, ce qui correspond au risque d’erreur accepté avec 95% de chances sur une loi gaussienne. On arrondit par commodité l'a ut eu r proportion sur E = 2 écarts-types (2S) (voir « Pratique de l’analyse des données en Marketing et Gestion » op. cit.) Considérons l’exemple suivant : de Nous envisageons une étude de marché sur la région parisienne. Cette population est très importante. Il ne nous est pas nécessaire dans ce cas de la dénombrer. EN Nous acceptons un risque d’erreur de 5%, lequel correspond à un risque maximum acceptable pour réaliser une étude dans des conditions normales. IM Il nous reste à choisir (p’). En nous situant dans le contexte le plus défavorable, on montre que (p’) doit être égal à 0,5. Nous calculons n en utilisant la formulation précédente : 4 p ' (1 − p ' ) => 4 × 0 ,5 ( 1 − 0 ,5 ) 1 n = = = 400 2 E2 0 ,0 5 0 ,0 5 ² SP EC n = En remplaçant p’ par 0,5 (cas le plus défavorable), la formule n = 4 p' (1 − p ' ) devient : E2 23 JJ Croutsche UP 13 GEODE n = (4 * 0,5 * 0,5) / E² => n = 2007-2008 1 E 2 Cette formule va nous permettre de calculer directement la taille d’un échantillon partant d’un risque d’erreur accepté E. De façon générale le risque d’erreur maximal accepté dans une enquête est de 5%. En conséquence si on remplace dans la formule E par 5%, on obtient : l'a ut eu r n = 1 / 0,05² = 400 Cela est vrai lorsque l’on traite une étude quantitative. Dans les études qualitatives, on peut se limiter à des tailles d’échantillons plus réduites. On réalise un focus group avec 30 personnes. Les préenquêtes réalisées dans les études ad’hoc se pratiquent de cette façon. Lorsque l’on veut réaliser une enquête de meilleure qualité, on choisit un risque d’erreur de 3% ou mieux 2%. de Les échantillons dans ce cas sont de 1111 et 2500 personnes. EN Les démonstrations de ces calculs sont développées dans l’ouvrage de JJ. Croutsche, Pratique de l’analyse des données, ESKA, 1997. IM Application 1 Si nous interrogeons à présent 625 personnes, et que nous obtenons 50% de OUI sur une réponse de type fermée unique (oui, non), nous pouvons calculer l’intervalle de confiance avec 95% de chances. EC E dans ce cas est égal à : SP E =2 p ' (1 − p ' ) 1 = = n n 1 = 4% 625 Autrement dit, si l’on avait interrogé la totalité de la population étudiée, on aurait eu 95% de chances de trouver la vraie proportion de OUI comprise dans l’intervalle 24 JJ Croutsche UP 13 soit GEODE (50% - 4%) et (50% + 4%) 2007-2008 46% < vraie proportion de OUI ( p) < 54% et ce avec 95% de chances. Application 2 Soit une population étendue. On recherche la taille (n) d’un échantillon en acceptant un risque d’erreur de 4%. l'a ut eu r 1) Quelle doit être la taille de l’échantillon ? 2) Sur cet échantillon, on pose une question sur la consommation du produit A. on obtient 60% de réponses favorables. Quel Risque d’erreur peut-on associer à ce résultat ? 3) Quelles sont les valeurs de l’intervalle de confiance avec 95% de chances ? 1) n = 1 / 0,04² = 625 avec p’ = 0,5 cas le plus défavorable p ' (1 − p ' ) = 2 n 0 ,6 (1 − 0,6 ) = 0,0392 = 3,92% 625 de 2) E = = 2 3) Intervalle de confiance = 2 * 3,92 = 7,84 EN Borne mini = 60% - 3,92% = 56,08% Borne maxi = 60% + 3,92% = 63,92% IM 56,08 < p < 63,92% EC Probabilité de se situer dans cet intervalle = 95% de chances. 45) Sondages sur populations réduites (exhaustifs) SP Un sondage exhaustif est un sondage réalisé sur une population étudiée dont la taille est petite par rapport à la taille de l’échantillon. La taille de la population étudiée ne doit pas être supérieure à 7 fois la taille de l’échantillon. Lorsque la population est réduite, elle doit être connue, c’est N. 25 JJ Croutsche UP 13 GEODE 2007-2008 L’échantillon calculé à partir de N c'est-à-dire par rapport à une population réduite est appelé n’. Calcul de n’ (taille de l’échantillon) lorsque la population étudiée est réduite Pour dimensionner l'échantillon à étudier, on calcule, dans un premier temps, une valeur théorique µ en utilisant la formule traditionnelle de calcul d’échantillon : μ= 4 p ' (1 − p ' ) 1 = si p ' = 0 , 5 2 E E² l'a ut eu r (cas le plus défavorable avec p’ = 0,5) On connaît obligatoirement N taille de la population étudiée. Puis on calcule la taille définitive de l’échantillon (notée utilisant la formule suivante : N ( N + μ) de n' = μ × n’ ) en Le EN n’ correspondant à une taille d’échantillon calculée sur population étudiée réduite rapport N ( N + μ) correspond à un coefficient IM d’exhaustivité. EC Exemple 1: Soit N = 100 entreprises (population étudiée). Risque d'erreur E accepté = 6 %. Probabilité associée à l’intervalle de confiance = 95 %. SP Quelle doit être la taille de l'échantillon ? Calculons (µ) en considérant la proportion la plus défavorable ( p’ = 0,5 ) 26 JJ Croutsche UP 13 GEODE 2007-2008 1 μ = 2 = 1 / (0,06)² = 277,78 (échantillon théorique supérieur E en dimension à la population mère ou étudiée). Calculons n' taille définitive de l’échantillon : n' = μ × N ( N + μ) => n' = ( 100 * 277,78 ) / ( 100 + 277,78 ) = 73,529 La taille définitive de l'échantillon à étudier est de 74 unités. Si la taille de la population étudiée avait été de 50 entreprises, la taille de n’ aurait été de 42 entreprises. n’ / N l'a ut eu r Plus la taille de la population étudiée diminue et plus le rapport augmente. Si N = 100 => le rapport n’ / N = 74 / 100 = 74% Si N = 50 => le rapport n’ / N = 42 / 50 = 84%, ce qui confirme ce qui vient d’être énoncé. Réponses n' = 1 / 10 = 10% IM 1) E = 1 EN de Exemple 2 Soit une population étudiée de 140 entreprises. On a proposé un échantillon de 100 entreprises. 1) Quel risque peut associer à cette taille d’échantillon ? 2) Sur cet échantillon, on pose une question relative à la consommation d’un produit et on obtient 72% de réponses favorables. Quel risque d’erreur peut-on associer à ce résultat ? EC 2) n’ = 100 et N = 140 => µ = ( N * n’ ) / ( N - n’ ) = 14000 / 40 = 350 SP On calcule E en prenant p’ = 0,5 : µ = 4 p ' (1 − p ' ) => E = E2 4 p ' (1 − p ' ) µ 27 JJ Croutsche UP 13 GEODE 4 p ' (1 − p ' ) = E= µ E = 2007-2008 4 * 0,72(1 − 0,72) 0,89 = = 0,048 = 4,8% 350 18,70 5) Elaboration du questionnaire Plusieurs facteurs entrent en ligne de compte dans la construction du questionnaire. Ce sont : - Les thèmes recensés (préenquête), - Le type de questions, - L’enchaînement des questions lié aux thèmes abordés, - La position de la fiche signalétique en fin de questionnaire. 51) Questions fermées l'a ut eu r Trois types de questions sont possibles : - les questions fermées, - les questions ouvertes, - et les échelles. Elles sont couramment utilisées car faciles à exploiter sur le plan statistique. Elles peuvent être uniques, multiples ou ordonnées. de Elles peuvent être fermées uniques ou fermées multiples. Elles peuvent également être ordonnées. EN - Lorsqu'elles sont uniques les réponses possibles sont "oui", "non" ou "ne sait pas". Elles peuvent proposer plusieurs possibilités pour lesquelles, on ne peut cocher qu’une seule réponse. IM Exemple : Quel est votre état civil ? (Cochez la case correspondante) Célibataire EC Concubin Pacsé (e) Marié(e) SP Séparé(e) Divorcé(e) - Lorsqu'elles sont multiples, plusieurs propositions peuvent être envisagées par le répondant : 28 JJ Croutsche UP 13 GEODE 2007-2008 Question : où passez-vous vos vacances ? à la montagne à la mer à l'étranger (voyages) en résidence secondaire en famille... Le répondant peut cocher une, deux voire toutes les cases. Cette même question peut être ordonnée en élaborant un classement : à la mer en priorité et, à l'étranger en second. l'a ut eu r Il est possible d’intégrer en fin de question fermée multiple une question ouverte de type : (autres ou autres possibilités…). Question : Quel sport pratiquez-vous ? Aucun Tennis Hand-ball Volley-ball Football Rugby Gymnastique Culture physique Autres sports pratiqués EN Question fermée ordonnée : de - IM Ce type de question peut être traité à l’aide de l’exemple suivant : Classez 3 marques de voitures par ordre de préférence : SP EC - RENAULT ; - PEUGEOT ; - FORD ; - FIAT - OPEL ; - HONDA ; - VOLKSWAGEN - MERCEDES ; - AUDI ; JAGUAR 52) Questions ouvertes Dans ce type de questions l’interviewé peut répondre librement. Ces questions peuvent être textuelles ou numériques. 29 JJ Croutsche UP 13 GEODE 2007-2008 * Les questions ouvertes texte sont du style : aimez vous la musique de Brahms ? Ces questions permettent une infinité de réponses ce qui en fait un outil relativement riche en matière de recherche d'informations. Ces questions sont très utilisées dans les enquêtes pilote, les pré-enquêtes. Leur dépouillement nécessite souvent des techniques d’analyse de contenu. En revanche, elles sont difficilement exploitables sur le plan statistique et la codification des réponses ne peut se faire qu’a posteriori. Ces questions sont ensuite traitées comme des questions fermées. Le traitement de ces questions passe par une analyse de contenu. Les étapes d’une telle analyse sont les suivantes : 1) Transcription fidèle des entretiens Il est nécessaire de conserver les silences, le texte dans son intégralité. => => => => l'a ut eu r 2) L’Analyse de contenu proprement dite passe par les étapes suivantes : étude du poids des mots (nombre de mots) étude de la syntaxe étude des enchaînements (phrases) analyse des thèmes de 3) Construction de la grille de dépouillement => repérage des mots, des groupes de mots, des idées, et codage des thèmes EN 4) Codification et grille d’analyse à partir des thèmes 1, 2, 3..... IM 5) Analyse des thèmes, analyse lexicale => Etude intra-interview (étude de la structure d’un seul questionnaire) => Etude inter-interview (étude de la structure de plusieurs questionnaires) EC 6) Quantification => Etude des fréquences d’apparition des thèmes et concepts => Transformation en questions à choix multiples SP 7) Synthèse des résultats La synthèse peut faire l’objet d’un ensemble de commentaires. L’analyse textuelle peut également donner lieu à des traitements statistiques traitant des occurrences de mots par exemple. 30 JJ Croutsche UP 13 GEODE 2007-2008 Les analyses lexicales classiques sont informatisées (SPHINX, ASKIA...). 53) Les échelles d’attitudes On peut classer les diverses techniques de construction d'échelles. 1) En fonction des propriétés des échelles : nominales, ordinales, d'intervalles ou proportionnelles, 2) En fonction de leur caractère : physiques ou psychologiques, 3) En fonction de la nature de la réponse (accord ou désaccord à propos d'une proposition : stimulus) ou classement par rapport à un attribut spécifique, l'a ut eu r 4) En fonction de la forme de la réponse (comparative : A plus grand que B). Exemple : Comment estimez-vous aujourd’hui le niveau de connaissances des étudiants en économie et gestion par rapport à celui qu’ils avaient, il y a vingt ans ? beaucoup plus importantes aussi importantes de un peu plus importantes un peu moins importantes beaucoup moins importantes EN sans opinion IM Certaines enquêtes s’orientent vers l’établissement de typologies d’individus reposant sur des mesures d’attitudes. EC Diverses méthodes sont utilisées : * Les échelles d’évaluation, d’auto-notation On soumet une opinion ferme à l’interviewé et on lui demande son avis. Les individus se positionnent sur une échelle définie au préalable. SP * Les échelles de Likert font l’objet de question de ce type : Etes vous d’accord ou non sur le fait que le produit A soit de bonne qualité ? Pas du tout d’accord Pas d’accord Moyennement d’accord 31 JJ Croutsche UP 13 D’accord GEODE 2007-2008 Tout a fait d’accord La notation peut être réalisée par les examinateurs (Rating) mais également par le sondé lui-même (Self-Rating). * Les échelles graduées permettent de nuancer davantage la position personnelle du répondant. Pouvez-vous préciser votre opinion politique en vous situant sur l’échelle graduée suivante ? 10 Centre -5 0 *Les échelles comparatives Extrême droite l'a ut eu r Extrême gauche + 5 10 de Elles font l’objet de réponses possibles libellées de la façon suivante : EN * j’apprécie énormément, * j’apprécie bien, IM * j’apprécie moyennement, * je n’apprécie pas, EC * je déteste. SP Osgood réalise des échelles d’attitude grâce à des tests associatifs (différentiel sémantique). 32 JJ Croutsche UP 13 GEODE 2007-2008 Exemple : Position d’un individu (A) par rapport à un ensemble d’oppositions : faible X puissant sans avenir antipathique X avenir X sympathiq ue intéressan t organisé X agaçant pagailleur X mystificateur X individualiste honnête X désagréable grégaire X X travailleur l'a ut eu r paresseux agréable - Les échelles Stapel permettent de traiter des oppositions sur des continuums opposés négatifs et positifs. On peut opposer par exemple le côté très efficace (+3) au coté très inefficace (-3). Elles permettent sans difficulté des traitements statistiques de type quantitatif. L’échelle se présente de la façon suivante : +3, +2, +1, efficace, -1, -2, -3. de - Les icônes : dessins figuratifs à choisir. EC IM EN Les trois figurines suivantes expriment la tristesse (à gauche), et la joie (à droite). Elles permettent d’opposer des comportements ou des attitudes. SP Questions relatives à la fiche signalétique (fin de questionnaire) : - L’âge, Le sexe, La catégorie socioprofessionnelle, L’habitat, 33 JJ Croutsche UP 13 - Le nom, - Le revenu… GEODE 2007-2008 Le questionnaire ainsi conçu doit être testé. Certaines peuvent être mal comprises ou mal interprétées par les répondants. Ces tests sont sur une quinzaine de personnes appartenant à la population étudiée. 54) Les types d’enquêtes - A ; Enquêtes dans la rue : questionnaires courts, public moins bien ciblé, informations moyennes par manque de disponibilité des interviewés. l'a ut eu r - B ; Enquête par voie postale : très bons résultats quand les interviewés répondent, questionnaires approfondis très ciblés moins coûteux. Il faut organiser des jeux et des concours pour faire répondre les interviewés. - C ; Enquête pat Internet : facile, au goût du jour, peu coûteux, immédiat, reste plutôt superficiel - D ; Enquêtes par téléphone : très pratiqué, peu coûteux, les questionnaires peuvent être plus longs, les interviewés sont bien ciblés mais refusent souvent répondre. de - E ; Enquête à domicile : très bons résultats, questionnaires approfondis très ciblés mais très coûteux. EN En termes d’efficacité on progresse de A à E. 6) Etude des tris plats EC IM Les tris plats permettent de traiter les questions de façon individuelle. Tout dépend du type de variable traitée. Une variable peut être qualitative nominale ou quantitative. 61) Type de variable SP Exemples de variables quantitatives : - Nombre de kilomètres parcourus sur une année, - Age des individus, - Revenu mensuel. Exemples de variables qualitatives ou nominales : 34 JJ Croutsche UP 13 GEODE 2007-2008 - Habitat : réponses possibles : en ville, en campagne, en agglomération, - Possession d’une marque de voiture : Renault, Peugeot, BMW… - Diplôme obtenu : Bac, Licence, Master… Si la variable est quantitative on utilise les outils statistiques des méthodes descriptives. On utilise les traitements suivants : calcul de moyennes, variances, écarts-types modes, médianes. Si la variable est qualitative nominale, on utilise les effectifs, les fréquences par modalité, le classement des fréquences, et les intervalles de confiance sur les modalités. l'a ut eu r Les variables quantitatives sont toujours transformables en variables qualitatives. Il suffit de les transformer en classe et de donner un nom à ces classes. En revanche la transformation de variables qualitatives en variables quantitatives est plus difficile. 62) Traitements des variables quantitatives La question posée est la suivante : A quel niveau situez-vous vos dépenses alimentaires annuelles sur échelle ? de A l’origine, la variable est quantitative. Le logiciel peut transformer cette variable en variable nominale. Il suffit de faire des classes. Dans ce cas précis, tous les modes de traitements sont possibles. Les réponses obtenues sont répertoriées dans le tableau suivant : SP EC De 5 à 7 000€ De 7 à 9 000€ De 9 à 11 000€ De 11 à 13 000€ De 13 à 15 000€ De 15 à 17 000€ De 17 à 19 000€ + de 19 000€ Fréquences fi = ni / N effectifs cumulés croissan ts 3,61% 5,96% 10,48% 19,17% 32,55% 16,09% 6,69% 5,42% Total #100% 20 53 111 217 397 486 523 553 EN Effectifs Nombre de réponse s ni 20 33 58 106 180 89 37 30 553 IM Niveau de dépenses alimentaires annuelles Classes Intervalles de confiance à (95%) sur les fréquences + + + + + + + + ou ou ou ou ou ou ou ou - 1,58% 2,01% 2,60% 3,35% 3,98% 3,12% 2,12% 1,93% Plusieurs informations statistiques sont possibles. 35 JJ Croutsche UP 13 GEODE 2007-2008 On peut calculer la moyenne ; il suffit pour ce faire de multiplier le centre de chaque classe par la fréquence correspondante et de faire la somme des résultats obtenus : Ainsi les dépenses alimentaires moyennes pondérées sont de : (6000 * 3,61%) + (8000 * 5,96%) + (10000 * 10,48%) ... = 13 461,40€ L’histogramme des fréquences peut être représenté : Histogramme des dépenses l'a ut eu r 200 Effectifs 150 100 50 0 de Classes de dépenses EN D’autres calculs statistiques peuvent être envisagés ; les calculs d’écarts, de mode de médiane, d’intervalles permettent d’affiner les résultats. Ils aident à la compréhension et à l’interprétation des données. IM Par ailleurs des tests de comparaison de fréquences à l’aide du test Khi deux de Pearson sont envisageables pour évaluer avec davantage de précision les résultats. SP EC L’étude d’une variable (les dépenses dans ce cas) est appelée tri à plat. Il est également possible de croiser deux questions. On obtient des tris croisés lesquels permettent d’enrichir les résultats obtenus à l’aide des tris plats. Les variables étudiées peuvent être qualitatives ou quantitatives. Une variable quantitative est toujours transformable en variable qualitative, il suffit de la classer. 36 JJ Croutsche UP 13 GEODE 2007-2008 63) Traitement des variables qualitatives Les variables qualitatives s’expriment à l’aide de fréquences et on ne peut évidemment calculer les valeurs moyennes et de dispersion que l’on traite sur les variables quantitatives. En revanche on peut comparer les fréquences en utilisant des tests statistiques. Partant d’une base de données sur l’automobile de Sphinx, nous illustrons notre propos à partir d’une question relative à la marque de voiture possédée. Sur une population échantillonnée de 203 personnes, on obtient les résultats suivants : Nous traitons la question spécifique à la marque : Intervalles de confiance Non réponse 26 Renault 37 Peugeot 22 Citroën 21 Volkswagen 18 Fiat 12 Ford 14 3 BMW 9 Mercedes 8 8,2% < 12,8 < 17,4% 12,9% < 18,2 < 23,5% 6,6% < 10,8 < 15,1% 6,2% < 10,3 < 14,5% 5,0% < 8,9 < 12,8% 2,7% < 5,9 < 9,2% 3,4% < 6,9 < 10,4% 0,0% < 1,5 < 3,1% 1,6% < 4,4 < 7,3% 1,3% < 3,9 < 6,6% de Toyota l'a ut eu r Nb. cit. MARQUE 10 Opel Volvo Autre 2,0% < 4,9 < 7,9% 3 0,0% < 1,5 < 3,1% 20 5,8% < 9,9 < 13,9% 203 EN TOTAL OBS. MARQUE IM Non réponse 26 Renault 37 Peugeot 22 Citroën 21 EC Volkswagen 18 Fiat 12 Ford Toyota 14 3 BMW 9 SP Mercedes 8 Opel Volvo Autre 10 3 20 37 JJ Croutsche UP 13 GEODE 2007-2008 Un test de Chi deux nous montre que la différence avec la répartition de référence (égalité entre tous les effectifs des marques et des non-réponses) est très significative. Chi2 = 72,18, degrés de liberté = 12, avec (1-p) => 99,99%. Il faut pour que la différence entre les modalités soit significative que (1 – p) soit supérieure à 95%. Le chi2 est calculé avec des effectifs théoriques égaux pour chaque modalité. L'intervalle de confiance à 95% est donné pour chaque modalité. En revanche une analyse de chi deux nous montre que la différence des fréquences entre 'Peugeot' et 'Citroën' n'est pas significative (1-p = 12,81% ; il faudrait pour cette différence soit significative que la différence 1 – p soit supérieure ou égale à 95%). Il est vrai que la différence entre les effectifs correspondants est faible : 22 – 21 = 1 l'a ut eu r Qu’en est-il entre Peugeot et Volkswagen ? On observe que la différence des fréquences entre 'Peugeot' et 'Volkswagen' n'est pas significative (1- p = 49,49%) bien que la différence entre les effectifs augmente : 22 – 18 = 4. Ce manque de significativité s’explique par le fait que la taille de l’échantillon est trop faible. Reprenons l’enquête kilométrage : de Les variables quantitatives sont aisément transformables en variables qualitatives. Il suffit pour ce faire de classer les variables. automobile sphinx et étudions la variable effectifs 1 4 4 1 12 12 1 32 1 43 1 2 34 3 SP EC IM Kilométrage 6000 5000 4000 3500 3000 2500 2200 2000 1750 1500 1300 1200 1000 800 EN Quelle distance effectuez-vous mensuellement ? fréquences 0,6% 2,3% 2,3% 0,6% 6,8% 6,8% 0,6% 18,2% 0,6% 24,4% 0,6% 1,1% 19,3% 1,7% 38 JJ Croutsche UP 13 750 700 500 400 300 200 100 40 TOTAL GEODE 2007-2008 0,6% 1,1% 9,1% 0,6% 0,6% 0,6% 1,1% 0,6% 100,0% 1 2 16 1 1 1 2 1 176 Nombre de valeurs différentes : 22 '1500' est la valeur la plus citée : 43 observations. On observe 27 non-réponses. l'a ut eu r Partant de ces données, nous transformons la variable quantitative en classes laquelle peut être traitée également en variable qualitative ou nominale. Le logiciel nous propose les classes suivantes : KILOMETRAGE Quelle distance effectuez-vous mensuellement ? KILOMETRAGE Nb. cit. Non réponse Intervalles de confiance 8,6% < 13,3 < 18,0% de 27 De 1000 à 2000 81 33,2% < 39,9 < 46,6% De 2000 à 3000 45 16,5% < 22,2 < 27,9% De 3000 à 3500 12 2,7% < 5,9 < 9,2% 3500 et plus 10 2,0% < 4,9 < 7,9% Moins de 500 EN De 500 à 1000 TOTAL OBS. 6 0,6% < 3,0 < 5,3% 22 6,6% < 10,8 < 15,1% 203 SP EC IM Minimum = 40, Maximum = 6000 Somme = 295340 Moyenne = 1678,07 Ecart-type = 1010,36 39 JJ Croutsche UP 13 GEODE 2007-2008 KILOMETRAGE 81 81 45 27 22 12 10 De 3000 à 3500 3500 et plus 6 0 Moins de 50 0 Non r épons e De 500 à 1000 De 1000 à 2000 De 2000 à 3000 l'a ut eu r 6 classes ont été identifiées. La moyenne et l'écart-type sont calculés sans tenir compte des nonréponses. La différence avec la répartition de référence est très significative chi2 = 144,55, ddl = 6, 1-p =>99,99%. Le chi2 est calculé avec des effectifs théoriques égaux pour chaque modalité. L'intervalle de confiance à 95% est donné pour chaque modalité. de 64) Utilisation de Khi 2 (Pearson) sur l’étude d’une variable nominale (comparaison de fréquences) On étudie la consommation d’un produit A sur un échantillon de 1000 personnes, représentatif d’une population étudiée P. EN Les résultats obtenus sont les suivants : SP EC IM Effectifs observés Modalités / Effectifs Consommation régulière 420 (+ de 3 fois par semaine) Consommation irrégulière 280 ( moins de 1 fois par semaine) 300 Consommation intermédiaire (de 2 à 3 fois par semaine) TOTAUX 1000 Effectifs théoriques 333,33 333,33 333,33 1000 40 JJ Croutsche UP 13 GEODE 2007-2008 450 400 350 300 250 200 150 100 50 0 Effectifs observés Consommation intermédiaire Consommation irrégulière Consommation régulière Effectifs théoriques l'a ut eu r Il semble que la modalité « consommation régulière » surclasse bien les deux autres modalités. On considère que la répartition est équivalente entre les trois types de consommation (effectifs théoriques équivalents : modèle théorique correspondant à l’hypothèse nulle Ho). Dans ce cas, les effectifs théoriques sont de 1000 / 3 # 333,33. On calcule la valeur de Khi deux qui prend en compte les écarts entre les effectifs théoriques et les effectifs observés : 2 = ∑ (Oi − Ti ) 2 Ti de χ sachant que Oi correspond aux effectifs observés et Ti aux effectifs théoriques. EN Khi² = [( 420 - 333,33 )² / 333,33 ] + [( 280 - 333,33 )² / 333,33 ] + [( 300 - 333,33 )² / 333,33 ] = 22,729 + 8,435 + 3,27 = 34,434 IM On comprend aisément que plus la valeur de Khi² est élevée et plus on s’éloigne du modèle théorique d’équivalence des modalités. EC Nous posons l’hypothèse nulle (Ho) selon laquelle il n’y a pas de différence entre les fréquences observées et les fréquences théoriques. SP Le degré de liberté est de (k - 1), k correspondant au nombre de catégories évoquées (modalités), soit dans notre exemple un degré de liberté de 3 - 1 = 2. Il nous faut une valeur seuil nous permettant de valider ou d’invalider l’hypothèse Ho. Pour ce faire, on se réfère à la loi Khi² de Pearson. On consulte la table de Khi². 41 JJ Croutsche UP 13 GEODE 2007-2008 La valeur de Khi deux dans la table à 0,05 de risque (5%) et 2 degrés de liberté est de 5,99. La valeur de Khi deux calculée (34,434) est très supérieure à la valeur de la table, on refuse l’hypothèse nulle (Ho) (il n’y a pas de différence significative entre les fréquences observées et les fréquences théoriques). En conséquence, on peut affirmer que la différence entre les modalités est significative à l’avantage de la modalité « consommation régulière » (420 >> 333,33). Nous reprenons l’enquête automobile Nb. cit. Intervalles de confiance Non réponse 26 Renault 37 Peugeot 22 Citroën 21 Volkswagen 18 Fiat 12 Ford 14 3 BMW 9 Mercedes 8 Opel Volvo Autre 6,6% < 10,8 < 15,1% 6,2% < 10,3 < 14,5% 5,0% < 8,9 < 12,8% 2,7% < 5,9 < 9,2% 3,4% < 6,9 < 10,4% 0,0% < 1,5 < 3,1% 1,6% < 4,4 < 7,3% 1,3% < 3,9 < 6,6% 10 2,0% < 4,9 < 7,9% 3 0,0% < 1,5 < 3,1% 20 5,8% < 9,9 < 13,9% 203 EN TOTAL CIT. 8,2% < 12,8 < 17,4% 12,9% < 18,2 < 23,5% de Toyota l'a ut eu r MARQUE EC IM La différence avec la répartition de référence est très significative. chi2 = 72,18, ddl = 12, 1- p =>99,99%. Quand cette valeur est > à 95%, la différence est significative. Le chi2 est calculé avec des effectifs théoriques égaux pour chaque modalité. L'intervalle de confiance à 95% est donné pour chaque modalité. On peut comparer des fréquences lorsque celles-ci sont très rapprochées : SP * Peugeot 22 - Citroën 21 La différence des fréquences entre 'Peugeot' et 'Citroën' n'est pas significative (1- p = 12,81%), il faut être supérieur à 95% pour que la différence soit significative. *Renault 37 - Peugeot 22 42 JJ Croutsche UP 13 GEODE 2007-2008 La différence des fréquences entre 'Renault' et 'Peugeot' est significative, (1- p = 96,63%), comme il faut être supérieur à 95% pour que la différence soit significative, on satisfait bien la norme. 7) Etude des tris croisés simples l'a ut eu r Les variables (questions) sont croisées deux à deux. On croise deux types de variables : les variables quantitatives et les variables qualitatives (nominales). On ne peut pas croiser une variable quantitative avec une variable qualitative. Pour ce faire, il faut transformer une des deux variables afin de croiser deux variables de même nature. On transforme plus facilement une variable quantitative en variable qualitative que l’inverse. 71) Le croisement des variables quantitatives : la méthode des moindres carrés (ajustement linéaire) de - Modélisation mathématique et droite de régression Prenons un exemple : Soit deux variables x et y : x représente la taille des individus y représente le poids des individus On observe les poids et tailles d’une série d'individus A, B, C, D... IM EC A B C D E F G TAILLE (x) centimètres 175 180 182 173 190 171 168 EN INDIVIDUS POIDS (y) kilogrammes 68 80 72 68 87 70 73 SP Représentation graphique (nuage de points) 43 JJ Croutsche UP 13 GEODE 2007-2008 POIDS (y) 90 85 poids 80 75 70 65 60 165 170 175 180 185 190 195 l'a ut eu r taille Nous construisons un modèle mathématique de la forme : y = ax + b, équation d'une droite passant le plus près possible de l'ensemble des points. de Nous utilisons, pour ce faire, la méthode des moindres carrés. Mathématiquement, la somme des écarts au carré, entre les points observés et la droite d’équation du modèle, doit être la plus faible possible. Cette somme peut s’écrire de la façon suivante : Σ [y - (ax + b)]² Il s’agit de minimiser cette expression pour trouver les valeurs de a et b : EN Σ [y - (ax + b)]² = Min EC y IM sachant que y représente les valeurs observées et (ax + b) les valeurs de l’équation de régression. G F C A SP E D B x Nous obtenons les valeurs de a et b suivantes : 44 JJ Croutsche UP 13 GEODE a = 2007-2008 ∑ (x − x )(y − y ) ∑ (x − x ) 2 a= et cov.xy Vx b = y − ax sachant que l’équation de la première droite de régression est de la forme : Relation poids taille (mode de calcul) l'a ut eu r y = ax + b x y x−x y− y ( x − x )( y − y ) A 175 68 175177 +3 +5 -4 + 13 -6 -9 6874 +6 -2 -6 + 13 -4 -1 (-2)(-6) = 12 (-2)² = 4 18 - 10 24 169 24 9 ∑ X.Y = A = 246 9 25 16 169 36 81 ∑ X² = B =340 IM EN 180 80 182 72 173 68 190 87 171 70 168 73 ∑x ∑y =1239 =518 EC B C D E F G de Individus SP x = 1239 / 7 = 177 ; a= (x − x ) 2 y = 518 / 7 = 74 246 = 0,7235 340 b = 74 − 0,7235 × 177 = −54 45 JJ Croutsche UP 13 GEODE 2007-2008 L’équation de régression linéaire est de la forme : y = 0,7235 x - 54 On peut vérifier ce résultat à l’aide de la fonction EXCEL directement sur le graphe : Nous rappelons la procédure sur EXCEL : l'a ut eu r 1) Copier le tableau sur EXCEL ; 2) On obtient trois colonnes sur EXCEL : colonne de gauche : lettres : observations (A, B, C, …), puis les colonnes des deux variables (x et y) ; 3) On ne retient que les colonnes des deux variables (x et y) ; 4) On va dans assistant graphique ; 5) On choisit nuage de points ; 6) On clique « suivant » ; 7) On intitule les axes ; 8) « Terminer » => on obtient le graphe des points ; 9) On peut ensuite en cliquant sur les deux axes modifier les échelles ; 10) On clique sur les points qui deviennent jaunes ; 11) On se place sur un point jaune et on fait un clic droit ; 12) On sélectionne « ajouter une courbe de tendance » ; 13) On choisit le type de courbe (droite de régression ou autre) ; 14) Dans options on fait afficher l’équation sur le graphique ainsi que le coefficient de détermination R². 90 EN 85 70 EC 65 IM poids 80 75 60 165 SP y = 0,7235x - 54,065 2 R = 0,5973 de Liaison poids / taille 170 175 180 185 190 195 taille Nous retrouvons bien l’équation de régression. Excel nous donne la valeur du coefficient de détermination R². 46 JJ Croutsche UP 13 GEODE 2007-2008 La racine carrée de ce coefficient de détermination R² correspond au coefficient de corrélation linéaire r = 0,77. Plus ce coefficient se rapproche de 1, et plus la liaison entre les variables est élevée. Dans notre exemple, il existe bien une relation entre les deux variables poids et taille. En théorie il est préférable de procéder au test r de Fisher pour valider la relation entre deux variables. Plus le nombre d’observations est important, et on peut obtenir un r faible. Un coefficient de 0,2 peut suffire à expliquer la liaison entre deux variables quantitatives. En revanche ce type de liaison n’est pas modélisable. En économétrie, pour qu’une liaison soit modélisable, il faut que le coefficient de corrélation dépasse la valeur de 0,99. l'a ut eu r 72) Application SPHINX : Etude automobile ; relation des variables « dépenses » et « kilométrage » Nous présentons une application Sphinx sur l’enquête automobile en croisant les variables « dépenses » et « kilométrage ». Différentes présentations graphiques sont possibles : EC IM EN de KILOMETRAGE 660,00 DEPENSE SP 550,00 La taille des cercles correspond à la taille des effectifs 47 JJ Croutsche UP 13 GEODE 2007-2008 DEPENSE 1 1 1 2 1 4 1 1 2 11 6 2 7 15 2 2 15 30 15 1 550,00 20 26 4 1 660,00 1 1 1 1 l'a ut eu r 1 KILOMETRAGE Les chiffres représentent les effectifs à l’intérieur de chaque grille. Corrélation DEPENSE / KILOMETRAGE de Le graphique montre les 176 points de coordonnées KILOMETRAGE ; DEPENSE La dépendance est significative. EN Equation de la droite de régression : DEPENSE = 0,68 * KILOMETRAGE -7,32 EC IM Coefficient de corrélation : + 0,85 (KILOMETRAGE explique 71% de la variance de DEPENSE). L’Ecart-type du coefficient de régression est de : 0,032 SP 27 observations ne sont pas prises en compte (non-réponse à au moins un des critères). Les nombres sont les nombres d'observations dans chaque maille de la grille. 48 JJ Croutsche UP 13 GEODE 2007-2008 DEPENSE 550,00 KILOMETRAGE l'a ut eu r 660,00 de Les couleurs (ou motifs) sont les modalités de la question 'SEXE'. SP EC IM EN Intégration de la variable CSP 49 JJ Croutsche UP 13 GEODE 2007-2008 DEPENSE Cadre Cadre Commerç... Cadre Cadre Cadre Cadre Cadre Cadre Commerç... Cadre Cadre Agricul... l'a ut eu r Commerç... Cadre Cadre Employé... Cadre -Agricul... Cadre Employé... -Commerç... Ouvrier... Cadre Cadre Cadre Cadre Cadre Commerç... -Cadre Cadre Commerç... A Cadre Ouvrier... utre Commerç... Commerç... Employé... Commerç... Cadre -Cadre Ouvrier... Employé... Ouvrier... Employé... Cadre Inactif... Employé... Chomeur... Employé... Ouvrier... Etudian... -Cadre Employé... Ouvrier... Chomeur... Inactif... Autre -Agricul... Chomeur... Inactif... Autre Cadre Employé... Cadre Chomeur... -Employé... Employé... Ouvrier... Etudian... Ouvrier... Chomeur... Inactif... Employé... Autre Employé... Ouvrier... Etudian... Agricul... Employé... Ouvrier... Agricul... Inactif... Chomeur... Inactif... Chomeur... Agricul... Cadre Employé... Ouvrier... Chomeur... Inactif... Etudian... Autre Etudian... Employé... Etudian... Autre Etudian... Employé... Etudian... Etudian... 550,00 Agricul... Inactif... Etudian... Etudian... Etudian... Etudian... Etudian... Etudian... Inactif... Etudian... Autre 660,00 KILOMETRAGE On voit d’après cette carte que ce sont les cadres qui dépensent le plus et qui font le plus de kilomètres. de 72) Croisement des variables qualitatives (nominales) : Test de Khi² et analyse des correspondances simples (croisement de deux variables) EN Ce test est utilisé pour étudier la relation entre deux variables nominales (qualitatives). EC IM Soit un échantillon de 282 personnes. Nous étudions la relation entre : • Le lieu de vacances, variable nominale, • et la catégorie socioprofessionnelle (CSP) autre variable nominale. SP On observe le tableau de contingence suivant et on se pose la question de savoir, s'il existe ou non, une relation entre la catégorie socioprofessionnelle (CSP) et le lieu de vacances ? Lieu de vacances 50 JJ Croutsche UP 13 Effectifs Campagn e Montagne a = 100 GEODE Mer Voyages Etranger 2007-2008 Total b = 85 c = 12 A = 197 d = 10 e = 25 f = 50 B = 85 C = 110 D = 110 E = 62 T = 282 Ouvriers C.S.P Employé s cadres total l'a ut eu r 1) On construit à partir des totaux lignes, des totaux colonnes et du total tableau, un nouveau tableau appelé tableau théorique, en respectant les proportions des totaux lignes (A, B) et des totaux colonnes (C, D, E). Ce tableau exprime l’indépendance des variables. On construit un tableau théorique exprimant l’indépendance des variables. On se réfère aux totaux lignes et aux totaux colonnes pour calculer des valeurs théoriques représentant une proportionnalité lignes, colonnes. Tableau théorique d’indépendance des variables Mer Voyages Etranger Total b’ c’ A = 197 d’ e’ f’ B = 85 C = 110 D = 110 E = 62 T = 282 IM Ouvriers C.S.P Employé s Campagn e Montagne a’ vacances EN Effectifs de de Lieu EC cadres SP total Les valeurs du tableau théorique sont calculées de la façon suivante : 51 JJ Croutsche UP 13 GEODE a ' b' c ' A = = = C D E T 2007-2008 d ' e' f ' B = = = C D E T et On aurait pu faire de la même façon : a' d ' C = = A B T b ' e' D = = A B T et c' f ' E = = A B T et Calculons une des valeurs : a’ a’ / C = A / T => a’ = (A x C) / T Ce qui revient à dire que l'a ut eu r a’ = ( total Ligne correspondant x total Colonne correspondant) Total effectif Tableau Tableau théorique exprimant l’indépendance des variables Campagne Montagne b' = A.D = 76,84 T e' = B.D = 33,15 T Total D = 110 EN C = 110 Voyages Etranger c' = f '= Total A.E = 43,31 T A = 197 B.E = 18,69 T B = 85 E = 62 T = 282 de A.C Ouvrier a' = = 76,84 s T employé s Cadres B.C d' = = 33,15 T Mer EC IM 2) On calcule la valeur de χ 2 en faisant la somme des carrés des différences entre valeurs observées et théoriques, chaque différence au carré étant ensuite divisée par les valeurs théoriques correspondantes : (a − a ')2 (b − b ' ) 2 (c − c ' ) 2 (d − d ')2 (e − e' ) 2 ( f − f ')2 + + + + + + ... a' b' c' d' e' f' SP χ2 = χ 2 = 6,98 + 0,8665 + 22,6348 + 16,1720 + 2,0663 + 52,4513 = 101,17 Logiquement plus la valeur de Khi² est importante, et plus on s’éloigne du tableau théorique d’indépendance des variables. En conséquence cela 52 JJ Croutsche UP 13 GEODE 2007-2008 signifie que la relation entre les deux variables étudiées est de plus en plus forte. Les valeurs de Khi² pour chaque case sont appelées valeurs de Khi² partielles. La somme de ces valeurs correspond au Khi² total. La formule généralisée de Khi deux sur deux variables croisées s’écrit : 3) Interprétation du résultat : On choisit l’hypothèse nulle : Ho = indépendance des variables (pas de différence entre tableau d’observations et tableau théorique) • Calcul du degré de liberté : On tient compte du nombre de lignes ( n c ) et du nombre de colonnes ( n l ) . => ν = 2 ×1 = 2 dans notre exemple. l'a ut eu r ν = ( n c − 1)( n l − 1) • On observe la table de χ 2 pour déterminer la valeur seuil (à 0,05) : Soit 5,99 dans notre exemple. On se réfère à la loi de Khi deux dont la courbe de probabilité est la suivante : d’indépendance des variables. de Notre valeur de Khi² calculée de 101,17 est très supérieure à la valeur seuil de 5,99 donc on refuse H 0 qui correspond à l’hypothèse EN On conclut en conséquence que les deux variables sont dépendantes, car on s'éloigne du tableau théorique d'indépendance. SP EC IM Remarque Les conditions de validité pour être remplies, nécessitent des effectifs théoriques supérieurs à 5 unités. Dans le cas contraire, il faut opérer des regroupements ou supprimer les lignes et les colonnes dont les effectifs sont trop faibles et n’ont pas de signification. Il est préférable de regrouper, car en supprimant, on perd de l’information. Par ailleurs dans les tableaux deux lignes deux colonnes, il est préférable d’utiliser le test de Fisher traité ultérieurement. Autre indicateur : le coefficient Béta Coefficient Béta : critère test sur les tableaux de contingence Ce coefficient est calculé à partir de la valeur de Khi deux mais il n’est pas nécessaire de connaître les valeurs de la table. La formule de Béta est la suivante : 53 JJ Croutsche UP 13 β = χ ² − ( l − 1)( c − 1) ( l − 1)( c − 1) GEODE 2007-2008 avec l nombre de lignes et c nombre de colonnes La valeur de (l - 1)(c - 1) correspond au nombre de degré de liberté du tableau de contingence. Elle prend en compte la taille du tableau (nombre de lignes et de colonnes), pondérant la valeur de Khi² calculée. Ainsi on estime que la liaison entre les variables est manifeste dès que Béta est > à 3. Dans le cas contraire, on accepte l’hypothèse nulle d’indépendance des deux variables. 74) Croisement sur sphinx des variables CSP et Marques (étude automobile) CSP Commerç ant, artis an Cadre Employé Ouvrier Chomeur Etudiant Inactif TOTAL 1 7 8 1 Peugeot 1 3 5 2 Citroën 1 3 2 3 Volkswagen 1 3 3 0 Fiat 3 0 1 1 Ford 0 0 3 2 Toyota 0 1 0 0 BMW 1 6 0 0 Mercedes 2 4 1 0 Opel 1 0 2 1 11 27 25 TOTAL 1 6 5 0 3 3 17 1 4 3 17 14 29 1 3 3 4 1 0 10 2 2 2 11 0 1 0 2 0 0 0 7 0 0 0 7 1 1 1 7 de Renault l'a ut eu r MARQUE 21 17 121 10 10 EN MARQUE x CSP Quelle est la marque de votre voiture ? Quelle est votre catégorie socio-professionnelle ? EC IM La dépendance est significative. chi2 = 93,04, ddl = 70, 1-p = 96,58%. Les cases encadrées en bleu (rose) sont celles pour lesquelles l'effectif réel est nettement supérieur (inférieur) à l'effectif théorique. Attention, 86 (97.7%) cases ont un effectif théorique inférieur à 5, les règles du chi2 ne sont pas réellement applicables. % de variance expliquée (V de Cramer) : 6,55% SP Les valeurs du tableau sont les nombres de citations de chaque couple de modalités. 54 JJ Croutsche UP 13 GEODE 2007-2008 MARQUE x CSP 30 Renault 19 Peugeot 18 Citroën 14 Volkswagen 11 Fiat 12 Ford 2 Toyota 7 BMW 7 Mercedes 7 Opel Commerçant, artisan Cadre Employé Ouvrier Chomeur Etudiant Inactif l'a ut eu r Agriculteur SP EC IM EN de On peut partant de ces données réaliser une analyse factorielle des correspondances simples. Le premier axe horizontal marque une opposition entre les modalités des variables. Les deux axes de la carte factorielle permettent d’expliquer de façon spatiale les liens entre les modalités des variables. Plus les modalités sont rapprochées, et plus la liaison entre ces modalités est forte. C’est le premier axe factoriel (axe horizontal) qui explique le plus la liaison. Le pourcentage de variance expliquée est de 49,7%. 55 JJ Croutsche UP 13 GEODE 2007-2008 Axe 2 (34.7%) Renault Etudiant Peugeot Inactif Employé Volkswagen Ford Toyota Axe 1 (49.7%) Ouvrier Cadre Opel Citroën BMW Mercedes Chomeur l'a ut eu r Commerçant, artisan Fiat de Le premier axe factoriel (axe horizontal : F1) explique le plus la variance du nuage de point (49,7%). Il montre une opposition entre la partie droite et la partie gauche du graphe. A gauche, on observe plutôt des CSP supérieures et des véhicules de haut de gamme (BMW, Mercedes, Toyota). A droite du graphe, on observe plutôt des CSP plus modestes (chômeur) et des véhicules bas de gamme (Fiat). On interprète cet axe factoriel comme un axe financier. A gauche on observe des revenus plus élevés et à droite des revenus plus modestes. IM EN En ce qui concerne l’axe vertical (second axe factoriel : F1) l’interprétation est beaucoup plus difficile. Pour ce faire il faut que les échantillons soient importants sinon on risque de faire de grossières erreurs d’interprétation. Dans notre exemple, on ne peut interpréter cet axe. SP EC Cette carte factorielle permet de faire des typologies d’individus, c'est-àdire des agrégats de personnes ayant des caractéristiques proches. Ces typologies permettent de définir des cibles marketing et de définir ensuite des stratégies marketing. Etude du croisement marque/options 56 JJ Croutsche UP 13 OPTIONS GEODE Jantes alu 2007-2008 Vitres Lecteur Climatisat Airbags Attelage Intérieur teintées CD/ordin ion cuir ateur TOTAL MARQUE Renault +0 +0 +0 +0 +4 -2 -1 Peugeot +0 +0 +0 +0 +0 +1 -2 27 Citroën +3 +3 +2 +0 -1 +0 -2 20 Volkswagen +0 +0 +0 +0 +0 +0 +0 42 Fiat +1 +1 +0 -1 +0 +0 -1 10 Ford +8 +0 +0 -1 +0 +1 -1 18 BMW -4 -1 +1 +0 -1 +0 +9 31 Mercedes -1 +0 +0 +0 -1 +0 +18 28 Opel +1 +0 +0 +1 +0 -1 -1 18 TOTAL 25 9 27 59 97 15 18 250 56 l'a ut eu r La dépendance est significative. chi2 = 66,34, ddl = 48, 1-p = 95,93%. Les cases encadrées en bleu (rose) sont celles pour lesquelles l'effectif réel est nettement supérieur (inférieur) à l'effectif théorique. Attention, 48 (76.2%) cases ont un effectif théorique inférieur à 5, les règles du chi2 ne sont pas réellement applicables. Le chi2 est calculé sur le tableau des citations (effectifs marginaux égaux à la somme des effectifs lignes/colonnes). % de variance expliquée (V de Cramer) : 5,50% Les valeurs du tableau sont les pourcentages chi2 partiel / chi2 total. Le signe représente l'écart à l'indépendance. de MARQUE x OPTIONS 56 Renault 42 Volkswagen 27 Peugeot 20 Citroën 18 Ford 18 Opel 10 Fiat EC Jantes alu IM 28 Mercedes EN 31 BMW Vitres teintées Lecteur CD/ordinateur Attelage Intérieur cuir Climatisation SP Airbags 57 JJ Croutsche UP 13 GEODE Vitres teintées Citroën Attelage Lecteur CD/ordinateur Fiat Volkswagen Jantes alu Peugeot Climatisation Ford Axe 1 (57.87%) 2007-2008 Axe 2 (15.97%) Mercedes BMW Intérieur cuir Airbags Renault Opel l'a ut eu r Le premier axe marque une opposition entre le luxe, haut de gamme à droite avec BMW, Mercedes, le cuir associé à ces véhicules. Sur la partie gauche se regroupent des véhicules modestes (Ford, Fiat, Opel…) l’option associée étant la jante aluminium. Ces véhicules à bas prix ne possédant pas ces options en série, il est nécessaire d’en faire l’acquisition ou de choisir cette option. En revanche les modèles, haut de gamme, sont équipés à l’origine de jantes aluminium, cette option n’est donc pas nécessaire. 8) Etude des tris croisés multiples EN de Dans ces études, on croise plus de deux variables. Il est évident que ces analyses sont plus complexes mais permettent d’enrichir les analyses faites jusqu’ici. Elles permettent de synthétiser les résultats et de mettre en place des typologies et des segmentations. Rappelons que les segmentations sont des découpages affinés de marché permettant de localiser des consommateurs ou des utilisateurs ayant des caractéristiques communes. Ces méthodes permettent d’élaborer des stratégies commerciales et des stratégies marketing. IM Il existe plusieurs méthodes dites de « première génération » lesquelles permettent d’explorer les données et de concevoir des modèles qui demandent pour être validés des analyses de type confirmatoire dites de « seconde génération ». EC Dans le cadre de ce texte, nous étudierons les analyses classiques aidant à l’exploration des données statistiques. En d’autres termes, nous nous limiterons aux analyses de première génération. SP Dans ce cadre, nous aborderons : - Régressions et corrélations multiples, Analyse en composantes principales, Analyse discriminante et typologies, Analyse des correspondances multiples. 58 JJ Croutsche UP 13 GEODE 2007-2008 81) Régressions et corrélations multiples On explique une variable par plusieurs autres variables. On se différencie des modèles de régression et corrélation simples de la forme : y = ax + b avec y qui correspond à la variable expliquée et x qui correspond à la variable explicative. l'a ut eu r Les modèles de régression et corrélation multiple sont plus ambitieux puisque l’on tente d’expliquer une variable y par plusieurs variables explicatives : x1, x2, x3…. Chacune de ces variables explique plus ou moins la variable que l’on tente d’expliquer. Il est logique d’avoir recours pour bien comprendre les résultats à des tests statistiques spécifiques. Dans les modèles de régression multiples les équations sont de la forme : Y = a1x1 + a2x2 + a3x3 + …akxk + … Anxn + Résidu de Y représente la variable expliquée et x1, x2, x3…xk…xn. représentent les variables explicatives et le Résidu représente ce que l’on ne peut expliquer. EN Les variables traitées sont uniquement quantitatives. IM Mathématiquement les calculs se font de la même façon que dans les régressions simples. On minimise des distances entre les points observés et le modèle. EC Nous traitons un exemple à partir de l’enquête automobile de SPHINX. SP Nous étudions la variable dépenses, variable expliquée, par l’ensemble des autres variables quantitatives traitées dans l’étude. Matrice des corrélations On établit une matrice de corrélations entre toutes les variables (la variable expliquée et les variables explicatives). 59 JJ Croutsche UP 13 GEODE 2007-2008 Cette matrice de corrélations est carrée symétrique. La diagonale de la matrice est unitaire puisque les variables sont croisées entre elles. Les coefficients sont symétriques par rapport à la diagonale unitaire de la matrice. La matrice nous donne les coefficients de corrélation simples (r) entre deux variables. En observant la première colonne (Dépense), on voit que le coefficient de corrélation entre les dépenses et le kilométrage est important. On voit qu’au fur et à mesure que l’on descend dans la matrice, les coefficients de corrélation linéaires sur cette première colonne (dépenses) diminuent en valeur absolue. DEPENSEKILOME NTRETIETENUE DE NOTE VITESSESTHETIQU SECURITEESPACECONSOM NCIENNET CONFORTOLLUTIOPERF_EN VARIAB ROUTE MATION TRETIEN LE_30 TRAGE 1,00 KILOMETRA 0,88 1,00 ENTRETIEN 0,58 0,47 1,00 TENUE DE R 0,45 0,38 0,28 1,00 NOTE 0,45 0,46 0,28 0,65 1,00 VITESSE 0,42 0,39 0,21 0,62 0,66 1,00 ESTHETIQU 0,37 0,34 0,15 0,56 0,57 0,79 1,00 SECURITE 0,37 0,32 0,22 0,76 0,58 0,61 0,57 ESPACE 0,35 0,32 0,17 0,47 0,54 0,52 0,49 0,47 1,00 CONSOMMA -0,33 -0,16 -0,23 -0,19 0,04 -0,15 -0,18 -0,19 -0,10 1,00 ANCIENNET -0,33 -0,32 -0,11 -0,61 -0,75 -0,61 -0,57 -0,57 -0,40 -0,06 1,00 CONFORT 0,31 0,28 0,14 0,46 0,59 0,51 0,48 0,45 0,91 -0,05 -0,46 1,00 POLLUTION 0,05 0,16 -0,14 0,23 0,36 0,18 0,12 0,21 0,00 0,10 -0,45 0,09 PERF_ENTR -0,03 0,07 -0,09 0,10 0,22 -0,00 0,11 0,06 -0,04 0,17 -0,11 0,00 0,35 1,00 VARIABLE_ 0,03 0,04 0,01 -0,00 0,13 0,21 0,22 0,64 0,16 -0,06 -0,15 0,16 0,04 -0,02 l'a ut eu r DEPENSE 1,00 1,00 1,00 de Le logiciel nous donne les moyennes et les écarts-types relatifs à chaque variable. IM EN L’écart-type (ect) est un indicateur de dispersion qui nous informe sur le pouvoir discriminant de la variable. La variable ne doit pas être trop dispersée (distribution trop hétérogène) et la variable ne doit pas être insuffisamment dispersée (pas de pouvoir de discrimination de la variable). On utilise un test pour admettre ou non la variable étudiée comme significative dans le modèle. SP EC 'DEPENSE' : moy = 1115,94, ect = 812,38 'KILOMETRAGE' : moy = 1585,07, ect = 900,68 'ENTRETIEN' : moy = 2,14, ect = 2,68 'TENUE DE ROUTE' : moy = 3,41, ect = 0,86 'NOTE' : moy = 13,31, ect = 2,52 'VITESSE' : moy = 3,59, ect = 1,11 'ESTHETIQUE' : moy = 3,87, ect = 1,04 'SECURITE' : moy = 3,42, ect = 0,84 'ESPACE' : moy = 3,28, ect = 0,75 'CONSOMMATION' : moy = 3,41, ect = 1,13 'ANCIENNETE' : moy = 4,16, ect = 2,87 'CONFORT' : moy = 3,30, ect = 0,74 60 JJ Croutsche UP 13 GEODE 2007-2008 'POLLUTION' : moy = 3,40, ect = 0,96 'PERF_ENTRETIEN' : moy = 3,36, ect = 0,56 'VARIABLE_30' : moy = -0,01, ect = 0,54 65 observations ne sont pas prises en compte (non-réponse à au moins un des critères). Représentation graphique DEPENSE 0,88 KILOMETRAGE 0,58 ENTRETIEN 0,45 TENUE DE ROUTE 0,65 0,45 0,62 NOTE 0,66 0,42 0,76 VITESSE 0,37 l'a ut eu r 0,79 0,61 ESTHETIQUE -0,61 0,37 -0,75 SECURITE 0,35 ESPACE -0,33 CONSOMMATION 0,91 -0,33 ANCIENNETE 0,64 0,31 0,05 POLLUTION -0,03 : 0,85>coef.>0,70 VARIABLE_30 IM : 0,70>coef.>0,50 PERF_ENTRETIEN EN 0,03 : coef.>0,85 de CONFORT EC Régression multiple de DEPENSE SP Variables explicatives : KILOMETRAGE, ENTRETIEN, TENUE DE ROUTE, NOTE, VITESSE, ESTHETIQUE, SECURITE, ESPACE, CONSOMMATION, ANCIENNETE, CONFORT, POLLUTION, PERF_ENTRETIEN, VARIABLE_30. Diagramme des corrélations entre la variable expliquée et les variables explicatives. 61 JJ Croutsche UP 13 GEODE 2007-2008 Les ronds bleus correspondent à des corrélations positives alors que les ronds roses correspondent à des corrélations négatives. Corrélations avec 'DEPENSE' 0,88 KILOMETRAGE ENTRETIEN 0,58 TENUE DE ROUTE 0,45 VITESSE 0,42 ESTHETIQUE 0,37 0,37 SECURITE ESPACE 0,35 CONSOMMATION -0,33 ANCIENNETE -0,33 0,05 PERF_ENTRETIEN -0,03 0,03 IM VARIABLE_30 EN POLLUTION de 0,31 CONFORT l'a ut eu r 0,45 NOTE EC Equation de la régression : Modèle (M1) : modèle global SP DEPENSE = +0.665 * KILOMETRAGE +50.524 * ENTRETIEN 92880592.132 * TENUE DE ROUTE -6.154 * NOTE -2.771 * VITESSE 1.421 * ESTHETIQUE +123807701.573 * SECURITE -15.226 * ESPACE 111.798 * CONSOMMATION -22.593 * ANCIENNETE +50.025 * CONFORT -49.392 * POLLUTION -50.158 * PERF_ENTRETIEN -123807733.109 * VARIABLE_30 -107984285.873 62 JJ Croutsche UP 13 GEODE 2007-2008 Les 14 variables expliquent 84,6% de la variance de DEPENSE. Coefficient de corrélation multiple : R = 0,92, coefficient de Fisher : F = 0,02 La significativité des paramètres nous permet d’évaluer le modèle. Significativité des paramètres : 'KILOMETRAGE' : coefficient = 0,66, écart-type = 0,04 'ENTRETIEN' : coefficient = 50,52, écart-type = 13,21 l'a ut eu r 'TENUE DE ROUTE' : coefficient = -92880592,13, écart-type = 690811882,64 (Peu influent) 'NOTE' : coefficient = -6,15, écart-type = 22,51 (Peu influent) 'VITESSE' : coefficient = -2,77, écart-type = 49,24 (Peu influent) 'ESTHETIQUE' : coefficient = -1,42, écart-type = 48,63 (Peu influent) 'SECURITE' : coefficient = 123807701,57, écart-type = 920835797,18 (Peu influent) 'ESPACE' : coefficient = -15,23, écart-type = 97,82 (Peu influent) 'CONSOMMATION' : coefficient = -111,80, écart-type = 28,49 'ANCIENNETE' : coefficient = -22,59, écart-type = 17,80 (Peu influent) 'CONFORT' : coefficient = 50,03, écart-type = 99,81 (Peu influent) 'POLLUTION' : coefficient = -49,39, écart-type = 38,26 (Peu influent) 'PERF_ENTRETIEN' : coefficient = -50,16, écart-type = 58,96 (Peu influent) 'VARIABLE_30' : coefficient = -123807733,11, écart-type = 920835805,67 (Peu influent) EN de Certains termes de l'équation sont peu influents, leur rapport « coefficient de la variable explicative / écart-type » est inférieur à 1,96 (95% dans la loi de Gauss). En effet pour qu’une variable soit significative, il faut que le rapport « coefficient / écart-type » soit supérieur à 1,96 (95% dans la loi de Gauss) ; On accepte 5% de risque d’erreur mais on ne va pas au-delà. IM Autre problème : Il ne faut pas que les variables explicatives soient corrélées entre elles, cela déforme la qualité du modèle, il faut dans ce cas éliminer une des deux variables. EC Attention, les variables 'ESPACE' et 'CONFORT' sont fortement corrélées (coefficient de corrélation de 0,91). Il faudra donc éliminer une des variables. SP 65 observations ne sont pas prises en compte dans le calcul. (non-réponse à au moins un des critères). On peut en éliminant les variables non significatives (commande « oter » dans SPHINX) obtenir un modèle satisfaisant tant en ce qui concerne le coefficient de corrélation linaire que la valeur du test F de Fisher. 63 JJ Croutsche UP 13 GEODE 2007-2008 Le modèle de Régression multiple de DEPENSE pour les variables KILOMETRAGE, ENTRETIEN, CONSOMMATION, ANCIENNETE, nous permet d’obtenir l’équation de régression suivante : Modèle (M2) : modèle purifié DEPENSE = +0.658 * KILOMETRAGE +58.078 * ENTRETIEN -126.141 * CONSOMMATION -24.310 * ANCIENNETE +478.354 Les 4 variables expliquent 83.7% de la variance de DEPENSE Coefficient de corrélation multiple : R = 0,92, coefficient de Fisher : F = 5,35 l'a ut eu r Significativité des paramètres : 'KILOMETRAGE' : coefficient = 0,66, écart-type = 0,04 'ENTRETIEN' : coefficient = 58,08, écart-type = 12,18 'CONSOMMATION' : coefficient = -126,14, écart-type = 25,97 'ANCIENNETE' : coefficient = -24,31, écart-type = 10,51 Méthode pas à pas de 65 observations ne sont pas prises en compte (non-réponse à au moins un des critères). EN Cette méthode classique est une forme de système expert qui sélectionne de façon automatique les variables à retenir dans l’ensemble des variables explicatives traitées. Equation de la régression (méthode pas à pas) : IM Modèle (M3) : méthode pas à pas EC DEPENSE = +0.659 * KILOMETRAGE +54.299 * ENTRETIEN -110.937 * CONSOMMATION +90.764 * TENUE DE ROUTE +23.499 SP Le calcul est fait selon la méthode 'pas à pas ascendante'. Les termes sont classés dans l'ordre de leur importance pour l'explication de DEPENSE. Les 4 variables expliquent 83,8% de la variance de DEPENSE Coefficient de corrélation multiple : R = 0,92, coefficient de Fisher : F = 6,26 64 JJ Croutsche UP 13 GEODE 2007-2008 Plus le coefficient de Fisher est important et le plus le modèles est acceptable. Ajoutons que le coefficient de corrélation multiple est suffisamment important et le modèle est donc acceptable. Significativité des paramètres : 'KILOMETRAGE' : coefficient = 0,66, écart-type = 0,04, variation SCR = 0,77, F partiel = 312,94 'ENTRETIEN' : coefficient = 54,30, écart-type = 12,20, variation SCR = 0,04, F partiel = 19,82 'CONSOMMATION' : coefficient = -110,94, écart-type = 25,92, variation SCR = 0,03, F partiel = 18,31 'TENUE DE ROUTE' : coefficient = 90,76, écart-type = 36,27, variation SCR = 0,01, F partiel = 6,26 l'a ut eu r Les variables NOTE, VITESSE, ESTHETIQUE, SECURITE, ESPACE, ANCIENNETE, CONFORT, POLLUTION, PERF_ENTRETIEN, VARIABLE_30 ne sont pas significatives et n'ont pas été prises en compte dans la régression pas à pas. 65 observations ne sont pas prises en compte (non-réponse à au moins un des critères). EN de Ce dernier modèle est plus performant que le modèle que nous avons construit, puisque le coefficient de corrélation est équivalent et que le F de Fisher est supérieur au F que nous avons obtenu en réalisant notre modèle. 82) Analyse en composantes principales EC IM Cette analyse est issue des méthodes de régressions et de corrélations multiples. Les variables traitées sont uniquement quantitatives. Cette méthode nous permet de procéder à des représentations graphiques sous forme de cartes dans un espace à deux dimensions. Ces cartes sont dites « factorielles ». SP On commence l’analyse par une matrice des corrélations en prenant en compte toutes les variables quantitatives : 65 JJ Croutsche UP 13 GEODE 2007-2008 CIENNEVITESSE CONFORTECURIT ENUE D ESPACE THETIQU CONSOMOLLUTIOPERF_EN NOTE NTRETIEKILOMEDEPENSEVARIAB MATION TRETIEN ROUTE TRAGE LE_30 ANCIENNET 1,00 VITESSE -0,61 1,00 CONFORT -0,46 0,51 SECURITE -0,57 0,61 0,45 1,00 TENUE DE -0,61 0,62 0,46 0,76 ESPACE -0,40 0,52 0,91 0,47 0,47 1,00 ESTHETIQU -0,57 0,79 0,48 0,57 0,56 0,49 1,00 CONSOMM -0,06 -0,15 -0,05 -0,19 -0,19 -0,10 -0,18 POLLUTION -0,45 0,18 0,09 0,21 0,23 0,00 0,12 0,10 1,00 PERF_ENT -0,11 -0,00 0,00 0,06 0,10 -0,04 0,11 0,17 0,35 NOTE -0,75 0,66 0,59 0,58 0,65 0,54 0,57 0,04 0,36 0,22 1,00 ENTRETIEN -0,11 0,21 0,14 0,22 0,28 0,17 0,15 -0,23 -0,14 -0,09 0,28 KILOMETRA -0,32 0,39 0,28 0,32 0,38 0,32 0,34 -0,16 0,16 0,07 0,46 0,47 1,00 DEPENSE -0,33 0,42 0,31 0,37 0,45 0,35 0,37 -0,33 0,05 -0,03 0,45 0,58 0,88 1,00 VARIABLE_ -0,15 0,21 0,16 0,64 -0,00 0,16 0,22 -0,06 0,04 -0,02 0,13 0,01 0,04 0,03 1,00 1,00 1,00 1,00 1,00 1,00 ANCIENNETE VITESSE l'a ut eu r Diagramme de corrélations 0,61 CONFORT 0,62 SECURITE 0,91 0,79 0,76 TENUE DE ROUTE -0,75 ESPACE 0,66 de ESTHETIQUE CONSOMMATION POLLUTION NOTE ENTRETIEN KILOMETRAGE 0,64 EN PERF_ENTRETIEN 0,65 EC VARIABLE_30 IM 0,88 DEPENSE coef.>0,85 0,85>coef.>0,70 SP 0,70>coef.>0,50 On procède ensuite à une représentation graphique (carte factorielle) prenant en compte deux axes factoriels. On représente en règle générale les deux axes les plus significatifs, ceux pour lesquels le pourcentage de variance expliquée est le plus important. 66 JJ Croutsche UP 13 GEODE 2007-2008 Carte factorielle Axe 2 (13.0%) POLLUTION CONSOMMATION PERF_ENTRETIEN NOTE CONFORT VARIABLE_30 SECURITE ESTHETIQUE VITESSE ESPACE l'a ut eu r Axe 1 (39.6%) TENUE DE ROUTE ANCIENNETE KILOMETRAGE DEPENSE de ENTRETIEN IM EN On procède à une représentation des projections des points dans l’espace des différentes observations. Ces projections sont réalisées dans le premier plan factoriel, lequel est défini par rapport aux deux premiers axes factoriels qui expliquent le plus la variance du nuage de points. EC On peut représenter autant d’axes factoriels que de variables. Chaque axe exprime une opposition qu’il faut pouvoir expliquer et qui aide à l’interprétation de la carte. SP On observe une projection des points dans l’espace sur le plan factoriel. Il faut expliquer le premier axe factoriel, le second axe étant plus difficile à expliquer surtout quand le nombre d’observations est relativement faible, ce qui est le cas dans notre exemple. Le premier axe factoriel (F1) marque une opposition entre un revenu plus élevé et un revenu plus faible. Il explique le plus la variance du nuage 67 JJ Croutsche UP 13 GEODE 2007-2008 (39,6% de la variance alors que le second axe n’explique que 13% de la variance). Les points représentent les individus. Les variables sont représentées par les segments. - Plus les variables sont proches (angles faibles entre les variables) et plus elles sont corrélées. - Quand elles sont opposées (angle proche de 180°), elles sont corrélées de façon négative, la relation est dite inverse. - Quand elles sont perpendiculaires (orthogonales), elles sont indépendantes. La proximité des points et des variables et des axes factoriels permet d’expliquer le graphe. Les pourcentages sur les axes expliquent la variance. l'a ut eu r Tableau des contributions Axe 1 (+39.6%) CONTRIBUTIONS VITESSE POSITIVES NOTE Axe 2 (+13.0%) +11,0% CONSOMMATION +14,0% +11,0% POLLUTION +14,0% SECURITE +10,0% PERF_ENTRETIEN +10,0% TENUE DE ROUTE +10,0% NOTE +9,0% VARIABLE_30 CONFORT +8,0% ESPACE DEPENSE +2,0% +1,0% +8,0% +7,0% -9,0% ENTRETIEN -21,0% DEPENSE -17,0% KILOMETRAGE -10,0% ANCIENNETE -6,0% EC IM EN CONTRIBUTIONS ANCIENNETE NEGATIVES de ESTHETIQUE SP Le tableau de contributions nous permet d’expliquer la signification des axes factoriels. Le premier axe est toujours le plus significatif (39,6%) de la variance. Il marque une opposition entre la partie droite qui exprime la technologie donc des voitures plus récentes, plus coûteuses et la partie gauche du graphe qui exprime moins de technologie avec des véhicules plus anciens, de technologie moindre et de valeur financière moindre. 68 JJ Croutsche UP 13 GEODE 2007-2008 Cet axe exprime en conséquence un degré technologique, une forme de revenu, de richesse. Il associe plusieurs concepts et permet d’agréger plusieurs variables pour en faire une synthèse. Il permet de ce fait de créer de nouvelles variables synthétiques. On peut de ce fait résumer dans une certaine mesure l’information. C’est ce résumé qui nous permet de clarifier les données. Cette méthode d’analyses en composantes principales permet de simplifier les données, les rendre plus lisibles. En revanche on perd un peu d’information en synthétisant les données. C’est en cela que l’on dit que les méthodes d’analyses factorielles sont simplificatrices et permettent de réaliser une radiographie des données. On peut à partir de cette méthode décliner d’autres méthodes d’analyse dont l’analyse en composantes des moyennes. l'a ut eu r * Analyse en composantes des moyennes en fonction des CSP On sélectionne une variable qualitative (CSP). Cette variable apparaît en ligne dans le tableau. En colonnes, on représente les moyennes obtenues sur chaque CSP et pour chaque caractéristique. On un tableau de données (moyennes). Tableau des moyennes VITESSE CONFORT SECURITE TENUE DE ROUTE Agriculteur 6,83 2,43 3,29 2,57 Commerçant, artisan 2,83 3,83 3,58 3,83 Cadre 2,12 4,34 3,72 3,88 Employé 2,80 3,73 Ouvrier 7,85 2,73 Chomeur 6,64 2,67 Etudiant 4,28 3,43 Inactif 4,21 3,71 Autre 5,29 3,50 TOTAL 4,29 ESPACE CONSOM MATION PERF_EN ENTRETIEN KILOME TRETIEN TRAGE DEPENSE 3,29 3,14 3,71 2,71 3,57 1542,86 1035,71 3,75 3,58 4,00 3,25 3,08 4,83 2516,67 1875,00 3,97 3,78 4,59 3,16 3,31 2,88 2685,94 2042,19 3,19 3,31 3,23 3,15 4,19 3,50 3,42 1,12 1407,69 932,69 2,67 2,87 2,73 2,87 3,07 3,53 3,33 2,27 1400,00 973,33 3,00 3,00 2,83 2,83 3,00 3,58 3,42 1,67 1225,00 741,67 3,35 3,48 3,39 3,22 3,52 3,70 3,52 0,78 819,13 306,52 3,24 3,47 3,24 3,12 4,00 3,88 3,53 0,88 1161,76 670,59 3,13 3,25 3,13 3,13 3,88 3,63 3,63 2,13 1562,50 775,00 3,41 3,34 3,28 3,87 3,51 3,37 2,03 1646,97 1101,97 IM 3,57 ESTHE TIQUE 2,71 EN ANCIEN NETE CSP de On peut ensuite réaliser une analyse en composantes principales appelée analyse en composantes des moyennes. 3,30 EC Matrice des corrélations ANCIENNETE VITESSE ANCIENNETE CONFORT SECURITE TENUE DE ROUTE ESPACE ESTHETIQUE CONSOM MATION PERF_EN TRETIEN ENTRETIEN KILOME TRAGE DEPENSE 1,00 -0,95 CONFORT -0,81 0,72 1,00 SECURITE -0,89 0,94 0,72 1,00 TENUE DE ROUT -0,91 0,93 0,85 0,96 1,00 ESPACE -0,75 0,71 0,93 0,69 0,85 ESTHETIQUE -0,94 0,96 0,73 0,83 0,87 0,75 1,00 CONSOMMATION 0,50 -0,52 -0,48 -0,55 -0,65 -0,65 -0,50 1,00 PERF_ENTRETIE -0,24 0,38 -0,20 0,40 0,19 -0,32 0,23 0,15 1,00 ENTRETIEN -0,06 -0,00 0,39 0,09 0,24 0,55 0,05 -0,59 -0,79 1,00 KILOMETRAGE -0,51 0,53 0,64 0,54 0,67 0,81 0,58 -0,87 -0,40 0,78 1,00 DEPENSE -0,47 0,50 0,59 0,49 0,62 0,78 0,56 -0,87 -0,41 0,78 1,00 SP VITESSE 1,00 1,00 1,00 69 JJ Croutsche UP 13 Graphe des corrélations GEODE 2007-2008 ANCIENNETE -0,95 VITESSE -0,89 0,94 CONFORT -0,91 0,93 -0,94 SECURITE 0,96 0,96 0,93 TENUE DE ROUTE ESPACE ESTHETIQUE CONSOMMATION PERF_ENTRETIEN ENTRETIEN KILOMETRAGE 1,00 DEPENSE coef.>0,85 l'a ut eu r 0,85>coef.>0,70 0,70>coef.>0,50 Représentation graphique des moyennes CSP 0,78 Cadre Employé IM Agriculteur Commerçant, artisan EN de 2685,94 Ouvrier Chomeur Etudiant Inactif Autre TOTAL VITESSE CONFORT SECURITE TENUE DE ROUTE ESPACE ESTHETIQUE CONSOMMATION PERF_ENTRETIEN ENTRETIEN KILOMETRAGE DEPENSE EC ANCIENNETE SP Analyse en composantes des moyennes (CSP) 70 JJ Croutsche UP 13 GEODE 2007-2008 Axe 2 (23.92%) VITESSE PERF_ENTRETIEN SECURITE Inactif Autre ESTHETIQUE Employé Cadre CONSOMMATION TENUE DE ROUTE Etudiant Commerçant, artisan Axe 1 (64.01%) ESPACE CONFORT ANCIENNETE Chomeur Ouvrier KILOMETRAGE DEPENSE ENTRETIEN l'a ut eu r Agriculteur On observe d’après cette carte une opposition sur F1 identique à ce que l’on a pu observer sur l’analyse en composantes principale précédente (à droite des véhicules sophistiqués et à gauche des véhicules plus modestes). Les CSP à revenu plus élevé se situent sur la partie droite du graphe alors que les CSP les plus modestes se situent sur la partie gauche du graphe. de Tableau des contributions Axe 1 (+64.38%) +11,0% PERF_ENTRETIEN EN CONTRIBUTIONS TENUE DE ROUTE POSITIVES ESPACE Axe 2 (+24.31%) +11,0% VITESSE +28,0% +7,0% +9,0% SECURITE +5,0% CONFORT +9,0% ESTHETIQUE +4,0% SECURITE +9,0% CONSOMMATION +3,0% +9,0% TENUE DE ROUTE +2,0% IM VITESSE ESTHETIQUE -9,0% ENTRETIEN -7,0% DEPENSE -25,0% -8,0% KILOMETRAGE -7,0% ANCIENNETE -5,0% ESPACE -1,0% SP EC CONTRIBUTIONS ANCIENNETE NEGATIVES CONSOMMATION 71 JJ Croutsche UP 13 GEODE 2007-2008 Analyse en composantes des moyennes sur les marques de véhicules Tableau des moyennes ANCIEN NETE MARQUE VITESSE CONFORT SECURITE TENUE DE ESPACE ROUTE ESTHE TIQUE CONSOM ENTRETIEN KILOME MATION TRAGE DEPENSE Renault 3,56 3,50 3,61 3,56 3,42 3,56 4,06 3,83 1,47 1647,22 1026,39 Peugeot 4,88 3,33 3,29 3,43 3,33 3,33 3,76 3,33 1,52 1666,67 1035,71 Citroën 5,62 3,29 3,38 3,29 3,19 3,29 3,62 3,38 0,81 1425,71 723,81 Volkswagen 2,60 3,94 3,22 3,39 3,56 3,22 4,11 3,67 3,17 1950,00 1250,00 Fiat 6,36 3,00 2,75 2,75 3,00 2,67 2,92 3,58 2,75 1791,67 1108,33 Ford 4,82 3,57 2,64 3,14 3,07 2,64 3,64 3,36 1,29 1264,29 857,14 Toyota 3,33 4,00 4,00 4,00 3,67 4,00 3,67 2,00 6,00 1400,00 1350,00 BMW 2,44 5,00 4,00 4,33 4,44 4,00 5,00 2,78 3,33 2611,11 2138,89 Mercedes 2,80 5,00 4,13 3,88 3,75 4,13 4,88 2,75 3,38 2187,50 1906,25 Opel 2,80 3,50 3,20 3,60 3,40 3,10 3,90 3,70 1,90 1420,00 965,00 Volvo 11,33 2,33 3,00 2,67 2,33 3,00 2,67 4,00 2,33 1000,00 733,33 4,21 3,62 3,35 3,44 3,39 3,32 3,89 3,46 2,01 1683,48 1110,32 TOTAL l'a ut eu r Matrice des corrélations NCIENNET VITESSE CONFORTSECURITETENUE DE ESPACE STHETIQUCONSOMENTRETIEN KILOME DEPENSE MATION TRAGE ROUTE ANCIENNETE 1,00 VITESSE -0,80 1,00 CONFORT -0,53 0,75 1,00 SECURITE -0,79 0,87 0,86 1,00 TENUE DE RO -0,86 0,92 0,74 0,93 1,00 ESPACE -0,52 0,76 1,00 0,86 0,74 ESTHETIQUE -0,82 0,94 0,73 0,87 0,90 0,73 1,00 CONSOMMAT 0,47 -0,67 -0,69 -0,71 -0,62 -0,71 -0,45 1,00 ENTRETIEN -0,26 0,44 0,55 0,47 0,41 0,57 0,18 -0,74 1,00 KILOMETRAG -0,62 0,81 0,56 0,64 0,83 0,56 0,80 -0,34 0,26 1,00 DEPENSE -0,58 0,91 0,74 0,77 0,85 0,75 0,81 -0,62 0,56 0,89 CONFORT de EN ANCIENNETE VITESSE 1,00 0,87 0,92 SECURITE TENUE DE ROUTE ESPACE ESTHETIQUE EC CONSOMMATION 0,94 IM 1,00 1,00 0,86 0,93 0,87 0,90 0,91 ENTRETIEN KILOMETRAGE 0,89 DEPENSE SP coef.>0,85 0,85>coef.>0,70 0,70>coef.>0,50 72 JJ Croutsche UP 13 GEODE 2007-2008 Axe 2 (12.67%) ESTHETIQUE CONSOMMATION KILOMETRAGE TENUE DE ROUTE Renault Volkswagen Opel Ford Citroën BMW DEPENSE Peugeot VITESSE SECURITE Fiat Mercedes Axe 1 (72.71%) CONFORT ESPACE ANCIENNETE Volvo ENTRETIEN l'a ut eu r Toyota de On observe d’après cette carte une opposition sur F1 identique à ce que l’on a pu observer sur l’analyse en composantes principale précédente (à droite des véhicules sophistiqués et à gauche des véhicules plus modestes). Les marques les plus sophistiquées se situent sur la partie droite du graphe alors que les Marques. Elles bénéficient des caractéristiques les mieux notées. En revanche les moins sophistiquées se situent sur la partie gauche du graphe. Dans notre analyse les quelques véhicules Volvo (3 sur 4) sont plutôt anciens. EN Tableau des contributions Axe 1 (+72.71%) CONTRIBUTIONS VITESSE POSITIVES SECURITE +20,0% +10,0% TENUE DE ROUTE +11,0% KILOMETRAGE +10,0% ESTHETIQUE +10,0% TENUE DE ROUTE +2,0% +10,0% VITESSE +1,0% EC IM +11,0% CONSOMMATION +11,0% ESTHETIQUE DEPENSE CONFORT CONTRIBUTIONS ANCIENNETE NEGATIVES CONSOMMATION SP Axe 2 (+12.67%) +9,0% -7,0% ENTRETIEN -6,0% ANCIENNETE -36,0% -7,0% ESPACE -5,0% CONFORT -4,0% 73 JJ Croutsche UP 13 GEODE 2007-2008 83) Analyse discriminante Cette analyse est directement issue de l’analyse en composantes principales. Les variables traitées sont uniquement quantitatives. L’analyse discriminante permet de faire des typologies à caractère dichotomique (2 catégories de consommateurs : par exemple « acheteurs » et « non acheteurs »). Il suffit ensuite de définir des catégories et leurs caractéristiques. l'a ut eu r Axe 2 (13.0%) POLLUTION CONSOMMATION PERF_ENTRETIEN NOTE CONFORT VARIABLE_30 SECURITE ESTHETIQUE VITESSE Axe 1 (39.6%) Classe n° 1 TENUE DE ROUTE Classe n° 2 KILOMETRAGE DEPENSE ENTRETIEN SP EC IM EN ANCIENNETE de ESPACE La classe (1) regroupe des individus aux revenus plus faibles, qui possèdent des voitures anciennes. La classe (2) regroupe des individus aux revenus plus élevés, propriétaires de voitures plus sophistiquées, appartenant à des CSP plus élevées. 74 JJ Croutsche UP 13 GEODE 2007-2008 Elaboration de la carte typologique Axe 2 (13.0%) NOTE SECURITE POLLUTION CONSOMMATION PERF_ENTRETIEN ESTHETIQUE CONFORT VARIABLE_30 TENUE DE ROUTE l'a ut eu r conservateurs moins aisés VITESSE Axe 1 (39.6%) ESPACE progressistes aisés ANCIENNETE KILOMETRAGE DEPENSE EN de ENTRETIEN IM 84) Analyse des correspondances multiples SP EC Cette méthode est issue de l’analyse en composantes principales. Cette méthode permet de croiser de façon concomitante des variables qualitatives et quantitatives. Cette méthode offre des possibilités différentes. On réalise des cartes factorielles et on fait apparaître directement les modalités sur la carte. La proximité des modalités permet d’expliquer la carte factorielle. Pour que les cartes soient lisibles, il ne faut pas que le nombre de modalités ne soit trop important. En d’autres termes si une question représente en moyenne 5 modalités, on ne peut représenter que 4 ou 5 variables. On voit apparaître dans ce cas 25 modalités sur la carte. 75 JJ Croutsche UP 13 GEODE 2007-2008 Pour illustre cette méthode nous trois variables de l’enquête automobile : Possession automobile (soi même ou entreprise), sexe et la catégorie socioprofessionnelle. Le tableau de départ est un tableau de « Burt » qui résulte d’une matrice T (matrice booleéenne * par sa tranposée T’). Ce produit matriciel correspond à une matrice de variances-covariances que l’on appelle tableau de Burt. a) Nous élaborons le tableau de « Burt » (matrice carrée symétrique) La diagonale du tableau correspond aux tris à plat. Les autres valeurs symétriques par rapport à la diagonale représentent les tris croisés. A1 A2 A3 S1 S2 C1 C2 C3 C4 C5 C6 C7 C8 C9 - - 66 50 6 10 26 26 15 9 7 12 A2 - 7 - 2 0 1 6 0 0 0 0 0 0 A3 - - 29 8 21 1 1 0 0 0 3 16 5 3 S1 66 5 S2 50 2 21 5 8 79 - 6 8 19 - 73 1 4 13 20 6 0 1 6 1 7 - - C2 10 1 1 8 4 - 12 - C3 26 6 0 19 13 - - 32 C4 26 0 0 - - C5 15 0 0 12 3 - - - C6 9 0 3 6 - - - C7 7 0 16 11 12 - - - 6 20 6 C8 12 0 5 8 9 5 0 3 3 5 C9 - 3 6 11 8 3 6 12 9 5 - - - - - - - - - - - - - - - - - - - 26 - - - - - - 15 - - - - - - 12 - - - - - - 23 - - - - - - - - - - - 17 - - - 8 - EN b) Carte factorielle - 6 12 de C1 5 l'a ut eu r A1 116 SP EC IM Carte d’AFC multiples 76 JJ Croutsche UP 13 GEODE 2007-2008 Axe 2 (11.5%) Agriculteur Ouvrier Chomeur Inactif Commerçant, artisan Homme A vous Etudiant Autre Axe 1 (15.6%) Femme Employé A quelqu'un de votre famille l'a ut eu r Cadre A votre société de Les contributions permettent d’interpréter les axes factoriels. C’est principalement le premier axe qu’il faut expliquer (en général axe horizontal) car il explique le plus la variance. EN C’est toujours la proximité qui aide à l’interprétation : proximité entre les modalités, proximité avec les axes. Comme dans les études précédentes, on observe toujours une opposition sur les axes factoriels. IM On interprète le premier axe sans difficultés alors que le second axe s’interprète de façon plus délicate. EC Dans notre exemple, l’opposition cadre étudiant exprime une opposition revenu sur le premier axe factoriel : revenus faibles à droite et revenus plutôt élevés à gauche. Ceci est renforcé par les résultats du tableau de contributions. SP On observe par ailleurs que les cadres se déplacent plutôt dans des véhicules de société et les étudiants plutôt dans les véhicules de leur famille à savoir leurs parents. 77 JJ Croutsche UP 13 c) Tableau des contributions GEODE 2007-2008 Axe 1 (+15.6%) Axe 2 (+11.5%) CONTRIBUTIONS A quelqu'un de votre famille POSITIVES Etudiant +34.1% Ouvrier +19.1% +22.4% Agriculteur +11.1% Femme +6.6% Homme Autre +2.0% A vous +1.0% Inactif +1.3% Chomeur +0.8% Chomeur +0.3% Inactif +0.5% +10.1% +0.4% -9.6% A votre société -21.4% -6.3% Cadre -17.5% A votre société -5.6% Femme -11.0% A vous -5.6% Employé -6.6% Ouvrier -4.0% Autre -0.0% Commerçant, artisan -1.5% Agriculteur -0.7% CONTRIBUTIONS Cadre NEGATIVES Homme l'a ut eu r Etudiant AFC : croisement de marques, sexe et CSP Tableau de Burt M2 M3 M4 M5 M6 M7 M8 M9 M10 M11 M12 S1 S2 C1 C2 C3 C4 C5 C6 C7 C8 C9 31 - - - - - - - - - - - 15 16 1 1 7 8 1 1 6 5 1 M2 - 19 - - - - - - - - - - 8 11 2 1 3 5 2 0 3 3 0 M3 - - 19 - - - - - - - - - 10 9 1 1 3 2 3 1 4 3 1 M4 - - - 16 - - - - - - - - 7 9 0 1 3 3 0 1 3 3 2 M5 - - - - 12 - - - - - - - 5 7 1 3 0 1 1 4 1 0 1 M6 - - - - - 13 - - - - - - 7 6 1 0 0 3 2 2 2 2 1 M7 - - - - - - 2 - - - - - 1 1 0 0 1 0 0 0 1 0 0 M8 - - - - - - - 8 - - - - 6 2 0 1 6 0 0 0 0 0 1 M9 - - - - - - - - 7 - - - 6 1 0 2 4 1 0 0 0 0 0 M10 - - - - - - - - - 7 - - 4 3 0 1 0 2 1 1 1 1 M11 - - - - - M12 - - - - - S1 15 8 10 7 5 EN de M1 M1 8 9 7 6 1 2 1 3 1 7 - 73 1 4 13 20 3 6 12 9 0 1 1 0 0 0 0 0 1 6 1 7 - - - - - - - - 1 3 0 0 1 2 1 0 1 8 4 - 12 - - - - - - - 3 0 0 1 6 4 0 0 5 19 13 - - 32 - - - - - - 3 1 3 0 0 1 2 0 1 6 20 - - - 26 - - - - - 3 0 1 2 0 0 0 1 2 3 12 3 - - - - 15 - - - - 0 1 1 4 2 0 0 0 1 1 1 6 6 - - - - - 12 - - - 3 4 3 1 2 1 0 0 1 0 2 11 12 - - - - - - 23 - - - - 17 - - - - 8 0 - - - - 3 - 2 1 0 0 0 0 2 1 0 0 0 - - - - - 15 8 7 1 1 5 1 3 1 2 0 1 7 1 6 6 4 2 79 - 6 8 19 6 12 6 11 8 3 5 IM - - 16 11 9 1 2 1 C2 1 1 1 C3 7 3 3 C4 8 5 2 C5 1 2 C6 1 C7 6 C8 5 3 3 3 0 2 0 0 0 1 0 0 8 9 - - - - - C9 1 0 1 2 1 1 0 1 0 0 0 1 3 5 - - - - - SP EC S2 C1 78 JJ Croutsche UP 13 GEODE 2007-2008 Tableau de contributions (AFC : croisement de marques, sexe et CSP) Axe 1 (+7.97%) CONTRIBUTIONS Homme POSITIVES Cadre Axe 2 (+7.53%) +11.99% Chomeur +17.52% +10.44% Fiat +12.64% BMW +9.97% Ouvrier +12.63% Mercedes +8.72% Volvo +12.45% Ouvrier +4.83% Ford +4.01% Commerçant, artisan +4.37% Opel +1.67% CONTRIBUTIONS Employé NEGATIVES Femme -13.61% Cadre -18.00% -13.07% BMW -7.90% -4.67% Mercedes -3.62% Renault -3.33% Renault -3.62% Volkswagen -2.55% Toyota -1.36% Etudiant -2.53% Volkswagen -1.19% l'a ut eu r Inactif Carte factorielle (AFC : croisement de marques, sexe et CSP) Axe 2 (7.53%) Volvo de Chomeur Fiat Ford Ouvrier Opel Agriculteur EN Autre Femme Etudiant Employé Axe 1 (7.97%) IM Inactif Renault Autre Peugeot Cadre Mercedes Toyota BMW SP EC Volkswagen Commerçant, artisan Homme Citroën 79 JJ Croutsche UP 13 GEODE 2007-2008 Cette analyse confirme ce qui a été dit dans les analyses précédentes. On retrouve bien la même signification sur les axes ainsi que les mêmes regroupements d’individus. On observe toutefois que les hommes sont plus proches des voitures plus sophistiquées, les femmes utilisant vraisemblablement des voitures plus petites (secondes voitures). 9) Analyse lexicale L’analyse lexicale correspond au traitement des questions ouvertes (occurrences de mots). Elle permet également de procéder à des transformations de questions textes en variables multiples. On peut ensuite procéder à des croisements avec d’autres variables. de l'a ut eu r Les questions texte sont riches en informations et permettent aux répondants de s’exprimer librement. Elles permettent d’introduire ou de clore des thèmes afin de compléter une information trop dirigée par un questionnaire traditionnel. Ces questions ouvertes sont utilisées dans les préenquêtes et permettent après étude des thèmes de réaliser les questionnaires. Les informations recueillies dans le cadre des « focus groups » sont généralement traitées de cette façon. Dans les techniques classiques de traitements, on peut transformer une question ouverte texte en question à choix multiple. Il suffit pour ce faire de comptabiliser les thèmes aborder, en s’appuyant sur les mots répétés et utilisés dans les textes. Cette mise en est relativement aisée mais en perd une certaine forme d’informations. EN Il est préférable de passer par une analyse lexicale classique, laquelle permet d’approfondir les textes étudiés. IM Les logiciels d’études traitent de l’analyse lexicale. Ce type d’étude est relativement difficile et demande un travail de recherche élaboré. 91) Etude des mots les plus usités (traitement des occurrences) SP EC En analyse lexicale on peut en première instance s’intéresser à l’apparition des mots dans le texte. La répétition des mots, la fréquence, sont des éléments significatifs que l’on peut interpréter. On peut également s’intéresser à des groupes de mots, des segments, qui expriment des idées. Ces segments lorsqu’ils se répètent sont significatifs et doivent être étudiés. C’est ce que l’on appelle l’étude des segments répétés. A titre d’exemple, nous retenons la question ouverte de Sphinx relative à la « voiture idéale » de l’étude automobile. Nous purifions les données et nous 80 JJ Croutsche UP 13 GEODE 2007-2008 réduisons les mots au tableau suivant puis nous procédons à une représentation graphique : Valeurs Nb. cit. rapide 16,4% ( 24) confortable 11,6% ( 17) 6,8% ( 10) rouge 6,2% ( 9) économique 4,8% ( 7) sûre 4,8% ( 7) décapotable 4,8% ( 7) chère 4,1% ( 6) petite 4,1% ( 6) aérodynamique 3,4% ( 5) belle 3,4% ( 5) maniable 3,4% ( 5) Mercédes 3,4% ( 5) polluante 3,4% ( 5) cher 2,7% ( 4) limousine 2,7% ( 4) noire 2,7% ( 4) pleine 2,7% ( 4) Porsche 2,7% ( 4) spacieuse 2,7% ( 4) l'a ut eu r grande 2,7% ( 4) sport 100% (146) SP EC IM EN de TOTAL 81 JJ Croutsche UP 13 GEODE 2007-2008 rapide 24 confortable 17 grande 10 rouge 9 7 sûre 7 décapotable 7 chère 6 petite 6 aérodynamique 5 belle 5 maniable 5 Mercédes 5 polluante 5 4 limousine 4 noire 4 pleine 4 Porsche 4 spacieuse 4 sport 4 de cher l'a ut eu r économique EN 92) Elaboration du lexique (mots choisis sur l’ensemble des réponses) IM Liste des 22 mots marqués du lexique (avec les nombres d'occurrences et les nombres de réponses pour chaque mot) SP EC rapide confortable rouge décapotable économique sûre chère grande petite aérodynamique belle Occurrences 24 17 9 7 7 7 6 6 6 5 5 Réponses 24 17 9 7 7 7 6 6 6 5 5 82 JJ Croutsche UP 13 maniable Mercédes polluante cher Grosse limousine noire Porsche spacieuse sport allemande GEODE 5 5 5 4 4 4 4 4 4 4 3 2007-2008 5 5 5 4 4 4 4 4 4 4 3 93) Croisement 'VOITURE IDEALE' * 'POSSESSION' : Liste des mots spécifiques Nb. 2 (6,90) 1 (5,18) 1 (5,18) 1 (5,18) 1 (3,45) 1 (1,22) l'a ut eu r Non chère Porsche spacieuse sport petite confortable de Nb. 24 (*) 9 (*) 7 (*) 7 (*) 7 (*) 6 (*) 5 (*) 5 (*) 5 (*) 5 (*) 5 (*) 4 (*) 4 (*) 4 (*) 4 (*) 3 (*) 16 (0,99) 5 (0,88) 3 (0,79) 3 (0,79) 3 (0,79) 4 (0,70) SP EC IM EN Oui rapide rouge décapotable économique sûre grande aérodynamique belle maniable Mercedes polluante cher Grosse limousine noire allemande confortable petite Porsche spacieuse sport chère 83 JJ Croutsche UP 13 GEODE 2007-2008 94) 'VOITURE IDEALE' * 'POSSESSION' : Tableau lexical croisé Non 0 1 0 0 0 0 2 0 1 0 0 0 0 0 0 0 0 0 1 1 1 0 7 * 'POSSESSION' : Bilan pour chaque EN 95) 'VOITURE IDEALE' modalité SP EC IM Effectif de la catégorie Effectif ayant répondu Nombre total de mots Mot le plus fréquent Fréquence de ce mot Longueur moyenne Nombre de mots TOTAL 24 17 9 7 7 7 6 6 6 5 5 5 5 5 4 4 4 4 4 4 4 3 145 l'a ut eu r Oui 24 16 9 7 7 7 4 6 5 5 5 5 5 5 4 4 4 4 3 3 3 3 138 de MOTS / CAT rapide confortable rouge décapotable économique sûre chère grande petite aérodynamique belle maniable Mercédes polluante cher Grosse limousine noire Porsche spacieuse sport allemande TOTAL Oui 177 Non 26 Ensemble 203 87 5 143 138 7 145 rapide chère rapide 24 2 24 1,59 1,40 1,01 6 304 84 Pourcentage du corpus Pourcentage de lecture 2007-2008 0 0 0 6,27 1,17 0,48 95.2% 4.8% - 100.0% 28.3% - 24.6% 100.0% - 16 0 - 75.4% 0.0% - * 6 * 24.6% 6 * 100.0% * de Poids des 6 mots communs Nombre de mots exclusifs Poids des mots exclusifs INTERSECTION DES LEXIQUES 'Oui' 'Non' RECOUVREMENT DES CORPUS 'Oui' 'Non' GEODE l'a ut eu r JJ Croutsche UP 13 différents 22 Nombre de mots uniques Répétition moyenne 96) 'VOITURE IDEALE' : Index SP EC IM EN rapide 8 14 16 21 25 26 33 37 52 54 57 59 66 67 75 77 84 97 99 100 108 118 122 152 173 confortable 4 20 28 46 54 55 58 66 75 76 77 97 146 172 183 187 200 rouge 1 10 12 66 75 91 93 124 152 décapotable 16 26 37 105 106 135 186 économique 99 108 132 133 134 144 167 sûre 21 22 23 25 135 157 197 chère 64 124 126 145 172 173 197 grande 20 33 54 60 66 77 petite 1 75 84 121 127 172 183 aérodynamique 37 69 75 83 152 belle 36 46 76 151 163 maniable 10 12 21 23 25 Mercedes 5 53 56 147 163 polluante 60 83 102 129 130 cher 30 35 50 79 Grosse 97 118 128 178 limousine 2 6 49 102 85 JJ Croutsche UP 13 GEODE noire 38 39 49 56 Porsche 115 116 117 119 185 spacieuse 6 20 28 81 sport 115 117 123 158 allemande 157 163 197 2007-2008 97) Croisement voiture idéale et CSP (AFC) Nous croisons les mots évoqués dans voiture idéale et la variable CSP. Nous obtenons le tableau de contingence suivant : MOTS / CAT Non réponse Agriculteur Commerçant artisan rapide confortable Chomeur Etudiant 15,4% ( 4) 14,3% ( 1) 26,7% ( 4) 25,0% ( 8) 16,0% ( 4) 0,0% ( 0) 14,3% ( 1) 7,7% ( 1) 7,1% ( 1) 0,0% ( 0) 6,6% ( 24) 11,5% ( 3) 9,4% ( 3) 16,0% ( 4) 0,0% ( 0) 14,3% ( 1) 15,4% ( 2) 7,1% ( 1) 0,0% ( 0) 1,7% ( 17) rouge 11,5% ( 3) 28,6% ( 2) 13,3% ( 2) 0,0% ( 0) 20,0% ( 3) Cadre Employé Ouvrier Inactif Autre TOTAL 0,0% ( 0) 0,0% ( 0) 0,0% ( 0) 7,7% ( 1) 0,0% ( 0) 0,0% ( 0) 6,2% ( 9) 7,7% ( 2) 0,0% ( 0) 6,7% ( 1) 6,3% ( 2) 4,0% ( 1) 0,0% ( 0) 0,0% ( 0) 7,7% ( 1) 0,0% ( 0) 0,0% ( 0) 4,8% ( 7) économique 0,0% ( 0) 0,0% ( 0) 0,0% ( 0) 6,3% ( 2) 12,0% ( 3) 25,0% ( 1) 0,0% ( 0) 0,0% ( 0) 7,1% ( 1) 0,0% ( 0) 4,8% ( 7) sûre 0,0% ( 0) 0,0% ( 0) 0,0% ( 0) 9,4% ( 3) 4,0% ( 1) 25,0% ( 1) 14,3% ( 1) 0,0% ( 0) 7,1% ( 1) 0,0% ( 0) 4,8% ( 7) chère grande petite l'a ut eu r 3,1% ( 1) décapotable 7,7% ( 2) 0,0% ( 0) 0,0% ( 0) 0,0% ( 0) 0,0% ( 0) 0,0% ( 0) 28,6% ( 2) 7,7% ( 1) 7,1% ( 1) 0,0% ( 0) 4,1% ( 6) 11,5% ( 3) 0,0% ( 0) 6,7% ( 1) 0,0% ( 0) 8,0% ( 2) 0,0% ( 0) 0,0% ( 0) 0,0% ( 0) 0,0% ( 0) 0,0% ( 0) 4,1% ( 6) 3,8% ( 1) 14,3% ( 1) 4,1% ( 6) 0,0% ( 0) 0,0% ( 0) 4,0% ( 1) 0,0% ( 0) 0,0% ( 0) 15,4% ( 2) 7,1% ( 1) 0,0% ( 0) aérodynamiqu 7,7% ( 2) 0,0% ( 0) 6,7% ( 1) 6,3% ( 2) 0,0% ( 0) 0,0% ( 0) 0,0% ( 0) 0,0% ( 0) 0,0% ( 0) 0,0% ( 0) 3,4% ( 5) belle 0,0% ( 0) 0,0% ( 0) 0,0% ( 0) 4,0% ( 1) 0,0% ( 0) 0,0% ( 0) 0,0% ( 0) 7,1% ( 1) 0,0% ( 0) 3,4% ( 5) maniable 0,0% ( 0) 0,0% ( 0) 6,7% ( 1) 9,4% ( 3) 0,0% ( 0) 0,0% ( 0) 14,3% ( 1) 0,0% ( 0) 0,0% ( 0) 0,0% ( 0) 3,4% ( 5) Mercédes 0,0% ( 0) 0,0% ( 0) 0,0% ( 0) 0,0% ( 0) 4,0% ( 1) 0,0% ( 0) 14,3% ( 1) 7,7% ( 1) 7,1% ( 1) 50,0% ( 1) 3,4% ( 5) polluante 3,8% ( 1) 0,0% ( 0) 6,7% ( 1) 3,1% ( 1) 8,0% ( 2) 0,0% ( 0) 0,0% ( 0) 0,0% ( 0) 0,0% ( 0) 0,0% ( 0) 3,4% ( 5) cher 0,0% ( 0) 0,0% ( 0) 0,0% ( 0) 0,0% ( 0) 8,0% ( 2) 50,0% ( 2) 0,0% ( 0) 0,0% ( 0) 0,0% ( 0) 0,0% ( 0) 2,8% ( 4) Grosse 0,0% ( 0) 0,0% ( 0) 0,0% ( 0) 6,3% ( 2) 4,0% ( 1) 0,0% ( 0) 0,0% ( 0) 7,7% ( 1) 0,0% ( 0) 0,0% ( 0) 2,8% ( 4) limousine 0,0% ( 0) 0,0% ( 0) 0,0% ( 0) 6,3% ( 2) 4,0% ( 1) 0,0% ( 0) 0,0% ( 0) 7,7% ( 1) 0,0% ( 0) 0,0% ( 0) 2,8% ( 4) noire 3,8% ( 1) 14,3% ( 1) 0,0% ( 0) 3,1% ( 1) 0,0% ( 0) 0,0% ( 0) 50,0% ( 1) 2,8% ( 4) Porsche 0,0% ( 0) 0,0% ( 0) 0,0% ( 0) 3,1% ( 1) spacieuse 3,8% ( 1) 14,3% ( 1) 6,7% ( 1) 0,0% ( 0) sport 0,0% ( 0) 14,3% ( 1) 0,0% ( 0) 0,0% ( 0) allemande 0,0% ( 0) 0,0% ( 0) 3,1% ( 1) de 11,5% ( 3) 100% ( 26) 0,0% ( 0) 0,0% ( 0) 0,0% ( 0) 0,0% ( 0) 0,0% ( 0) 7,7% ( 1) 14,3% ( 2) 0,0% ( 0) 2,8% ( 4) 4,0% ( 1) 0,0% ( 0) 0,0% ( 0) 0,0% ( 0) 0,0% ( 0) 0,0% ( 0) 2,8% ( 4) 0,0% ( 0) 0,0% ( 0) 0,0% ( 0) 7,7% ( 1) 14,3% ( 2) 0,0% ( 0) 2,8% ( 4) 0,0% ( 0) 0,0% ( 0) 0,0% ( 0) 0,0% ( 0) 14,3% ( 2) 0,0% ( 0) 2,1% ( 3) 100% ( 7) 100% ( 15) 100% ( 32) 100% ( 25) 100% ( 4) 100% ( 7) 100% ( 13) 100% ( 14) 100% ( 2) 00% (145) 0,0% ( 0) EN TOTAL 0,0% ( 0) IM La dépendance est significative. chi2 = 230,96, ddl = 189, 1-p = 97,98%. Les cases encadrées en bleu (rose) sont celles pour lesquelles l'effectif réel est nettement supérieur (inférieur) à l'effectif théorique. EC Comme la dépendance est significative, nous pouvons procéder à l’élaboration d’une analyse des correspondances simples. SP Nous obtenons la carte factorielle suivante : 86 JJ Croutsche UP 13 GEODE 2007-2008 Axe 2 (20.6%) Autresport Inactif allemande Porsche Mercédes petiteEtudiant sûre chère économique Chomeur noire Ouvrier Grosse Agriculteur confortable limousine Axe 1 (24.6%) bellerapide cher Cadre Non réponse Employé rouge spacieuse maniable Commerçant, artisan polluante de grande l'a ut eu r décapotable aérodynamique EN D’autres approches sont possibles. Nous pouvons créer de nouvelles variables puis en les croisant avec d’autres variables nous réalisons des analyses de correspondances multiples. IM L’étude des segments répétés, la lemmatisation, les analyses de contenu nous permettent d’affiner les résultats obtenus dans les questionnaires. Un second croisement entre les mots les plus usités et les marques nous permet de faire ressortir les informations suivantes : SP EC * Les cadres, les professions commerçantes, les artisans, les employés sont attirés par les mots « chères », « grosses », « confortables », « limousines », « belles », « rapides », « spacieuses »…Ces individus se regroupent sur la partie inférieure du graphe. * Les inactifs et les autres évoquent les mots « sport », « cher », « allemandes », « Porsche », « Mercedes »…Ces individus se regroupent sur la partie haute du graphe. 87 JJ Croutsche UP 13 GEODE 2007-2008 * Les étudiants et les chômeurs sont attirés par les mots « petite », « noire », « chère »… Renault Peugeot Citroën Volks wagen voiture 11 4 2 2 1 6 2 1 1 1 0 31 rapide 3 3 0 2 1 2 0 4 4 0 0 19 confortable 2 3 2 0 3 1 2 0 2 0 0 15 rouge 1 1 1 1 1 2 0 1 1 0 0 9 Decapotable 2 1 1 0 0 0 0 2 0 0 0 6 économique 2 1 1 1 0 0 0 1 0 1 0 7 sûre 1 0 1 2 0 1 0 0 0 0 0 5 chere 2 0 1 0 1 2 0 1 0 1 0 8 grande 1 1 0 0 1 0 1 0 1 0 0 5 petite 0 0 1 0 0 2 1 0 0 0 0 4 aérodynamiqu 1 0 1 0 1 1 0 0 0 0 0 4 54 28 32 54 27 36 10 14 12 11 2 280 maniable 1 0 0 1 0 1 0 0 1 0 0 4 Mercedes 1 1 0 3 0 0 0 0 0 0 0 5 polluante 2 0 1 0 1 0 0 1 0 0 0 5 grosse 1 0 0 1 0 0 limousine 1 1 1 0 0 0 noire 0 1 1 2 0 0 86 45 46 69 37 54 belle TOTAL Fiat Ford Toyota BMW Mercedes Opel Volvo TOTAL l'a ut eu r Valeurs 0 1 1 0 0 4 0 1 0 0 0 4 0 0 0 0 0 4 16 27 23 14 2 419 SP EC IM EN de L’analyse factorielle des correspondances nous permet d’associer les mots les plus usités aux différentes marques : 88 JJ Croutsche UP 13 GEODE 2007-2008 Axe 2 (22.66%) grande petite Toyota confortable voiture Peugeot aérodynamique Mercedes Renault Fiat maniable Ford rouge belle Citroën rapide chere Axe 1 (27.35%) polluante Opel Volvo limousine BMW grosse l'a ut eu r Volkswagen sûre économique Decapotable noire de Mercedes EN * On observe sur ce graphe que BMW est proche de « limousine », de « grosse », de « rapide », de « décapotable ». * Volkswagen et mercedes sont proches de « sûre » de « noire ». IM * Volvo, Opel, Citroen sont proches de « belle », « aérodynamique ». EC * Toyota est proche de « confortable ». SP Les attirances entre les mots expriment des liens et permettent des regroupements d’individus. 89 JJ Croutsche UP 13 GEODE 2007-2008 9) Réalisation de l’enquête automobile sur SPHINX Etude à réaliser à titre d’entraînement. Enquête automobile de SPHINX Le logiciel SPHINX se télécharge sans difficulté sur Internet. Cette version de démonstration n’est pas exploitable commercialement mais les enquêtes qui sont intégrées au logiciel peuvent être traitées statistiquement. Ces enquêtes présentent des difficultés et des pièges que vous devez être capable de déjouer. 1ère partie : échantillon, offre et demande… 1) Réflexions générales sur la taille de l’échantillon dans l’enquête proposée « Automobile » l'a ut eu r 2) Commentaires sur les risques d’interprétation 2ème partie : traitements statistiques et synthèse générale 1) Etude des tris à plat (toutes les questions) : tableau de données, intervalles de confiance, graphe, Khi² quand c’est nécessaire sur les comparaisons de fréquences avec interprétation. de 2) Etude des questions ouvertes (analyse lexicale) IM EN 3) Etude des tris croisés simples * Régressions et corrélations (croisement de variables quantitatives (6 corrélations significatives) : graphes, équation de régression, coefficient de corrélation linéaire et interprétation. * Khi² (croisement de variables qualitatives, analyse des correspondances simples) (6 croisements significatifs) : tableau de contingence avec les khi², les indications relatives au test, histogramme empilé, l’AFC et l’interprétation du premier axe factoriel et du graphe dans sa globalité. SP EC 4) Etude des tris croisés multiples * Régressions et corrélations multiples (3 modèles) matrice de corrélation, diagramme et graphe des corrélations, équation de régression première, équation de régression avec méthode pas à pas. * Analyse en composantes principales (typologies) (1 analyse) matrice des corrélations, graphe des corrélations, carte ACP, Carte ACP + typologie, interprétation axe F1, tableau de contributions. * Analyse en composantes des moyennes, matrice des corrélations, graphe des corrélations,ACP, contributions, interprétation. * Analyse des correspondances multiples (3 analyses) Tableau de Burt, carte factorielle, interprétation axe 1, tableau de contributions. 90 JJ Croutsche UP 13 GEODE 5) Synthèse des conclusions de l’étude 2007-2008 Conclusion Ces premières approches permettent en première instance d’explorer les données. Ces analyses sont dites exploratoires. Elles aident à la construction de modèles. Pour aller plus loin, il faut pouvoir valider les modèles en confirmant les modèles élaborés. On utilise dans ce cas les « modèles confirmatoires » élaborés à partir de modèle d’équations structurelles. Les modélisations s’appuyant sur les progiciels tels LISREL, PLS ou plus récemment SPHINX permettent entre autres de procéder à ce type d’analyses. l'a ut eu r Bibliographie Bibliographie générale SP EC IM EN de ABBOUD N. ET AUDROING JF., Probabilités et inférences statistiques ANGERS C., Les statistiques, Ed. Agence d’ARC, 1991 Ottawa. BIALES C., Analyse statistique des données, Chotard et associés,1988. BOURBONNAIS R. et USUNIER JC., "Pratique de la prévision des ventes", Economica 1992. BOURSIN JL., Statistiques, Vuibert Gestion, 1981. BOX GEP. ,JENKINS GM.,Times series analysis forecasting and control, San Francisco, Holden-day, 1976. BROWN RG. Smoothing, forecasting and prediction of discrete time series, Englewood Cliffs, Prentice-Hall, 1962. BROWN RG. Statistical forecasting for inventory control, New-York, Mc Graw-Hill, 1959. CALOT G., Cours de statistiques descriptives, Donod, 1975. CALOT G., Cours de calcul des probabilités, Dunod, 1976. CHATFIELD C., The analysis of time series : theory and pratice, London,Chapman and Hall, 1985. CRAUSER JP., Guide pratique d’analyse des données, Ed. d’organisation, CROUTSCHE JJ., « Marketing opérationnel : liaisons et interfaces dans l'entreprise » ESKA 1993. CROUTSCHE JJ., « Marketing & Business » ; ESKA ; 2007. CROUTSCHE JJ. « GEMINI : Vers un modèle décisionnel systémique en analyse transversale de l'entreprise et de ses environnements », Publication CRIEGE CNRS 1994 DE MARICOURT R., La prévision des ventes, Puf gestion, 1985. GIARD V., Statistiques appliquées à la gestion, Economica, 1985. GRAIS B., "Methodes statistiques", Dunod, 1977. GRAIS B., Statistique descriptive, Dunod, 1976. HERMAN J., Traitements d’enquêtes, Méthodes et programmes. 91 l'a ut eu r JJ Croutsche UP 13 GEODE 2007-2008 JENKINS GM., Pratical Experience with modeling and forecasting time series, St Hélier, GJP publications 1979. JORGENSON DW., "The predictive performance of econometric models and quarterly invetment behavior", Econometrica, mars 1970. KAUFMAN H. et GROSBOILLOT JL., "Les techniques de la prévision à court terme", Dunod, 1974. KENDALL M., STUARD A. et ORD JK.,"The advanced theory of statistics, Griffin & co, 1983. KOTLER P. et DUBOIS B., "Marketing Management", Publi-Union 1991. LEWANDOWSKI R., "La gestion prévisionnelle à court terme" Donod, 1982. LONG-MICHET, Pratique des tests -Interprétation des résultats, Ed. Dulo. MAKRIDAKIS S., et al., "The accuracy of extrapolation (time series) methods : results of a forecasting competition ", Journal of forecasting, April, June 1982. MAKRIDAKIS S., WHEELWRIGHT S.S., McGEE VE., "Forecasting : method and applications, New-York, Wiley, 1983. MALINVAUD E., "Méthodes statistiques de l'économétrie", Paris, Donod 1978. MARICOURT R. (de), "La prévision des ventes", PUF 1985. MASIERI W., Statistiques et calcul des probabilités, Sirey, 1988. de MENTHA G., « Les tests statistiques au service des affaires », Ed. Hommes et Techniques 1958. SALOMON M., NAHON.G., "L'élaboration des prévisions de marché"Dunod, 1977. SAVATORE D., Econométrie et statistiques appliquées, Schaum, 1985. SAPORTA G.,Probabilités analyse des données et statistiques Ed. Technip, 1990. TASI P., Méthodes statistiques, Economica, WHEELWRIGHT SC., et MAKRIDAKIS S., "Méthodes de prévision pour la gestion, EO. 1985. ZOUHAD R., VIVIANI JL. et BOUFFARD F., Mathématiques, Dunod, 1991. EN Bibliographie spécifique à l’analyse multivariée. SP EC IM Ackoff R.L., Scientific method (J. Wiley and sons, Inc, New York 1962 p 179. Anderson T.W., Introduction to Multivariate Statistical Analysis (John Wiley and Sons, Inc 1958. Arker R.G. "Exploration in Ecological psychology" American psychologist, vol 20 janvier 1965. Bagozzi R.P. ( 1977), Structural Equation Models in Experimental Research, Journal of Marketing Research, 14. Bagozzi R.P. et Fornell C. (1982), Theorical Concepts, Measurements, and Meaning, in A secon Generation of Multivariate Analysis : Measurement and Evaluation, C; Fornell (ed) ,New York. Bagozzi R.P., Causal Models in Marketing, Wiley and Sons, 1980. Bass F.M. et Talarzyk W.W. (février 1972), An Attitude Model for the Study of Brand Preference, Journal of Marketing Research, vol 9, pp 93,98. Beane T.P. et Ennis D.M. 1989, Recherche et Applications en Marketing vol 4 n° 3/89. Berent P.H. "the Depth interview " Journal of advertising Research vol 6 (juin 1966) pp32 à 39. 92 SP EC IM EN de l'a ut eu r JJ Croutsche UP 13 GEODE 2007-2008 Bishop Y.,Fienberg S. et Holland P.,(1975), Discrete Multivariate Analysis : Theory and Pratice, The MIT Press. Bon J., et Grégory P., Techniques Marketing, Vuibert Gestion, 1986. Borg I. et Lingoes J.C. (1980), A Model and Algorithm for Multidimensional Scaling with Bouroche JM., L’analyse des données en marketing, Masson, 1977. External Constraints on the Distances, Psychometrica,45. Cailliez F.et Pages JP., Introduction à l’analyse des données, Smash, 1976. Christensen L. Experimental Methodology, 2° ed. Boston, Massachusetts : Allyn and Bacon, 1980, p 6. Churchill G; et Peter J, (1984) Research Design Effects on the Reability of Rating Scales: Journal of Marketing Research (novembre) pp 360, 375. Churchill G; "Construct Validity : A Review of Basic Issues and Marketing Practices" Journal of Marketing Research mai 1981 p 137 Clogg C.C. (1981), New developments in Latent Analysis, Jackson and Borgetta (eds) Factor Analysis and Measurement in Sociological Research : A multidimensional Perspective, Sage Publications, pp 215-246. Cooley W.W. et Lohnes P.R. Multivariate Procedures for the Behavioral Sciences (John Wiley and Sons, Inc, New York, 1962. Coombs C.H., H. Raiffa, R.M. Thrall, "mathematical models and measurement theory" in decision processes J.W. and Sons, Inc, New york, 1954. Coombs C.H., A theory of data (J. Wiley et Sons Inc.. New York 1964). Coombs C.H. "Psychological scaling without a unit of measurement ", psychological review, vol 57 (1950) pp 145, 158. Cronbach L.J. "coefficient Alpha and the International Structure of Tests", Psychometrica, Septembre 1951, pp 297-334. Croutsche JJ., « Réflexion méthodologique sur l’élaboration de modèles d’équations structurelles dans les recherches de causalité », Publication CRIEGE-CNRS, Paris, 1995. Croutsche JJ., « Méthodologie de recherche en marketing et gestion », Publication CRIEGE-CNRS , Novembre 1993. De Lagarde J., Initiation à l’analyse des données, Dunod, 1983. Diday E., Lemaire J., Pouget J., Testu F., Eléments d’analyse de données, Dunod, 1982. Dillon W.R., Madden T.J. MULANI N., (1983°, Scaling Models of Categorical Variables : An Application of Latent Structure Models, Journam of Consumer Research, 10,2, pp 209-234. Evrard Y., Pras B., Roux E., Market, 2tudes et recherches en Marketing, Nathan, 1993. Fenelon JP. Qu’est-ce que l’analyse des données?, Lefonen, 1981. Fornell C. et Denison D.R. (1982), A New Approach to Nonlinear Structural Modeling by Use of Confirmatory Multidimentionnal Scaling, in a second generation of multivariate Analysis : Methods (ed) , New York, Praeger, pp 367, 392. Fornell C. (juillet 1978), Three Approaches to Canonical Analysis, Journal of the Market Research Society, vol 20, pp166, 181. Fornell C. A Second Generation of Multivariate Analysis, Vols 1 et 2, Praeger, 1982. Fornell C. et Larcker D., Evaluation Structural Equation Models with Unobservable Variables and Measurement Error, Journal of Marketing Research, 1981. Green et Tull Recherches et décisions marketing PUG 1974. Green P.E., Halbert M.H., Robinson P.J. "Canonical Analysis : An Exposition and Illustrative Application", Journal of Marketing Reaserch, vol 3 (février 1966), pp32, 39. Joachimsthaler E.A. et Lastovicka J.L., Optimal Stimulation Level-Exploratory Bahavior Models, Journal of Consumer Research, 11, 1984. 93 SP EC IM EN de l'a ut eu r JJ Croutsche UP 13 GEODE 2007-2008 Johnson. R.M (février 1971), Market Segmentation : A Strategic Management Tool, Journal of Marketing Research, vol 8, pp 13, 19. Joreskog K.G. (1967), Some Contributions to Maximum Likelihood Factor Analysis, Psychometrika, 32, pp 443-482. Joreskog K. et Sorbom D.,(1983), LISREL 6 : Analysis of Linear Structural Relationships by Maximum Likelihood and Least Squares Methods, Chicago, Scientific Software. Haire M. "Projective techniques in marketing reseach" Journal of marketing vol 14 avril 1950. Helfer J.P., Kalika M. (1988), La cohérence interne dans les enquêtes par interview, Recherches et Applications Marketing, vol 3, n°1. Kahle L., Social Values and Social Change : Adaptation to life in America, Praeger 1983. Kallenberg A. et Kluergel J.R. "analysis of the Multitrait-Multimethod Matrix", Journal of Marketing Research, février 1975. Kendall M.G. A Course in Multivariate Analysis, (Hafner Publishing Company, New York, 1965. Krugman H.E. "the draw a supermarket technique" Public opinion quaterly vol 24 1960 pp 148,149. Lambert Z.V. et Durand R.M. (novembre 1975) Some Precautions in Using Canonical Analysis, Journal of Marketing Research, vol 12, pp 468, 475. Lehmann D. Market Research and Analysis, Homewood, 3.: Richard D. Irwin, 1979. Lohmoller J.B., LVPLS : Latent Variables Path Analysis with Partial Least Square Estimation, University of the Federal Armed Forces, 1981. Lorie J.H. et Roberts H.V. basic methods of marketing research ( Mc Graw Hill B.C. New York 1951 p211. Massy W.F. "On Method : Discriminant analysis of Audience Characteristics" Journal of Advertising Reaserch, vol 5 (mars 1965) pp39, 48. Moscarola J., Enquêtes et analyse de données, Vuibert gestion, 1990. Myers J.H. et Tauber E., (1977), Market Structure Analysis, Chicago, American Marketing Association, pp68, 90. Morrison D.G. (mai 1969) On The Interpretation of Discriminant Analysis, Journal of Marketing Research, vol 6 pp156,163. Newman J.W., Motivation research and marketing management (Harvard U.G.S.of B.A..) Cambridge 1957, pp227, 228. Nunnaly J., Psychometris Theory, McGraw-Hill, 1978. Osgood C.E., Suci G.J. et Tannenbaum P.H, the measurement of meaning (University of Illinois Press, Urbana Illinois, 1957). Perrien J., Chéron J., Zins M., (1984), Recherches en Marketing, méthodes et décisions, Gaëtan Morin éditeur. Peter J.P. (1981), Construct Validity : a review of basic issues and Marketing Practices, J.M.R. mai. Roehrich G. et Valette-Florence P., Besoin de stimulation, innovativité, implication et valeurs; 1986. Roehrich G. et Valette-Florence P., A la recherche des causes individuelles de l’achat des produits nouveaux, Actes du 14ème séminaire de Recherche en Marketing, La Londe-les-Maures, 1987. Rokeach M., Beliefs Attitudes and Values, Jossey-Bass, 1968. Rokeach M., The Natur of Human Values, Free-Press, 1973. Russell et Ackoff : Optimisting applied research decisions J.Wiley and Sons New York 1962. 94 SP EC IM EN de l'a ut eu r JJ Croutsche UP 13 GEODE 2007-2008 Savage LJ "the theory of statistical decision " J of the A; statistical association vol 46 mars 1951. Shepard R.N "the analysis of proximities : multidimensional scaling with an unknow distance function , psychometrika vol 27; 1962; pp 125, 139. Schreier F.T., Modern marketing research : A behavior sciences approach (Wadsworth publishing Company, Belmont, California 1963. Schlaifer R. probability and statistics for business decision Mac Craw Hill Book Company New York 1959. Spearman C. (1904), General Intelligence Determined and Mesured , American Journal of Psychology, 15, pp201-293. Stewart D. et Love W., A General Canonical Correlation Index, Psychological Bulletin, 70, 1968. Stone M. Cross-Validity Choice and Assessment of Statistical Prediction, Journal of the Royal Statistical Society, B 36, 1974. Taylor, J. (1971), Management experience With Applications of Multidimensional Scaling Methods, Working paper, Marketing Science Institute, pp 71, 120. Thurstone L. (1931) Multiple Factor Analysis, Psychological Review, 38, 406-427. Valette-Florence P. (1988), Spécificités et apports des méthodes d'analyse multivariée de la deuxième génération, Recherches et Applications Marketing, vol 3 n°4. Valette-Florence P. (1987), A second Generation of Multivariate Analysis : Contributions and Applications for Marketing Research, the 40 th. ESOMAR Marketing Research Congress 225-253. Valette-Florence P., Analyse structurelle comparative des composantes des systèmes de valeurs selon Kahle et Rokeach, Recherches et applications Marketing, vol. 3 n°1, 1988. Valette-Florence P.(1988), L'implication, variable médiatrice entre styles de vie, valeurs et modes de consommation, Thèse de doctorat ès sciences de gestion, ESA, Université des Sciences Sociales de Grenoble. Valette-Florence P. et Jolibert A. et Arellano R., Le comportement du consommateur d’énergie domestique : une analyse causale, 4ème congrès de l’association Française du Marketing, vol.4, 1988. Valette-Florence P. et Roerich G. (1987), Alternative Measurement Methods in Causal Modelling, Marketing Science Conference, TIMS/ORSA, Centre HEC-ISA, juin 1987. Valette-Florence P. et Roerich G., «Une approche causale du comportement d’achat innovateur», Ecole supérieure des affaires, Université des sciences sociales de Grenoble 1986. Valette-Florence P. et Rapacchi B. (1988), Une application concrète de l'analyse structurelle selon les moindres carrés partiels dans une optique classificatoire, colloque de l'Association française du Marketing, Montpellier 1988. Valette-Florence P. et Rapacchi B. Analyse strucrurelle et analyse typologique : illustration d’une démarche complémentaire, Recherches et applications marketing, vol 5, n° 10, 1990. Védrine J.P., Techniques quantitatives de gestion, Vuibert, 1985. Vernette E. L'efficacité des instruments d'étude : évaluation des échelles de mesure Recherches et Applications Marketing, vol 6 N°2 1991. Volle M., Analyse des données, Economica, 1981. Torgerson W.S., theory and methods of scaling J.Wiley and sons Inc, 1958. Weiss E.H., Increasing sales through advertising based on human motivations Advertising Agency Chicago 1954 pp 6,7. 95 Bibliographie spécifique conceptualisations aux l'a ut eu r JJ Croutsche UP 13 GEODE 2007-2008 Wild A.R. et McCann J.M. (août 1980) A regression Model for Market Segmentation studies, Journal of Marketing Research, vol. 17, pp 335, 340. Wold H. (1975), Path Models with Latent Variables : The Nipals Approach, in Quantitative Sociology : International Perspective on Mathematical and Statistical Modeling, H.M. Blalock et ala; (eds) New York, Academic Press, 307-357. Wold H. (1986) Theorical Empirism : A General Rational for Scientific Model-Buildings, Paragon House. Wold H. The Fixed Point Approach in Interdependant Systems, Amsterdam, North Holland Publishing and Co., 1981. Wold H., Soft Modeling : the Basic Design and Some Extensions, in., Joreskog K. and Wold H., eds., Systems Under Indirect Observation : Causality, Structure, Prediction, 2, 1-54, North-Holland, 1982. Zinnes J.L. et Macckay D.B. (1983), Probabilistic Multidimensionnal Scaling : Complete and Incomplete Data, Psychometrika, 48, 27-48. Worcester R.M. et Downham J. (1978) Consumer Market Reasech Handbook, New York, Van Nostrand Reinhold Company. Yuong G. et Householder A.S "Discussion of a set of points in terms of their mutual distances" psychometrika vol. 3 mars 1938 pp 19, 22. approches intégrant de nouvelles SP EC IM EN de Aurifeille JM., Contribution de l’analyse neuronale à la modélisation des comportements de consommation, Actes de l’Association de Marketing, vol. 10, 1994. Bernard Cohen I., « Revolution in Science », Cambridge, Mass, Belknap Press, 1985. Croutsche JJ., « Réflexions sur une utilisation possible de la théorie du Chaos en marketing et gestion », CRIEGE-CNRS 1995. Devaney R.L., An Introduction to Chaotic Dynamical System, Menlo Park : BenjaminCummings, 1986. Feigenbaum, « Quantitative Universality for a class of Nonlinear Transformations », Journal of Statistical Physics, N° 19, 1978, pages 25 et suivantes. Feigenbaum, « Universal Behavior in Nonlinear Systems », Los Alamos Science, N° 1, 1981, pages 4 et suivantes. Gleich J., « Chaos : Making a new Science (New-York : Viking Press, 1987) Kuhn, « The Structure of Scientific Revolution », Chicago Press, 1970 (traduction française : La structure des révolutions scientifiques, Flammarion, 1983). Lorenz, « Determinist Nonperiodic Flow », Journal of the Atmospheric Sciences N° 20, 1963, pages 130 et suivantes. Lorenz, « The Mechanics of Vacillations », Journal of the Atmospheric Sciences N° 20, 1963, pages 448 et suivantes. Lorenz, « The Problem of Deducing the Climate from the Governing Equation », Tellus, N° 16, 1964, pages 1 et suivantes. Lorenz, « Predictability : Does the Flap of a Butterfly’s Wings in Brazil Set Off a Tornado in Texas », présentation de la rencontre annuelle de l’American Association for the advancement of Science, Washington, 29/12/1979. Mandelbrot B., Les objets fractals, Nouvelle bibliothèque scientifique, Champs Flammarion 1989. Mandelbrot B., The Fractal Geometry of Nature, New-York, Freeman, 1977. 96 SP EC IM EN de l'a ut eu r JJ Croutsche UP 13 GEODE 2007-2008 Mandelbrot B., « On Fractal Geometry and a Few of the Mathematical Questions It Has Raised », Proceedings of the International Congress of Mathematicians, 1416 août 1983, Varsovie, pages 1661 et suivantes. Morris Kline, Mathématiques : la fin de la certitude, Paris, Bourgois, 1989. Poincaré H., Science et méthode, Flammarion, Paris 1914. Ruelle D., « Strange Attractors », Mathematical Intellgencer, N° 2, 1980, pages 126 et suivantes. Ruelle D., Takens F., « On the Nature of Turbulence », Communications in Mathematical Physics, N° 20, 1971, pages 167 et suivantes. Sander L.M., « Fractal Growth Process » Nature N° 322, 1986, pages 789 et suivantes. Saltzman B., « Finite Amplitude Convection as an Initial Value Problem », Journal of the Atmospheric Sciences, N° 19, 1962, p. 329. Schuster H.G., Deterministic Chaos : an Introduction, Weinheim, Physik-Verlag, 1982. Schwenk T., Sensitive Chaos, New-York, Schocken Books, 1976. Sparow C., The Lorenz Equations, Bifurcations, Chaos, and Strange Attractors, SpringerVerlag, 1982. Stewart I., Dieu joue-t-il aux dés? Les mathématiques du chaos? Champs Flammarion 1994. Stewart I., Les fractals, Paris, Belin, 1982. Stewart H.B. et Thompson J.M., «Nonlinear Dynamics and Chaos», Chichester, Wiley, 1986. Thompson J.M.T. et Stawart H.B., Nonlinear Dynamics and Chaos, New-York, John Wiley, 1986. Valette-Florence P., Roerich G., Serieys M., Bifurcation ou continuité : test préliminaire d’un modèle de catastrophes, Actes de l’Association française de Marketing, vol. 10, 1994. Voss R., «Random Fractal Forgeries : From Mountains to Music», Science and Uncertainty, Sara Nash Ed. Londres, IBM Royaume-Uni, 1985. Wiener N., «Nonlinear Prediction and Dynamics», Collected Works with Commentaries, P. Masani, éd. Cambridge, Mass, MIT Press, 1981, vol. 3 p. 371. Wolf A., «Simplicity and Universality in the Transition to Chaos», Nature, N0 305, 1983, p. 182. 97