Mesures de Marché - Marketing Industriel B to B

Transcription

Mesures de Marché - Marketing Industriel B to B
JJ Croutsche UP 13
GEODE
2010
Jean-Jacques Croutsche
l'a
ut
eu
r
Méthodes d’Evaluation
des Marchés
et de
la Concurrence
Approches
SP
EC
IM
EN
de
Quantitatives
et
Qualitatives
1
JJ Croutsche UP 13
GEODE
2007-2008
Introduction
Ce cours a pour objectif d’aider les étudiants, les praticiens et les
chercheurs à réaliser des études de marché. La constitution des bases de
données à partir d’échantillons, les traitements statistiques sont réalisés
sur SHINX, progiciel adapté à une utilisation facile et opérationnelle des
données quantitatives et qualitatives. De nombreux illustrent les méthodes
de calculs. En reprenant mes ouvrages fondamentaux, les étudiants
pourront approfondir leurs connaissances en reprenant les algorithmes
traités et illustrés à partir de nombreux exemple.
l'a
ut
eu
r
Mieux, les étudiants pourront télécharger SPHINX et travailler sur les
bases de données proposées par le concepteur du logiciel.
Des études et leurs corrigés sont également proposés dans le cadre du
cycle d’étude.
Par ailleurs, ce cours doit être complété par une lecture approfondie de
mon ouvrage intitulé : « Pratique de l’Analyse des Données » édité chez
ESKA.
de
Cet ouvrage vous permettra d’entrer dans les algorithmes et de mieux
comprendre les méthodes utilisées dans SPHINX.
SP
EC
IM
EN
JJ. Croutsche
2
JJ Croutsche UP 13
GEODE
2007-2008
Plan de l’ouvrage
1) Présentation de l’entreprise par rapport à ses environnements
11) Les environnements de l’entreprise
12) Variables MIX
2) Le marché de l’entreprise (définitions)
21) Le marché : approche économique
22) Appréhension qualitative et quantitative des marchés
(définitions marketing)
3) Les types d’études de marché
31) Passages obligés et étapes nécessaires au choix optimal d’une étude
32) Présentation des différentes formes d’études
de
5) Elaboration du questionnaire
51) Questions fermées
52) Questions ouvertes
53) Les échelles d’attitudes
54) Les types d’enquêtes
l'a
ut
eu
r
4) Construction de l’échantillon
41) Définitions et méthodes possibles
42) Méthode des quotas (non probabiliste)
43) Méthodes aléatoires
44) Taille de l’échantillon et erreur acceptée
45) Sondages sur populations réduites (exhaustifs)
IM
EN
6) Etude des traitements statistiques élémentaires (tris plats)
61) Type de variable
62) Traitements des variables quantitatives
63) Traitement des variables qualitatives
64) Utilisation de Khi 2 (Pearson) sur l’étude d’une variable nominale
SP
EC
7) Etude de relations entre deux variables (tris croisés simples)
71) Le croisement des variables quantitatives : la méthode des moindres
carrés (ajustement linéaire)
72) Application SPHINX : Etude automobile ; relation des variables
« dépenses » et « kilométrage »
73) Croisement des variables qualitatives (nominales) : Test de Khi² et
analyse des correspondances simples (croisement de deux variables)
74) Croisement sur sphinx des variables CSP et Marques (étude
automobile)
8) Etude de relations entre plusieurs variables (tris croisés multiples)
81) Régressions et corrélations multiples
82) Analyse en composantes principales
3
JJ Croutsche UP 13
GEODE
83) Analyse discriminante
84) Analyse des correspondances multiples
2007-2008
9) Analyse lexicale, traitement des questions ouvertes,
transformation en variables multiples et croisements avec d’autres
variables
91) Etude des mots les plus usités (traitement des occurrences)
92) Elaboration du lexique (mots choisis sur l’ensemble des réponses)
93) Croisement 'VOITURE IDEALE' * 'POSSESSION' : Liste des mots
spécifiques
94) 'VOITURE IDEALE' * 'POSSESSION' : Tableau lexical croisé
95) 'VOITURE IDEALE' * 'POSSESSION' : Bilan pour chaque modalité
96) 'VOITURE IDEALE' : Index
97) Croisement voiture idéale et CSP (AFC)
Conclusion
SP
EC
IM
EN
de
l'a
ut
eu
r
Etude de cas
4
JJ Croutsche UP 13
GEODE
2007-2008
1) Présentation de l’entreprise par rapport à ses
environnements
l'a
ut
eu
r
Les environnements constituent le point de départ de l’analyse des
potentialités de l’entreprise. Les prévisions économiques, en termes de
marchés et de concurrence, permettant à la firme de prévoir ses propres
parts de marché.
Une réflexion transversale, nous permet en cheminant par les grandes
fonctions de l’entreprise, d'aboutir au financement des investissements, de
l'expansion et de la croissance. La prise en compte des interfaces entre les
différentes fonctions, l'utilisation des différents outils du management,
nous permettent d'élaborer un Marketing orienté vers un réel
développement commercial. Cette forme de marketing prend en compte les
interrelations entre les environnements de l'entreprise et son milieu
interne, à savoir :
11) Les environnements de l’entreprise
de
- Les marchés, la concurrence,
- Les aspects macro et micro-économiques environnementaux,
- L'évolution des produits de l'entreprise
- Les aspects financiers internes et externes,
- L'évolution des actifs financiers de l'entreprise, résultat de sa
croissance,
- Les investissements de la firme au travers de ses différentes
orientations stratégiques,
- Les financements en regard des impératifs d'activité, de rentabilité
et
d'équilibre financier.
EC
IM
EN
Marchés
Actifs financiers
Concurrence
EQUILIBRE
Financement de la croissance
SP
Une réflexion en termes de système, nous permet d'envisager deux
niveaux de transversalité :
* Un premier niveau stratégique dans lequel les environnements et
l'entreprise
sont traités de façon transversale permettant d'aboutir à des
actions stratégiques potentielles. Ce premier niveau peut être présenté
graphiquement de la façon suivante :
5
JJ Croutsche UP 13
GEODE
2007-2008
Environnements institutionnels et
politiques
Environnements
technologiques
l'a
ut
eu
r
Environnements socio-culturels
Marchés
Concurrences
EN
de
ENTREPRISE
EC
IM
Actions Marketing potentielles
SP
D’un point de vue marketing, l’entreprise se situe au centre des
environnements. Elle a ses objectifs stratégiques (long terme,
financièrement importants) et tactiques (court terme de moindre
importance).
L’entreprise proprement dite dispose de leviers de commandes marketing.
On les appelle les variables du Marketing MIX.
12) Variables MIX
6
JJ Croutsche UP 13
GEODE
2007-2008
Ces variables sont les suivantes :
-
Le Produit ou le Service (ce que l’on apporte au consommateur
ou à l’entreprise)
Le Prix (ce qu’accepte de payer le consommateur ou l’entreprise)
La Distribution (GMS, Distribution en direct, Internet,
marchés…)
La Force de Vente (commerciaux : Marketing B to B)
La communication (publicité, façon de faire connaître le
produit : Internet)
Pour que le système fonctionne, c'est-à-dire que les produits soient
acceptés par les consommateurs et utilisateurs, il faut respecter une
cohérence entre ces variables.
Exemple :
l'a
ut
eu
r
Si on veut vendre un produit haut de gamme, il faudra que la technologie
soit sophistiquée. Le prix sera en conséquence : élevé. Le système de
distribution sera spécialisé, ciblé sur une clientèle par exemple à plus haut
revenu. En termes de communication, nous utiliserons des supports qui
correspondent à la cible à satisfaire.
de
C’est en respectant les liens et les logiques entre ces variables, que l’on
peut définir correctement et avec toutes les chances de succès une
stratégie voire une politique marketing.
l’entreprise
(définitions
EN
2)
Le
marché
de
économiques et marketing)
IM
21) Le marché : approche économique
Le marché est défini dans l'approche économique comme l'intersection
entre l'offre et la demande. Nous étudierons successivement ces deux
concepts.
EC
A) La demande
Envisagée d'un point de vue individuel, le consommateur a des
intentions d'achat qui dépendent du niveau de prix de ce bien.
SP
Si le prix est bas l'acheteur est prêt à acheter en plus grande
quantité que si le prix est élevé.
La courbe obtenue met en relation les quantités et les prix. Cette
fonction généralement décroissante est représentée classiquement par une
droite ou une branche hyperbolique.
7
JJ Croutsche UP 13
GEODE
2007-2008
Cette notion est importante en marketing car utile en matière de
détermination des prix, des quantités à produire, des parts de marché que l'on
veut atteindre.
• La grande surface pratique des prix bas en grandes quantités se
situant à droite sur la courbe ;
• Le magasin de luxe recherche plutôt le prix élevé et les faibles
quantités.
Pour construire cette courbe, nous partons de l'idée selon laquelle pour
chaque niveau de prix, la quantité demandée sur le marché est égale à la
somme des quantités individuelles demandées à ce prix. Cette courbe s'obtient
par sommation horizontale de l'ensemble des courbes de demande individuelle.
l'a
ut
eu
r
Prix
(1)
P
(2)
p
Quantités
q
de
Q
EN
(1) * Pq : combinaison produits de luxe / magasin de luxe
(2) * pQ : combinaison produits de bas de gamme / magasin type
grande surface
B) L'offre
EC
IM
L’offre met en relation les prix et les quantités auxquels les producteurs
mettent les produits sur le marché. Quand les prix sont bas les fournisseurs
ne cherchent pas à commercialiser de grosses quantités ; l’intérêt est moindre.
En effet les fournisseurs n’ont pas intérêt à commercialiser des produits en
quantité importante à des prix bas, la rentabilité risque d’être trop faible.
SP
En revanche, si les producteurs peuvent augmenter leurs prix, il sont
prêts à augmenter les quantités offertes, les intérêts en jeu devenant plus
substantiels (part de marché en augmentation, croissance du chiffre d’affaires
et augmentation possible de la rentabilité).
La courbe d’offre est croissante représentée classiquement par une
droite ou une tendance exponentielle.
8
JJ Croutsche UP 13
GEODE
2007-2008
Prix
Quantités
C) Le marché
l'a
ut
eu
r
Il représente l’entente entre les offreurs et les acheteurs en termes
de prix et de quantités. Géométriquement, le marché s’établit à
l’intersection des courbes d’offre et de demande.
Prix
de
Offre
Marché
Demande
Quantités
Qo
EC
IM
EN
Po
SP
L’intersection entre les courbes d’offre et de demande correspond
au point d’entente entre acheteurs et offreurs (Po Qo).
9
JJ Croutsche UP 13
GEODE
2007-2008
Prix
Offre
Excédent
P1
Marché
Po
Demande
Pénurie
P2
Q’2
Qo
Q1
l'a
ut
eu
r
Quantités
Q’1
Q2
Si les offreurs vendent au prix P1 une quantité Q1, la demande à ce
prix se limite à une quantité Q’1. On observe une mévente, une chute de
chiffre d’affaires, un surstockage (excédent) et une baisse de la rentabilité
de l’entreprise. Cette situation n’est pas saine pour les offreurs.
de
A l’inverse si le produit est commercialisé au prix P2, la quantité
offerte est limitée à Q’2 alors que la quantité demandée est très supérieure
et on observe dans ce cas une pénurie. Cette situation n’est pas saine car
les demandeurs vont rechercher des produits à l’étranger ou rechercher si
possible des produits de substitution.
EN
C’est pour cette raison que le marché s’équilibre à l’intersection des
courbes d’offre et de demande. C’est une situation économique d’équilibre.
EC
IM
L’élaboration des courbes d’offre et de demande se réalise en
pratique sur un échantillon représentatif de la population étudiée et ce
dans sa globalité.
SP
Les modèles d’ajustement et régression permettent d’établir ces
courbes. Ajoutons que ces courbes ne sont pas figées dans le temps car les
marchés sont fluctuants.
10
JJ Croutsche UP 13
GEODE
22) Appréhension
(définitions marketing)
qualitative
2007-2008
et
quantitative
des
marchés
Le marché peut être défini comme l’ensemble des usagers
institutionnels ou individuels intéressés par un type de produits ou de
services, lequel se différencie en 4 catégories :
- le marché que possède l’entreprise regroupant l’ensemble de ses
propres clients (A) ;
- le marché que possède la concurrence regroupant la clientèle des
concurrents (B) ;
l'a
ut
eu
r
- le marché des non-consommateurs relatifs regroupe l’ensemble des
individus qui, pour des raisons qui leurs sont propres, refusent de faire
l’acquisition du produit (refus d’acheter la télévision, refus de consommer) ou
qui sont dans l’incapacité de le faire à court terme pour des raisons financières
par exemple (C) ; ces consommateurs font partie du potentiel de l’entreprise à
moyen terme.
- le marché des non-consommateurs absolus regroupe l’ensemble des
individus qui, pour des raisons physiques, psychologiques ou mentales, sont
dans l’incapacité de consommer le produit (un aveugle : la télévision) (D).
Marché
Théorique
IM
Clientèle
Entreprise (A)
EN
Clientèle
Concurrents (B)
de
Nous représentons les différents marchés à l’aide du schéma
suivant :
Entreprise
A+B
+ partie
de C
Marché
Projeté
De
L’entreprise :
A
+
Partie de B
+
Partie de C
SP
EC
Non
consommateurs
relatifs (C)
A
+B
+C
Marché
Profession
A+B
Marché
Potentiel
Non consommateurs absolus
(D)
11
JJ Croutsche UP 13
GEODE
2007-2008
A partir de ces définitions premières, nous générons d’autres
définitions de marchés :
- Le marché théorique regroupant les marchés
l’entreprise, de la concurrence et des non-consommateurs relatifs:
M théo = A + B + C
de
- le marché de la profession
MProf. = A + B ;
MPot. = A + B + eC ;
l'a
ut
eu
r
- le marché potentiel représente l’ensemble des individus
susceptibles de faire l’acquisition du produit ; on peut considérer que
seule une partie du marché des non-consommateurs relatifs (eC) est
susceptible de faire l’acquisition de ce produit ; il subsistera toujours
des consommateurs refusant d’acheter et de consommer le produit.
- le marché projeté correspond à un objectif que tente
d’atteindre l’entreprise débordant, d’un côté, sur la concurrence (dB) et
de l’autre, sur les non-consommateurs relatifs dC,
MPrj. = A + dB + gC.
EN
de
Dans le schéma suivant, nous imaginons un marché projeté en
expansion par rapport à la concurrence et aux non-consommateurs relatifs.
Ajoutons qu’un marché est ouvert (porteur en langage courant) dès que le taux
de croissance de ce dernier est supérieur au taux de croissance de l’économie
nationale. Par opposition, nous dirons qu’un marché est fermé dès que son
taux de croissance est inférieur au taux de croissance national.
IM
3) Les types d’études de marché
EC
De façon générale les études de marché s’appuient sur un ensemble
d’investigations différenciées en deux catégories d’études (exploratoires et
confirmatoires), chacune d’elles correspondant à des attentes et des
besoins spécifiques.
SP
Le schéma qui suit nous permet d’illustrer notre propos.
12
JJ Croutsche UP 13
GEODE
2007-2008
ETUDES
Exploratoires
Confirmatoires
Marché (qualitatif)
Attentes
Motivations
Concurrence
- de concept
Consommation
- de prix
Tests (quantitatifs)
- de produit
- décision d'achat
Habitudes d'achat...
- d'efficacité publicitaire...
Création (qualitatif)
- Recherche d'un nouveau concept
l'a
ut
eu
r
- d'une nouvelle marque
- d'une dénomination de produit...
Les études peuvent intéresser l’entreprise à différents niveaux. Si les
informations recherchées sont générales, l’entreprise peut avoir recours à
des études documentaires et des panels.
EN
de
A l’opposé, si l’entreprise recherche des informations spécifiques,
l’étude ad’hoc s’avère indispensable. On peut représenter les différentes
études de marché possibles à partir de deux vecteurs de différenciation :
- Un vecteur « collectif-individuel » et
- Un vecteur « général particulier ».
IM
Le premier vecteur « collectif-individuel » exprime le fait que l’étude
peut être menée collectivement par plusieurs entreprises ou menée de
façon individuelle par une seule entreprise.
EC
Le second vecteur « général particulier » exprime l’idée que les
informations attendues sont générales ou spécifiques aux attentes de
l’entreprise.
SP
Les différents types d’études peuvent être présentés à l’aide d’une
matrice croisant les deux vecteurs précédents :
13
JJ Croutsche UP 13
GEODE
pour l'entreprise
général
2007-2008
Partage ou non des coûts et des résultats
Niveau d'investigation
étude collective
étude individuelle
Etude documentaire
Panels
Etude commune à plusieurs entreprises
Etude Omnibus
souscription
Etude ad'hoc
particulier
par le même problème, les coûts et les infos
peuvent être mis en commun
l'a
ut
eu
r
Etude spécifique
réalisée sur un
plusieurs entreprises sont concernées
même client
Enquête permanente sur
un échantillon régulier
sur un thème donné
même échantillon
plusieurs entreprises
participant à l'étude
chaque demandeur
propose ses questions
de
Ce panorama des études présenté, il reste à définir le meilleur choix
du type d’étude à retenir.
EN
31) Passages obligés et étapes nécessaires au choix
optimal d’une étude
IM
Le budget et les objectifs de l’étude sont essentiels en termes de
choix. Les discussions entre les offreurs et les demandeurs nécessitent des
navettes avant de pouvoir aboutir à des choix définitifs.
SP
EC
La logique générale des études suit certaines règles que l’on peut
schématiser de la façon suivante :
14
JJ Croutsche UP 13
GEODE
Demandeur
de l'étude
2007-2008
Offreur, réalisateur de l'étude
Objectifs de l'étude
Valorisation du budget
Etablissement du cahier des charges
Durée de l'étude
Coûts réels
Méthode de recherche
Utilisation possible des résultats
l'a
ut
eu
r
Augmentation des ventes
Efficacité de l'étude
Augmentation de la rentabilité
de
Les études compte tenu des résultats attendus, peuvent faire l’objet
de différents bouclages. Une étude documentaire peut suffire dans une
recherche donnée. En revanche pour une étude plus approfondie, le
recours à des panels et une étude ad’hoc doit être envisagée. Ainsi ces
différents bouclages peuvent être présentés graphiquement de la façon
suivante :
EN
Objectifs de l'étude
SP
EC
FIN
IM
Recherche documentaire
relativement faible
obligatoire
Panels
Souscription possible
Enquête OMNIBUS
Enquête ad'hoc
Coût de l'étude
plus élevé
15
JJ Croutsche UP 13
GEODE
2007-2008
32) Présentation des différentes formes d’études
De façon générale, les études peuvent prendre des formes diverses.
Elles peuvent concerner des aspects qualitatifs propres au comportement
des consommateurs par exemple, ou traiter des informations
rigoureusement quantitatives (nombre d’individus susceptibles de
consommer un produit).
Les tests entrent dans ce type d’études. En marketing, et dans
toute forme d’étude de marché, les tests concernent essentiellement les
variables du marketing MIX (produit, prix, distribution, force de vente et
communication). Les tests sont élaborés sur des micro-populations
représentatives de la population étudiée.
l'a
ut
eu
r
Les marchés témoins et les mini-marchés témoins représentent ces
micro-populations sur lesquels il est possible de faire des ensembles de
tests.
Les marchés témoins sont élaborés sur des zones géographiques.
Les mini marchés témoins sont élaborés à partir d’un petit nombre
de détaillants.
EN
de
Ainsi les études qualitatives sont réalisées sur de petits échantillons
(inférieurs à 50 personnes). Elles permettent d’étudier les attentes des
consommateurs.
Elles permettent de mettre en valeur les composantes d’une question d'un
questionnaire. On utilise ces études dans les pré-enquêtes. De même les
études de motivations entrent dans cette catégorie d'études qualitatives.
Elles ne cherchent pas la représentativité des résultats.
SP
EC
IM
Les études quantitatives sont réalisées sur des échantillons plus
importants (supérieurs à 400 personnes). Ainsi les risques d’erreurs
associés aux résultats sont inférieurs à 5% (marketing de grande
consommation).
16
JJ Croutsche UP 13
GEODE
2007-2008
Plan de travail d’une étude ad’hoc
Définition des objectifs de l'étude
par rapport aux ressources
Etude documentaire
interne
externe
Fin
Définition de la population mère
cibleée
quantifiée
localisée
Pré-enquête
qualitative
Echantillonnage
taille, Intervalle Confiance
l'a
ut
eu
r
Questionnaire
Test du questionnaire
Choix Méthode de sondage
de
Administration des questionnaires
Traitements statistiques des données
choix des outils stat et du logiciel
EN
Saisie
Synthèse des données
IM
Conclusions et préconisations
4) Construction de l’échantillon
EC
L’échantillonnage est un des facteurs de succès de l’étude. Il apparaît
de façon intuitive que plus la taille de l’échantillon est élevée, et plus le
risque d’erreur est faible.
SP
Cette forme de statistique est dite inductive.
17
JJ Croutsche UP 13
GEODE
2007-2008
Probabilité
de se situer
dans
l'intervalle
de confiance
taille échantillon
(n)
Intervalle de confiance
Risque d'erreur
41) Définitions et méthodes possibles
l'a
ut
eu
r
Population étudiée : liste de tous les éléments que l’on envisage
d'étudier. Cette liste - ou fichier - est également appelé base de sondage.
Echantillon : c’est un sous-ensemble d’éléments tirés de la population
étudiée.
Echantillonnage : connaissant la valeur de certains paramètres dans
l’échantillon on cherche à induire des renseignements sur les valeurs que
peuvent prendre ces paramètres dans la population étudiée.
EN
de
Taux de sondage : il est égal au rapport t = n / N, sachant que n
correspond à l’effectif de l’échantillon et N à la taille de la population si elle est
connue.
Méthodes non probabilistes
IM
Méthodes probabilistes
SP
EC
Méthodes combinées
18
JJ Croutsche UP 13
GEODE
2007-2008
42) Méthode des quotas (non probabiliste)
• Principe de la méthode des quotas
Cette méthode repose sur l’hypothèse qu’un certain nombre de facteurs
influencent le phénomène étudié. L’échantillon est structuré de façon identique
à la structure -connue- de la population étudiée.
Exemple
On étudie un échantillon sur une population sachant que dans cette
population on observe les quotas suivants (pourcentages de populations) :
51% de personnes adultes de sexe féminin et 49% de
personnes de sexe masculin ;
-
10% de personnes résidant en ville, 30% en agglomération
et 60% en campagne ;
-
Sur la population masculine, on observe 10% de cadres
supérieurs, 40% de cadres moyens ;
-
Sur la population féminine, on observe 5% de cadres
supérieurs, 10% de cadres moyens.
l'a
ut
eu
r
-
de
Comment distribuer l’échantillon sachant que sa taille doit être de
2000 individus ?
SP
EC
IM
EN
Nous utilisons un schéma arborescent nous permettant de définir et
comptabiliser les différentes catégories d’individus à interroger.
19
JJ Croutsche UP 13
GEODE
2007-2008
Echantillon : 2000 personnes
Hommes 49%
Femmes 51%
2000 x 49% = 980
2000 x 51% = 1020
Hommes Villes : 10% = 98
Femmes ville 10% = 102
Cadres supérieurs villes 10% = 9,8
Cadres moyens 40% = 39,2
Autres 50% = 49
Cadres supérieurs villes 5% = 5,1
Cadres moyens 10% = 10,2
Autres 85% = 86,7
Femmes agglomérations 30% = 306
Cadres supérieurs agglomération 10% = 29,4
Cadres moyens 40% = 117,6
Autres 50% = 147
Cadres supérieurs agglomération 5% = 15,3
Cadres moyens 10% = 30,6
Autres 85% = 260,1
l'a
ut
eu
r
Hommes agglomération :30% = 294
Hommes campagnes : 60% = 588
Femmes campagne 60% = 612
Cadres supérieurs campagne 10% = 58,8
Cadres moyens 40% = 235,2
Autres 50% = 294
Cadres supérieurs campagnes 5% = 30,6
Cadres moyens 10% = 61,2
Autres 85% = 520,2
de
Dans l’élaboration finale de l’échantillon, nous arrondissons à l’unité
supérieure pour chaque sous groupe, ce qui peut augmenter de quelques
unités la taille globale de l’échantillon définitif.
EN
43) Méthodes aléatoires
A. Sondages sur populations étendues (non exhaustifs)
EC
IM
Un sondage est dit non exhaustif lorsque la taille de l’échantillon est
petite par rapport à la taille de la population mère : de l’ordre de 7 fois plus
petite. Dans ce cas la population étudiée est importante, définie comme
étendue.
SP
Imaginons que nous sélectionnons un échantillon de 1000
personnes sur l’ensemble de la population de la région parisienne. Cette
population est de taille importante. Il n’est pas nécessaire de la dénombrer.
Nous posons à la population de l’échantillon la question suivante :
Appréciez-vous le Jazz ?
Nous obtenons à l’issue de l’enquête 35,2% de réponses favorables
(352 oui).
20
JJ Croutsche UP 13
GEODE
2007-2008
Cette proportion (p’ = 35,2%), (proportion estimée sur échantillon), est
sans doute proche de la vraie proportion (p) que l’on aurait obtenue en
interrogeant l’intégralité de la population étudiée.
De façon intuitive on accepte le fait que plus la taille de l’échantillon
augmente, et plus (p’) se rapproche de (p).
On pourrait montrer que la distribution (p’) suit une loi gaussienne
d’espérance
p’
et d’écart-type
p ' (1 − p ' )
n
p’ = 0,352,
nous donne le
l'a
ut
eu
r
Le calcul de l’écart-type sachant que
résultat suivant :
S =
0,352(1 − 0,352)
= 0,0151
1000
S=
La distribution étant gaussienne, on calcule la probabilité pour que ( p)
se situe dans
- l’intervalle (p’) moins deux écart-types et
de
- (p’) plus deux écarts-types,
EN
C’est à dire avec 95% de chances (caractéristique de la loi de
Gauss) :
p '− 2 S < p < p '+ 2 S
EC
IM
Ou
p’ – E
<p<
avec 95% de chances.
p’ + E
SP
2 S correspond au risque d’erreur noté E = = 2
E = 2S = 2
p ' (1 − p ' )
n
p ' (1 − p ' )
n
=> E² = 4 p’ (1 – p’) / n
=> n = 4 p’ (1 – p’)/ E²
21
JJ Croutsche UP 13
GEODE
2007-2008
On illustre cet intervalle à l’aide du schéma suivant :
95%
2,5%
l'a
ut
eu
r
2,5%
p’
p’ = 0,352
p'− 2
0,352 (1 − 0,352 )
= 0,3217
1000
p'+ 2
0,352 (1 − 0,352 )
= 0,3822
1000
de
(p’ ) est la proportion observée sur échantillon. Cette proportion est
proche de (p) vraie proportion que l’on aurait observée en interrogeant
l’ensemble de la population totale étudiée.
EN
En conséquence, la vraie proportion (p), si l’on interroge l’ensemble de la
population, peut être comprise dans l’intervalle 0,3217 et 0,3822 et ce avec
95% de chances.
EC
IM
En conséquence, cette vraie proportion (p) peut se situer à l’extérieur de
l’intervalle de confiance, la probabilité de voir apparaître ce cas de figure étant
de 5%
(95% + 5% = 100%)
SP
De façon intuitive on montre que plus la taille de l’échantillon
augmente et plus le risque d’erreur diminue.
Taille de l’échantillon et erreur acceptée sur population étendue
En reprenant les formulations précédentes, on observe qu’il existe une
relation entre la taille et l’erreur acceptée.
22
JJ Croutsche UP 13
GEODE
2007-2008
Dans le cas où la population mère est importante, la formulation
mettant en relation la taille de l’échantillon et l’erreur acceptée est la suivante :
E = 2S = 2
p ' (1 − p ' )
4 p ' (1 − p ' )
4 p ' (1 − p ' )
=> E ² =
=> n =
n
n
E²
n=
- sachant que
4 p' (1 − p ' )
E2
(p’)
correspond au nombre de réponses en
l’échantillon.
- sachant que E = 1,96 écart-type, ce qui correspond au risque
d’erreur accepté
avec 95% de chances sur une loi
gaussienne.
On arrondit par commodité
l'a
ut
eu
r
proportion sur
E = 2 écarts-types (2S)
(voir « Pratique de l’analyse des données en Marketing et Gestion » op. cit.)
Considérons l’exemple suivant :
de
Nous envisageons une étude de marché sur la région parisienne. Cette
population est très importante. Il ne nous est pas nécessaire dans ce cas de la
dénombrer.
EN
Nous acceptons un risque d’erreur de 5%, lequel correspond à un
risque maximum acceptable pour réaliser une étude dans des conditions
normales.
IM
Il nous reste à choisir (p’). En nous situant dans le contexte le
plus défavorable, on montre que (p’) doit être égal à 0,5.
Nous calculons n en utilisant la formulation précédente :
4 p ' (1 − p ' ) =>
4 × 0 ,5 ( 1 − 0 ,5 )
1
n =
=
= 400
2
E2
0 ,0 5
0 ,0 5 ²
SP
EC
n =
En remplaçant p’ par 0,5 (cas le plus défavorable),
la formule n =
4 p' (1 − p ' )
devient :
E2
23
JJ Croutsche UP 13
GEODE
n = (4 * 0,5 * 0,5) / E² =>
n =
2007-2008
1
E 2
Cette formule va nous permettre de calculer directement la taille d’un
échantillon partant d’un risque d’erreur accepté E.
De façon générale le risque d’erreur maximal accepté dans une enquête est
de 5%.
En conséquence si on remplace dans la formule E par 5%, on obtient :
l'a
ut
eu
r
n = 1 / 0,05² = 400
Cela est vrai lorsque l’on traite une étude quantitative. Dans les études
qualitatives, on peut se limiter à des tailles d’échantillons plus réduites. On
réalise un focus group avec 30 personnes. Les préenquêtes réalisées dans les
études ad’hoc se pratiquent de cette façon.
Lorsque l’on veut réaliser une enquête de meilleure qualité, on choisit
un risque d’erreur de 3% ou mieux 2%.
de
Les échantillons dans ce cas sont de 1111 et 2500 personnes.
EN
Les démonstrations de ces calculs sont développées dans l’ouvrage de
JJ. Croutsche, Pratique de l’analyse des données, ESKA, 1997.
IM
Application 1
Si nous interrogeons à présent 625 personnes, et que nous obtenons
50% de OUI sur une réponse de type fermée unique (oui, non), nous pouvons
calculer l’intervalle de confiance avec 95% de chances.
EC
E dans ce cas est égal à :
SP
E =2
p ' (1 − p ' )
1
=
=
n
n
1
= 4%
625
Autrement dit, si l’on avait interrogé la totalité de la population étudiée, on
aurait eu 95% de chances de trouver la vraie proportion de OUI comprise dans
l’intervalle
24
JJ Croutsche UP 13
soit
GEODE
(50% - 4%) et (50% + 4%)
2007-2008
46% < vraie proportion de OUI ( p) < 54%
et ce avec 95% de chances.
Application 2
Soit une population étendue. On recherche la taille (n) d’un échantillon en
acceptant un risque d’erreur de 4%.
l'a
ut
eu
r
1) Quelle doit être la taille de l’échantillon ?
2) Sur cet échantillon, on pose une question sur la consommation du
produit A. on obtient 60% de réponses favorables. Quel Risque d’erreur
peut-on associer à ce résultat ?
3) Quelles sont les valeurs de l’intervalle de confiance avec 95% de
chances ?
1) n = 1 / 0,04² = 625 avec p’ = 0,5 cas le plus défavorable
p ' (1 − p ' ) = 2
n
0 ,6 (1 − 0,6 ) = 0,0392 = 3,92%
625
de
2) E = = 2
3) Intervalle de confiance = 2 * 3,92 = 7,84
EN
Borne mini = 60% - 3,92% = 56,08%
Borne maxi = 60% + 3,92% = 63,92%
IM
56,08 < p < 63,92%
EC
Probabilité de se situer dans cet intervalle = 95% de chances.
45) Sondages sur populations réduites (exhaustifs)
SP
Un sondage exhaustif est un sondage réalisé sur une population
étudiée dont la taille est petite par rapport à la taille de l’échantillon. La
taille de la population étudiée ne doit pas être supérieure à 7 fois la taille de
l’échantillon.
Lorsque la population est réduite, elle doit être connue, c’est N.
25
JJ Croutsche UP 13
GEODE
2007-2008
L’échantillon calculé à partir de N c'est-à-dire par rapport à une
population réduite est appelé n’.
Calcul de n’ (taille de l’échantillon) lorsque la population
étudiée est réduite
Pour dimensionner l'échantillon à étudier, on calcule, dans un premier
temps, une valeur théorique µ en utilisant la formule traditionnelle de calcul
d’échantillon :
μ=
4 p ' (1 − p ' )
1
=
si p ' = 0 , 5
2
E
E²
l'a
ut
eu
r
(cas le plus défavorable avec p’ = 0,5)
On connaît obligatoirement N taille de la population étudiée.
Puis on calcule la taille définitive de l’échantillon (notée
utilisant la formule suivante :
N
( N + μ)
de
n' = μ ×
n’ ) en
Le
EN
n’ correspondant à une taille d’échantillon calculée sur population étudiée
réduite
rapport
N
( N + μ)
correspond
à
un
coefficient
IM
d’exhaustivité.
EC
Exemple 1:
Soit N = 100 entreprises (population étudiée).
Risque d'erreur E accepté = 6 %.
Probabilité associée à l’intervalle de confiance = 95 %.
SP
Quelle doit être la taille de l'échantillon ?
Calculons (µ) en considérant la proportion la plus défavorable ( p’ = 0,5 )
26
JJ Croutsche UP 13
GEODE
2007-2008
1
μ = 2 = 1 / (0,06)² = 277,78 (échantillon théorique supérieur
E
en dimension à la population mère ou étudiée).
Calculons n' taille définitive de l’échantillon :
n' = μ ×
N
( N + μ)
=> n' = ( 100 * 277,78 ) / ( 100 + 277,78 ) = 73,529
La taille définitive de l'échantillon à étudier est de 74 unités.
Si la taille de la population étudiée avait été de 50 entreprises, la taille de n’
aurait été de 42 entreprises.
n’ / N
l'a
ut
eu
r
Plus la taille de la population étudiée diminue et plus le rapport
augmente.
Si N = 100 => le rapport n’ / N = 74 / 100 = 74%
Si N = 50 => le rapport n’ / N = 42 / 50 = 84%, ce qui confirme ce
qui vient d’être énoncé.
Réponses
n' = 1 / 10 = 10%
IM
1) E = 1
EN
de
Exemple 2
Soit une population étudiée de 140 entreprises. On a proposé un échantillon
de 100 entreprises.
1) Quel risque peut associer à cette taille d’échantillon ?
2) Sur cet échantillon, on pose une question relative à la
consommation d’un produit et on obtient 72% de réponses
favorables. Quel risque d’erreur peut-on associer à ce résultat ?
EC
2) n’ = 100 et N = 140 => µ = ( N * n’ ) / ( N - n’ ) = 14000 / 40 =
350
SP
On calcule E en prenant p’ = 0,5 :
µ =
4 p ' (1 − p ' )
=> E =
E2
4 p ' (1 − p ' )
µ
27
JJ Croutsche UP 13
GEODE
4 p ' (1 − p ' )
= E=
µ
E =
2007-2008
4 * 0,72(1 − 0,72)
0,89
=
= 0,048 = 4,8%
350
18,70
5) Elaboration du questionnaire
Plusieurs facteurs entrent en ligne de compte dans la construction du
questionnaire. Ce sont :
- Les thèmes recensés (préenquête),
- Le type de questions,
- L’enchaînement des questions lié aux thèmes abordés,
- La position de la fiche signalétique en fin de questionnaire.
51) Questions fermées
l'a
ut
eu
r
Trois types de questions sont possibles :
- les questions fermées,
- les questions ouvertes,
- et les échelles.
Elles sont couramment utilisées car faciles à exploiter sur le plan
statistique. Elles peuvent être uniques, multiples ou ordonnées.
de
Elles peuvent être fermées uniques ou fermées multiples. Elles
peuvent également être ordonnées.
EN
- Lorsqu'elles sont uniques les réponses possibles sont "oui", "non"
ou "ne sait pas". Elles peuvent proposer plusieurs possibilités pour
lesquelles, on ne peut cocher qu’une seule réponse.
IM
Exemple : Quel est votre état civil ?
(Cochez la case correspondante)
Célibataire
EC
Concubin
Pacsé (e)
Marié(e)
SP
Séparé(e)
Divorcé(e)
- Lorsqu'elles sont multiples, plusieurs propositions peuvent être
envisagées par le répondant :
28
JJ Croutsche UP 13
GEODE
2007-2008
Question : où passez-vous vos vacances ?
à la montagne
à la mer
à l'étranger (voyages)
en
résidence
secondaire
en famille...
Le répondant peut cocher une, deux voire toutes les cases. Cette
même question peut être ordonnée en élaborant un classement : à la mer
en priorité et, à l'étranger en second.
l'a
ut
eu
r
Il est possible d’intégrer en fin de question fermée multiple une
question ouverte de type : (autres ou autres possibilités…).
Question : Quel sport pratiquez-vous ?
Aucun
Tennis
Hand-ball
Volley-ball
Football
Rugby
Gymnastique
Culture physique
Autres sports pratiqués
EN
Question fermée ordonnée :
de
-
IM
Ce type de question peut être traité à l’aide de l’exemple suivant :
Classez 3 marques de voitures par ordre de préférence :
SP
EC
- RENAULT ; - PEUGEOT ; - FORD ; - FIAT
- OPEL ; - HONDA ; - VOLKSWAGEN
- MERCEDES ; - AUDI ; JAGUAR
52) Questions ouvertes
Dans ce type de questions l’interviewé peut répondre librement. Ces
questions peuvent être textuelles ou numériques.
29
JJ Croutsche UP 13
GEODE
2007-2008
* Les questions ouvertes texte sont du style : aimez vous la musique
de Brahms ? Ces questions permettent une infinité de réponses ce qui en
fait un outil relativement riche en matière de recherche d'informations. Ces
questions sont très utilisées dans les enquêtes pilote, les pré-enquêtes.
Leur dépouillement nécessite souvent des techniques d’analyse de
contenu.
En revanche, elles sont difficilement exploitables sur le plan
statistique et la codification des réponses ne peut se faire qu’a posteriori.
Ces questions sont ensuite traitées comme des questions fermées.
Le traitement de ces questions passe par une analyse de contenu.
Les étapes d’une telle analyse sont les suivantes :
1) Transcription fidèle des entretiens
Il est nécessaire de conserver les silences, le texte dans son
intégralité.
=>
=>
=>
=>
l'a
ut
eu
r
2) L’Analyse de contenu proprement dite passe par les étapes
suivantes :
étude du poids des mots (nombre de mots)
étude de la syntaxe
étude des enchaînements (phrases)
analyse des thèmes
de
3) Construction de la grille de dépouillement
=> repérage des mots, des groupes de mots, des idées, et codage
des thèmes
EN
4) Codification et grille d’analyse à partir des thèmes 1, 2, 3.....
IM
5) Analyse des thèmes, analyse lexicale
=> Etude intra-interview (étude de la structure d’un seul
questionnaire)
=> Etude inter-interview (étude de la structure de plusieurs
questionnaires)
EC
6) Quantification
=> Etude des fréquences d’apparition des thèmes et concepts
=> Transformation en questions à choix multiples
SP
7) Synthèse des résultats
La synthèse peut faire l’objet d’un ensemble de commentaires.
L’analyse textuelle peut également donner lieu à des traitements
statistiques traitant des occurrences de mots par exemple.
30
JJ Croutsche UP 13
GEODE
2007-2008
Les analyses lexicales classiques sont informatisées (SPHINX,
ASKIA...).
53) Les échelles d’attitudes
On peut classer les diverses techniques de construction d'échelles.
1) En fonction des propriétés des échelles : nominales, ordinales,
d'intervalles ou proportionnelles,
2) En fonction de leur caractère : physiques ou psychologiques,
3) En fonction de la nature de la réponse (accord ou désaccord à
propos d'une proposition : stimulus) ou classement par rapport à
un attribut spécifique,
l'a
ut
eu
r
4) En fonction de la forme de la réponse (comparative : A plus grand
que B).
Exemple : Comment estimez-vous aujourd’hui le niveau de
connaissances des étudiants en économie et gestion par rapport à celui
qu’ils avaient, il y a vingt ans ?
beaucoup plus importantes
aussi importantes
de
un peu plus importantes
un peu moins importantes
beaucoup moins importantes
EN
sans opinion
IM
Certaines enquêtes s’orientent vers l’établissement de typologies
d’individus reposant sur des mesures d’attitudes.
EC
Diverses méthodes sont utilisées :
* Les échelles d’évaluation, d’auto-notation
On soumet une opinion ferme à l’interviewé et on lui demande son
avis. Les individus se positionnent sur une échelle définie au préalable.
SP
* Les échelles de Likert font l’objet de question de ce type : Etes vous
d’accord ou non sur le fait que le produit A soit de bonne qualité ?
Pas du tout d’accord
Pas d’accord
Moyennement d’accord
31
JJ Croutsche UP 13
D’accord
GEODE
2007-2008
Tout a fait d’accord
La notation peut être réalisée par les examinateurs (Rating) mais
également par le sondé lui-même (Self-Rating).
* Les échelles graduées permettent de nuancer davantage la
position personnelle du répondant.
Pouvez-vous préciser votre opinion politique en vous situant sur
l’échelle graduée suivante ?
10
Centre
-5
0
*Les échelles comparatives
Extrême
droite
l'a
ut
eu
r
Extrême gauche
+
5
10
de
Elles font l’objet de réponses possibles libellées de la façon suivante :
EN
*
j’apprécie
énormément,
* j’apprécie bien,
IM
*
j’apprécie
moyennement,
* je n’apprécie pas,
EC
* je déteste.
SP
Osgood réalise des échelles d’attitude grâce à des tests associatifs
(différentiel sémantique).
32
JJ Croutsche UP 13
GEODE
2007-2008
Exemple : Position d’un individu (A) par rapport à un ensemble
d’oppositions :
faible
X
puissant
sans avenir
antipathique
X
avenir
X
sympathiq
ue
intéressan
t
organisé
X
agaçant
pagailleur
X
mystificateur
X
individualiste
honnête
X
désagréable
grégaire
X
X
travailleur
l'a
ut
eu
r
paresseux
agréable
- Les échelles Stapel permettent de traiter des oppositions sur des
continuums opposés négatifs et positifs. On peut opposer par exemple le
côté très efficace (+3) au coté très inefficace (-3). Elles permettent sans
difficulté des traitements statistiques de type quantitatif.
L’échelle se présente de la façon suivante :
+3, +2, +1, efficace, -1, -2, -3.
de
- Les icônes : dessins figuratifs à choisir.
EC
IM
EN
Les trois figurines suivantes expriment la tristesse (à gauche), et la
joie (à droite). Elles permettent d’opposer des comportements ou des
attitudes.
SP
Questions relatives à la fiche signalétique (fin de questionnaire) :
-
L’âge,
Le sexe,
La catégorie socioprofessionnelle,
L’habitat,
33
JJ Croutsche UP 13
- Le nom,
- Le revenu…
GEODE
2007-2008
Le questionnaire ainsi conçu doit être testé. Certaines peuvent être mal
comprises ou mal interprétées par les répondants. Ces tests sont sur une
quinzaine de personnes appartenant à la population étudiée.
54) Les types d’enquêtes
- A ; Enquêtes dans la rue : questionnaires courts, public moins bien ciblé,
informations moyennes par manque de disponibilité des interviewés.
l'a
ut
eu
r
- B ; Enquête par voie postale : très bons résultats quand les interviewés
répondent, questionnaires approfondis très ciblés moins coûteux. Il faut
organiser des jeux et des concours pour faire répondre les interviewés.
- C ; Enquête pat Internet : facile, au goût du jour, peu coûteux, immédiat,
reste plutôt superficiel
- D ; Enquêtes par téléphone : très pratiqué, peu coûteux, les
questionnaires peuvent être plus longs, les interviewés sont bien ciblés
mais refusent souvent répondre.
de
- E ; Enquête à domicile : très bons résultats, questionnaires approfondis
très ciblés mais très coûteux.
EN
En termes d’efficacité on progresse de A à E.
6) Etude des tris plats
EC
IM
Les tris plats permettent de traiter les questions de façon individuelle.
Tout dépend du type de variable traitée. Une variable peut être qualitative
nominale ou quantitative.
61) Type de variable
SP
Exemples de variables quantitatives :
- Nombre de kilomètres parcourus sur une année,
- Age des individus,
- Revenu mensuel.
Exemples de variables qualitatives ou nominales :
34
JJ Croutsche UP 13
GEODE
2007-2008
- Habitat : réponses possibles : en ville, en campagne, en
agglomération,
- Possession d’une marque de voiture : Renault, Peugeot,
BMW…
- Diplôme obtenu : Bac, Licence, Master…
Si la variable est quantitative on utilise les outils statistiques des
méthodes descriptives. On utilise les traitements suivants : calcul de
moyennes, variances, écarts-types modes, médianes.
Si la variable est qualitative nominale, on utilise les effectifs, les
fréquences par modalité, le classement des fréquences, et les intervalles de
confiance sur les modalités.
l'a
ut
eu
r
Les variables quantitatives sont toujours transformables en variables
qualitatives. Il suffit de les transformer en classe et de donner un nom à
ces classes. En revanche la transformation de variables qualitatives en
variables quantitatives est plus difficile.
62) Traitements des variables quantitatives
La question posée est la suivante : A quel niveau situez-vous vos
dépenses alimentaires annuelles sur échelle ?
de
A l’origine, la variable est quantitative. Le logiciel peut transformer
cette variable en variable nominale. Il suffit de faire des classes. Dans ce
cas précis, tous les modes de traitements sont possibles.
Les réponses obtenues sont répertoriées dans le tableau suivant :
SP
EC
De 5 à 7 000€
De 7 à 9 000€
De 9 à 11 000€
De 11 à 13 000€
De 13 à 15 000€
De 15 à 17 000€
De 17 à 19 000€
+ de 19 000€
Fréquences
fi = ni / N
effectifs
cumulés
croissan
ts
3,61%
5,96%
10,48%
19,17%
32,55%
16,09%
6,69%
5,42%
Total #100%
20
53
111
217
397
486
523
553
EN
Effectifs
Nombre
de
réponse
s
ni
20
33
58
106
180
89
37
30
553
IM
Niveau de
dépenses
alimentaires
annuelles
Classes
Intervalles de
confiance à
(95%) sur les
fréquences
+
+
+
+
+
+
+
+
ou
ou
ou
ou
ou
ou
ou
ou
-
1,58%
2,01%
2,60%
3,35%
3,98%
3,12%
2,12%
1,93%
Plusieurs informations statistiques sont possibles.
35
JJ Croutsche UP 13
GEODE
2007-2008
On peut calculer la moyenne ; il suffit pour ce faire de multiplier le
centre de chaque classe par la fréquence correspondante et de faire la
somme des résultats obtenus :
Ainsi les dépenses alimentaires moyennes pondérées sont de :
(6000 * 3,61%) + (8000 * 5,96%) + (10000 * 10,48%) ... = 13 461,40€
L’histogramme des fréquences peut être représenté :
Histogramme des dépenses
l'a
ut
eu
r
200
Effectifs
150
100
50
0
de
Classes de dépenses
EN
D’autres calculs statistiques peuvent être envisagés ; les calculs
d’écarts, de mode de médiane, d’intervalles permettent d’affiner les
résultats. Ils aident à la compréhension et à l’interprétation des données.
IM
Par ailleurs des tests de comparaison de fréquences à l’aide du test
Khi deux de Pearson sont envisageables pour évaluer avec davantage de
précision les résultats.
SP
EC
L’étude d’une variable (les dépenses dans ce cas) est appelée tri à
plat. Il est également possible de croiser deux questions. On obtient des
tris croisés lesquels permettent d’enrichir les résultats obtenus à l’aide des
tris plats.
Les variables étudiées peuvent être qualitatives ou quantitatives. Une
variable quantitative est toujours transformable en variable qualitative, il
suffit de la classer.
36
JJ Croutsche UP 13
GEODE
2007-2008
63) Traitement des variables qualitatives
Les variables qualitatives s’expriment à l’aide de fréquences et on
ne peut évidemment calculer les valeurs moyennes et de dispersion que
l’on traite sur les variables quantitatives. En revanche on peut comparer
les fréquences en utilisant des tests statistiques.
Partant d’une base de données sur l’automobile de Sphinx, nous
illustrons notre propos à partir d’une question relative à la marque de
voiture possédée. Sur une population échantillonnée de 203 personnes, on
obtient les résultats suivants :
Nous traitons la question spécifique à la marque :
Intervalles de confiance
Non réponse
26
Renault
37
Peugeot
22
Citroën
21
Volkswagen
18
Fiat
12
Ford
14
3
BMW
9
Mercedes
8
8,2% < 12,8 < 17,4%
12,9% < 18,2 < 23,5%
6,6% < 10,8 < 15,1%
6,2% < 10,3 < 14,5%
5,0% < 8,9 < 12,8%
2,7% < 5,9 < 9,2%
3,4% < 6,9 < 10,4%
0,0% < 1,5 < 3,1%
1,6% < 4,4 < 7,3%
1,3% < 3,9 < 6,6%
de
Toyota
l'a
ut
eu
r
Nb. cit.
MARQUE
10
Opel
Volvo
Autre
2,0% < 4,9 < 7,9%
3
0,0% < 1,5 < 3,1%
20
5,8% < 9,9 < 13,9%
203
EN
TOTAL OBS.
MARQUE
IM
Non réponse
26
Renault
37
Peugeot
22
Citroën
21
EC
Volkswagen
18
Fiat
12
Ford
Toyota
14
3
BMW
9
SP
Mercedes
8
Opel
Volvo
Autre
10
3
20
37
JJ Croutsche UP 13
GEODE
2007-2008
Un test de Chi deux nous montre que la différence avec la répartition de
référence (égalité entre tous les effectifs des marques et des non-réponses)
est très significative. Chi2 = 72,18, degrés de liberté = 12, avec (1-p) =>
99,99%.
Il faut pour que la différence entre les modalités soit significative que (1 –
p) soit supérieure à 95%.
Le chi2 est calculé avec des effectifs théoriques égaux pour chaque
modalité. L'intervalle de confiance à 95% est donné pour chaque modalité.
En revanche une analyse de chi deux nous montre que la différence des
fréquences entre 'Peugeot' et 'Citroën' n'est pas significative (1-p = 12,81% ;
il faudrait pour cette différence soit significative que la différence 1 – p soit
supérieure ou égale à 95%). Il est vrai que la différence entre les effectifs
correspondants est faible : 22 – 21 = 1
l'a
ut
eu
r
Qu’en est-il entre Peugeot et Volkswagen ?
On observe que la différence des fréquences entre 'Peugeot' et
'Volkswagen' n'est pas significative (1- p = 49,49%) bien que la
différence entre les effectifs augmente : 22 – 18 = 4.
Ce manque de significativité s’explique par le fait que la taille de
l’échantillon est trop faible.
Reprenons l’enquête
kilométrage :
de
Les variables quantitatives sont aisément transformables en variables
qualitatives. Il suffit pour ce faire de classer les variables.
automobile
sphinx
et
étudions
la
variable
effectifs
1
4
4
1
12
12
1
32
1
43
1
2
34
3
SP
EC
IM
Kilométrage
6000
5000
4000
3500
3000
2500
2200
2000
1750
1500
1300
1200
1000
800
EN
Quelle distance effectuez-vous mensuellement ?
fréquences
0,6%
2,3%
2,3%
0,6%
6,8%
6,8%
0,6%
18,2%
0,6%
24,4%
0,6%
1,1%
19,3%
1,7%
38
JJ Croutsche UP 13
750
700
500
400
300
200
100
40
TOTAL
GEODE
2007-2008
0,6%
1,1%
9,1%
0,6%
0,6%
0,6%
1,1%
0,6%
100,0%
1
2
16
1
1
1
2
1
176
Nombre de valeurs différentes : 22
'1500' est la valeur la plus citée : 43 observations.
On observe 27 non-réponses.
l'a
ut
eu
r
Partant de ces données, nous transformons la variable quantitative en
classes laquelle peut être traitée également en variable qualitative ou
nominale.
Le logiciel nous propose les classes suivantes :
KILOMETRAGE
Quelle distance effectuez-vous mensuellement ?
KILOMETRAGE
Nb. cit.
Non réponse
Intervalles de confiance
8,6% < 13,3 < 18,0%
de
27
De 1000 à 2000
81
33,2% < 39,9 < 46,6%
De 2000 à 3000
45
16,5% < 22,2 < 27,9%
De 3000 à 3500
12
2,7% < 5,9 < 9,2%
3500 et plus
10
2,0% < 4,9 < 7,9%
Moins de 500
EN
De 500 à 1000
TOTAL OBS.
6
0,6% < 3,0 < 5,3%
22
6,6% < 10,8 < 15,1%
203
SP
EC
IM
Minimum = 40, Maximum = 6000
Somme = 295340
Moyenne = 1678,07 Ecart-type = 1010,36
39
JJ Croutsche UP 13
GEODE
2007-2008
KILOMETRAGE
81
81
45
27
22
12
10
De
3000
à
3500
3500
et plus
6
0
Moins
de 50
0
Non r
épons
e
De
500 à
1000
De
1000
à
2000
De
2000
à
3000
l'a
ut
eu
r
6 classes ont été identifiées.
La moyenne et l'écart-type sont calculés sans tenir compte des nonréponses.
La différence avec la répartition de référence est très significative chi2 =
144,55, ddl = 6, 1-p =>99,99%.
Le chi2 est calculé avec des effectifs théoriques égaux pour chaque
modalité.
L'intervalle de confiance à 95% est donné pour chaque modalité.
de
64) Utilisation de Khi 2 (Pearson) sur l’étude d’une
variable nominale
(comparaison de fréquences)
On étudie la consommation d’un produit A sur un échantillon de 1000
personnes, représentatif d’une population étudiée P.
EN
Les résultats obtenus sont les suivants :
SP
EC
IM
Effectifs observés
Modalités
/
Effectifs
Consommation régulière
420
(+ de 3 fois par semaine)
Consommation irrégulière
280
( moins de 1 fois par
semaine)
300
Consommation intermédiaire
(de 2 à 3 fois par semaine)
TOTAUX
1000
Effectifs
théoriques
333,33
333,33
333,33
1000
40
JJ Croutsche UP 13
GEODE
2007-2008
450
400
350
300
250
200
150
100
50
0
Effectifs observés
Consommation
intermédiaire
Consommation
irrégulière
Consommation
régulière
Effectifs théoriques
l'a
ut
eu
r
Il semble que la modalité « consommation régulière » surclasse bien les
deux autres modalités.
On considère que la répartition est équivalente entre les trois types de
consommation (effectifs théoriques équivalents : modèle théorique
correspondant à l’hypothèse nulle Ho).
Dans ce cas, les effectifs théoriques sont de 1000 / 3 # 333,33.
On calcule la valeur de Khi deux qui prend en compte les écarts entre
les effectifs théoriques et les effectifs observés :
2
=
∑
(Oi − Ti ) 2
Ti
de
χ
sachant que Oi correspond aux effectifs observés et Ti aux effectifs
théoriques.
EN
Khi² = [( 420 - 333,33 )² / 333,33 ] + [( 280 - 333,33 )² / 333,33 ] +
[( 300 - 333,33 )² / 333,33 ]
= 22,729 + 8,435 + 3,27 = 34,434
IM
On comprend aisément que plus la valeur de Khi² est élevée et plus on
s’éloigne du modèle théorique d’équivalence des modalités.
EC
Nous posons l’hypothèse nulle (Ho) selon laquelle il n’y a pas de
différence entre les fréquences observées et les fréquences théoriques.
SP
Le degré de liberté est de (k - 1), k correspondant au nombre de catégories
évoquées (modalités), soit dans notre exemple un degré de liberté de 3 - 1
= 2.
Il nous faut une valeur seuil nous permettant de valider ou d’invalider
l’hypothèse Ho. Pour ce faire, on se réfère à la loi Khi² de Pearson. On
consulte la table de Khi².
41
JJ Croutsche UP 13
GEODE
2007-2008
La valeur de Khi deux dans la table à 0,05 de risque (5%) et 2 degrés de
liberté est de 5,99.
La valeur de Khi deux calculée (34,434) est très supérieure à la valeur de
la table, on refuse l’hypothèse nulle (Ho) (il n’y a pas de différence
significative entre les fréquences observées et les fréquences
théoriques).
En conséquence, on peut affirmer que la différence entre les modalités est
significative à l’avantage de la modalité « consommation régulière » (420 >>
333,33).
Nous reprenons l’enquête automobile
Nb. cit.
Intervalles de confiance
Non réponse
26
Renault
37
Peugeot
22
Citroën
21
Volkswagen
18
Fiat
12
Ford
14
3
BMW
9
Mercedes
8
Opel
Volvo
Autre
6,6% < 10,8 < 15,1%
6,2% < 10,3 < 14,5%
5,0% < 8,9 < 12,8%
2,7% < 5,9 < 9,2%
3,4% < 6,9 < 10,4%
0,0% < 1,5 < 3,1%
1,6% < 4,4 < 7,3%
1,3% < 3,9 < 6,6%
10
2,0% < 4,9 < 7,9%
3
0,0% < 1,5 < 3,1%
20
5,8% < 9,9 < 13,9%
203
EN
TOTAL CIT.
8,2% < 12,8 < 17,4%
12,9% < 18,2 < 23,5%
de
Toyota
l'a
ut
eu
r
MARQUE
EC
IM
La différence avec la répartition de référence est très significative. chi2 =
72,18, ddl = 12, 1- p =>99,99%. Quand cette valeur est > à 95%, la
différence est significative.
Le chi2 est calculé avec des effectifs théoriques égaux pour chaque
modalité.
L'intervalle de confiance à 95% est donné pour chaque modalité.
On peut comparer des fréquences lorsque celles-ci sont très rapprochées :
SP
* Peugeot 22 - Citroën 21
La différence des fréquences entre 'Peugeot' et 'Citroën' n'est pas
significative
(1- p = 12,81%), il faut être supérieur à 95% pour que la différence soit
significative.
*Renault 37 - Peugeot 22
42
JJ Croutsche UP 13
GEODE
2007-2008
La différence des fréquences entre 'Renault' et 'Peugeot' est significative,
(1- p = 96,63%), comme il faut être supérieur à 95% pour que la différence
soit significative, on satisfait bien la norme.
7) Etude des tris croisés simples
l'a
ut
eu
r
Les variables (questions) sont croisées deux à deux. On croise deux types
de variables : les variables quantitatives et les variables qualitatives
(nominales). On ne peut pas croiser une variable quantitative avec une
variable qualitative. Pour ce faire, il faut transformer une des deux
variables afin de croiser deux variables de même nature. On transforme
plus facilement une variable quantitative en variable qualitative que
l’inverse.
71) Le croisement des variables quantitatives : la
méthode des moindres carrés (ajustement linéaire)
de
- Modélisation mathématique et droite de régression
Prenons un exemple : Soit deux variables x et y :
x représente la taille des individus
y représente le poids des individus
On observe les poids et tailles d’une série d'individus A, B, C, D...
IM
EC
A
B
C
D
E
F
G
TAILLE (x)
centimètres
175
180
182
173
190
171
168
EN
INDIVIDUS
POIDS (y)
kilogrammes
68
80
72
68
87
70
73
SP
Représentation graphique (nuage de points)
43
JJ Croutsche UP 13
GEODE
2007-2008
POIDS (y)
90
85
poids
80
75
70
65
60
165
170
175
180
185
190
195
l'a
ut
eu
r
taille
Nous construisons un modèle mathématique de la forme : y = ax + b,
équation d'une droite passant le plus près possible de l'ensemble des
points.
de
Nous utilisons, pour ce faire, la méthode des moindres carrés.
Mathématiquement, la somme des écarts au carré, entre les points
observés et la droite d’équation du modèle, doit être la plus faible possible.
Cette somme peut s’écrire de la façon suivante :
Σ [y - (ax + b)]²
Il s’agit de minimiser cette expression pour trouver les valeurs de a et b :
EN
Σ [y - (ax + b)]² = Min
EC
y
IM
sachant que y représente les valeurs observées et (ax + b) les valeurs de
l’équation de régression.
G
F
C
A
SP
E
D
B
x
Nous obtenons les valeurs de a et b suivantes :
44
JJ Croutsche UP 13
GEODE
a =
2007-2008
∑ (x − x )(y − y )
∑ (x − x )
2
a=
et
cov.xy
Vx
b = y − ax
sachant que l’équation de la première droite de régression est de la
forme :
Relation poids taille (mode de calcul)
l'a
ut
eu
r
y = ax + b
x
y
x−x
y− y
( x − x )( y − y )
A
175
68
175177
+3
+5
-4
+ 13
-6
-9
6874
+6
-2
-6
+ 13
-4
-1
(-2)(-6) = 12
(-2)² = 4
18
- 10
24
169
24
9
∑ X.Y = A =
246
9
25
16
169
36
81
∑ X² = B =340
IM
EN
180
80
182
72
173
68
190
87
171
70
168
73
∑x
∑y
=1239 =518
EC
B
C
D
E
F
G
de
Individus
SP
x = 1239 / 7 = 177 ;
a=
(x
− x
)
2
y = 518 / 7 = 74
246
= 0,7235
340
b = 74 − 0,7235 × 177 = −54
45
JJ Croutsche UP 13
GEODE
2007-2008
L’équation de régression linéaire est de la forme : y = 0,7235 x - 54
On peut vérifier ce résultat à l’aide de la fonction EXCEL directement sur
le graphe :
Nous rappelons la procédure sur EXCEL :
l'a
ut
eu
r
1) Copier le tableau sur EXCEL ;
2) On obtient trois colonnes sur EXCEL : colonne de gauche : lettres :
observations (A, B, C, …), puis les colonnes des deux variables (x et
y) ;
3) On ne retient que les colonnes des deux variables (x et y) ;
4) On va dans assistant graphique ;
5) On choisit nuage de points ;
6) On clique « suivant » ;
7) On intitule les axes ;
8) « Terminer » => on obtient le graphe des points ;
9) On peut ensuite en cliquant sur les deux axes modifier les
échelles ;
10) On clique sur les points qui deviennent jaunes ;
11) On se place sur un point jaune et on fait un clic droit ;
12) On sélectionne « ajouter une courbe de tendance » ;
13) On choisit le type de courbe (droite de régression ou autre) ;
14) Dans options on fait afficher l’équation sur le graphique ainsi que
le coefficient de détermination R².
90
EN
85
70
EC
65
IM
poids
80
75
60
165
SP
y = 0,7235x - 54,065
2
R = 0,5973
de
Liaison poids / taille
170
175
180
185
190
195
taille
Nous retrouvons bien l’équation de régression. Excel nous donne la valeur
du coefficient de détermination R².
46
JJ Croutsche UP 13
GEODE
2007-2008
La racine carrée de ce coefficient de détermination R² correspond au
coefficient de corrélation linéaire r = 0,77.
Plus ce coefficient se rapproche de 1, et plus la liaison entre les variables
est élevée.
Dans notre exemple, il existe bien une relation entre les deux variables
poids et taille.
En théorie il est préférable de procéder au test r de Fisher pour valider
la relation entre deux variables. Plus le nombre d’observations est
important, et on peut obtenir un r faible.
Un coefficient de 0,2 peut suffire à expliquer la liaison entre deux variables
quantitatives. En revanche ce type de liaison n’est pas modélisable. En
économétrie, pour qu’une liaison soit modélisable, il faut que le coefficient
de corrélation dépasse la valeur de 0,99.
l'a
ut
eu
r
72) Application SPHINX : Etude automobile ; relation des
variables « dépenses » et « kilométrage »
Nous présentons une application Sphinx sur l’enquête automobile en
croisant les variables « dépenses » et « kilométrage ». Différentes
présentations graphiques sont possibles :
EC
IM
EN
de
KILOMETRAGE
660,00
DEPENSE
SP
550,00
La taille des cercles correspond à la taille des effectifs
47
JJ Croutsche UP 13
GEODE
2007-2008
DEPENSE
1
1
1
2
1
4
1
1
2
11
6
2
7
15
2
2
15
30
15
1
550,00 20
26
4
1
660,00
1
1
1
1
l'a
ut
eu
r
1
KILOMETRAGE
Les chiffres représentent les effectifs à l’intérieur de chaque grille.
Corrélation DEPENSE / KILOMETRAGE
de
Le graphique montre les 176 points de coordonnées KILOMETRAGE ;
DEPENSE
La dépendance est significative.
EN
Equation de la droite de régression :
DEPENSE = 0,68 * KILOMETRAGE -7,32
EC
IM
Coefficient de corrélation : + 0,85 (KILOMETRAGE explique 71% de la
variance de DEPENSE).
L’Ecart-type du coefficient de régression est de : 0,032
SP
27 observations ne sont pas prises en compte (non-réponse à au moins un
des critères).
Les nombres sont les nombres d'observations dans chaque maille de la
grille.
48
JJ Croutsche UP 13
GEODE
2007-2008
DEPENSE
550,00
KILOMETRAGE
l'a
ut
eu
r
660,00
de
Les couleurs (ou motifs) sont les modalités de la question 'SEXE'.
SP
EC
IM
EN
Intégration de la variable CSP
49
JJ Croutsche UP 13
GEODE
2007-2008
DEPENSE
Cadre
Cadre
Commerç...
Cadre
Cadre Cadre Cadre
Cadre
Cadre
Commerç...
Cadre
Cadre Agricul...
l'a
ut
eu
r
Commerç...
Cadre
Cadre
Employé...
Cadre
-Agricul...
Cadre
Employé...
-Commerç...
Ouvrier...
Cadre
Cadre Cadre
Cadre
Cadre
Commerç...
-Cadre
Cadre
Commerç...
A
Cadre
Ouvrier...
utre
Commerç...
Commerç...
Employé...
Commerç...
Cadre
-Cadre
Ouvrier...
Employé...
Ouvrier...
Employé...
Cadre
Inactif...
Employé...
Chomeur...
Employé...
Ouvrier...
Etudian...
-Cadre
Employé...
Ouvrier...
Chomeur...
Inactif...
Autre
-Agricul...
Chomeur...
Inactif...
Autre
Cadre
Employé...
Cadre
Chomeur...
-Employé...
Employé...
Ouvrier...
Etudian...
Ouvrier...
Chomeur...
Inactif...
Employé...
Autre
Employé...
Ouvrier...
Etudian...
Agricul...
Employé...
Ouvrier...
Agricul...
Inactif...
Chomeur...
Inactif...
Chomeur...
Agricul...
Cadre
Employé...
Ouvrier...
Chomeur...
Inactif...
Etudian...
Autre
Etudian...
Employé...
Etudian...
Autre
Etudian...
Employé...
Etudian...
Etudian...
550,00
Agricul...
Inactif...
Etudian...
Etudian...
Etudian...
Etudian...
Etudian...
Etudian...
Inactif...
Etudian...
Autre
660,00
KILOMETRAGE
On voit d’après cette carte que ce sont les cadres qui dépensent le plus et
qui font le plus de kilomètres.
de
72) Croisement des variables qualitatives (nominales) :
Test de Khi² et analyse des correspondances simples
(croisement de deux variables)
EN
Ce test est utilisé pour étudier la relation entre deux variables nominales
(qualitatives).
EC
IM
Soit un échantillon de 282 personnes. Nous étudions la relation entre :
• Le lieu de vacances, variable nominale,
• et la catégorie socioprofessionnelle (CSP) autre variable
nominale.
SP
On observe le tableau de contingence suivant et on se pose la question
de savoir, s'il existe ou non, une relation entre la catégorie
socioprofessionnelle (CSP) et le lieu de vacances ?
Lieu
de
vacances
50
JJ Croutsche UP 13
Effectifs
Campagn
e
Montagne
a = 100
GEODE
Mer
Voyages
Etranger
2007-2008
Total
b = 85
c = 12
A = 197
d = 10
e = 25
f = 50
B = 85
C = 110
D = 110
E = 62
T = 282
Ouvriers
C.S.P Employé
s
cadres
total
l'a
ut
eu
r
1) On construit à partir des totaux lignes, des totaux colonnes et
du total tableau, un nouveau tableau appelé tableau théorique, en
respectant les proportions des totaux lignes (A, B) et des totaux colonnes
(C, D, E). Ce tableau exprime l’indépendance des variables.
On construit un tableau théorique exprimant l’indépendance des variables.
On se réfère aux totaux lignes et aux totaux colonnes pour calculer des
valeurs théoriques représentant une proportionnalité lignes, colonnes.
Tableau théorique d’indépendance des variables
Mer
Voyages
Etranger
Total
b’
c’
A = 197
d’
e’
f’
B = 85
C = 110
D = 110
E = 62
T = 282
IM
Ouvriers
C.S.P Employé
s
Campagn
e
Montagne
a’
vacances
EN
Effectifs
de
de
Lieu
EC
cadres
SP
total
Les valeurs du tableau théorique sont calculées de la façon suivante :
51
JJ Croutsche UP 13
GEODE
a ' b' c ' A
= = =
C D E T
2007-2008
d ' e' f ' B
= = =
C D E T
et
On aurait pu faire de la même façon :
a' d ' C
= =
A B T
b ' e' D
= =
A B T
et
c' f ' E
= =
A B T
et
Calculons une des valeurs : a’
a’ / C = A / T => a’ = (A x C) / T
Ce qui revient à dire que
l'a
ut
eu
r
a’ = ( total Ligne correspondant x total Colonne correspondant)
Total effectif Tableau
Tableau théorique exprimant l’indépendance des variables
Campagne
Montagne
b' =
A.D
= 76,84
T
e' =
B.D
= 33,15
T
Total
D = 110
EN
C = 110
Voyages
Etranger
c' =
f '=
Total
A.E
= 43,31
T
A = 197
B.E
= 18,69
T
B = 85
E = 62
T = 282
de
A.C
Ouvrier
a' =
= 76,84
s
T
employé
s
Cadres
B.C
d' =
= 33,15
T
Mer
EC
IM
2) On calcule la valeur de χ 2 en faisant la somme des carrés des
différences entre valeurs observées et théoriques, chaque différence au
carré étant ensuite divisée par les valeurs théoriques correspondantes :
(a − a ')2
(b − b ' ) 2
(c − c ' ) 2
(d − d ')2
(e − e' ) 2
( f − f ')2
+
+
+
+
+
+ ...
a'
b'
c'
d'
e'
f'
SP
χ2 =
χ 2 = 6,98 + 0,8665 + 22,6348 + 16,1720 + 2,0663 + 52,4513 = 101,17
Logiquement plus la valeur de Khi² est importante, et plus on s’éloigne du
tableau théorique d’indépendance des variables. En conséquence cela
52
JJ Croutsche UP 13
GEODE
2007-2008
signifie que la relation entre les deux variables étudiées est de plus en plus
forte.
Les valeurs de Khi² pour chaque case sont appelées valeurs de Khi²
partielles. La somme de ces valeurs correspond au Khi² total. La formule
généralisée de Khi deux sur deux variables croisées s’écrit :
3) Interprétation du résultat :
On choisit l’hypothèse nulle : Ho = indépendance des variables (pas de
différence entre tableau d’observations et tableau théorique)
• Calcul du degré de liberté : On tient compte du nombre de lignes ( n c ) et
du nombre de colonnes ( n l ) .
=>
ν = 2 ×1 = 2
dans notre exemple.
l'a
ut
eu
r
ν = ( n c − 1)( n l − 1)
• On observe la table de χ 2 pour déterminer la valeur seuil (à 0,05) :
Soit 5,99 dans notre exemple.
On se réfère à la loi de Khi deux dont la courbe de probabilité est la
suivante :
d’indépendance des variables.
de
Notre valeur de Khi² calculée de 101,17 est très supérieure à la valeur
seuil de 5,99
donc on refuse H 0 qui correspond à l’hypothèse
EN
On conclut en conséquence que les deux variables sont dépendantes, car
on s'éloigne du tableau théorique d'indépendance.
SP
EC
IM
Remarque
Les conditions de validité pour être remplies, nécessitent des effectifs
théoriques supérieurs à 5 unités. Dans le cas contraire, il faut opérer des
regroupements ou supprimer les lignes et les colonnes dont les effectifs
sont trop faibles et n’ont pas de signification.
Il est préférable de regrouper, car en supprimant, on perd de l’information.
Par ailleurs dans les tableaux deux lignes deux colonnes, il est préférable
d’utiliser le test de Fisher traité ultérieurement.
Autre indicateur : le coefficient Béta
Coefficient Béta : critère test sur les tableaux de contingence
Ce coefficient est calculé à partir de la valeur de Khi deux mais il n’est pas
nécessaire de connaître les valeurs de la table. La formule de Béta est la
suivante :
53
JJ Croutsche UP 13
β =
χ ² − ( l − 1)( c − 1)
( l − 1)( c − 1)
GEODE
2007-2008
avec l nombre de lignes et c nombre de
colonnes
La valeur de (l - 1)(c - 1) correspond au nombre de degré de liberté du
tableau de contingence. Elle prend en compte la taille du tableau (nombre
de lignes et de colonnes), pondérant la valeur de Khi² calculée.
Ainsi on estime que la liaison entre les variables est manifeste dès que
Béta est > à 3. Dans le cas contraire, on accepte l’hypothèse nulle
d’indépendance des deux variables.
74) Croisement sur sphinx des variables CSP et Marques
(étude automobile)
CSP Commerç
ant, artis
an
Cadre
Employé
Ouvrier
Chomeur
Etudiant
Inactif
TOTAL
1
7
8
1
Peugeot
1
3
5
2
Citroën
1
3
2
3
Volkswagen
1
3
3
0
Fiat
3
0
1
1
Ford
0
0
3
2
Toyota
0
1
0
0
BMW
1
6
0
0
Mercedes
2
4
1
0
Opel
1
0
2
1
11
27
25
TOTAL
1
6
5
0
3
3
17
1
4
3
17
14
29
1
3
3
4
1
0
10
2
2
2
11
0
1
0
2
0
0
0
7
0
0
0
7
1
1
1
7
de
Renault
l'a
ut
eu
r
MARQUE
21
17
121
10
10
EN
MARQUE x CSP
Quelle est la marque de votre voiture ?
Quelle est votre catégorie socio-professionnelle ?
EC
IM
La dépendance est significative. chi2 = 93,04, ddl = 70, 1-p =
96,58%.
Les cases encadrées en bleu (rose) sont celles pour lesquelles l'effectif réel
est nettement supérieur (inférieur) à l'effectif théorique.
Attention, 86 (97.7%) cases ont un effectif théorique inférieur à 5, les règles
du chi2 ne sont pas réellement applicables.
% de variance expliquée (V de Cramer) : 6,55%
SP
Les valeurs du tableau sont les nombres de citations de chaque couple de
modalités.
54
JJ Croutsche UP 13
GEODE
2007-2008
MARQUE x CSP
30 Renault
19 Peugeot
18 Citroën
14 Volkswagen
11 Fiat
12 Ford
2 Toyota
7 BMW
7 Mercedes
7 Opel
Commerçant, artisan
Cadre
Employé
Ouvrier
Chomeur
Etudiant
Inactif
l'a
ut
eu
r
Agriculteur
SP
EC
IM
EN
de
On peut partant de ces données réaliser une analyse factorielle des
correspondances simples. Le premier axe horizontal marque une
opposition entre les modalités des variables. Les deux axes de la carte
factorielle permettent d’expliquer de façon spatiale les liens entre les
modalités des variables. Plus les modalités sont rapprochées, et plus la
liaison entre ces modalités est forte. C’est le premier axe factoriel (axe
horizontal) qui explique le plus la liaison. Le pourcentage de variance
expliquée est de 49,7%.
55
JJ Croutsche UP 13
GEODE
2007-2008
Axe 2 (34.7%)
Renault
Etudiant
Peugeot
Inactif
Employé
Volkswagen
Ford
Toyota
Axe 1 (49.7%)
Ouvrier
Cadre
Opel
Citroën
BMW
Mercedes
Chomeur
l'a
ut
eu
r
Commerçant, artisan
Fiat
de
Le premier axe factoriel (axe horizontal : F1) explique le plus la variance du
nuage de point (49,7%). Il montre une opposition entre la partie droite et la
partie gauche du graphe. A gauche, on observe plutôt des CSP supérieures
et des véhicules de haut de gamme (BMW, Mercedes, Toyota). A droite du
graphe, on observe plutôt des CSP plus modestes (chômeur) et des
véhicules bas de gamme (Fiat).
On interprète cet axe factoriel comme un axe financier. A gauche on
observe des revenus plus élevés et à droite des revenus plus modestes.
IM
EN
En ce qui concerne l’axe vertical (second axe factoriel : F1) l’interprétation
est beaucoup plus difficile. Pour ce faire il faut que les échantillons soient
importants sinon on risque de faire de grossières erreurs d’interprétation.
Dans notre exemple, on ne peut interpréter cet axe.
SP
EC
Cette carte factorielle permet de faire des typologies d’individus, c'est-àdire des agrégats de personnes ayant des caractéristiques proches. Ces
typologies permettent de définir des cibles marketing et de définir ensuite
des stratégies marketing.
Etude du croisement marque/options
56
JJ Croutsche UP 13
OPTIONS
GEODE
Jantes
alu
2007-2008
Vitres Lecteur Climatisat Airbags Attelage Intérieur
teintées CD/ordin
ion
cuir
ateur
TOTAL
MARQUE
Renault
+0
+0
+0
+0
+4
-2
-1
Peugeot
+0
+0
+0
+0
+0
+1
-2
27
Citroën
+3
+3
+2
+0
-1
+0
-2
20
Volkswagen
+0
+0
+0
+0
+0
+0
+0
42
Fiat
+1
+1
+0
-1
+0
+0
-1
10
Ford
+8
+0
+0
-1
+0
+1
-1
18
BMW
-4
-1
+1
+0
-1
+0
+9
31
Mercedes
-1
+0
+0
+0
-1
+0
+18
28
Opel
+1
+0
+0
+1
+0
-1
-1
18
TOTAL
25
9
27
59
97
15
18
250
56
l'a
ut
eu
r
La dépendance est significative. chi2 = 66,34, ddl = 48, 1-p = 95,93%.
Les cases encadrées en bleu (rose) sont celles pour lesquelles l'effectif réel
est nettement supérieur (inférieur) à l'effectif théorique.
Attention, 48 (76.2%) cases ont un effectif théorique inférieur à 5, les
règles du chi2 ne sont pas réellement applicables.
Le chi2 est calculé sur le tableau des citations (effectifs marginaux égaux à
la somme des effectifs lignes/colonnes).
% de variance expliquée (V de Cramer) : 5,50%
Les valeurs du tableau sont les pourcentages chi2 partiel / chi2 total. Le
signe représente l'écart à l'indépendance.
de
MARQUE x OPTIONS
56 Renault
42 Volkswagen
27 Peugeot
20 Citroën
18 Ford
18 Opel
10 Fiat
EC
Jantes alu
IM
28 Mercedes
EN
31 BMW
Vitres teintées
Lecteur CD/ordinateur
Attelage
Intérieur cuir
Climatisation
SP
Airbags
57
JJ Croutsche UP 13
GEODE
Vitres teintées
Citroën
Attelage
Lecteur CD/ordinateur
Fiat
Volkswagen
Jantes alu
Peugeot
Climatisation
Ford
Axe 1 (57.87%)
2007-2008
Axe 2 (15.97%)
Mercedes
BMW
Intérieur cuir
Airbags
Renault
Opel
l'a
ut
eu
r
Le premier axe marque une opposition entre le luxe, haut de gamme à
droite avec BMW, Mercedes, le cuir associé à ces véhicules.
Sur la partie gauche se regroupent des véhicules modestes (Ford, Fiat,
Opel…) l’option associée étant la jante aluminium. Ces véhicules à bas prix
ne possédant pas ces options en série, il est nécessaire d’en faire
l’acquisition ou de choisir cette option.
En revanche les modèles, haut de gamme, sont équipés à l’origine de
jantes aluminium, cette option n’est donc pas nécessaire.
8) Etude des tris croisés multiples
EN
de
Dans ces études, on croise plus de deux variables. Il est évident que ces
analyses sont plus complexes mais permettent d’enrichir les analyses
faites jusqu’ici. Elles permettent de synthétiser les résultats et de mettre
en place des typologies et des segmentations. Rappelons que les
segmentations sont des découpages affinés de marché permettant de
localiser des consommateurs ou des utilisateurs ayant des caractéristiques
communes. Ces méthodes permettent d’élaborer des stratégies
commerciales et des stratégies marketing.
IM
Il existe plusieurs méthodes dites de « première génération » lesquelles
permettent d’explorer les données et de concevoir des modèles qui
demandent pour être validés des analyses de type confirmatoire dites de
« seconde génération ».
EC
Dans le cadre de ce texte, nous étudierons les analyses classiques aidant à
l’exploration des données statistiques. En d’autres termes, nous nous
limiterons aux analyses de première génération.
SP
Dans ce cadre, nous aborderons :
-
Régressions et corrélations multiples,
Analyse en composantes principales,
Analyse discriminante et typologies,
Analyse des correspondances multiples.
58
JJ Croutsche UP 13
GEODE
2007-2008
81) Régressions et corrélations multiples
On explique une variable par plusieurs autres variables. On se différencie
des modèles de régression et corrélation simples de la forme :
y = ax + b
avec y qui correspond à la variable expliquée et x qui correspond à la
variable explicative.
l'a
ut
eu
r
Les modèles de régression et corrélation multiple sont plus ambitieux
puisque l’on tente d’expliquer une variable y par plusieurs variables
explicatives : x1, x2, x3….
Chacune de ces variables explique plus ou moins la variable que l’on tente
d’expliquer. Il est logique d’avoir recours pour bien comprendre les
résultats à des tests statistiques spécifiques.
Dans les modèles de régression multiples les équations sont de la forme :
Y = a1x1 + a2x2 + a3x3 + …akxk + … Anxn + Résidu
de
Y représente la variable expliquée et
x1, x2, x3…xk…xn. représentent les variables explicatives et le Résidu
représente ce que l’on ne peut expliquer.
EN
Les variables traitées sont uniquement quantitatives.
IM
Mathématiquement les calculs se font de la même façon que dans les
régressions simples. On minimise des distances entre les points observés
et le modèle.
EC
Nous traitons un exemple à partir de l’enquête automobile de SPHINX.
SP
Nous étudions la variable dépenses, variable expliquée, par l’ensemble
des autres variables quantitatives traitées dans l’étude.
Matrice des corrélations
On établit une matrice de corrélations entre toutes les variables (la variable
expliquée et les variables explicatives).
59
JJ Croutsche UP 13
GEODE
2007-2008
Cette matrice de corrélations est carrée symétrique. La diagonale de la
matrice est unitaire puisque les variables sont croisées entre elles. Les
coefficients sont symétriques par rapport à la diagonale unitaire de la
matrice.
La matrice nous donne les coefficients de corrélation simples (r) entre deux
variables. En observant la première colonne (Dépense), on voit que le
coefficient de corrélation entre les dépenses et le kilométrage est
important. On voit qu’au fur et à mesure que l’on descend dans la matrice,
les coefficients de corrélation linéaires sur cette première colonne
(dépenses) diminuent en valeur absolue.
DEPENSEKILOME NTRETIETENUE DE NOTE VITESSESTHETIQU
SECURITEESPACECONSOM
NCIENNET
CONFORTOLLUTIOPERF_EN VARIAB
ROUTE
MATION
TRETIEN LE_30
TRAGE
1,00
KILOMETRA
0,88
1,00
ENTRETIEN
0,58
0,47
1,00
TENUE DE R
0,45
0,38
0,28
1,00
NOTE
0,45
0,46
0,28
0,65
1,00
VITESSE
0,42
0,39
0,21
0,62
0,66
1,00
ESTHETIQU
0,37
0,34
0,15
0,56
0,57
0,79
1,00
SECURITE
0,37
0,32
0,22
0,76
0,58
0,61
0,57
ESPACE
0,35
0,32
0,17
0,47
0,54
0,52
0,49
0,47
1,00
CONSOMMA
-0,33
-0,16
-0,23
-0,19
0,04
-0,15
-0,18
-0,19
-0,10
1,00
ANCIENNET
-0,33
-0,32
-0,11
-0,61
-0,75
-0,61
-0,57
-0,57
-0,40
-0,06
1,00
CONFORT
0,31
0,28
0,14
0,46
0,59
0,51
0,48
0,45
0,91
-0,05
-0,46
1,00
POLLUTION
0,05
0,16
-0,14
0,23
0,36
0,18
0,12
0,21
0,00
0,10
-0,45
0,09
PERF_ENTR
-0,03
0,07
-0,09
0,10
0,22
-0,00
0,11
0,06
-0,04
0,17
-0,11
0,00
0,35
1,00
VARIABLE_
0,03
0,04
0,01
-0,00
0,13
0,21
0,22
0,64
0,16
-0,06
-0,15
0,16
0,04
-0,02
l'a
ut
eu
r
DEPENSE
1,00
1,00
1,00
de
Le logiciel nous donne les moyennes et les écarts-types relatifs à chaque
variable.
IM
EN
L’écart-type (ect) est un indicateur de dispersion qui nous informe sur le
pouvoir discriminant de la variable.
La variable ne doit pas être trop dispersée (distribution trop hétérogène) et
la variable ne doit pas être insuffisamment dispersée (pas de pouvoir de
discrimination de la variable).
On utilise un test pour admettre ou non la variable étudiée comme
significative dans le modèle.
SP
EC
'DEPENSE' : moy = 1115,94, ect = 812,38
'KILOMETRAGE' : moy = 1585,07, ect = 900,68
'ENTRETIEN' : moy = 2,14, ect = 2,68
'TENUE DE ROUTE' : moy = 3,41, ect = 0,86
'NOTE' : moy = 13,31, ect = 2,52
'VITESSE' : moy = 3,59, ect = 1,11
'ESTHETIQUE' : moy = 3,87, ect = 1,04
'SECURITE' : moy = 3,42, ect = 0,84
'ESPACE' : moy = 3,28, ect = 0,75
'CONSOMMATION' : moy = 3,41, ect = 1,13
'ANCIENNETE' : moy = 4,16, ect = 2,87
'CONFORT' : moy = 3,30, ect = 0,74
60
JJ Croutsche UP 13
GEODE
2007-2008
'POLLUTION' : moy = 3,40, ect = 0,96
'PERF_ENTRETIEN' : moy = 3,36, ect = 0,56
'VARIABLE_30' : moy = -0,01, ect = 0,54
65 observations ne sont pas prises en compte (non-réponse à au moins un
des critères).
Représentation graphique
DEPENSE
0,88
KILOMETRAGE
0,58
ENTRETIEN
0,45
TENUE DE ROUTE
0,65
0,45
0,62
NOTE
0,66
0,42
0,76
VITESSE
0,37
l'a
ut
eu
r
0,79
0,61
ESTHETIQUE
-0,61
0,37
-0,75
SECURITE
0,35
ESPACE
-0,33
CONSOMMATION
0,91
-0,33
ANCIENNETE
0,64
0,31
0,05
POLLUTION
-0,03
: 0,85>coef.>0,70
VARIABLE_30
IM
: 0,70>coef.>0,50
PERF_ENTRETIEN
EN
0,03
: coef.>0,85
de
CONFORT
EC
Régression multiple de DEPENSE
SP
Variables explicatives : KILOMETRAGE, ENTRETIEN, TENUE DE ROUTE,
NOTE, VITESSE, ESTHETIQUE, SECURITE, ESPACE, CONSOMMATION,
ANCIENNETE, CONFORT, POLLUTION, PERF_ENTRETIEN, VARIABLE_30.
Diagramme des corrélations entre la variable expliquée et les variables
explicatives.
61
JJ Croutsche UP 13
GEODE
2007-2008
Les ronds bleus correspondent à des corrélations positives alors que les
ronds roses correspondent à des corrélations négatives.
Corrélations avec 'DEPENSE'
0,88
KILOMETRAGE
ENTRETIEN
0,58
TENUE DE ROUTE
0,45
VITESSE
0,42
ESTHETIQUE
0,37
0,37
SECURITE
ESPACE
0,35
CONSOMMATION
-0,33
ANCIENNETE
-0,33
0,05
PERF_ENTRETIEN
-0,03
0,03
IM
VARIABLE_30
EN
POLLUTION
de
0,31
CONFORT
l'a
ut
eu
r
0,45
NOTE
EC
Equation de la régression :
Modèle (M1) : modèle global
SP
DEPENSE = +0.665 * KILOMETRAGE +50.524 * ENTRETIEN 92880592.132 * TENUE DE ROUTE -6.154 * NOTE -2.771 * VITESSE 1.421 * ESTHETIQUE +123807701.573 * SECURITE -15.226 * ESPACE 111.798 * CONSOMMATION -22.593 * ANCIENNETE +50.025 * CONFORT
-49.392 * POLLUTION -50.158 * PERF_ENTRETIEN -123807733.109 *
VARIABLE_30 -107984285.873
62
JJ Croutsche UP 13
GEODE
2007-2008
Les 14 variables expliquent 84,6% de la variance de DEPENSE.
Coefficient de corrélation multiple : R = 0,92, coefficient de Fisher : F =
0,02
La significativité des paramètres nous permet d’évaluer le modèle.
Significativité des paramètres :
'KILOMETRAGE' : coefficient = 0,66, écart-type = 0,04
'ENTRETIEN' : coefficient = 50,52, écart-type = 13,21
l'a
ut
eu
r
'TENUE DE ROUTE' : coefficient = -92880592,13, écart-type = 690811882,64
(Peu influent)
'NOTE' : coefficient = -6,15, écart-type = 22,51 (Peu influent)
'VITESSE' : coefficient = -2,77, écart-type = 49,24 (Peu influent)
'ESTHETIQUE' : coefficient = -1,42, écart-type = 48,63 (Peu influent)
'SECURITE' : coefficient = 123807701,57, écart-type = 920835797,18 (Peu
influent)
'ESPACE' : coefficient = -15,23, écart-type = 97,82 (Peu influent)
'CONSOMMATION' : coefficient = -111,80, écart-type = 28,49
'ANCIENNETE' : coefficient = -22,59, écart-type = 17,80 (Peu influent)
'CONFORT' : coefficient = 50,03, écart-type = 99,81 (Peu influent)
'POLLUTION' : coefficient = -49,39, écart-type = 38,26 (Peu influent)
'PERF_ENTRETIEN' : coefficient = -50,16, écart-type = 58,96 (Peu influent)
'VARIABLE_30' : coefficient = -123807733,11, écart-type = 920835805,67
(Peu influent)
EN
de
Certains termes de l'équation sont peu influents, leur rapport « coefficient
de la variable explicative / écart-type » est inférieur à 1,96 (95% dans la loi
de Gauss).
En effet pour qu’une variable soit significative, il faut que le rapport
« coefficient / écart-type » soit supérieur à 1,96 (95% dans la loi de
Gauss) ; On accepte 5% de risque d’erreur mais on ne va pas au-delà.
IM
Autre problème :
Il ne faut pas que les variables explicatives soient corrélées entre elles, cela
déforme la qualité du modèle, il faut dans ce cas éliminer une des deux
variables.
EC
Attention, les variables 'ESPACE' et 'CONFORT' sont fortement corrélées
(coefficient de corrélation de 0,91). Il faudra donc éliminer une des
variables.
SP
65 observations ne sont pas prises en compte dans le calcul. (non-réponse
à au moins un des critères).
On peut en éliminant les variables non significatives (commande « oter »
dans SPHINX) obtenir un modèle satisfaisant tant en ce qui concerne le
coefficient de corrélation linaire que la valeur du test F de Fisher.
63
JJ Croutsche UP 13
GEODE
2007-2008
Le modèle de Régression multiple de DEPENSE pour les variables
KILOMETRAGE, ENTRETIEN, CONSOMMATION, ANCIENNETE, nous
permet d’obtenir l’équation de régression suivante :
Modèle (M2) : modèle purifié
DEPENSE = +0.658 * KILOMETRAGE +58.078 * ENTRETIEN -126.141 *
CONSOMMATION -24.310 * ANCIENNETE +478.354
Les 4 variables expliquent 83.7% de la variance de DEPENSE
Coefficient de corrélation multiple : R = 0,92, coefficient de Fisher : F =
5,35
l'a
ut
eu
r
Significativité des paramètres :
'KILOMETRAGE' : coefficient = 0,66, écart-type = 0,04
'ENTRETIEN' : coefficient = 58,08, écart-type = 12,18
'CONSOMMATION' : coefficient = -126,14, écart-type = 25,97
'ANCIENNETE' : coefficient = -24,31, écart-type = 10,51
Méthode pas à pas
de
65 observations ne sont pas prises en compte (non-réponse à au moins un
des critères).
EN
Cette méthode classique est une forme de système expert qui sélectionne
de façon automatique les variables à retenir dans l’ensemble des variables
explicatives traitées.
Equation de la régression (méthode pas à pas) :
IM
Modèle (M3) : méthode pas à pas
EC
DEPENSE = +0.659 * KILOMETRAGE +54.299 * ENTRETIEN -110.937 *
CONSOMMATION +90.764 * TENUE DE ROUTE +23.499
SP
Le calcul est fait selon la méthode 'pas à pas ascendante'.
Les termes sont classés dans l'ordre de leur importance pour l'explication
de DEPENSE.
Les 4 variables expliquent 83,8% de la variance de DEPENSE
Coefficient de corrélation multiple : R = 0,92, coefficient de Fisher : F =
6,26
64
JJ Croutsche UP 13
GEODE
2007-2008
Plus le coefficient de Fisher est important et le plus le modèles est
acceptable. Ajoutons que le coefficient de corrélation multiple est
suffisamment important et le modèle est donc acceptable.
Significativité des paramètres :
'KILOMETRAGE' : coefficient = 0,66, écart-type = 0,04, variation SCR =
0,77,
F partiel = 312,94
'ENTRETIEN' : coefficient = 54,30, écart-type = 12,20, variation SCR =
0,04,
F partiel = 19,82
'CONSOMMATION' : coefficient = -110,94, écart-type = 25,92, variation
SCR = 0,03,
F partiel = 18,31
'TENUE DE ROUTE' : coefficient = 90,76, écart-type = 36,27, variation
SCR = 0,01,
F partiel = 6,26
l'a
ut
eu
r
Les variables NOTE, VITESSE, ESTHETIQUE, SECURITE, ESPACE,
ANCIENNETE, CONFORT, POLLUTION, PERF_ENTRETIEN, VARIABLE_30
ne sont pas significatives et n'ont pas été prises en compte dans la
régression pas à pas.
65 observations ne sont pas prises en compte (non-réponse à au moins un
des critères).
EN
de
Ce dernier modèle est plus performant que le modèle que nous avons
construit, puisque le coefficient de corrélation est équivalent et que le F de
Fisher est supérieur au F que nous avons obtenu en réalisant notre
modèle.
82) Analyse en composantes principales
EC
IM
Cette analyse est issue des méthodes de régressions et de corrélations
multiples. Les variables traitées sont uniquement quantitatives. Cette
méthode nous permet de procéder à des représentations graphiques sous
forme de cartes dans un espace à deux dimensions. Ces cartes sont dites
« factorielles ».
SP
On commence l’analyse par une matrice des corrélations en prenant en
compte toutes les variables quantitatives :
65
JJ Croutsche UP 13
GEODE
2007-2008
CIENNEVITESSE
CONFORTECURIT ENUE D ESPACE THETIQU
CONSOMOLLUTIOPERF_EN NOTE NTRETIEKILOMEDEPENSEVARIAB
MATION
TRETIEN
ROUTE
TRAGE
LE_30
ANCIENNET
1,00
VITESSE
-0,61
1,00
CONFORT
-0,46
0,51
SECURITE
-0,57
0,61
0,45
1,00
TENUE DE
-0,61
0,62
0,46
0,76
ESPACE
-0,40
0,52
0,91
0,47
0,47
1,00
ESTHETIQU
-0,57
0,79
0,48
0,57
0,56
0,49
1,00
CONSOMM
-0,06
-0,15
-0,05
-0,19
-0,19
-0,10
-0,18
POLLUTION
-0,45
0,18
0,09
0,21
0,23
0,00
0,12
0,10
1,00
PERF_ENT
-0,11
-0,00
0,00
0,06
0,10
-0,04
0,11
0,17
0,35
NOTE
-0,75
0,66
0,59
0,58
0,65
0,54
0,57
0,04
0,36
0,22
1,00
ENTRETIEN
-0,11
0,21
0,14
0,22
0,28
0,17
0,15
-0,23
-0,14
-0,09
0,28
KILOMETRA
-0,32
0,39
0,28
0,32
0,38
0,32
0,34
-0,16
0,16
0,07
0,46
0,47
1,00
DEPENSE
-0,33
0,42
0,31
0,37
0,45
0,35
0,37
-0,33
0,05
-0,03
0,45
0,58
0,88
1,00
VARIABLE_
-0,15
0,21
0,16
0,64
-0,00
0,16
0,22
-0,06
0,04
-0,02
0,13
0,01
0,04
0,03
1,00
1,00
1,00
1,00
1,00
1,00
ANCIENNETE
VITESSE
l'a
ut
eu
r
Diagramme de corrélations
0,61
CONFORT
0,62
SECURITE
0,91
0,79
0,76
TENUE DE ROUTE
-0,75
ESPACE
0,66
de
ESTHETIQUE
CONSOMMATION
POLLUTION
NOTE
ENTRETIEN
KILOMETRAGE
0,64
EN
PERF_ENTRETIEN
0,65
EC
VARIABLE_30
IM
0,88
DEPENSE
coef.>0,85
0,85>coef.>0,70
SP
0,70>coef.>0,50
On procède ensuite à une représentation graphique (carte factorielle)
prenant en compte deux axes factoriels. On représente en règle générale
les deux axes les plus significatifs, ceux pour lesquels le pourcentage de
variance expliquée est le plus important.
66
JJ Croutsche UP 13
GEODE
2007-2008
Carte factorielle
Axe 2 (13.0%)
POLLUTION
CONSOMMATION
PERF_ENTRETIEN
NOTE
CONFORT
VARIABLE_30
SECURITE
ESTHETIQUE
VITESSE
ESPACE
l'a
ut
eu
r
Axe 1 (39.6%)
TENUE DE ROUTE
ANCIENNETE
KILOMETRAGE
DEPENSE
de
ENTRETIEN
IM
EN
On procède à une représentation des projections des points dans l’espace
des différentes observations. Ces projections sont réalisées dans le premier
plan factoriel, lequel est défini par rapport aux deux premiers axes
factoriels qui expliquent le plus la variance du nuage de points.
EC
On peut représenter autant d’axes factoriels que de variables. Chaque axe
exprime une opposition qu’il faut pouvoir expliquer et qui aide à
l’interprétation de la carte.
SP
On observe une projection des points dans l’espace sur le plan factoriel. Il
faut expliquer le premier axe factoriel, le second axe étant plus difficile à
expliquer surtout quand le nombre d’observations est relativement faible,
ce qui est le cas dans notre exemple.
Le premier axe factoriel (F1) marque une opposition entre un revenu plus
élevé et un revenu plus faible. Il explique le plus la variance du nuage
67
JJ Croutsche UP 13
GEODE
2007-2008
(39,6% de la variance alors que le second axe n’explique que 13% de la
variance).
Les points représentent les individus. Les variables sont représentées par
les segments.
- Plus les variables sont proches (angles faibles entre les variables) et plus
elles sont corrélées.
- Quand elles sont opposées (angle proche de 180°), elles sont corrélées de
façon négative, la relation est dite inverse.
- Quand elles sont perpendiculaires (orthogonales), elles sont
indépendantes.
La proximité des points et des variables et des axes factoriels permet
d’expliquer le graphe.
Les pourcentages sur les axes expliquent la variance.
l'a
ut
eu
r
Tableau des contributions
Axe 1
(+39.6%)
CONTRIBUTIONS VITESSE
POSITIVES
NOTE
Axe 2
(+13.0%)
+11,0% CONSOMMATION
+14,0%
+11,0% POLLUTION
+14,0%
SECURITE
+10,0% PERF_ENTRETIEN
+10,0%
TENUE DE ROUTE
+10,0% NOTE
+9,0% VARIABLE_30
CONFORT
+8,0%
ESPACE
DEPENSE
+2,0%
+1,0%
+8,0%
+7,0%
-9,0% ENTRETIEN
-21,0%
DEPENSE
-17,0%
KILOMETRAGE
-10,0%
ANCIENNETE
-6,0%
EC
IM
EN
CONTRIBUTIONS ANCIENNETE
NEGATIVES
de
ESTHETIQUE
SP
Le tableau de contributions nous permet d’expliquer la signification des
axes factoriels.
Le premier axe est toujours le plus significatif (39,6%) de la variance. Il
marque une opposition entre la partie droite qui exprime la technologie
donc des voitures plus récentes, plus coûteuses et la partie gauche du
graphe qui exprime moins de technologie avec des véhicules plus anciens,
de technologie moindre et de valeur financière moindre.
68
JJ Croutsche UP 13
GEODE
2007-2008
Cet axe exprime en conséquence un degré technologique, une forme de
revenu, de richesse. Il associe plusieurs concepts et permet d’agréger
plusieurs variables pour en faire une synthèse. Il permet de ce fait de créer
de nouvelles variables synthétiques. On peut de ce fait résumer dans une
certaine mesure l’information. C’est ce résumé qui nous permet de clarifier
les données.
Cette méthode d’analyses en composantes principales permet de simplifier
les données, les rendre plus lisibles. En revanche on perd un peu
d’information en synthétisant les données. C’est en cela que l’on dit que les
méthodes d’analyses factorielles sont simplificatrices et permettent de
réaliser une radiographie des données.
On peut à partir de cette méthode décliner d’autres méthodes d’analyse
dont l’analyse en composantes des moyennes.
l'a
ut
eu
r
* Analyse en composantes des moyennes en fonction des CSP
On sélectionne une variable qualitative (CSP). Cette variable apparaît en
ligne dans le tableau. En colonnes, on représente les moyennes obtenues
sur chaque CSP et pour chaque caractéristique. On un tableau de données
(moyennes).
Tableau des moyennes
VITESSE
CONFORT SECURITE TENUE DE
ROUTE
Agriculteur
6,83
2,43
3,29
2,57
Commerçant, artisan
2,83
3,83
3,58
3,83
Cadre
2,12
4,34
3,72
3,88
Employé
2,80
3,73
Ouvrier
7,85
2,73
Chomeur
6,64
2,67
Etudiant
4,28
3,43
Inactif
4,21
3,71
Autre
5,29
3,50
TOTAL
4,29
ESPACE
CONSOM
MATION
PERF_EN ENTRETIEN KILOME
TRETIEN
TRAGE
DEPENSE
3,29
3,14
3,71
2,71
3,57
1542,86
1035,71
3,75
3,58
4,00
3,25
3,08
4,83
2516,67
1875,00
3,97
3,78
4,59
3,16
3,31
2,88
2685,94
2042,19
3,19
3,31
3,23
3,15
4,19
3,50
3,42
1,12
1407,69
932,69
2,67
2,87
2,73
2,87
3,07
3,53
3,33
2,27
1400,00
973,33
3,00
3,00
2,83
2,83
3,00
3,58
3,42
1,67
1225,00
741,67
3,35
3,48
3,39
3,22
3,52
3,70
3,52
0,78
819,13
306,52
3,24
3,47
3,24
3,12
4,00
3,88
3,53
0,88
1161,76
670,59
3,13
3,25
3,13
3,13
3,88
3,63
3,63
2,13
1562,50
775,00
3,41
3,34
3,28
3,87
3,51
3,37
2,03
1646,97
1101,97
IM
3,57
ESTHE
TIQUE
2,71
EN
ANCIEN
NETE
CSP
de
On peut ensuite réaliser une analyse en composantes principales appelée
analyse en composantes des moyennes.
3,30
EC
Matrice des corrélations
ANCIENNETE VITESSE
ANCIENNETE
CONFORT
SECURITE
TENUE DE
ROUTE
ESPACE ESTHETIQUE CONSOM
MATION
PERF_EN
TRETIEN
ENTRETIEN
KILOME
TRAGE
DEPENSE
1,00
-0,95
CONFORT
-0,81
0,72
1,00
SECURITE
-0,89
0,94
0,72
1,00
TENUE DE ROUT
-0,91
0,93
0,85
0,96
1,00
ESPACE
-0,75
0,71
0,93
0,69
0,85
ESTHETIQUE
-0,94
0,96
0,73
0,83
0,87
0,75
1,00
CONSOMMATION
0,50
-0,52
-0,48
-0,55
-0,65
-0,65
-0,50
1,00
PERF_ENTRETIE
-0,24
0,38
-0,20
0,40
0,19
-0,32
0,23
0,15
1,00
ENTRETIEN
-0,06
-0,00
0,39
0,09
0,24
0,55
0,05
-0,59
-0,79
1,00
KILOMETRAGE
-0,51
0,53
0,64
0,54
0,67
0,81
0,58
-0,87
-0,40
0,78
1,00
DEPENSE
-0,47
0,50
0,59
0,49
0,62
0,78
0,56
-0,87
-0,41
0,78
1,00
SP
VITESSE
1,00
1,00
1,00
69
JJ Croutsche UP 13
Graphe des corrélations
GEODE
2007-2008
ANCIENNETE
-0,95
VITESSE
-0,89
0,94
CONFORT
-0,91
0,93
-0,94
SECURITE
0,96
0,96
0,93
TENUE DE ROUTE
ESPACE
ESTHETIQUE
CONSOMMATION
PERF_ENTRETIEN
ENTRETIEN
KILOMETRAGE
1,00
DEPENSE
coef.>0,85
l'a
ut
eu
r
0,85>coef.>0,70
0,70>coef.>0,50
Représentation graphique des moyennes
CSP
0,78
Cadre
Employé
IM
Agriculteur Commerçant,
artisan
EN
de
2685,94
Ouvrier
Chomeur
Etudiant
Inactif
Autre
TOTAL
VITESSE
CONFORT
SECURITE
TENUE DE ROUTE
ESPACE
ESTHETIQUE
CONSOMMATION
PERF_ENTRETIEN
ENTRETIEN
KILOMETRAGE
DEPENSE
EC
ANCIENNETE
SP
Analyse en composantes des moyennes (CSP)
70
JJ Croutsche UP 13
GEODE
2007-2008
Axe 2 (23.92%)
VITESSE
PERF_ENTRETIEN
SECURITE
Inactif
Autre
ESTHETIQUE
Employé
Cadre
CONSOMMATION
TENUE DE ROUTE
Etudiant
Commerçant, artisan
Axe 1 (64.01%)
ESPACE
CONFORT
ANCIENNETE Chomeur
Ouvrier
KILOMETRAGE
DEPENSE
ENTRETIEN
l'a
ut
eu
r
Agriculteur
On observe d’après cette carte une opposition sur F1 identique à ce que
l’on a pu observer sur l’analyse en composantes principale précédente (à
droite des véhicules sophistiqués et à gauche des véhicules plus
modestes). Les CSP à revenu plus élevé se situent sur la partie droite du
graphe alors que les CSP les plus modestes se situent sur la partie gauche
du graphe.
de
Tableau des contributions
Axe 1
(+64.38%)
+11,0% PERF_ENTRETIEN
EN
CONTRIBUTIONS TENUE DE ROUTE
POSITIVES
ESPACE
Axe 2
(+24.31%)
+11,0% VITESSE
+28,0%
+7,0%
+9,0% SECURITE
+5,0%
CONFORT
+9,0% ESTHETIQUE
+4,0%
SECURITE
+9,0% CONSOMMATION
+3,0%
+9,0% TENUE DE ROUTE
+2,0%
IM
VITESSE
ESTHETIQUE
-9,0% ENTRETIEN
-7,0% DEPENSE
-25,0%
-8,0%
KILOMETRAGE
-7,0%
ANCIENNETE
-5,0%
ESPACE
-1,0%
SP
EC
CONTRIBUTIONS ANCIENNETE
NEGATIVES
CONSOMMATION
71
JJ Croutsche UP 13
GEODE
2007-2008
Analyse en composantes des moyennes sur les marques de véhicules
Tableau des moyennes
ANCIEN
NETE
MARQUE
VITESSE CONFORT SECURITE TENUE DE ESPACE
ROUTE
ESTHE
TIQUE
CONSOM ENTRETIEN KILOME
MATION
TRAGE
DEPENSE
Renault
3,56
3,50
3,61
3,56
3,42
3,56
4,06
3,83
1,47
1647,22
1026,39
Peugeot
4,88
3,33
3,29
3,43
3,33
3,33
3,76
3,33
1,52
1666,67
1035,71
Citroën
5,62
3,29
3,38
3,29
3,19
3,29
3,62
3,38
0,81
1425,71
723,81
Volkswagen
2,60
3,94
3,22
3,39
3,56
3,22
4,11
3,67
3,17
1950,00
1250,00
Fiat
6,36
3,00
2,75
2,75
3,00
2,67
2,92
3,58
2,75
1791,67
1108,33
Ford
4,82
3,57
2,64
3,14
3,07
2,64
3,64
3,36
1,29
1264,29
857,14
Toyota
3,33
4,00
4,00
4,00
3,67
4,00
3,67
2,00
6,00
1400,00
1350,00
BMW
2,44
5,00
4,00
4,33
4,44
4,00
5,00
2,78
3,33
2611,11
2138,89
Mercedes
2,80
5,00
4,13
3,88
3,75
4,13
4,88
2,75
3,38
2187,50
1906,25
Opel
2,80
3,50
3,20
3,60
3,40
3,10
3,90
3,70
1,90
1420,00
965,00
Volvo
11,33
2,33
3,00
2,67
2,33
3,00
2,67
4,00
2,33
1000,00
733,33
4,21
3,62
3,35
3,44
3,39
3,32
3,89
3,46
2,01
1683,48
1110,32
TOTAL
l'a
ut
eu
r
Matrice des corrélations
NCIENNET VITESSE CONFORTSECURITETENUE DE ESPACE STHETIQUCONSOMENTRETIEN KILOME DEPENSE
MATION
TRAGE
ROUTE
ANCIENNETE
1,00
VITESSE
-0,80
1,00
CONFORT
-0,53
0,75
1,00
SECURITE
-0,79
0,87
0,86
1,00
TENUE DE RO
-0,86
0,92
0,74
0,93
1,00
ESPACE
-0,52
0,76
1,00
0,86
0,74
ESTHETIQUE
-0,82
0,94
0,73
0,87
0,90
0,73
1,00
CONSOMMAT
0,47
-0,67
-0,69
-0,71
-0,62
-0,71
-0,45
1,00
ENTRETIEN
-0,26
0,44
0,55
0,47
0,41
0,57
0,18
-0,74
1,00
KILOMETRAG
-0,62
0,81
0,56
0,64
0,83
0,56
0,80
-0,34
0,26
1,00
DEPENSE
-0,58
0,91
0,74
0,77
0,85
0,75
0,81
-0,62
0,56
0,89
CONFORT
de
EN
ANCIENNETE
VITESSE
1,00
0,87
0,92
SECURITE
TENUE DE ROUTE
ESPACE
ESTHETIQUE
EC
CONSOMMATION
0,94
IM
1,00
1,00
0,86
0,93
0,87
0,90
0,91
ENTRETIEN
KILOMETRAGE
0,89
DEPENSE
SP
coef.>0,85
0,85>coef.>0,70
0,70>coef.>0,50
72
JJ Croutsche UP 13
GEODE
2007-2008
Axe 2 (12.67%)
ESTHETIQUE
CONSOMMATION
KILOMETRAGE
TENUE DE ROUTE
Renault
Volkswagen
Opel
Ford
Citroën
BMW
DEPENSE
Peugeot
VITESSE
SECURITE
Fiat
Mercedes
Axe 1 (72.71%)
CONFORT
ESPACE
ANCIENNETE
Volvo
ENTRETIEN
l'a
ut
eu
r
Toyota
de
On observe d’après cette carte une opposition sur F1 identique à ce que
l’on a pu observer sur l’analyse en composantes principale précédente (à
droite des véhicules sophistiqués et à gauche des véhicules plus
modestes). Les marques les plus sophistiquées se situent sur la partie
droite du graphe alors que les Marques. Elles bénéficient des
caractéristiques les mieux notées. En revanche les moins sophistiquées se
situent sur la partie gauche du graphe. Dans notre analyse les quelques
véhicules Volvo (3 sur 4) sont plutôt anciens.
EN
Tableau des contributions
Axe 1
(+72.71%)
CONTRIBUTIONS VITESSE
POSITIVES
SECURITE
+20,0%
+10,0%
TENUE DE ROUTE
+11,0% KILOMETRAGE
+10,0%
ESTHETIQUE
+10,0% TENUE DE ROUTE
+2,0%
+10,0% VITESSE
+1,0%
EC
IM
+11,0% CONSOMMATION
+11,0% ESTHETIQUE
DEPENSE
CONFORT
CONTRIBUTIONS ANCIENNETE
NEGATIVES
CONSOMMATION
SP
Axe 2
(+12.67%)
+9,0%
-7,0% ENTRETIEN
-6,0% ANCIENNETE
-36,0%
-7,0%
ESPACE
-5,0%
CONFORT
-4,0%
73
JJ Croutsche UP 13
GEODE
2007-2008
83) Analyse discriminante
Cette analyse est directement issue de l’analyse en composantes
principales. Les variables traitées sont uniquement quantitatives.
L’analyse discriminante permet de faire des typologies à caractère
dichotomique (2 catégories de consommateurs : par exemple « acheteurs »
et « non acheteurs »).
Il suffit ensuite de définir des catégories et leurs caractéristiques.
l'a
ut
eu
r
Axe 2 (13.0%)
POLLUTION
CONSOMMATION
PERF_ENTRETIEN
NOTE
CONFORT
VARIABLE_30
SECURITE
ESTHETIQUE
VITESSE
Axe 1 (39.6%)
Classe n° 1
TENUE DE ROUTE
Classe n° 2
KILOMETRAGE
DEPENSE
ENTRETIEN
SP
EC
IM
EN
ANCIENNETE
de
ESPACE
La classe (1) regroupe des individus aux revenus plus faibles, qui
possèdent des voitures anciennes.
La classe (2) regroupe des individus aux revenus plus élevés, propriétaires
de voitures plus sophistiquées, appartenant à des CSP plus élevées.
74
JJ Croutsche UP 13
GEODE
2007-2008
Elaboration de la carte typologique
Axe 2 (13.0%)
NOTE
SECURITE
POLLUTION
CONSOMMATION
PERF_ENTRETIEN
ESTHETIQUE
CONFORT
VARIABLE_30
TENUE DE ROUTE
l'a
ut
eu
r
conservateurs moins aisés
VITESSE
Axe 1 (39.6%)
ESPACE
progressistes aisés
ANCIENNETE
KILOMETRAGE
DEPENSE
EN
de
ENTRETIEN
IM
84) Analyse des correspondances multiples
SP
EC
Cette méthode est issue de l’analyse en composantes principales. Cette
méthode permet de croiser de façon concomitante des variables
qualitatives et quantitatives. Cette méthode offre des possibilités
différentes. On réalise des cartes factorielles et on fait apparaître
directement les modalités sur la carte. La proximité des modalités permet
d’expliquer la carte factorielle.
Pour que les cartes soient lisibles, il ne faut pas que le nombre de
modalités ne soit trop important. En d’autres termes si une question
représente en moyenne 5 modalités, on ne peut représenter que 4 ou 5
variables. On voit apparaître dans ce cas 25 modalités sur la carte.
75
JJ Croutsche UP 13
GEODE
2007-2008
Pour illustre cette méthode nous trois variables de l’enquête automobile :
Possession automobile (soi même ou entreprise), sexe et la catégorie
socioprofessionnelle.
Le tableau de départ est un tableau de « Burt » qui résulte d’une matrice T
(matrice booleéenne * par sa tranposée T’). Ce produit matriciel correspond
à une matrice de variances-covariances que l’on appelle tableau de Burt.
a) Nous élaborons le tableau de « Burt » (matrice carrée symétrique)
La diagonale du tableau correspond aux tris à plat. Les autres valeurs
symétriques par rapport à la diagonale représentent les tris croisés.
A1 A2 A3 S1 S2 C1 C2 C3 C4 C5 C6 C7 C8 C9
-
- 66 50
6 10 26 26 15
9
7 12
A2
-
7
-
2
0
1
6
0
0
0
0
0
0
A3
-
- 29
8 21
1
1
0
0
0
3 16
5
3
S1 66
5
S2 50
2 21
5
8 79
-
6
8 19
- 73
1
4 13 20
6
0
1
6
1
7
-
-
C2 10
1
1
8
4
- 12
-
C3 26
6
0 19 13
-
- 32
C4 26
0
0
-
-
C5 15
0
0 12
3
-
-
-
C6
9
0
3
6
-
-
-
C7
7
0 16 11 12
-
-
-
6 20
6
C8 12
0
5
8
9
5
0
3
3
5
C9
-
3
6 11
8
3
6 12
9
5
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
- 26
-
-
-
-
-
- 15
-
-
-
-
-
- 12
-
-
-
-
-
- 23
-
-
-
-
-
-
-
-
-
-
- 17
-
-
-
8
-
EN
b) Carte factorielle
-
6 12
de
C1
5
l'a
ut
eu
r
A1 116
SP
EC
IM
Carte d’AFC multiples
76
JJ Croutsche UP 13
GEODE
2007-2008
Axe 2 (11.5%)
Agriculteur
Ouvrier
Chomeur
Inactif
Commerçant, artisan
Homme
A vous
Etudiant
Autre
Axe 1 (15.6%)
Femme
Employé
A quelqu'un de votre famille
l'a
ut
eu
r
Cadre
A votre société
de
Les contributions permettent d’interpréter les axes factoriels. C’est
principalement le premier axe qu’il faut expliquer (en général axe
horizontal) car il explique le plus la variance.
EN
C’est toujours la proximité qui aide à l’interprétation : proximité entre les
modalités, proximité avec les axes. Comme dans les études précédentes,
on observe toujours une opposition sur les axes factoriels.
IM
On interprète le premier axe sans difficultés alors que le second axe
s’interprète de façon plus délicate.
EC
Dans notre exemple, l’opposition cadre étudiant exprime une opposition
revenu sur le premier axe factoriel : revenus faibles à droite et revenus
plutôt élevés à gauche. Ceci est renforcé par les résultats du tableau de
contributions.
SP
On observe par ailleurs que les cadres se déplacent plutôt dans des
véhicules de société et les étudiants plutôt dans les véhicules de leur
famille à savoir leurs parents.
77
JJ Croutsche UP 13
c) Tableau des contributions
GEODE
2007-2008
Axe 1
(+15.6%)
Axe 2
(+11.5%)
CONTRIBUTIONS A quelqu'un de votre famille
POSITIVES
Etudiant
+34.1% Ouvrier
+19.1%
+22.4% Agriculteur
+11.1%
Femme
+6.6% Homme
Autre
+2.0% A vous
+1.0%
Inactif
+1.3% Chomeur
+0.8%
Chomeur
+0.3% Inactif
+0.5%
+10.1%
+0.4%
-9.6% A votre société
-21.4%
-6.3% Cadre
-17.5%
A votre société
-5.6% Femme
-11.0%
A vous
-5.6% Employé
-6.6%
Ouvrier
-4.0% Autre
-0.0%
Commerçant, artisan
-1.5%
Agriculteur
-0.7%
CONTRIBUTIONS Cadre
NEGATIVES
Homme
l'a
ut
eu
r
Etudiant
AFC : croisement de marques, sexe et CSP
Tableau de Burt
M2
M3
M4
M5
M6
M7
M8
M9
M10
M11
M12
S1
S2
C1
C2
C3
C4
C5
C6
C7
C8
C9
31
-
-
-
-
-
-
-
-
-
-
-
15
16
1
1
7
8
1
1
6
5
1
M2
-
19
-
-
-
-
-
-
-
-
-
-
8
11
2
1
3
5
2
0
3
3
0
M3
-
-
19
-
-
-
-
-
-
-
-
-
10
9
1
1
3
2
3
1
4
3
1
M4
-
-
-
16
-
-
-
-
-
-
-
-
7
9
0
1
3
3
0
1
3
3
2
M5
-
-
-
-
12
-
-
-
-
-
-
-
5
7
1
3
0
1
1
4
1
0
1
M6
-
-
-
-
-
13
-
-
-
-
-
-
7
6
1
0
0
3
2
2
2
2
1
M7
-
-
-
-
-
-
2
-
-
-
-
-
1
1
0
0
1
0
0
0
1
0
0
M8
-
-
-
-
-
-
-
8
-
-
-
-
6
2
0
1
6
0
0
0
0
0
1
M9
-
-
-
-
-
-
-
-
7
-
-
-
6
1
0
2
4
1
0
0
0
0
0
M10
-
-
-
-
-
-
-
-
-
7
-
-
4
3
0
1
0
2
1
1
1
1
M11
-
-
-
-
-
M12
-
-
-
-
-
S1
15
8
10
7
5
EN
de
M1
M1
8
9
7
6
1
2
1
3
1
7
-
73
1
4
13
20
3
6
12
9
0
1
1
0
0
0
0
0
1
6
1
7
-
-
-
-
-
-
-
-
1
3
0
0
1
2
1
0
1
8
4
-
12
-
-
-
-
-
-
-
3
0
0
1
6
4
0
0
5
19
13
-
-
32
-
-
-
-
-
-
3
1
3
0
0
1
2
0
1
6
20
-
-
-
26
-
-
-
-
-
3
0
1
2
0
0
0
1
2
3
12
3
-
-
-
-
15
-
-
-
-
0
1
1
4
2
0
0
0
1
1
1
6
6
-
-
-
-
-
12
-
-
-
3
4
3
1
2
1
0
0
1
0
2
11
12
-
-
-
-
-
-
23
-
-
-
-
17
-
-
-
-
8
0
-
-
-
-
3
-
2
1
0
0
0
0
2
1
0
0
0
-
-
-
-
-
15
8
7
1
1
5
1
3
1
2
0
1
7
1
6
6
4
2
79
-
6
8
19
6
12
6
11
8
3
5
IM
-
-
16
11
9
1
2
1
C2
1
1
1
C3
7
3
3
C4
8
5
2
C5
1
2
C6
1
C7
6
C8
5
3
3
3
0
2
0
0
0
1
0
0
8
9
-
-
-
-
-
C9
1
0
1
2
1
1
0
1
0
0
0
1
3
5
-
-
-
-
-
SP
EC
S2
C1
78
JJ Croutsche UP 13
GEODE
2007-2008
Tableau de contributions (AFC : croisement de marques, sexe et CSP)
Axe 1
(+7.97%)
CONTRIBUTIONS Homme
POSITIVES
Cadre
Axe 2
(+7.53%)
+11.99% Chomeur
+17.52%
+10.44% Fiat
+12.64%
BMW
+9.97% Ouvrier
+12.63%
Mercedes
+8.72% Volvo
+12.45%
Ouvrier
+4.83% Ford
+4.01%
Commerçant, artisan +4.37% Opel
+1.67%
CONTRIBUTIONS Employé
NEGATIVES
Femme
-13.61% Cadre
-18.00%
-13.07% BMW
-7.90%
-4.67% Mercedes
-3.62%
Renault
-3.33% Renault
-3.62%
Volkswagen
-2.55% Toyota
-1.36%
Etudiant
-2.53% Volkswagen
-1.19%
l'a
ut
eu
r
Inactif
Carte factorielle (AFC : croisement de marques, sexe et CSP)
Axe 2 (7.53%)
Volvo
de
Chomeur
Fiat
Ford
Ouvrier
Opel
Agriculteur
EN
Autre
Femme
Etudiant
Employé
Axe 1 (7.97%)
IM
Inactif
Renault
Autre
Peugeot
Cadre
Mercedes
Toyota
BMW
SP
EC
Volkswagen
Commerçant, artisan
Homme
Citroën
79
JJ Croutsche UP 13
GEODE
2007-2008
Cette analyse confirme ce qui a été dit dans les analyses précédentes. On
retrouve bien la même signification sur les axes ainsi que les mêmes
regroupements d’individus. On observe toutefois que les hommes sont plus
proches des voitures plus sophistiquées, les femmes utilisant
vraisemblablement des voitures plus petites (secondes voitures).
9) Analyse lexicale
L’analyse lexicale correspond au traitement des questions ouvertes
(occurrences de mots). Elle permet également de procéder à des
transformations de questions textes en variables multiples. On peut
ensuite procéder à des croisements avec d’autres variables.
de
l'a
ut
eu
r
Les questions texte sont riches en informations et permettent aux
répondants de s’exprimer librement. Elles permettent d’introduire ou de
clore des thèmes afin de compléter une information trop dirigée par un
questionnaire traditionnel.
Ces questions ouvertes sont utilisées dans les préenquêtes et permettent
après étude des thèmes de réaliser les questionnaires.
Les informations recueillies dans le cadre des « focus groups » sont
généralement traitées de cette façon.
Dans les techniques classiques de traitements, on peut transformer une
question ouverte texte en question à choix multiple. Il suffit pour ce faire
de comptabiliser les thèmes aborder, en s’appuyant sur les mots répétés et
utilisés dans les textes. Cette mise en est relativement aisée mais en perd
une certaine forme d’informations.
EN
Il est préférable de passer par une analyse lexicale classique, laquelle
permet d’approfondir les textes étudiés.
IM
Les logiciels d’études traitent de l’analyse lexicale. Ce type d’étude est
relativement difficile et demande un travail de recherche élaboré.
91) Etude des mots les plus usités (traitement des occurrences)
SP
EC
En analyse lexicale on peut en première instance s’intéresser à l’apparition
des mots dans le texte. La répétition des mots, la fréquence, sont des
éléments significatifs que l’on peut interpréter.
On peut également s’intéresser à des groupes de mots, des segments, qui
expriment des idées. Ces segments lorsqu’ils se répètent sont significatifs
et doivent être étudiés. C’est ce que l’on appelle l’étude des segments
répétés.
A titre d’exemple, nous retenons la question ouverte de Sphinx relative à la
« voiture idéale » de l’étude automobile. Nous purifions les données et nous
80
JJ Croutsche UP 13
GEODE
2007-2008
réduisons les mots au tableau suivant puis nous procédons à une
représentation graphique :
Valeurs
Nb. cit.
rapide
16,4% ( 24)
confortable
11,6% ( 17)
6,8% ( 10)
rouge
6,2% ( 9)
économique
4,8% ( 7)
sûre
4,8% ( 7)
décapotable
4,8% ( 7)
chère
4,1% ( 6)
petite
4,1% ( 6)
aérodynamique
3,4% ( 5)
belle
3,4% ( 5)
maniable
3,4% ( 5)
Mercédes
3,4% ( 5)
polluante
3,4% ( 5)
cher
2,7% ( 4)
limousine
2,7% ( 4)
noire
2,7% ( 4)
pleine
2,7% ( 4)
Porsche
2,7% ( 4)
spacieuse
2,7% ( 4)
l'a
ut
eu
r
grande
2,7% ( 4)
sport
100% (146)
SP
EC
IM
EN
de
TOTAL
81
JJ Croutsche UP 13
GEODE
2007-2008
rapide
24
confortable
17
grande
10
rouge
9
7
sûre
7
décapotable
7
chère
6
petite
6
aérodynamique
5
belle
5
maniable
5
Mercédes
5
polluante
5
4
limousine
4
noire
4
pleine
4
Porsche
4
spacieuse
4
sport
4
de
cher
l'a
ut
eu
r
économique
EN
92) Elaboration du lexique (mots choisis sur l’ensemble des
réponses)
IM
Liste des 22 mots marqués du lexique
(avec les nombres d'occurrences et les nombres de réponses pour chaque
mot)
SP
EC
rapide
confortable
rouge
décapotable
économique
sûre
chère
grande
petite
aérodynamique
belle
Occurrences
24
17
9
7
7
7
6
6
6
5
5
Réponses
24
17
9
7
7
7
6
6
6
5
5
82
JJ Croutsche UP 13
maniable
Mercédes
polluante
cher
Grosse
limousine
noire
Porsche
spacieuse
sport
allemande
GEODE
5
5
5
4
4
4
4
4
4
4
3
2007-2008
5
5
5
4
4
4
4
4
4
4
3
93) Croisement 'VOITURE IDEALE' * 'POSSESSION' : Liste des
mots spécifiques
Nb.
2 (6,90)
1 (5,18)
1 (5,18)
1 (5,18)
1 (3,45)
1 (1,22)
l'a
ut
eu
r
Non
chère
Porsche
spacieuse
sport
petite
confortable
de
Nb.
24 (*)
9 (*)
7 (*)
7 (*)
7 (*)
6 (*)
5 (*)
5 (*)
5 (*)
5 (*)
5 (*)
4 (*)
4 (*)
4 (*)
4 (*)
3 (*)
16 (0,99)
5 (0,88)
3 (0,79)
3 (0,79)
3 (0,79)
4 (0,70)
SP
EC
IM
EN
Oui
rapide
rouge
décapotable
économique
sûre
grande
aérodynamique
belle
maniable
Mercedes
polluante
cher
Grosse
limousine
noire
allemande
confortable
petite
Porsche
spacieuse
sport
chère
83
JJ Croutsche UP 13
GEODE
2007-2008
94) 'VOITURE IDEALE' * 'POSSESSION' : Tableau lexical croisé
Non
0
1
0
0
0
0
2
0
1
0
0
0
0
0
0
0
0
0
1
1
1
0
7
*
'POSSESSION' : Bilan pour chaque
EN
95) 'VOITURE IDEALE'
modalité
SP
EC
IM
Effectif de la
catégorie
Effectif ayant
répondu
Nombre total de
mots
Mot le plus
fréquent
Fréquence de ce
mot
Longueur
moyenne
Nombre de mots
TOTAL
24
17
9
7
7
7
6
6
6
5
5
5
5
5
4
4
4
4
4
4
4
3
145
l'a
ut
eu
r
Oui
24
16
9
7
7
7
4
6
5
5
5
5
5
5
4
4
4
4
3
3
3
3
138
de
MOTS / CAT
rapide
confortable
rouge
décapotable
économique
sûre
chère
grande
petite
aérodynamique
belle
maniable
Mercédes
polluante
cher
Grosse
limousine
noire
Porsche
spacieuse
sport
allemande
TOTAL
Oui
177
Non
26
Ensemble
203
87
5
143
138
7
145
rapide
chère
rapide
24
2
24
1,59
1,40
1,01
6
304
84
Pourcentage du
corpus
Pourcentage de
lecture
2007-2008
0
0
0
6,27
1,17
0,48
95.2%
4.8%
-
100.0%
28.3%
-
24.6%
100.0%
-
16
0
-
75.4%
0.0%
-
*
6
*
24.6%
6
*
100.0%
*
de
Poids des 6 mots
communs
Nombre de mots
exclusifs
Poids des mots
exclusifs
INTERSECTION
DES LEXIQUES
'Oui'
'Non'
RECOUVREMENT
DES CORPUS
'Oui'
'Non'
GEODE
l'a
ut
eu
r
JJ Croutsche UP 13
différents 22
Nombre de mots
uniques
Répétition
moyenne
96) 'VOITURE IDEALE' : Index
SP
EC
IM
EN
rapide
8 14 16 21 25 26 33 37 52 54 57 59 66 67 75 77 84 97 99 100
108 118 122 152 173
confortable 4 20 28 46 54 55 58 66 75 76 77 97 146 172 183 187 200
rouge
1 10 12 66 75 91 93 124 152
décapotable 16 26 37 105 106 135 186
économique
99 108 132 133 134 144 167
sûre
21 22 23 25 135 157 197
chère
64 124 126 145 172 173 197
grande
20 33 54 60 66 77
petite
1 75 84 121 127 172 183
aérodynamique 37 69 75 83 152
belle
36 46 76 151 163
maniable
10 12 21 23 25
Mercedes
5 53 56 147 163
polluante
60 83 102 129 130
cher
30 35 50 79
Grosse
97 118 128 178
limousine
2 6 49 102
85
JJ Croutsche UP 13
GEODE
noire
38 39 49 56
Porsche
115 116 117 119 185
spacieuse
6 20 28 81
sport
115 117 123 158
allemande
157 163 197
2007-2008
97) Croisement voiture idéale et CSP (AFC)
Nous croisons les mots évoqués dans voiture idéale et la variable
CSP. Nous obtenons le tableau de contingence suivant :
MOTS / CAT
Non réponse Agriculteur Commerçant
artisan
rapide
confortable
Chomeur
Etudiant
15,4% ( 4) 14,3% ( 1) 26,7% ( 4) 25,0% ( 8) 16,0% ( 4)
0,0% ( 0) 14,3% ( 1)
7,7% ( 1)
7,1% ( 1)
0,0% ( 0)
6,6% ( 24)
11,5% ( 3)
9,4% ( 3) 16,0% ( 4)
0,0% ( 0) 14,3% ( 1) 15,4% ( 2)
7,1% ( 1)
0,0% ( 0)
1,7% ( 17)
rouge
11,5% ( 3) 28,6% ( 2) 13,3% ( 2)
0,0% ( 0) 20,0% ( 3)
Cadre
Employé
Ouvrier
Inactif
Autre
TOTAL
0,0% ( 0)
0,0% ( 0)
0,0% ( 0)
7,7% ( 1)
0,0% ( 0)
0,0% ( 0)
6,2% ( 9)
7,7% ( 2)
0,0% ( 0)
6,7% ( 1)
6,3% ( 2)
4,0% ( 1)
0,0% ( 0)
0,0% ( 0)
7,7% ( 1)
0,0% ( 0)
0,0% ( 0)
4,8% ( 7)
économique
0,0% ( 0)
0,0% ( 0)
0,0% ( 0)
6,3% ( 2) 12,0% ( 3) 25,0% ( 1)
0,0% ( 0)
0,0% ( 0)
7,1% ( 1)
0,0% ( 0)
4,8% ( 7)
sûre
0,0% ( 0)
0,0% ( 0)
0,0% ( 0)
9,4% ( 3)
4,0% ( 1) 25,0% ( 1) 14,3% ( 1)
0,0% ( 0)
7,1% ( 1)
0,0% ( 0)
4,8% ( 7)
chère
grande
petite
l'a
ut
eu
r
3,1% ( 1)
décapotable
7,7% ( 2)
0,0% ( 0)
0,0% ( 0)
0,0% ( 0)
0,0% ( 0)
0,0% ( 0) 28,6% ( 2)
7,7% ( 1)
7,1% ( 1)
0,0% ( 0)
4,1% ( 6)
11,5% ( 3)
0,0% ( 0)
6,7% ( 1)
0,0% ( 0)
8,0% ( 2)
0,0% ( 0)
0,0% ( 0)
0,0% ( 0)
0,0% ( 0)
0,0% ( 0)
4,1% ( 6)
3,8% ( 1) 14,3% ( 1)
4,1% ( 6)
0,0% ( 0)
0,0% ( 0)
4,0% ( 1)
0,0% ( 0)
0,0% ( 0) 15,4% ( 2)
7,1% ( 1)
0,0% ( 0)
aérodynamiqu 7,7% ( 2)
0,0% ( 0)
6,7% ( 1)
6,3% ( 2)
0,0% ( 0)
0,0% ( 0)
0,0% ( 0)
0,0% ( 0)
0,0% ( 0)
0,0% ( 0)
3,4% ( 5)
belle
0,0% ( 0)
0,0% ( 0)
0,0% ( 0)
4,0% ( 1)
0,0% ( 0)
0,0% ( 0)
0,0% ( 0)
7,1% ( 1)
0,0% ( 0)
3,4% ( 5)
maniable
0,0% ( 0)
0,0% ( 0)
6,7% ( 1)
9,4% ( 3)
0,0% ( 0)
0,0% ( 0) 14,3% ( 1)
0,0% ( 0)
0,0% ( 0)
0,0% ( 0)
3,4% ( 5)
Mercédes
0,0% ( 0)
0,0% ( 0)
0,0% ( 0)
0,0% ( 0)
4,0% ( 1)
0,0% ( 0) 14,3% ( 1)
7,7% ( 1)
7,1% ( 1) 50,0% ( 1)
3,4% ( 5)
polluante
3,8% ( 1)
0,0% ( 0)
6,7% ( 1)
3,1% ( 1)
8,0% ( 2)
0,0% ( 0)
0,0% ( 0)
0,0% ( 0)
0,0% ( 0)
0,0% ( 0)
3,4% ( 5)
cher
0,0% ( 0)
0,0% ( 0)
0,0% ( 0)
0,0% ( 0)
8,0% ( 2) 50,0% ( 2)
0,0% ( 0)
0,0% ( 0)
0,0% ( 0)
0,0% ( 0)
2,8% ( 4)
Grosse
0,0% ( 0)
0,0% ( 0)
0,0% ( 0)
6,3% ( 2)
4,0% ( 1)
0,0% ( 0)
0,0% ( 0)
7,7% ( 1)
0,0% ( 0)
0,0% ( 0)
2,8% ( 4)
limousine
0,0% ( 0)
0,0% ( 0)
0,0% ( 0)
6,3% ( 2)
4,0% ( 1)
0,0% ( 0)
0,0% ( 0)
7,7% ( 1)
0,0% ( 0)
0,0% ( 0)
2,8% ( 4)
noire
3,8% ( 1) 14,3% ( 1)
0,0% ( 0)
3,1% ( 1)
0,0% ( 0)
0,0% ( 0) 50,0% ( 1)
2,8% ( 4)
Porsche
0,0% ( 0)
0,0% ( 0)
0,0% ( 0)
3,1% ( 1)
spacieuse
3,8% ( 1) 14,3% ( 1)
6,7% ( 1)
0,0% ( 0)
sport
0,0% ( 0) 14,3% ( 1)
0,0% ( 0)
0,0% ( 0)
allemande
0,0% ( 0)
0,0% ( 0)
3,1% ( 1)
de
11,5% ( 3)
100% ( 26)
0,0% ( 0)
0,0% ( 0)
0,0% ( 0)
0,0% ( 0)
0,0% ( 0)
7,7% ( 1) 14,3% ( 2)
0,0% ( 0)
2,8% ( 4)
4,0% ( 1)
0,0% ( 0)
0,0% ( 0)
0,0% ( 0)
0,0% ( 0)
0,0% ( 0)
2,8% ( 4)
0,0% ( 0)
0,0% ( 0)
0,0% ( 0)
7,7% ( 1) 14,3% ( 2)
0,0% ( 0)
2,8% ( 4)
0,0% ( 0)
0,0% ( 0)
0,0% ( 0)
0,0% ( 0) 14,3% ( 2)
0,0% ( 0)
2,1% ( 3)
100% ( 7) 100% ( 15) 100% ( 32) 100% ( 25)
100% ( 4)
100% ( 7) 100% ( 13) 100% ( 14)
100% ( 2)
00% (145)
0,0% ( 0)
EN
TOTAL
0,0% ( 0)
IM
La dépendance est significative. chi2 = 230,96, ddl = 189, 1-p = 97,98%.
Les cases encadrées en bleu (rose) sont celles pour lesquelles l'effectif réel
est nettement supérieur (inférieur) à l'effectif théorique.
EC
Comme la dépendance est significative, nous pouvons procéder à
l’élaboration d’une analyse des correspondances simples.
SP
Nous obtenons la carte factorielle suivante :
86
JJ Croutsche UP 13
GEODE
2007-2008
Axe 2 (20.6%)
Autresport
Inactif
allemande
Porsche
Mercédes
petiteEtudiant
sûre
chère
économique
Chomeur
noire
Ouvrier
Grosse
Agriculteur confortable limousine
Axe 1 (24.6%)
bellerapide
cher
Cadre
Non réponse
Employé
rouge
spacieuse
maniable
Commerçant, artisan
polluante
de
grande
l'a
ut
eu
r
décapotable
aérodynamique
EN
D’autres approches sont possibles. Nous pouvons créer de nouvelles
variables puis en les croisant avec d’autres variables nous réalisons des
analyses de correspondances multiples.
IM
L’étude des segments répétés, la lemmatisation, les analyses de contenu
nous permettent d’affiner les résultats obtenus dans les questionnaires.
Un second croisement entre les mots les plus usités et les
marques nous permet de faire ressortir les informations suivantes :
SP
EC
* Les cadres, les professions commerçantes, les artisans, les employés sont
attirés par les mots « chères », « grosses », « confortables », « limousines »,
« belles », « rapides », « spacieuses »…Ces individus se regroupent sur la
partie inférieure du graphe.
* Les inactifs et les autres évoquent les mots
« sport »,
« cher »,
« allemandes », « Porsche », « Mercedes »…Ces individus se regroupent sur
la partie haute du graphe.
87
JJ Croutsche UP 13
GEODE
2007-2008
* Les étudiants et les chômeurs sont attirés par les mots « petite », « noire »,
« chère »…
Renault
Peugeot
Citroën
Volks
wagen
voiture
11
4
2
2
1
6
2
1
1
1
0
31
rapide
3
3
0
2
1
2
0
4
4
0
0
19
confortable
2
3
2
0
3
1
2
0
2
0
0
15
rouge
1
1
1
1
1
2
0
1
1
0
0
9
Decapotable
2
1
1
0
0
0
0
2
0
0
0
6
économique
2
1
1
1
0
0
0
1
0
1
0
7
sûre
1
0
1
2
0
1
0
0
0
0
0
5
chere
2
0
1
0
1
2
0
1
0
1
0
8
grande
1
1
0
0
1
0
1
0
1
0
0
5
petite
0
0
1
0
0
2
1
0
0
0
0
4
aérodynamiqu
1
0
1
0
1
1
0
0
0
0
0
4
54
28
32
54
27
36
10
14
12
11
2
280
maniable
1
0
0
1
0
1
0
0
1
0
0
4
Mercedes
1
1
0
3
0
0
0
0
0
0
0
5
polluante
2
0
1
0
1
0
0
1
0
0
0
5
grosse
1
0
0
1
0
0
limousine
1
1
1
0
0
0
noire
0
1
1
2
0
0
86
45
46
69
37
54
belle
TOTAL
Fiat
Ford
Toyota
BMW
Mercedes
Opel
Volvo
TOTAL
l'a
ut
eu
r
Valeurs
0
1
1
0
0
4
0
1
0
0
0
4
0
0
0
0
0
4
16
27
23
14
2
419
SP
EC
IM
EN
de
L’analyse factorielle des correspondances nous permet d’associer les mots
les plus usités aux différentes marques :
88
JJ Croutsche UP 13
GEODE
2007-2008
Axe 2 (22.66%)
grande
petite
Toyota
confortable
voiture
Peugeot
aérodynamique
Mercedes
Renault
Fiat
maniable
Ford
rouge
belle
Citroën
rapide
chere
Axe 1 (27.35%)
polluante
Opel
Volvo
limousine
BMW
grosse
l'a
ut
eu
r
Volkswagen
sûre
économique
Decapotable
noire
de
Mercedes
EN
* On observe sur ce graphe que BMW est proche de « limousine », de
« grosse », de « rapide », de « décapotable ».
* Volkswagen et mercedes sont proches de « sûre » de « noire ».
IM
* Volvo, Opel, Citroen sont proches de « belle », « aérodynamique ».
EC
* Toyota est proche de « confortable ».
SP
Les attirances entre les mots expriment des liens et permettent des
regroupements d’individus.
89
JJ Croutsche UP 13
GEODE
2007-2008
9) Réalisation de l’enquête automobile sur SPHINX
Etude à réaliser à titre d’entraînement.
Enquête automobile de SPHINX
Le logiciel SPHINX se télécharge sans difficulté sur Internet. Cette version
de démonstration n’est pas exploitable commercialement mais les enquêtes
qui sont intégrées au logiciel peuvent être traitées statistiquement. Ces
enquêtes présentent des difficultés et des pièges que vous devez être
capable de déjouer.
1ère partie : échantillon, offre et demande…
1) Réflexions générales sur la taille de l’échantillon dans l’enquête proposée
« Automobile »
l'a
ut
eu
r
2) Commentaires sur les risques d’interprétation
2ème partie : traitements statistiques et synthèse générale
1) Etude des tris à plat (toutes les questions) : tableau de données,
intervalles de confiance, graphe, Khi² quand c’est nécessaire sur les
comparaisons de fréquences avec interprétation.
de
2) Etude des questions ouvertes (analyse lexicale)
IM
EN
3) Etude des tris croisés simples
* Régressions et corrélations (croisement de variables quantitatives (6
corrélations significatives) : graphes, équation de régression, coefficient de
corrélation linéaire et interprétation.
* Khi² (croisement de variables qualitatives, analyse des correspondances
simples) (6 croisements significatifs) : tableau de contingence avec les khi²,
les indications relatives au test, histogramme empilé, l’AFC et l’interprétation
du premier axe factoriel et du graphe dans sa globalité.
SP
EC
4) Etude des tris croisés multiples
* Régressions et corrélations multiples (3 modèles) matrice de corrélation,
diagramme et graphe des corrélations, équation de régression première,
équation de régression avec méthode pas à pas.
* Analyse en composantes principales (typologies) (1 analyse) matrice des
corrélations, graphe des corrélations, carte ACP, Carte ACP + typologie,
interprétation axe F1, tableau de contributions.
* Analyse en composantes des moyennes, matrice des corrélations, graphe
des corrélations,ACP, contributions, interprétation.
* Analyse des correspondances multiples (3 analyses) Tableau de Burt,
carte factorielle, interprétation axe 1, tableau de contributions.
90
JJ Croutsche UP 13
GEODE
5) Synthèse des conclusions de l’étude
2007-2008
Conclusion
Ces premières approches permettent en première instance d’explorer les
données. Ces analyses sont dites exploratoires. Elles aident à la
construction de modèles.
Pour aller plus loin, il faut pouvoir valider les modèles en confirmant les
modèles élaborés. On utilise dans ce cas les « modèles confirmatoires »
élaborés à partir de modèle d’équations structurelles. Les modélisations
s’appuyant sur les progiciels tels LISREL, PLS ou plus récemment SPHINX
permettent entre autres de procéder à ce type d’analyses.
l'a
ut
eu
r
Bibliographie
Bibliographie générale
SP
EC
IM
EN
de
ABBOUD N. ET AUDROING JF., Probabilités et inférences statistiques
ANGERS C., Les statistiques, Ed. Agence d’ARC, 1991 Ottawa.
BIALES C., Analyse statistique des données, Chotard et associés,1988.
BOURBONNAIS R. et USUNIER JC., "Pratique de la prévision des ventes", Economica
1992.
BOURSIN JL., Statistiques, Vuibert Gestion, 1981.
BOX GEP. ,JENKINS GM.,Times series analysis forecasting and control, San Francisco,
Holden-day, 1976.
BROWN RG. Smoothing, forecasting and prediction of discrete time series, Englewood
Cliffs, Prentice-Hall, 1962.
BROWN RG. Statistical forecasting for inventory control, New-York, Mc Graw-Hill,
1959.
CALOT G., Cours de statistiques descriptives, Donod, 1975.
CALOT G., Cours de calcul des probabilités, Dunod, 1976.
CHATFIELD C., The analysis of time series : theory and pratice, London,Chapman and
Hall, 1985.
CRAUSER JP., Guide pratique d’analyse des données, Ed. d’organisation,
CROUTSCHE JJ., « Marketing opérationnel : liaisons et interfaces dans l'entreprise »
ESKA 1993.
CROUTSCHE JJ., « Marketing & Business » ; ESKA ; 2007.
CROUTSCHE JJ. « GEMINI : Vers un modèle décisionnel systémique en analyse
transversale de l'entreprise et de ses environnements », Publication CRIEGE
CNRS 1994
DE MARICOURT R., La prévision des ventes, Puf gestion, 1985.
GIARD V., Statistiques appliquées à la gestion, Economica, 1985.
GRAIS B., "Methodes statistiques", Dunod, 1977.
GRAIS B., Statistique descriptive, Dunod, 1976.
HERMAN J., Traitements d’enquêtes, Méthodes et programmes.
91
l'a
ut
eu
r
JJ Croutsche UP 13
GEODE
2007-2008
JENKINS GM., Pratical Experience with modeling and forecasting time series, St Hélier,
GJP publications 1979.
JORGENSON DW., "The predictive performance of econometric models and quarterly
invetment behavior", Econometrica, mars 1970.
KAUFMAN H. et GROSBOILLOT JL., "Les techniques de la prévision à court terme",
Dunod, 1974.
KENDALL M., STUARD A. et ORD JK.,"The advanced theory of statistics,
Griffin & co, 1983.
KOTLER P. et DUBOIS B., "Marketing Management", Publi-Union 1991.
LEWANDOWSKI R., "La gestion prévisionnelle à court terme" Donod, 1982.
LONG-MICHET, Pratique des tests -Interprétation des résultats, Ed. Dulo.
MAKRIDAKIS S., et al., "The accuracy of extrapolation (time series) methods : results of
a forecasting competition ", Journal of forecasting, April, June 1982.
MAKRIDAKIS S., WHEELWRIGHT S.S., McGEE VE., "Forecasting : method and
applications, New-York, Wiley, 1983.
MALINVAUD E., "Méthodes statistiques de l'économétrie", Paris, Donod 1978.
MARICOURT R. (de), "La prévision des ventes", PUF 1985.
MASIERI W., Statistiques et calcul des probabilités, Sirey, 1988.
de
MENTHA G., « Les tests statistiques au service des affaires », Ed. Hommes et Techniques
1958.
SALOMON M., NAHON.G., "L'élaboration des prévisions de marché"Dunod, 1977.
SAVATORE D., Econométrie et statistiques appliquées, Schaum, 1985.
SAPORTA G.,Probabilités analyse des données et statistiques Ed. Technip, 1990.
TASI P., Méthodes statistiques, Economica,
WHEELWRIGHT SC., et MAKRIDAKIS S., "Méthodes de prévision pour la gestion, EO.
1985.
ZOUHAD R., VIVIANI JL. et BOUFFARD F., Mathématiques, Dunod, 1991.
EN
Bibliographie spécifique à l’analyse multivariée.
SP
EC
IM
Ackoff R.L., Scientific method (J. Wiley and sons, Inc, New York 1962 p 179.
Anderson T.W., Introduction to Multivariate Statistical Analysis (John Wiley and Sons,
Inc 1958.
Arker R.G. "Exploration in Ecological psychology" American psychologist, vol 20 janvier
1965.
Bagozzi R.P. ( 1977), Structural Equation Models in Experimental Research, Journal of
Marketing Research, 14.
Bagozzi R.P. et Fornell C. (1982), Theorical Concepts, Measurements, and Meaning, in A
secon Generation of Multivariate Analysis : Measurement and Evaluation, C;
Fornell (ed) ,New York.
Bagozzi R.P., Causal Models in Marketing, Wiley and Sons, 1980.
Bass F.M. et Talarzyk W.W. (février 1972), An Attitude Model for the Study of Brand
Preference, Journal of Marketing Research, vol 9, pp 93,98.
Beane T.P. et Ennis D.M. 1989, Recherche et Applications en Marketing vol 4 n° 3/89.
Berent P.H. "the Depth interview " Journal of advertising Research vol 6 (juin 1966)
pp32 à 39.
92
SP
EC
IM
EN
de
l'a
ut
eu
r
JJ Croutsche UP 13
GEODE
2007-2008
Bishop Y.,Fienberg S. et Holland P.,(1975), Discrete Multivariate Analysis : Theory and
Pratice, The MIT Press.
Bon J., et Grégory P., Techniques Marketing, Vuibert Gestion, 1986.
Borg I. et Lingoes J.C. (1980), A Model and Algorithm for Multidimensional Scaling with
Bouroche JM., L’analyse des données en marketing, Masson, 1977.
External Constraints on the Distances, Psychometrica,45.
Cailliez F.et Pages JP., Introduction à l’analyse des données, Smash, 1976.
Christensen L. Experimental Methodology, 2° ed. Boston, Massachusetts : Allyn and
Bacon, 1980, p 6.
Churchill G; et Peter J, (1984) Research Design Effects on the Reability of Rating Scales:
Journal of Marketing Research (novembre) pp 360, 375.
Churchill G; "Construct Validity : A Review of Basic Issues and Marketing Practices"
Journal of Marketing Research mai 1981 p 137
Clogg C.C. (1981), New developments in Latent Analysis, Jackson and Borgetta (eds)
Factor Analysis and Measurement in Sociological Research : A
multidimensional Perspective, Sage Publications, pp 215-246.
Cooley W.W. et Lohnes P.R. Multivariate Procedures for the Behavioral Sciences (John
Wiley and Sons, Inc, New York, 1962.
Coombs C.H., H. Raiffa, R.M. Thrall, "mathematical models and measurement theory" in
decision processes J.W. and Sons, Inc, New york, 1954.
Coombs C.H., A theory of data (J. Wiley et Sons Inc.. New York 1964).
Coombs C.H. "Psychological scaling without a unit of measurement ", psychological
review, vol 57 (1950) pp 145, 158.
Cronbach L.J. "coefficient Alpha and the International Structure of Tests", Psychometrica,
Septembre 1951, pp 297-334.
Croutsche JJ., « Réflexion méthodologique sur l’élaboration de modèles d’équations
structurelles dans les recherches de causalité », Publication CRIEGE-CNRS,
Paris, 1995.
Croutsche JJ., « Méthodologie de recherche en marketing et gestion », Publication
CRIEGE-CNRS , Novembre 1993.
De Lagarde J., Initiation à l’analyse des données, Dunod, 1983.
Diday E., Lemaire J., Pouget J., Testu F., Eléments d’analyse de données, Dunod, 1982.
Dillon W.R., Madden T.J. MULANI N., (1983°, Scaling Models of Categorical Variables :
An Application of Latent Structure Models, Journam of Consumer Research,
10,2, pp 209-234.
Evrard Y., Pras B., Roux E., Market, 2tudes et recherches en Marketing, Nathan, 1993.
Fenelon JP. Qu’est-ce que l’analyse des données?, Lefonen, 1981.
Fornell C. et Denison D.R. (1982), A New Approach to Nonlinear Structural Modeling by
Use of Confirmatory Multidimentionnal Scaling, in a second generation of
multivariate Analysis : Methods (ed) , New York, Praeger, pp 367, 392.
Fornell C. (juillet 1978), Three Approaches to Canonical Analysis, Journal of the Market
Research Society, vol 20, pp166, 181.
Fornell C. A Second Generation of Multivariate Analysis, Vols 1 et 2, Praeger, 1982.
Fornell C. et Larcker D., Evaluation Structural Equation Models with Unobservable
Variables and Measurement Error, Journal of Marketing Research, 1981.
Green et Tull Recherches et décisions marketing PUG 1974.
Green P.E., Halbert M.H., Robinson P.J. "Canonical Analysis : An Exposition and
Illustrative Application", Journal of Marketing Reaserch, vol 3 (février 1966),
pp32, 39.
Joachimsthaler E.A. et Lastovicka J.L., Optimal Stimulation Level-Exploratory Bahavior
Models, Journal of Consumer Research, 11, 1984.
93
SP
EC
IM
EN
de
l'a
ut
eu
r
JJ Croutsche UP 13
GEODE
2007-2008
Johnson. R.M (février 1971), Market Segmentation : A Strategic Management Tool,
Journal of Marketing Research, vol 8, pp 13, 19.
Joreskog K.G. (1967), Some Contributions to Maximum Likelihood Factor Analysis,
Psychometrika, 32, pp 443-482.
Joreskog K. et Sorbom D.,(1983), LISREL 6 : Analysis of Linear Structural Relationships
by Maximum Likelihood and Least Squares Methods, Chicago, Scientific
Software.
Haire M. "Projective techniques in marketing reseach" Journal of marketing vol 14 avril
1950.
Helfer J.P., Kalika M. (1988), La cohérence interne dans les enquêtes par interview,
Recherches et Applications Marketing, vol 3, n°1.
Kahle L., Social Values and Social Change : Adaptation to life in America, Praeger 1983.
Kallenberg A. et Kluergel J.R. "analysis of the Multitrait-Multimethod Matrix", Journal of
Marketing Research, février 1975.
Kendall M.G. A Course in Multivariate Analysis, (Hafner Publishing Company, New
York, 1965.
Krugman H.E. "the draw a supermarket technique" Public opinion quaterly vol 24 1960
pp 148,149.
Lambert Z.V. et Durand R.M. (novembre 1975) Some Precautions in Using Canonical
Analysis, Journal of Marketing Research, vol 12, pp 468, 475.
Lehmann D. Market Research and Analysis, Homewood, 3.: Richard D. Irwin, 1979.
Lohmoller J.B., LVPLS : Latent Variables Path Analysis with Partial Least Square
Estimation, University of the Federal Armed Forces, 1981.
Lorie J.H. et Roberts H.V. basic methods of marketing research ( Mc Graw Hill B.C. New
York 1951 p211.
Massy W.F. "On Method : Discriminant analysis of Audience Characteristics" Journal of
Advertising Reaserch, vol 5 (mars 1965) pp39, 48.
Moscarola J., Enquêtes et analyse de données, Vuibert gestion, 1990.
Myers J.H. et Tauber E., (1977), Market Structure Analysis, Chicago, American Marketing
Association, pp68, 90.
Morrison D.G. (mai 1969) On The Interpretation of Discriminant Analysis, Journal of
Marketing Research, vol 6 pp156,163.
Newman J.W., Motivation research and marketing management (Harvard U.G.S.of B.A..)
Cambridge 1957, pp227, 228.
Nunnaly J., Psychometris Theory, McGraw-Hill, 1978.
Osgood C.E., Suci G.J. et Tannenbaum P.H, the measurement of meaning (University of
Illinois Press, Urbana Illinois, 1957).
Perrien J., Chéron J., Zins M., (1984), Recherches en Marketing, méthodes et décisions,
Gaëtan Morin éditeur.
Peter J.P. (1981), Construct Validity : a review of basic issues and Marketing Practices,
J.M.R. mai.
Roehrich G. et Valette-Florence P., Besoin de stimulation, innovativité, implication et
valeurs; 1986.
Roehrich G. et Valette-Florence P., A la recherche des causes individuelles de l’achat des
produits nouveaux, Actes du 14ème séminaire de Recherche en Marketing,
La Londe-les-Maures, 1987.
Rokeach M., Beliefs Attitudes and Values, Jossey-Bass, 1968.
Rokeach M., The Natur of Human Values, Free-Press, 1973.
Russell et Ackoff : Optimisting applied research decisions J.Wiley and Sons New York
1962.
94
SP
EC
IM
EN
de
l'a
ut
eu
r
JJ Croutsche UP 13
GEODE
2007-2008
Savage LJ "the theory of statistical decision " J of the A; statistical association vol 46 mars
1951.
Shepard R.N "the analysis of proximities : multidimensional scaling with an unknow
distance function , psychometrika vol 27; 1962; pp 125, 139.
Schreier F.T., Modern marketing research : A behavior sciences approach (Wadsworth
publishing Company, Belmont, California 1963.
Schlaifer R. probability and statistics for business decision Mac Craw Hill Book Company
New York 1959.
Spearman C. (1904), General Intelligence Determined and Mesured , American Journal of
Psychology, 15, pp201-293.
Stewart D. et Love W., A General Canonical Correlation Index, Psychological Bulletin, 70,
1968.
Stone M. Cross-Validity Choice and Assessment of Statistical Prediction, Journal of the
Royal Statistical Society, B 36, 1974.
Taylor, J. (1971), Management experience With Applications of Multidimensional Scaling
Methods, Working paper, Marketing Science Institute, pp 71, 120.
Thurstone L. (1931) Multiple Factor Analysis, Psychological Review, 38, 406-427.
Valette-Florence P. (1988), Spécificités et apports des méthodes d'analyse multivariée de la
deuxième génération, Recherches et Applications Marketing, vol 3 n°4.
Valette-Florence P. (1987), A second Generation of Multivariate Analysis : Contributions
and Applications for Marketing Research, the 40 th. ESOMAR Marketing
Research Congress 225-253.
Valette-Florence P., Analyse structurelle comparative des composantes des systèmes de
valeurs selon Kahle et Rokeach, Recherches et applications Marketing, vol. 3
n°1, 1988.
Valette-Florence P.(1988), L'implication, variable médiatrice entre styles de vie, valeurs et
modes de consommation, Thèse de doctorat ès sciences de gestion, ESA,
Université des Sciences Sociales de Grenoble.
Valette-Florence P. et Jolibert A. et Arellano R., Le comportement du consommateur
d’énergie domestique : une analyse causale, 4ème congrès de l’association
Française du Marketing, vol.4, 1988.
Valette-Florence P. et Roerich G. (1987), Alternative Measurement Methods in Causal
Modelling, Marketing Science Conference, TIMS/ORSA, Centre HEC-ISA,
juin 1987.
Valette-Florence P. et Roerich G., «Une approche causale du comportement d’achat
innovateur», Ecole supérieure des affaires, Université des sciences sociales
de Grenoble 1986.
Valette-Florence P. et Rapacchi B. (1988), Une application concrète de l'analyse
structurelle selon les moindres carrés partiels dans une optique classificatoire,
colloque de l'Association française du Marketing, Montpellier 1988.
Valette-Florence P. et Rapacchi B. Analyse strucrurelle et analyse typologique : illustration
d’une démarche complémentaire, Recherches et applications marketing, vol
5, n° 10, 1990.
Védrine J.P., Techniques quantitatives de gestion, Vuibert, 1985.
Vernette E. L'efficacité des instruments d'étude : évaluation des échelles de mesure
Recherches et Applications Marketing, vol 6 N°2 1991.
Volle M., Analyse des données, Economica, 1981.
Torgerson W.S., theory and methods of scaling J.Wiley and sons Inc, 1958.
Weiss E.H., Increasing sales through advertising based on human motivations Advertising
Agency Chicago 1954 pp 6,7.
95
Bibliographie spécifique
conceptualisations
aux
l'a
ut
eu
r
JJ Croutsche UP 13
GEODE
2007-2008
Wild A.R. et McCann J.M. (août 1980) A regression Model for Market Segmentation
studies, Journal of Marketing Research, vol. 17, pp 335, 340.
Wold H. (1975), Path Models with Latent Variables : The Nipals Approach, in Quantitative
Sociology : International Perspective on Mathematical and Statistical
Modeling, H.M. Blalock et ala; (eds) New York, Academic Press, 307-357.
Wold H. (1986) Theorical Empirism : A General Rational for Scientific Model-Buildings,
Paragon House.
Wold H. The Fixed Point Approach in Interdependant Systems, Amsterdam, North Holland
Publishing and Co., 1981.
Wold H., Soft Modeling : the Basic Design and Some Extensions, in., Joreskog K. and
Wold H., eds., Systems Under Indirect Observation : Causality, Structure,
Prediction, 2, 1-54, North-Holland, 1982.
Zinnes J.L. et Macckay D.B. (1983), Probabilistic Multidimensionnal Scaling : Complete
and Incomplete Data, Psychometrika, 48, 27-48.
Worcester R.M. et Downham J. (1978) Consumer Market Reasech Handbook, New York,
Van Nostrand Reinhold Company.
Yuong G. et Householder A.S "Discussion of a set of points in terms of their mutual
distances" psychometrika vol. 3 mars 1938 pp 19, 22.
approches
intégrant
de
nouvelles
SP
EC
IM
EN
de
Aurifeille JM., Contribution de l’analyse neuronale à la modélisation des comportements de
consommation, Actes de l’Association de Marketing, vol. 10, 1994.
Bernard Cohen I., « Revolution in Science », Cambridge, Mass, Belknap Press, 1985.
Croutsche JJ., « Réflexions sur une utilisation possible de la théorie du Chaos en marketing
et gestion », CRIEGE-CNRS 1995.
Devaney R.L., An Introduction to Chaotic Dynamical System, Menlo Park : BenjaminCummings, 1986.
Feigenbaum, « Quantitative Universality for a class of Nonlinear Transformations »,
Journal of Statistical Physics, N° 19, 1978, pages 25 et suivantes.
Feigenbaum, « Universal Behavior in Nonlinear Systems », Los Alamos Science, N° 1,
1981, pages 4 et suivantes.
Gleich J., « Chaos : Making a new Science (New-York : Viking Press, 1987)
Kuhn, « The Structure of Scientific Revolution », Chicago Press, 1970 (traduction
française : La structure des révolutions scientifiques, Flammarion, 1983).
Lorenz, « Determinist Nonperiodic Flow », Journal of the Atmospheric Sciences N° 20,
1963, pages 130 et suivantes.
Lorenz, « The Mechanics of Vacillations », Journal of the Atmospheric Sciences N° 20,
1963, pages 448 et suivantes.
Lorenz, « The Problem of Deducing the Climate from the Governing Equation », Tellus,
N° 16, 1964, pages 1 et suivantes.
Lorenz, « Predictability : Does the Flap of a Butterfly’s Wings in Brazil Set Off a Tornado
in Texas », présentation de la rencontre annuelle de l’American Association
for the advancement of Science, Washington, 29/12/1979.
Mandelbrot B., Les objets fractals, Nouvelle bibliothèque scientifique, Champs
Flammarion 1989.
Mandelbrot B., The Fractal Geometry of Nature, New-York, Freeman, 1977.
96
SP
EC
IM
EN
de
l'a
ut
eu
r
JJ Croutsche UP 13
GEODE
2007-2008
Mandelbrot B., « On Fractal Geometry and a Few of the Mathematical Questions It Has
Raised », Proceedings of the International Congress of Mathematicians, 1416 août 1983, Varsovie, pages 1661 et suivantes.
Morris Kline, Mathématiques : la fin de la certitude, Paris, Bourgois, 1989.
Poincaré H., Science et méthode, Flammarion, Paris 1914.
Ruelle D., « Strange Attractors », Mathematical Intellgencer, N° 2, 1980, pages 126 et
suivantes.
Ruelle D., Takens F., « On the Nature of Turbulence », Communications in Mathematical
Physics, N° 20, 1971, pages 167 et suivantes.
Sander L.M., « Fractal Growth Process » Nature N° 322, 1986, pages 789 et suivantes.
Saltzman B., « Finite Amplitude Convection as an Initial Value Problem », Journal of the
Atmospheric Sciences, N° 19, 1962, p. 329.
Schuster H.G., Deterministic Chaos : an Introduction, Weinheim, Physik-Verlag, 1982.
Schwenk T., Sensitive Chaos, New-York, Schocken Books, 1976.
Sparow C., The Lorenz Equations, Bifurcations, Chaos, and Strange Attractors, SpringerVerlag, 1982.
Stewart I., Dieu joue-t-il aux dés? Les mathématiques du chaos? Champs Flammarion
1994.
Stewart I., Les fractals, Paris, Belin, 1982.
Stewart H.B. et Thompson J.M., «Nonlinear Dynamics and Chaos», Chichester, Wiley,
1986.
Thompson J.M.T. et Stawart H.B., Nonlinear Dynamics and Chaos, New-York, John
Wiley, 1986.
Valette-Florence P., Roerich G., Serieys M., Bifurcation ou continuité : test préliminaire
d’un modèle de catastrophes, Actes de l’Association française de Marketing,
vol. 10, 1994.
Voss R., «Random Fractal Forgeries : From Mountains to Music», Science and
Uncertainty, Sara Nash Ed. Londres, IBM Royaume-Uni, 1985.
Wiener N., «Nonlinear Prediction and Dynamics», Collected Works with Commentaries, P.
Masani, éd. Cambridge, Mass, MIT Press, 1981, vol. 3 p. 371.
Wolf A., «Simplicity and Universality in the Transition to Chaos», Nature, N0 305, 1983,
p. 182.
97