TP1 DATA MINING
Transcription
TP1 DATA MINING
Genève le 20.02.2007 Roger HUEBER Patrik DURUZ Cours de DATA MINING Professeur : Emmanuel FRAGNIERE Assistante : Joëlle DEBELY TP1 DATA MINING Conjoint analysis Factor utilities ON SPSS Cours de DATA MINING Roger HUEBER Patrik DURUZ Professeur : Emmanuel FRAGNIERE Assistant : Joelle Debely INTRODUCTION : Dans le cadre du cours de Data Minning, nous allons déterminer pour une agence de voyage la valeur que portent les consommateurs pour chaque attribut et ainsi déterminer la carte idéale à proposer. MISE EN PLACE DU PLAN ORTHOGONAL : Dans un premier temps il faut lancer un plan orthogonal qui nous permettra de faire une sélection de carte parmi le grand nombre de possibilités. Effectivement dans notre exercice nous avions 32 cartes à choix, autrement dit 32 possibilités différentes. En voici un petit échantillon : Nous avons ici deux attributs, qui sont respectivement : Internet et agences de voyages. Avec cela nous avons 5 niveaux différents qui se trouvent être : la richesse de l’offre, la qualité du conseil, le rapport qualité/prix, le gain de temps, le suivi des dossiers. Comme nous avons 2 attributs et 5 niveaux, nous pouvons calculer de suite le nombre de carte différentes : 25 = 32 cartes Afin de créer un plan orthogonal dans SPSS, il vous faut aller dans Data/Orthogonal Design/Generate… Page : 2 Cours de DATA MINING Roger HUEBER Patrik DURUZ Professeur : Emmanuel FRAGNIERE Assistant : Joelle Debely Placer le nom du niveaux (ou facteur) dans la case « Factor Name », cette case ne peut pas contenir plus de 8 caractère, il est donc indispensable d’y écrire un diminutif, tel que dans notre exemple : Offre pour la richesse de l’offre. Dans la case « Factor Label » il est possible maintenant de donner une étiquette à ce niveaux (ou facteur) en y écrivant la description complète, soit dans notre exemple : Richesse de l’offre. Ensuite il vous faut appuyer sur le bouton Add, ceci placera votre attribut dans la case blanche et peut ainsi être sélectionnée pour y définir des valeurs. Page : 3 Cours de DATA MINING Roger HUEBER Patrik DURUZ Professeur : Emmanuel FRAGNIERE Assistant : Joelle Debely Une fois que la ligne est apparue dans le carré blanc, il vous est possible de la sélectionner. Une fois le facteur sélectionner, les boutons « Remove » et « Define Values… » deviennent sélectionnable. La touche « Remove » vous sert uniquement à éliminer le facteur que vous avez sélectionné auparavant. Par contre la touche « Define Values… » vous permet d’entrer des attributs (ou sous facteurs) aux différents facteurs. Page : 4 Cours de DATA MINING Roger HUEBER Patrik DURUZ Professeur : Emmanuel FRAGNIERE Assistant : Joelle Debely Il vous faut ensuite répéter cette opération pour chaque facteur, comme vous pouvez le voir ci-dessus. Les 5 niveaux (ou facteur) ont été rentrés, ainsi que les 2 attributs (ou sous facteur). Ensuite il vous faut cliquer dans le petit rond « Replace working data file », une fois que cela est fait, vous pouvez cliquer cette fois-ci dans le petit carré « Reset random number seed to » et y inscrire une valeur de 2'000'000, qui est par ailleurs la valeur de défaut. La sélection se fera donc à partir d’un grand nombre aléatoire de possibilité. Page : 5 Cours de DATA MINING Roger HUEBER Patrik DURUZ Professeur : Emmanuel FRAGNIERE Assistant : Joelle Debely Nous pouvons par la suite, cliquer sur le bouton « Options… » qui va nous amener à la fenêtre ci-dessus. Après la phrase « Minimum number of cases to generate » vous pouvez y inscrire une valeur, ici la valeur par défaut est de 18. Dans notre exemple nous avons opté pour le chiffre 20. Une fois tout ceci fait, appuyer sur la touche « Continue », puis sur la touche « OK ». Vous verrez par la suite votre sélection de cartes choisies aléatoirement par le plan octogonal de SPSS (voir ci-dessous). Page : 6 Cours de DATA MINING Roger HUEBER Patrik DURUZ Professeur : Emmanuel FRAGNIERE Assistant : Joelle Debely Afin d’avoir une meilleur visualisation des différentes cartes, il est possible d’appuyer sur la touche étiquette. Ceci permet de remplacer les chiffres 1 et 2 par les significations, soit : Internet et agences de voyages. Sous l’onglet des variables « Variable View » il est possible d’y retrouver tous les niveaux comme nom de variable. Dans chaque variable, nous trouvons : • • • • Le type ; numérique dans notre exemple Le nombre de décimale ; nous avons laissé à deux (peut-être à 0) Le Label ; définit ci-dessus Values ; valeur de 1 ou 2 (soit nos attributs) Les autres points ne seront pas regardés dans le détail, car ils ne sont pas d’une grande importance pour la compréhension de l’exercice. Page : 7 Cours de DATA MINING Roger HUEBER Patrik DURUZ Professeur : Emmanuel FRAGNIERE Assistant : Joelle Debely Ils vous faut ensuite ouvrir un nouveau fichier, que l’on va nommer : Agence de voyage.PREF..sav. Sur ce nouveau document vierge, il vous faut aller dans l’onglet des variables. Aller ensuite dans la colonne « Name » et inscrivez-y dans la première case ID et pour les autres inscrivez simplement vos douze préférence, soit PREF1, PREF2, etc. Vous aurez bien entendu remarqué que l’on a douze préférences « PREF », car nous avons douze cartes. Dès que vous tapez votre ID et vos PREF dans la case « Name » le reste (Type, Width, Decimals, Label, Values, Missing, etc.) se rempli automatiquement. Nous avons par la suite effectué un petit sondage envers 6 personnes, comme il était demandé pour l’exercice. Nous avons ensuite reporté les résultats de notre petite enquête comme suit : Æ Chaque ligne complète ID représente l’opinion d’une seule et unique personne. Æ Nous avons sondés 6 personnes, nous disposons donc de 6 ID Page : 8 Cours de DATA MINING Roger HUEBER Patrik DURUZ Professeur : Emmanuel FRAGNIERE Assistant : Joelle Debely Ici nous avons ouvert le 3ème fichier, pour cela nous avons recherché dans Windows, puis dans rechercher un document ou un programme, nous avons alors rechercher le fichier conjoint.SPS. Nous avons donc obtenu le fichier par défaut, ceci vous facilitera grandement la tâche. Il vous suffit maintenant de remplacer les valeurs suivantes : • • Il y a les deux noms de fichier à remplacer PREF1 TO PREF12 Le reste n’a pas besoin d’être modifié. Vous pouvez par la suite appuyer sur la touche triangulaire bleue (ressemblant à une touche play). Ceci permettra la fusion des deux fichiers et ainsi pouvoir nous donner les résultats que nous observons ci-dessous. Model Description Offre N of Niveaux 2 Relation to Ranks or Scores Discrete Conseil 2 Discrete Prix 2 Discrete Temps 2 Discrete Suivi 2 Discrete Cramer's V Statistics Offre Offre 1 Conseil .000 Prix .000 Temps .000 Suivi .169 Conseil .000 1 .000 .000 .169 Prix .000 .000 1 .000 .169 Temps .000 .000 .000 1 .169 Suivi .169 .169 .169 .169 1 Factors are not all orthogonal. Utilities Page : 9 Cours de DATA MINING Roger HUEBER Patrik DURUZ Professeur : Emmanuel FRAGNIERE Assistant : Joelle Debely Offre Conseil Prix Temps Suivi Internet Utility Estimate .460 Std. Error .277 Agences de voyages -.460 .277 Internet -1.140 .277 agences de voyages 1.140 .277 Internet -.006 .277 Agences de voyages .006 .277 Internet -.540 .277 Agences de voyages .540 .277 Internet -.639 .294 .639 .294 6.394 .277 Agences de voyages (Constant) C’est principalement cette section qui nous intéresse tout particulièrement. En effet, nous pouvons y observer les utilités. Notre petit sondage nous démontre que la variable la plus importante est le conseil, ensuite il y a le suivi, le temps, l’offre et enfin en dernière position le prix. Importance Values Offre 10.617 Conseil 33.008 Prix 23.522 Temps 13.088 Suivi 19.765 Averaged Importance Score Correlations(a) Pearson's R Value .902 Sig. .000 Kendall's tau .758 .000 a Correlations between observed and estimated preferences NB: Les « print screen » tiré de l’écran sont en anglais, car pour effectuer l’exercice nous avons utilisé une version demo anglaise. CONCLUSION : Au final, nous pouvons dire que SPSS est un outils de statistique qui est très performant, mais également très large dans son usage. Il permet en effet de réaliser beaucoup de techniques de statistiques ou encore d’études de marchés. Il permet ainsi de simplifier la vie des statisticiens et des responsables marketing en leur offrant une meilleure vision et ainsi, ils peuvent créer des questionnaires qui répondent plus exactement à la demande, ceci via l’utilité des facteurs. Page : 10