Initiation à STATISTICA

Transcription

Initiation à STATISTICA
Fitted Surface; Variable: Y_REND
2 factors, 1 Blocks, 13 Runs; MS Pure Error=.053
DV: Y_REND
80
78
76
74
72
70
2
Initiation à Statistica 6
TABLE DES MATIÈRES
§ STRUCTURE de STATISTICA : interface usager …………………………... 3
§ SORTIES : classeurs, rapports, fenêtres ..……………………………………… 4
§ FEUILLE de DONNÉES
- Spécifications des variables / observations, types variables, libellés …… 6
- Statistiques de blocs, recodage, tri ……………………………………….. 12
§ IMPORTATION / EXPORTATION de DONNÉES …………………. 16
- Requêtes, filtres de sélection, échantillonnage aléatoire .……………….. 18
§ OPTIONS de STATISTICA …………………………………………………. 18
§ MODULE STATISTIQUES ÉLÉMENTAIRES ………………………... 19
- Sélection de variables, statistiques, normalité, corrélations ……………. 19
- Test t, 2 échantillons indépendants, par groupes ………………………... 23
- Test t, 2 échantillons indépendants, par variables ………………………. 25
- Test t, 2 échantillons appariés …………………………………………….. 26
- Test t, un échantillon ………………………………………………………. 27
- Décomposition et ANOVA à 1 facteur ……………………………………. 28
- Table de fréquences / Tableaux et tris croisés …………………………… 31
- Calculateur de probabilités …..…………………………………………… 33
§ MODULE : TESTS NON PARAMÉTRIQUES
§
§
§
§
§
§
§
§
§
- Comparaison de 2 échantillons indépendants ……………………………. 34
GRAPHIQUES ……………………………………………………………………. 35
- Graphique d’une feuille de données ………………………………………. 35
- Graphique d’un bloc de données ………………………………………….. 37
- Graphique à partir du menu ..……………………………………………... 39
- Graphique personnalisé ……………………………………………………. 41
- Mise à jour de graphiques …………………………………………………. 42
- Options globales …………………………………………………………….. 43
- Création de graphiques composés / multiples …………………………….. 44
- Edition d’un graphique …………………………………………………….. 46
- Personnalisation des composantes ……………………………………….… 47
- Utilisation d’un style ………………………………………………….…….. 49
EXPLORATION D’UN GRAPHIQUE : zoom, habillage, rotation ..……… 52
PERSONNALISATION de STATISTICA …………………………………... 56
STATISTICA VISUAL BASIC ………………………………………………… 57
AIDE de STATISTICA ………………………………………………………….. 59
GLOSSAIRE ……………………………………………………………………….. 60
EXERCICES : gestion des données …………………………………………... 62
EXERCICES : statistiques élémentaires …………………………………….. 64
VERSION 6 : nouvelles fonctionnalités ................................................... 67
2
Copyright © Génistat Conseils Inc.
2004
3
Initiation à Statistica 6
STRUCTURE de STATISTICA version 6 : interface usager
STATISTICA est organisé en modules. Chaque module contient un groupe de procédures statistiques reliées.
On utilise le menu Statistiques pour sélectionner le module approprié disponible dans votre version
particulière de STATISTICA.
menu général
modules
sous module
Il n’y a plus de
« module switcher »
dans la version 6
bouton d’outils
feuille de données =
tableau croisé
lignes X colonnes
observations X variables
module : Satistiques Élémentaires
Groupe de procédures statistiques reliées
§
§
§
Statistiques descriptives
Matrices de corrélations
Test t pour éch. indépendants, par groupes
§ …
§ …
3
Copyright © Génistat Conseils Inc.
2004
4
Initiation à Statistica 6
On peut avoir plusieurs modules et plusieurs fichiers de données ouverts simultanément. Ceci constitue une
différence majeure par rapport à la version 5 de STATISTICA. Par exemple, on peut avoir 3 analyses de
Régressions et 2 analyses ANOVA en cours et chaque analyse peuvent s’exécuter sur différents fichiers de
données « ouverts ». Des options générales sont disponibles dans tous les modules et à chaque point d’une
analyse.
SORTIES (« OUTPUT »)
La sortie des résultats numériques ou graphiques de STATISTICA peut être dirigée vers trois canaux :
classeurs (« woorkbook »), fenêtre de rapport (« report window ») et fenêtres indépendantes (« stand alone
windows »). On peut choisir le canal de sortie de son choix en cliquant sur Outils… Options… et l’onglet
Gestionnaire de sorties. Remarque : différence majeure par rapport à la version 5.
Choix du type de sortie :
Gestionnaire de sorties
CLASSEURS : méthode par défaut (implicite) pour gérer les sorties. Chaque sortie est stockée avec un
onglet dans le classeur. Les documents peuvent être organisés en hiérarchie (arborescence). Les classeurs sont
très flexibles car on peut gérer les filières, les documents et des branches entières de l’arborescence.
Exemple d’un
CLASSEUR
fichier de type
****.stw
4
Copyright © Génistat Conseils Inc.
2004
5
Initiation à Statistica 6
Par exemple, on peut extraire, copier–coller, copier-déplacer un ou plusieurs documents (tableaux ou
graphiques produits par STATISTICA) et les placer dans un document WORD. On peut placer des branches
entières dans d’autres classeurs afin de construire une organisation de filières.
RAPPORTS: c’est une méthode plus traditionnelle de gérer les sorties où chaque objet est monté
séquentiellement comme dans un traitement de texte. L’avantage de ce format est la possibilité d’insérer des
notes et commentaires ainsi que de dérouler (« scrolling ») pour consulter le rapport. Suggestion : il est
probablement plus efficace d’ouvrir le traitement de texte WORD pour insérer les tableaux et graphiques de
STATISTICA avec des opérations de copier-coller. Ces opérations peuvent aussi se faire avec les documents
d’un classeur de STATISTICA.
Exemple d’un
RAPPORT
fichier de type
****.str
FENÊTRES INDÉPENDANTES
fenêtres
indépendantes
5
Copyright © Génistat Conseils Inc.
2004
6
Initiation à Statistica 6
FEUILLE DE DONNÉES
boîte information
barre de titre
entête de fichier
variable
observation
75 variables par 50 cas
libellé de l’observation
La feuille de données est organisée en variables et observations (« cases »). Les colonnes sont les variables et
correspondent aux champs dans des programmes de base de données comme ACCESS. Les rangées ou
observations sont équivalents aux enregistrements dans des programmes de base de données. Les observations
peuvent être identifiées optionnellement avec un nom d’observation ou libellé. Par défaut, le libellé est un
numéro séquentiel 1, 2, 3,…noté « Vo » qui est toujours créé et disponible avec la feuille.
SPÉCIFICATIONS DES VARIABLES ET DES OBSERVATIONS
Les variables et les observations peuvent être modifiées : l’ajout de variables, le déplacement d’obervations, le
recalcul de variables etc. Ces options sont accessibles avec le bouton
Variableset
et le bouton
Observations
de
de la barre d’outils.
6
Copyright © Génistat Conseils Inc.
2004
7
Initiation à Statistica 6
VARIABLES
Chaque variable a un ensemble de propriétés ou spécifications qui lui est associée. Cliquer sur le nom de la
variable pour ouvrir la boîte de dialogue contenant toutes les informations.
nom
type
longueur (variable texte)
code valeur manquante (VM)
format d’affichage
nombre de décimales
(variable numérique)
valeurs ∕ Statistiques
description détaillée :
étiquette
ou
formule
ÉDITEUR DES SPÉCIFICATIONS DE TOUTES LES VARIABLES
7
Copyright © Génistat Conseils Inc.
2004
8
Initiation à Statistica 6
OPÉRATIONS SUR LES VARIABLES
OPÉRATIONS SUR LES OBSERVATIONS
8
Copyright © Génistat Conseils Inc.
2004
9
Initiation à Statistica 6
TYPE DE VARIABLES
On peut spécifier le type de la variable avec la fenêtre de dialogue de spécification de la variable.
STATISTICA distingue 4 types de variable.
Double : format par défaut pour stocker des variables numériques. Chaque cellule occupe 8 bytes.
Entier : type de variable avec valeurs entière sans aucune décimale. Chaque cellule occupe 4 bytes.
Octet : type pour des entiers entre 0 et 255. Chaque cellule occupe 1 byte.
Texte :type de variable contenant une séquence de caractères. La séquence est généralement de longueur
variable.
VALEURS-TEXTE
Utile dans les applications
statistiques d’avoir un codage
numérique pour la saisie des
valeurs textes.
Éditeur de Valeurs-Texte
On peut basculer entre les
valeurs-textes et les valeurs
numériques avec le bouton
9
Copyright © Génistat Conseils Inc.
2004
10
Initiation à Statistica 6
EXEMPLE : création d’un fichier hypothétique d’information sur 18 individus.
La feuille de données (« spreadsheet ») contiendra 6 variables : sexe, couleur des yeux, couleur des
cheveux, taille, poids, age.
liste des fichiers
les plus récents
qui furent
accédés
10
Copyright © Génistat Conseils Inc.
2004
11
Initiation à Statistica 6
Remplissage vers le bas de la cellule 1
jusqu’à la cellule 9
Répéter l’opération de la cellule 10 à la cellule 18
avec la valeur « homme »
Remplissage des valeurs de la variable
« couleur yeux »
opérations similaires à celles des fichiers EXCEL :
•
•
•
•
•
•
•
copier coller,
coloriage de cellules,
choix d’une police de caractères,
caractères gras, italiques,
couleurs de caractères,
centrage des cellules,
etc.
11
Copyright © Génistat Conseils Inc.
2004
12
Initiation à Statistica 6
STATISTIQUES DE BLOCS
Les statistiques (moyennes, écart types,…) d’un bloc de lignes (colonnes) seront ajoutées
avec des lignes (colonnes) additionnelles au fichier existant.
RECODAGE
Une opération utile et fréquente dans les tâches de gestion des données est le recodage des valeurs d’une
variable. Cette opération peut se faire avec le bouton Variables de la barre d’outil et en choisissant
Recodifier…permettant d’afficher une boîte de dialogue avec une barre de défilement. Par exemple
12
Copyright © Génistat Conseils Inc.
2004
13
Initiation à Statistica 6
La variable « classe age » qui était une copie de la
variable « Age » a été recodée de la manière suivante:
Age
25 ans et moins
26 à 64 ans
65 ans et plus
TRI
classe age
1
2
3
A
Z
Le bouton trier
de la barre d’outil ouvre une boîte de dialogue permettant de trier les données en
utilisant un maximum de 7 clés (variables).
13
Copyright © Génistat Conseils Inc.
2004
14
Initiation à Statistica 6
EXEMPLE : saisie de données, codage variable texte, statistique bloc, recodage, tri, rangs
Opérations
1.
2.
3.
4.
5.
6.
entrer des valeurs
éditer des valeurs texte
calculer des statistiques de blocs
recoder et faire la mise à jour dynamique
affecter des rangs
trier
Assignation numérique
automatique par défaut :
101, 102, 103,…
à toute variable de type
texte
On peut éditer et
remplacer avec d’autres
valeurs numériques de son
choix : par exemple,
1, 2, 3,…
bloc saisi : taille poids age
somme des lignes
14
Copyright © Génistat Conseils Inc.
2004
15
Initiation à Statistica 6
Ajout d’une nouvelle variable
TPA = taille + poids + age
autres formules possibles :
= ‘taille’ + ‘poids’ + ‘age’ ;
= sum (v4:v6) ;
bouton
x=?
de la barre d’outil
permet de recalculer automatiquement lorsque
les données changent
Calcul d’une nouvelle variable « Rang PTA »
Tri des observations selon la variable TPA
15
Copyright © Génistat Conseils Inc.
2004
16
Initiation à Statistica 6
IMPORTATION DE DONNÉES
Les fichiers provenant d’une grande variété d’applications Windows et autres peuvent être accédés et
transformés en format STATISTICA (.sta) en ouvrant Fichier et en sélectionnant Ouvrir avec la barre
principale. Les formats les plus employés sont supportés : Excel, dBASE, SPSS, Lotus/Quatro, etc.
Formats supportés
Excel, dBASE, SPSS, Lotus Quatro,
Texte, XTML,…
Aussi : format en version 5 de Statistica
Par exemple, si on choisit un ficher Excel (.xls) à ouvrir, STATISTICA demandera si on veut importer toutes
les feuilles dans un classeur ( .stw) ou une feuille de données ( .sta). On peut importer le nom des observations
et le nom des variables si elles sont présentes dans le fichier Excel.
16
Copyright © Génistat Conseils Inc.
2004
17
Initiation à Statistica 6
STATISTICA Query
STATISTICA permet l’accès, l’importation et la création de feuilles de données à partir de grandes bases de
données comme ACESS, ORACLE, etc. Le langage de requêtes relationnelles de STATISTICA. (SQL)
permet de sélectionner les composants de la requête via une interface graphique conviviale et intuitive. On
peut créer une feuille de données à partir de plusieurs bases de données différentes.
SÉLECTION / ÉCHANTILLONNAGE ALÉATOIRE
Il est possible de sélectionner des observations avec filtre ou d’échantillonner au hasard d’une feuille de
données afin de créer un sous ensemble pour l’analyse. Il y a plusieurs méthodes d’échantillonnage : aléatoire
simple avec ou sans remplacement, échantillonnage systématique, échantillonnage stratifié.
17
Copyright © Génistat Conseils Inc.
2004
18
Initiation à Statistica 6
EXPORTATION DES DONNÉES
STATISTICA permet l’exportation de ses feuilles de données (*** .sta) vers d’autres applications comme
celles mentionnées dans les possibilités d’importation. Choisir Fichier …Enregistrer sous…. pour ouvrir
une boîte de dialogue pour identifier la destination, le nom du fichier ainsi que le type de format désiré.
OPTIONS
La boite de dialogue Options de la barre d’outils contient 12 onglets permettant de personnaliser
OPTIONS de STATISTICA
Ouvir Outils … Options.
12 onglets pour définir des options
•
•
•
•
•
•
•
•
•
•
•
•
Généralités
Classeurs
Rapports
Graphe 1
Graphe 2
Feuilles de données
Importation
Analyses/Graphiques
Programme SVB (macros)
Gestionnaire de sorties
Listes personnalisées
Gestionnaire de Configurations
18
Copyright © Génistat Conseils Inc.
2004
19
Initiation à Statistica 6
MODULE : STATISTIQUES ÉLÉMENTAIRES
Plusieurs analyses statistiques de base sont accessibles en sélectionnant le module Statistiques Élémentaires
avec le menu Statisques de la barre principale. Les sorties sont dirigées, par défaut, dans une filière ( . stw).
Étapes de la mise en œuvre d’une procédure
•
•
•
•
ouvrir une feuille de données,
sélectionner une analyse spécifique du
module,
sélectionner les variables de l’analyse,
préciser les tableaux ou graphiques désirés
•
cliquer sur le bouton
•
chaque procédure possède plusieurs onglets :
Base, Avancé , …
synthèse
EXEMPLE : statistiques descriptives, histogramme, normalité, droite de Henry, corrélations,
Test t, ANOVA à un facteur, tables de fréquences, tableaux, tri croisé.
feuille : patients.sta : 11 variables et 100 patients (cas , observations)
19
Copyright © Génistat Conseils Inc.
2004
20
Initiation à Statistica 6
statistiques descriptives : variables : taille, poids, age
Filière pour consigner
les sorties
Patients.stw
histogramme : variable diastolique
20
Copyright © Génistat Conseils Inc.
2004
21
Initiation à Statistica 6
Droite de Henry ( échelle de probabilité normale) : variable pouls
Onglet « Avancé »: Statistiques Descriptives
Description très détaillée
des variables sélectionnées
•
•
•
•
•
•
statistiques de position
statistiques de dispersion
moments
percentiles
étendues
etc
Onglet « Tracés catég. » : Statistiques Descriptives
Tracés divers par catégories
•
•
•
•
•
•
Boite à moustaches
Tracés d’interaction
Histogrammes
Nuages de points
Droite de Henry
(graphique sur échelle de
probabilité normale)
etc
21
Copyright © Génistat Conseils Inc.
2004
22
Initiation à Statistica 6
boîte à moustache : poids selon sexe
CORRÉLATIONS
Le coefficient de corrélation, généralement noté r, est une mesure de relation linéaire entre deux
variables quantitatives. La valeur du coefficient de corrélation se situe entre - 1.0 (corrélation maximale
négative) et + 1.0 (corrélation maximale positive). La recherche d’une équation mathématique de
prédiction (liaison) de la forme Y = β0 + β1X entre les deux variables Y et X est reliée au coefficient de
coefficient de corrélation. Si les variables Y et Y sont en moyenne 0 et écart type 1 (variables centrées
réduites) alors Y = rX. Une valeur du coefficient de corrélation près de 0 est une indication de l’absence
de liaison linéaire entre les variables.
Matrice de corrélation des variables : taille poids pouls systolique diastolique indice
22
Copyright © Génistat Conseils Inc.
2004
23
Initiation à Statistica 6
nuages matriciels
TESTS t
Le test t compte parmi les procédures statistiques les plus fréquemment employées. Elle sert à
comparer les différences de moyennes entre deux groupes. Le test suppose que les variables sont
normalement distribuées et que les variances de chaque groupe sont égales. Le module Statistiques
Élémentaires offre 4 sortes de tests t.
Test t : deux échantillons indépendants, par groupes
Une variable contient les codes pour les 2 groupes et une autre variable contient les mesures.
23
Copyright © Génistat Conseils Inc.
2004
24
Initiation à Statistica 6
exemple : comparaison de la pression systolique entre les hommes et les femmes
Cet échantillon de 100 personnes
dont 52 hommes et 48 femmes
montre qu’il n’y a pas de différence
statistiquement significative de la
pression systolique moyenne entre
les deux groupes.
24
Copyright © Génistat Conseils Inc.
2004
25
Initiation à Statistica 6
Test t : deux chantillons indépendants, par variables
Dans certains cas, les données à comparer résident en 2 colonnes Par exemple, les données de pression
systolique des hommes seraient dans une colonne et celles des femmes dans une autre colonne. Dans ce
cas, il faut employer le test t par variables.
exemple : comparaison de la pression systolique entre les hommes et les femmes
systolique
homme
systolique
femme
1
83
89
2
84
88
3
87
87
4
83
81
.
.
.
.
.
.
48
85
84
49
85
50
88
51
62
52
85
Le fichier ci haut présente une
organisation inhabituelle des données.
Dans les études statistiques, il est utile,
nécessaire et préférable d’identifier les
unités statistiques (les patients dans ce
cas) et de préciser quelles seront les
variables (mesures et attributs) qui
serviront pour l’analyse.
Il n’y a pas de différence significative entre la pression systolique
moyenne des hommes et celle des femmes sur la base de cet
échantillon considéré comme un échantillon aléatoire de tous les
patients d’une certaine population.
25
Copyright © Génistat Conseils Inc.
2004
26
Initiation à Statistica 6
Test t : deux échantillons appariés (dépendants)
Il est assez fréquent, lors de la phase de la planification d’une étude statistique, que l’on prévoit
mesurer et caractériser à plusieurs reprises les mêmes unités statistiques. Par exemple, une variable
spécifique est mesurée à deux reprises dans le temps sur les mêmes unités expérimentales et, on veut
savoir si cette variable présente une différence significative dans le temps. On peut facilement imaginer
qu’une portion non négligeable de cette différence est attribuable aux unités statistiques qui
généralement présentent un certain degré d’hétérogénéité. Dans ce cas, le test t est basé sur la différence
entre la variable mesurée au temps 1 et la variable correspondante mesurée au temps 2. Les deux
échantillons de valeurs observées sont dépendants ou appariés car les mêmes unités statistiques sont
présentent dans les deux échantillons de valeurs. La mise en œuvre du test t pour échantillons appariés
est illustrée dans l’exemple suivant tiré du fichier « Patients.sta ». On a mesuré sur tous les patients la
variable « indice » au début et à la fin. La différence est –elle significative ?
Boîtes à Moustaches
indice début X indice fin
5.0
4.5
La probabilité est jugée trop
petite pour supporter
l’absence de différence.
4.0
2.55 est la différence entre la moyenne
de la variable « indice début » et la
moyenne de la variable « indice fin ».
3.5
3.0
La différence est déclarée
statistiquement significative.
2.5
p = 0.0000 est la probabilité d’observer une
telle différence. Elle est calculée avec la loi t
de Student sous l’hypothèse nulle d’égalité
de moyennes.
2.0
Moyenne
Moyenne±Erreur-Type
Moyenne±1.96*Erreur-Type
1.5
indice début
indice fin
26
Copyright © Génistat Conseils Inc.
2004
27
Initiation à Statistica 6
Test t : comparer une moyenne à un standard (un échantillon)
Illustrons avec un exemple tiré du fichier « patients.sta » . Répondons à la question : les hommes dont la
taille est inférieure à 1.70 m ont ils un poids de 65 kg ou moins tel que prévu selon les normes ?
Dans un premier temps il faut sélectionner le
sous ensemble des patients qui satisfont à la
condition :
« homme et taille ≤ 1.70 »
Cette opération est réalisable avec le bouton
SELECT
CASES S
disponible avec toutes les
procédures statistiques.
Permet de définir un filtre de sélection.
Comparaison de moyennes à un standard (constante) (Patients.sta)
Moyenne Ec-Type
poids
81.0
13.30
N
Erreur-T
17
3.23
Confiance Confiance
Valeur de
Valeur t dl
- 95%
+ 95%
comparaison
74.15
87.83
70.00
3.407
p
16 0.0036
Le fichier contient 17 hommes dont la taille est inférieure à 1.70 m. Ils ont un poids moyen de 81.0 kg.
qui s’écarte significativement du standard théorique de 70 kg. Cet échantillon de 17 hommes est tiré
d’une population dont la moyenne se situe entre 74.15 et 87.83. Le degré de confiance de cette
affirmation est de 95%. Autrement dit, il y a 1 chance sur 20 de se tromper en faisant cette affirmation.
27
Copyright © Génistat Conseils Inc.
2004
28
Initiation à Statistica 6
DÉCOMPOSITIONS et ANOVA à 1 FACTEUR de CLASSIFICATION
Cette procédure fait le calcul de statistiques
descriptives d’une variable de réponse mesurée sur
plusieurs groupes définis par d’autres variables du
fichier, par exemple, des catégories d’age. On veut ainsi
comparer la distribution d’une réponse selon les
groupes. Cette analyse est typiquement de nature
exploratoire mais elle peut aussi être de nature
inférentielle afin de savoir si des différences
significatives réelles existent entre les groupes. Pour
répondre à cette question on fait appel à l’analyse de la
variance dont le sigle ANOVA signifie ANalysis Of
VAriance. Celle méthode d’analyse compte parmi les
méthodes les plus utiles et les plus employées de
l’analyse statistique des données. Le module
Statistiques Élémentaires présente le cas le plus simple
de cette analyse avec un seul facteur de classification.
Les modules ANOVA et MODÈLES LINÉAIRES
présentent des procédures pour traiter des cas de
données ayant plusieurs variables de classement.
Illustrons avec un exemple tiré du fichier « Patients.sta ». On veut décrire, comparer et décider si la
taille (variable de réponse ou dépendante) des patients hommes présente des différences significatives
selon la couleur de leurs cheveux (variable de classement ou indépendante). On commence par
construire un filtre sur le fichier pour sélectionner seulement les patients qui satisfont le critère
« hommes ».
Onglet pour faire des comparaisons a
posteriori (post-hoc) à la suite de
l’analyse de la variance qui aurait
révélé des différences significatives.
28
Copyright © Génistat Conseils Inc.
2004
29
Initiation à Statistica 6
Tracé des Moyennes & Intervalle de Confiance (95.00%)
taille
1.82
1.80
N
Ecart
type
1.71
20
0.07
rouge
1.71
14
0.11
noir
1.74
17
0.09
blond
1.65
1
0.00
Ts Grpes
1.72
52
0.09
couleur
cheveux
moyenne
brun
1.78
1.76
Valeurs
1.74
1.72
1.70
1.68
1.66
1.64
1.62
brun
rouge
noir
blond
couleur cheveux
Boîtes à Moustaches Catég. : taille
1.90
1.85
1.80
1.75
taille
1.70
1.65
1.60
1.55
1.50
1.45
Médiane
25%-75%
Min-Max
1.40
brun
rouge
noir
blond
couleur cheveux
Analyse de la Variance (Patients.sta) Effets significatifs marqués à p < .05000
taille
SC
dl
MC
SC
dl
MC
F
p
0.0158
3
0.0053
0.3846
48
0.0080
0.66
0.5824
Il n’y a pas de différence significative de la taille moyenne entre les patients
masculins des différents groupes définis par la couleur des cheveux.
29
Copyright © Génistat Conseils Inc.
2004
30
Initiation à Statistica 6
On peut aussi obtenir les statistiques d’une variable de réponse pour les différentes catégories du
croisement de plusieurs variables. Par exemple, quelles sont les moyennes de la variable taille (réponse)
selon les catégories définies par les deux variables sexe et couleur des cheveux ?
sexe
Couleur
cheveux
Taille
moyenne
N
Écart
type
homme
brun
1.71
20
0.07
homme
rouge
1.71
14
0.11
homme
noir
1.74
17
0.09
homme
blond
1.65
1
0.00
femme
brun
1.74
26
0.09
femme
rouge
1.69
8
0.07
femme
noir
1.73
10
0.12
femme
blond
1.71
4
0.13
1.72
100
0.09
Tous Grpes
Tracé des Moyennes & Intervalle de Confiance (95.00%)
taille
2.0
1.9
Valeurs
1.8
1.7
1.6
1.5
1.4
brun
rouge
noir
blond
sexe
homme
sexe
femme
couleur cheveux
30
Copyright © Génistat Conseils Inc.
2004
31
Initiation à Statistica 6
TABLES DE FRÉQUENCES / TABLEAUX ET TRIS CROISÉS
Les tables de fréquences (aussi appelés tableau d’effectifs) constituent une méthode simple pour
analyser une variable qualitative (aussi appelée variable de type attribut). Elles sont souvent employées
comme méthode exploratoire pour décrire et résumer les différents sous groupes de l’échantillon de
données. Par exemple, dans un sondage, on veut résumer les réponses des différents sous groupes des
répondants aux questions posées. Nous allons illustrer en employant la feuille de données
« Patients2.sta ». Ce fichier complète le fichier « Patients.sta » avec des informations additionnelles sur
les patients. Les premières lignes de la feuille de données sont présentées ci-après.
TV
TRAVAIL
jamais
3
tplein
0
jamais
6
ret
20
5
tplein
15
1.75
56
32
.
jamais
1.68
91
78
.
toujours
brun
1.70
53
32
.
souvent
jamais
…
…
…
…
homme
bleu
brun
2
homme
vert
brun
3
femme
brun
…
HR
INT
.
1
…
EXER
AGE
YEUX
..
MARCHE
1KM /JOUR
POIDS
SEXE
CHEVEUX TAILLE
Table de fréquences : marche extérieure 1km/jour
(Patients2.sta)
Effectif
Effectifs
cumulés
%age
%age
cumulé
toujours
15
15
15.0
15.0
souvent
14
29
14.0
29.0
quelquefois
45
74
45.0
74.0
jamais
26
100
26.0
100.0
VM
0
100
0.0
100.0
…
…
…
…
…
CIG / JR
…
Histogramme Bivarié :
marche ext 1km/jour & exercice phys int/jour
31
Copyright © Génistat Conseils Inc.
2004
32
Initiation à Statistica 6
Table de Fréquences - Synthèse (Patients2.sta)
Effectifs en surbrillance > 10 (effectifs marginaux non marqués)
sexe
marche ext
1km/jour
Travail
tplein
Travail
tpartiel
Travail
ret
Travail
arret
homme
toujours
3
1
4
0
8
homme
souvent
3
2
4
1
10
homme
quelquefois
19
2
4
0
25
homme
jamais
Total
Totaux
lignes
8
1
0
0
9
33
6
12
1
52
femme
toujours
5
1
1
0
7
femme
souvent
3
1
0
0
4
femme
quelquefois
14
1
4
1
20
femme
jamais
13
0
4
0
17
Total
35
3
9
1
48
Tot. Colonnes
68
9
21
2
100
Interactions : sexe x marche ext 1km/jour x Travail
25
20
Effectifs
15
10
5
marche ext 1km/jour: toujours
marche ext 1km/jour:
souvent
marche ext 1km/jour:
quelquefois
arret
ret
tpartiel
Travail:
tplein
arret
ret
tpartiel
Travail:
tplein
arret
ret
tpartiel
Travail:
tplein
arret
ret
tpartiel
-5
Travail:
tplein
0
marche ext 1km/jour:
jamais
sexe
homme
sexe
femme
32
Copyright © Génistat Conseils Inc.
2004
33
Initiation à Statistica 6
CALCULATEUR DE PROBABILITÉS
Fonction de Densité de Probabilité
Fonction de Distribution de Probabilité
y=normal (x;0;1)
0.6
Fo n c ti o n d e De n s i té d e Pro b a b i l i té
p=inormal(x;0;1)
normale
Fo n c ti o n d e Di s tri b u ti o n d e Pr o b a b i l i té
y =F (x ;2 5 ;1 0 )
p =i F(x ; 2 5 ;1 0 )
1.0
F (Fisher)
1 .0
1 .4
0.5
0.8
1 .2
0 .8
0.4
1 .0
0.6
0 .6
0.3
0 .8
0.4
0 .6
0 .4
0.2
0 .4
0.2
0.1
0 .2
0 .2
0.0
0.0
-3
-2
-1
0
1
2
3
-3
-2
-1
0
1
2
3
0 .0
0 .0
Fonction de Densité de Probabilité
0 .5
1 .0
1 .5
Fonction de Distribution de Probabilité
y=gamma( x;2)
2 .5
3 .0
3 .5
0 .0
0 .0
4 .0
0 .5
1 .0
Fonction de Densité de Probabilité
p=igamma(x;2)
1 .5
2 .0
2 .5
3 .0
3 .5
4 .0
Fonction de Distribution de P robabi lité
y =pareto(x;2)
1.0
0.40
2 .0
p=ipareto(x;2)
4.0
1.0
Gamma
Pareto
0.35
3.5
0.8
0.8
0.30
3.0
0.25
2.5
0.6
0.6
0.20
2.0
0.4
0.4
0.15
1.5
0.10
1.0
0.2
0.2
0.05
0.5
0.00
0.0
1
2
3
4
5
6
1
2
3
4
5
6
0.0
1.0
1.2
1.4
1.6
1.8
2.0
2.2
2.4
2.6
2.8
3.0
0.0
1.0
1.2
1.4
1.6
1.8
2.0
2.2
2.4
2.6
2.8
3.0
33
Copyright © Génistat Conseils Inc.
2004
34
Initiation à Statistica 6
MODULE TESTS NON-PARAMÉTRIQUES
Beaucoup de procédures statistiques (tests
d’hypothèses et intervalles de confiance) ont
comme condition de base que la variable de
réponse suit une distribution normale
(gaussienne). Plusieurs de ces procédures sont
robustes relativement à cette condition. On a
aussi développé des tests qui ne font aucune
hypothèse sur la forme paramétrée de la
distribution. Ces méthodes sont connues sous
le nom de « tests non-paramétriques ». Il y a
au moins un test non paramétrique
correspondant à chaque test paramétrique.
On a aussi développé des tests et des
coefficients appropriés lorsque l’on a affaire à
des variables qualitatives.
EXEMPLE : comparaison de 2 échantillons indépendants
Feuille de données : « Patients.sta »
variable de réponse : nombre cigarettes / jour
variable groupe : sexe
La variable « nbre cigaret/jour » n’est pas normale
Histogramme
nbre cigaret /jour
70
60
Nbre d'obs.
50
40
30
20
10
0
-5
0
5
10
15
20
25
30
35
nbre cigaret /jour
Histogramme Catégorisé
Variable :nbre cigaret /jour
sexe: homme nbre cigaret /jour = 52*5*normal(x; 6.5385; 9.264)
sexe: femme nbre cigaret /jour = 48*5*normal(x; 6.875; 9.5997)
Test U de Mann-Whitney
35
(Patients2.sta) Par var. sexe
Tests significatifs marqués à p <.05000
30
25
Nbre d'obs.
20
Somme Somme
Rgs F Rgs H
15
U
Z
niv. p
Z
niv. p
10
5
0
-5
0
5
10
15
20
25
30
35
-5
sexe: homme
0
5
10
15
20
sexe: femme
nbre cigaret /jour
25
30
35
nbre
cigaret 2605.5
/jour
2444.5
1227.5 -0.141 0.888 -0.161
0.872
différence non
significative
car p > 0.05
34
Copyright © Génistat Conseils Inc.
2004
35
Initiation à Statistica 6
GRAPHIQUES
STATISTICA offre une grande variété de représentations graphiques pour tous les besoins et des outils
très développés pour les éditer en totalité et les personnaliser selon les préférences de l’utilisateur. Tous
les modules et leurs procédures associées disposent de graphiques contextuels pour accentuer et
visualiser l’interprétation de l’analyse. La production d’un graphique est fonction des données à
visualiser et de la méthode de le spécifier : graphiques intégrés à une feuille, graphiques d’un bloc de la
feuille, graphiques à partir du menu de la barre principale de STATISTICA.
GRAPHIQUES DE LA FEUILLE DE DONNÉES
Chaque feuille de données ainsi que les résultats accompagnant presque toutes les analyse possèdent
des graphiques intégrés. Ces graphiques sont accessibles avec un seul clic de souris : bouton spécifique
des options prévues de l’analyse ou par des raccourcis en activant le bouton droit de la souris.
Les GRAPHIQUES DE LA FEUILLE DE DONNÉES offre les graphiques le plus souvent demandés comme les
histogrammes, les nuages de points, etc. La sélection de la variable dépend de la position du curseur
dans la feuille active. Les graphiques ont un format prédéfini que l’on peut éditer à volonté en cliquant
sur toute portion du graphique. Les sélections du sous menu de la forme
par …
demande
de
préciser une deuxième variable dépendamment de la position du curseur.
35
Copyright © Génistat Conseils Inc.
2004
36
Initiation à Statistica 6
Exemples
Histogramme (Patients2.sta 17v*100c)
Nuage de Points avec Histogrammes (Patients2.sta 17v*100c)
Histogramme = 100*1*normal(x; 84.6879; 3.015)
Histogramme = 100*5*normal(x; 120.1022; 11.4797)
Nuage de Points = 130.8765-0.1272*x
28
26
40
24
20
22
0
20
170
18
160
150
14
140
12
diastolique
Nbre d'obs.
16
10
8
130
120
110
6
100
4
90
2
80
78
0
1.4
1.5
1.6
1.7
1.8
1.9
2.0
1.4
1.5
sexe: homme
1.6
1.7
1.8
1.9
2.0
80
82
84
86
88
90
92 0
20
40
systolique
sexe: femme
taille
Fenêtre d’édition d’un graphique : activation par double clic sur le graphique
36
Copyright © Génistat Conseils Inc.
2004
37
Initiation à Statistica 6
GRAPHIQUES D’UN BLOC DE LA FEUILLE DE DONNÉES
avec toutes les observations
Histogramme Bivarié (Patients2.sta 17v*100c)
Tracé Matriciel (Patients2.sta 17v*100c)
pouls
systolique
diastolique
pouls
systolique
diastolique
37
Copyright © Génistat Conseils Inc.
2004
38
Initiation à Statistica 6
bloc partiel des observations
bloc saisi
Camembert ( 1v*100c)
Camembert ( 2v*20c)
(25;30]
(20;25]
blond
(15;20]
noir
(10;15]
brun
<= 0
(5;10]
rouge
couleur cheveux
nbre cigaret /jour
38
Copyright © Génistat Conseils Inc.
2004
39
Initiation à Statistica 6
GRAPHIQUES DE LA BARRE DE MENU STATISTICA
menu principal
sous menu
Onglets similaires dans la
majorité des boîtes de dialogue
pour spécifier un graphique.
Base : liste resteinte d’options
Avancé : liste complète d’options
Apparence : options de style et
type de graphiques
Option 1 et Option 2 : liste
d’options moins employées
comme l’utilisation de
cordonnées polaires etc.
39
Copyright © Génistat Conseils Inc.
2004
40
Initiation à Statistica 6
Exemple : nombre cigarettes/ jour (Z) vs pression systolique (X) et pression diastolique (Y)
Surface de Réponse (Patients2.sta 17v*100c)
nbre cigaret /jour = Distance des Moindres Carrés
Pondérés
15
10
5
0
Rotation du graphique en 3D
Surface de Réponse (Patients2.sta 17v*100c)
nbre cigaret /jour = Distance des Moindres Carrés Pondérés
15
10
5
0
Boîte à moustaches catégorisées en 2D
Boîte à Moustaches (Patients2.sta 17v*100c)
35
25
20
15
10
5
0
-5
35
30
sexe: fem m e
nbre cigaret /jour
sexe: hom m e
30
25
20
15
10
5
0
toujours
souvent
quelquefois
jam ais
toujours
souvent
quelquefois
jam ais
toujours
souvent
quelquefois
jam ais
toujours
souvent
quelquefois
jam ais
-5
T ravail: tplein
T ravail:
tpartiel
T ravail: ret
T ravail: arret
Médiane
25%-75%
Etendue Non-Atypique
marche ext 1km/jour
40
Copyright © Génistat Conseils Inc.
2004
41
Initiation à Statistica 6
GRAPHIQUES PERSONALISÉS (« USER DEFINED GRAPHS »)
But visé : automatiser des taches répétitives
L’onglet « Option 2 » de la boîte de dialogue de définition de tout
graphique permet de sauvegarder toutes les options spécifiées durant la
définition du graphique, incluant la sélection des variables. Le graphique
sera placé dans cette liste personnalisée et il pourra être invoqué pour
produire le même type de graphique sur la même feuille de donnée ou une
autre feuille.
Lors de la prochaine
activation du bouton
« Graphiques Personnalisés »
le graphique
« Boîtes à Moustaches
Catégorisés en 2D »
fera partie de la liste
La liste peut être éditée :
changement de nom
suppression
41
Copyright © Génistat Conseils Inc.
2004
42
Initiation à Statistica 6
MISE À JOUR DE GRAPHIQUES
Lors de la création d’un graphe, on peut établir un lien avec la feuille de données qui en est sa source.
Le graphe sera automatiquement mis à jour si les données changent. Cela constitue une méthode
commode pour explorer inter activement le graphe comme l’examen des anomalies ou des données
suspectes. La mise en œuvre de cette possibilité se fait avec l’onglet « Option 1 » de la boîte de dialogue.
Cette disposition est valable seulement si la sortie est placée dans une fenêtre individuelle et non pas
dans une filière (***.stw). L’option de mise à jour demeure en vigueur pour la durée d’ouverture de la
boîte de dialogue.
Nuage de Points (Patients2.sta 17v*100c)
systolique = 84.8381-0.0224*x
diastolique = 118.7884+0.1961*x
160
150
140
Tous les
patients
130
120
110
100
90
80
70
-5
0
5
10
15
20
25
30
35
systolique
diastolique
nbre cigaret /jour
nbre cigaret
/jour:systoli
y = 85.4203719
- 0.0519718461*x
Nuage
de Poi que:
nts (Patients2.sta
17v*100c)
nbre cigaret /jour:diastolique: y = 114.0110290 + 0.4385699410*x
160
fumeurs seulement
150
v16 > 0
140
données enlevées
130
120
110
100
90
80
70
8
10
12
14
16
18
20
22
24
26
28
30
32
systol ique
di astoli que
nbre ci garet /j our
42
Copyright © Génistat Conseils Inc.
2004
43
Initiation à Statistica 6
OPTIONS GLOBALES
On peut choisir des options globales pour tous les graphiques qui, une fois fixées s’appliqueront à tous
les graphiques subséquents à l’exception des graphiques intégrés activés par les boutons accompagnat
les analyses statistiques. Ces options globales sont accessibles via « Outils » … « Options » ...onglet
« Analyses/Graphiques » de la barre STATISTICA.
onglet Graph 1
onglet Graph 2
43
Copyright © Génistat Conseils Inc.
2004
44
Initiation à Statistica 6
CRÉATION DE GRAPHIQUES COMPOSÉS / GRAPHIQUES MULTIPLES
Les graphiques composés de STATISTICA inclus
§ certains types de graphiques dans une fenêtre unique avec le bouton Graphiques de la barre
principale de STATISTICA produisant différents graphiques dans une fenêtre unique : les
nuages de points avec des histogrammes, les tracés matriciels, etc;
§ les Graphiques Catégorisés;
§ certains graphiques spécialisés obtenus comme résultats de procédures statistiques comme le
graphique de la carte de contrôle Xbar &R;
§ des graphiques créés avec un assistant (« wizard ») de mise en forme ou des modèles prédéfinis.
Les trois premières catégories sont des combinaisons de types spécifiques de graphiques créés par
STATISTICA tandis que la quatrième catégorie inclus des graphiques définis par l’usager provenant
d’une infinie variété de possibilités.
Exemple : utilisation de l’assistant
fenêtres
individuelles
résidantes
sur le bureau
44
Copyright © Génistat Conseils Inc.
2004
45
Initiation à Statistica 6
Valeurs
Tracé des Moyennes & Intervalle de Confiance (95.00%)
taille
2.0
1.9
1.8
1.7
1.6
1.5
1.4
brun
rouge
noir
blond
sexe
homme
sexe
femme
couleur cheveux
Histogramme Bivarié : marche ext 1km/jour & exercice phys int/jour
Remarque : il n’est pas toujours possible de produire un graphique composé avec certains ensemble
de graphiques existants
Impossible de tracer le graphique
45
Copyright © Génistat Conseils Inc.
2004
46
Initiation à Statistica 6
ÉDITION / PERSONALISATION D’UN GRAPHIQUE
On peut éditer et personnaliser toutes les éléments/composantes d’un graphique produit avec les options
par défaut. On peut aussi ajouter d’autres éléments comme du texte, des images etc. Il y a trois
catégories d’opérations disponibles afin de personnaliser un graphique :
§ ajout / édition d’un objet du graphique,
§ personnalisation des composantes du graphique,
§ utilisation d’un style (ensemble d’options prédéfinies) du graphique.
AJOUT / ÉDITION D’UN OBJET DU GRAPHIQUE
STATISTICA fournit des outils pour la création et l’addition de texte, rectangles, cercles, ovales, arcs,
polygones, flèches à tout graphique existant. De plus, on peut insérer des objets graphiques prédéfinis
provenant de STATISTICA ou de d’autres applications.
Barre d’outils pour ajouter
(dessiner) des objets
graphiques.
Cette barre s’active
automatiquement lorsqu’un
fichier graphique est actif sur
le bureau.
Lorsque les objets sont ajoutés
sur le graphique, ceux-ci
peuvent être éditer en cliquant
sur le bouton droit de la souris
pour accéder à un menu :
position sur le graphique,
taille, couleur, etc
Carte X-barre et R ; variable : RESIS
His togramme des Moyennes
X- barre : 4503.2 (4503.2) ; Sigma : 323.54 (323.54) ; n : 4.
5400
5200
5000
4988.6
4800
4600
Exemple
4503.2
4400
4200
4017.9
4000
3800
éléments ajoutés :
c a rt e de S he w h ar t p ou r le c o n t r ô le d e X -b a rr e
3600
3400
3200
0
2
4
6
8
10
12
14
16
His togr amme des Etendues
2200
2000
1800
1600
1400
1200
1000
800
600
400
200
0
-200
l i m i 5t e
25é r i e 30
d10e c o 15
n t r ô l 20
e sup
u re
35
40
45
flèche
50
Etendue : 666.08 ( 666.08) ; Sigma : 284.65 ( 284.65) ; n : 4.
titres
1520.0
666.08
0.0000
0
2
4
6
8
10 12 14 16 18
25r l e 30
50e R
c a r t5e d e10 S h e15
w h a r20t p o u
c o n r35
ô l e d40e l ' é45
tendu
46
Copyright © Génistat Conseils Inc.
2004
47
Initiation à Statistica 6
PERSONNALISATION DES COMPOSANTES D’UN GRAPHIQUE
Tous les paramètres contrôlant l’apparence d’un graphique sont accessibles interactivement après la
production de celui-ci. Un double clic sur l’arrière plan (à l’extérieur des axes) du graphique ouvre une
liste d’options regroupées d’environ 20 onglets permettant de personnaliser toutes les composantes du
graphique. Il existe aussi des options particulières selon chaque type de graphique.
47
Copyright © Génistat Conseils Inc.
2004
48
Initiation à Statistica 6
Exemple : personnalisation d’un graphique
Nuage de Points (Patients2.sta 17v*100c)
classe age: moins 30 ans systolique = 89.6641-0.8001*x
classe age: 30-50 ans systolique = 83.5853+0.3051*x
classe age: 51 ans et plus systolique = 84.8558-0.211*x
graphique
92
initial
90
résultant des
88
paramètres
systolique
86
84
par défaut de
82
STATISTICA
80
78
1
2
3
4
5
6
7
8
9
classe age: moins 30 ans
classe age: 30-50 ans
classe age: 51 ans et plus
indice début
opérations de personnalisation du graphique avec la fenêtre « toutes les options »
1.
2.
3.
4.
5.
6.
onglet fenêtre graphique : couleur extérieure, couleur intérieure, marge gauche
onglet texte/titres : changement de couleur et de police de caractères
onglet catégorisation : séparation en trois graphiques distincts relativement à la catégorie d’age
onglet tracés généralités : modification de la couleur des droites et remplacement des points avec +
onglet tracés ellipse : ajout d’une ellipse à 95% autour du nuage de points
onglet axes échelles : changement des limites et des graduations sur X (indice début) et Y (systolique)
Nuage de Points (Patients2.sta 17v*100c)
classe age: moins 30 ans systolique = 89.6641-0.8001*x
classe age: 30-50 ans
systolique = 83.5853+0.3051*x
classe age: 51 ans et plus systolique = 84.8558-0.211*x
graphique
final
100
95
à la suite des
90
85
80
opérations de
systolique
75
70
0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0 0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0
0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 8.5 9.5
0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 8.5 9.5
classe age: moins 30 ans
personnalisation
classe age: 30-50 ans
100
95
90
85
80
75
70
0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0
0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 8.5 9.5
classe age: 51 ans et plus
indice début
48
Copyright © Génistat Conseils Inc.
2004
49
Initiation à Statistica 6
UTILISATION D’UN STYLE DE GRAPHIQUE (ensemble d’options prédéfinies)
L’utilisation d’un STYLE est un autre moyen de personnaliser l’apparence d’un graphique. Les styles
sont un ensemble d’options sauvegardées qui s’appliquent simultanément pour changer rapidement
l’apparence des éléments du graphique. Cela élimine le besoin de redéfinir les options à chaque fois que
l’on produit un graphique. Un graphique est une collection d’objets graphiques : libellés, axes, lignes
ajustées, identificateur de points, …. de même que des objets ajoutés tels des cercles, boîtes de texte, des
flèches, etc. Les styles de graphiques sont les propriétés (spécifications) des objets graphiques :
§ lignes : taille, couleur, épaisseur, type (pleine, pointillées),
§ points : taille, forme, et couleurs des identificateurs,
§ aires : couleur et texture,
§ libellés / titres : taille, couleur, polices ce caractères,
§ axes / échelles : couleur, graduation, étendue,….
Les styles n’ajoutent pas d’objets mais habillent l’objet. Lorsqu’un style s’applique à un graphique,
(durant ou après sa création) les éléments (composants) définis par le style sont changés simultanément.
Le graphique résultant est identique au graphique obtenu avec un changement fait manuellement
appliqué aux éléments. Il s’agit en fait d’une séquence de commandes individuelles (macro commande).
Exemple : définition d’un style
Apparence du graphique initial
Nuage de Points avec Histogrammes (Patients2.sta 17v*100c)
Histogramme = 100*1*normal(x; 84.6879; 3.015)
Histogramme = 100*5*normal(x; 120.1022; 11.4797)
Nuage de Points = 130.8765-0.1272*x
Nuage de Points avec Histogrammes
40
style normal (celui de STATISTICA)
20
0
les spécifications (propriétés) des éléments
(points, symboles, couleurs, droites,
caractères,..) sont prédéfinis.
Ils s’appliquent à chaque fois que l’on
produit un graphique « Nuages de Points
avec Histogrammes »
170
160
150
diastolique
140
130
120
110
Changements apportés
100
90
80
78
80
82
84
86
88
90
92 0
20
40
les couleurs, les symboles pour obtenir une
version en noir et blanc du graphique.
systolique
Graphique modifié
Nuage de Points avec Histogrammes (Patients2.sta 17v*100c)
Histogramme = 100*1*normal(x; 84.6879; 3.015)
Histogramme = 100*5*normal(x; 120.1022; 11.4797)
Nuage de Points = 130.8765-0.1272*x
On peut conserver les modifications
d’apparence et les appliquer dans la
production de tout autre graphique sans
devoir les refaire individuellement
à chaque fois.
40
20
0
170
160
Exemple
diastolique
150
140
création d’un nouveau style
130
120
nom du nouveau style
110
100
« Nuage histogramme N&B »
90
80
78
80
82
84
86
88
90
92 0
20
40
méthode : page suivante
systolique
49
Copyright © Génistat Conseils Inc.
2004
50
Initiation à Statistica 6
MÉTHODE POUR CRÉER UN STYLE PERSONNEL DE GRAPHIQUE
Nuage de Points avec Histogrammes (Patients2.sta 17v*100c)
Histogramme = 100*1*normal(x; 84.6879; 3.015)
Histogramme = 100*5*normal(x; 120.1022; 11.4797)
Nuage de Points = 130.8765-0.1272*x
40
Étapes
double clic
ici
20
1.
ouvrir la fenêtre du graphique
2.
accéder aux options du graphique
en cliquant dans la zone
3.
ouverture de la fenêtre
« toutes les options »
4.
cliquer su l’onglet Style… dans la
partie inférieure gauche
5.
choisir l’option Enregistrer Sous…
et spécifier un nom
0
170
160
diastolique
150
140
130
120
110
100
90
80
78
80
82
84
86
88
90
92 0
20
40
systolique
50
Copyright © Génistat Conseils Inc.
2004
51
Initiation à Statistica 6
Liste détaillée des propriétés du
graphique
Bouton pour activer un menu
pour l’enregistrement
Exemple d’application d’un style
Nuage de Points avec Histogrammes (Patients2.sta 17v*100c)
Histogramme = 100*0.1*normal(x; 1.7244; 0.0908)
Histogramme = 100*10*normal(x; 75.4972; 19.1106)
Nuage de Points = 67.1103+4.8636*x
60
30
0
Style normal STATISTICA
160
140
poids
120
Activation : appliquer le style
100
80
« Nuage histogramme N&B »
60
40
20
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1 0
30
60
taille
Nuage de Points avec Histogrammes (Patients2.sta 17v*100c)
Histogramme = 100*0.1*normal(x; 1.7244; 0.0908)
Histogramme = 100*10*normal(x; 75.4972; 19.1106)
Nuage de Points = 67.1103+4.8636*x
60
30
0
-30
160
140
poids
120
100
80
60
40
20
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1 -30
0
30
60
taille
51
Copyright © Génistat Conseils Inc.
2004
52
Initiation à Statistica 6
OUTILS D’EXPLORATION INTERACTIVE D’UN GRAPHIQUE :
ROTATION
HABILLAGE
ZOOM
barre graphique
bouton ROTATION en 3D
bouton HABILLAGE en 2D
bouton ZOOM
52
Copyright © Génistat Conseils Inc.
2004
53
Initiation à Statistica 6
Exemple de ZOOM
Nuage de Points (Patients2.sta 17v*100c)
classe age: moins 30 ans systolique = 89.6641-0.8001*x
classe age: 30-50 ans systolique = 83.5853+0.3051*x
classe age: 51 ans et plus systolique = 84.8558-0.211*x
92
90
systolique
88
Zone sélectionnée
86
pour le
84
Zoom
82
80
78
1
2
3
4
5
6
7
8
résultat
classe age: moins 30 ans
classe age: 30-50 ans
classe age: 51 ans et plus
9
indice début
Nuage de Points (Patients2.sta 17v*100c)
classe age: moins 30 ans systolique = 89.6641-0.8001*x
classe age: 30-50 ans systolique = 83.5853+0.3051*x
classe age: 51 ans et plus systolique = 84.8558-0.211*x
88
Cliquer ici
systolique
86
résultat
84
82
Nuage de Points (Patients2.sta 17v*100c)
classe age: moins 30 ans
classe age: moins 30 ans systolique = 89.6641-0.8001*x
classe
age:
30-50 ans
classe age: 30-50
ans
systolique
= 83.5853+0.3051*x
51 ans et plus
classe age: 51classe
ans et age:
plus systolique
= 84.8558-0.211*x
80
5.5
6.0
6.5
7.0
7.5
8.0
indice début
86
systolique
85
84
83
82
5.4
5.6
5.8
6.0
6.2
6.4
6.6
6.8
classe age: moins 30 ans
classe age: 30-50 ans
classe age: 51 ans et plus
indice début
53
Copyright © Génistat Conseils Inc.
2004
54
Initiation à Statistica 6
Exemples D’HABILLAGE
Nuage de Points (Patients2.sta 17v*100c)
indice fin = 2.1062-0.0181*x
6
5
Etiquetage de points
indice fin
4
3
2
1
0
Nuage de Points (Patients2.sta 17v*100c)
indice fin = 2.1062-0.0181*x
-1
1
2
3
4
5
6
6
7
8
9
indice début
Obs. 18
5
indice fin
4
3
Obs. 11
2
1
0
Obs. 14
-1
1
2
3
4
5
6
7
8
9
indice début
Tracé Matriciel (Patients2.sta 17v*100c)
Marquage
pouls
de points
sélectionnés
systolique
sans une zone
rectangulaire
diastolique
54
Copyright © Génistat Conseils Inc.
2004
55
Initiation à Statistica 6
Exemple de ROTATION
55
Copyright © Génistat Conseils Inc.
2004
56
Initiation à Statistica 6
PERSONALISATION DE STATISTICA
L’interface usager de STATISTICA peut s’ajuster aux besoins spécifiques de l’usager. De plus
STATISTICA anticipe même vos préférences car il se rappelle les choix que l’usager a fait. Par exemple,
si l’usager utilise l’onglet « Avancé » avec la boîte de dialogue de spécification d’une procédure, alors
c’est l’onglet « Avancé » qui sera suggéré plutôt que l’onglet «Base », la prochaine fois que l’usager
invoquera cette procédure.
Tous les aspects de l’interface usager peuvent être personnalisé : contrôle des menus, barre d’outils, et
le clavier. Le processus pour le faire est simple. On peut régler des interfaces locales et des interfaces
globales pour les feuilles de données, les graphiques, les classeurs et maintenir plusieurs configurations
différentes. On peut même définir des barres d’outils personnelles.
BARRES D’OUTILS
10 barres d’outils prédéfinies
Chaque barre contient les
boutons (icônes) les plus utiles
pour les tâches.
Par défaut, la barre
« Feuille de données »
et la barre
« Standard »
sont toujours visibles à
l’ouverture de STATISTICA.
D’autres barres d’outils s’activent lorsqu’elles sont nécessaires. Par exemple, si un graphique est un
document actif, alors la barre « Outils Graphiques » est visible.
6 Sigma
Macro
Outils Graphiques
Standard
Feuille de données
Barre d’outils personnelle
56
Copyright © Génistat Conseils Inc.
2004
57
Initiation à Statistica 6
STATISTICA VISUAL BASIC
Microsoft Visual Basic (MVB) est un langage de programmation très employé et il constitue un des
standards de l’informatique. Son environnement est riche, flexible et comprend de nombreuses
fonctionnalités pour le développement d’applications. Le langage STATISTICA VISUAL BASIC (SVB)
vient ajouter un arsenal de plus de 10 000 nouvelles fonctions. SVB prend avantage de l’architecture
modulaire par objet de STATISTICA et il permet à l’utilisateur d’accéder à tous les aspects et à tous les
détails de fonctions des programmes. Dans le but d’automatiser les tâches répétitives STATISTICA offre
trois catégories de MACROS (programmes en SVB) pour créer l’enregistrement automatique alors que
l’usager exécute un programme. Il y a trois types de macros que l’on peut enregistrer. Ces macros
suivent la même syntaxe et elles peuvent être éditées.
Macro d’une tâche : Analyse ou Graphique
Toutes les actions comme la sélection des variables, le choix des options … lors de l’exécution d’une
tâche (provenant du menu Statistique ou Graphique ) sont enregistrées dans les coulisses. La tâche peut
être simple ou élaborée en impliquant plusieurs centaines de documents de sorties, La création de ce
type de Macro peut se faire via le menu Options (voir plus bas) qui est disponible avec toutes les analyse.
57
Copyright © Génistat Conseils Inc.
2004
58
Initiation à Statistica 6
Macro d‘une session (« Log »): Filière d’analyse
Une session entière comprenant plusieurs analyses peut être enregistrée (macro). Cette macro se
différencie de la macro d’analyse standard par la possibilité d’avoir des périodes de suspension / reprise
de l’enregistrement.
Macro au Clavier
Toutes les frappes entrées via le clavier sont enregistrées. Lorsqu’on arrête, une fenêtre d’édition SVB
s’ouvre comprenant toutes les frappes enregistrées.
Exemple : macro de session
nom : correl
programme : correl.vbs
fonction : corrélations / scattergrammes des var 4-10 de la feuille.
La macro « correl.vbs » s’applique à tout fichier ayant au moins 10 variables. Elle calcule la matrice de
corrélation des variables 4 à 10 et elle fait le tracé matriciel des mêmes variables. S’il y a une feuille de
données ouverte , alors on peut exécuter la macro.
58
Copyright © Génistat Conseils Inc.
2004
59
Initiation à Statistica 6
AIDE DE STATISTICA
Disponible en anglais : sommaire – par index – par recherche - contextuelle
Conseiller statistique
Manuel Électronique
Vidéo didacticiels
59
Copyright © Génistat Conseils Inc.
2004
60
Initiation à Statistica 6
GLOSSAIRE
Types d’échelle de mesure
Nominale : variable qualitative servant à définir l’appartenance à une
classe ; les classes ne sont pas ordonnées.
Ordinale : variable qualitative avec des classes ordonnées de moins à
plus sans être capable de chiffrer les différences. Entre les classes.
Intervalle :variable quantitative permettant de comparer la taille des
différences entre les valeurs ;, par exemple l’échelle Celsius de
température est une échelle de catégorie intervalle.
Ratio : variable quantitative de type intervalle mais avec un zéro
absolu ; par exemple l’échelle de température Kelvin.
Intervalle de confiance
étendue de valeurs pour un paramètre (moyenne, proportion,..) de la
population, calculée à partir des observations recueillies, que l’on croit,
avec une certaine probabilité (coefficient de confiance), contenir la
vraie valeur du paramètre. Le calcul de l’intervalle de confiance est
basé sur l’hypothèse d’une distribution normale. Si la taille (nombre
d’observations) de l’échantillon est supérieure è 100 cette hypothèse
n’est pas nécessaire.
p-level
(test de signification)
probabilité calculée et basée sur : (a) une statistique appropriée
(généralement un ratio) dépendant des données, (b) en supposant
qu’une hypothèse nulle (celle que l’on met à l’épreuve) est vraie,
(c) une distribution d’échantillonnage généralement la loi F de Fisher
ou la loi T de Student.
Interprétation : si la valeur du p-level fournit par le logiciel statistique
est « petite », disons 0.05, on déclare le test significatif, ce qui permet
de conclure au rejet de l’hypothèse nulle avec un risque de 5% de se
tromper.
Degré de liberté
le nombre de termes (fonctions des observations) qui sont linéairement
indépendant dans une somme de carrés. C’est une valeur entière qui
dépend du nombre d’observations n de l’échantillon et de la procédure
statistique employée. Le degré de liberté est égal à
n – k où k représente le nombre de restrictions imposées sur les
données. Illustrons avec des exemples.
Exemple 1 : calcul de la variance échantillonnale.
Le degré de liberté de la somme totale des carrés est n – 1 car on
impose une seule restriction. Le calcul repose sur les écarts
quadratiques (y – y ) 2 entre chaque observation y et la moyenne y.
La somme des écarts (y – y ) est nulle.
Exemple 2 : ANOVA à un facteur variant à k modalités
Le degré de liberté de la somme des carrés résiduelle servant à estimer
l’erreur expérimentale est n – k - 1. On impose k restrictions
additionnelles pour le calcul des moyennes de groupes. Il reste donc
n – 1 – k = n – k – 1 degrés de liberté.
Exemple 3 : tableau de contingence r X c ( r rangées c colonnes)
Les valeurs des comptages dans les cellules du tableau sont soumis à
plusieurs contraintes. Le total de chaque ligne est fixé, le total de
chaque colonne est fixé, le grand total de tous les effectifs est fixé.
Il y a r * c cellules dont (r-1) lignes qui sont libres de varier et
60
Copyright © Génistat Conseils Inc.
2004
61
Initiation à Statistica 6
Degré de liberté (suite)
(c-1) colonnes qui sont libres de varier. Donc k = (r - 1) + (c -1)
Le degré de liberté est r*c – (r - 1) – (c - 1) = (p - 1)*(q - 1).
Cette valeur est le degré de liberté pour la variable khi deux pour tester
l’indépendance des 2 variables qualitatives définies par les modalités
des lignes et des colonnes.
Moyenne géométrique
G = ( ∏ y i)
1/n
y i observation
n taille de l’échantillon.
= exp [ ( 1/ n) ∑log ( y i ) ]
Moyenne harmonique
Moyenne arithmétique
H = n / ∑ ( 1/ y i)
y=∑ yi /n
Mode
l’observation la plus fréquente.
Médiane
valeur qui sépare les observations en 2 groupes tels que 50% des
valeurs sont inférieures à la médiane et 50% des valeurs sont
supérieures à la médiane
Percentiles
d’une distribution expérimentale (observations) ou une distribution
théorique est un nombre x(p) (0 ≤ p ≤ 1) tel que 100*p% des valeurs
de la distribution sont inférieures à x(p).
Étendue interquartile
= x(0.75) - x( 0.25)
différence entre le 75ième percentile et le 25ième percentile.
Étendue
différence entre la plus grande observation et la plus petite observation.
Rang
valeur entière désignant la position de l’observation dans la suite
ordonnée des observations.
Écart type
c’est est un indicateur de la dispersion des données.
0.5
2
s = [ ∑ ( y i – y ) / (n – 1) ]
Variance
s =∑(yi–y)
Écart type de la moyenne
=s/√n
Coefficient de corrélation
mesure du degré de la relation linéaire entre 2 variables. Le coefficient
est une valeur comprise entre – 1 et + 1. Une valeur voisine de zéro est
associée à un nuage de points ayant une forme sphérique. Il est
fortement recommander de faire un nuage de points pour visualiser les
données correspondantes sur lesquelles on a calculé un coefficient de
corrélation.
2
2
/ (n – 1 )
61
Copyright © Génistat Conseils Inc.
2004
62
Initiation à Statistica 6
EXERCICES : GESTION de DONNÉES
G-1 : ajout de variables, formule, assignation texte/numérique, tri, coloriage
Ouvrir la feuille de données STATISTICA : Agressivité.sta (3v par 50c.
La feuille contient le sexe de l’individu et deux variables (AGR1 et AGR2). Ces variables mesurent, sur une échelle
de 0 (doux) à 10 (violent), l’indice d’agressivité lorsque mis en face de deux situations susceptibles d’une réaction
dans le cadre d’une simulation.
(a) Ajouter une nouvelle variable AGR = (AGR1 + AGR2)/2
(b) Ajouter une nouvelle variable CLAGR : agressivité de l’individu selon 4 niveaux :
AGR
CLAGR
(0.00, 0.25]
faible
(0.25, 0.50]
moyenne
(0.50, 0.75]
forte
(0.75, 1.00]
élevée
(c) Quel code numérique a été assigné à la variable CLAGR ?
Remplacer le code numérique par les 4 valeurs suivantes : 1 – 2 – 3 – 4.
(d) Trier les observations par SEXE et selon les valeurs croissantes de AGR.
(e) Colorer en jaune : les cellules de sexe féminin ayant une valeur de AGR > 0.76
(e) Changer la police de caractères par « Times New Roman » ; centrer toutes les colonnes.
G-2 : importation, en-tête, format, tri, moyenne, écart type
Ouvrir la feuille de données EXCEL : Température.xls
La feuille contient 4 variables : Date, Ville, Température (degrés F), Condition atmosphérique de 30 villes américaines en
date du 22, 23 ou 24 Août 1998.
(a) Importer la feuille dans une feuille de données STATISTICA ; sauvegarder le fichier sous le nom
Température.sta
(b) Ajouter un en-tête descriptif au fichier.
(c) Changer le format de la variable DATE pour le format : mois-année, (AUG-1998).
(d) Transformer la température en degrés Celsius.
(e) Trier les observations en ordre de température croissante. Quelle ville a la température la plus élevée ?
(f) Trouver la moyenne et l’écart type de la variable température.
G-3 : création d’une feuille de données, saisie de données, assignation d’un nom pour
les observations (cas), ajout/élimination variables/ observations statistiques de blocs
(a) Créer une nouvelle feuille de données avec le nom EX-G3.sta
Saisir les 12 observations des 5 variables suivantes : ID1, ID2, X, Y, Z
ID1
ID2
X
Y
Z
1
2
3
4
5
6
7
8
9
10
11
12
AB
CD
EF
GH
IJ
KL
MN
OP
QR
ST
UV
WX
4
7
9
8
12
3
5
7
1
2
1
4
14
-2
7
16
-22
49
-17
6
19
-15
-36
0
101.3
21.8
122.1
131.9
99.2
88.5
110.0
87.4
24.7
45.5
17.2
99.6
le fichier « nouveau » contient
toujours
10 variables (colonnes) par
10 observations. (lignes)
Il faudra ajouter 2 lignes
Utilisez le bouton
"Observations".
(b) Ajouter un "en tête de fichier" intitulé « fichier pour l’exercice G-3 ».
62
Copyright © Génistat Conseils Inc.
2004
63
Initiation à Statistica 6
Sauvegarder la feuille avec la commande "Enregistrez sous…" .
(c) Nommer les observations avec la variable ID2. Employer "Gestionnaire de Noms d’Observations"
(d) Éliminer la colonne 10. Employez le bouton "Variables".
(e) Définir, dans les colonnes 6 à 9, les variables R (colonne 6 ), S (colonne 7) , T (colonne 8)
U (colonne 9) . Les équations de définition sont :
R = X + Y + Z ; S = Log10( R 2 ) ; T = R2 + Rnd(100) ; U = 100+RndNormal(10)
Ouvrer la boîte de dialogue à l'aide d'un double clic sur le nom de la variable
Rnd (100) :
données simulées selon loi uniforme sur (0,100)
RndNormal(10) : données simulées selon loi normale de moyenne 0 et d’écart type 10
Sauvegarder la feuille sous le même nom.
(f) Ajouter 5 rangées (cases) additionnelles après la rangée 12. Employez le bouton "Observations".
(g) Saisir le bloc formé par les colonnes ID2, X, Y, Z et les rangées 1, 2, 3, 4, 5 (le bloc est en noir) et
copier ce bloc ("Copier de Edition") et collez le bloc ("Coller de Edition") dans les rangées 13 à 17
et les colonnes ID2, X, Y, Z.
(h) Déplacer les variables R, S, T, U après la colonne ID2. Faites une sauvegarde du fichier sous le nom
EXG3-A. L’opérations suivante (i) sera exécutée sur ce fichier.
(i) Obtenir toutes les statistiques : MIN -MAX – MOYENNE - ÉCART TYPE des variables X, Y, Z
avec la commande "Statistiques de blocs" du bouton Statistiques de la barre principale
de STATISTICA. Sauvegardez le résultat sous le nom EXG3-B.
G-4 : type de variables valeurs de date, saisie rapide des données par extrapolation
(a) Créer une nouvelle feuille de données avec le nom EX-G4.sta (5v par 100c).
Nommer les variables : ID JOUR MOIS AN
MACHINE (dans cet ordre)
ID
variable numérique avec une décimale.
JOUR, AN
variables de type entier.
MOIS
variable de type texte avec les codes numériques suivants :
janvier =1
février = 2
mars = 3
avril = 4
MACHINE
variable de type texte.
(a) Sauvegarder le fichier.
(b) Compléter la feuille de données selon les informations suivantes.
1.
ID commence à 10.0 et se poursuit avec 10.1, 10.2, …….
2.
JOUR : valeur de 15 pour les observations 1 à 20
valeur de 16 pour les observations 21 à 40
valeur de 17 pour les observations 41 à 60
valeur de 18 pour les observations 61 à 80
valeur de 19 pour les observations 81 à 100
3. MOIS : janvier pour les cas 1 à 5
février pour les cas 6 à 10
mars pour les cas 11 à 15
avril pour les cas 16 à 20
recommencer la structure précédente pour les cas 21 à 40,…., 81 à 100
4. AN : commencer en 1901 suivie de 1902, 1903,…., 2000
5. MACHINE :
cas 1 à 25 machine = A
cas 26 à 75 machine = B
cas 76 à 100 machine = A
(c) Ajouter une sixième variable : DATE combinant les variables JOUR /MOIS /AN en une seule colonne
dans un format d’affichage « date » de Statistica.
63
Copyright © Génistat Conseils Inc.
2004
64
Initiation à Statistica 6
G - 5 : ajout de variables, recodification, tri, statistiques de blocs, formules
Ouvrir la feuille de données : Baseball.sta ( 7v par 40c)
(a) Trier les données par année (YEAR) en ordre croissant et, pour chaque année, en ordre décroissant
de la variable BA (moyenne au bâton).
(b) À quel numéro de cas correspond la meilleure moyenne au bâton en 1967?
(c) Introduire une nouvelle variable SCORE dans la feuille
SCORE = 1000* (RUNS + DP) / WALKS.
(d) Introduire une nouvelle variable TYPE de match dans la feuille :
Score < 1600
TYPE = ennuyeux
1600 ≤ Score < 1900
TYPE = normal
1900 ≤ Score
TYPE = excitant
Durant la période de 1965 à 1968, y a-t-il eu plus de matchs ennuyeux que de matchs excitants ?
EXERCICES : ANALYSE STATISTIQUE de BASE
Module Statistiques Élémentaires et fonctions Graphiques
Ouvrir la feuille de données : Expérience mémoire.sta ( 8v par 48c)
Mettre tous les résultats de cet exercice dans une filière que l’on nommera : Expérience .mémoire.stw
S -1 : statistiques descriptives, décompositions , vérification normalité, test –t
(a)
(b)
(c)
(d)
variable STRESS
variable STRESS
variable STRESS
variable STRESS
-
Calculer la moyenne l’écart type, le 5ième percentile, le 95ième percentile
La variable est-elle normalement distribuée ?
Calculer la moyenne et la variance selon la variable SEXE.
Si on veut comparer les moyennes de STRESS pour les hommes et les femmes
allez vous employer un test t (par groupe) ou un test non paramétrique?
S – 2 : corrélations, tests de significatifs, p-level
Ouvrir la feuille de données : Textile2.sta ( 5v par 27c)
Il s’agit de données obtenues par l’exécution d’un plan expérimental avec 3 facteurs variant à 3 modalités.
(a) Trouver les coefficients de corrélations entre les variables LOAD, AMPLITUDE, LENGHT,
LOG_CYCL. Les trois premières variables sont les facteurs contrôlés de l’expérience et
LOG_CYCL représente la variable de réponse.
(b) Quels sont les coefficients qui sont statistiquement significatif au seuil de 0.05?
(c) Tracer le nuage de points de LENGTH et LOG_CYCL.
(d) Créer le graphique de réponse de LOG_CYCL.en fonction de LENGTH et LOAD.
Quel est le comportement de la réponse lorsque LOAD décroît et que LENGTH croit?
(e) Tracer le graphique de normalité des variables CYCLES et LOG_CYCL.
Les variables suivent –elles loi normale?
(f) Tracer le graphique Quantile-Quantile et le graphique Probabilité-Probabilité.
Comparer les graphiques de la question (f) avec les graphiques de la question (e).
S – 3 : test t pour échantillons indépendants, diagramme Boîte à Moustaches
Ouvrir la feuille de données : Machine.sta ( 5v par 55c)
(a) Comparer les 2 machines avec un test t pour 2 échantillons indépendants. Faites le test avec les
variables des 2 premières colonnes seulement.
Les hypothèses de base pour exécuter d’un test t sont-elles vérifiées?
(b) Résumer le résultat du test t avec un diagramme boîte à moustaches.
(c) Les colonnes 3 et 4 contiennent les mêmes données que les colonnes 1 et 2 mais organisées différemment.
Exécuter le test t de comparaison des machines en employant les colonnes 4 et 5.
64
Copyright © Génistat Conseils Inc.
2004
65
Initiation à Statistica 6
Comparer avec le résultat obtenu avec le résultat obtenu en (a).
S – 4 : décompositions, statistiques de groupes, ANOVA, comparaison a posteriori
Ouvrir la feuille de données : Ventes GSC Inc.sta (13v par 130c)
(a) Représenter avec un seul graphique, le volume (axe vertical) par période (axe horizontal) pour
chaque région. Suggestion : employer les variables des colonnes 8 à 13.
(b) Employer la procédure Décompositions & ANOVA à 1 facteur du module Statistiques Élémentaires
pour comparer le volume des ventes des 6 régions entre les années 1996 et 2000.
Le volume moyen du volume des ventes est-il statistiquement différent au seuil de 0.05?
(c) Obtenir les différents graphiques qui permettent de visualiser les données et de vérifier si les données
suivent une distribution normale.
(d) Obtenir le résultat du test de comparaison Post Hoc ( a posteriori) HSD de Tukey permettant de
comparer les régions 2 à 2.
S – 5 : tableaux et tris croisé, test du khi deux, graphique d’interaction d’effectifs
Ouvrir la feuille de données : Funmage.sta (2 v par 50 c)
(a) Obtenir une table de fréquences pour la variable catégorie d’age.
(b) L’age est-elle liée à l’habitude de fumer? En d’autres termes existe t- il une relation entre la variable
catégorie d’age et le fait d’être un fumeur? Suggestion : exécuter un test du khi deux.
(c) Obtenir un graphique d’interaction des fréquences.
S – 6 : tests non paramétriques
Ouvrir la feuille de données :
Animaux.sta (2 v par 24 c)
(a) Vérifier au moyen d’un graphique que la variable POIDS ne suit pas une distribution normale.
(b) Exécuter un test de Mann-Whitney pour comparer le groupe contrôle avec le groupe traitement.
Fixer le seuil à 0.10.
(c) Représenter les données au moyen d’un diagramme Boîte à Moustaches.
S- 7 : Test des signes, test de Wilcoxon
Ouvrir la feuille de données :
(a)
(b)
(c)
(d)
Accidents.sta (3v par 12 c)
Créer des noms d’observations à l’aide de la variable MOIS.
Les données d’accidents de chaque mois constituent –elles 2 échantillons indépendants?
Exécuter un test des signes sur les données.
Exécuter un test de Wilcoxon pour les données appariées. La différence est-elle significative?
S – 8 : création et exécution d’une analyse macro de session
L’analyse macro s’appliquera sur une feuille de données dont les deux premières variables sont quantitatives.
Ouvrir une feuille de données, par exemple Diamètres.sta (3v par 100c)
(a) Créer une analyse macro de session qui fera la séquence des opérations suivantes sur chacune
des 2 premières variables de la feuille. Nommer la macro MACROTEST.
1. le calcul de la moyenne et de l’écart type;
2. l’histogramme;
3. le diagramme Boîtes à Moustaches;
4. le calcul de la matrice de corrélation;
5. le test t de comparaison des moyennes en considérant les deux variables comme
deux échantillons dépendants (appariés).
Enregistrer la macro sous le nom de MACROTEST.
(b) Exécuter MACROTEST sur la feuille de données IRIS.sta ( 5v par 150c)
65
Copyright © Génistat Conseils Inc.
2004
66
Initiation à Statistica 6
S-9 : distributions de probabilité : z (Normale) t (Student) F (Fisher)
remarque : repose sur une connaissance des lois de probabilités
Aller à la fonction « Calculateur » du module STATISTIQUES ÉLÉMENTAIRES.
Compléter le tableau ici-bas.
DISTRIBUTION
PARAMÈTRES DE
LA DISTRIBUTION
z (Normal)
moyenne = 100
écart type = 10
z (Normal)
moyenne = 100
écart type = 10
PROBABILITÉ (p)
VALEUR DU
PERCENTILE
0.85
X=?
p =?
X = 85
t (Student)
dl = 5
0.95
t=?
t (Student)
dl = 10
p=?
t = 2.00
F (Fisher)
df1 = 3
df2 = 7
p = 0.80
F=?
F (Fisher)
df1 = 5
df2 = 15
p=?
F = 1.55
66
Copyright © Génistat Conseils Inc.
2004
67
Initiation à Statistica 6
NOUVELLES FONCTIONNALITÉS : version 6
§
§
§
§
§
§
§
§
§
§
§
§
§
§
§
§
§
Interface-utilisateur simplifiée et optimisée, entièrement personnalisable, avec des onglets « Base »
n'offrant que les options les plus essentielles.
Personnalisation de la plupart des aspects du programme.
Nouvelles gestion flexible des sorties sous forme de classeurs et éditeurs de rapports puissants, d'une
capacité illimitée, de tableaux multimédia, intégration de tous les documents STATISTICA.
Élimination de la plupart des limitations du système : nombre illimité de variables et d'observations,
taille illimitée des noms de variables, étiquettes, valeurs-texte; possibilité d'ouvrir et traiter
simultanément plusieurs fichiers de données, dans une ou plusieurs applications STATISTICA.
Amélioration des graphiques avec de nouveaux types de graphiques et des centaines de nouvelles
fonctionnalités : un système pour gérer les styles de graphiques, l’exploration interactive 3D, des outils
d'habillage et de zoom.
Langage Visual Basic totalement intégré, permettant aux novices d'enregistrer simplement des macros,
et aux programmeurs de développer des applications complexes pouvant accéder à tous les aspects du
programme Visual Basic.
Amélioration de la vitesse de traitement de toutes les procédures.
Nouveau requêteur puissant de bases de données relationnelles, options d'importation/exportation;
les versions entreprises permettent de traiter des bases de données distantes directement sans avoir à
importer les données localement.
Nouvelles procédures statistiques d'avant-garde : par exemple, pour le data mining et la modélisation ;
et amélioration significative des procédures existantes avec élimination de la plupart des limites de taille.
Autres améliorations accessibles par des onglets et contrôles que vous n'activez que si vous en avez
besoin.
Intégration avec le Web pour toutes les entrées et sorties avec le produit complémentaire STATISTICA
Web Server.
Disparition du Commutateur de Modules. Tous les modules de STATISTICA sont désormais
accessibles depuis une même application. On peut ouvrir plusieurs applications de STATISTICA
simultanément, chacune pouvant traiter plusieurs analyses différentes sur des fichiers distincts. Par
exemple, on peut réaliser 4 analyses de régression totalement indépendantes (ou plus) sur des fichiers de
données différents, et 2 ANOVA sur un autre fichier de données commun.
La distinction entre les tableaux d'entrée et de sortie disparaît.
De nouvelles fonctions statistiques intelligentes, tenant compte automatiquement des valeurs
manquantes sont désormais disponibles dans les formules des feuilles de données et ailleurs. Elles
facilitent ainsi la spécification de listes d'arguments ; par exemple: = mean (v1 : 20 , v25 , v30 : 35
, sqrt (v4 ), time1, time3 ) calcule la moyenne des variables 1-20, 25, 30-35 , etc.
Un Gestionnaire de Configuration vous permet de passer d'une configuration de STATISTICA à
une autre.
Tous les résultats peuvent être organisés de différentes façons. Par exemple, sous forme de
rapports ou de fenêtres de résultats indépendantes, dans des classeurs, et peuvent être utilisés
instantanément en entrée d'une autre analyse.
Les fichiers MS Excel, MS Word, ou autres fichiers externes peuvent être ouverts dans
STATISTICA et intégrés dans les entrées ou les résultats.
67
Copyright © Génistat Conseils Inc.
2004
68
Initiation à Statistica 6
§
§
§
§
§
§
§
§
§
§
§
§
Un éditeur de format de type Excel est utilisé dans tout le programme pour contrôler l'affichage
des valeurs : cellules des tableaux, valeurs d'échelle, dans les graphiques, etc.
Un nouveau système flexible de Types de Graphiques simplifie radicalement la personnalisation
des graphiques.
Les graphiques peuvent être enregistrés sous divers formats, notamment les formats JPG et
PNG (le nouvel équivalent du GIF) pour les applications Internet)
Tous les graphiques sont entièrement programmables en Visual Basic.
Toutes les fonctions de gestion des données sont désormais accessibles à tout moment de
l'analyse (disparition du module de Gestion des Données dans STATISTICA 6)
De nouvelles options d'importation (par exemple, une nouvelle fenêtre d'aperçu avant importation,
des options pour ignorer les intitulés des fichiers ASCII, afin, par exemple, de ne pas importer les
deux premières lignes), et une nouvelle application puissante et intégrée, STATISTICA Query, avec
des outils conviviaux pour construire des requêtes complexes sur des bases de données.
Les classeurs constituent une manière intuitive et pratique d'organiser vos résultats et
permettent de stocker un nombre illimité de documents (non seulement des tableaux et graphiques
STATISTICA mais aussi des documents MS Office ou autre). Les classeurs sont organisés et gérés
comme les contrôles MS Windows standard pour l'étude des dossiers et des fichiers.
Les classeurs contiennent une "table des matières" dans le volet gauche, et sont organisés
automatiquement de façon hiérarchique pour rendre compte des différentes analyses, graphiques
ou analyses réalisés sur les différents fichiers de données, etc. Les dossiers du classeur (représentant
par exemple différentes analyses) peuvent être réduits ou développés d'un simple clic, par exemple
pour montrer tous les documents d'entrée et résultats associés à l'analyse respective.
Chaque classeur peut être enregistré dans un seul fichier ; tous les résultats, graphiques, fichiers
de données, etc. peuvent être ouverts ultérieurement tels qu'ils ont été insérés initialement ; par
exemple, vous pouvez enregistrer un projet d'analyse entier dans un même classeur contenant tous
les fichiers de données, graphiques, résultats de différentes analyses, rapports mis en forme avec des
graphiques et tableaux incorporés, annotations vocales, etc. dans un seul fichier que vous pouvez
envoyer par e-mail à un collègue.
Les noms de variables ou d'observations, étiquettes, en-têtes, etc... peuvent être de taille
quasiment illimitée et contenir tout caractère, formatage de caractère, etc... ; ces attributs spéciaux,
tailles de police, couleurs, etc... sont préservés (utilisés) pour l'étiquetage des résultats dans les
graphiques, feuilles de données, classeurs, rapports, etc.
Vous pouvez aisément gérer, modifier ou intégrer chacune des dix barres d'outils prédéfinies
et autant de barres d'outils personnalisées que vous le souhaitez, en fonction de vos différentes
configurations de STATISTICA, etc.
STATISTICA enregistre automatiquement les scripts Visual Basic de toutes les analyses que
vous réalisez ; vous pouvez donc enregistrer de longues séquences d'opérations pour les exécuter à
nouveau ultérieurement ou les modifier, et les incorporer dans vos propres applications.
68
Copyright © Génistat Conseils Inc.
2004

Documents pareils