screen - Christophe Lalanne

Transcription

screen - Christophe Lalanne
Découverte du logiciel Stata
Représentation et gestion des données
Christophe Lalanne
www.aliquote.org
Synopsis
Premiers pas avec Stata
Les tableaux de données sous Stata
Les variables sous Stata
Le langage Stata
Importation de sources de données
Gestion d’une base de données
d2e5ca9
2 / 55
Premiers pas avec Stata
d2e5ca9
3 / 55
Prise en main du logiciel Stata
www.stata.com
d2e5ca9
4 / 55
Exploration des menus
File
• création et sauvegarde de fichier do
• gestion de projet
• chargement et sauvegarde de données
Stata (dta)
• gestion des fichiers d’historique (log)
• importation et exportation de sources
de données externes
d2e5ca9
5 / 55
Exploration des menus
File
• description des données actives
• éditeur de données (lecture/écriture)
• gestionnaire de variables et de base
de données
• autres utilitaires (matrices, codes ICD,
etc.)
d2e5ca9
6 / 55
Exploration des menus
File
• graphiques de base (diagramme de
dispersion, diagramme en barres ou
points, histogramme, etc.)
• graphiques spécifiques (distribution,
séries chronologiques, survie, etc.)
• gestionnaire de graphiques
d2e5ca9
7 / 55
Exploration des menus
File
• statistiques descriptives et tableau de
contingence
• tests d’association pour deux variables
• tests exacts et non paramétriques
• modèle linéaire et modèle linéaire
généralisé
• modèles économétriques et survie
• modèles pour données de sondage et
données longitudinales
• modèles par équations structurelles
• techniques de rééchantillonnage
• procédures de « post-estimation »
d2e5ca9
8 / 55
Documentation
Help . PDF Documentation
d2e5ca9
9 / 55
Documentation supplémentaire
• www.stata.com/support
• « statalist », www.statalist.org
• Stata Blog, http://blog.stata.com
• Stack Overflow, http://stackoverflow.com [stata]
• Stata Journal, http://stata-journal.com
• Site pédagogique de l’UCLA,
http://www.ats.ucla.edu/stat/stata
d2e5ca9
10 / 55
Stata pour l’économétrie
d2e5ca9
11 / 55
Stata pour les biostatistiques
d2e5ca9
12 / 55
Menus versus do-file
Traçabilité et reproductibilité (19)
• approche interactive de
l’analyse de données : tester,
affiner, sauvegarder
• 40-80 % du temps consacré à la
gestion de données
• reproduction des résultats à
l’identique (« audit trail »)
• travail collaboratif, publication
d’articles (délai 6 mois à 2 ans)
d2e5ca9
13 / 55
Éditeur de fichiers do
File . New . Do-file
Coloration syntaxique, exécution de code, commentaires.
d2e5ca9
14 / 55
Fichiers log
File . New . Log . Begin
Deux types de sauvegarde d’historique :
• globale : [cmd]log using history.log /// ... /// log
close ; interruption temporaire (on/off)
• locale : translate @Results history.txt /// type
history.txt
Format de fichier : scml (Stata Markup and Control Language)
ou texte simple (pas de liens, ni formatage).
d2e5ca9
15 / 55
Aide en ligne
Help . Stata command...
. help describe
d2e5ca9
16 / 55
Recherche locale et en ligne
Help . Search...
La commande search (anciennement findit) permet de rechercher dans les pages de manuel et sur Internet.
. search scalar
. search stripplot
d2e5ca9
17 / 55
Les tableaux de données sous Stata
d2e5ca9
18 / 55
Importation de données
Fichiers d’exemple installés avec Stata : help dta_examples.
File . Example Datasets
d2e5ca9
19 / 55
Importation de données
Fichiers d’exemple disponibles localement : sysuse.
. sysuse auto
(1978 Automobile Data)
. describe, short
Contains data from /Applications/Stata/ado/base/a/auto.dta
obs:
74
1978 Automobile Data
vars:
12
13 Apr 2013 17:45
size:
3,182
Sorted by: foreign
. list make-length in 1/2
+------------------------------------------------------------------------+
| make
price
mpg
rep78
headroom
trunk
weight
length |
|------------------------------------------------------------------------|
1. | AMC Concord
4,099
22
3
2.5
11
2,930
186 |
2. | AMC Pacer
4,749
17
3
3.0
11
3,350
173 |
+------------------------------------------------------------------------+
d2e5ca9
20 / 55
Importation de données
Fichiers d’exemple disponibles sur le web : webuse (voir aussi
net from, net describe et net get pour une installation locale).
. webuse lbw
(Hosmer & Lemeshow data)
. describe, short
Contains data from http://www.stata-press.com/data/r13/lbw.dta
obs:
189
Hosmer & Lemeshow data
vars:
11
15 Jan 2013 05:01
size:
2,646
Sorted by:
. list in 1/2
+-----------------------------------------------------------------------+
| id
low
age
lwt
race
smoke
ptl
ht
ui
ftv
bwt |
|-----------------------------------------------------------------------|
1. | 85
0
19
182
black
nonsmoker
0
0
1
0
2523 |
2. | 86
0
33
155
other
nonsmoker
0
0
0
3
2551 |
+-----------------------------------------------------------------------+
d2e5ca9
21 / 55
Chargement de données dta
File . Change Working Directory...
À l’instar de webuse et sysuse, on peut utiliser use pour lire des
données au format Stata (extension dta). La commande cd permet de modifier le répertoire de travail courant. Notons qu’il
est également possible de cliquer sur un fichier de données
depuis l’explorateur de fichiers.
. cd "~/data/"
. use grunfeld, clear
. describe, short
L’extension (.dta) est facultative, et il n’est pas nécessaire d’entourer le nom de fichier de quotes s’il n’y a pas d’espace dans
le nom de fichier (ou le chemin d’accès).
d2e5ca9
22 / 55
Les variables sous Stata
d2e5ca9
23 / 55
Les variables sous Stata
Trois catégories de variables :
• variable numérique
• variable catégorielle
• chaîne de caractères
Data . Data Editor . Data Editor (Edit)
De manière formelle on ne distingue que les nombres et les chaînes de caractères.
d2e5ca9
24 / 55
Mode de représentation et format
Data . Variables manager
• Mode de stockage des nombres (précision) : byte, int,
long, double, float.
• Mode de présentation des nombres (format) : %a.bg, où a
représente la partie entière et b la partie décimale
d2e5ca9
25 / 55
Précision numérique
. help datatype
• byte [-127, 100]
• int [-32 767, 32 740]
• long [-2 147 483 647, 2 147 483 620]
Il est préférable d’utiliser des types long (double) ou string
pour coder les identifiants uniques d’une base de données.
Le type byte est généralement utilisé pour le codage numérique des variables catégorielles, auxquelles on associera des
« étiquettes » (labels).
d2e5ca9
26 / 55
Format d’affichage
. webuse lbw
. summarize bwt
(Hosmer & Lemeshow data)
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------bwt |
189
2944.286
729.016
709
4990
. format bwt %4.2f
. summarize bwt, format
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------bwt |
189
2944.29
729.02
709.00
4990.00
La plupart des commandes de résumé numérique offre une
option pour le format d’affichage, donc il est inutile de « faire
les arrondis » manuellement.
d2e5ca9
27 / 55
Le langage Stata
d2e5ca9
28 / 55
Syntaxe Stata
Les commandes Stata sont structurées ainsi :
[by varlist :] command [ varlist ] [= exp ] [if exp ]
[in range ] [ weight ] [using filename ] [ , options ]
• commande (obligatoire)
• mot-clé
• [ option ] (varlist = une ou plusieurs variables)
d2e5ca9
29 / 55
Syntaxe Stata
[by varlist :] command [ varlist ] [= exp ] [if exp ]
[in range ] [ weight ] [using filename ] [ , options ]
• Les noms de variables sont sensibles à la casse
(majuscule/minuscule).
• L’instruction by permet de répéter une même instruction
par groupe d’observations (toutes les commandes Stata
ne sont pas « byable »).
• L’option weight est spécifique aux données pondérées.
• Les options if et in permettent de sélectionner des
observations selon des critères ou filtres logiques.
d2e5ca9
30 / 55
Syntaxe Stata
Statistics . Summaries, tables, and tests . Summary and descriptive statistics . Summary statistics
d2e5ca9
31 / 55
Syntaxe Stata
. help summarize
d2e5ca9
32 / 55
Syntaxe Stata
[by varlist :] command [ varlist ] [= exp ] [if exp ]
[in range ] [ weight ] [using filename ] [ , options ]
La plupart des commandes Stata peuvent être abrégées :
summarize bwt
Cela s’applique également aux noms de variable :
. su b
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------bwt |
189
2944.286
729.016
709
4990
Les abréviations sont utiles mais peuvent être difficiles à relire parfois. . . (www.stata.com/statalist/archive/
2008-09/msg00913.html)
d2e5ca9
33 / 55
Syntaxe Stata
[by varlist :] command [ varlist ] [= exp ] [if exp ]
[in range ] [ weight ] [using filename ] [ , options ]
. describe, simple
id
low
age
lwt
race
smoke
ptl
ht
ui
ftv
bwt
. summarize bwt lwt
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------bwt |
189
2944.286
729.016
709
4990
lwt |
189
129.8201
30.57515
80
250
. summarize low-lwt
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------low |
189
.3121693
.4646093
0
1
age |
189
23.2381
5.298678
14
45
lwt |
189
129.8201
30.57515
80
250
d2e5ca9
34 / 55
Syntaxe Stata
[by varlist :] command [ varlist ] [= exp ] [if exp ]
[in range] [ weight ] [using filename ] [ , options ]
. summarize bwt lwt in 1/5
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------bwt |
5
2565
31.97655
2523
2600
lwt |
5
131.4
35.20369
105
182
. list id bwt lwt in 1/5
1.
2.
3.
4.
5.
d2e5ca9
+--------------------+
| id
bwt
lwt |
|--------------------|
| 85
2523.00
182 |
| 86
2551.00
155 |
| 87
2557.00
105 |
| 88
2594.00
108 |
| 89
2600.00
107 |
+--------------------+
35 / 55
Syntaxe Stata
[by varlist :] command [ varlist ] [= exp ] [if exp]
[in range ] [ weight ] [using filename ] [ , options ]
. summarize bwt lwt if ui == 0
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------bwt |
161
3030.174
693.6957
1135
4990
lwt |
161
131.764
30.66788
85
250
. tabulate ui
presence, |
uterine |
irritabilit |
y |
Freq.
Percent
Cum.
------------+----------------------------------0 |
161
85.19
85.19
1 |
28
14.81
100.00
------------+----------------------------------Total |
189
100.00
d2e5ca9
36 / 55
Syntaxe Stata
[by varlist:] command [ varlist ] [= exp ] [if exp ]
[in range ] [ weight ] [using filename ] [ , options ]
. by ui, sort: summarize bwt lwt
-------------------------------------------------------------------------------> ui = 0
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------bwt |
161
3030.174
693.6957
1135
4990
lwt |
161
131.764
30.66788
85
250
-------------------------------------------------------------------------------> ui = 1
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------bwt |
28
2450.429
742.9769
709
3912
lwt |
28
118.6429
27.99499
80
200
d2e5ca9
37 / 55
Importation de sources de données
d2e5ca9
38 / 55
Types de fichier
Fichiers texte :
• import delimited
• infix format fixe
• infile format libre avec ou sans dictionnaire de données
Fichiers binaires : Excel, SAS XPORT, ODBC.
Par défaut, Stata cherche les fichiers dans le répertoire de travail courant. On peut le changer avec la commande cd ou avec
le navigateur de répertoire situé dans la barre d’état.
Autre type de fichiers : Stat/Transfer.
http://www.stattransfer.com
d2e5ca9
39 / 55
Importation de fichiers délimités
Fichier birthwt.csv :
low , age , lwt , race , smoke , ptl ,ht ,ui , ftv , bwt
0 ,19 ,182 ,2 ,0 ,0 ,0 ,1 ,0 ,2523
0 ,33 ,155 ,3 ,0 ,0 ,0 ,0 ,3 ,2551
0 ,20 ,105 ,1 ,1 ,0 ,0 ,0 ,1 ,2557
0 ,21 ,108 ,1 ,1 ,0 ,0 ,1 ,2 ,2594
0 ,18 ,107 ,1 ,1 ,0 ,0 ,1 ,0 ,2600
. cd ~/Documents/git/RITME/IAE/data
/Users/chl/Documents/git/RITME/IAE/data
. import delimited " birthwt . csv " , clear ///
delimiter ( comma ) varnames (1)
(10 vars, 189 obs)
d2e5ca9
40 / 55
Importation de fichiers délimités
Fichier birthwt.dat :
0
0
0
0
0
19
33
20
21
18
182
155
105
108
107
2
3
1
1
1
0
0
1
1
1
0
0
0
0
0
0
0
0
0
0
1
0
0
1
1
0
3
1
2
0
2523
2551
2557
2594
2600
. infile low age lwt race smoke ptl ht ui ///
ftv bwt using " birthwt . dat " , clear
(189 observations read)
Stata préfère généralement les extensions de type raw (utilisé par défaut par la commande write) ou txt.
d2e5ca9
41 / 55
Importation de fichiers délimités
Fichier birthwt.dct :
dictionary {
_first (1)
byte low " birthweight <2500 g"
byte age " age of mother "
int lwt " weight at last menstrual period "
byte race " race "
byte smoke " smoked during pregnancy "
byte ptl " premature labor history ( count )"
byte ht " has history of hypertension "
byte ui " presence , uterine irritability "
byte ftv " number of visits to physician during 1 st trimester "
int bwt " birthweight ( grams )"
}
. infile using "birthwt.dct", using(birthwt.dat) clear
d2e5ca9
42 / 55
Importation de fichiers délimités
Fichier lowbwt.dat :
These data come from Hosmer , D.W., Lemeshow , S. and Sturdivant , R.X. (2013)
Applied Logistic Regression : Third Edition .
These data are copyrighted by John Wiley & Sons Inc . and must be
acknowledged and used accordingly .
ID
LOW
85
86
87
88
89
91
92
93
94
95
96
97
98
99
100
101
...
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
.
d2e5ca9
AGE
LWT
19
33
20
21
18
21
22
17
29
26
19
19
22
30
18
18
..
182
155
105
108
107
124
118
103
123
113
95
150
95
107
100
100
...
RACE
2
3
1
1
1
3
1
3
1
1
3
3
3
3
1
1
.
SMOKE
PTL
0
0
1
1
1
0
0
0
1
1
0
0
0
0
1
1
.
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
.
HT
UI
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
.
1
0
0
1
1
0
0
0
0
0
0
0
0
1
0
0
.
FTV
0
3
1
2
0
0
1
1
1
0
0
1
0
2
0
0
.
BWT
2523
2551
2557
2594
2600
2622
2637
2637
2663
2665
2722
2733
2750
2750
2769
2769
....
43 / 55
Importation de fichiers délimités
Fichier lowbwt.dct :
infix dictionary using lowbwt . dat {
* Data retrieved from :
* https :// www . umass . edu / statdata / statdata / data /
8 first
1 lines
int id 2 -4
byte low 9 -10
byte age 16 -18
int lwt 22 -25
byte race 31 -32
byte smoke 39 -40
byte ptl 47 -48
byte ht 54 -55
byte ui 60 -61
byte ftv 66 -67
int bwt 72 -76
}
. infix using lowbwt.dct, clear
En pratique, infile offre plus d’options et est préférable à
infix.
d2e5ca9
44 / 55
Importation de fichiers Excel
. import excel " birthwt2 . xlsx ", sheet (" Feuille 1") ///
firstrow clear
d2e5ca9
45 / 55
Gestion d’une base de données
d2e5ca9
46 / 55
Dictionnaire de données
La commande codebook permet de lister le contenu d’une variable ou d’un tableau de données.
. webuse lbw, clear
. codebook, compact
(Hosmer & Lemeshow data)
Variable
Obs Unique
Mean Min
Max Label
------------------------------------------------------------------------------id
189
189 121.0794
4
226 identification code
low
189
2 .3121693
0
1 birthweight<2500g
age
189
24
23.2381
14
45 age of mother
lwt
189
76 129.8201
80
250 weight at last menstrual period
race
189
3 1.846561
1
3 race
smoke
189
2 .3915344
0
1 smoked during pregnancy
ptl
189
4 .1957672
0
3 premature labor history (count)
ht
189
2 .0634921
0
1 has history of hypertension
ui
189
2 .1481481
0
1 presence, uterine irritability
ftv
189
6 .7936508
0
6 number of visits to physician du...
bwt
189
133 2944.286 709 4990 birthweight (grams)
------------------------------------------------------------------------------d2e5ca9
47 / 55
Format et contenu d’une variable
. codebook race
------------------------------------------------------------------------------race
race
------------------------------------------------------------------------------type: numeric (byte)
label: race
range: [1,3]
unique values: 3
tabulation:
d2e5ca9
Freq.
96
26
67
units: 1
missing .: 0/189
Numeric Label
1 white
2 black
3 other
48 / 55
. import delimited " birthwt . csv " , clear ///
delimiter ( comma ) varnames (1)
. codebook , compact
(10 vars, 189 obs)
Variable
Obs Unique
Mean Min
Max Label
------------------------------------------------------------------------------low
189
2 .3121693
0
1
age
189
24
23.2381
14
45
lwt
189
75 129.8148
80
250
race
189
3 1.846561
1
3
smoke
189
2 .3915344
0
1
ptl
189
4 .1957672
0
3
ht
189
2 .0634921
0
1
ui
189
2 .1481481
0
1
ftv
189
6 .7936508
0
6
bwt
189
131 2944.587 709 4990
-------------------------------------------------------------------------------
d2e5ca9
49 / 55
Annotations et étiquettes de facteurs
Data . Data utilities . Label utilities
Les annotations (variables et tableau) sont gérées à l’aide de
label (data|variable|define|values).
.
.
.
.
.
.
label
note:
label
label
label
label
data "Hosmer & Lemeshow data"
Mise en forme des données lbw
define lrace 1 "white" 2 "black" 3 "other"
values race lrace
variable race "ethnicity"
list
lrace:
1 white
2 black
3 other
d2e5ca9
50 / 55
. codebook, compact
Variable Obs Unique
Mean Min
Max Label
------------------------------------------------------------------------------low
189
2 .3121693
0
1
age
189
24
23.2381
14
45
lwt
189
75 129.8148
80
250
race
189
3 1.846561
1
3 ethnicity
smoke
189
2 .3915344
0
1
ptl
189
4 .1957672
0
3
ht
189
2 .0634921
0
1
ui
189
2 .1481481
0
1
ftv
189
6 .7936508
0
6
bwt
189
131 2944.587 709 4990
-------------------------------------------------------------------------------
Commandes additionnelles : label drop (suppression d’un jeu
d’étiquettes), label copy (enregistrement d’un jeu d’étiquettes
dans un fichier do).
d2e5ca9
51 / 55
Tri d’une base de données
Data . Sort
Il est possible de réorganiser une base de données selon les valeurs d’une ou plusieurs variables : opération de tri (ascendant
ou descendant, gsort). Le tri peut se faire conditionnellement
à une autre variable.
.
.
.
.
sort bwt
sort smoke bwt
gsort -ftv bwt
list in 1/3
+--------------------------------------------------------------+
| low
age
lwt
race
smoke
ptl
ht
ui
ftv
bwt |
|--------------------------------------------------------------|
1. |
0
28
250
other
1
0
0
0
6
3303 |
2. |
1
21
100
other
0
1
0
0
4
2301 |
3. |
0
32
132
white
0
0
0
0
4
3080 |
+--------------------------------------------------------------+
d2e5ca9
52 / 55
Références I
1. AC Acock. Discovering Structural Equation Modeling Using Stata. College Station :
Stata Press, 2013.
2. AC Acock. A Gentle Introduction to Stata. College Station : Stata Press, 2014.
3. CF Baum. An Introduction to Modern Econometrics Using Stata. College Station :
Stata Press, 2006.
4. CF Baum. An introduction to Stata programming. College Station : Stata Press,
2009.
5. RA Becker, WS Cleveland, and MJ Shyu. The visual design and control of trellis
display. Journal of Computational and Statistical Graphics, 5(2) :123–155, 1996.
6. S Becketti. Introduction to Time Series Using Stata. College Station : Stata Press,
2013.
7. AC Cameron and PK Trivedi. Microeconometrics Using Stata. College Station :
Stata Press, 2010.
8. I Campbell. Chi-squared and Fisher-Irwin tests of two-by-two tables with small
sample recommendations. Statistics in Medicine, 26(19) :3661–3675, 2007.
9. LC Hamilton. Statistics with Stata : Version 12. Boston : Cengage, 2013.
10. D Hosmer and S Lemeshow. Applied Logistic Regression. New York : Wiley, 1989.
11. IT Jolliffe. Principal Component Analysis. New York, Springer, 2002.
d2e5ca9
53 / 55
Références II
12. S Juul. Lean mainstream schemes for stata 8 graphics. The Stata Journal, 3(3) :
295–301, 2003.
13. S Juul and M Frydenberg. An Introduction to Stata for Health Researchers. College
Station : Stata Press, 2014.
14. U Kohler and F Kreuter. Data Analysis Using Stata. College Station : Stata Press,
2012.
15. L Lebart, A Morineau, and M Piron. Statistique exploratoire multidimensionnelle.
Dunod, 1995.
16. JS Long. Regression Models for Categorical Dependent Variables Using Stata.
College Station : Stata Press, 2014.
17. MN Mitchell. A Visual Guide to Stata Graphics. College Station : Stata Press, 2012.
18. RG Newcombe. Two-sided confidence intervals for the single proportion : comparison of seven methods. Statistics in Medicine, 17(8) :857–872, 1998.
19. RD Peng. Reproducible research and biostatistics. Biostatistics, 10(3) :405–408,
2009.
20. EW Steyerberg, AJ Vickers, NR Cook, T Gerds, M Gonen, N Obuchowski, MJ Pencina, and MW Kattan. Assessing the performance of prediction models, a framework for traditional and novel measures. Epidemiology, 21(1) :128–138, 2010.
21. BL Welch. On the comparison of several mean values : An alternative approach.
Biometrika, 38 :330–336, 1951.
d2e5ca9
54 / 55
Index des commandes
by, 37
cd, 22, 39, 40, 49
codebook, 47, 48, 51
describe, 20–22, 34
format, 27
gsort, 52
help, 19, 26, 32
import delimited, 40, 49
d2e5ca9
import excel, 45
infile, 41, 42
infix, 44
label, 50, 51
list, 20, 21, 35
net, 21
note, 50
search, 17
sort, 37, 52
summarize, 27, 33–37
sysuse, 20
tabulate, 36
use, 22
webuse, 21, 47
write, 41
55 / 55

Documents pareils

Mémento Stata

Mémento Stata est qu'il faut disposer de beaucoup de RAM (ce qui n'est plus un problème maintenant) ou avoir des fichiers de petite taille. Il faut définir la taille de la mémoire allouée à Stata. Il n'est pas p...

Plus en détail