Analyse de données

Transcription

Analyse de données
Analyse de données
Simon Porcher
[email protected]
Ce qu’il faut retenir de R
> mabase= read.table("C:/Users/Simon/Desktop/baseR.txt",
header = TRUE) permet d’ouvrir une base de données.
Les bases de données sous R sont au format .txt
header = TRUE permet de garder le nom des variables
mabase = permet de nommer la base de données.
Simon Porcher
2
Ce qu’il faut retenir de R
> attach(market) permet d’éviter de retaper à chaque fois
« market$xxx »
> summary(market) résume toutes les données de la base
Simon Porcher
3
Ce qu’il faut retenir de R
> plot(revenuannuel) fait un nuage de points
> pie(table(csp)) donne un secteur des csp
> hist(market$revenuannuel, x) permet d’obtenir un
histogramme, x est le nombre de segments.
> plot(age, revenuannuel, xlab="Age", ylab="Revenu annuel
(en euros)", main="Relation entre l'âge et le revenu
annuel")
Simon Porcher
4
Ce qu’il faut retenir de R
Linreg = lm(revenuannuel~age)
summary(Linreg)
Linreg est le nom de la régression, c’est-à-dire de notre droite
résumant la relation entre les deux variables; lm désigne le
modèle linéaire (équivalent y = ax +b)
summary(Linreg) donne les coefficients et les marges
d’erreurs des modèles
abline(Linreg, col = "red") trace la régression linéaire dans
notre graphique « plot »
Simon Porcher
5
Ce qu’il faut retenir de R
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 12190.9 4699.7 2.594 0.01093 *
age
376.5
127.1 2.963 0.00381 **
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 10750 on 99 degrees of freedom
Multiple R-squared: 0.08148, Adjusted R-squared: 0.0722
F-statistic: 8.782 on 1 and 99 DF, p-value: 0.003811
Y = 12190.9 + 376.5 X donc si X = 30 par exemple, on peut en déduire
Y = 12190.9 + 376.5 * 30 = 23485. 9
Simon Porcher
6
Ce qu’il faut retenir de R
lm(revenuannuel~age + sexe + csp)
linreg = lm(revenuannuel~age)
summary(linreg)
Idem qu’avant sauf que le modèle est à plusieurs dimensions
Généralement mieux : le salaire s’explique par l’âge mais
également par la CSP, le niveau d’études, la région dans
laquelle vous vivez, etc.
Simon Porcher
7
Ce qu’il faut retenir de R
Residuals:
Min 1Q Median 3Q Max
-18519 -4632 -659 2245 59644
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 17399.9 4275.8 4.069 9.67e-05 ***
age
459.1 109.4 4.195 6.08e-05 ***
sexeHomme -4588.2 2086.3 -2.199 0.03027 *
cspemployé -11666.4 2182.3 -5.346 6.07e-07 ***
csplibéral -7303.9 2386.8 -3.060 0.00287 **
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 9183 on 96 degrees of freedom
Multiple R-squared: 0.3496, Adjusted R-squared: 0.3225
F-statistic: 12.9 on 4 and 96 DF, p-value: 1.918e-08
Y = 459.1 X1 -4588.2 X2 – 11666.4 X3 – 7303.9 X4 + 17399.9
Simon Porcher
8
Correction du devoir
•Etendue: 31-2 = 29
•Point aberrant: 33
•Mode: 12 tirs
•Série désaxée à
gauche donc points
extrêmes tirent la
moyenne vers le haut
(5 points)
•10 tirs: 8% (2points)
•X>=20 tirs: 10% (3
points)
Simon Porcher
9
Correction du devoir
•Quels sont les biais de la collecte de données ?
•Quelles sont les différentes formes possibles de collecte des
données ?
•Définissez et donnez un exemple de variable qualitative.
Ne représente pas une quantité = relative à la qualité des ind.
•Donnez un exemple de variable quantitative.
•Qu’est-ce qu’une fréquence ?
Décompte des observations dans un intervalle
•Qu’est-ce que la médiane ?
•La médiane est-elle plus stable que la moyenne ? Pourquoi ?
•Qu’est-ce qu’une distribution bimodale ?
•Que peut-on déduire de la distribution à partir de l’écart-type ?
•Qu’est-ce qu’une régression ?
Simon Porcher
10
Correction du devoir
Identifiez la distribution marginale des morts et celle des
carences.
Pour les morts : 9240-1260
Calculer et définir la distribution conditionnelle des morts selon
que la mère ait eu des carences ou non. 88% des enfants dont
la mère a eu une carences ne sont pas morts et 12% sont
morts. Idem 88% et 12% si la mère n’a pas eu de carences.
Simon Porcher
11
Correction du devoir
Faire un histogramme empilé à 100% de la distribution des
morts selon que la mère ait eu des carences ou non. Problème
sur cette question, on vous demandait de faire le graphique de
la question précédente.
Vous avez les points si vous avez regardé les enfants
effectivement morts en fonction du statut de la mère. Ainsi
1200/1260 = 95% des enfants morts avaient une mère avec
des carences.
Simon Porcher
12
Correction du devoir
Calculer la distribution conditionnelle des carences de la mère
selon que l’enfant soit mort ou non.
8800/9240 et 1200/1260=95% des mères n’avaient pas de
carences, que l’enfant soit mort ou non.
Celles qui avaient des carences représentent 5% des mères,
que l’enfant soit mort ou non.
Simon Porcher
13