Analyse de données

Transcription

Analyse de données

Analyse de données
Simon Porcher
[email protected]
Ce qu’il faut retenir de R
> mabase= read.table("C:/Users/Simon/Desktop/baseR.txt",
header = TRUE) permet d’ouvrir une base de données.
Les bases de données sous R sont au format .txt
header = TRUE permet de garder le nom des variables
mabase = permet de nommer la base de données.
Simon Porcher
2
> attach(market) permet d’éviter de retaper à chaque fois
« market$xxx »
> summary(market) résume toutes les données de la base
Simon Porcher
3
> plot(revenuannuel) fait un nuage de points
> pie(table(csp)) donne un secteur des csp
> hist(market$revenuannuel, x) permet d’obtenir un
histogramme, x est le nombre de segments.
> plot(age, revenuannuel, xlab="Age", ylab="Revenu annuel
(en euros)", main="Relation entre l'âge et le revenu
annuel")
Simon Porcher
4
Linreg = lm(revenuannuel~age)
summary(Linreg)
Linreg est le nom de la régression, c’est-à-dire de notre droite
résumant la relation entre les deux variables; lm désigne le
modèle linéaire (équivalent y = ax +b)
summary(Linreg) donne les coefficients et les marges
d’erreurs des modèles
abline(Linreg, col = "red") trace la régression linéaire dans
notre graphique « plot »
Simon Porcher
5
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 12190.9 4699.7 2.594 0.01093 *
age
376.5
127.1 2.963 0.00381 **
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 10750 on 99 degrees of freedom
Multiple R-squared: 0.08148, Adjusted R-squared: 0.0722
F-statistic: 8.782 on 1 and 99 DF, p-value: 0.003811
Y = 12190.9 + 376.5 X donc si X = 30 par exemple, on peut en déduire
Y = 12190.9 + 376.5 * 30 = 23485. 9
Simon Porcher
6
lm(revenuannuel~age + sexe + csp)
linreg = lm(revenuannuel~age)
summary(linreg)
Idem qu’avant sauf que le modèle est à plusieurs dimensions
Généralement mieux : le salaire s’explique par l’âge mais
également par la CSP, le niveau d’études, la région dans
laquelle vous vivez, etc.
Simon Porcher
7
Residuals:
Min 1Q Median 3Q Max
-18519 -4632 -659 2245 59644
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 17399.9 4275.8 4.069 9.67e-05 ***
age
459.1 109.4 4.195 6.08e-05 ***
sexeHomme -4588.2 2086.3 -2.199 0.03027 *
cspemployé -11666.4 2182.3 -5.346 6.07e-07 ***
csplibéral -7303.9 2386.8 -3.060 0.00287 **
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 9183 on 96 degrees of freedom
Multiple R-squared: 0.3496, Adjusted R-squared: 0.3225
F-statistic: 12.9 on 4 and 96 DF, p-value: 1.918e-08
Y = 459.1 X1 -4588.2 X2 – 11666.4 X3 – 7303.9 X4 + 17399.9
Simon Porcher
8
Correction du devoir
•Etendue: 31-2 = 29
•Point aberrant: 33
•Mode: 12 tirs
•Série désaxée à
gauche donc points
extrêmes tirent la
moyenne vers le haut
(5 points)
•10 tirs: 8% (2points)
•X>=20 tirs: 10% (3
points)
Simon Porcher
9
•Quels sont les biais de la collecte de données ?
•Quelles sont les différentes formes possibles de collecte des
données ?
•Définissez et donnez un exemple de variable qualitative.
Ne représente pas une quantité = relative à la qualité des ind.
•Donnez un exemple de variable quantitative.
•Qu’est-ce qu’une fréquence ?
Décompte des observations dans un intervalle
•Qu’est-ce que la médiane ?
•La médiane est-elle plus stable que la moyenne ? Pourquoi ?
•Qu’est-ce qu’une distribution bimodale ?
•Que peut-on déduire de la distribution à partir de l’écart-type ?
•Qu’est-ce qu’une régression ?
Simon Porcher
10
Identifiez la distribution marginale des morts et celle des
carences.
Pour les morts : 9240-1260
Calculer et définir la distribution conditionnelle des morts selon
que la mère ait eu des carences ou non. 88% des enfants dont
la mère a eu une carences ne sont pas morts et 12% sont
morts. Idem 88% et 12% si la mère n’a pas eu de carences.
Simon Porcher
11
Faire un histogramme empilé à 100% de la distribution des
morts selon que la mère ait eu des carences ou non. Problème
sur cette question, on vous demandait de faire le graphique de
la question précédente.
Vous avez les points si vous avez regardé les enfants
effectivement morts en fonction du statut de la mère. Ainsi
1200/1260 = 95% des enfants morts avaient une mère avec
des carences.
Simon Porcher
12
Calculer la distribution conditionnelle des carences de la mère
selon que l’enfant soit mort ou non.
8800/9240 et 1200/1260=95% des mères n’avaient pas de
carences, que l’enfant soit mort ou non.
Celles qui avaient des carences représentent 5% des mères,
que l’enfant soit mort ou non.
Simon Porcher
13

Analyse de données

Transcription

Documents pareils

NEWS PORCHER SPORT : LE SKYTEX 32 DE PRèS

salon céréales tableau récréation nez jambe capable numéro

lunettes restaurant robe chapeau gant rire mode porter couleur

Résidence du Bois Soleil

Les contributeurs

comptine sourire champion gymnase nuage visage poète rime

Le FLE/S dans tous ses états : dialogues avec Louis Porcher Axe 1

Les jeux de la semaine Venez et voyez

cour line porcher bbc - Val Touraine Habitat

compte rendu conseil d`école n°3

Le Groupe PORCHER INDUSTRIES (2200 collaborateurs et 12