Analyse de données
Transcription
Analyse de données
Analyse de données Simon Porcher [email protected] Ce qu’il faut retenir de R > mabase= read.table("C:/Users/Simon/Desktop/baseR.txt", header = TRUE) permet d’ouvrir une base de données. Les bases de données sous R sont au format .txt header = TRUE permet de garder le nom des variables mabase = permet de nommer la base de données. Simon Porcher 2 Ce qu’il faut retenir de R > attach(market) permet d’éviter de retaper à chaque fois « market$xxx » > summary(market) résume toutes les données de la base Simon Porcher 3 Ce qu’il faut retenir de R > plot(revenuannuel) fait un nuage de points > pie(table(csp)) donne un secteur des csp > hist(market$revenuannuel, x) permet d’obtenir un histogramme, x est le nombre de segments. > plot(age, revenuannuel, xlab="Age", ylab="Revenu annuel (en euros)", main="Relation entre l'âge et le revenu annuel") Simon Porcher 4 Ce qu’il faut retenir de R Linreg = lm(revenuannuel~age) summary(Linreg) Linreg est le nom de la régression, c’est-à-dire de notre droite résumant la relation entre les deux variables; lm désigne le modèle linéaire (équivalent y = ax +b) summary(Linreg) donne les coefficients et les marges d’erreurs des modèles abline(Linreg, col = "red") trace la régression linéaire dans notre graphique « plot » Simon Porcher 5 Ce qu’il faut retenir de R Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 12190.9 4699.7 2.594 0.01093 * age 376.5 127.1 2.963 0.00381 ** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 10750 on 99 degrees of freedom Multiple R-squared: 0.08148, Adjusted R-squared: 0.0722 F-statistic: 8.782 on 1 and 99 DF, p-value: 0.003811 Y = 12190.9 + 376.5 X donc si X = 30 par exemple, on peut en déduire Y = 12190.9 + 376.5 * 30 = 23485. 9 Simon Porcher 6 Ce qu’il faut retenir de R lm(revenuannuel~age + sexe + csp) linreg = lm(revenuannuel~age) summary(linreg) Idem qu’avant sauf que le modèle est à plusieurs dimensions Généralement mieux : le salaire s’explique par l’âge mais également par la CSP, le niveau d’études, la région dans laquelle vous vivez, etc. Simon Porcher 7 Ce qu’il faut retenir de R Residuals: Min 1Q Median 3Q Max -18519 -4632 -659 2245 59644 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 17399.9 4275.8 4.069 9.67e-05 *** age 459.1 109.4 4.195 6.08e-05 *** sexeHomme -4588.2 2086.3 -2.199 0.03027 * cspemployé -11666.4 2182.3 -5.346 6.07e-07 *** csplibéral -7303.9 2386.8 -3.060 0.00287 ** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 9183 on 96 degrees of freedom Multiple R-squared: 0.3496, Adjusted R-squared: 0.3225 F-statistic: 12.9 on 4 and 96 DF, p-value: 1.918e-08 Y = 459.1 X1 -4588.2 X2 – 11666.4 X3 – 7303.9 X4 + 17399.9 Simon Porcher 8 Correction du devoir •Etendue: 31-2 = 29 •Point aberrant: 33 •Mode: 12 tirs •Série désaxée à gauche donc points extrêmes tirent la moyenne vers le haut (5 points) •10 tirs: 8% (2points) •X>=20 tirs: 10% (3 points) Simon Porcher 9 Correction du devoir •Quels sont les biais de la collecte de données ? •Quelles sont les différentes formes possibles de collecte des données ? •Définissez et donnez un exemple de variable qualitative. Ne représente pas une quantité = relative à la qualité des ind. •Donnez un exemple de variable quantitative. •Qu’est-ce qu’une fréquence ? Décompte des observations dans un intervalle •Qu’est-ce que la médiane ? •La médiane est-elle plus stable que la moyenne ? Pourquoi ? •Qu’est-ce qu’une distribution bimodale ? •Que peut-on déduire de la distribution à partir de l’écart-type ? •Qu’est-ce qu’une régression ? Simon Porcher 10 Correction du devoir Identifiez la distribution marginale des morts et celle des carences. Pour les morts : 9240-1260 Calculer et définir la distribution conditionnelle des morts selon que la mère ait eu des carences ou non. 88% des enfants dont la mère a eu une carences ne sont pas morts et 12% sont morts. Idem 88% et 12% si la mère n’a pas eu de carences. Simon Porcher 11 Correction du devoir Faire un histogramme empilé à 100% de la distribution des morts selon que la mère ait eu des carences ou non. Problème sur cette question, on vous demandait de faire le graphique de la question précédente. Vous avez les points si vous avez regardé les enfants effectivement morts en fonction du statut de la mère. Ainsi 1200/1260 = 95% des enfants morts avaient une mère avec des carences. Simon Porcher 12 Correction du devoir Calculer la distribution conditionnelle des carences de la mère selon que l’enfant soit mort ou non. 8800/9240 et 1200/1260=95% des mères n’avaient pas de carences, que l’enfant soit mort ou non. Celles qui avaient des carences représentent 5% des mères, que l’enfant soit mort ou non. Simon Porcher 13