Introduction a l`nference statistique et au maximum

Transcription

Introduction a l`nference statistique et au maximum
Introduction a l'nference statistique et au maximum de vraisemblance
1. Max likelihood
Un expérimentateur a récolté les données suivantes en sexant 10 populations de 20 individus :
Population
Nbre de mâles
1
13
2
10
3
5
4
4
5
10
6
11
7
7
8
8
9
8
10
5
Il sinteresse au sex-ratio dans cette espece.
1.
2.
3.
4.
5.
De quel type de donnees s'agit-il ?
Quel modele statistique proposeriez-vous pour analyser ce type de donnees ?
Quelle est la fonction de vraisemblance ?
Quel est l'estimateur de maximum de vraisemblance du sex-ratio selon votre modele ?
La theorie que notre experimentateur cherche a tester est celle d'un sex-ratio equilibre de
50/50. Cette theorie est-elle satisfaisante pour expliquer son jeu de donnees ?
6. Construisez un intervalle de confiance a 95 % pour le sex-ratio estime.
7. Comment les conclusions changeraient-elles si seulement 100 individus avait ete sexes ?
En verifiant les cahiers de manip de son stagiaire, le chercheur remarque que les populations 3, 4, 5
et 10 ont ete analysees le week-end. Lorsque l'on est presse, une dissection hative peut emmener de
conclure erronément a des individus femelles. Il soupconne donc un biais pour ces populations.
1.
2.
3.
4.
Quel modele pourrait decrire cette derniere hypothese ?
Combien de parametres estime-t-il ?
Ecrire sa fonction de vraisemblance et l'ajuster aux donnees.
Explique-t-il les donnees significativement mieux que le modele initial ?
Comment testeriez-vous l'hypothese que toutes les populations ont la meme valeur de sex-ratio ?
1. Combien de tests statistiques avez-vous realise ?
2. Si toutes les proportions sont effectivement identiques, quelle est la probabilite qu'au moins
un test soit significatif ?
3. Comment remedier a ce probleme ?
2. Ordinary least-squares
Notons la taille (en cm) de chaque participant a ce cours.
8. De quel type de donnees s'agit-il ?
9. Quel modele statistique proposeriez-vous pour analyser ce type de donnees ?
10. Quelle est la fonction de vraisemblance ? Combien de parametres doivent etre estimes ?
11. Dessiner la surface de vraisemblance
12. Quel est l'estimateur de maximum de vraisemblance ?
13. Construire un intervalle de confiance autour de l'estimateur de maximum de vraisemblance.
14. On veut savoir si les filles sont significativement plus petites que les garcons d'apres cet
echantillon. Quel modele pourrait decrire cette derniere hypothese ?
15. Comparer les deux moyennes, conclure.
Imaginons que l'on obtienne la moyenne de la taille de la pere et de la mere de chacun (au meme
age).
16. Comment testeriez-vous l'hypothese que votre generation est en moyenne plus grande que
celle de vos parents ?
17. Quel methode statistique classique generalise les test precedents lorqu'il y a plus que deux
groupes a comparer ?
3. Regression / correlation
Un chercheur mesure dans la nature la duree de floraison d'une espece menacee de Boraginaceae,
pour 30 individus, et cherche a savoir si cette duree de floraison augmente avec la taille des
individus.
1.
2.
3.
4.
Quelle est la nature des variables ? Quelle methode statistique recommandez-vous ?
Quel est le modele statistique correspondant a cette methode ?
Combien de parametres estime-t-il ? Quelle est sa fonction de vraisemblance ?
Conduire une regression lineaire. Interpreter les diagnostics de regression. Y-a-t-il une
relation significative entre les deux variables ?
5. Quel est le coefficient de determination ? La correlation entre les deux variables ?
4. Combiner des intercepts et des pentes : le modele lineaire general(ise)
Telechargez des donnees decrivant les revenus annuels d'un millier de de personnes, leur taille et
leur sexe :
library(''foreign'');
read.dta ("http://www.stat.columbia.edu/~gelman/arm/examples/earnings/heights.dta")
1.
2.
3.
4.
Quel type de donnees sont disponibles ? Quelle est la taille d'echantillon ?
Comment etudier si la taille des gens a une influence sur leurs revenus moyens ?
Quelle allure a la distribution des donnees ? Une transformation est-elle recommandable ?
Quel pourrait etre un facteur confondant ? Comment le controler dans le modele ? Change-til les conlusions ?
5. Y-a-t-il une interaction entre les 2 facteurs ?
Telechargez le jeu de donnees 'small babies'.
6. De quel type de donnees s'agit-il ? Quels sont les predicteurs ? La variable dependante ?
7. Quel type de modele pourrait-etre approprie ?
8. Quels caracteres semblent associes a une forte probabilite d'avoir un bebe anormalement
petit a la naissance ?
5. Methodes non-parametriques
1. Comparez la taille moyenne des filles et des garcons (exo 2) en utilisant un test non
parametrique. En quoi le resultat differe-t-il de l'approche precedente ?
2. Quantifiez la correlation entre taille et duree de floraison (exo 3) en utilisant une methode
non-parametrique. La correlation est-elle significative ?
3. Les differentes categories d'age (exo 4) ont-elles en moyenne les memes revenus ?
Comparez les resultats avec et sans la transformation des donnees. Qu'est-ce qui change ?